Whamcloud - gitweb
LU-7318 out: dynamic reply size
[fs/lustre-release.git] / lustre / osp / osp_trans.c
1 /*
2  * GPL HEADER START
3  *
4  * DO NOT ALTER OR REMOVE COPYRIGHT NOTICES OR THIS FILE HEADER.
5  *
6  * This program is free software; you can redistribute it and/or modify
7  * it under the terms of the GNU General Public License version 2 only,
8  * as published by the Free Software Foundation.
9  *
10  * This program is distributed in the hope that it will be useful, but
11  * WITHOUT ANY WARRANTY; without even the implied warranty of
12  * MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the GNU
13  * General Public License version 2 for more details (a copy is included
14  * in the LICENSE file that accompanied this code).
15  *
16  * You should have received a copy of the GNU General Public License
17  * version 2 along with this program; If not, see
18  * http://www.gnu.org/licenses/gpl-2.0.html
19  *
20  * GPL HEADER END
21  */
22 /*
23  * Copyright (c) 2014, 2015, Intel Corporation.
24  */
25 /*
26  * lustre/osp/osp_trans.c
27  *
28  *
29  * 1. OSP (Object Storage Proxy) transaction methods
30  *
31  * Implement OSP layer transaction related interfaces for the dt_device API
32  * dt_device_operations.
33  *
34  *
35  * 2. Handle asynchronous idempotent operations
36  *
37  * The OSP uses OUT (Object Unified Target) RPC to talk with other server
38  * (MDT or OST) for kinds of operations, such as create, unlink, insert,
39  * delete, lookup, set_(x)attr, get_(x)attr, and etc. To reduce the number
40  * of RPCs, we allow multiple operations to be packaged together in single
41  * OUT RPC.
42  *
43  * For the asynchronous idempotent operations, such as get_(x)attr, related
44  * RPCs will be inserted into an osp_device based shared asynchronous request
45  * queue - osp_device::opd_async_requests. When the queue is full, all the
46  * requests in the queue will be packaged into a single OUT RPC and given to
47  * the ptlrpcd daemon (for sending), then the queue is purged and other new
48  * requests can be inserted into it.
49  *
50  * When the asynchronous idempotent operation inserts the request into the
51  * shared queue, it will register an interpreter. When the packaged OUT RPC
52  * is replied (or failed to be sent out), all the registered interpreters
53  * will be called one by one to handle each own result.
54  *
55  *
56  * There are three kinds of transactions
57  *
58  * 1. Local transaction, all of updates of the transaction are in the local MDT.
59  * 2. Remote transaction, all of updates of the transaction are in one remote
60  * MDT, which only happens in LFSCK now.
61  * 3. Distribute transaction, updates for the transaction are in mulitple MDTs.
62  *
63  * Author: Di Wang <di.wang@intel.com>
64  * Author: Fan, Yong <fan.yong@intel.com>
65  */
66
67 #define DEBUG_SUBSYSTEM S_MDS
68
69 #include <lustre_net.h>
70 #include "osp_internal.h"
71
72 /**
73  * The argument for the interpreter callback of osp request.
74  */
75 struct osp_update_args {
76         struct osp_update_request *oaua_update;
77         atomic_t                 *oaua_count;
78         wait_queue_head_t        *oaua_waitq;
79         bool                      oaua_flow_control;
80 };
81
82 /**
83  * Call back for each update request.
84  */
85 struct osp_update_callback {
86         /* list in the osp_update_request::our_cb_items */
87         struct list_head                 ouc_list;
88
89         /* The target of the async update request. */
90         struct osp_object               *ouc_obj;
91
92         /* The data used by or_interpreter. */
93         void                            *ouc_data;
94
95         /* The interpreter function called after the async request handled. */
96         osp_update_interpreter_t        ouc_interpreter;
97 };
98
99 static struct object_update_request *object_update_request_alloc(size_t size)
100 {
101         struct object_update_request *ourq;
102
103         OBD_ALLOC_LARGE(ourq, size);
104         if (ourq == NULL)
105                 return ERR_PTR(-ENOMEM);
106
107         ourq->ourq_magic = UPDATE_REQUEST_MAGIC;
108         ourq->ourq_count = 0;
109
110         return ourq;
111 }
112
113 /**
114  * Allocate new update request
115  *
116  * Allocate new update request and insert it to the req_update_list.
117  *
118  * \param [in] our      osp_udate_request where to create a new
119  *                      update request
120  *
121  * \retval      0 if creation succeeds.
122  * \retval      negative errno if creation fails.
123  */
124 int osp_object_update_request_create(struct osp_update_request *our,
125                                      size_t size)
126 {
127         struct osp_update_request_sub *ours;
128
129         OBD_ALLOC_PTR(ours);
130         if (ours == NULL)
131                 return -ENOMEM;
132
133         if (size < OUT_UPDATE_INIT_BUFFER_SIZE)
134                 size = OUT_UPDATE_INIT_BUFFER_SIZE;
135
136         ours->ours_req = object_update_request_alloc(size);
137
138         if (IS_ERR(ours->ours_req)) {
139                 OBD_FREE_PTR(ours);
140                 return -ENOMEM;
141         }
142
143         ours->ours_req_size = size;
144         INIT_LIST_HEAD(&ours->ours_list);
145         list_add_tail(&ours->ours_list, &our->our_req_list);
146         our->our_req_nr++;
147
148         return 0;
149 }
150
151 /**
152  * Get current update request
153  *
154  * Get current object update request from our_req_list in
155  * osp_update_request, because we always insert the new update
156  * request in the last position, so the last update request
157  * in the list will be the current update req.
158  *
159  * \param[in] our       osp update request where to get the
160  *                      current object update.
161  *
162  * \retval              the current object update.
163  **/
164 struct osp_update_request_sub *
165 osp_current_object_update_request(struct osp_update_request *our)
166 {
167         if (list_empty(&our->our_req_list))
168                 return NULL;
169
170         return list_entry(our->our_req_list.prev, struct osp_update_request_sub,
171                           ours_list);
172 }
173
174 /**
175  * Allocate and initialize osp_update_request
176  *
177  * osp_update_request is being used to track updates being executed on
178  * this dt_device(OSD or OSP). The update buffer will be 4k initially,
179  * and increased if needed.
180  *
181  * \param [in] dt       dt device
182  *
183  * \retval              osp_update_request being allocated if succeed
184  * \retval              ERR_PTR(errno) if failed
185  */
186 struct osp_update_request *osp_update_request_create(struct dt_device *dt)
187 {
188         struct osp_update_request *our;
189
190         OBD_ALLOC_PTR(our);
191         if (our == NULL)
192                 return ERR_PTR(-ENOMEM);
193
194         INIT_LIST_HEAD(&our->our_req_list);
195         INIT_LIST_HEAD(&our->our_cb_items);
196         INIT_LIST_HEAD(&our->our_list);
197
198         osp_object_update_request_create(our, OUT_UPDATE_INIT_BUFFER_SIZE);
199         return our;
200 }
201
202 void osp_update_request_destroy(struct osp_update_request *our)
203 {
204         struct osp_update_request_sub *ours;
205         struct osp_update_request_sub *tmp;
206
207         if (our == NULL)
208                 return;
209
210         list_for_each_entry_safe(ours, tmp, &our->our_req_list, ours_list) {
211                 list_del(&ours->ours_list);
212                 if (ours->ours_req != NULL)
213                         OBD_FREE(ours->ours_req, ours->ours_req_size);
214                 OBD_FREE_PTR(ours);
215         }
216         OBD_FREE_PTR(our);
217 }
218
219 static void
220 object_update_request_dump(const struct object_update_request *ourq,
221                            unsigned int mask)
222 {
223         unsigned int i;
224         size_t total_size = 0;
225
226         for (i = 0; i < ourq->ourq_count; i++) {
227                 struct object_update    *update;
228                 size_t                  size = 0;
229
230                 update = object_update_request_get(ourq, i, &size);
231                 LASSERT(update != NULL);
232                 CDEBUG(mask, "i = %u fid = "DFID" op = %s "
233                        "params = %d batchid = "LPU64" size = %zu repsize %u\n",
234                        i, PFID(&update->ou_fid),
235                        update_op_str(update->ou_type),
236                        update->ou_params_count,
237                        update->ou_batchid, size,
238                        (unsigned)update->ou_result_size);
239
240                 total_size += size;
241         }
242
243         CDEBUG(mask, "updates = %p magic = %x count = %d size = %zu\n", ourq,
244                ourq->ourq_magic, ourq->ourq_count, total_size);
245 }
246
247 /**
248  * Prepare inline update request
249  *
250  * Prepare OUT update ptlrpc inline request, and the request usually includes
251  * one update buffer, which does not need bulk transfer.
252  *
253  * \param[in] env       execution environment
254  * \param[in] req       ptlrpc request
255  * \param[in] ours      sub osp_update_request to be packed
256  *
257  * \retval              0 if packing succeeds
258  * \retval              negative errno if packing fails
259  */
260 int osp_prep_inline_update_req(const struct lu_env *env,
261                                struct ptlrpc_request *req,
262                                struct osp_update_request *our,
263                                int repsize)
264 {
265         struct osp_update_request_sub *ours;
266         struct out_update_header *ouh;
267         __u32 update_req_size;
268         int rc;
269
270         ours = list_entry(our->our_req_list.next,
271                           struct osp_update_request_sub, ours_list);
272         update_req_size = object_update_request_size(ours->ours_req);
273         req_capsule_set_size(&req->rq_pill, &RMF_OUT_UPDATE_HEADER, RCL_CLIENT,
274                              update_req_size + sizeof(*ouh));
275
276         rc = ptlrpc_request_pack(req, LUSTRE_MDS_VERSION, OUT_UPDATE);
277         if (rc != 0)
278                 RETURN(rc);
279
280         ouh = req_capsule_client_get(&req->rq_pill, &RMF_OUT_UPDATE_HEADER);
281         ouh->ouh_magic = OUT_UPDATE_HEADER_MAGIC;
282         ouh->ouh_count = 1;
283         ouh->ouh_inline_length = update_req_size;
284         ouh->ouh_reply_size = repsize;
285
286         memcpy(ouh->ouh_inline_data, ours->ours_req, update_req_size);
287
288         req_capsule_set_size(&req->rq_pill, &RMF_OUT_UPDATE_REPLY,
289                              RCL_SERVER, repsize);
290
291         ptlrpc_request_set_replen(req);
292         req->rq_request_portal = OUT_PORTAL;
293         req->rq_reply_portal = OSC_REPLY_PORTAL;
294
295         RETURN(rc);
296 }
297
298 /**
299  * Prepare update request.
300  *
301  * Prepare OUT update ptlrpc request, and the request usually includes
302  * all of updates (stored in \param ureq) from one operation.
303  *
304  * \param[in] env       execution environment
305  * \param[in] imp       import on which ptlrpc request will be sent
306  * \param[in] ureq      hold all of updates which will be packed into the req
307  * \param[in] reqp      request to be created
308  *
309  * \retval              0 if preparation succeeds.
310  * \retval              negative errno if preparation fails.
311  */
312 int osp_prep_update_req(const struct lu_env *env, struct obd_import *imp,
313                         struct osp_update_request *our,
314                         struct ptlrpc_request **reqp)
315 {
316         struct ptlrpc_request           *req;
317         struct ptlrpc_bulk_desc         *desc;
318         struct osp_update_request_sub   *ours;
319         const struct object_update_request *ourq;
320         struct out_update_header        *ouh;
321         struct out_update_buffer        *oub;
322         __u32                           buf_count = 0;
323         int                             repsize = 0;
324         struct object_update_reply      *reply;
325         int                             rc, i;
326         int                             total = 0;
327         ENTRY;
328
329         list_for_each_entry(ours, &our->our_req_list, ours_list) {
330                 object_update_request_dump(ours->ours_req, D_INFO);
331
332                 ourq = ours->ours_req;
333                 for (i = 0; i < ourq->ourq_count; i++) {
334                         struct object_update    *update;
335                         size_t                  size = 0;
336
337
338                         /* XXX: it's very inefficient to lookup update
339                          *      this way, iterating from the beginning
340                          *      each time */
341                         update = object_update_request_get(ourq, i, &size);
342                         LASSERT(update != NULL);
343
344                         repsize += sizeof(reply->ourp_lens[0]);
345                         repsize += sizeof(struct object_update_result);
346                         repsize += update->ou_result_size;
347                 }
348
349                 buf_count++;
350         }
351         repsize += sizeof(*reply);
352         repsize = (repsize + OUT_UPDATE_REPLY_SIZE - 1) &
353                         ~(OUT_UPDATE_REPLY_SIZE - 1);
354         LASSERT(buf_count > 0);
355
356         req = ptlrpc_request_alloc(imp, &RQF_OUT_UPDATE);
357         if (req == NULL)
358                 RETURN(-ENOMEM);
359
360         if (buf_count == 1) {
361                 ours = list_entry(our->our_req_list.next,
362                                   struct osp_update_request_sub, ours_list);
363
364                 /* Let's check if it can be packed inline */
365                 if (object_update_request_size(ours->ours_req) +
366                     sizeof(struct out_update_header) <
367                                 OUT_UPDATE_MAX_INLINE_SIZE) {
368                         rc = osp_prep_inline_update_req(env, req, our, repsize);
369                         if (rc == 0)
370                                 *reqp = req;
371                         GOTO(out_req, rc);
372                 }
373         }
374
375         req_capsule_set_size(&req->rq_pill, &RMF_OUT_UPDATE_HEADER, RCL_CLIENT,
376                              sizeof(struct osp_update_request));
377
378         req_capsule_set_size(&req->rq_pill, &RMF_OUT_UPDATE_BUF, RCL_CLIENT,
379                              buf_count * sizeof(*oub));
380
381         rc = ptlrpc_request_pack(req, LUSTRE_MDS_VERSION, OUT_UPDATE);
382         if (rc != 0)
383                 GOTO(out_req, rc);
384
385         ouh = req_capsule_client_get(&req->rq_pill, &RMF_OUT_UPDATE_HEADER);
386         ouh->ouh_magic = OUT_UPDATE_HEADER_MAGIC;
387         ouh->ouh_count = buf_count;
388         ouh->ouh_inline_length = 0;
389         ouh->ouh_reply_size = repsize;
390         oub = req_capsule_client_get(&req->rq_pill, &RMF_OUT_UPDATE_BUF);
391         list_for_each_entry(ours, &our->our_req_list, ours_list) {
392                 oub->oub_size = ours->ours_req_size;
393                 oub++;
394         }
395
396         req->rq_bulk_write = 1;
397         desc = ptlrpc_prep_bulk_imp(req, buf_count,
398                 MD_MAX_BRW_SIZE >> LNET_MTU_BITS,
399                 PTLRPC_BULK_GET_SOURCE | PTLRPC_BULK_BUF_KVEC,
400                 MDS_BULK_PORTAL, &ptlrpc_bulk_kvec_ops);
401         if (desc == NULL)
402                 GOTO(out_req, rc = -ENOMEM);
403
404         /* NB req now owns desc and will free it when it gets freed */
405         list_for_each_entry(ours, &our->our_req_list, ours_list) {
406                 desc->bd_frag_ops->add_iov_frag(desc, ours->ours_req,
407                                                 ours->ours_req_size);
408                 total += ours->ours_req_size;
409         }
410         CDEBUG(D_OTHER, "total %d in %u\n", total, our->our_update_nr);
411
412         req_capsule_set_size(&req->rq_pill, &RMF_OUT_UPDATE_REPLY,
413                              RCL_SERVER, repsize);
414
415         ptlrpc_request_set_replen(req);
416         req->rq_request_portal = OUT_PORTAL;
417         req->rq_reply_portal = OSC_REPLY_PORTAL;
418         *reqp = req;
419
420 out_req:
421         if (rc < 0)
422                 ptlrpc_req_finished(req);
423
424         RETURN(rc);
425 }
426
427 /**
428  * Send update RPC.
429  *
430  * Send update request to the remote MDT synchronously.
431  *
432  * \param[in] env       execution environment
433  * \param[in] imp       import on which ptlrpc request will be sent
434  * \param[in] our       hold all of updates which will be packed into the req
435  * \param[in] reqp      request to be created
436  *
437  * \retval              0 if RPC succeeds.
438  * \retval              negative errno if RPC fails.
439  */
440 int osp_remote_sync(const struct lu_env *env, struct osp_device *osp,
441                     struct osp_update_request *our,
442                     struct ptlrpc_request **reqp)
443 {
444         struct obd_import       *imp = osp->opd_obd->u.cli.cl_import;
445         struct ptlrpc_request   *req = NULL;
446         int                     rc;
447         ENTRY;
448
449         rc = osp_prep_update_req(env, imp, our, &req);
450         if (rc != 0)
451                 RETURN(rc);
452
453         /* This will only be called with read-only update, and these updates
454          * might be used to retrieve update log during recovery process, so
455          * it will be allowed to send during recovery process */
456         req->rq_allow_replay = 1;
457
458         /* Note: some dt index api might return non-zero result here, like
459          * osd_index_ea_lookup, so we should only check rc < 0 here */
460         rc = ptlrpc_queue_wait(req);
461         our->our_rc = rc;
462         if (rc < 0 || reqp == NULL)
463                 ptlrpc_req_finished(req);
464         else
465                 *reqp = req;
466
467         RETURN(rc);
468 }
469
470 static void osp_trans_stop_cb(struct osp_thandle *oth, int result)
471 {
472         struct dt_txn_commit_cb *dcb;
473         struct dt_txn_commit_cb *tmp;
474
475         /* call per-transaction stop callbacks if any */
476         list_for_each_entry_safe(dcb, tmp, &oth->ot_stop_dcb_list,
477                                  dcb_linkage) {
478                 LASSERTF(dcb->dcb_magic == TRANS_COMMIT_CB_MAGIC,
479                          "commit callback entry: magic=%x name='%s'\n",
480                          dcb->dcb_magic, dcb->dcb_name);
481                 list_del_init(&dcb->dcb_linkage);
482                 dcb->dcb_func(NULL, &oth->ot_super, dcb, result);
483         }
484 }
485
486 /**
487  * Allocate an osp request and initialize it with the given parameters.
488  *
489  * \param[in] obj               pointer to the operation target
490  * \param[in] data              pointer to the data used by the interpreter
491  * \param[in] interpreter       pointer to the interpreter function
492  *
493  * \retval                      pointer to the asychronous request
494  * \retval                      NULL if the allocation failed
495  */
496 static struct osp_update_callback *
497 osp_update_callback_init(struct osp_object *obj, void *data,
498                          osp_update_interpreter_t interpreter)
499 {
500         struct osp_update_callback *ouc;
501
502         OBD_ALLOC_PTR(ouc);
503         if (ouc == NULL)
504                 return NULL;
505
506         lu_object_get(osp2lu_obj(obj));
507         INIT_LIST_HEAD(&ouc->ouc_list);
508         ouc->ouc_obj = obj;
509         ouc->ouc_data = data;
510         ouc->ouc_interpreter = interpreter;
511
512         return ouc;
513 }
514
515 /**
516  * Destroy the osp_update_callback.
517  *
518  * \param[in] env       pointer to the thread context
519  * \param[in] ouc       pointer to osp_update_callback
520  */
521 static void osp_update_callback_fini(const struct lu_env *env,
522                                      struct osp_update_callback *ouc)
523 {
524         LASSERT(list_empty(&ouc->ouc_list));
525
526         lu_object_put(env, osp2lu_obj(ouc->ouc_obj));
527         OBD_FREE_PTR(ouc);
528 }
529
530 /**
531  * Interpret the packaged OUT RPC results.
532  *
533  * For every packaged sub-request, call its registered interpreter function.
534  * Then destroy the sub-request.
535  *
536  * \param[in] env       pointer to the thread context
537  * \param[in] req       pointer to the RPC
538  * \param[in] arg       pointer to data used by the interpreter
539  * \param[in] rc        the RPC return value
540  *
541  * \retval              0 for success
542  * \retval              negative error number on failure
543  */
544 static int osp_update_interpret(const struct lu_env *env,
545                                 struct ptlrpc_request *req, void *arg, int rc)
546 {
547         struct object_update_reply      *reply  = NULL;
548         struct osp_update_args          *oaua   = arg;
549         struct osp_update_request       *our = oaua->oaua_update;
550         struct osp_thandle              *oth;
551         struct osp_update_callback      *ouc;
552         struct osp_update_callback      *next;
553         int                              count  = 0;
554         int                              index  = 0;
555         int                              rc1    = 0;
556
557         ENTRY;
558
559         if (our == NULL)
560                 RETURN(0);
561
562         oaua->oaua_update = NULL;
563         oth = our->our_th;
564         if (oaua->oaua_flow_control) {
565                 struct osp_device *osp;
566
567                 LASSERT(oth != NULL);
568                 osp = dt2osp_dev(oth->ot_super.th_dev);
569                 obd_put_request_slot(&osp->opd_obd->u.cli);
570         }
571
572         /* Unpack the results from the reply message. */
573         if (req->rq_repmsg != NULL) {
574                 reply = req_capsule_server_sized_get(&req->rq_pill,
575                                                      &RMF_OUT_UPDATE_REPLY,
576                                                      OUT_UPDATE_REPLY_SIZE);
577                 if (reply == NULL || reply->ourp_magic != UPDATE_REPLY_MAGIC)
578                         rc1 = -EPROTO;
579                 else
580                         count = reply->ourp_count;
581         } else {
582                 rc1 = rc;
583         }
584
585         list_for_each_entry_safe(ouc, next, &our->our_cb_items, ouc_list) {
586                 list_del_init(&ouc->ouc_list);
587
588                 /* The peer may only have handled some requests (indicated
589                  * by the 'count') in the packaged OUT RPC, we can only get
590                  * results for the handled part. */
591                 if (index < count && reply->ourp_lens[index] > 0) {
592                         struct object_update_result *result;
593
594                         result = object_update_result_get(reply, index, NULL);
595                         if (result == NULL)
596                                 rc1 = -EPROTO;
597                         else
598                                 rc1 = result->our_rc;
599                 } else {
600                         rc1 = rc;
601                         if (unlikely(rc1 == 0))
602                                 rc1 = -EINVAL;
603                 }
604
605                 if (ouc->ouc_interpreter != NULL)
606                         ouc->ouc_interpreter(env, reply, req, ouc->ouc_obj,
607                                              ouc->ouc_data, index, rc1);
608
609                 osp_update_callback_fini(env, ouc);
610                 index++;
611         }
612
613         if (oaua->oaua_count != NULL && atomic_dec_and_test(oaua->oaua_count))
614                 wake_up_all(oaua->oaua_waitq);
615
616         if (oth != NULL) {
617                 /* oth and osp_update_requests will be destoryed in
618                  * osp_thandle_put */
619                 osp_trans_stop_cb(oth, rc);
620                 osp_thandle_put(oth);
621         } else {
622                 osp_update_request_destroy(our);
623         }
624
625         RETURN(0);
626 }
627
628 /**
629  * Pack all the requests in the shared asynchronous idempotent request queue
630  * into a single OUT RPC that will be given to the background ptlrpcd daemon.
631  *
632  * \param[in] env       pointer to the thread context
633  * \param[in] osp       pointer to the OSP device
634  * \param[in] our       pointer to the shared queue
635  *
636  * \retval              0 for success
637  * \retval              negative error number on failure
638  */
639 int osp_unplug_async_request(const struct lu_env *env,
640                              struct osp_device *osp,
641                              struct osp_update_request *our)
642 {
643         struct osp_update_args  *args;
644         struct ptlrpc_request   *req = NULL;
645         int                      rc;
646
647         rc = osp_prep_update_req(env, osp->opd_obd->u.cli.cl_import,
648                                  our, &req);
649         if (rc != 0) {
650                 struct osp_update_callback *ouc;
651                 struct osp_update_callback *next;
652
653                 list_for_each_entry_safe(ouc, next,
654                                          &our->our_cb_items, ouc_list) {
655                         list_del_init(&ouc->ouc_list);
656                         if (ouc->ouc_interpreter != NULL)
657                                 ouc->ouc_interpreter(env, NULL, NULL,
658                                                      ouc->ouc_obj,
659                                                      ouc->ouc_data, 0, rc);
660                         osp_update_callback_fini(env, ouc);
661                 }
662                 osp_update_request_destroy(our);
663         } else {
664                 args = ptlrpc_req_async_args(req);
665                 args->oaua_update = our;
666                 args->oaua_count = NULL;
667                 args->oaua_waitq = NULL;
668                 args->oaua_flow_control = false;
669                 req->rq_interpret_reply = osp_update_interpret;
670                 ptlrpcd_add_req(req);
671         }
672
673         return rc;
674 }
675
676 /**
677  * Find or create (if NOT exist or purged) the shared asynchronous idempotent
678  * request queue - osp_device::opd_async_requests.
679  *
680  * If the osp_device::opd_async_requests is not NULL, then return it directly;
681  * otherwise create new osp_update_request and attach it to opd_async_requests.
682  *
683  * \param[in] osp       pointer to the OSP device
684  *
685  * \retval              pointer to the shared queue
686  * \retval              negative error number on failure
687  */
688 static struct osp_update_request *
689 osp_find_or_create_async_update_request(struct osp_device *osp)
690 {
691         struct osp_update_request *our = osp->opd_async_requests;
692
693         if (our != NULL)
694                 return our;
695
696         our = osp_update_request_create(&osp->opd_dt_dev);
697         if (IS_ERR(our))
698                 return our;
699
700         osp->opd_async_requests = our;
701
702         return our;
703 }
704
705 /**
706  * Insert an osp_update_callback into the osp_update_request.
707  *
708  * Insert an osp_update_callback to the osp_update_request. Usually each update
709  * in the osp_update_request will have one correspondent callback, and these
710  * callbacks will be called in rq_interpret_reply.
711  *
712  * \param[in] env               pointer to the thread context
713  * \param[in] obj               pointer to the operation target object
714  * \param[in] data              pointer to the data used by the interpreter
715  * \param[in] interpreter       pointer to the interpreter function
716  *
717  * \retval                      0 for success
718  * \retval                      negative error number on failure
719  */
720 int osp_insert_update_callback(const struct lu_env *env,
721                                struct osp_update_request *our,
722                                struct osp_object *obj, void *data,
723                                osp_update_interpreter_t interpreter)
724 {
725         struct osp_update_callback  *ouc;
726
727         ouc = osp_update_callback_init(obj, data, interpreter);
728         if (ouc == NULL)
729                 RETURN(-ENOMEM);
730
731         list_add_tail(&ouc->ouc_list, &our->our_cb_items);
732
733         return 0;
734 }
735
736 /**
737  * Insert an asynchronous idempotent request to the shared request queue that
738  * is attached to the osp_device.
739  *
740  * This function generates a new osp_async_request with the given parameters,
741  * then tries to insert the request into the osp_device-based shared request
742  * queue. If the queue is full, then triggers the packaged OUT RPC to purge
743  * the shared queue firstly, and then re-tries.
744  *
745  * NOTE: must hold the osp::opd_async_requests_mutex to serialize concurrent
746  *       osp_insert_async_request call from others.
747  *
748  * \param[in] env               pointer to the thread context
749  * \param[in] op                operation type, see 'enum update_type'
750  * \param[in] obj               pointer to the operation target
751  * \param[in] count             array size of the subsequent \a lens and \a bufs
752  * \param[in] lens              buffer length array for the subsequent \a bufs
753  * \param[in] bufs              the buffers to compose the request
754  * \param[in] data              pointer to the data used by the interpreter
755  * \param[in] repsize           how many bytes the caller allocated for \a data
756  * \param[in] interpreter       pointer to the interpreter function
757  *
758  * \retval                      0 for success
759  * \retval                      negative error number on failure
760  */
761 int osp_insert_async_request(const struct lu_env *env, enum update_type op,
762                              struct osp_object *obj, int count,
763                              __u16 *lens, const void **bufs,
764                              void *data, __u32 repsize,
765                              osp_update_interpreter_t interpreter)
766 {
767         struct osp_device               *osp;
768         struct osp_update_request       *our;
769         struct object_update            *object_update;
770         size_t                          max_update_size;
771         struct object_update_request    *ureq;
772         struct osp_update_request_sub   *ours;
773         int                             rc = 0;
774         ENTRY;
775
776         osp = lu2osp_dev(osp2lu_obj(obj)->lo_dev);
777         our = osp_find_or_create_async_update_request(osp);
778         if (IS_ERR(our))
779                 RETURN(PTR_ERR(our));
780
781 again:
782         ours = osp_current_object_update_request(our);
783
784         ureq = ours->ours_req;
785         max_update_size = ours->ours_req_size -
786                           object_update_request_size(ureq);
787
788         object_update = update_buffer_get_update(ureq, ureq->ourq_count);
789         rc = out_update_pack(env, object_update, &max_update_size, op,
790                              lu_object_fid(osp2lu_obj(obj)), count, lens, bufs,
791                              repsize);
792         /* The queue is full. */
793         if (rc == -E2BIG) {
794                 osp->opd_async_requests = NULL;
795                 mutex_unlock(&osp->opd_async_requests_mutex);
796
797                 rc = osp_unplug_async_request(env, osp, our);
798                 mutex_lock(&osp->opd_async_requests_mutex);
799                 if (rc != 0)
800                         RETURN(rc);
801
802                 our = osp_find_or_create_async_update_request(osp);
803                 if (IS_ERR(our))
804                         RETURN(PTR_ERR(our));
805
806                 goto again;
807         } else {
808                 if (rc < 0)
809                         RETURN(rc);
810
811                 ureq->ourq_count++;
812                 our->our_update_nr++;
813         }
814
815         rc = osp_insert_update_callback(env, our, obj, data, interpreter);
816
817         RETURN(rc);
818 }
819
820 int osp_trans_update_request_create(struct thandle *th)
821 {
822         struct osp_thandle              *oth = thandle_to_osp_thandle(th);
823         struct osp_update_request       *our;
824
825         if (oth->ot_our != NULL)
826                 return 0;
827
828         our = osp_update_request_create(th->th_dev);
829         if (IS_ERR(our)) {
830                 th->th_result = PTR_ERR(our);
831                 return PTR_ERR(our);
832         }
833
834         oth->ot_our = our;
835         our->our_th = oth;
836
837         return 0;
838 }
839
840 void osp_thandle_destroy(struct osp_thandle *oth)
841 {
842         LASSERT(oth->ot_magic == OSP_THANDLE_MAGIC);
843         LASSERT(list_empty(&oth->ot_commit_dcb_list));
844         LASSERT(list_empty(&oth->ot_stop_dcb_list));
845         if (oth->ot_our != NULL)
846                 osp_update_request_destroy(oth->ot_our);
847         OBD_FREE_PTR(oth);
848 }
849
850 /**
851  * The OSP layer dt_device_operations::dt_trans_create() interface
852  * to create a transaction.
853  *
854  * There are two kinds of transactions that will involve OSP:
855  *
856  * 1) If the transaction only contains the updates on remote server
857  *    (MDT or OST), such as re-generating the lost OST-object for
858  *    LFSCK, then it is a remote transaction. For remote transaction,
859  *    the upper layer caller (such as the LFSCK engine) will call the
860  *    dt_trans_create() (with the OSP dt_device as the parameter),
861  *    then the call will be directed to the osp_trans_create() that
862  *    creates the transaction handler and returns it to the caller.
863  *
864  * 2) If the transcation contains both local and remote updates,
865  *    such as cross MDTs create under DNE mode, then the upper layer
866  *    caller will not trigger osp_trans_create(). Instead, it will
867  *    call dt_trans_create() on other dt_device, such as LOD that
868  *    will generate the transaction handler. Such handler will be
869  *    used by the whole transaction in subsequent sub-operations.
870  *
871  * \param[in] env       pointer to the thread context
872  * \param[in] d         pointer to the OSP dt_device
873  *
874  * \retval              pointer to the transaction handler
875  * \retval              negative error number on failure
876  */
877 struct thandle *osp_trans_create(const struct lu_env *env, struct dt_device *d)
878 {
879         struct osp_thandle              *oth;
880         struct thandle                  *th = NULL;
881         ENTRY;
882
883         OBD_ALLOC_PTR(oth);
884         if (unlikely(oth == NULL))
885                 RETURN(ERR_PTR(-ENOMEM));
886
887         oth->ot_magic = OSP_THANDLE_MAGIC;
888         th = &oth->ot_super;
889         th->th_dev = d;
890         th->th_tags = LCT_TX_HANDLE;
891
892         atomic_set(&oth->ot_refcount, 1);
893         INIT_LIST_HEAD(&oth->ot_commit_dcb_list);
894         INIT_LIST_HEAD(&oth->ot_stop_dcb_list);
895
896         RETURN(th);
897 }
898
899 /**
900  * Add commit callback to transaction.
901  *
902  * Add commit callback to the osp thandle, which will be called
903  * when the thandle is committed remotely.
904  *
905  * \param[in] th        the thandle
906  * \param[in] dcb       commit callback structure
907  *
908  * \retval              only return 0 for now.
909  */
910 int osp_trans_cb_add(struct thandle *th, struct dt_txn_commit_cb *dcb)
911 {
912         struct osp_thandle *oth = thandle_to_osp_thandle(th);
913
914         LASSERT(dcb->dcb_magic == TRANS_COMMIT_CB_MAGIC);
915         LASSERT(&dcb->dcb_func != NULL);
916         if (dcb->dcb_flags & DCB_TRANS_STOP)
917                 list_add(&dcb->dcb_linkage, &oth->ot_stop_dcb_list);
918         else
919                 list_add(&dcb->dcb_linkage, &oth->ot_commit_dcb_list);
920         return 0;
921 }
922
923 static void osp_trans_commit_cb(struct osp_thandle *oth, int result)
924 {
925         struct dt_txn_commit_cb *dcb;
926         struct dt_txn_commit_cb *tmp;
927
928         LASSERT(atomic_read(&oth->ot_refcount) > 0);
929         /* call per-transaction callbacks if any */
930         list_for_each_entry_safe(dcb, tmp, &oth->ot_commit_dcb_list,
931                                  dcb_linkage) {
932                 LASSERTF(dcb->dcb_magic == TRANS_COMMIT_CB_MAGIC,
933                          "commit callback entry: magic=%x name='%s'\n",
934                          dcb->dcb_magic, dcb->dcb_name);
935                 list_del_init(&dcb->dcb_linkage);
936                 dcb->dcb_func(NULL, &oth->ot_super, dcb, result);
937         }
938 }
939
940 static void osp_request_commit_cb(struct ptlrpc_request *req)
941 {
942         struct thandle          *th = req->rq_cb_data;
943         struct osp_thandle      *oth;
944         __u64                   last_committed_transno = 0;
945         int                     result = req->rq_status;
946         ENTRY;
947
948         if (th == NULL)
949                 RETURN_EXIT;
950
951         oth = thandle_to_osp_thandle(th);
952         if (lustre_msg_get_last_committed(req->rq_repmsg))
953                 last_committed_transno =
954                         lustre_msg_get_last_committed(req->rq_repmsg);
955
956         if (last_committed_transno <
957                 req->rq_import->imp_peer_committed_transno)
958                 last_committed_transno =
959                         req->rq_import->imp_peer_committed_transno;
960
961         CDEBUG(D_HA, "trans no "LPU64" committed transno "LPU64"\n",
962                req->rq_transno, last_committed_transno);
963
964         /* If the transaction is not really committed, mark result = 1 */
965         if (req->rq_transno != 0 &&
966             (req->rq_transno > last_committed_transno) && result == 0)
967                 result = 1;
968
969         osp_trans_commit_cb(oth, result);
970         req->rq_committed = 1;
971         osp_thandle_put(oth);
972         EXIT;
973 }
974
975 /**
976  * callback of osp transaction
977  *
978  * Call all of callbacks for this osp thandle. This will only be
979  * called in error handler path. In the normal processing path,
980  * these callback will be called in osp_request_commit_cb() and
981  * osp_update_interpret().
982  *
983  * \param [in] env      execution environment
984  * \param [in] oth      osp thandle
985  * \param [in] rc       result of the osp thandle
986  */
987 void osp_trans_callback(const struct lu_env *env,
988                         struct osp_thandle *oth, int rc)
989 {
990         struct osp_update_callback *ouc;
991         struct osp_update_callback *next;
992
993         if (oth->ot_our != NULL) {
994                 list_for_each_entry_safe(ouc, next,
995                                          &oth->ot_our->our_cb_items, ouc_list) {
996                         list_del_init(&ouc->ouc_list);
997                         if (ouc->ouc_interpreter != NULL)
998                                 ouc->ouc_interpreter(env, NULL, NULL,
999                                                      ouc->ouc_obj,
1000                                                      ouc->ouc_data, 0, rc);
1001                         osp_update_callback_fini(env, ouc);
1002                 }
1003         }
1004         osp_trans_stop_cb(oth, rc);
1005         osp_trans_commit_cb(oth, rc);
1006 }
1007
1008 /**
1009  * Send the request for remote updates.
1010  *
1011  * Send updates to the remote MDT. Prepare the request by osp_update_req
1012  * and send them to remote MDT, for sync request, it will wait
1013  * until the reply return, otherwise hand it to ptlrpcd.
1014  *
1015  * Please refer to osp_trans_create() for transaction type.
1016  *
1017  * \param[in] env               pointer to the thread context
1018  * \param[in] osp               pointer to the OSP device
1019  * \param[in] our               pointer to the osp_update_request
1020  *
1021  * \retval                      0 for success
1022  * \retval                      negative error number on failure
1023  */
1024 static int osp_send_update_req(const struct lu_env *env,
1025                                struct osp_device *osp,
1026                                struct osp_update_request *our)
1027 {
1028         struct osp_update_args  *args;
1029         struct ptlrpc_request   *req;
1030         struct lu_device *top_device;
1031         struct osp_thandle      *oth = our->our_th;
1032         int     rc = 0;
1033         ENTRY;
1034
1035         LASSERT(oth != NULL);
1036         LASSERT(our->our_req_sent == 0);
1037         rc = osp_prep_update_req(env, osp->opd_obd->u.cli.cl_import,
1038                                  our, &req);
1039         if (rc != 0) {
1040                 osp_trans_callback(env, oth, rc);
1041                 RETURN(rc);
1042         }
1043
1044         args = ptlrpc_req_async_args(req);
1045         args->oaua_update = our;
1046         osp_thandle_get(oth); /* hold for update interpret */
1047         req->rq_interpret_reply = osp_update_interpret;
1048         if (!oth->ot_super.th_wait_submit && !oth->ot_super.th_sync) {
1049                 if (!osp->opd_imp_active || !osp->opd_imp_connected) {
1050                         osp_trans_callback(env, oth, rc);
1051                         osp_thandle_put(oth);
1052                         GOTO(out, rc = -ENOTCONN);
1053                 }
1054
1055                 rc = obd_get_request_slot(&osp->opd_obd->u.cli);
1056                 if (rc != 0) {
1057                         osp_trans_callback(env, oth, rc);
1058                         osp_thandle_put(oth);
1059                         GOTO(out, rc = -ENOTCONN);
1060                 }
1061                 args->oaua_flow_control = true;
1062
1063                 if (!osp->opd_connect_mdt) {
1064                         down_read(&osp->opd_async_updates_rwsem);
1065                         args->oaua_count = &osp->opd_async_updates_count;
1066                         args->oaua_waitq = &osp->opd_syn_barrier_waitq;
1067                         up_read(&osp->opd_async_updates_rwsem);
1068                         atomic_inc(args->oaua_count);
1069                 }
1070
1071                 ptlrpcd_add_req(req);
1072                 req = NULL;
1073         } else {
1074                 osp_thandle_get(oth); /* hold for commit callback */
1075                 req->rq_commit_cb = osp_request_commit_cb;
1076                 req->rq_cb_data = &oth->ot_super;
1077                 args->oaua_flow_control = false;
1078
1079                 /* If the transaction is created during MDT recoverying
1080                  * process, it means this is an recovery update, we need
1081                  * to let OSP send it anyway without checking recoverying
1082                  * status, in case the other target is being recoveried
1083                  * at the same time, and if we wait here for the import
1084                  * to be recoveryed, it might cause deadlock */
1085                 top_device = osp->opd_dt_dev.dd_lu_dev.ld_site->ls_top_dev;
1086                 if (top_device->ld_obd->obd_recovering)
1087                         req->rq_allow_replay = 1;
1088
1089                 if (osp->opd_connect_mdt)
1090                         osp_get_rpc_lock(osp);
1091                 rc = ptlrpc_queue_wait(req);
1092                 if (osp->opd_connect_mdt)
1093                         osp_put_rpc_lock(osp);
1094                 if ((rc == -ENOMEM && req->rq_set == NULL) ||
1095                     (req->rq_transno == 0 && !req->rq_committed)) {
1096                         if (args->oaua_update != NULL) {
1097                                 /* If osp_update_interpret is not being called,
1098                                  * release the osp_thandle */
1099                                 args->oaua_update = NULL;
1100                                 osp_thandle_put(oth);
1101                         }
1102
1103                         req->rq_cb_data = NULL;
1104                         rc = rc == 0 ? req->rq_status : rc;
1105                         osp_trans_callback(env, oth, rc);
1106                         osp_thandle_put(oth);
1107                         GOTO(out, rc);
1108                 }
1109         }
1110 out:
1111         if (req != NULL)
1112                 ptlrpc_req_finished(req);
1113
1114         RETURN(rc);
1115 }
1116
1117 /**
1118  * Get local thandle for osp_thandle
1119  *
1120  * Get the local OSD thandle from the OSP thandle. Currently, there
1121  * are a few OSP API (osp_object_create() and osp_sync_add()) needs
1122  * to update the object on local OSD device.
1123  *
1124  * If the osp_thandle comes from normal stack (MDD->LOD->OSP), then
1125  * we will get local thandle by thandle_get_sub_by_dt.
1126  *
1127  * If the osp_thandle is remote thandle (th_top == NULL, only used
1128  * by LFSCK), then it will create a local thandle, and stop it in
1129  * osp_trans_stop(). And this only happens on OSP for OST.
1130  *
1131  * These are temporary solution, once OSP accessing OSD object is
1132  * being fixed properly, this function should be removed. XXX
1133  *
1134  * \param[in] env               pointer to the thread context
1135  * \param[in] th                pointer to the transaction handler
1136  * \param[in] dt                pointer to the OSP device
1137  *
1138  * \retval                      pointer to the local thandle
1139  * \retval                      ERR_PTR(errno) if it fails.
1140  **/
1141 struct thandle *osp_get_storage_thandle(const struct lu_env *env,
1142                                         struct thandle *th,
1143                                         struct osp_device *osp)
1144 {
1145         struct osp_thandle      *oth;
1146         struct thandle          *local_th;
1147
1148         if (th->th_top != NULL)
1149                 return thandle_get_sub_by_dt(env, th->th_top,
1150                                              osp->opd_storage);
1151
1152         LASSERT(!osp->opd_connect_mdt);
1153         oth = thandle_to_osp_thandle(th);
1154         if (oth->ot_storage_th != NULL)
1155                 return oth->ot_storage_th;
1156
1157         local_th = dt_trans_create(env, osp->opd_storage);
1158         if (IS_ERR(local_th))
1159                 return local_th;
1160
1161         oth->ot_storage_th = local_th;
1162
1163         return local_th;
1164 }
1165
1166 /**
1167  * Set version for the transaction
1168  *
1169  * Set the version for the transaction, then the osp RPC will be
1170  * sent in the order of version, i.e. the transaction with lower
1171  * version will be sent first.
1172  *
1173  * \param [in] oth      osp thandle to be set version.
1174  *
1175  * \retval              0 if set version succeeds
1176  *                      negative errno if set version fails.
1177  */
1178 int osp_check_and_set_rpc_version(struct osp_thandle *oth)
1179 {
1180         struct osp_device *osp = dt2osp_dev(oth->ot_super.th_dev);
1181         struct osp_updates *ou = osp->opd_update;
1182
1183         if (ou == NULL)
1184                 return -EIO;
1185
1186         if (oth->ot_version != 0)
1187                 return 0;
1188
1189         spin_lock(&ou->ou_lock);
1190         oth->ot_version = ou->ou_version++;
1191         spin_unlock(&ou->ou_lock);
1192
1193         CDEBUG(D_INFO, "%s: version "LPU64" oth:version %p:"LPU64"\n",
1194                osp->opd_obd->obd_name, ou->ou_version, oth, oth->ot_version);
1195
1196         return 0;
1197 }
1198
1199 /**
1200  * Get next OSP update request in the sending list
1201  * Get next OSP update request in the sending list by version number, next
1202  * request will be
1203  * 1. transaction which does not have a version number.
1204  * 2. transaction whose version == opd_rpc_version.
1205  *
1206  * \param [in] ou       osp update structure.
1207  * \param [out] ourp    the pointer holding the next update request.
1208  *
1209  * \retval              true if getting the next transaction.
1210  * \retval              false if not getting the next transaction.
1211  */
1212 static bool
1213 osp_get_next_request(struct osp_updates *ou, struct osp_update_request **ourp)
1214 {
1215         struct osp_update_request *our;
1216         struct osp_update_request *tmp;
1217         bool                    got_req = false;
1218
1219         spin_lock(&ou->ou_lock);
1220         list_for_each_entry_safe(our, tmp, &ou->ou_list, our_list) {
1221                 LASSERT(our->our_th != NULL);
1222                 CDEBUG(D_INFO, "our %p version "LPU64" rpc_version "LPU64"\n",
1223                        our, our->our_th->ot_version, ou->ou_rpc_version);
1224                 if (our->our_th->ot_version == 0) {
1225                         list_del_init(&our->our_list);
1226                         *ourp = our;
1227                         got_req = true;
1228                         break;
1229                 }
1230
1231                 /* Find next osp_update_request in the list */
1232                 if (our->our_th->ot_version == ou->ou_rpc_version) {
1233                         list_del_init(&our->our_list);
1234                         *ourp = our;
1235                         got_req = true;
1236                         break;
1237                 }
1238         }
1239         spin_unlock(&ou->ou_lock);
1240
1241         return got_req;
1242 }
1243
1244 static void osp_update_rpc_version(struct osp_updates *ou,
1245                                    struct osp_thandle *oth)
1246 {
1247         if (oth->ot_version == 0)
1248                 return;
1249
1250         LASSERT(oth->ot_version == ou->ou_rpc_version);
1251         spin_lock(&ou->ou_lock);
1252         ou->ou_rpc_version++;
1253         spin_unlock(&ou->ou_lock);
1254 }
1255
1256 /**
1257  * Sending update thread
1258  *
1259  * Create thread to send update request to other MDTs, this thread will pull
1260  * out update request from the list in OSP by version number, i.e. it will
1261  * make sure the update request with lower version number will be sent first.
1262  *
1263  * \param[in] arg       hold the OSP device.
1264  *
1265  * \retval              0 if the thread is created successfully.
1266  * \retal               negative error if the thread is not created
1267  *                      successfully.
1268  */
1269 int osp_send_update_thread(void *arg)
1270 {
1271         struct lu_env           env;
1272         struct osp_device       *osp = arg;
1273         struct l_wait_info       lwi = { 0 };
1274         struct osp_updates      *ou = osp->opd_update;
1275         struct ptlrpc_thread    *thread = &osp->opd_update_thread;
1276         struct osp_update_request *our = NULL;
1277         int                     rc;
1278         ENTRY;
1279
1280         LASSERT(ou != NULL);
1281         rc = lu_env_init(&env, osp->opd_dt_dev.dd_lu_dev.ld_type->ldt_ctx_tags);
1282         if (rc < 0) {
1283                 CERROR("%s: init env error: rc = %d\n", osp->opd_obd->obd_name,
1284                        rc);
1285                 RETURN(rc);
1286         }
1287
1288         thread->t_flags = SVC_RUNNING;
1289         wake_up(&thread->t_ctl_waitq);
1290         while (1) {
1291                 our = NULL;
1292                 l_wait_event(ou->ou_waitq,
1293                              !osp_send_update_thread_running(osp) ||
1294                              osp_get_next_request(ou, &our),
1295                              &lwi);
1296
1297                 if (!osp_send_update_thread_running(osp)) {
1298                         if (our != NULL && our->our_th != NULL) {
1299                                 osp_trans_callback(&env, our->our_th, -EINTR);
1300                                 osp_thandle_put(our->our_th);
1301                         }
1302                         break;
1303                 }
1304
1305                 if (our->our_req_sent == 0) {
1306                         if (our->our_th != NULL &&
1307                             our->our_th->ot_super.th_result != 0)
1308                                 osp_trans_callback(&env, our->our_th,
1309                                         our->our_th->ot_super.th_result);
1310                         else
1311                                 rc = osp_send_update_req(&env, osp, our);
1312                 }
1313
1314                 if (our->our_th != NULL) {
1315                         /* Update the rpc version */
1316                         osp_update_rpc_version(ou, our->our_th);
1317                         /* Balanced for thandle_get in osp_trans_trigger() */
1318                         osp_thandle_put(our->our_th);
1319                 }
1320         }
1321
1322         thread->t_flags = SVC_STOPPED;
1323         lu_env_fini(&env);
1324         wake_up(&thread->t_ctl_waitq);
1325
1326         RETURN(0);
1327 }
1328
1329 /**
1330  * Trigger the request for remote updates.
1331  *
1332  * Add the request to the sending list, and wake up osp update
1333  * sending thread.
1334  *
1335  * \param[in] env               pointer to the thread context
1336  * \param[in] osp               pointer to the OSP device
1337  * \param[in] oth               pointer to the transaction handler
1338  *
1339  */
1340 static void osp_trans_trigger(const struct lu_env *env,
1341                              struct osp_device *osp,
1342                              struct osp_thandle *oth)
1343 {
1344
1345         CDEBUG(D_INFO, "%s: add oth %p with version "LPU64"\n",
1346                osp->opd_obd->obd_name, oth, oth->ot_version);
1347
1348         LASSERT(oth->ot_magic == OSP_THANDLE_MAGIC);
1349         osp_thandle_get(oth);
1350         LASSERT(oth->ot_our != NULL);
1351         spin_lock(&osp->opd_update->ou_lock);
1352         list_add_tail(&oth->ot_our->our_list,
1353                       &osp->opd_update->ou_list);
1354         spin_unlock(&osp->opd_update->ou_lock);
1355
1356         wake_up(&osp->opd_update->ou_waitq);
1357 }
1358
1359 /**
1360  * The OSP layer dt_device_operations::dt_trans_start() interface
1361  * to start the transaction.
1362  *
1363  * If the transaction is a remote transaction, then related remote
1364  * updates will be triggered in the osp_trans_stop().
1365  * Please refer to osp_trans_create() for transaction type.
1366  *
1367  * \param[in] env               pointer to the thread context
1368  * \param[in] dt                pointer to the OSP dt_device
1369  * \param[in] th                pointer to the transaction handler
1370  *
1371  * \retval                      0 for success
1372  * \retval                      negative error number on failure
1373  */
1374 int osp_trans_start(const struct lu_env *env, struct dt_device *dt,
1375                     struct thandle *th)
1376 {
1377         struct osp_thandle      *oth = thandle_to_osp_thandle(th);
1378
1379         if (oth->ot_super.th_sync)
1380                 oth->ot_our->our_flags |= UPDATE_FL_SYNC;
1381         /* For remote thandle, if there are local thandle, start it here*/
1382         if (is_only_remote_trans(th) && oth->ot_storage_th != NULL)
1383                 return dt_trans_start(env, oth->ot_storage_th->th_dev,
1384                                       oth->ot_storage_th);
1385         return 0;
1386 }
1387
1388 /**
1389  * The OSP layer dt_device_operations::dt_trans_stop() interface
1390  * to stop the transaction.
1391  *
1392  * If the transaction is a remote transaction, related remote
1393  * updates will be triggered here via osp_trans_trigger().
1394  *
1395  * For synchronous mode update or any failed update, the request
1396  * will be destroyed explicitly when the osp_trans_stop().
1397  *
1398  * Please refer to osp_trans_create() for transaction type.
1399  *
1400  * \param[in] env               pointer to the thread context
1401  * \param[in] dt                pointer to the OSP dt_device
1402  * \param[in] th                pointer to the transaction handler
1403  *
1404  * \retval                      0 for success
1405  * \retval                      negative error number on failure
1406  */
1407 int osp_trans_stop(const struct lu_env *env, struct dt_device *dt,
1408                    struct thandle *th)
1409 {
1410         struct osp_thandle       *oth = thandle_to_osp_thandle(th);
1411         struct osp_update_request *our = oth->ot_our;
1412         struct osp_device        *osp = dt2osp_dev(dt);
1413         int                      rc = 0;
1414         ENTRY;
1415
1416         /* For remote transaction, if there is local storage thandle,
1417          * stop it first */
1418         if (oth->ot_storage_th != NULL && th->th_top == NULL) {
1419                 dt_trans_stop(env, oth->ot_storage_th->th_dev,
1420                               oth->ot_storage_th);
1421                 oth->ot_storage_th = NULL;
1422         }
1423
1424         if (our == NULL || list_empty(&our->our_req_list)) {
1425                 osp_trans_callback(env, oth, th->th_result);
1426                 GOTO(out, rc = th->th_result);
1427         }
1428
1429         if (!osp->opd_connect_mdt) {
1430                 osp_trans_callback(env, oth, th->th_result);
1431                 rc = osp_send_update_req(env, osp, oth->ot_our);
1432                 GOTO(out, rc);
1433         }
1434
1435         if (osp->opd_update == NULL ||
1436             !osp_send_update_thread_running(osp)) {
1437                 osp_trans_callback(env, oth, -EIO);
1438                 GOTO(out, rc = -EIO);
1439         }
1440
1441         if (th->th_sync) {
1442                 /* if th_sync is set, then it needs to be sent
1443                  * right away. Note: even thought the RPC has been
1444                  * sent, it still needs to be added to the sending
1445                  * list (see osp_trans_trigger()), so ou_rpc_version
1446                  * can be updated correctly. */
1447                 rc = osp_send_update_req(env, osp, our);
1448                 our->our_req_sent = 1;
1449         }
1450
1451         osp_trans_trigger(env, osp, oth);
1452 out:
1453         osp_thandle_put(oth);
1454
1455         RETURN(rc);
1456 }