Whamcloud - gitweb
LU-16935 llite: avoid hopeless i/o repeats
[fs/lustre-release.git] / lustre / obdclass / cl_io.c
1 // SPDX-License-Identifier: GPL-2.0
2
3 /*
4  * Copyright (c) 2008, 2010, Oracle and/or its affiliates. All rights reserved.
5  * Use is subject to license terms.
6  *
7  * Copyright (c) 2011, 2017, Intel Corporation.
8  *
9  */
10
11 /*
12  * This file is part of Lustre, http://www.lustre.org/
13  *
14  * Client IO.
15  *
16  * Author: Nikita Danilov <nikita.danilov@sun.com>
17  * Author: Jinshan Xiong <jinshan.xiong@intel.com>
18  *
19  */
20
21 #define DEBUG_SUBSYSTEM S_CLASS
22
23 #include <linux/sched.h>
24 #include <linux/list.h>
25 #include <linux/list_sort.h>
26 #include <linux/mmu_context.h>
27 #include <obd_class.h>
28 #include <obd_support.h>
29 #include <lustre_fid.h>
30 #include <cl_object.h>
31 #include "cl_internal.h"
32
33 /*
34  * cl_io interface.
35  */
36
37 static inline int cl_io_type_is_valid(enum cl_io_type type)
38 {
39         return CIT_READ <= type && type < CIT_OP_NR;
40 }
41
42 static inline int cl_io_is_loopable(const struct cl_io *io)
43 {
44         return cl_io_type_is_valid(io->ci_type) && io->ci_type != CIT_MISC;
45 }
46
47 /**
48  * cl_io invariant that holds at all times when exported cl_io_*() functions
49  * are entered and left.
50  */
51 static inline int cl_io_invariant(const struct cl_io *io)
52 {
53         /*
54          * io can own pages only when it is ongoing. Sub-io might
55          * still be in CIS_LOCKED state when top-io is in
56          * CIS_IO_GOING.
57          */
58         return ergo(io->ci_owned_nr > 0, io->ci_state == CIS_IO_GOING ||
59                     (io->ci_state == CIS_LOCKED && io->ci_parent != NULL));
60 }
61
62 /**
63  * Finalize \a io, by calling cl_io_operations::cio_fini() bottom-to-top.
64  */
65 void cl_io_fini(const struct lu_env *env, struct cl_io *io)
66 {
67         struct cl_io_slice    *slice;
68
69         LINVRNT(cl_io_type_is_valid(io->ci_type));
70         LINVRNT(cl_io_invariant(io));
71         ENTRY;
72
73         while (!list_empty(&io->ci_layers)) {
74                 slice = container_of(io->ci_layers.prev, struct cl_io_slice,
75                                      cis_linkage);
76                 list_del_init(&slice->cis_linkage);
77                 if (slice->cis_iop->op[io->ci_type].cio_fini != NULL)
78                         slice->cis_iop->op[io->ci_type].cio_fini(env, slice);
79                 /*
80                  * Invalidate slice to catch use after free. This assumes that
81                  * slices are allocated within session and can be touched
82                  * after ->cio_fini() returns.
83                  */
84                 slice->cis_io = NULL;
85         }
86         io->ci_state = CIS_FINI;
87
88         /* sanity check for layout change */
89         switch(io->ci_type) {
90         case CIT_READ:
91         case CIT_WRITE:
92         case CIT_DATA_VERSION:
93         case CIT_FAULT:
94                 break;
95         case CIT_FSYNC:
96                 LASSERT(!io->ci_need_restart);
97                 break;
98         case CIT_SETATTR:
99         case CIT_MISC:
100                 /* Check ignore layout change conf */
101                 LASSERT(ergo(io->ci_ignore_layout || !io->ci_verify_layout,
102                                 !io->ci_need_restart));
103         case CIT_GLIMPSE:
104                 break;
105         case CIT_LADVISE:
106         case CIT_LSEEK:
107                 break;
108         default:
109                 LBUG();
110         }
111         EXIT;
112 }
113 EXPORT_SYMBOL(cl_io_fini);
114
115 static int __cl_io_init(const struct lu_env *env, struct cl_io *io,
116                         enum cl_io_type iot, struct cl_object *obj)
117 {
118         struct cl_object *scan;
119         int result;
120
121         LINVRNT(io->ci_state == CIS_ZERO || io->ci_state == CIS_FINI);
122         LINVRNT(cl_io_type_is_valid(iot));
123         LINVRNT(cl_io_invariant(io));
124         ENTRY;
125
126         io->ci_type = iot;
127         INIT_LIST_HEAD(&io->ci_lockset.cls_todo);
128         INIT_LIST_HEAD(&io->ci_lockset.cls_done);
129         INIT_LIST_HEAD(&io->ci_layers);
130
131         result = 0;
132         cl_object_for_each(scan, obj) {
133                 if (scan->co_ops->coo_io_init != NULL) {
134                         result = scan->co_ops->coo_io_init(env, scan, io);
135                         if (result != 0)
136                                 break;
137                 }
138         }
139         if (result == 0)
140                 io->ci_state = CIS_INIT;
141         RETURN(result);
142 }
143
144 /**
145  * Initialize sub-io, by calling cl_io_operations::cio_init() top-to-bottom.
146  *
147  * \pre obj != cl_object_top(obj)
148  */
149 int cl_io_sub_init(const struct lu_env *env, struct cl_io *io,
150                    enum cl_io_type iot, struct cl_object *obj)
151 {
152         LASSERT(obj != cl_object_top(obj));
153
154         return __cl_io_init(env, io, iot, obj);
155 }
156 EXPORT_SYMBOL(cl_io_sub_init);
157
158 /**
159  * Initialize \a io, by calling cl_io_operations::cio_init() top-to-bottom.
160  *
161  * Caller has to call cl_io_fini() after a call to cl_io_init(), no matter
162  * what the latter returned.
163  *
164  * \pre obj == cl_object_top(obj)
165  * \pre cl_io_type_is_valid(iot)
166  * \post cl_io_type_is_valid(io->ci_type) && io->ci_type == iot
167  */
168 int cl_io_init(const struct lu_env *env, struct cl_io *io,
169                enum cl_io_type iot, struct cl_object *obj)
170 {
171         LASSERT(obj == cl_object_top(obj));
172
173         /* clear I/O restart from previous instance */
174         io->ci_need_restart = 0;
175
176         return __cl_io_init(env, io, iot, obj);
177 }
178 EXPORT_SYMBOL(cl_io_init);
179
180 /**
181  * Initialize read or write io.
182  *
183  * \pre iot == CIT_READ || iot == CIT_WRITE
184  */
185 int cl_io_rw_init(const struct lu_env *env, struct cl_io *io,
186                   enum cl_io_type iot, loff_t pos, size_t bytes)
187 {
188         LINVRNT(iot == CIT_READ || iot == CIT_WRITE);
189         LINVRNT(io->ci_obj != NULL);
190         ENTRY;
191
192         LU_OBJECT_HEADER(D_VFSTRACE, env, &io->ci_obj->co_lu,
193                          "io range: %u [%llu, %llu) %u %u\n",
194                          iot, (__u64)pos, (__u64)pos + bytes,
195                          io->u.ci_rw.crw_nonblock, io->u.ci_wr.wr_append);
196         io->u.ci_rw.crw_pos    = pos;
197         io->u.ci_rw.crw_bytes  = bytes;
198         RETURN(cl_io_init(env, io, iot, io->ci_obj));
199 }
200 EXPORT_SYMBOL(cl_io_rw_init);
201
202 #ifdef HAVE_LIST_CMP_FUNC_T
203 static int cl_lock_descr_cmp(void *priv,
204                              const struct list_head *a,
205                              const struct list_head *b)
206 #else /* !HAVE_LIST_CMP_FUNC_T */
207 static int cl_lock_descr_cmp(void *priv,
208                              struct list_head *a, struct list_head *b)
209 #endif /* HAVE_LIST_CMP_FUNC_T */
210 {
211         const struct cl_io_lock_link *l0 = list_entry(a, struct cl_io_lock_link,
212                                                       cill_linkage);
213         const struct cl_io_lock_link *l1 = list_entry(b, struct cl_io_lock_link,
214                                                       cill_linkage);
215         const struct cl_lock_descr *d0 = &l0->cill_descr;
216         const struct cl_lock_descr *d1 = &l1->cill_descr;
217
218         return lu_fid_cmp(lu_object_fid(&d0->cld_obj->co_lu),
219                           lu_object_fid(&d1->cld_obj->co_lu));
220 }
221
222 static void cl_lock_descr_merge(struct cl_lock_descr *d0,
223                                 const struct cl_lock_descr *d1)
224 {
225         d0->cld_start = min(d0->cld_start, d1->cld_start);
226         d0->cld_end = max(d0->cld_end, d1->cld_end);
227
228         if (d1->cld_mode == CLM_WRITE && d0->cld_mode != CLM_WRITE)
229                 d0->cld_mode = CLM_WRITE;
230
231         if (d1->cld_mode == CLM_GROUP && d0->cld_mode != CLM_GROUP)
232                 d0->cld_mode = CLM_GROUP;
233 }
234
235 static int cl_lockset_merge(const struct cl_lockset *set,
236                             const struct cl_lock_descr *need)
237 {
238         struct cl_io_lock_link *scan;
239
240         ENTRY;
241         list_for_each_entry(scan, &set->cls_todo, cill_linkage) {
242                 if (!cl_object_same(scan->cill_descr.cld_obj, need->cld_obj))
243                         continue;
244
245                 /* Merge locks for the same object because ldlm lock server
246                  * may expand the lock extent, otherwise there is a deadlock
247                  * case if two conflicted locks are queueud for the same object
248                  * and lock server expands one lock to overlap the another.
249                  * The side effect is that it can generate a multi-stripe lock
250                  * that may cause casacading problem */
251                 cl_lock_descr_merge(&scan->cill_descr, need);
252                 CDEBUG(D_VFSTRACE, "lock: %d: [%lu, %lu]\n",
253                        scan->cill_descr.cld_mode, scan->cill_descr.cld_start,
254                        scan->cill_descr.cld_end);
255                 RETURN(+1);
256         }
257         RETURN(0);
258 }
259
260 static int cl_lockset_lock(const struct lu_env *env, struct cl_io *io,
261                            struct cl_lockset *set)
262 {
263         struct cl_io_lock_link *link;
264         struct cl_io_lock_link *temp;
265         int result;
266
267         ENTRY;
268         result = 0;
269         list_for_each_entry_safe(link, temp, &set->cls_todo, cill_linkage) {
270                 result = cl_lock_request(env, io, &link->cill_lock);
271                 if (result < 0)
272                         break;
273
274                 list_move(&link->cill_linkage, &set->cls_done);
275         }
276         RETURN(result);
277 }
278
279 /**
280  * Takes locks necessary for the current iteration of io.
281  *
282  * Calls cl_io_operations::cio_lock() top-to-bottom to collect locks required
283  * by layers for the current iteration. Then sort locks (to avoid dead-locks),
284  * and acquire them.
285  */
286 int cl_io_lock(const struct lu_env *env, struct cl_io *io)
287 {
288         const struct cl_io_slice *scan;
289         int result = 0;
290
291         LINVRNT(cl_io_is_loopable(io));
292         LINVRNT(io->ci_state == CIS_IT_STARTED);
293         LINVRNT(cl_io_invariant(io));
294
295         ENTRY;
296         list_for_each_entry(scan, &io->ci_layers, cis_linkage) {
297                 if (scan->cis_iop->op[io->ci_type].cio_lock == NULL)
298                         continue;
299                 result = scan->cis_iop->op[io->ci_type].cio_lock(env, scan);
300                 if (result != 0)
301                         break;
302         }
303         if (result == 0) {
304                 /*
305                  * Sort locks in lexicographical order of their (fid,
306                  * start-offset) pairs to avoid deadlocks.
307                  */
308                 list_sort(NULL, &io->ci_lockset.cls_todo, cl_lock_descr_cmp);
309                 result = cl_lockset_lock(env, io, &io->ci_lockset);
310         }
311         if (result != 0)
312                 cl_io_unlock(env, io);
313         else
314                 io->ci_state = CIS_LOCKED;
315         RETURN(result);
316 }
317 EXPORT_SYMBOL(cl_io_lock);
318
319 /**
320  * Release locks takes by io.
321  */
322 void cl_io_unlock(const struct lu_env *env, struct cl_io *io)
323 {
324         struct cl_lockset *set;
325         struct cl_io_lock_link *link;
326         struct cl_io_lock_link *temp;
327         const struct cl_io_slice *scan;
328
329         LASSERT(cl_io_is_loopable(io));
330         LASSERT(CIS_IT_STARTED <= io->ci_state && io->ci_state < CIS_UNLOCKED);
331         LINVRNT(cl_io_invariant(io));
332
333         ENTRY;
334         set = &io->ci_lockset;
335
336         list_for_each_entry_safe(link, temp, &set->cls_todo, cill_linkage) {
337                 list_del_init(&link->cill_linkage);
338                 if (link->cill_fini != NULL)
339                         link->cill_fini(env, link);
340         }
341
342         list_for_each_entry_safe(link, temp, &set->cls_done, cill_linkage) {
343                 list_del_init(&link->cill_linkage);
344                 cl_lock_release(env, &link->cill_lock);
345                 if (link->cill_fini != NULL)
346                         link->cill_fini(env, link);
347         }
348
349         list_for_each_entry_reverse(scan, &io->ci_layers, cis_linkage) {
350                 if (scan->cis_iop->op[io->ci_type].cio_unlock != NULL)
351                         scan->cis_iop->op[io->ci_type].cio_unlock(env, scan);
352         }
353         io->ci_state = CIS_UNLOCKED;
354         EXIT;
355 }
356 EXPORT_SYMBOL(cl_io_unlock);
357
358 /**
359  * Prepares next iteration of io.
360  *
361  * Calls cl_io_operations::cio_iter_init() top-to-bottom. This exists to give
362  * layers a chance to modify io parameters, e.g., so that lov can restrict io
363  * to a single stripe.
364  */
365 int cl_io_iter_init(const struct lu_env *env, struct cl_io *io)
366 {
367         const struct cl_io_slice *scan;
368         int result;
369
370         LINVRNT(cl_io_is_loopable(io));
371         LINVRNT(io->ci_state == CIS_INIT || io->ci_state == CIS_IT_ENDED);
372         LINVRNT(cl_io_invariant(io));
373
374         ENTRY;
375         result = 0;
376         list_for_each_entry(scan, &io->ci_layers, cis_linkage) {
377                 if (scan->cis_iop->op[io->ci_type].cio_iter_init == NULL)
378                         continue;
379                 result = scan->cis_iop->op[io->ci_type].cio_iter_init(env,
380                                                                       scan);
381                 if (result != 0)
382                         break;
383         }
384         if (result == 0)
385                 io->ci_state = CIS_IT_STARTED;
386         RETURN(result);
387 }
388 EXPORT_SYMBOL(cl_io_iter_init);
389
390 /**
391  * Finalizes io iteration.
392  *
393  * Calls cl_io_operations::cio_iter_fini() bottom-to-top.
394  */
395 void cl_io_iter_fini(const struct lu_env *env, struct cl_io *io)
396 {
397         const struct cl_io_slice *scan;
398
399         LINVRNT(cl_io_is_loopable(io));
400         LINVRNT(io->ci_state <= CIS_IT_STARTED ||
401                 io->ci_state > CIS_IO_FINISHED);
402         LINVRNT(cl_io_invariant(io));
403
404         ENTRY;
405         list_for_each_entry_reverse(scan, &io->ci_layers, cis_linkage) {
406                 if (scan->cis_iop->op[io->ci_type].cio_iter_fini != NULL)
407                         scan->cis_iop->op[io->ci_type].cio_iter_fini(env, scan);
408         }
409         io->ci_state = CIS_IT_ENDED;
410         EXIT;
411 }
412 EXPORT_SYMBOL(cl_io_iter_fini);
413
414 /**
415  * Records that read or write io progressed \a bytes forward.
416  */
417 void cl_io_rw_advance(const struct lu_env *env, struct cl_io *io, size_t bytes)
418 {
419         const struct cl_io_slice *scan;
420
421         ENTRY;
422
423         LINVRNT(io->ci_type == CIT_READ || io->ci_type == CIT_WRITE ||
424                 bytes == 0);
425         LINVRNT(cl_io_is_loopable(io));
426         LINVRNT(cl_io_invariant(io));
427
428         io->u.ci_rw.crw_pos   += bytes;
429         io->u.ci_rw.crw_bytes -= bytes;
430
431         /* layers have to be notified. */
432         list_for_each_entry_reverse(scan, &io->ci_layers, cis_linkage) {
433                 if (scan->cis_iop->op[io->ci_type].cio_advance != NULL)
434                         scan->cis_iop->op[io->ci_type].cio_advance(env, scan,
435                                                                    bytes);
436         }
437         EXIT;
438 }
439
440 /**
441  * Adds a lock to a lockset.
442  */
443 int cl_io_lock_add(const struct lu_env *env, struct cl_io *io,
444                    struct cl_io_lock_link *link)
445 {
446         int result;
447
448         ENTRY;
449         if (cl_lockset_merge(&io->ci_lockset, &link->cill_descr))
450                 result = +1;
451         else {
452                 list_add(&link->cill_linkage, &io->ci_lockset.cls_todo);
453                 result = 0;
454         }
455         RETURN(result);
456 }
457 EXPORT_SYMBOL(cl_io_lock_add);
458
459 static void cl_free_io_lock_link(const struct lu_env *env,
460                                  struct cl_io_lock_link *link)
461 {
462         OBD_FREE_PTR(link);
463 }
464
465 /**
466  * Allocates new lock link, and uses it to add a lock to a lockset.
467  */
468 int cl_io_lock_alloc_add(const struct lu_env *env, struct cl_io *io,
469                          struct cl_lock_descr *descr)
470 {
471         struct cl_io_lock_link *link;
472         int result;
473
474         ENTRY;
475         OBD_ALLOC_PTR(link);
476         if (link != NULL) {
477                 link->cill_descr = *descr;
478                 link->cill_fini  = cl_free_io_lock_link;
479                 result = cl_io_lock_add(env, io, link);
480                 if (result) /* lock match */
481                         link->cill_fini(env, link);
482         } else
483                 result = -ENOMEM;
484
485         RETURN(result);
486 }
487 EXPORT_SYMBOL(cl_io_lock_alloc_add);
488
489 /**
490  * Starts io by calling cl_io_operations::cio_start() top-to-bottom.
491  */
492 int cl_io_start(const struct lu_env *env, struct cl_io *io)
493 {
494         const struct cl_io_slice *scan;
495         int result = 0;
496
497         LINVRNT(cl_io_is_loopable(io));
498         LINVRNT(io->ci_state == CIS_LOCKED);
499         LINVRNT(cl_io_invariant(io));
500         ENTRY;
501
502         io->ci_state = CIS_IO_GOING;
503         list_for_each_entry(scan, &io->ci_layers, cis_linkage) {
504                 if (scan->cis_iop->op[io->ci_type].cio_start == NULL)
505                         continue;
506                 result = scan->cis_iop->op[io->ci_type].cio_start(env, scan);
507                 if (result != 0)
508                         break;
509         }
510         if (result >= 0)
511                 result = 0;
512         RETURN(result);
513 }
514 EXPORT_SYMBOL(cl_io_start);
515
516 /**
517  * Wait until current io iteration is finished by calling
518  * cl_io_operations::cio_end() bottom-to-top.
519  */
520 void cl_io_end(const struct lu_env *env, struct cl_io *io)
521 {
522         const struct cl_io_slice *scan;
523
524         LINVRNT(cl_io_is_loopable(io));
525         LINVRNT(io->ci_state == CIS_IO_GOING);
526         LINVRNT(cl_io_invariant(io));
527         ENTRY;
528
529         list_for_each_entry_reverse(scan, &io->ci_layers, cis_linkage) {
530                 if (scan->cis_iop->op[io->ci_type].cio_end != NULL)
531                         scan->cis_iop->op[io->ci_type].cio_end(env, scan);
532                 /* TODO: error handling. */
533         }
534         io->ci_state = CIS_IO_FINISHED;
535         EXIT;
536 }
537 EXPORT_SYMBOL(cl_io_end);
538
539 /**
540  * Called by read io, to decide the readahead extent
541  *
542  * \see cl_io_operations::cio_read_ahead()
543  */
544 int cl_io_read_ahead(const struct lu_env *env, struct cl_io *io,
545                      pgoff_t start, struct cl_read_ahead *ra)
546 {
547         const struct cl_io_slice *scan;
548         int result = 0;
549
550         LINVRNT(io->ci_type == CIT_READ ||
551                 io->ci_type == CIT_FAULT ||
552                 io->ci_type == CIT_WRITE);
553         LINVRNT(io->ci_state == CIS_IO_GOING || io->ci_state == CIS_LOCKED);
554         LINVRNT(cl_io_invariant(io));
555         ENTRY;
556
557         list_for_each_entry(scan, &io->ci_layers, cis_linkage) {
558                 if (scan->cis_iop->cio_read_ahead == NULL)
559                         continue;
560
561                 result = scan->cis_iop->cio_read_ahead(env, scan, start, ra);
562                 if (result != 0)
563                         break;
564         }
565         RETURN(result > 0 ? 0 : result);
566 }
567 EXPORT_SYMBOL(cl_io_read_ahead);
568
569 /**
570  * Called before io start, to reserve enough LRU slots to avoid
571  * deadlock.
572  *
573  * \see cl_io_operations::cio_lru_reserve()
574  */
575 int cl_io_lru_reserve(const struct lu_env *env, struct cl_io *io,
576                       loff_t pos, size_t bytes)
577 {
578         const struct cl_io_slice *scan;
579         int result = 0;
580
581         LINVRNT(io->ci_type == CIT_READ || io->ci_type == CIT_WRITE);
582         LINVRNT(cl_io_invariant(io));
583         ENTRY;
584
585         list_for_each_entry(scan, &io->ci_layers, cis_linkage) {
586                 if (scan->cis_iop->cio_lru_reserve) {
587                         result = scan->cis_iop->cio_lru_reserve(env, scan,
588                                                                 pos, bytes);
589                         if (result)
590                                 break;
591                 }
592         }
593
594         RETURN(result);
595 }
596 EXPORT_SYMBOL(cl_io_lru_reserve);
597
598 /**
599  * Commit a list of contiguous pages into writeback cache.
600  *
601  * \returns 0 if all pages committed, or errcode if error occurred.
602  * \see cl_io_operations::cio_commit_async()
603  */
604 int cl_io_commit_async(const struct lu_env *env, struct cl_io *io,
605                        struct cl_page_list *queue, int from, int to,
606                        cl_commit_cbt cb)
607 {
608         const struct cl_io_slice *scan;
609         int result = 0;
610         ENTRY;
611
612         list_for_each_entry(scan, &io->ci_layers, cis_linkage) {
613                 if (scan->cis_iop->cio_commit_async == NULL)
614                         continue;
615                 result = scan->cis_iop->cio_commit_async(env, scan, queue,
616                                                          from, to, cb);
617                 if (result != 0)
618                         break;
619         }
620         RETURN(result);
621 }
622 EXPORT_SYMBOL(cl_io_commit_async);
623
624 void cl_io_extent_release(const struct lu_env *env, struct cl_io *io)
625 {
626         const struct cl_io_slice *scan;
627         ENTRY;
628
629         list_for_each_entry(scan, &io->ci_layers, cis_linkage) {
630                 if (scan->cis_iop->cio_extent_release == NULL)
631                         continue;
632                 scan->cis_iop->cio_extent_release(env, scan);
633         }
634         EXIT;
635 }
636 EXPORT_SYMBOL(cl_io_extent_release);
637
638 /**
639  * Submits a list of pages for immediate io.
640  *
641  * After the function gets returned, The submitted pages are moved to
642  * queue->c2_qout queue, and queue->c2_qin contain both the pages don't need
643  * to be submitted, and the pages are errant to submit.
644  *
645  * \returns 0 if at least one page was submitted, error code otherwise.
646  * \see cl_io_operations::cio_submit()
647  */
648 int cl_io_submit_rw(const struct lu_env *env, struct cl_io *io,
649                     enum cl_req_type crt, struct cl_2queue *queue)
650 {
651         const struct cl_io_slice *scan;
652         int result = 0;
653         ENTRY;
654
655         list_for_each_entry(scan, &io->ci_layers, cis_linkage) {
656                 if (scan->cis_iop->cio_submit == NULL)
657                         continue;
658                 result = scan->cis_iop->cio_submit(env, scan, crt, queue);
659                 if (result != 0)
660                         break;
661         }
662         /*
663          * If ->cio_submit() failed, no pages were sent.
664          */
665         LASSERT(ergo(result != 0, list_empty(&queue->c2_qout.pl_pages)));
666         RETURN(result);
667 }
668 EXPORT_SYMBOL(cl_io_submit_rw);
669
670 /**
671  * Submit a sync_io and wait for the IO to be finished, or error happens.
672  * If \a timeout is zero, it means to wait for the IO unconditionally.
673  *
674  * This is used for synchronous submission of an async IO, so the waiting is
675  * done here in this function and the IO is done when this function returns.
676  */
677 int cl_io_submit_sync(const struct lu_env *env, struct cl_io *io,
678                       enum cl_req_type iot, struct cl_2queue *queue,
679                       long timeout)
680 {
681         struct cl_sync_io *anchor = &cl_env_info(env)->clt_anchor;
682         struct cl_page *pg;
683         int rc;
684         ENTRY;
685
686         cl_page_list_for_each(pg, &queue->c2_qin) {
687                 LASSERT(pg->cp_sync_io == NULL);
688                 /* this is for sync submission of async IO, IO that was always
689                  * sync (like DIO) is handled differently
690                  */
691                 LASSERT(pg->cp_type != CPT_TRANSIENT);
692                 pg->cp_sync_io = anchor;
693         }
694
695         cl_sync_io_init(anchor, queue->c2_qin.pl_nr);
696         rc = cl_io_submit_rw(env, io, iot, queue);
697         if (rc == 0) {
698                 /*
699                  * If some pages weren't sent for any reason (e.g.,
700                  * read found up-to-date pages in the cache, or write found
701                  * clean pages), count them as completed to avoid infinite
702                  * wait.
703                  */
704                 cl_page_list_for_each(pg, &queue->c2_qin) {
705                         pg->cp_sync_io = NULL;
706                         cl_sync_io_note(env, anchor, 1);
707                 }
708
709                 /* wait for the IO to be finished. */
710                 rc = cl_sync_io_wait(env, anchor, timeout);
711                 cl_page_list_assume(env, io, &queue->c2_qout);
712         } else {
713                 LASSERT(list_empty(&queue->c2_qout.pl_pages));
714                 cl_page_list_for_each(pg, &queue->c2_qin)
715                         pg->cp_sync_io = NULL;
716         }
717         RETURN(rc);
718 }
719 EXPORT_SYMBOL(cl_io_submit_sync);
720
721 /**
722  * Main io loop.
723  *
724  * Pumps io through iterations calling
725  *
726  *    - cl_io_iter_init()
727  *
728  *    - cl_io_lock()
729  *
730  *    - cl_io_start()
731  *
732  *    - cl_io_end()
733  *
734  *    - cl_io_unlock()
735  *
736  *    - cl_io_iter_fini()
737  *
738  * repeatedly until there is no more io to do.
739  */
740 int cl_io_loop(const struct lu_env *env, struct cl_io *io)
741 {
742         int result = 0;
743         int rc = 0;
744
745         LINVRNT(cl_io_is_loopable(io));
746         ENTRY;
747
748         do {
749                 size_t bytes;
750
751                 io->ci_continue = 0;
752                 result = cl_io_iter_init(env, io);
753                 if (result == 0) {
754                         bytes = io->ci_bytes;
755                         result = cl_io_lock(env, io);
756                         if (result == 0) {
757                                 /*
758                                  * Notify layers that locks has been taken,
759                                  * and do actual i/o.
760                                  *
761                                  *   - llite: kms, short read;
762                                  *   - llite: generic_file_read();
763                                  */
764                                 result = cl_io_start(env, io);
765                                 /*
766                                  * Send any remaining pending
767                                  * io, etc.
768                                  *
769                                  **   - llite: ll_rw_stats_tally.
770                                  */
771                                 cl_io_end(env, io);
772                                 cl_io_unlock(env, io);
773                                 cl_io_rw_advance(env, io, io->ci_bytes - bytes);
774                         }
775                 }
776                 cl_io_iter_fini(env, io);
777                 if (result)
778                         rc = result;
779         } while ((result == 0 || result == -EIOCBQUEUED) &&
780                  io->ci_continue);
781
782         if (rc && !result)
783                 result = rc;
784
785         if (result == -EAGAIN && io->ci_ndelay && !io->ci_iocb_nowait) {
786                 if (!io->ci_tried_all_mirrors) {
787                         io->ci_need_restart = 1;
788                         result = 0;
789                 } else {
790                         result = -EIO;
791                 }
792         }
793
794         if (result == 0)
795                 result = io->ci_result;
796         RETURN(result < 0 ? result : 0);
797 }
798 EXPORT_SYMBOL(cl_io_loop);
799
800 /**
801  * Adds io slice to the cl_io.
802  *
803  * This is called by cl_object_operations::coo_io_init() methods to add a
804  * per-layer state to the io. New state is added at the end of
805  * cl_io::ci_layers list, that is, it is at the bottom of the stack.
806  *
807  * \see cl_lock_slice_add(), cl_req_slice_add(), cl_page_slice_add()
808  */
809 void cl_io_slice_add(struct cl_io *io, struct cl_io_slice *slice,
810                      struct cl_object *obj,
811                      const struct cl_io_operations *ops)
812 {
813         struct list_head *linkage = &slice->cis_linkage;
814
815         LASSERT((linkage->prev == NULL && linkage->next == NULL) ||
816                 list_empty(linkage));
817         ENTRY;
818
819         list_add_tail(linkage, &io->ci_layers);
820         slice->cis_io  = io;
821         slice->cis_obj = obj;
822         slice->cis_iop = ops;
823         EXIT;
824 }
825 EXPORT_SYMBOL(cl_io_slice_add);
826
827
828 /**
829  * Initializes page list.
830  */
831 void cl_page_list_init(struct cl_page_list *plist)
832 {
833         ENTRY;
834         plist->pl_nr = 0;
835         INIT_LIST_HEAD(&plist->pl_pages);
836         EXIT;
837 }
838 EXPORT_SYMBOL(cl_page_list_init);
839
840 /**
841  * Adds a page to a page list.
842  */
843 void cl_page_list_add(struct cl_page_list *plist, struct cl_page *page,
844                       bool getref)
845 {
846         ENTRY;
847         /* it would be better to check that page is owned by "current" io, but
848          * it is not passed here. */
849         LASSERT(page->cp_owner != NULL);
850
851         LASSERT(list_empty(&page->cp_batch));
852         list_add_tail(&page->cp_batch, &plist->pl_pages);
853         ++plist->pl_nr;
854         lu_ref_add_at(&page->cp_reference, &page->cp_queue_ref, "queue", plist);
855         if (getref)
856                 cl_page_get(page);
857         EXIT;
858 }
859 EXPORT_SYMBOL(cl_page_list_add);
860
861 /**
862  * Removes a page from a page list.
863  */
864 void cl_page_list_del(const struct lu_env *env,
865                       struct cl_page_list *plist, struct cl_page *page,
866                       bool putref)
867 {
868         LASSERT(plist->pl_nr > 0);
869
870         ENTRY;
871         list_del_init(&page->cp_batch);
872         --plist->pl_nr;
873         lu_ref_del_at(&page->cp_reference, &page->cp_queue_ref, "queue", plist);
874         if (putref)
875                 cl_page_put(env, page);
876         EXIT;
877 }
878 EXPORT_SYMBOL(cl_page_list_del);
879
880 /**
881  * Moves a page from one page list to another.
882  */
883 void cl_page_list_move(struct cl_page_list *dst, struct cl_page_list *src,
884                        struct cl_page *page)
885 {
886         LASSERT(src->pl_nr > 0);
887
888         ENTRY;
889         list_move_tail(&page->cp_batch, &dst->pl_pages);
890         --src->pl_nr;
891         ++dst->pl_nr;
892         lu_ref_set_at(&page->cp_reference, &page->cp_queue_ref, "queue",
893                       src, dst);
894         EXIT;
895 }
896 EXPORT_SYMBOL(cl_page_list_move);
897
898 /**
899  * Moves a page from one page list to the head of another list.
900  */
901 void cl_page_list_move_head(struct cl_page_list *dst, struct cl_page_list *src,
902                             struct cl_page *page)
903 {
904         LASSERT(src->pl_nr > 0);
905
906         ENTRY;
907         list_move(&page->cp_batch, &dst->pl_pages);
908         --src->pl_nr;
909         ++dst->pl_nr;
910         lu_ref_set_at(&page->cp_reference, &page->cp_queue_ref, "queue",
911                         src, dst);
912         EXIT;
913 }
914 EXPORT_SYMBOL(cl_page_list_move_head);
915
916 /**
917  * splice the cl_page_list, just as list head does
918  */
919 void cl_page_list_splice(struct cl_page_list *src, struct cl_page_list *dst)
920 {
921 #ifdef CONFIG_LUSTRE_DEBUG_LU_REF
922         struct cl_page *page;
923         struct cl_page *tmp;
924
925         ENTRY;
926         cl_page_list_for_each_safe(page, tmp, src)
927                 lu_ref_set_at(&page->cp_reference, &page->cp_queue_ref,
928                               "queue", src, dst);
929 #else
930         ENTRY;
931 #endif
932         dst->pl_nr += src->pl_nr;
933         src->pl_nr = 0;
934         list_splice_tail_init(&src->pl_pages, &dst->pl_pages);
935
936         EXIT;
937 }
938 EXPORT_SYMBOL(cl_page_list_splice);
939
940 /**
941  * Disowns pages in a queue.
942  */
943 void cl_page_list_disown(const struct lu_env *env, struct cl_page_list *plist)
944 {
945         struct cl_page *page;
946         struct cl_page *temp;
947
948         ENTRY;
949         cl_page_list_for_each_safe(page, temp, plist) {
950                 LASSERT(plist->pl_nr > 0);
951
952                 list_del_init(&page->cp_batch);
953                 --plist->pl_nr;
954                 /*
955                  * __cl_page_disown rather than usual cl_page_disown() is used,
956                  * because pages are possibly in CPS_FREEING state already due
957                  * to the call to cl_page_list_discard().
958                  */
959                 /*
960                  * XXX __cl_page_disown() will fail if page is not locked.
961                  */
962                 __cl_page_disown(env, page);
963                 lu_ref_del_at(&page->cp_reference, &page->cp_queue_ref, "queue",
964                               plist);
965                 cl_page_put(env, page);
966         }
967         EXIT;
968 }
969 EXPORT_SYMBOL(cl_page_list_disown);
970
971 /**
972  * Releases pages from queue.
973  */
974 void cl_page_list_fini(const struct lu_env *env, struct cl_page_list *plist)
975 {
976         struct cl_page *page;
977         struct cl_page *temp;
978
979         ENTRY;
980         cl_page_list_for_each_safe(page, temp, plist)
981                 cl_page_list_del(env, plist, page, true);
982         LASSERT(plist->pl_nr == 0);
983         EXIT;
984 }
985 EXPORT_SYMBOL(cl_page_list_fini);
986
987 /**
988  * Assumes all pages in a queue.
989  */
990 void cl_page_list_assume(const struct lu_env *env,
991                          struct cl_io *io, struct cl_page_list *plist)
992 {
993         struct cl_page *page;
994
995         cl_page_list_for_each(page, plist)
996                 cl_page_assume(env, io, page);
997 }
998
999 /**
1000  * Discards all pages in a queue.
1001  */
1002 void cl_page_list_discard(const struct lu_env *env, struct cl_io *io,
1003                           struct cl_page_list *plist)
1004 {
1005         struct cl_page *page;
1006
1007         ENTRY;
1008         cl_page_list_for_each(page, plist)
1009                 cl_page_discard(env, io, page);
1010         EXIT;
1011 }
1012 EXPORT_SYMBOL(cl_page_list_discard);
1013
1014 /**
1015  * Initialize dual page queue.
1016  */
1017 void cl_2queue_init(struct cl_2queue *queue)
1018 {
1019         ENTRY;
1020         cl_page_list_init(&queue->c2_qin);
1021         cl_page_list_init(&queue->c2_qout);
1022         EXIT;
1023 }
1024 EXPORT_SYMBOL(cl_2queue_init);
1025
1026 /**
1027  * Disown pages in both lists of a 2-queue.
1028  */
1029 void cl_2queue_disown(const struct lu_env *env, struct cl_2queue *queue)
1030 {
1031         ENTRY;
1032         cl_page_list_disown(env, &queue->c2_qin);
1033         cl_page_list_disown(env, &queue->c2_qout);
1034         EXIT;
1035 }
1036 EXPORT_SYMBOL(cl_2queue_disown);
1037
1038 /**
1039  * Discard (truncate) pages in both lists of a 2-queue.
1040  */
1041 void cl_2queue_discard(const struct lu_env *env,
1042                        struct cl_io *io, struct cl_2queue *queue)
1043 {
1044         ENTRY;
1045         cl_page_list_discard(env, io, &queue->c2_qin);
1046         cl_page_list_discard(env, io, &queue->c2_qout);
1047         EXIT;
1048 }
1049 EXPORT_SYMBOL(cl_2queue_discard);
1050
1051 /**
1052  * Assume to own the pages in cl_2queue
1053  */
1054 void cl_2queue_assume(const struct lu_env *env,
1055                       struct cl_io *io, struct cl_2queue *queue)
1056 {
1057         cl_page_list_assume(env, io, &queue->c2_qin);
1058         cl_page_list_assume(env, io, &queue->c2_qout);
1059 }
1060
1061 /**
1062  * Finalize both page lists of a 2-queue.
1063  */
1064 void cl_2queue_fini(const struct lu_env *env, struct cl_2queue *queue)
1065 {
1066         ENTRY;
1067         cl_page_list_fini(env, &queue->c2_qout);
1068         cl_page_list_fini(env, &queue->c2_qin);
1069         EXIT;
1070 }
1071 EXPORT_SYMBOL(cl_2queue_fini);
1072
1073 /**
1074  * Initialize a 2-queue to contain \a page in its incoming page list.
1075  */
1076 void cl_2queue_init_page(struct cl_2queue *queue, struct cl_page *page)
1077 {
1078         ENTRY;
1079         cl_2queue_init(queue);
1080         /*
1081          * Add a page to the incoming page list of 2-queue.
1082          */
1083         cl_page_list_add(&queue->c2_qin, page, true);
1084         EXIT;
1085 }
1086 EXPORT_SYMBOL(cl_2queue_init_page);
1087
1088 /**
1089  * Returns top-level io.
1090  *
1091  * \see cl_object_top()
1092  */
1093 struct cl_io *cl_io_top(struct cl_io *io)
1094 {
1095         ENTRY;
1096         while (io->ci_parent != NULL)
1097                 io = io->ci_parent;
1098         RETURN(io);
1099 }
1100 EXPORT_SYMBOL(cl_io_top);
1101
1102 /**
1103  * Fills in attributes that are passed to server together with transfer. Only
1104  * attributes from \a flags may be touched. This can be called multiple times
1105  * for the same request.
1106  */
1107 void cl_req_attr_set(const struct lu_env *env, struct cl_object *obj,
1108                      struct cl_req_attr *attr)
1109 {
1110         struct cl_object *scan;
1111         ENTRY;
1112
1113         cl_object_for_each(scan, obj) {
1114                 if (scan->co_ops->coo_req_attr_set != NULL)
1115                         scan->co_ops->coo_req_attr_set(env, scan, attr);
1116         }
1117         EXIT;
1118 }
1119 EXPORT_SYMBOL(cl_req_attr_set);
1120
1121 /**
1122  * Initialize synchronous io wait \a anchor for \a nr pages with optional
1123  * \a end handler.
1124  * \param anchor owned by caller, initialzied here.
1125  * \param nr number of pages initally pending in sync.
1126  * \param end optional callback sync_io completion, can be used to
1127  *  trigger erasure coding, integrity, dedupe, or similar operation.
1128  * \q end is called with a spinlock on anchor->csi_waitq.lock
1129  */
1130 void cl_sync_io_init_notify(struct cl_sync_io *anchor, int nr,
1131                             void *dio_aio, cl_sync_io_end_t *end)
1132 {
1133         ENTRY;
1134         memset(anchor, 0, sizeof(*anchor));
1135         init_waitqueue_head(&anchor->csi_waitq);
1136         atomic_set(&anchor->csi_sync_nr, nr);
1137         atomic_set(&anchor->csi_complete, 0);
1138         anchor->csi_sync_rc = 0;
1139         anchor->csi_end_io = end;
1140         anchor->csi_dio_aio = dio_aio;
1141         EXIT;
1142 }
1143 EXPORT_SYMBOL(cl_sync_io_init_notify);
1144
1145 /**
1146  * Wait until all IO completes. Transfer completion routine has to call
1147  * cl_sync_io_note() for every entity.
1148  */
1149 int cl_sync_io_wait(const struct lu_env *env, struct cl_sync_io *anchor,
1150                     long timeout)
1151 {
1152         int rc = 0;
1153         ENTRY;
1154
1155         LASSERT(timeout >= 0);
1156
1157         if (timeout > 0 &&
1158             wait_event_idle_timeout(anchor->csi_waitq,
1159                                     atomic_read(&anchor->csi_complete) == 1,
1160                                     cfs_time_seconds(timeout)) == 0) {
1161                 rc = -ETIMEDOUT;
1162                 CERROR("IO failed: %d, still wait for %d remaining entries\n",
1163                        rc, atomic_read(&anchor->csi_complete));
1164         }
1165
1166         wait_event_idle(anchor->csi_waitq,
1167                         atomic_read(&anchor->csi_complete) == 1);
1168         if (!rc)
1169                 rc = anchor->csi_sync_rc;
1170
1171         /* We take the lock to ensure that cl_sync_io_note() has finished */
1172         spin_lock(&anchor->csi_waitq.lock);
1173         LASSERT(atomic_read(&anchor->csi_sync_nr) == 0);
1174         LASSERT(atomic_read(&anchor->csi_complete) == 1);
1175         spin_unlock(&anchor->csi_waitq.lock);
1176
1177         RETURN(rc);
1178 }
1179 EXPORT_SYMBOL(cl_sync_io_wait);
1180
1181 static inline void dio_aio_complete(struct kiocb *iocb, ssize_t res)
1182 {
1183 #ifdef HAVE_AIO_COMPLETE
1184         aio_complete(iocb, res, 0);
1185 #else
1186         if (iocb->ki_complete)
1187 # ifdef HAVE_KIOCB_COMPLETE_2ARGS
1188                 iocb->ki_complete(iocb, res);
1189 # else
1190                 iocb->ki_complete(iocb, res, 0);
1191 # endif
1192 #endif
1193 }
1194
1195 static void cl_dio_aio_end(const struct lu_env *env, struct cl_sync_io *anchor)
1196 {
1197         struct cl_dio_aio *aio = container_of(anchor, typeof(*aio), cda_sync);
1198         ssize_t ret = anchor->csi_sync_rc;
1199
1200         ENTRY;
1201
1202         if (!aio->cda_no_aio_complete)
1203                 dio_aio_complete(aio->cda_iocb, ret ?: aio->cda_bytes);
1204
1205         EXIT;
1206 }
1207
1208 static void cl_sub_dio_end(const struct lu_env *env, struct cl_sync_io *anchor)
1209 {
1210         struct cl_sub_dio *sdio = container_of(anchor, typeof(*sdio), csd_sync);
1211         ssize_t ret = anchor->csi_sync_rc;
1212
1213         ENTRY;
1214
1215         /* release pages */
1216         while (sdio->csd_pages.pl_nr > 0) {
1217                 struct cl_page *page = cl_page_list_first(&sdio->csd_pages);
1218
1219                 cl_page_delete(env, page);
1220                 cl_page_list_del(env, &sdio->csd_pages, page, false);
1221                 cl_page_put(env, page);
1222         }
1223
1224         if (sdio->csd_unaligned) {
1225                 /* save the iovec pointer before it's modified by
1226                  * ll_dio_user_copy
1227                  */
1228                 struct iovec *tmp = (struct iovec *) sdio->csd_iter.__iov;
1229
1230                 CDEBUG(D_VFSTRACE,
1231                        "finishing unaligned dio %s aio->cda_bytes %ld\n",
1232                        sdio->csd_write ? "write" : "read", sdio->csd_bytes);
1233                 /* read copies *from* the kernel buffer *to* userspace
1234                  * here at the end, write copies *to* the kernel
1235                  * buffer from userspace at the start
1236                  */
1237                 if (!sdio->csd_write && sdio->csd_bytes > 0)
1238                         ret = ll_dio_user_copy(sdio, NULL);
1239                 ll_free_dio_buffer(&sdio->csd_dio_pages);
1240                 /* handle the freeing here rather than in cl_sub_dio_free
1241                  * because we have the unmodified iovec pointer
1242                  */
1243                 OBD_FREE_PTR(tmp);
1244                 sdio->csd_iter.__iov = NULL;
1245         } else {
1246                 /* unaligned DIO does not get user pages, so it doesn't have to
1247                  * release them, but aligned I/O must
1248                  */
1249                 ll_release_user_pages(sdio->csd_dio_pages.ldp_pages,
1250                                       sdio->csd_dio_pages.ldp_count);
1251         }
1252         cl_sync_io_note(env, &sdio->csd_ll_aio->cda_sync, ret);
1253
1254         EXIT;
1255 }
1256
1257 struct cl_dio_aio *cl_dio_aio_alloc(struct kiocb *iocb, struct cl_object *obj,
1258                                     bool is_aio)
1259 {
1260         struct cl_dio_aio *aio;
1261
1262         OBD_SLAB_ALLOC_PTR_GFP(aio, cl_dio_aio_kmem, GFP_NOFS);
1263         if (aio != NULL) {
1264                 /*
1265                  * Hold one ref so that it won't be released until
1266                  * every pages is added.
1267                  */
1268                 cl_sync_io_init_notify(&aio->cda_sync, 1, aio, cl_dio_aio_end);
1269                 aio->cda_iocb = iocb;
1270                 aio->cda_no_aio_complete = !is_aio;
1271                 /* if this is true AIO, the memory is freed by the last call
1272                  * to cl_sync_io_note (when all the I/O is complete), because
1273                  * no one is waiting (in the kernel) for this to complete
1274                  *
1275                  * in other cases, the last user is cl_sync_io_wait, and in
1276                  * that case, the creator frees the struct after that call
1277                  */
1278                 aio->cda_creator_free = !is_aio;
1279
1280                 cl_object_get(obj);
1281                 aio->cda_obj = obj;
1282                 aio->cda_mm = get_task_mm(current);
1283         }
1284         return aio;
1285 }
1286 EXPORT_SYMBOL(cl_dio_aio_alloc);
1287
1288 struct cl_sub_dio *cl_sub_dio_alloc(struct cl_dio_aio *ll_aio,
1289                                     struct iov_iter *iter, bool write,
1290                                     bool unaligned, bool sync)
1291 {
1292         struct cl_sub_dio *sdio;
1293
1294         OBD_SLAB_ALLOC_PTR_GFP(sdio, cl_sub_dio_kmem, GFP_NOFS);
1295         if (sdio != NULL) {
1296                 /*
1297                  * Hold one ref so that it won't be released until
1298                  * every pages is added.
1299                  */
1300                 cl_sync_io_init_notify(&sdio->csd_sync, 1, sdio,
1301                                        cl_sub_dio_end);
1302                 cl_page_list_init(&sdio->csd_pages);
1303
1304                 sdio->csd_ll_aio = ll_aio;
1305                 sdio->csd_creator_free = sync;
1306                 sdio->csd_write = write;
1307                 sdio->csd_unaligned = unaligned;
1308
1309                 atomic_add(1,  &ll_aio->cda_sync.csi_sync_nr);
1310
1311                 if (unaligned) {
1312                         /* we need to make a copy of the user iovec at this
1313                          * point in time, in order to:
1314                          *
1315                          * A) have the correct state of the iovec for this
1316                          * chunk of I/O, ie, the main iovec is altered as we do
1317                          * I/O and this chunk needs the current state
1318                          * B) have a chunk-local copy; doing the IO later
1319                          * modifies the iovec, so to process each chunk from a
1320                          * separate thread requires a local copy of the iovec
1321                          */
1322                         memcpy(&sdio->csd_iter, iter, sizeof(struct iov_iter));
1323                         OBD_ALLOC_PTR(sdio->csd_iter.__iov);
1324                         if (sdio->csd_iter.__iov == NULL) {
1325                                 cl_sub_dio_free(sdio);
1326                                 sdio = NULL;
1327                                 goto out;
1328                         }
1329                         memcpy((void *) sdio->csd_iter.__iov, iter->__iov,
1330                                sizeof(struct iovec));
1331                 }
1332         }
1333 out:
1334         return sdio;
1335 }
1336 EXPORT_SYMBOL(cl_sub_dio_alloc);
1337
1338 void cl_dio_aio_free(const struct lu_env *env, struct cl_dio_aio *aio)
1339 {
1340         if (aio) {
1341                 if (aio->cda_mm)
1342                         mmput(aio->cda_mm);
1343                 cl_object_put(env, aio->cda_obj);
1344                 OBD_SLAB_FREE_PTR(aio, cl_dio_aio_kmem);
1345         }
1346 }
1347 EXPORT_SYMBOL(cl_dio_aio_free);
1348
1349 void cl_sub_dio_free(struct cl_sub_dio *sdio)
1350 {
1351         if (sdio) {
1352                 void *tmp = (void *)sdio->csd_iter.__iov;
1353
1354                 if (tmp) {
1355                         LASSERT(sdio->csd_unaligned);
1356                         OBD_FREE_PTR(tmp);
1357                 }
1358                 OBD_SLAB_FREE_PTR(sdio, cl_sub_dio_kmem);
1359         }
1360 }
1361 EXPORT_SYMBOL(cl_sub_dio_free);
1362
1363 /*
1364  * For unaligned DIO.
1365  *
1366  * Allocate the internal buffer from/to which we will perform DIO.  This takes
1367  * the user I/O parameters and allocates an internal buffer large enough to
1368  * hold it.  The pages in this buffer are aligned with pages in the file (ie,
1369  * they have a 1-to-1 mapping with file pages).
1370  */
1371 int ll_allocate_dio_buffer(struct ll_dio_pages *pvec, size_t io_size)
1372 {
1373         struct page *new_page;
1374         size_t pg_offset;
1375         int result = 0;
1376         ssize_t i;
1377
1378         ENTRY;
1379
1380         /* page level offset in the file where the I/O starts */
1381         pg_offset = pvec->ldp_file_offset & ~PAGE_MASK;
1382         /* this adds 1 for the first page and removes the bytes in it from the
1383          * io_size, making the rest of the calculation aligned
1384          */
1385         if (pg_offset) {
1386                 pvec->ldp_count++;
1387                 io_size -= min_t(size_t, PAGE_SIZE - pg_offset, io_size);
1388         }
1389
1390         /* calculate pages for the rest of the buffer */
1391         pvec->ldp_count += (io_size + PAGE_SIZE - 1) >> PAGE_SHIFT;
1392
1393 #ifdef HAVE_DIO_ITER
1394         pvec->ldp_pages = kvzalloc(pvec->ldp_count * sizeof(struct page *),
1395                                     GFP_NOFS);
1396 #else
1397         OBD_ALLOC_PTR_ARRAY_LARGE(pvec->ldp_pages, pvec->ldp_count);
1398 #endif
1399         if (pvec->ldp_pages == NULL)
1400                 RETURN(-ENOMEM);
1401
1402         for (i = 0; i < pvec->ldp_count; i++) {
1403                 new_page = alloc_page(GFP_NOFS);
1404                 if (!new_page) {
1405                         result = -ENOMEM;
1406                         pvec->ldp_count = i;
1407                         goto out;
1408                 }
1409                 pvec->ldp_pages[i] = new_page;
1410         }
1411         WARN_ON(i != pvec->ldp_count);
1412
1413 out:
1414         if (result) {
1415                 if (pvec->ldp_pages)
1416                         ll_free_dio_buffer(pvec);
1417         }
1418
1419         if (result == 0)
1420                 result = pvec->ldp_count;
1421
1422         RETURN(result);
1423 }
1424 EXPORT_SYMBOL(ll_allocate_dio_buffer);
1425
1426 void ll_free_dio_buffer(struct ll_dio_pages *pvec)
1427 {
1428         int i;
1429
1430         for (i = 0; i < pvec->ldp_count; i++)
1431                 __free_page(pvec->ldp_pages[i]);
1432
1433 #ifdef HAVE_DIO_ITER
1434         kfree(pvec->ldp_pages);
1435 #else
1436         OBD_FREE_PTR_ARRAY_LARGE(pvec->ldp_pages, pvec->ldp_count);
1437 #endif
1438 }
1439 EXPORT_SYMBOL(ll_free_dio_buffer);
1440
1441 /*
1442  * ll_release_user_pages - tear down page struct array
1443  * @pages: array of page struct pointers underlying target buffer
1444  */
1445 void ll_release_user_pages(struct page **pages, int npages)
1446 {
1447         int i;
1448
1449         if (npages == 0) {
1450                 LASSERT(!pages);
1451                 return;
1452         }
1453
1454         for (i = 0; i < npages; i++) {
1455                 if (!pages[i])
1456                         break;
1457                 put_page(pages[i]);
1458         }
1459
1460 #if defined(HAVE_DIO_ITER)
1461         kvfree(pages);
1462 #else
1463         OBD_FREE_PTR_ARRAY_LARGE(pages, npages);
1464 #endif
1465 }
1466 EXPORT_SYMBOL(ll_release_user_pages);
1467
1468 #ifdef HAVE_FAULT_IN_IOV_ITER_READABLE
1469 #define ll_iov_iter_fault_in_readable(iov, bytes) \
1470         fault_in_iov_iter_readable(iov, bytes)
1471 #else
1472 #define ll_iov_iter_fault_in_readable(iov, bytes) \
1473         iov_iter_fault_in_readable(iov, bytes)
1474 #endif
1475
1476 #ifndef HAVE_KTHREAD_USE_MM
1477 #define kthread_use_mm(mm) use_mm(mm)
1478 #define kthread_unuse_mm(mm) unuse_mm(mm)
1479 #endif
1480
1481 /* copy IO data to/from internal buffer and userspace iovec */
1482 ssize_t ll_dio_user_copy(struct cl_sub_dio *sdio, struct iov_iter *write_iov)
1483 {
1484         struct iov_iter *iter = write_iov ? write_iov : &sdio->csd_iter;
1485         struct ll_dio_pages *pvec = &sdio->csd_dio_pages;
1486         struct mm_struct *mm = sdio->csd_ll_aio->cda_mm;
1487         loff_t pos = pvec->ldp_file_offset;
1488         size_t count = sdio->csd_bytes;
1489         size_t original_count = count;
1490         int short_copies = 0;
1491         bool mm_used = false;
1492         int status = 0;
1493         int i = 0;
1494         int rw;
1495
1496         ENTRY;
1497
1498         LASSERT(sdio->csd_unaligned);
1499
1500         if (sdio->csd_write)
1501                 rw = WRITE;
1502         else
1503                 rw = READ;
1504
1505         /* if there's no mm, io is being done from a kernel thread, so there's
1506          * no need to transition to its mm context anyway.
1507          *
1508          * Also, if mm == current->mm, that means this is being handled in the
1509          * thread which created it, and not in a separate kthread - so it is
1510          * unnecessary (and incorrect) to do a use_mm here
1511          */
1512         if (mm && mm != current->mm) {
1513                 kthread_use_mm(mm);
1514                 mm_used = true;
1515         }
1516
1517         /* fault in the entire userspace iovec */
1518         if (rw == WRITE) {
1519                 if (unlikely(ll_iov_iter_fault_in_readable(iter, count)))
1520                         GOTO(out, status = -EFAULT);
1521         }
1522
1523         /* modeled on kernel generic_file_buffered_read/write()
1524          *
1525          * note we only have one 'chunk' of i/o here, so we do not copy the
1526          * whole iovec here (except when the chunk is the whole iovec) so we
1527          * use the count of bytes in the chunk, csd_bytes, instead of looking
1528          * at the iovec
1529          */
1530         while (true) {
1531                 struct page *page = pvec->ldp_pages[i];
1532                 unsigned long offset; /* offset into kernel buffer page */
1533                 size_t copied; /* bytes successfully copied */
1534                 size_t bytes; /* bytes to copy for this page */
1535
1536                 LASSERT(i < pvec->ldp_count);
1537
1538                 offset = pos & ~PAGE_MASK;
1539                 bytes = min_t(unsigned long, PAGE_SIZE - offset,
1540                               count);
1541
1542                 CDEBUG(D_VFSTRACE,
1543                        "count %zd, offset %lu, pos %lld, ldp_count %lu\n",
1544                        count, offset, pos, pvec->ldp_count);
1545
1546                 if (fatal_signal_pending(current)) {
1547                         status = -EINTR;
1548                         break;
1549                 }
1550
1551                 /* write requires a few extra steps */
1552                 if (rw == WRITE) {
1553                         /* like btrfs, we do not have a mapping since this isn't
1554                          * a page cache page, so we must do this flush
1555                          * unconditionally
1556                          *
1557                          * NB: This is a noop on x86 but active on other
1558                          * architectures
1559                          */
1560                         flush_dcache_page(page);
1561
1562 #ifndef HAVE_COPY_PAGE_FROM_ITER_ATOMIC
1563                         copied = iov_iter_copy_from_user_atomic(page, iter,
1564                                                                 offset, bytes);
1565                         iov_iter_advance(iter, copied);
1566 #else
1567                         copied = copy_page_from_iter_atomic(page, offset, bytes,
1568                                                             iter);
1569 #endif
1570
1571                 } else /* READ */ {
1572                         copied = copy_page_to_iter(page, offset, bytes, iter);
1573                 }
1574
1575                 pos += copied;
1576                 count -= copied;
1577
1578                 if (unlikely(copied < bytes)) {
1579                         short_copies++;
1580
1581                         CDEBUG(D_VFSTRACE,
1582                                "short copy - copied only %zd of %lu, short %d times\n",
1583                                copied, bytes, short_copies);
1584                         /* copies will very rarely be interrupted, but we
1585                          * should retry in those cases, since the other option
1586                          * is giving an IO error and this can occur in normal
1587                          * operation such as with racing unaligned AIOs
1588                          *
1589                          * but of course we should not retry indefinitely
1590                          */
1591                         if (short_copies > 2) {
1592                                 CERROR("Unaligned DIO copy repeatedly short, count %zd, offset %lu, bytes %lu, copied %zd, pos %lld\n",
1593                                 count, offset, bytes, copied, pos);
1594
1595                                 status = -EFAULT;
1596                                 break;
1597                         }
1598
1599                         continue;
1600                 }
1601
1602                 if (count == 0)
1603                         break;
1604
1605                 i++;
1606         }
1607
1608 out:
1609         /* if we complete successfully, we should reach all of the pages */
1610         LASSERTF(ergo(status == 0, i == pvec->ldp_count - 1),
1611                  "status: %d, i: %d, pvec->ldp_count %zu, count %zu\n",
1612                   status, i, pvec->ldp_count, count);
1613
1614         if (write_iov && status == 0) {
1615                 /* The copy function we use modifies the count in the iovec,
1616                  * but that's actually the job of the caller, so we return the
1617                  * iovec to the original count
1618                  */
1619                 iov_iter_reexpand(iter, original_count);
1620         }
1621
1622         if (mm_used)
1623                 kthread_unuse_mm(mm);
1624
1625         /* the total bytes copied, or status */
1626         RETURN(original_count - count ? original_count - count : status);
1627 }
1628 EXPORT_SYMBOL(ll_dio_user_copy);
1629
1630 /**
1631  * Indicate that transfer of a single page completed.
1632  */
1633 void cl_sync_io_note(const struct lu_env *env, struct cl_sync_io *anchor,
1634                      int ioret)
1635 {
1636         ENTRY;
1637
1638         if (anchor->csi_sync_rc == 0 && ioret < 0)
1639                 anchor->csi_sync_rc = ioret;
1640         /*
1641          * Synchronous IO done without releasing page lock (e.g., as a part of
1642          * ->{prepare,commit}_write(). Completion is used to signal the end of
1643          * IO.
1644          */
1645         LASSERT(atomic_read(&anchor->csi_sync_nr) > 0);
1646         LASSERT(atomic_read(&anchor->csi_complete) == 0);
1647         if (atomic_dec_and_lock(&anchor->csi_sync_nr,
1648                                 &anchor->csi_waitq.lock)) {
1649                 struct cl_sub_dio *sub_dio_aio = NULL;
1650                 struct cl_dio_aio *dio_aio = NULL;
1651                 void *csi_dio_aio = NULL;
1652                 bool creator_free = true;
1653
1654                 cl_sync_io_end_t *end_io = anchor->csi_end_io;
1655
1656                 spin_unlock(&anchor->csi_waitq.lock);
1657                 /* we cannot do end_io while holding a spin lock, because
1658                  * end_io may sleep
1659                  */
1660                 if (end_io)
1661                         end_io(env, anchor);
1662
1663                 spin_lock(&anchor->csi_waitq.lock);
1664                 /* this tells the waiters we've completed, and can only be set
1665                  * after end_io() has been called and while we're holding the
1666                  * spinlock
1667                  */
1668                 atomic_set(&anchor->csi_complete, 1);
1669                 /*
1670                  * Holding the lock across both the decrement and
1671                  * the wakeup ensures cl_sync_io_wait() doesn't complete
1672                  * before the wakeup completes and the contents of
1673                  * of anchor become unsafe to access as the owner is free
1674                  * to immediately reclaim anchor when cl_sync_io_wait()
1675                  * completes.
1676                  */
1677                 wake_up_locked(&anchor->csi_waitq);
1678
1679                 csi_dio_aio = anchor->csi_dio_aio;
1680                 sub_dio_aio = csi_dio_aio;
1681                 dio_aio = csi_dio_aio;
1682
1683                 if (csi_dio_aio && end_io == cl_dio_aio_end)
1684                         creator_free = dio_aio->cda_creator_free;
1685                 else if (csi_dio_aio && end_io == cl_sub_dio_end)
1686                         creator_free = sub_dio_aio->csd_creator_free;
1687
1688                 spin_unlock(&anchor->csi_waitq.lock);
1689
1690                 if (csi_dio_aio && !creator_free) {
1691                         if (end_io == cl_dio_aio_end)
1692                                 cl_dio_aio_free(env, dio_aio);
1693                         else if (end_io == cl_sub_dio_end)
1694                                 cl_sub_dio_free(sub_dio_aio);
1695                 }
1696         }
1697         EXIT;
1698 }
1699 EXPORT_SYMBOL(cl_sync_io_note);
1700
1701 /* this function waits for completion of outstanding io and then re-initializes
1702  * the anchor used to track it.  This is used to wait to complete DIO before
1703  * returning to userspace, and is never called for true AIO
1704  */
1705 int cl_sync_io_wait_recycle(const struct lu_env *env, struct cl_sync_io *anchor,
1706                             long timeout, int ioret)
1707 {
1708         int rc = 0;
1709
1710         /*
1711          * @anchor was inited as 1 to prevent end_io to be
1712          * called before we add all pages for IO, so drop
1713          * one extra reference to make sure we could wait
1714          * count to be zero.
1715          */
1716         cl_sync_io_note(env, anchor, ioret);
1717         /* Wait for completion of outstanding dio before re-initializing for
1718          * possible restart
1719          */
1720         rc = cl_sync_io_wait(env, anchor, timeout);
1721         /**
1722          * One extra reference again, as if @anchor is
1723          * reused we assume it as 1 before using.
1724          */
1725         atomic_add(1, &anchor->csi_sync_nr);
1726         /* we must also set this anchor as incomplete */
1727         atomic_set(&anchor->csi_complete, 0);
1728
1729         return rc;
1730 }
1731 EXPORT_SYMBOL(cl_sync_io_wait_recycle);