Whamcloud - gitweb
LU-4198 clio: turn on lockless for some kind of IO
[fs/lustre-release.git] / lustre / osc / osc_io.c
index 8fef8f6..03b4cf8 100644 (file)
@@ -39,6 +39,7 @@
 
 #include <lustre_obdo.h>
 #include <lustre_osc.h>
+#include <linux/pagevec.h>
 
 #include "osc_internal.h"
 
@@ -86,11 +87,13 @@ static int osc_io_read_ahead(const struct lu_env *env,
                        ldlm_lock_decref(&lockh, dlmlock->l_req_mode);
                }
 
-               ra->cra_rpc_size = osc_cli(osc)->cl_max_pages_per_rpc;
-               ra->cra_end = cl_index(osc2cl(osc),
-                                      dlmlock->l_policy_data.l_extent.end);
+               ra->cra_rpc_pages = osc_cli(osc)->cl_max_pages_per_rpc;
+               ra->cra_end_idx = cl_index(osc2cl(osc),
+                                          dlmlock->l_policy_data.l_extent.end);
                ra->cra_release = osc_read_ahead_release;
                ra->cra_cbdata = dlmlock;
+               if (ra->cra_end_idx != CL_PAGE_EOF)
+                       ra->cra_contention = true;
                result = 0;
        }
 
@@ -113,7 +116,7 @@ int osc_io_submit(const struct lu_env *env, const struct cl_io_slice *ios,
        struct osc_object *osc  = NULL; /* to keep gcc happy */
        struct osc_page   *opg;
        struct cl_io      *io;
-       struct list_head  list = LIST_HEAD_INIT(list);
+       LIST_HEAD(list);
 
        struct cl_page_list *qin      = &queue->c2_qin;
        struct cl_page_list *qout     = &queue->c2_qout;
@@ -140,6 +143,10 @@ int osc_io_submit(const struct lu_env *env, const struct cl_io_slice *ios,
        if (crt == CRT_READ && ios->cis_io->ci_ndelay)
                brw_flags |= OBD_BRW_NDELAY;
 
+       page = cl_page_list_first(qin);
+       if (page->cp_type == CPT_TRANSIENT)
+               brw_flags |= OBD_BRW_NOCACHE;
+
         /*
          * NOTE: here @page is a top-level page. This is done to avoid
          *       creation of sub-page-list.
@@ -287,6 +294,7 @@ int osc_io_commit_async(const struct lu_env *env,
        struct cl_page  *page;
        struct cl_page  *last_page;
        struct osc_page *opg;
+       struct pagevec  *pvec = &osc_env_info(env)->oti_pagevec;
        int result = 0;
        ENTRY;
 
@@ -306,6 +314,8 @@ int osc_io_commit_async(const struct lu_env *env,
                }
        }
 
+       ll_pagevec_init(pvec, 0);
+
        while (qin->pl_nr > 0) {
                struct osc_async_page *oap;
 
@@ -325,7 +335,7 @@ int osc_io_commit_async(const struct lu_env *env,
 
                /* The page may be already in dirty cache. */
                if (list_empty(&oap->oap_pending_item)) {
-                       result = osc_page_cache_add(env, &opg->ops_cl, io);
+                       result = osc_page_cache_add(env, opg, io, cb);
                        if (result != 0)
                                break;
                }
@@ -335,11 +345,20 @@ int osc_io_commit_async(const struct lu_env *env,
 
                cl_page_list_del(env, qin, page);
 
-               (*cb)(env, io, page);
-               /* Can't access page any more. Page can be in transfer and
-                * complete at any time. */
+               /* if there are no more slots, do the callback & reinit */
+               if (pagevec_add(pvec, page->cp_vmpage) == 0) {
+                       (*cb)(env, io, pvec);
+                       pagevec_reinit(pvec);
+               }
        }
 
+       /* Clean up any partially full pagevecs */
+       if (pagevec_count(pvec) != 0)
+               (*cb)(env, io, pvec);
+
+       /* Can't access these pages any more. Page can be in transfer and
+        * complete at any time. */
+
        /* for sync write, kernel will wait for this page to be flushed before
         * osc_io_end() is called, so release it earlier.
         * for mkwrite(), it's known there is no further pages. */
@@ -353,28 +372,45 @@ int osc_io_commit_async(const struct lu_env *env,
 }
 EXPORT_SYMBOL(osc_io_commit_async);
 
+static bool osc_import_not_healthy(struct obd_import *imp)
+{
+       return imp->imp_invalid || imp->imp_deactive ||
+              !(imp->imp_state == LUSTRE_IMP_FULL ||
+                imp->imp_state == LUSTRE_IMP_IDLE);
+}
+
 int osc_io_iter_init(const struct lu_env *env, const struct cl_io_slice *ios)
 {
        struct osc_object *osc = cl2osc(ios->cis_obj);
        struct obd_import *imp = osc_cli(osc)->cl_import;
+       struct osc_io *oio = osc_env_io(env);
        int rc = -EIO;
+       ENTRY;
 
        spin_lock(&imp->imp_lock);
-       if (likely(!imp->imp_invalid)) {
-               struct osc_io *oio = osc_env_io(env);
-
+       /**
+        * check whether this OSC device is available for non-delay read,
+        * fast switching mirror if we haven't tried all mirrors.
+        */
+       if (ios->cis_io->ci_type == CIT_READ && ios->cis_io->ci_ndelay &&
+           !ios->cis_io->ci_tried_all_mirrors && osc_import_not_healthy(imp)) {
+               rc = -EWOULDBLOCK;
+       } else if (likely(!imp->imp_invalid)) {
                atomic_inc(&osc->oo_nr_ios);
                oio->oi_is_active = 1;
                rc = 0;
        }
        spin_unlock(&imp->imp_lock);
 
-       return rc;
+       if (cfs_capable(CFS_CAP_SYS_RESOURCE))
+               oio->oi_cap_sys_resource = 1;
+
+       RETURN(rc);
 }
 EXPORT_SYMBOL(osc_io_iter_init);
 
-int osc_io_write_iter_init(const struct lu_env *env,
-                          const struct cl_io_slice *ios)
+int osc_io_rw_iter_init(const struct lu_env *env,
+                       const struct cl_io_slice *ios)
 {
        struct cl_io *io = ios->cis_io;
        struct osc_io *oio = osc_env_io(env);
@@ -393,7 +429,7 @@ int osc_io_write_iter_init(const struct lu_env *env,
 
        RETURN(osc_io_iter_init(env, ios));
 }
-EXPORT_SYMBOL(osc_io_write_iter_init);
+EXPORT_SYMBOL(osc_io_rw_iter_init);
 
 void osc_io_iter_fini(const struct lu_env *env,
                      const struct cl_io_slice *ios)
@@ -411,8 +447,8 @@ void osc_io_iter_fini(const struct lu_env *env,
 }
 EXPORT_SYMBOL(osc_io_iter_fini);
 
-void osc_io_write_iter_fini(const struct lu_env *env,
-                           const struct cl_io_slice *ios)
+void osc_io_rw_iter_fini(const struct lu_env *env,
+                        const struct cl_io_slice *ios)
 {
        struct osc_io *oio = osc_env_io(env);
        struct osc_object *osc = cl2osc(ios->cis_obj);
@@ -425,7 +461,7 @@ void osc_io_write_iter_fini(const struct lu_env *env,
 
        osc_io_iter_fini(env, ios);
 }
-EXPORT_SYMBOL(osc_io_write_iter_fini);
+EXPORT_SYMBOL(osc_io_rw_iter_fini);
 
 int osc_io_fault_start(const struct lu_env *env, const struct cl_io_slice *ios)
 {
@@ -730,8 +766,7 @@ static int osc_io_data_version_start(const struct lu_env *env,
 
        ptlrpc_request_set_replen(req);
        req->rq_interpret_reply = osc_data_version_interpret;
-       CLASSERT(sizeof(*dva) <= sizeof(req->rq_async_args));
-       dva = ptlrpc_req_async_args(req);
+       dva = ptlrpc_req_async_args(dva, req);
        dva->dva_oio = oio;
 
        ptlrpcd_add_req(req);
@@ -978,14 +1013,14 @@ EXPORT_SYMBOL(osc_io_end);
 static const struct cl_io_operations osc_io_ops = {
        .op = {
                [CIT_READ] = {
-                       .cio_iter_init = osc_io_iter_init,
-                       .cio_iter_fini = osc_io_iter_fini,
+                       .cio_iter_init = osc_io_rw_iter_init,
+                       .cio_iter_fini = osc_io_rw_iter_fini,
                        .cio_start  = osc_io_read_start,
                        .cio_fini   = osc_io_fini
                },
                [CIT_WRITE] = {
-                       .cio_iter_init = osc_io_write_iter_init,
-                       .cio_iter_fini = osc_io_write_iter_fini,
+                       .cio_iter_init = osc_io_rw_iter_init,
+                       .cio_iter_fini = osc_io_rw_iter_fini,
                        .cio_start  = osc_io_write_start,
                        .cio_end    = osc_io_end,
                        .cio_fini   = osc_io_fini