b=18690 Enable rehashing and increase max hash table sizes.

[fs/lustre-release.git] / lustre / lov / lov_lock.c
diff --git a/lustre/lov/lov_lock.c b/lustre/lov/lov_lock.c

index 79a6942..563b625 100644 (file)
--- a/lustre/lov/lov_lock.c
+++ b/lustre/lov/lov_lock.c
@@ -42,11 +42,15 @@
  
  #include "lov_cl_internal.h"
  
-/** \addtogroup lov lov @{ */
+/** \addtogroup lov
+ *  @{
+ */
  
  static struct cl_lock_closure *lov_closure_get(const struct lu_env *env,
                                                 struct cl_lock *parent);
  
+static int lov_lock_unuse(const struct lu_env *env,
+                          const struct cl_lock_slice *slice);
  /*****************************************************************************
   *
   * Lov lock operations.
@@ -73,12 +77,11 @@ static struct lov_sublock_env *lov_sublock_env_get(const struct lu_env *env,
           * they are not initialized at all. As a temp fix, in this case,
           * we still borrow the parent's env to call sublock operations.
           */
-        if (!cl_object_same(io->ci_obj, parent->cll_descr.cld_obj)) {
+        if (!io || !cl_object_same(io->ci_obj, parent->cll_descr.cld_obj)) {
                  subenv->lse_env = env;
                  subenv->lse_io  = io;
                  subenv->lse_sub = NULL;
          } else {
-                LASSERT(io != NULL);
                  sub = lov_sub_get(env, lio, lls->sub_stripe);
                  if (!IS_ERR(sub)) {
                          subenv->lse_env = sub->sub_env;
@@ -119,7 +122,7 @@ static void lov_sublock_adopt(const struct lu_env *env, struct lov_lock *lck,
          lck->lls_sub[idx].sub_lock = lsl;
          lck->lls_nr_filled++;
          LASSERT(lck->lls_nr_filled <= lck->lls_nr);
-        list_add_tail(&link->lll_list, &lsl->lss_parents);
+        cfs_list_add_tail(&link->lll_list, &lsl->lss_parents);
          link->lll_idx = idx;
          link->lll_super = lck;
          cl_lock_get(parent);
@@ -192,29 +195,47 @@ static void lov_sublock_unlock(const struct lu_env *env,
  }
  
  static int lov_sublock_lock(const struct lu_env *env,
+                            struct lov_lock *lck,
                              struct lov_lock_sub *lls,
                              struct cl_lock_closure *closure,
                              struct lov_sublock_env **lsep)
  {
-        struct cl_lock *child;
-        int             result = 0;
+        struct lovsub_lock *sublock;
+        struct cl_lock     *child;
+        int                 result = 0;
          ENTRY;
  
-        LASSERT(list_empty(&closure->clc_list));
+        LASSERT(cfs_list_empty(&closure->clc_list));
  
-        child = lls->sub_lock->lss_cl.cls_lock;
+        sublock = lls->sub_lock;
+        child = sublock->lss_cl.cls_lock;
          result = cl_lock_closure_build(env, child, closure);
          if (result == 0) {
                  struct cl_lock *parent = closure->clc_origin;
  
                  LASSERT(cl_lock_is_mutexed(child));
-                lls->sub_lock->lss_active = parent;
+                sublock->lss_active = parent;
  
-                if (lsep) {
+                if (unlikely((child->cll_state == CLS_FREEING) ||
+                             (child->cll_flags & CLF_CANCELLED))) {
+                        struct lov_lock_link *link;
+                        /*
+                         * we could race with lock deletion which temporarily
+                         * put the lock in freeing state, bug 19080.
+                         */
+                        LASSERT(!(lls->sub_flags & LSF_HELD));
+
+                        link = lov_lock_link_find(env, lck, sublock);
+                        LASSERT(link != NULL);
+                        lov_lock_unlink(env, link, sublock);
+                        lov_sublock_unlock(env, sublock, closure, NULL);
+                        lck->lls_cancel_race = 1;
+                        result = CLO_REPEAT;
+                } else if (lsep) {
                          struct lov_sublock_env *subenv;
                          subenv = lov_sublock_env_get(env, parent, lls);
                          if (IS_ERR(subenv)) {
-                                lov_sublock_unlock(env, lls->sub_lock,
+                                lov_sublock_unlock(env, sublock,
                                                     closure, NULL);
                                  result = PTR_ERR(subenv);
                          } else {
@@ -274,10 +295,7 @@ static int lov_lock_sub_init(const struct lu_env *env,
  {
          int result = 0;
          int i;
-        int j;
          int nr;
-        int stripe;
-        int start_stripe;
          obd_off start;
          obd_off end;
          obd_off file_start;
@@ -293,14 +311,12 @@ static int lov_lock_sub_init(const struct lu_env *env,
          file_start = cl_offset(lov2cl(loo), parent->cll_descr.cld_start);
          file_end   = cl_offset(lov2cl(loo), parent->cll_descr.cld_end + 1) - 1;
  
-        start_stripe = lov_stripe_number(r0->lo_lsm, file_start);
          for (i = 0, nr = 0; i < r0->lo_nr; i++) {
                  /*
                   * XXX for wide striping smarter algorithm is desirable,
                   * breaking out of the loop, early.
                   */
-                stripe = (start_stripe + i) % r0->lo_nr;
-                if (lov_stripe_intersects(r0->lo_lsm, stripe,
+                if (lov_stripe_intersects(r0->lo_lsm, i,
                                            file_start, file_end, &start, &end))
                          nr++;
          }
@@ -317,23 +333,23 @@ static int lov_lock_sub_init(const struct lu_env *env,
           * create sub-locks. At this moment, no other thread can access
           * top-lock.
           */
-        for (j = 0, nr = 0; j < i; ++j) {
-                stripe = (start_stripe + j) % r0->lo_nr;
-                if (lov_stripe_intersects(r0->lo_lsm, stripe,
+        for (i = 0, nr = 0; i < r0->lo_nr; ++i) {
+                if (lov_stripe_intersects(r0->lo_lsm, i,
                                            file_start, file_end, &start, &end)) {
                          struct cl_lock_descr *descr;
  
                          descr = &lck->lls_sub[nr].sub_descr;
  
                          LASSERT(descr->cld_obj == NULL);
-                        descr->cld_obj   = lovsub2cl(r0->lo_sub[stripe]);
+                        descr->cld_obj   = lovsub2cl(r0->lo_sub[i]);
                          descr->cld_start = cl_index(descr->cld_obj, start);
                          descr->cld_end   = cl_index(descr->cld_obj, end);
                          descr->cld_mode  = parent->cll_descr.cld_mode;
                          descr->cld_gid   = parent->cll_descr.cld_gid;
+                        descr->cld_enq_flags   = parent->cll_descr.cld_enq_flags;
                          /* XXX has no effect */
                          lck->lls_sub[nr].sub_got = *descr;
-                        lck->lls_sub[nr].sub_stripe = stripe;
+                        lck->lls_sub[nr].sub_stripe = i;
                          nr++;
                  }
          }
@@ -352,6 +368,7 @@ static int lov_lock_sub_init(const struct lu_env *env,
                                  result = PTR_ERR(sublock);
                                  break;
                          }
+                        cl_lock_get_trust(sublock);
                          cl_lock_mutex_get(env, sublock);
                          cl_lock_mutex_get(env, parent);
                          /*
@@ -363,11 +380,13 @@ static int lov_lock_sub_init(const struct lu_env *env,
                                  lov_sublock_adopt(env, lck, sublock, i, link);
                                  cl_lock_mutex_put(env, parent);
                          } else {
+                                OBD_SLAB_FREE_PTR(link, lov_lock_link_kmem);
                                  cl_lock_mutex_put(env, parent);
                                  cl_lock_unhold(env, sublock,
                                                 "lov-parent", parent);
                          }
                          cl_lock_mutex_put(env, sublock);
+                        cl_lock_put(env, sublock);
                  }
          }
          /*
@@ -473,6 +492,52 @@ static void lov_lock_fini(const struct lu_env *env,
  }
  
  /**
+ *
+ * \retval 0 if state-transition can proceed
+ * \retval -ve otherwise.
+ */
+static int lov_lock_enqueue_wait(const struct lu_env *env,
+                                 struct lov_lock *lck,
+                                 struct cl_lock *sublock)
+{
+        struct cl_lock *lock     = lck->lls_cl.cls_lock;
+        struct cl_lock *conflict = sublock->cll_conflict;
+        int result = CLO_REPEAT;
+        ENTRY;
+
+        LASSERT(cl_lock_is_mutexed(lock));
+        LASSERT(cl_lock_is_mutexed(sublock));
+        LASSERT(sublock->cll_state == CLS_QUEUING);
+        LASSERT(conflict != NULL);
+
+        sublock->cll_conflict = NULL;
+        cl_lock_mutex_put(env, lock);
+        cl_lock_mutex_put(env, sublock);
+
+        LASSERT(cl_lock_nr_mutexed(env) == 0);
+
+        cl_lock_mutex_get(env, conflict);
+        cl_lock_cancel(env, conflict);
+        cl_lock_delete(env, conflict);
+        while (conflict->cll_state != CLS_FREEING) {
+                int rc = 0;
+
+                rc = cl_lock_state_wait(env, conflict);
+                if (rc == 0)
+                        continue;
+
+                result = lov_subresult(result, rc);
+                break;
+        }
+        cl_lock_mutex_put(env, conflict);
+        lu_ref_del(&conflict->cll_reference, "cancel-wait", sublock);
+        cl_lock_put(env, conflict);
+
+        cl_lock_mutex_get(env, lock);
+        RETURN(result);
+}
+
+/**
   * Tries to advance a state machine of a given sub-lock toward enqueuing of
   * the top-lock.
   *
@@ -521,10 +586,12 @@ static int lov_sublock_fill(const struct lu_env *env, struct cl_lock *parent,
          cl_lock_mutex_get(env, parent);
  
          if (!IS_ERR(sublock)) {
+                cl_lock_get_trust(sublock);
                  if (parent->cll_state == CLS_QUEUING &&
-                    lck->lls_sub[idx].sub_lock == NULL)
+                    lck->lls_sub[idx].sub_lock == NULL) {
                          lov_sublock_adopt(env, lck, sublock, idx, link);
-                else {
+                } else {
+                        OBD_SLAB_FREE_PTR(link, lov_lock_link_kmem);
                          /* other thread allocated sub-lock, or enqueue is no
                           * longer going on */
                          cl_lock_mutex_put(env, parent);
@@ -532,6 +599,7 @@ static int lov_sublock_fill(const struct lu_env *env, struct cl_lock *parent,
                          cl_lock_mutex_get(env, parent);
                  }
                  cl_lock_mutex_put(env, sublock);
+                cl_lock_put(env, sublock);
                  result = CLO_REPEAT;
          } else
                  result = PTR_ERR(sublock);
@@ -588,23 +656,40 @@ static int lov_lock_enqueue(const struct lu_env *env,
                          break;
                  }
                  sublock = sub->lss_cl.cls_lock;
-                rc = lov_sublock_lock(env, lls, closure, &subenv);
+                rc = lov_sublock_lock(env, lck, lls, closure, &subenv);
                  if (rc == 0) {
                          lov_sublock_hold(env, lck, i);
                          rc = lov_lock_enqueue_one(subenv->lse_env, lck, sublock,
                                                    subenv->lse_io, enqflags,
                                                    i == lck->lls_nr - 1);
                          minstate = min(minstate, sublock->cll_state);
-                        /*
-                         * Don't hold a sub-lock in CLS_CACHED state, see
-                         * description for lov_lock::lls_sub.
-                         */
-                        if (sublock->cll_state > CLS_HELD)
-                                rc = lov_sublock_release(env, lck, i, 1, rc);
-                        lov_sublock_unlock(env, sub, closure, subenv);
+                        if (rc == CLO_WAIT) {
+                                switch (sublock->cll_state) {
+                                case CLS_QUEUING:
+                                        /* take recursive mutex, the lock is
+                                         * released in lov_lock_enqueue_wait.
+                                         */
+                                        cl_lock_mutex_get(env, sublock);
+                                        lov_sublock_unlock(env, sub, closure,
+                                                           subenv);
+                                        rc = lov_lock_enqueue_wait(env, lck,
+                                                                   sublock);
+                                        break;
+                                case CLS_CACHED:
+                                        rc = lov_sublock_release(env, lck, i,
+                                                                 1, rc);
+                                default:
+                                        lov_sublock_unlock(env, sub, closure,
+                                                           subenv);
+                                        break;
+                                }
+                        } else {
+                                LASSERT(sublock->cll_conflict == NULL);
+                                lov_sublock_unlock(env, sub, closure, subenv);
+                        }
                  }
                  result = lov_subresult(result, rc);
-                if (result < 0)
+                if (result != 0)
                          break;
          }
          cl_lock_closure_fini(closure);
@@ -631,36 +716,102 @@ static int lov_lock_unuse(const struct lu_env *env,
                  /* top-lock state cannot change concurrently, because single
                   * thread (one that released the last hold) carries unlocking
                   * to the completion. */
-                LASSERT(slice->cls_lock->cll_state == CLS_UNLOCKING);
+                LASSERT(slice->cls_lock->cll_state == CLS_INTRANSIT);
                  lls = &lck->lls_sub[i];
                  sub = lls->sub_lock;
                  if (sub == NULL)
                          continue;
  
                  sublock = sub->lss_cl.cls_lock;
-                rc = lov_sublock_lock(env, lls, closure, &subenv);
+                rc = lov_sublock_lock(env, lck, lls, closure, &subenv);
                  if (rc == 0) {
-                        if (lck->lls_sub[i].sub_flags & LSF_HELD) {
+                        if (lls->sub_flags & LSF_HELD) {
                                  LASSERT(sublock->cll_state == CLS_HELD);
                                  rc = cl_unuse_try(subenv->lse_env, sublock);
-                                if (rc != CLO_WAIT)
-                                        rc = lov_sublock_release(env, lck,
-                                                                 i, 0, rc);
+                                rc = lov_sublock_release(env, lck, i, 0, rc);
                          }
                          lov_sublock_unlock(env, sub, closure, subenv);
                  }
                  result = lov_subresult(result, rc);
-                if (result < 0)
-                        break;
          }
-        if (result == 0 && lck->lls_unuse_race) {
-                lck->lls_unuse_race = 0;
+
+        if (result == 0 && lck->lls_cancel_race) {
+                lck->lls_cancel_race = 0;
                  result = -ESTALE;
          }
          cl_lock_closure_fini(closure);
          RETURN(result);
  }
  
+
+static void lov_lock_cancel(const struct lu_env *env,
+                           const struct cl_lock_slice *slice)
+{
+        struct lov_lock        *lck     = cl2lov_lock(slice);
+        struct cl_lock_closure *closure = lov_closure_get(env, slice->cls_lock);
+        int i;
+        int result;
+
+        ENTRY;
+
+        for (result = 0, i = 0; i < lck->lls_nr; ++i) {
+                int rc;
+                struct lovsub_lock     *sub;
+                struct cl_lock         *sublock;
+                struct lov_lock_sub    *lls;
+                struct lov_sublock_env *subenv;
+
+                /* top-lock state cannot change concurrently, because single
+                 * thread (one that released the last hold) carries unlocking
+                 * to the completion. */
+                lls = &lck->lls_sub[i];
+                sub = lls->sub_lock;
+                if (sub == NULL)
+                        continue;
+
+                sublock = sub->lss_cl.cls_lock;
+                rc = lov_sublock_lock(env, lck, lls, closure, &subenv);
+                if (rc == 0) {
+                        if (!(lls->sub_flags & LSF_HELD)) {
+                                lov_sublock_unlock(env, sub, closure, subenv);
+                                continue;
+                        }
+
+                        switch(sublock->cll_state) {
+                        case CLS_HELD:
+                                rc = cl_unuse_try(subenv->lse_env,
+                                                  sublock);
+                                lov_sublock_release(env, lck, i, 0, 0);
+                                break;
+                        case CLS_ENQUEUED:
+                                /* TODO: it's not a good idea to cancel this
+                                 * lock because it's innocent. But it's
+                                 * acceptable. The better way would be to
+                                 * define a new lock method to unhold the
+                                 * dlm lock. */
+                                cl_lock_cancel(env, sublock);
+                        default:
+                                lov_sublock_release(env, lck, i, 1, 0);
+                                break;
+                        }
+                        lov_sublock_unlock(env, sub, closure, subenv);
+                }
+
+                if (rc == CLO_REPEAT) {
+                        --i;
+                        continue;
+                }
+
+                result = lov_subresult(result, rc);
+        }
+
+        if (result)
+                CL_LOCK_DEBUG(D_ERROR, env, slice->cls_lock,
+                              "lov_lock_cancel fails with %d.\n", result);
+
+        cl_lock_closure_fini(closure);
+}
+
  static int lov_lock_wait(const struct lu_env *env,
                           const struct cl_lock_slice *slice)
  {
@@ -683,7 +834,7 @@ static int lov_lock_wait(const struct lu_env *env,
                  sub = lls->sub_lock;
                  LASSERT(sub != NULL);
                  sublock = sub->lss_cl.cls_lock;
-                rc = lov_sublock_lock(env, lls, closure, &subenv);
+                rc = lov_sublock_lock(env, lck, lls, closure, &subenv);
                  if (rc == 0) {
                          LASSERT(sublock->cll_state >= CLS_ENQUEUED);
                          if (sublock->cll_state < CLS_HELD)
@@ -693,7 +844,7 @@ static int lov_lock_wait(const struct lu_env *env,
                          lov_sublock_unlock(env, sub, closure, subenv);
                  }
                  result = lov_subresult(result, rc);
-                if (result < 0)
+                if (result != 0)
                          break;
          }
          cl_lock_closure_fini(closure);
@@ -708,7 +859,7 @@ static int lov_lock_use(const struct lu_env *env,
          int                     result;
          int                     i;
  
-        LASSERT(slice->cls_lock->cll_state == CLS_CACHED);
+        LASSERT(slice->cls_lock->cll_state == CLS_INTRANSIT);
          ENTRY;
  
          for (result = 0, i = 0; i < lck->lls_nr; ++i) {
@@ -718,37 +869,48 @@ static int lov_lock_use(const struct lu_env *env,
                  struct lov_lock_sub    *lls;
                  struct lov_sublock_env *subenv;
  
-                if (slice->cls_lock->cll_state != CLS_CACHED) {
-                        /* see comment in lov_lock_enqueue(). */
-                        LASSERT(i > 0 && result != 0);
-                        break;
-                }
-                /*
-                 * if a sub-lock was destroyed while top-lock was in
-                 * CLS_CACHED state, top-lock would have been moved into
-                 * CLS_NEW state, so all sub-locks have to be in place.
-                 */
+                LASSERT(slice->cls_lock->cll_state == CLS_INTRANSIT);
+
                  lls = &lck->lls_sub[i];
                  sub = lls->sub_lock;
-                LASSERT(sub != NULL);
+                if (sub == NULL) {
+                        /*
+                         * Sub-lock might have been canceled, while top-lock was
+                         * cached.
+                         */
+                        result = -ESTALE;
+                        break;
+                }
+
                  sublock = sub->lss_cl.cls_lock;
-                rc = lov_sublock_lock(env, lls, closure, &subenv);
+                rc = lov_sublock_lock(env, lck, lls, closure, &subenv);
                  if (rc == 0) {
                          LASSERT(sublock->cll_state != CLS_FREEING);
                          lov_sublock_hold(env, lck, i);
                          if (sublock->cll_state == CLS_CACHED) {
-                                rc = cl_use_try(subenv->lse_env, sublock);
+                                rc = cl_use_try(subenv->lse_env, sublock, 0);
                                  if (rc != 0)
                                          rc = lov_sublock_release(env, lck,
                                                                   i, 1, rc);
-                        } else
-                                rc = 0;
+                        }
                          lov_sublock_unlock(env, sub, closure, subenv);
                  }
                  result = lov_subresult(result, rc);
-                if (result < 0)
+                if (result != 0)
                          break;
          }
+
+        if (lck->lls_cancel_race) {
+                /*
+                 * If there is unlocking happened at the same time, then
+                 * sublock_lock state should be FREEING, and lov_sublock_lock
+                 * should return CLO_REPEAT. In this case, it should return
+                 * ESTALE, and up layer should reset the lock state to be NEW.
+                 */
+                lck->lls_cancel_race = 0;
+                LASSERT(result != 0);
+                result = -ESTALE;
+        }
          cl_lock_closure_fini(closure);
          RETURN(result);
  }
@@ -905,7 +1067,7 @@ void lov_lock_unlink(const struct lu_env *env,
          LASSERT(cl_lock_is_mutexed(sub->lss_cl.cls_lock));
          ENTRY;
  
-        list_del_init(&link->lll_list);
+        cfs_list_del_init(&link->lll_list);
          LASSERT(lck->lls_sub[link->lll_idx].sub_lock == sub);
          /* yank this sub-lock from parent's array */
          lck->lls_sub[link->lll_idx].sub_lock = NULL;
@@ -926,7 +1088,7 @@ struct lov_lock_link *lov_lock_link_find(const struct lu_env *env,
          LASSERT(cl_lock_is_mutexed(sub->lss_cl.cls_lock));
          ENTRY;
  
-        list_for_each_entry(scan, &sub->lss_parents, lll_list) {
+        cfs_list_for_each_entry(scan, &sub->lss_parents, lll_list) {
                  if (scan->lll_super == lck)
                          RETURN(scan);
          }
@@ -969,9 +1131,9 @@ static void lov_lock_delete(const struct lu_env *env,
                          continue;
  
                  sublock = lsl->lss_cl.cls_lock;
-                rc = lov_sublock_lock(env, lls, closure, NULL);
+                rc = lov_sublock_lock(env, lck, lls, closure, NULL);
                  if (rc == 0) {
-                        if (lck->lls_sub[i].sub_flags & LSF_HELD)
+                        if (lls->sub_flags & LSF_HELD)
                                  lov_sublock_release(env, lck, i, 1, 0);
                          if (sublock->cll_state < CLS_FREEING) {
                                  struct lov_lock_link *link;
@@ -1021,6 +1183,7 @@ static const struct cl_lock_operations lov_lock_ops = {
          .clo_wait      = lov_lock_wait,
          .clo_use       = lov_lock_use,
          .clo_unuse     = lov_lock_unuse,
+        .clo_cancel    = lov_lock_cancel,
          .clo_fits_into = lov_lock_fits_into,
          .clo_delete    = lov_lock_delete,
          .clo_print     = lov_lock_print
@@ -1048,7 +1211,7 @@ static struct cl_lock_closure *lov_closure_get(const struct lu_env *env,
          struct cl_lock_closure *closure;
  
          closure = &lov_env_info(env)->lti_closure;
-        LASSERT(list_empty(&closure->clc_list));
+        LASSERT(cfs_list_empty(&closure->clc_list));
          cl_lock_closure_init(env, closure, parent, 1);
          return closure;
  }