Whamcloud - gitweb
land b1_5 onto HEAD
[fs/lustre-release.git] / lustre / lov / lov_log.c
index ab6ccd7..b2aee8f 100644 (file)
@@ -6,20 +6,23 @@
  *         Peter Braam <braam@clusterfs.com>
  *         Mike Shaver <shaver@clusterfs.com>
  *
- *   This file is part of Lustre, http://www.lustre.org.
+ *   This file is part of the Lustre file system, http://www.lustre.org
+ *   Lustre is a trademark of Cluster File Systems, Inc.
  *
- *   Lustre is free software; you can redistribute it and/or
- *   modify it under the terms of version 2 of the GNU General Public
- *   License as published by the Free Software Foundation.
+ *   You may have signed or agreed to another license before downloading
+ *   this software.  If so, you are bound by the terms and conditions
+ *   of that agreement, and the following does not apply to you.  See the
+ *   LICENSE file included with this distribution for more information.
  *
- *   Lustre is distributed in the hope that it will be useful,
- *   but WITHOUT ANY WARRANTY; without even the implied warranty of
- *   MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the
- *   GNU General Public License for more details.
+ *   If you did not agree to a different license, then this copy of Lustre
+ *   is open source software; you can redistribute it and/or modify it
+ *   under the terms of version 2 of the GNU General Public License as
+ *   published by the Free Software Foundation.
  *
- *   You should have received a copy of the GNU General Public License
- *   along with Lustre; if not, write to the Free Software
- *   Foundation, Inc., 675 Mass Ave, Cambridge, MA 02139, USA.
+ *   In either case, Lustre is distributed in the hope that it will be
+ *   useful, but WITHOUT ANY WARRANTY; without even the implied warranty
+ *   of MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the
+ *   license text for more details.
  */
 
 #ifndef EXPORT_SYMTAB
 #endif
 #define DEBUG_SUBSYSTEM S_LOV
 #ifdef __KERNEL__
-#include <linux/slab.h>
-#include <linux/module.h>
-#include <linux/init.h>
-#include <linux/slab.h>
-#include <linux/pagemap.h>
-#include <asm/div64.h>
-#include <linux/seq_file.h>
+#include <libcfs/libcfs.h>
 #else
 #include <liblustre.h>
 #endif
 
-#include <linux/obd_support.h>
-#include <linux/lustre_lib.h>
-#include <linux/lustre_net.h>
-#include <linux/lustre_idl.h>
-#include <linux/lustre_dlm.h>
-#include <linux/lustre_mds.h>
-#include <linux/obd_class.h>
-#include <linux/obd_lov.h>
-#include <linux/obd_ost.h>
-#include <linux/lprocfs_status.h>
+#include <obd_support.h>
+#include <lustre_lib.h>
+#include <lustre_net.h>
+#include <lustre/lustre_idl.h>
+#include <lustre_dlm.h>
+#include <lustre_mds.h>
+#include <obd_class.h>
+#include <obd_lov.h>
+#include <obd_ost.h>
+#include <lprocfs_status.h>
 
 #include "lov_internal.h"
 
  * we need to keep cookies in stripe order, even if some are NULL, so that
  * the right cookies are passed back to the right OSTs at the client side.
  * Unset cookies should be all-zero (which will never occur naturally). */
-static int lov_llog_origin_add(struct llog_ctxt *ctxt, struct llog_rec_hdr *rec,
-                               void *buf, struct llog_cookie *logcookies, 
-                               int numcookies, void *data,
-                               struct rw_semaphore **lock, int *lock_count)
+static int lov_llog_origin_add(struct llog_ctxt *ctxt,
+                        struct llog_rec_hdr *rec, struct lov_stripe_md *lsm,
+                        struct llog_cookie *logcookies, int numcookies)
 {
         struct obd_device *obd = ctxt->loc_obd;
         struct lov_obd *lov = &obd->u.lov;
         struct lov_oinfo *loi;
-        struct llog_unlink_rec *lur;
-        struct lov_stripe_md *lsm = (struct lov_stripe_md *)buf;
         int i, rc = 0;
         ENTRY;
 
-        OBD_ALLOC(lur, sizeof(*lur));
-        if (!lur)
-                RETURN(-ENOMEM);
-        lur->lur_hdr.lrh_len = lur->lur_tail.lrt_len = sizeof(*lur);
-        lur->lur_hdr.lrh_type = MDS_UNLINK_REC;
+        LASSERTF(logcookies && numcookies >= lsm->lsm_stripe_count, 
+                 "logcookies %p, numcookies %d lsm->lsm_stripe_count %d \n",
+                 logcookies, numcookies, lsm->lsm_stripe_count);
 
-        LASSERT(logcookies && numcookies >= lsm->lsm_stripe_count);
-
-        /* We need this to serialize llog records between parallel unlinks so
-         * we can replay llog records in strict transno and llog order.  If
-         * and when we want to make this more scalable we need to lock and
-         * write records in strictly ost_idx order not lsm order.  Consider
-         * file 1 on ost_idx [1, 2, 3, 4] and file 2 on ost_idx [3, 4, 1, 2] */
-        down(&lov->lov_llog_sem);
         for (i = 0,loi = lsm->lsm_oinfo; i < lsm->lsm_stripe_count; i++,loi++) {
-                struct obd_device *child;
-                struct llog_ctxt *cctxt;
-                struct lov_tgt_desc *tgt;
-
-                tgt = lov->tgts + loi->loi_ost_idx;
-                if (!lov_tgt_active(lov, tgt, loi->loi_ost_gen)) {
-                        CWARN("lov_llog_origin_add: ost idx %d inactive.\n",
-                              loi->loi_ost_idx);
-                        continue;
+                struct obd_device *child = 
+                        lov->lov_tgts[loi->loi_ost_idx]->ltd_exp->exp_obd; 
+                struct llog_ctxt *cctxt = llog_get_context(child, ctxt->loc_idx);
+
+                /* fill mds unlink/setattr log record */
+                switch (rec->lrh_type) {
+                case MDS_UNLINK_REC: {
+                        struct llog_unlink_rec *lur = (struct llog_unlink_rec *)rec;
+                        lur->lur_oid = loi->loi_id;
+                        lur->lur_ogen = loi->loi_gr;
+                        break;
+                }
+                case MDS_SETATTR_REC: {
+                        struct llog_setattr_rec *lsr = (struct llog_setattr_rec *)rec;
+                        lsr->lsr_oid = loi->loi_id;
+                        lsr->lsr_ogen = loi->loi_gr;
+                        break;
+                }
+                default:
+                        break;
                 }
 
-                child = tgt->ltd_exp->exp_obd;
-                cctxt = llog_get_context(&child->obd_llogs, ctxt->loc_idx);
-
-                lur->lur_oid = loi->loi_id;
-                lur->lur_ogen = loi->loi_gr;
-                LASSERT(lsm->lsm_object_gr == loi->loi_gr);
-                rc += llog_add(cctxt, &lur->lur_hdr, NULL, logcookies + rc,
-                               numcookies - rc, NULL,
-                               lock != NULL ? lock + rc : NULL, lock_count);
-                lov_tgt_decref(lov, tgt);
+                rc += llog_add(cctxt, rec, NULL, logcookies + rc,
+                                numcookies - rc);
         }
-        up(&lov->lov_llog_sem);
-        OBD_FREE(lur, sizeof(*lur));
 
         RETURN(rc);
 }
 
 static int lov_llog_origin_connect(struct llog_ctxt *ctxt, int count,
                                    struct llog_logid *logid,
-                                   struct llog_gen *gen, struct obd_uuid *uuid)
+                                   struct llog_gen *gen,
+                                   struct obd_uuid *uuid)
 {
         struct obd_device *obd = ctxt->loc_obd;
         struct lov_obd *lov = &obd->u.lov;
-        struct lov_tgt_desc *tgt;
-        int i, rc = 0;
+        int i, rc = 0, err = 0;
         ENTRY;
 
-        LASSERT(lov->desc.ld_tgt_count  == count);
-        for (i = 0, tgt = lov->tgts; i < lov->desc.ld_tgt_count; i++, tgt++) {
+        lov_getref(obd);
+        for (i = 0; i < count; i++) {
                 struct obd_device *child;
                 struct llog_ctxt *cctxt;
-
-                if (!lov_tgt_active(lov, tgt, 0))
+                
+                if (!lov->lov_tgts[i] || !lov->lov_tgts[i]->ltd_active)
                         continue;
-
-                child = tgt->ltd_exp->exp_obd;
-                cctxt = llog_get_context(&child->obd_llogs, ctxt->loc_idx);
-
-                if (uuid && !obd_uuid_equals(uuid, &tgt->uuid)) {
-                        lov_tgt_decref(lov, tgt);
+                if (uuid && !obd_uuid_equals(uuid, &lov->lov_tgts[i]->ltd_uuid))
                         continue;
-                }
-
+                CDEBUG(D_CONFIG, "connect %d/%d\n", i, count);
+                child = lov->lov_tgts[i]->ltd_exp->exp_obd;
+                cctxt = llog_get_context(child, ctxt->loc_idx);
                 rc = llog_connect(cctxt, 1, logid, gen, uuid);
-                lov_tgt_decref(lov, tgt);
                 if (rc) {
-                        CERROR("error osc_llog_connect %d\n", i);
-                        break;
+                        CERROR("error osc_llog_connect tgt %d (%d)\n", i, rc);
+                        if (!err) 
+                                err = rc;
                 }
         }
+        lov_putref(obd);
 
-        RETURN(rc);
+        RETURN(err);
 }
 
 /* the replicators commit callback */
-static int lov_llog_repl_cancel(struct llog_ctxt *ctxt, int count, 
-                                struct llog_cookie *cookies, int flags,
-                                void *data)
+static int lov_llog_repl_cancel(struct llog_ctxt *ctxt, struct lov_stripe_md *lsm,
+                          int count, struct llog_cookie *cookies, int flags)
 {
-        struct lov_stripe_md *lsm = (struct lov_stripe_md *)data;
         struct lov_obd *lov;
         struct obd_device *obd = ctxt->loc_obd;
         struct lov_oinfo *loi;
@@ -166,25 +146,16 @@ static int lov_llog_repl_cancel(struct llog_ctxt *ctxt, int count,
 
         loi = lsm->lsm_oinfo;
         lov = &obd->u.lov;
+        lov_getref(obd);
         for (i = 0; i < count; i++, cookies++, loi++) {
-                struct lov_tgt_desc *tgt = lov->tgts + loi->loi_ost_idx;
-                struct obd_device *child;
-                struct llog_ctxt *cctxt;
+                struct obd_device *child = 
+                        lov->lov_tgts[loi->loi_ost_idx]->ltd_exp->exp_obd;
+                struct llog_ctxt *cctxt = 
+                        llog_get_context(child, ctxt->loc_idx);
                 int err;
 
-                if (!lov_tgt_ready(lov, tgt, loi->loi_ost_gen)) {
-                        CWARN("warning: LOV OST idx %d: inactive.\n",
-                              loi->loi_ost_idx);
-                        continue;
-                }
-
-                child = tgt->ltd_exp->exp_obd; 
-                cctxt = llog_get_context(&child->obd_llogs, ctxt->loc_idx);
-                err = llog_cancel(cctxt, 1, cookies, flags, NULL);
-                lov_tgt_decref(lov, tgt);
-
-                if (err && lov_tgt_ready(lov, tgt, loi->loi_ost_gen)) {
-                        lov_tgt_decref(lov, tgt);
+                err = llog_cancel(cctxt, NULL, 1, cookies, flags);
+                if (err && lov->lov_tgts[loi->loi_ost_idx]->ltd_active) {
                         CERROR("error: objid "LPX64" subobj "LPX64
                                " on OST idx %d: rc = %d\n", lsm->lsm_object_id,
                                loi->loi_id, loi->loi_ost_idx, err);
@@ -192,10 +163,11 @@ static int lov_llog_repl_cancel(struct llog_ctxt *ctxt, int count,
                                 rc = err;
                 }
         }
+        lov_putref(obd);
         RETURN(rc);
 }
 
-static struct llog_operations lov_unlink_orig_logops = {
+static struct llog_operations lov_mds_ost_orig_logops = {
         lop_add: lov_llog_origin_add,
         lop_connect: lov_llog_origin_connect
 };
@@ -204,76 +176,65 @@ static struct llog_operations lov_size_repl_logops = {
         lop_cancel: lov_llog_repl_cancel
 };
 
-int lov_llog_init(struct obd_device *obd, struct obd_llogs *llogs,
-                  struct obd_device *tgt, int count, struct llog_catid *logid)
+int lov_llog_init(struct obd_device *obd, struct obd_device *tgt,
+                  int count, struct llog_catid *logid, struct obd_uuid *uuid)
 {
         struct lov_obd *lov = &obd->u.lov;
-        struct lov_tgt_desc *ctgt;
-        int i, rc = 0;
+        struct obd_device *child;
+        int i, rc = 0, err = 0;
         ENTRY;
-        
-        rc = obd_llog_setup(obd, llogs, LLOG_UNLINK_ORIG_CTXT, tgt, 0, NULL,
-                            &lov_unlink_orig_logops);
+
+        rc = llog_setup(obd, LLOG_MDS_OST_ORIG_CTXT, tgt, 0, NULL,
+                        &lov_mds_ost_orig_logops);
         if (rc)
                 RETURN(rc);
 
-        rc = obd_llog_setup(obd, llogs, LLOG_SIZE_REPL_CTXT, tgt, 0, NULL, 
-                            &lov_size_repl_logops);
+        rc = llog_setup(obd, LLOG_SIZE_REPL_CTXT, tgt, 0, NULL,
+                        &lov_size_repl_logops);
         if (rc)
                 RETURN(rc);
 
-        LASSERT(lov->desc.ld_tgt_count  == count);
-        for (i = 0, ctgt = lov->tgts; i < lov->desc.ld_tgt_count; i++, ctgt++) {
-                struct obd_device *child;
-
-                if (!lov_tgt_active(lov, ctgt, 0))
+        lov_getref(obd);
+        /* count may not match lov->desc.ld_tgt_count during dynamic ost add */
+        for (i = 0; i < count; i++) {
+                if (!lov->lov_tgts[i] || !lov->lov_tgts[i]->ltd_active)
                         continue;
-
-                child = ctgt->ltd_exp->exp_obd;
-                rc = obd_llog_init(child, &child->obd_llogs, tgt, 1, logid + i);
-                lov_tgt_decref(lov, ctgt);
+                if (uuid && !obd_uuid_equals(uuid, &lov->lov_tgts[i]->ltd_uuid))
+                        continue;
+                CDEBUG(D_CONFIG, "init %d/%d\n", i, count);
+                LASSERT(lov->lov_tgts[i]->ltd_exp);
+                child = lov->lov_tgts[i]->ltd_exp->exp_obd;
+                rc = obd_llog_init(child, tgt, 1, logid + i, uuid);
                 if (rc) {
-                        CERROR("error osc_llog_init %d\n", i);
-                        break;
+                        CERROR("error osc_llog_init idx %d osc '%s' tgt '%s' "
+                               "(rc=%d)\n", i, child->obd_name, tgt->obd_name,
+                               rc);
+                        if (!err) 
+                                err = rc;
                 }
         }
-        RETURN(rc);
+        lov_putref(obd);
+        RETURN(err);
 }
 
-int lov_llog_finish(struct obd_device *obd, struct obd_llogs *llogs, int count)
+int lov_llog_finish(struct obd_device *obd, int count)
 {
-        struct lov_obd *lov = &obd->u.lov;
-        struct lov_tgt_desc *tgt;
-        int i, rc = 0;
+        struct llog_ctxt *ctxt;
+        int rc = 0, rc2 = 0;
         ENTRY;
 
-        rc = obd_llog_cleanup(llog_get_context(llogs, LLOG_UNLINK_ORIG_CTXT));
-        if (rc)
-                RETURN(rc);
-
-        rc = obd_llog_cleanup(llog_get_context(llogs, LLOG_SIZE_REPL_CTXT));
-        if (rc)
-                RETURN(rc);
-
-        if (lov->desc.ld_tgt_count != count) {
-                CERROR("LOV tgt count != passed tgt count (%d != %d)\n",
-                       lov->desc.ld_tgt_count, count);
-                count = MIN(lov->desc.ld_tgt_count, count);
-        }
-        for (i = 0, tgt = lov->tgts; i < count; i++, tgt++) {
-                struct obd_device *child;
+        /* cleanup our llogs only if the ctxts have been setup
+         * (client lov doesn't setup, mds lov does). */
+        ctxt = llog_get_context(obd, LLOG_MDS_OST_ORIG_CTXT);
+        if (ctxt)
+                rc = llog_cleanup(ctxt);
 
-                if (!lov_tgt_active(lov, tgt, 0))
-                        continue;
+        ctxt = llog_get_context(obd, LLOG_SIZE_REPL_CTXT);
+        if (ctxt)
+                rc2 = llog_cleanup(ctxt);
+        if (!rc)
+                rc = rc2;
 
-                child = tgt->ltd_exp->exp_obd;
-                rc = obd_llog_finish(child, &child->obd_llogs, 1);
-                lov_tgt_decref(lov, tgt);
-                if (rc) {
-                        CERROR("osc_llog_finish error; index=%d; rc=%d\n",
-                               i, rc);
-                        break;
-                }
-        }
+        /* lov->tgt llogs are cleaned during osc_cleanup. */
         RETURN(rc);
 }