Whamcloud - gitweb
LU-80 lov: large stripe count support
[fs/lustre-release.git] / lustre / mds / mds_log.c
index 734dc16..f256053 100644 (file)
@@ -1,46 +1,63 @@
 /* -*- mode: c; c-basic-offset: 8; indent-tabs-mode: nil; -*-
  * vim:expandtab:shiftwidth=8:tabstop=8:
  *
- *  lustre/mds/mds_log.c
+ * GPL HEADER START
  *
- *  Copyright (c) 2001-2003 Cluster File Systems, Inc.
- *   Author: Peter Braam <braam@clusterfs.com>
- *   Author: Andreas Dilger <adilger@clusterfs.com>
- *   Author: Phil Schwan <phil@clusterfs.com>
+ * DO NOT ALTER OR REMOVE COPYRIGHT NOTICES OR THIS FILE HEADER.
  *
- *   This file is part of Lustre, http://www.lustre.org.
+ * This program is free software; you can redistribute it and/or modify
+ * it under the terms of the GNU General Public License version 2 only,
+ * as published by the Free Software Foundation.
  *
- *   Lustre is free software; you can redistribute it and/or
- *   modify it under the terms of version 2 of the GNU General Public
- *   License as published by the Free Software Foundation.
+ * This program is distributed in the hope that it will be useful, but
+ * WITHOUT ANY WARRANTY; without even the implied warranty of
+ * MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the GNU
+ * General Public License version 2 for more details (a copy is included
+ * in the LICENSE file that accompanied this code).
  *
- *   Lustre is distributed in the hope that it will be useful,
- *   but WITHOUT ANY WARRANTY; without even the implied warranty of
- *   MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the
- *   GNU General Public License for more details.
+ * You should have received a copy of the GNU General Public License
+ * version 2 along with this program; If not, see
+ * http://www.sun.com/software/products/lustre/docs/GPLv2.pdf
  *
- *   You should have received a copy of the GNU General Public License
- *   along with Lustre; if not, write to the Free Software
- *   Foundation, Inc., 675 Mass Ave, Cambridge, MA 02139, USA.
+ * Please contact Sun Microsystems, Inc., 4150 Network Circle, Santa Clara,
+ * CA 95054 USA or visit www.sun.com if you need additional information or
+ * have any questions.
+ *
+ * GPL HEADER END
+ */
+/*
+ * Copyright (c) 2003, 2010, Oracle and/or its affiliates. All rights reserved.
+ * Use is subject to license terms.
+ */
+/*
+ * This file is part of Lustre, http://www.lustre.org/
+ * Lustre is a trademark of Sun Microsystems, Inc.
+ *
+ * lustre/mds/mds_log.c
+ *
+ * Author: Peter Braam <braam@clusterfs.com>
+ * Author: Andreas Dilger <adilger@clusterfs.com>
+ * Author: Phil Schwan <phil@clusterfs.com>
  */
 
 #define DEBUG_SUBSYSTEM S_MDS
 
+#ifndef AUTOCONF_INCLUDED
 #include <linux/config.h>
+#endif
 #include <linux/module.h>
 #include <linux/version.h>
 
 #include <libcfs/list.h>
-#include <linux/obd_class.h>
-#include <linux/lustre_fsfilt.h>
-#include <linux/lustre_commit_confd.h>
-
+#include <obd_class.h>
+#include <lustre_fsfilt.h>
+#include <lustre_mds.h>
+#include <lustre_log.h>
 #include "mds_internal.h"
 
 static int mds_llog_origin_add(struct llog_ctxt *ctxt, struct llog_rec_hdr *rec,
-                               void *buf, struct llog_cookie *logcookies,
-                               int numcookies, void *data,
-                               struct rw_semaphore **lock, int *lock_count)
+                               struct lov_stripe_md *lsm,
+                               struct llog_cookie *logcookies, int numcookies)
 {
         struct obd_device *obd = ctxt->loc_obd;
         struct obd_device *lov_obd = obd->u.mds.mds_lov_obd;
@@ -48,15 +65,17 @@ static int mds_llog_origin_add(struct llog_ctxt *ctxt, struct llog_rec_hdr *rec,
         int rc;
         ENTRY;
 
-        lctxt = llog_get_context(&lov_obd->obd_llogs, ctxt->loc_idx);
-        rc = llog_add(lctxt, rec, buf, logcookies, numcookies, data,
-                      lock, lock_count);
+        lctxt = llog_get_context(lov_obd, ctxt->loc_idx);
+        rc = llog_add(lctxt, rec, lsm, logcookies, numcookies);
+        llog_ctxt_put(lctxt);
+
         RETURN(rc);
 }
 
-static int mds_llog_origin_connect(struct llog_ctxt *ctxt, int count,
+static int mds_llog_origin_connect(struct llog_ctxt *ctxt,
                                    struct llog_logid *logid,
-                                   struct llog_gen *gen, struct obd_uuid *uuid)
+                                   struct llog_gen *gen,
+                                   struct obd_uuid *uuid)
 {
         struct obd_device *obd = ctxt->loc_obd;
         struct obd_device *lov_obd = obd->u.mds.mds_lov_obd;
@@ -64,14 +83,19 @@ static int mds_llog_origin_connect(struct llog_ctxt *ctxt, int count,
         int rc;
         ENTRY;
 
-        lctxt = llog_get_context(&lov_obd->obd_llogs, ctxt->loc_idx);
-        rc = llog_connect(lctxt, count, logid, gen, uuid);
+        lctxt = llog_get_context(lov_obd, ctxt->loc_idx);
+        rc = llog_connect(lctxt, logid, gen, uuid);
+        llog_ctxt_put(lctxt);
         RETURN(rc);
 }
 
-static int mds_llog_repl_cancel(struct llog_ctxt *ctxt, int count, 
-                                struct llog_cookie *cookies, int flags,
-                                void *data)
+static struct llog_operations mds_ost_orig_logops = {
+        lop_add:        mds_llog_origin_add,
+        lop_connect:    mds_llog_origin_connect,
+};
+
+static int mds_llog_repl_cancel(struct llog_ctxt *ctxt, struct lov_stripe_md *lsm,
+                          int count, struct llog_cookie *cookies, int flags)
 {
         struct obd_device *obd = ctxt->loc_obd;
         struct obd_device *lov_obd = obd->u.mds.mds_lov_obd;
@@ -79,109 +103,253 @@ static int mds_llog_repl_cancel(struct llog_ctxt *ctxt, int count,
         int rc;
         ENTRY;
 
-        lctxt = llog_get_context(&lov_obd->obd_llogs, ctxt->loc_idx);
-        rc = llog_cancel(lctxt, count, cookies, flags, data);
+        lctxt = llog_get_context(lov_obd, ctxt->loc_idx);
+        rc = llog_cancel(lctxt, lsm, count, cookies, flags);
+        llog_ctxt_put(lctxt);
         RETURN(rc);
 }
 
-int mds_log_op_unlink(struct obd_device *obd, struct inode *inode,
-                      struct lov_mds_md *lmm, int lmm_size,
-                      struct llog_cookie *logcookies, int cookies_size,
-                      struct llog_create_locks **res)
-{
-        struct mds_obd *mds = &obd->u.mds;
-        struct lov_stripe_md *lsm = NULL;
-        struct llog_ctxt *ctxt;
-        struct llog_create_locks *lcl = NULL;
-        int rc, size = 0,offset = offsetof(struct llog_create_locks, lcl_locks);
-        int lock_count = 0;
-        ENTRY;
+static struct llog_operations mds_size_repl_logops = {
+        lop_cancel:     mds_llog_repl_cancel,
+};
 
-        if (IS_ERR(mds->mds_lov_obd))
-                RETURN(PTR_ERR(mds->mds_lov_obd));
+static struct llog_operations changelog_orig_logops;
 
-        RETURN(0);
+static int llog_changelog_cancel_cb(struct llog_handle *llh,
+                                    struct llog_rec_hdr *hdr, void *data)
+{
+        struct llog_changelog_rec *rec = (struct llog_changelog_rec *)hdr;
+        struct llog_cookie cookie;
+        long long endrec = *(long long *)data;
+        int rc, err;
+        struct obd_device *obd;
+        void *trans_h;
+        struct inode *inode;
+        ENTRY;
 
-        rc = obd_unpackmd(mds->mds_lov_exp, &lsm, lmm, lmm_size);
-        if (rc < 0)
-                RETURN(rc);
+        /* This is always a (sub)log, not the catalog */
+        LASSERT(llh->lgh_hdr->llh_flags & LLOG_F_IS_PLAIN);
+
+        if (rec->cr.cr_index > endrec)
+                /* records are in order, so we're done */
+                RETURN(LLOG_PROC_BREAK);
+
+        cookie.lgc_lgl = llh->lgh_id;
+        cookie.lgc_index = hdr->lrh_index;
+        obd = llh->lgh_ctxt->loc_exp->exp_obd;
+        inode = llh->lgh_file->f_dentry->d_inode;
+
+        /* XXX This is a workaround for the deadlock of changelog adding vs.
+         * changelog cancelling. Changelog adding always start transaction
+         * before acquiring the catlog lock (lgh_lock), whereas, changelog
+         * cancelling do start transaction after holding catlog lock.
+         *
+         * We start the transaction earlier here to keep the locking ordering:
+         * 'start transaction -> catlog lock'. LU-81. */
+        trans_h = fsfilt_start_log(obd, inode, FSFILT_OP_CANCEL_UNLINK,
+                                   NULL, 1);
+        if (IS_ERR(trans_h)) {
+                CERROR("fsfilt_start_log failed: %ld\n", PTR_ERR(trans_h));
+                RETURN(PTR_ERR(trans_h));
+        }
 
-        if (res != NULL) {
-                size = offset +
-                       sizeof(struct rw_semaphore *) * lsm->lsm_stripe_count;
-                OBD_ALLOC(lcl, size);
-                if (lcl == NULL)
-                        RETURN(-ENOMEM);
+        /* cancel them one at a time.  I suppose we could store up the cookies
+           and cancel them all at once; probably more efficient, but this is
+           done as a user call, so who cares... */
+        rc = llog_cat_cancel_records(llh->u.phd.phd_cat_handle, 1, &cookie);
 
-                lcl->lcl_count = lsm->lsm_stripe_count;
-                *res = lcl;
+        err = fsfilt_commit(obd, inode, trans_h, 0);
+        if (err) {
+                CERROR("fsfilt_commit failed: %d\n", err);
+                rc = (rc >= 0) ? err : rc;
         }
 
-        ctxt = llog_get_context(&obd->obd_llogs, LLOG_UNLINK_ORIG_CTXT);
-        rc = llog_add(ctxt, NULL, lsm, logcookies,
-                      cookies_size / sizeof(struct llog_cookie), NULL,
-                      res ? &lcl->lcl_locks[0] : NULL, &lock_count);
+        RETURN(rc < 0 ? rc : 0);
+}
 
-        obd_free_memmd(mds->mds_lov_exp, &lsm);
+static int llog_changelog_cancel(struct llog_ctxt *ctxt,
+                                 struct lov_stripe_md *lsm, int count,
+                                 struct llog_cookie *cookies, int flags)
+{
+        struct llog_handle *cathandle = ctxt->loc_handle;
+        int rc;
+        ENTRY;
 
-        if (res && (rc <= 0 || lock_count == 0)) {
-                OBD_FREE(lcl, size);
-                *res = NULL;
-        }
+        /* This should only be called with the catalog handle */
+        LASSERT(cathandle->lgh_hdr->llh_flags & LLOG_F_IS_CAT);
+
+        rc = llog_cat_process(cathandle, llog_changelog_cancel_cb,
+                              (void *)cookies, 0, 0);
+        if (rc >= 0)
+                /* 0 or 1 means we're done */
+                rc = 0;
+        else
+                CERROR("cancel idx %u of catalog "LPX64" rc=%d\n",
+                       cathandle->lgh_last_idx, cathandle->lgh_id.lgl_oid, rc);
 
         RETURN(rc);
 }
 
-static struct llog_operations mds_unlink_orig_logops = {
-        lop_add:        mds_llog_origin_add,
-        lop_connect:    mds_llog_origin_connect,
-};
+int mds_changelog_llog_init(struct obd_device *obd, struct obd_device *tgt)
+{
+        int rc;
 
-static struct llog_operations mds_size_repl_logops = {
-        lop_cancel:     mds_llog_repl_cancel,
-};
+        /* see osc_llog_init */
+        changelog_orig_logops = llog_lvfs_ops;
+        changelog_orig_logops.lop_setup = llog_obd_origin_setup;
+        changelog_orig_logops.lop_cleanup = llog_obd_origin_cleanup;
+        changelog_orig_logops.lop_add = llog_obd_origin_add;
+        changelog_orig_logops.lop_cancel = llog_changelog_cancel;
+
+        rc = llog_setup_named(obd, &obd->obd_olg, LLOG_CHANGELOG_ORIG_CTXT,
+                              tgt, 1, NULL, CHANGELOG_CATALOG,
+                              &changelog_orig_logops);
+        if (rc) {
+                CERROR("changelog llog setup failed %d\n", rc);
+                RETURN(rc);
+        }
+
+        rc = llog_setup_named(obd, &obd->obd_olg, LLOG_CHANGELOG_USER_ORIG_CTXT,
+                              tgt, 1, NULL, CHANGELOG_USERS,
+                              &changelog_orig_logops);
+        if (rc) {
+                CERROR("changelog users llog setup failed %d\n", rc);
+                RETURN(rc);
+        }
 
-int mds_llog_init(struct obd_device *obd, struct obd_llogs *llogs,
-                  struct obd_device *tgt, int count, struct llog_catid *logid)
+        RETURN(rc);
+}
+EXPORT_SYMBOL(mds_changelog_llog_init);
+
+int mds_llog_init(struct obd_device *obd, struct obd_llog_group *olg,
+                  struct obd_device *disk_obd, int *index)
 {
         struct obd_device *lov_obd = obd->u.mds.mds_lov_obd;
+        struct llog_ctxt *ctxt;
         int rc;
         ENTRY;
 
-        rc = obd_llog_setup(obd, llogs, LLOG_UNLINK_ORIG_CTXT, tgt, 0, NULL,
-                            &mds_unlink_orig_logops);
+        LASSERT(olg == &obd->obd_olg);
+        rc = llog_setup(obd, &obd->obd_olg, LLOG_MDS_OST_ORIG_CTXT, disk_obd,
+                        0, NULL, &mds_ost_orig_logops);
         if (rc)
                 RETURN(rc);
 
-        rc = obd_llog_setup(obd, llogs, LLOG_SIZE_REPL_CTXT, tgt, 0, NULL,
-                            &mds_size_repl_logops);
+        rc = llog_setup(obd, &obd->obd_olg, LLOG_SIZE_REPL_CTXT, disk_obd,
+                        0, NULL, &mds_size_repl_logops);
         if (rc)
-                RETURN(rc);
+                GOTO(err_llog, rc);
 
-        rc = obd_llog_init(lov_obd, &lov_obd->obd_llogs, tgt, count, logid);
-        if (rc)
-                CERROR("error lov_llog_init\n");
+        rc = obd_llog_init(lov_obd, &lov_obd->obd_olg, disk_obd, index);
+        if (rc) {
+                CERROR("lov_llog_init err %d\n", rc);
+                GOTO(err_cleanup, rc);
+        }
 
         RETURN(rc);
+err_cleanup:
+        ctxt = llog_get_context(obd, LLOG_SIZE_REPL_CTXT);
+        if (ctxt)
+                llog_cleanup(ctxt);
+err_llog:
+        ctxt = llog_get_context(obd, LLOG_MDS_OST_ORIG_CTXT);
+        if (ctxt)
+                llog_cleanup(ctxt);
+        return rc;
 }
 
-int mds_llog_finish(struct obd_device *obd, struct obd_llogs *llogs, int count)
+int mds_llog_finish(struct obd_device *obd, int count)
 {
-        struct obd_device *lov_obd = obd->u.mds.mds_lov_obd;
+        struct llog_ctxt *ctxt;
+        int rc = 0, rc2 = 0;
+        ENTRY;
+
+        ctxt = llog_get_context(obd, LLOG_MDS_OST_ORIG_CTXT);
+        if (ctxt)
+                rc = llog_cleanup(ctxt);
+
+        ctxt = llog_get_context(obd, LLOG_SIZE_REPL_CTXT);
+        if (ctxt)
+                rc2 = llog_cleanup(ctxt);
+        if (!rc)
+                rc = rc2;
+
+        ctxt = llog_get_context(obd, LLOG_CHANGELOG_ORIG_CTXT);
+        if (ctxt)
+                rc2 = llog_cleanup(ctxt);
+        if (!rc)
+                rc = rc2;
+
+        ctxt = llog_get_context(obd, LLOG_CHANGELOG_USER_ORIG_CTXT);
+        if (ctxt)
+                rc2 = llog_cleanup(ctxt);
+        if (!rc)
+                rc = rc2;
+
+        RETURN(rc);
+}
+
+static int mds_llog_add_unlink(struct obd_device *obd,
+                               struct lov_stripe_md *lsm, obd_count count,
+                               struct llog_cookie *logcookie, int cookies)
+{
+        struct llog_unlink_rec *lur;
+        struct llog_ctxt *ctxt;
+        int rc;
+
+        if (cookies < lsm->lsm_stripe_count)
+                RETURN(rc = -EFBIG);
+
+        /* first prepare unlink log record */
+        OBD_ALLOC_PTR(lur);
+        if (!lur)
+                RETURN(rc = -ENOMEM);
+        lur->lur_hdr.lrh_len = lur->lur_tail.lrt_len = sizeof(*lur);
+        lur->lur_hdr.lrh_type = MDS_UNLINK_REC;
+        lur->lur_count = count;
+
+        ctxt = llog_get_context(obd, LLOG_MDS_OST_ORIG_CTXT);
+        rc = llog_add(ctxt, &lur->lur_hdr, lsm, logcookie, cookies);
+        llog_ctxt_put(ctxt);
+
+        OBD_FREE_PTR(lur);
+        RETURN(rc);
+}
+
+int mds_log_op_unlink(struct obd_device *obd,
+                      struct lov_mds_md *lmm, int lmm_size,
+                      struct llog_cookie *logcookies, int cookies_size)
+{
+        struct mds_obd *mds = &obd->u.mds;
+        struct lov_stripe_md *lsm = NULL;
         int rc;
         ENTRY;
 
-        rc = obd_llog_cleanup(llog_get_context(llogs, LLOG_UNLINK_ORIG_CTXT));
-        if (rc)
-                RETURN(rc);
+        if (IS_ERR(mds->mds_lov_obd))
+                RETURN(PTR_ERR(mds->mds_lov_obd));
 
-        rc = obd_llog_cleanup(llog_get_context(llogs, LLOG_SIZE_REPL_CTXT));
-        if (rc)
+        rc = obd_unpackmd(mds->mds_lov_exp, &lsm, lmm, lmm_size);
+        if (rc < 0)
                 RETURN(rc);
+        rc = mds_llog_add_unlink(obd, lsm, 0, logcookies,
+                                 cookies_size / sizeof(struct llog_cookie));
+        obd_free_memmd(mds->mds_lov_exp, &lsm);
+        RETURN(rc);
+}
+EXPORT_SYMBOL(mds_log_op_unlink);
 
-        rc = obd_llog_finish(lov_obd, &lov_obd->obd_llogs, count);
-        if (rc)
-                CERROR("error lov_llog_finish\n");
+int mds_log_op_orphan(struct obd_device *obd, struct lov_stripe_md *lsm,
+                      obd_count count)
+{
+        struct mds_obd *mds = &obd->u.mds;
+        struct llog_cookie logcookie;
+        int rc;
+        ENTRY;
+
+        if (IS_ERR(mds->mds_lov_obd))
+                RETURN(PTR_ERR(mds->mds_lov_obd));
 
+        rc = mds_llog_add_unlink(obd, lsm, count - 1, &logcookie, 1);
         RETURN(rc);
 }
+