Whamcloud - gitweb
LU-3952 nfs: don't panic NFS server if MDS fails to find FID
[fs/lustre-release.git] / lustre / llite / llite_nfs.c
index afd0c9b..2a2eb19 100644 (file)
@@ -1,35 +1,62 @@
-/* -*- mode: c; c-basic-offset: 8; indent-tabs-mode: nil; -*-
- * vim:expandtab:shiftwidth=8:tabstop=8:
+/*
+ * GPL HEADER START
+ *
+ * DO NOT ALTER OR REMOVE COPYRIGHT NOTICES OR THIS FILE HEADER.
+ *
+ * This program is free software; you can redistribute it and/or modify
+ * it under the terms of the GNU General Public License version 2 only,
+ * as published by the Free Software Foundation.
+ *
+ * This program is distributed in the hope that it will be useful, but
+ * WITHOUT ANY WARRANTY; without even the implied warranty of
+ * MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the GNU
+ * General Public License version 2 for more details (a copy is included
+ * in the LICENSE file that accompanied this code).
  *
- *   NFS export of Lustre Light File System 
+ * You should have received a copy of the GNU General Public License
+ * version 2 along with this program; If not, see
+ * http://www.sun.com/software/products/lustre/docs/GPLv2.pdf
  *
- *   Copyright (c) 2002, 2006 Cluster File Systems, Inc.
+ * Please contact Sun Microsystems, Inc., 4150 Network Circle, Santa Clara,
+ * CA 95054 USA or visit www.sun.com if you need additional information or
+ * have any questions.
  *
- *   Author: Yury Umanets <umka@clusterfs.com>
- *           Huang Hua <huanghua@clusterfs.com>
+ * GPL HEADER END
+ */
+/*
+ * Copyright (c) 2003, 2010, Oracle and/or its affiliates. All rights reserved.
+ * Use is subject to license terms.
  *
- *   This file is part of Lustre, http://www.lustre.org.
+ * Copyright (c) 2011, 2013, Intel Corporation.
+ */
+/*
+ * This file is part of Lustre, http://www.lustre.org/
+ * Lustre is a trademark of Sun Microsystems, Inc.
  *
- *   Lustre is free software; you can redistribute it and/or
- *   modify it under the terms of version 2 of the GNU General Public
- *   License as published by the Free Software Foundation.
+ * lustre/lustre/llite/llite_nfs.c
  *
- *   Lustre is distributed in the hope that it will be useful,
- *   but WITHOUT ANY WARRANTY; without even the implied warranty of
- *   MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the
- *   GNU General Public License for more details.
+ * NFS export of Lustre Light File System
  *
- *   You should have received a copy of the GNU General Public License
- *   along with Lustre; if not, write to the Free Software
- *   Foundation, Inc., 675 Mass Ave, Cambridge, MA 02139, USA.
+ * Author: Yury Umanets <umka@clusterfs.com>
+ * Author: Huang Hua <huanghua@clusterfs.com>
  */
 
 #define DEBUG_SUBSYSTEM S_LLITE
 #include <lustre_lite.h>
 #include "llite_internal.h"
-#ifdef HAVE_LINUX_EXPORTFS_H
 #include <linux/exportfs.h>
-#endif
+
+__u32 get_uuid2int(const char *name, int len)
+{
+        __u32 key0 = 0x12a3fe2d, key1 = 0x37abe8f9;
+        while (len--) {
+                __u32 key = key1 + (key0 ^ (*name++ * 7152373));
+                if (key & 0x80000000) key -= 0x7fffffff;
+                key1 = key0;
+                key0 = key;
+        }
+        return (key0 << 1);
+}
 
 static int ll_nfs_test_inode(struct inode *inode, void *opaque)
 {
@@ -37,40 +64,50 @@ static int ll_nfs_test_inode(struct inode *inode, void *opaque)
                          (struct lu_fid *)opaque);
 }
 
-static struct inode *search_inode_for_lustre(struct super_block *sb,
-                                             struct lu_fid *fid,
-                                             int mode)
+struct inode *search_inode_for_lustre(struct super_block *sb,
+                                     const struct lu_fid *fid)
 {
         struct ll_sb_info     *sbi = ll_s2sbi(sb);
         struct ptlrpc_request *req = NULL;
         struct inode          *inode = NULL;
-        unsigned long         valid = 0;
         int                   eadatalen = 0;
-        ino_t                 ino = ll_fid_build_ino(sbi, fid);
+       unsigned long         hash = cl_fid_build_ino(fid,
+                                                     ll_need_32bit_api(sbi));
+        struct  md_op_data    *op_data;
         int                   rc;
         ENTRY;
 
-        CDEBUG(D_INFO, "searching inode for:(%lu,"DFID")\n", ino, PFID(fid));
+        CDEBUG(D_INFO, "searching inode for:(%lu,"DFID")\n", hash, PFID(fid));
 
-        inode = ILOOKUP(sb, ino, ll_nfs_test_inode, fid);
+        inode = ilookup5(sb, hash, ll_nfs_test_inode, (void *)fid);
         if (inode)
                 RETURN(inode);
 
-        if (S_ISREG(mode)) {
-                rc = ll_get_max_mdsize(sbi, &eadatalen);
-                if (rc) 
-                        RETURN(ERR_PTR(rc)); 
-                valid |= OBD_MD_FLEASIZE;
-        }
+        rc = ll_get_max_mdsize(sbi, &eadatalen);
+        if (rc)
+                RETURN(ERR_PTR(rc));
 
-        rc = md_getattr(sbi->ll_md_exp, fid, NULL, valid, eadatalen, &req);
+        /* Because inode is NULL, ll_prep_md_op_data can not
+         * be used here. So we allocate op_data ourselves */
+        OBD_ALLOC_PTR(op_data);
+        if (op_data == NULL)
+                return ERR_PTR(-ENOMEM);
+
+        op_data->op_fid1 = *fid;
+        op_data->op_mode = eadatalen;
+        op_data->op_valid = OBD_MD_FLEASIZE;
+
+        /* mds_fid2dentry ignores f_type */
+        rc = md_getattr(sbi->ll_md_exp, op_data, &req);
+        OBD_FREE_PTR(op_data);
         if (rc) {
-                CERROR("can't get object attrs, fid "DFID", rc %d\n",
-                       PFID(fid), rc);
+               /* Suppress erroneous/confusing messages when NFS
+                * is out of sync and requests old data. */
+               CDEBUG(D_INFO, "can't get object attrs, fid "DFID", rc %d\n",
+                               PFID(fid), rc);
                 RETURN(ERR_PTR(rc));
         }
-
-        rc = ll_prep_inode(&inode, req, REPLY_REC_OFF, sb);
+        rc = ll_prep_inode(&inode, req, sb, NULL);
         ptlrpc_req_finished(req);
         if (rc)
                 RETURN(ERR_PTR(rc));
@@ -78,120 +115,173 @@ static struct inode *search_inode_for_lustre(struct super_block *sb,
         RETURN(inode);
 }
 
-extern struct dentry_operations ll_d_ops;
+struct lustre_nfs_fid {
+        struct lu_fid   lnf_child;
+        struct lu_fid   lnf_parent;
+};
 
-static struct dentry *ll_iget_for_nfs(struct super_block *sb,
-                                      struct lu_fid *fid,
-                                      umode_t mode)
+static struct dentry *
+ll_iget_for_nfs(struct super_block *sb, struct lu_fid *fid, struct lu_fid *parent)
 {
         struct inode  *inode;
         struct dentry *result;
         ENTRY;
 
-        CDEBUG(D_INFO, "Get dentry for fid: "DFID"\n", PFID(fid));
-        if (!fid_is_sane(fid))
-                RETURN(ERR_PTR(-ESTALE));
+       if (!fid_is_sane(fid))
+               RETURN(ERR_PTR(-ESTALE));
+
+       CDEBUG(D_INFO, "Get dentry for fid: "DFID"\n", PFID(fid));
 
-        inode = search_inode_for_lustre(sb, fid, mode);
+        inode = search_inode_for_lustre(sb, fid);
         if (IS_ERR(inode))
                 RETURN(ERR_PTR(PTR_ERR(inode)));
 
         if (is_bad_inode(inode)) {
                 /* we didn't find the right inode.. */
-                CERROR("can't get inode by fid "DFID"\n",
-                       PFID(fid));
                 iput(inode);
                 RETURN(ERR_PTR(-ESTALE));
         }
 
-        result = d_alloc_anon(inode);
-        if (!result) {
-                iput(inode);
-                RETURN(ERR_PTR(-ENOMEM));
-        }
-        ll_set_dd(result);
-        result->d_op = &ll_d_ops;
+        /**
+         * It is an anonymous dentry without OST objects created yet.
+         * We have to find the parent to tell MDS how to init lov objects.
+         */
+       if (S_ISREG(inode->i_mode) && !ll_i2info(inode)->lli_has_smd &&
+           parent != NULL && !fid_is_zero(parent)) {
+               struct ll_inode_info *lli = ll_i2info(inode);
+
+               spin_lock(&lli->lli_lock);
+               lli->lli_pfid = *parent;
+               spin_unlock(&lli->lli_lock);
+       }
+
+       result = d_obtain_alias(inode);
+       if (IS_ERR(result)) {
+               iput(inode);
+               RETURN(result);
+       }
+
         RETURN(result);
 }
 
-/*
- * This length is counted as amount of __u32,
- *  It is composed of a fid and a mode 
+#ifndef FILEID_INVALID
+#define FILEID_INVALID 0xff
+#endif
+#ifndef FILEID_LUSTRE
+#define FILEID_LUSTRE  0x97
+#endif
+
+/**
+ * \a connectable - is nfsd will connect himself or this should be done
+ *                  at lustre
+ *
+ * The return value is file handle type:
+ * 1 -- contains child file handle;
+ * 2 -- contains child file handle and parent file handle;
+ * 255 -- error.
  */
-#define ONE_FH_LEN (sizeof(struct lu_fid)/4 + 1)
+#ifndef HAVE_ENCODE_FH_PARENT
+static int ll_encode_fh(struct dentry *de, __u32 *fh, int *plen,
+                       int connectable)
+{
+       struct inode *inode = de->d_inode;
+       struct inode *parent = de->d_parent->d_inode;
+#else
+static int ll_encode_fh(struct inode *inode, __u32 *fh, int *plen,
+                       struct inode *parent)
+{
+#endif
+       int fileid_len = sizeof(struct lustre_nfs_fid) / 4;
+       struct lustre_nfs_fid *nfs_fid = (void *)fh;
+       ENTRY;
+
+       CDEBUG(D_INFO, "%s: encoding for ("DFID") maxlen=%d minlen=%d\n",
+              ll_get_fsname(inode->i_sb, NULL, 0),
+              PFID(ll_inode2fid(inode)), *plen, fileid_len);
+
+       if (*plen < fileid_len) {
+               *plen = fileid_len;
+               RETURN(FILEID_INVALID);
+       }
+
+       nfs_fid->lnf_child = *ll_inode2fid(inode);
+       if (parent != NULL)
+               nfs_fid->lnf_parent = *ll_inode2fid(parent);
+       else
+               fid_zero(&nfs_fid->lnf_parent);
+       *plen = fileid_len;
+
+       RETURN(FILEID_LUSTRE);
+}
+
+static int ll_nfs_get_name_filldir(void *cookie, const char *name, int namelen,
+                                   loff_t hash, u64 ino, unsigned type)
+{
+        /* It is hack to access lde_fid for comparison with lgd_fid.
+         * So the input 'name' must be part of the 'lu_dirent'. */
+        struct lu_dirent *lde = container_of0(name, struct lu_dirent, lde_name);
+        struct ll_getname_data *lgd = cookie;
+        struct lu_fid fid;
+
+        fid_le_to_cpu(&fid, &lde->lde_fid);
+        if (lu_fid_eq(&fid, &lgd->lgd_fid)) {
+                memcpy(lgd->lgd_name, name, namelen);
+                lgd->lgd_name[namelen] = 0;
+                lgd->lgd_found = 1;
+        }
+        return lgd->lgd_found;
+}
 
-static struct dentry *ll_decode_fh(struct super_block *sb, __u32 *fh, int fh_len,
-                                   int fh_type,
-                                   int (*acceptable)(void *, struct dentry *),
-                                   void *context)
+static int ll_get_name(struct dentry *dentry, char *name,
+                       struct dentry *child)
 {
-        struct lu_fid *parent = NULL;
-        struct lu_fid *child;
-        struct dentry *entry;
+        struct inode *dir = dentry->d_inode;
+        struct ll_getname_data lgd;
+       __u64 offset = 0;
+        int rc;
         ENTRY;
 
-        CDEBUG(D_INFO, "decoding for "DFID" fh_len=%d fh_type=%d\n", 
-                PFID((struct lu_fid*)fh), fh_len, fh_type);
+        if (!dir || !S_ISDIR(dir->i_mode))
+                GOTO(out, rc = -ENOTDIR);
 
-        if (fh_type != 1 && fh_type != 2)
-                RETURN(ERR_PTR(-ESTALE));
-        if (fh_len < ONE_FH_LEN * fh_type)
-                RETURN(ERR_PTR(-ESTALE));
+        if (!dir->i_fop)
+                GOTO(out, rc = -EINVAL);
+
+        lgd.lgd_name = name;
+        lgd.lgd_fid = ll_i2info(child->d_inode)->lli_fid;
+        lgd.lgd_found = 0;
 
-        child = (struct lu_fid*)fh;
-        if (fh_type == 2)
-                parent = (struct lu_fid*)(fh + ONE_FH_LEN);
-                
-        entry = sb->s_export_op->find_exported_dentry(sb, child, parent,
-                                                      acceptable, context);
-        RETURN(entry);
+       mutex_lock(&dir->i_mutex);
+       rc = ll_dir_read(dir, &offset, &lgd, ll_nfs_get_name_filldir);
+       mutex_unlock(&dir->i_mutex);
+        if (!rc && !lgd.lgd_found)
+                rc = -ENOENT;
+        EXIT;
+
+out:
+        return rc;
 }
 
-/* The return value is file handle type:
- * 1 -- contains child file handle;
- * 2 -- contains child file handle and parent file handle;
- * 255 -- error.
- */
-static int ll_encode_fh(struct dentry *de, __u32 *fh, int *plen, int connectable)
+static struct dentry *ll_fh_to_dentry(struct super_block *sb, struct fid *fid,
+                                      int fh_len, int fh_type)
 {
-        struct inode    *inode = de->d_inode;
-        struct lu_fid   *fid = ll_inode2fid(inode);
-        ENTRY;
+        struct lustre_nfs_fid *nfs_fid = (struct lustre_nfs_fid *)fid;
 
-        CDEBUG(D_INFO, "encoding for (%lu,"DFID") maxlen=%d minlen=%d\n",
-                       inode->i_ino, PFID(fid), *plen, ONE_FH_LEN);
-
-        if (*plen < ONE_FH_LEN)
-                RETURN(255);
-
-        memcpy((char*)fh, fid, sizeof(*fid));
-        *(fh + ONE_FH_LEN - 1) = (__u32)(S_IFMT & inode->i_mode);
-
-        if (de->d_parent && *plen >= ONE_FH_LEN * 2) {
-                struct inode *parent = de->d_parent->d_inode;
-                fh += ONE_FH_LEN;
-                memcpy((char*)fh, &ll_i2info(parent)->lli_fid, sizeof(*fid));
-                *(fh + ONE_FH_LEN - 1) = (__u32)(S_IFMT & parent->i_mode);
-                *plen = ONE_FH_LEN * 2;
-                RETURN(2);
-        } else {
-                *plen = ONE_FH_LEN;
-                RETURN(1);
-        }
+       if (fh_type != FILEID_LUSTRE)
+               RETURN(ERR_PTR(-EPROTO));
+
+        RETURN(ll_iget_for_nfs(sb, &nfs_fid->lnf_child, &nfs_fid->lnf_parent));
 }
 
-static struct dentry *ll_get_dentry(struct super_block *sb, void *data)
+static struct dentry *ll_fh_to_parent(struct super_block *sb, struct fid *fid,
+                                      int fh_len, int fh_type)
 {
-        struct lu_fid      *fid;
-        struct dentry      *entry;
-        __u32               mode;
-        ENTRY;
+        struct lustre_nfs_fid *nfs_fid = (struct lustre_nfs_fid *)fid;
+
+       if (fh_type != FILEID_LUSTRE)
+               RETURN(ERR_PTR(-EPROTO));
 
-        fid = (struct lu_fid *)data;
-        mode = *((__u32*)data + ONE_FH_LEN - 1);
-        
-        entry = ll_iget_for_nfs(sb, fid, mode);
-        RETURN(entry);
+        RETURN(ll_iget_for_nfs(sb, &nfs_fid->lnf_parent, NULL));
 }
 
 static struct dentry *ll_get_parent(struct dentry *dchild)
@@ -202,39 +292,56 @@ static struct dentry *ll_get_parent(struct dentry *dchild)
         struct dentry         *result = NULL;
         struct mdt_body       *body;
         static char           dotdot[] = "..";
+        struct md_op_data     *op_data;
         int                   rc;
+       int                   lmmsize;
         ENTRY;
-        
-        LASSERT(dir && S_ISDIR(dir->i_mode));
-        
-        sbi = ll_s2sbi(dir->i_sb);
-        CDEBUG(D_INFO, "getting parent for (%lu,"DFID")\n", 
-                        dir->i_ino, PFID(ll_inode2fid(dir)));
 
-        rc = md_getattr_name(sbi->ll_md_exp, ll_inode2fid(dir), NULL,
-                             dotdot, strlen(dotdot) + 1, 0, 0,
-                             ll_i2suppgid(dir), &req);
-        if (rc) {
-                CERROR("failure %d inode %lu get parent\n", rc, dir->i_ino);
-                RETURN(ERR_PTR(rc));
-        }
-        body = lustre_msg_buf(req->rq_repmsg, REPLY_REC_OFF, sizeof(*body)); 
-       
-        LASSERT(body->valid & OBD_MD_FLID);
-        
-        CDEBUG(D_INFO, "parent for "DFID" is "DFID"\n", 
-                PFID(ll_inode2fid(dir)), PFID(&body->fid1));
+        LASSERT(dir && S_ISDIR(dir->i_mode));
 
-        result = ll_iget_for_nfs(dir->i_sb, &body->fid1, S_IFDIR);
+        sbi = ll_s2sbi(dir->i_sb);
 
-        ptlrpc_req_finished(req);
-        RETURN(result);
-} 
+       CDEBUG(D_INFO, "%s: getting parent for ("DFID")\n",
+              ll_get_fsname(dir->i_sb, NULL, 0),
+              PFID(ll_inode2fid(dir)));
+
+       rc = ll_get_max_mdsize(sbi, &lmmsize);
+       if (rc != 0)
+               RETURN(ERR_PTR(rc));
+
+       op_data = ll_prep_md_op_data(NULL, dir, NULL, dotdot,
+                                    strlen(dotdot), lmmsize,
+                                    LUSTRE_OPC_ANY, NULL);
+       if (IS_ERR(op_data))
+               RETURN((void *)op_data);
+
+       rc = md_getattr_name(sbi->ll_md_exp, op_data, &req);
+       ll_finish_md_op_data(op_data);
+       if (rc) {
+               CERROR("%s: failure inode "DFID" get parent: rc = %d\n",
+                      ll_get_fsname(dir->i_sb, NULL, 0),
+                      PFID(ll_inode2fid(dir)), rc);
+               RETURN(ERR_PTR(rc));
+       }
+       body = req_capsule_server_get(&req->rq_pill, &RMF_MDT_BODY);
+       /*
+        * LU-3952: MDT may lost the FID of its parent, we should not crash
+        * the NFS server, ll_iget_for_nfs() will handle the error.
+        */
+       if (body->valid & OBD_MD_FLID) {
+               CDEBUG(D_INFO, "parent for "DFID" is "DFID"\n",
+                      PFID(ll_inode2fid(dir)), PFID(&body->fid1));
+       }
+       result = ll_iget_for_nfs(dir->i_sb, &body->fid1, NULL);
+
+       ptlrpc_req_finished(req);
+       RETURN(result);
+}
 
 struct export_operations lustre_export_operations = {
        .get_parent = ll_get_parent,
-       .get_dentry = ll_get_dentry,
        .encode_fh  = ll_encode_fh,
-       .decode_fh  = ll_decode_fh,
+       .get_name   = ll_get_name,
+        .fh_to_dentry = ll_fh_to_dentry,
+        .fh_to_parent = ll_fh_to_parent,
 };