lustre/mds/mds_reint.c

   1 /* -*- mode: c; c-basic-offset: 8; indent-tabs-mode: nil; -*-
   2  * vim:expandtab:shiftwidth=8:tabstop=8:
   3  *
   4  *  linux/mds/mds_reint.c
   5  *  Lustre Metadata Server (mds) reintegration routines
   6  *
   7  *  Copyright (C) 2002, 2003 Cluster File Systems, Inc.
   8  *   Author: Peter Braam <braam@clusterfs.com>
   9  *   Author: Andreas Dilger <adilger@clusterfs.com>
  10  *   Author: Phil Schwan <phil@clusterfs.com>
  11  *
  12  *   This file is part of Lustre, http://www.lustre.org.
  13  *
  14  *   Lustre is free software; you can redistribute it and/or
  15  *   modify it under the terms of version 2 of the GNU General Public
  16  *   License as published by the Free Software Foundation.
  17  *
  18  *   Lustre is distributed in the hope that it will be useful,
  19  *   but WITHOUT ANY WARRANTY; without even the implied warranty of
  20  *   MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the
  21  *   GNU General Public License for more details.
  22  *
  23  *   You should have received a copy of the GNU General Public License
  24  *   along with Lustre; if not, write to the Free Software
  25  *   Foundation, Inc., 675 Mass Ave, Cambridge, MA 02139, USA.
  26  */
  27
  28 #ifndef EXPORT_SYMTAB
  29 # define EXPORT_SYMTAB
  30 #endif
  31 #define DEBUG_SUBSYSTEM S_MDS
  32
  33 #include <linux/fs.h>
  34 #include <linux/jbd.h>
  35 #include <linux/namei.h>
  36 #include <linux/ext3_fs.h>
  37 #include <linux/obd_support.h>
  38 #include <linux/obd_class.h>
  39 #include <linux/obd.h>
  40 #include <linux/lustre_lib.h>
  41 #include <linux/lustre_idl.h>
  42 #include <linux/lustre_mds.h>
  43 #include <linux/lustre_dlm.h>
  44 #include <linux/lustre_log.h>
  45 #include <linux/lustre_fsfilt.h>
  46 #include <linux/lustre_acl.h>
  47 #include <linux/lustre_lite.h>
  48 #include <linux/lustre_smfs.h>
  49 #include "mds_internal.h"
  50
  51 struct mds_logcancel_data {
  52         struct lov_mds_md      *mlcd_lmm;
  53         int                     mlcd_size;
  54         int                     mlcd_cookielen;
  55         int                     mlcd_eadatalen;
  56         struct llog_cookie      mlcd_cookies[0];
  57 };
  58
  59 static void mds_cancel_cookies_cb(struct obd_device *obd,
  60                                   __u64 transno, void *cb_data,
  61                                   int error)
  62 {
  63         struct mds_logcancel_data *mlcd = cb_data;
  64         struct lov_stripe_md *lsm = NULL;
  65         struct llog_ctxt *ctxt;
  66         int rc;
  67
  68         obd_transno_commit_cb(obd, transno, error);
  69
  70         CDEBUG(D_HA, "cancelling %d cookies\n",
  71                (int)(mlcd->mlcd_cookielen / sizeof(*mlcd->mlcd_cookies)));
  72
  73         rc = obd_unpackmd(obd->u.mds.mds_dt_exp, &lsm, mlcd->mlcd_lmm,
  74                           mlcd->mlcd_eadatalen);
  75         if (rc < 0) {
  76                 CERROR("bad LSM cancelling %d log cookies: rc %d\n",
  77                        (int)(mlcd->mlcd_cookielen/sizeof(*mlcd->mlcd_cookies)),
  78                        rc);
  79         } else {
  80                 ///* XXX 0 normally, SENDNOW for debug */);
  81                 ctxt = llog_get_context(&obd->obd_llogs,
  82                                         mlcd->mlcd_cookies[0].lgc_subsys + 1);
  83                 rc = llog_cancel(ctxt, mlcd->mlcd_cookielen /
  84                                  sizeof(*mlcd->mlcd_cookies),
  85                                  mlcd->mlcd_cookies, OBD_LLOG_FL_SENDNOW, lsm);
  86                 if (rc)
  87                         CERROR("error cancelling %d log cookies: rc %d\n",
  88                                (int)(mlcd->mlcd_cookielen /
  89                                      sizeof(*mlcd->mlcd_cookies)), rc);
  90                 obd_free_memmd(obd->u.mds.mds_dt_exp, &lsm);
  91         }
  92
  93         OBD_FREE(mlcd, mlcd->mlcd_size);
  94 }
  95
  96 /* Assumes caller has already pushed us into the kernel context. */
  97 int mds_finish_transno(struct mds_obd *mds, struct inode *inode, void *handle,
  98                        struct ptlrpc_request *req, int rc, __u32 op_data)
  99 {
 100         struct mds_export_data *med = &req->rq_export->exp_mds_data;
 101         struct obd_device *obd = req->rq_export->exp_obd;
 102         struct mds_client_data *mcd = med->med_mcd;
 103         int err, log_pri = D_HA;
 104         __u64 transno;
 105         loff_t off;
 106         ENTRY;
 107
 108         /* if the export has already been failed, we have no last_rcvd slot */
 109         if (req->rq_export->exp_failed) {
 110                 CERROR("committing transaction for disconnected client\n");
 111                 if (handle)
 112                         GOTO(out_commit, rc);
 113                 RETURN(rc);
 114         }
 115
 116         if (IS_ERR(handle))
 117                 RETURN(rc);
 118
 119         if (handle == NULL) {
 120                 /* if we're starting our own xaction, use our own inode */
 121                 inode = mds->mds_rcvd_filp->f_dentry->d_inode;
 122                 handle = fsfilt_start(obd, inode, FSFILT_OP_SETATTR, NULL);
 123                 if (IS_ERR(handle)) {
 124                         CERROR("fsfilt_start: %ld\n", PTR_ERR(handle));
 125                         RETURN(PTR_ERR(handle));
 126                 }
 127         }
 128
 129         off = med->med_off;
 130
 131         transno = req->rq_reqmsg->transno;
 132         if (rc != 0) {
 133                 LASSERTF(transno == 0, "BUG 3934, t"LPU64" rc %d\n", transno, rc);
 134         } else if (transno == 0) {
 135                 spin_lock(&mds->mds_transno_lock);
 136                 transno = ++mds->mds_last_transno;
 137                 spin_unlock(&mds->mds_transno_lock);
 138         } else {
 139                 spin_lock(&mds->mds_transno_lock);
 140                 if (transno > mds->mds_last_transno)
 141                         mds->mds_last_transno = transno;
 142                 spin_unlock(&mds->mds_transno_lock);
 143         }
 144         req->rq_repmsg->transno = req->rq_transno = transno;
 145         if (req->rq_reqmsg->opc == MDS_CLOSE) {
 146                 mcd->mcd_last_close_transno = cpu_to_le64(transno);
 147                 mcd->mcd_last_close_xid = cpu_to_le64(req->rq_xid);
 148                 mcd->mcd_last_close_result = cpu_to_le32(rc);
 149                 mcd->mcd_last_close_data = cpu_to_le32(op_data);
 150         } else {
 151                 mcd->mcd_last_transno = cpu_to_le64(transno);
 152                 mcd->mcd_last_xid = cpu_to_le64(req->rq_xid);
 153                 mcd->mcd_last_result = cpu_to_le32(rc);
 154                 mcd->mcd_last_data = cpu_to_le32(op_data);
 155         }
 156
 157         fsfilt_add_journal_cb(obd, mds->mds_sb, transno, handle,
 158                               mds_commit_last_transno_cb, NULL);
 159
 160         err = fsfilt_write_record(obd, mds->mds_rcvd_filp, mcd,
 161                                   sizeof(*mcd), &off, 0);
 162
 163         if (err) {
 164                 log_pri = D_ERROR;
 165                 if (rc == 0)
 166                         rc = err;
 167         }
 168
 169         DEBUG_REQ(log_pri, req,
 170                   "wrote trans #"LPU64" client %s at idx %u: err = %d",
 171                   transno, mcd->mcd_uuid, med->med_idx, err);
 172
 173         err = mds_update_last_fid(obd, handle, 0);
 174         if (err) {
 175                 log_pri = D_ERROR;
 176                 if (rc == 0)
 177                         rc = err;
 178         }
 179
 180         err = mds_dt_write_objids(obd);
 181         if (err) {
 182                 log_pri = D_ERROR;
 183                 if (rc == 0)
 184                         rc = err;
 185         }
 186         CDEBUG(log_pri, "wrote objids: err = %d\n", err);
 187
 188         EXIT;
 189 out_commit:
 190         err = fsfilt_commit(obd, mds->mds_sb, inode, handle,
 191                             req->rq_export->exp_sync);
 192         if (err) {
 193                 CERROR("error committing transaction: %d\n", err);
 194                 if (!rc)
 195                         rc = err;
 196         }
 197
 198         return rc;
 199 }
 200
 201 /* this gives the same functionality as the code between
 202  * sys_chmod and inode_setattr
 203  * chown_common and inode_setattr
 204  * utimes and inode_setattr
 205  */
 206 #ifndef ATTR_RAW
 207 /* Just for the case if we have some clients that know about ATTR_RAW */
 208 #define ATTR_RAW 8192
 209 #endif
 210 int mds_fix_attr(struct inode *inode, struct mds_update_record *rec)
 211 {
 212         time_t now = LTIME_S(CURRENT_TIME);
 213         struct iattr *attr = &rec->ur_iattr;
 214         unsigned int ia_valid = attr->ia_valid;
 215         int error;
 216         ENTRY;
 217
 218         /* only fix up attrs if the client VFS didn't already */
 219
 220         if (!(ia_valid & ATTR_RAW))
 221                 RETURN(0);
 222
 223         if (!(ia_valid & ATTR_CTIME_SET))
 224                 LTIME_S(attr->ia_ctime) = now;
 225         if (!(ia_valid & ATTR_ATIME_SET))
 226                 LTIME_S(attr->ia_atime) = now;
 227         if (!(ia_valid & ATTR_MTIME_SET))
 228                 LTIME_S(attr->ia_mtime) = now;
 229
 230         if (IS_IMMUTABLE(inode) || IS_APPEND(inode))
 231                 RETURN(-EPERM);
 232
 233         /* times */
 234         if ((ia_valid & (ATTR_MTIME|ATTR_ATIME)) == (ATTR_MTIME|ATTR_ATIME)) {
 235                 if (rec->ur_fsuid != inode->i_uid &&
 236                     (error = ll_permission(inode, MAY_WRITE, NULL)) != 0)
 237                         RETURN(error);
 238         }
 239
 240         if (ia_valid & ATTR_SIZE) {
 241                 if ((error = ll_permission(inode, MAY_WRITE, NULL)) != 0)
 242                         RETURN(error);
 243         }
 244
 245         if (ia_valid & ATTR_UID) {
 246                 /* chown */
 247                 error = -EPERM;
 248                 if (IS_IMMUTABLE(inode) || IS_APPEND(inode))
 249                         RETURN(-EPERM);
 250                 if (attr->ia_uid == (uid_t) -1)
 251                         attr->ia_uid = inode->i_uid;
 252                 if (attr->ia_gid == (gid_t) -1)
 253                         attr->ia_gid = inode->i_gid;
 254                 attr->ia_mode = inode->i_mode;
 255                 /*
 256                  * If the user or group of a non-directory has been
 257                  * changed by a non-root user, remove the setuid bit.
 258                  * 19981026 David C Niemi <niemi@tux.org>
 259                  *
 260                  * Changed this to apply to all users, including root,
 261                  * to avoid some races. This is the behavior we had in
 262                  * 2.0. The check for non-root was definitely wrong
 263                  * for 2.2 anyway, as it should have been using
 264                  * CAP_FSETID rather than fsuid -- 19990830 SD.
 265                  */
 266                 if ((inode->i_mode & S_ISUID) == S_ISUID &&
 267                     !S_ISDIR(inode->i_mode)) {
 268                         attr->ia_mode &= ~S_ISUID;
 269                         attr->ia_valid |= ATTR_MODE;
 270                 }
 271                 /*
 272                  * Likewise, if the user or group of a non-directory
 273                  * has been changed by a non-root user, remove the
 274                  * setgid bit UNLESS there is no group execute bit
 275                  * (this would be a file marked for mandatory
 276                  * locking).  19981026 David C Niemi <niemi@tux.org>
 277                  *
 278                  * Removed the fsuid check (see the comment above) --
 279                  * 19990830 SD.
 280                  */
 281                 if (((inode->i_mode & (S_ISGID | S_IXGRP)) ==
 282                      (S_ISGID | S_IXGRP)) && !S_ISDIR(inode->i_mode)) {
 283                         attr->ia_mode &= ~S_ISGID;
 284                         attr->ia_valid |= ATTR_MODE;
 285                 }
 286         } else if (ia_valid & ATTR_MODE) {
 287                 int mode = attr->ia_mode;
 288                 /* chmod */
 289                 if (attr->ia_mode == (mode_t) -1)
 290                         attr->ia_mode = inode->i_mode;
 291                 attr->ia_mode =
 292                         (mode & S_IALLUGO) | (inode->i_mode & ~S_IALLUGO);
 293         }
 294         RETURN(0);
 295 }
 296
 297 void mds_steal_ack_locks(struct ptlrpc_request *req)
 298 {
 299         struct obd_export         *exp = req->rq_export;
 300         char                       str[PTL_NALFMT_SIZE];
 301         struct list_head          *tmp;
 302         struct ptlrpc_reply_state *oldrep;
 303         struct ptlrpc_service     *svc;
 304         struct llog_create_locks  *lcl;
 305         unsigned long              flags;
 306         int                        i;
 307
 308         /* CAVEAT EMPTOR: spinlock order */
 309         spin_lock_irqsave (&exp->exp_lock, flags);
 310         list_for_each (tmp, &exp->exp_outstanding_replies) {
 311                 oldrep = list_entry(tmp, struct ptlrpc_reply_state,rs_exp_list);
 312
 313                 if (oldrep->rs_xid != req->rq_xid)
 314                         continue;
 315
 316                 if (oldrep->rs_msg->opc != req->rq_reqmsg->opc)
 317                         CERROR ("Resent req xid "LPX64" has mismatched opc: "
 318                                 "new %d old %d\n", req->rq_xid,
 319                                 req->rq_reqmsg->opc, oldrep->rs_msg->opc);
 320
 321                 svc = oldrep->rs_srv_ni->sni_service;
 322                 spin_lock (&svc->srv_lock);
 323
 324                 list_del_init (&oldrep->rs_exp_list);
 325
 326                 CWARN("Stealing %d locks from rs %p x"LPD64".t"LPD64
 327                       " o%d NID %s\n", oldrep->rs_nlocks, oldrep,
 328                       oldrep->rs_xid, oldrep->rs_transno, oldrep->rs_msg->opc,
 329                       ptlrpc_peernid2str(&exp->exp_connection->c_peer, str));
 330
 331                 for (i = 0; i < oldrep->rs_nlocks; i++)
 332                         ptlrpc_save_lock(req,
 333                                          &oldrep->rs_locks[i],
 334                                          oldrep->rs_modes[i]);
 335                 oldrep->rs_nlocks = 0;
 336
 337                 lcl = oldrep->rs_llog_locks;
 338                 oldrep->rs_llog_locks = NULL;
 339                 if (lcl != NULL)
 340                         ptlrpc_save_llog_lock(req, lcl);
 341
 342                 DEBUG_REQ(D_HA, req, "stole locks for");
 343                 ptlrpc_schedule_difficult_reply (oldrep);
 344
 345                 spin_unlock (&svc->srv_lock);
 346                 spin_unlock_irqrestore (&exp->exp_lock, flags);
 347                 return;
 348         }
 349         spin_unlock_irqrestore (&exp->exp_lock, flags);
 350 }
 351
 352 void mds_req_from_mcd(struct ptlrpc_request *req, struct mds_client_data *mcd)
 353 {
 354         if (req->rq_reqmsg->opc == MDS_CLOSE) {
 355                 DEBUG_REQ(D_HA, req, "restoring transno "LPD64"/status %d",
 356                           mcd->mcd_last_close_transno, mcd->mcd_last_close_result);
 357                 req->rq_repmsg->transno = req->rq_transno = mcd->mcd_last_close_transno;
 358                 req->rq_repmsg->status = req->rq_status = mcd->mcd_last_close_result;
 359         } else {
 360                 DEBUG_REQ(D_HA, req, "restoring transno "LPD64"/status %d",
 361                           mcd->mcd_last_transno, mcd->mcd_last_result);
 362                 req->rq_repmsg->transno = req->rq_transno = mcd->mcd_last_transno;
 363                 req->rq_repmsg->status = req->rq_status = mcd->mcd_last_result;
 364         }
 365
 366         mds_steal_ack_locks(req);
 367 }
 368
 369 static void reconstruct_reint_setattr(struct mds_update_record *rec,
 370                                       int offset, struct ptlrpc_request *req)
 371 {
 372         struct mds_export_data *med = &req->rq_export->exp_mds_data;
 373         struct mds_body *body;
 374         struct dentry *de;
 375
 376         mds_req_from_mcd(req, med->med_mcd);
 377
 378         de = mds_id2dentry(req2obd(req), rec->ur_id1, NULL);
 379         if (IS_ERR(de)) {
 380                 LASSERT(PTR_ERR(de) == req->rq_status);
 381                 return;
 382         }
 383
 384         body = lustre_msg_buf(req->rq_repmsg, 0, sizeof(*body));
 385         mds_pack_inode2body(req2obd(req), body, de->d_inode, 1);
 386
 387         /* Don't return OST-specific attributes if we didn't just set them */
 388         if (rec->ur_iattr.ia_valid & ATTR_SIZE)
 389                 body->valid |= OBD_MD_FLSIZE | OBD_MD_FLBLOCKS;
 390         if (rec->ur_iattr.ia_valid & (ATTR_MTIME | ATTR_MTIME_SET))
 391                 body->valid |= OBD_MD_FLMTIME;
 392         if (rec->ur_iattr.ia_valid & (ATTR_ATIME | ATTR_ATIME_SET))
 393                 body->valid |= OBD_MD_FLATIME;
 394
 395         l_dput(de);
 396 }
 397
 398 static int mds_reint_remote_setfacl(struct obd_device *obd,
 399                                     struct mds_export_data *med,
 400                                     struct mds_update_record *rec,
 401                                     struct ptlrpc_request *req)
 402 {
 403         struct rmtacl_upcall_desc desc;
 404         struct dentry   *de;
 405         struct inode    *inode;
 406         struct mds_body *body;
 407         int              rc = 0;
 408         int              repsize[2] = { sizeof(*body), LUSTRE_ACL_SIZE_MAX };
 409         ENTRY;
 410
 411         rc = lustre_pack_reply(req, 2, repsize, NULL);
 412         if (rc)
 413                 RETURN(rc);
 414
 415         de = mds_id2dentry(obd, rec->ur_id1, NULL);
 416         if (IS_ERR(de))
 417                 GOTO(out, rc = PTR_ERR(de));
 418
 419         inode = de->d_inode;
 420         LASSERT(inode);
 421
 422         /* setxattr from remote client:
 423          */
 424         memset(&desc, 0, sizeof(desc));
 425         desc.cmd = (char *) rec->ur_ea2data;
 426         desc.cmdlen = rec->ur_ea2datalen;
 427         desc.res = lustre_msg_buf(req->rq_repmsg, 1, LUSTRE_ACL_SIZE_MAX);
 428         desc.reslen = LUSTRE_ACL_SIZE_MAX;
 429
 430         mds_do_remote_acl_upcall(&desc);
 431         if (desc.upcall_status)
 432                 GOTO(out_put, rc = desc.upcall_status);
 433
 434         if (desc.status < 0)
 435                 desc.status = -desc.status;
 436
 437         body = lustre_msg_buf(req->rq_repmsg, 0, sizeof (*body));
 438         LASSERT(body);
 439
 440         /* client (lmv) will do limited checking upon replied mds_body,
 441          * we pack it as normal, but "steal" field "flags" field to store
 442          * the acl execution status.
 443          */
 444         mds_pack_inode2body(obd, body, inode, 1);
 445         body->flags = desc.status;
 446         mds_body_do_reverse_map(med, body);
 447
 448         EXIT;
 449 out_put:
 450         l_dput(de);
 451 out:
 452         req->rq_status = rc;
 453         return 0;
 454 }
 455
 456 static int mds_get_md_type(char *name)
 457 {
 458         if (!strcmp(name, XATTR_LUSTRE_MDS_LOV_EA))
 459                 RETURN(EA_LOV);
 460         if (!strcmp(name, XATTR_LUSTRE_MDS_MEA_EA))
 461                 RETURN(EA_MEA);
 462         if (!strcmp(name, XATTR_LUSTRE_MDS_SID_EA))
 463                 RETURN(EA_SID);
 464         if (!strcmp(name, XATTR_LUSTRE_MDS_PID_EA))
 465                 RETURN(EA_PID);
 466         if (!strcmp(name, XATTR_LUSTRE_MDS_KEY_EA))
 467                 RETURN(EA_KEY);
 468
 469         RETURN(0);
 470 }
 471
 472 /* In the raw-setattr case, we lock the child inode.
 473  * In the write-back case or if being called from open, the client holds a lock
 474  * already.
 475  *
 476  * We use the ATTR_FROM_OPEN flag to tell these cases apart. */
 477 static int mds_reint_setattr(struct mds_update_record *rec, int offset,
 478                              struct ptlrpc_request *req, struct lustre_handle *lh)
 479 {
 480         struct mds_obd *mds = mds_req2mds(req);
 481         struct obd_device *obd = req->rq_export->exp_obd;
 482         struct mds_export_data *med = &req->rq_export->u.eu_mds_data;
 483         struct mds_body *body;
 484         struct dentry *de = NULL;
 485         struct inode *inode = NULL;
 486         struct lustre_handle lockh[2] = {{0}, {0}};
 487         int parent_mode;
 488         void *handle = NULL;
 489         struct mds_logcancel_data *mlcd = NULL;
 490         int rc = 0, cleanup_phase = 0, err;
 491         int repcnt = 1, repsize[2] = { sizeof(*body) };
 492         int locked = 0, do_trunc = 0;
 493         ENTRY;
 494
 495         LASSERT(offset == 1);
 496
 497         DEBUG_REQ(D_INODE, req, "setattr "LPU64"/%u %x",
 498                   id_ino(rec->ur_id1), id_gen(rec->ur_id1),
 499                   rec->ur_iattr.ia_valid);
 500
 501         /* remote setfacl need special handling */
 502         if ((rec->ur_iattr.ia_valid & ATTR_EA) &&
 503             !strcmp(rec->ur_eadata, XATTR_NAME_LUSTRE_ACL)) {
 504                 return mds_reint_remote_setfacl(obd, med, rec, req);
 505         }
 506
 507         if (rec->ur_iattr.ia_valid & ATTR_SIZE) {
 508                 repsize[repcnt++] = sizeof(struct lustre_capa);
 509                 do_trunc = 1; /* XXX: ATTR_SIZE will be cleared from ia_valid */
 510         }
 511
 512         rc = lustre_pack_reply(req, repcnt, repsize, NULL);
 513         if (rc)
 514                 RETURN(rc);
 515
 516         MDS_CHECK_RESENT(req, reconstruct_reint_setattr(rec, offset, req));
 517         MD_COUNTER_INCREMENT(obd, setattr);
 518
 519         if (med->med_remote) {
 520                 if (rec->ur_iattr.ia_valid & ATTR_GID) {
 521                         CWARN("Deny chgrp from remote client\n");
 522                         GOTO(cleanup, rc = -EPERM);
 523                 }
 524                 if (rec->ur_iattr.ia_valid & ATTR_UID) {
 525                         uid_t uid;
 526
 527                         uid = mds_idmap_lookup_uid(med->med_idmap, 0,
 528                                                    rec->ur_iattr.ia_uid);
 529                         if (uid == MDS_IDMAP_NOTFOUND) {
 530                                 CWARN("Deny chown to uid %u\n",
 531                                       rec->ur_iattr.ia_uid);
 532                                 GOTO(cleanup, rc = -EPERM);
 533                         }
 534                         rec->ur_iattr.ia_uid = uid;
 535                 }
 536         }
 537
 538         if (rec->ur_iattr.ia_valid & ATTR_FROM_OPEN) {
 539                 de = mds_id2dentry(obd, rec->ur_id1, NULL);
 540                 if (IS_ERR(de))
 541                         GOTO(cleanup, rc = PTR_ERR(de));
 542         } else {
 543                 __u64 lockpart = MDS_INODELOCK_UPDATE;
 544                 if (rec->ur_iattr.ia_valid & (ATTR_MODE | ATTR_UID | ATTR_GID))
 545                         lockpart |= MDS_INODELOCK_LOOKUP;
 546                 de = mds_id2locked_dentry(obd, rec->ur_id1, NULL, LCK_PW,
 547                                           lockh, &parent_mode, NULL, 0, lockpart);
 548                 if (IS_ERR(de))
 549                         GOTO(cleanup, rc = PTR_ERR(de));
 550                 locked = 1;
 551         }
 552
 553         cleanup_phase = 1;
 554
 555         inode = de->d_inode;
 556         LASSERT(inode);
 557         if ((S_ISREG(inode->i_mode) || S_ISDIR(inode->i_mode)) &&
 558             rec->ur_eadata != NULL)
 559                 down(&inode->i_sem);
 560
 561         OBD_FAIL_WRITE(OBD_FAIL_MDS_REINT_SETATTR_WRITE, inode->i_sb);
 562
 563         handle = fsfilt_start(obd, inode, FSFILT_OP_SETATTR, NULL);
 564         if (IS_ERR(handle))
 565                 GOTO(cleanup, rc = PTR_ERR(handle));
 566
 567         if (rec->ur_iattr.ia_valid & (ATTR_MTIME | ATTR_CTIME))
 568                 CDEBUG(D_INODE, "setting mtime %lu, ctime %lu\n",
 569                        LTIME_S(rec->ur_iattr.ia_mtime),
 570                        LTIME_S(rec->ur_iattr.ia_ctime));
 571         rc = mds_fix_attr(inode, rec);
 572         if (rc)
 573                 GOTO(cleanup, rc);
 574
 575         if (rec->ur_iattr.ia_valid & ATTR_ATTR_FLAG)    /* ioctl */
 576                 rc = fsfilt_iocontrol(obd, inode, NULL, EXT3_IOC_SETFLAGS,
 577                                       (long)&rec->ur_iattr.ia_attr_flags);
 578         else                                            /* setattr */
 579                 rc = fsfilt_setattr(obd, de, handle, &rec->ur_iattr, 0);
 580
 581         if (rc == 0) {
 582                 if (rec->ur_iattr.ia_valid & ATTR_EA) {
 583                         int flags = (int) rec->ur_iattr.ia_attr_flags;
 584
 585                         rc = -EOPNOTSUPP;
 586                         if (!med->med_remote && inode->i_op &&
 587                             inode->i_op->setxattr)
 588                                 rc = inode->i_op->setxattr(
 589                                                 de, rec->ur_eadata,
 590                                                 rec->ur_ea2data,
 591                                                 rec->ur_ea2datalen,
 592                                                 flags);
 593                 } else if (rec->ur_iattr.ia_valid & ATTR_EA_RM) {
 594                         rc = -EOPNOTSUPP;
 595                         if (inode->i_op && inode->i_op->removexattr)
 596                                 rc = inode->i_op->removexattr(de,
 597                                                   rec->ur_eadata);
 598                 } else if (rec->ur_iattr.ia_valid & ATTR_EA_CMOBD) {
 599                         char *name;
 600                         int type;
 601
 602                         /* tmp fix for cmobd set md reint */
 603                         LASSERT(rec->ur_eadata != NULL);
 604                         LASSERT(rec->ur_ea2data != NULL);
 605                         name = rec->ur_eadata;
 606
 607                         CDEBUG(D_INFO, "set %s EA for cmobd \n", name);
 608
 609                         type = mds_get_md_type(name);
 610                         if (type != 0) {
 611                                 rc = fsfilt_set_md(obd, inode, handle,
 612                                                    rec->ur_ea2data,
 613                                                    rec->ur_ea2datalen, type);
 614                         }
 615                         if (rc)
 616                                 GOTO(cleanup, rc);
 617                 } else if ((S_ISREG(inode->i_mode) || S_ISDIR(inode->i_mode)) &&
 618                            !((rec->ur_iattr.ia_valid & ATTR_KEY) ||
 619                              (rec->ur_iattr.ia_valid & ATTR_MAC))) {
 620                         struct lov_stripe_md *lsm = NULL;
 621                         struct lov_user_md *lum = NULL;
 622
 623                         if (rec->ur_eadata != NULL) {
 624                                 rc = ll_permission(inode, MAY_WRITE, NULL);
 625                                 if (rc < 0)
 626                                         GOTO(cleanup, rc);
 627
 628                                 lum = rec->ur_eadata;
 629
 630                                 /* if lmm_stripe_size is -1 delete default
 631                                  * stripe from dir */
 632                                 if (S_ISDIR(inode->i_mode) &&
 633                                     lum->lmm_stripe_size == (typeof(lum->lmm_stripe_size))(-1)){
 634                                         rc = fsfilt_set_md(obd, inode, handle, NULL, 0, EA_LOV);
 635                                         if (rc)
 636                                                 GOTO(cleanup, rc);
 637                                 } else {
 638                                         rc = obd_iocontrol(OBD_IOC_LOV_SETSTRIPE,
 639                                                            mds->mds_dt_exp, 0,
 640                                                            &lsm, rec->ur_eadata);
 641                                         if (rc)
 642                                                 GOTO(cleanup, rc);
 643
 644                                         obd_free_memmd(mds->mds_dt_exp, &lsm);
 645                                         rc = fsfilt_set_md(obd, inode, handle, rec->ur_eadata,
 646                                                            rec->ur_eadatalen, EA_LOV);
 647                                         if (rc)
 648                                                 GOTO(cleanup, rc);
 649                                 }
 650                         }
 651                 }
 652                 if ((rec->ur_iattr.ia_valid & ATTR_KEY) ||
 653                     (rec->ur_iattr.ia_valid & ATTR_MAC)) {
 654                         void *key;
 655                         int keylen;
 656                         LASSERT(rec->ur_eadatalen || rec->ur_ea3datalen);
 657                         LASSERT(rec->ur_eadata || rec->ur_ea3data);
 658                         key = rec->ur_eadata ? rec->ur_eadata : rec->ur_ea3data;
 659                         keylen = rec->ur_eadatalen ? rec->ur_eadatalen :
 660                                                      rec->ur_ea3datalen;
 661                         mds_set_gskey(obd, handle, inode, key, keylen,
 662                                       rec->ur_iattr.ia_valid);
 663                 }
 664         }
 665
 666         body = lustre_msg_buf(req->rq_repmsg, 0, sizeof (*body));
 667         mds_pack_inode2body(obd, body, inode, 1);
 668
 669         /* Don't return OST-specific attributes if we didn't just set them */
 670         if (rec->ur_iattr.ia_valid & ATTR_SIZE)
 671                 body->valid |= OBD_MD_FLSIZE | OBD_MD_FLBLOCKS;
 672         if (rec->ur_iattr.ia_valid & (ATTR_MTIME | ATTR_MTIME_SET))
 673                 body->valid |= OBD_MD_FLMTIME;
 674         if (rec->ur_iattr.ia_valid & (ATTR_ATIME | ATTR_ATIME_SET))
 675                 body->valid |= OBD_MD_FLATIME;
 676
 677         if (do_trunc) {
 678                 struct lustre_capa capa = {
 679                         .lc_uid   = rec->ur_uc.luc_uid,
 680                         .lc_op    = MAY_WRITE,
 681                         .lc_ino   = inode->i_ino,
 682                         .lc_mdsid = mds->mds_num,
 683                 };
 684                 int offset = 1;
 685
 686                 LASSERT(capa.lc_mdsid == mds->mds_num);
 687                 rc = mds_pack_capa(obd, NULL, &capa, req->rq_repmsg, &offset,
 688                                    body);
 689                 if (rc < 0) {
 690                         CERROR("mds_pack_capa: rc = %d\n", rc);
 691                         RETURN(rc);
 692                 }
 693         }
 694
 695         mds_body_do_reverse_map(med, body);
 696
 697         /* The logcookie should be no use anymore, why nobody remove
 698          * following code block?
 699          */
 700         LASSERT(rec->ur_cookielen == 0);
 701         if (rc == 0 && rec->ur_cookielen && !IS_ERR(mds->mds_dt_obd)) {
 702                 OBD_ALLOC(mlcd, sizeof(*mlcd) + rec->ur_cookielen +
 703                           rec->ur_eadatalen);
 704                 if (mlcd) {
 705                         mlcd->mlcd_size = sizeof(*mlcd) + rec->ur_cookielen +
 706                                 rec->ur_eadatalen;
 707                         mlcd->mlcd_eadatalen = rec->ur_eadatalen;
 708                         mlcd->mlcd_cookielen = rec->ur_cookielen;
 709                         mlcd->mlcd_lmm = (void *)&mlcd->mlcd_cookies +
 710                                 mlcd->mlcd_cookielen;
 711                         memcpy(&mlcd->mlcd_cookies, rec->ur_logcookies,
 712                                mlcd->mlcd_cookielen);
 713                         memcpy(mlcd->mlcd_lmm, rec->ur_eadata,
 714                                mlcd->mlcd_eadatalen);
 715                 } else {
 716                         CERROR("unable to allocate log cancel data\n");
 717                 }
 718         }
 719         EXIT;
 720  cleanup:
 721         if (mlcd != NULL)
 722                 fsfilt_add_journal_cb(req->rq_export->exp_obd, mds->mds_sb, 0,
 723                                       handle, mds_cancel_cookies_cb, mlcd);
 724         err = mds_finish_transno(mds, inode, handle, req, rc, 0);
 725         switch (cleanup_phase) {
 726         case 1:
 727                 if ((S_ISREG(inode->i_mode) || S_ISDIR(inode->i_mode)) &&
 728                     rec->ur_eadata != NULL)
 729                         up(&inode->i_sem);
 730                 l_dput(de);
 731                 if (locked) {
 732 #ifdef S_PDIROPS
 733                         if (lockh[1].cookie != 0)
 734                                 ldlm_lock_decref(lockh + 1, parent_mode);
 735 #endif
 736                         if (rc) {
 737                                 ldlm_lock_decref(lockh, LCK_PW);
 738                         } else {
 739                                 ptlrpc_save_lock (req, lockh, LCK_PW);
 740                         }
 741                 }
 742         case 0:
 743                 break;
 744         default:
 745                 LBUG();
 746         }
 747         if (err && !rc)
 748                 rc = err;
 749
 750         req->rq_status = rc;
 751         return 0;
 752 }
 753
 754 static void reconstruct_reint_create(struct mds_update_record *rec, int offset,
 755                                      struct ptlrpc_request *req)
 756 {
 757         struct mds_export_data *med = &req->rq_export->exp_mds_data;
 758         struct dentry *parent, *child;
 759         struct mds_body *body;
 760         ENTRY;
 761
 762         mds_req_from_mcd(req, med->med_mcd);
 763
 764         if (req->rq_status) {
 765                 EXIT;
 766                 return;
 767         }
 768
 769         parent = mds_id2dentry(req2obd(req), rec->ur_id1, NULL);
 770         LASSERT(!IS_ERR(parent));
 771         child = ll_lookup_one_len(rec->ur_name, parent,
 772                                   rec->ur_namelen - 1);
 773         LASSERT(!IS_ERR(child));
 774         if ((child->d_flags & DCACHE_CROSS_REF)) {
 775                 LASSERTF(child->d_inode == NULL, "BUG 3869\n");
 776                 body = lustre_msg_buf(req->rq_repmsg, 0, sizeof(*body));
 777                 mds_pack_dentry2body(req2obd(req), body, child, 1);
 778         } else if (child->d_inode == NULL) {
 779                 DEBUG_REQ(D_ERROR, req, "parent "DLID4" name %s mode %o",
 780                           OLID4(rec->ur_id1), rec->ur_name, rec->ur_mode);
 781                 LASSERTF(child->d_inode != NULL, "BUG 3869\n");
 782         } else {
 783                 body = lustre_msg_buf(req->rq_repmsg, 0, sizeof(*body));
 784                 mds_pack_inode2body(req2obd(req), body, child->d_inode, 1);
 785         }
 786         l_dput(parent);
 787         l_dput(child);
 788         EXIT;
 789 }
 790
 791 static int mds_get_default_acl(struct inode *dir, void **pacl)
 792 {
 793         struct dentry de = { .d_inode = dir };
 794         int size, size2;
 795
 796         LASSERT(S_ISDIR(dir->i_mode));
 797
 798         if (!dir->i_op->getxattr)
 799                 return 0;
 800
 801         size = dir->i_op->getxattr(&de, XATTR_NAME_ACL_DEFAULT, NULL, 0);
 802         if (size == 0 || size == -ENODATA || size == -EOPNOTSUPP)
 803                 return 0;
 804         else if (size < 0)
 805                 return size;
 806
 807         OBD_ALLOC(*pacl, size);
 808         if (!*pacl)
 809                 return -ENOMEM;
 810
 811         size2 = dir->i_op->getxattr(&de, XATTR_NAME_ACL_DEFAULT, *pacl, size);
 812         if (size2 != size) {
 813                 /* since we already locked the dir, it should not change
 814                  * between the 2 getxattr calls
 815                  */
 816                 CERROR("2'nd getxattr got %d, expect %d\n", size2, size);
 817                 OBD_FREE(*pacl, size);
 818                 return -EIO;
 819         }
 820
 821         return size;
 822 }
 823
 824 static int mds_reint_create(struct mds_update_record *rec, int offset,
 825                             struct ptlrpc_request *req,
 826                             struct lustre_handle *lh)
 827 {
 828         struct dentry *dparent = NULL;
 829         struct mds_obd *mds = mds_req2mds(req);
 830         struct obd_device *obd = req->rq_export->exp_obd;
 831         struct mds_body *body = NULL;
 832         struct dentry *dchild = NULL;
 833         struct inode *dir = NULL;
 834         void *handle = NULL;
 835         struct lustre_handle lockh[2] = {{0}, {0}};
 836         int parent_mode;
 837         int rc = 0, err, type = rec->ur_mode & S_IFMT, cleanup_phase = 0;
 838         int created = 0;
 839         struct dentry_params dp;
 840         struct mea *mea = NULL;
 841         int mea_size;
 842         struct lustre_id sid;
 843         __u64 fid;
 844         ENTRY;
 845
 846         LASSERT(offset == 1);
 847
 848         LASSERT(!strcmp(req->rq_export->exp_obd->obd_type->typ_name,
 849                         OBD_MDS_DEVICENAME));
 850
 851         DEBUG_REQ(D_INODE, req, "parent "LPU64"/%u name %s mode %o",
 852                   id_ino(rec->ur_id1), id_gen(rec->ur_id1),
 853                   rec->ur_name, rec->ur_mode);
 854
 855         MDS_CHECK_RESENT(req, reconstruct_reint_create(rec, offset, req));
 856
 857         if (OBD_FAIL_CHECK(OBD_FAIL_MDS_REINT_CREATE))
 858                 GOTO(cleanup, rc = -ESTALE);
 859
 860         dparent = mds_id2locked_dentry(obd, rec->ur_id1, NULL, LCK_PW,
 861                                        lockh, &parent_mode, rec->ur_name,
 862                                        rec->ur_namelen - 1, MDS_INODELOCK_UPDATE);
 863         if (IS_ERR(dparent)) {
 864                 rc = PTR_ERR(dparent);
 865                 CERROR("parent lookup error %d, id "DLID4"\n",
 866                        rc, OLID4(rec->ur_id1));
 867                 GOTO(cleanup, rc);
 868         }
 869         cleanup_phase = 1; /* locked parent dentry */
 870         dir = dparent->d_inode;
 871         LASSERT(dir);
 872
 873         ldlm_lock_dump_handle(D_OTHER, lockh);
 874
 875         /* get parent id: ldlm lock on the parent protects ea */
 876         rc = mds_read_inode_sid(obd, dir, &sid);
 877         if (rc) {
 878                 CERROR("can't read parent id. ino(%lu) rc(%d)\n",
 879                        dir->i_ino, rc);
 880                 GOTO(cleanup, rc);
 881         }
 882
 883         /* try to retrieve MEA data for this dir */
 884         rc = mds_md_get_attr(obd, dparent->d_inode, &mea, &mea_size);
 885         if (rc)
 886                 GOTO(cleanup, rc);
 887
 888         if (mea != NULL && mea->mea_count) {
 889                 /*
 890                  * dir is already splitted, check is requested filename should
 891                  * live at this MDS or at another one.
 892                  */
 893                 int i = mea_name2idx(mea, rec->ur_name, rec->ur_namelen - 1);
 894                 if (mea->mea_master != id_group(&mea->mea_ids[i])) {
 895                         CDEBUG(D_OTHER, "inapropriate MDS(%d) for %lu/%u:%s."
 896                                " should be %lu(%d)\n",
 897                                mea->mea_master, dparent->d_inode->i_ino,
 898                                dparent->d_inode->i_generation, rec->ur_name,
 899                                (unsigned long)id_group(&mea->mea_ids[i]), i);
 900                         GOTO(cleanup, rc = -ERESTART);
 901                 }
 902         }
 903
 904         dchild = ll_lookup_one_len(rec->ur_name, dparent,
 905                                    rec->ur_namelen - 1);
 906         if (IS_ERR(dchild)) {
 907                 rc = PTR_ERR(dchild);
 908                 CERROR("Can't find "DLID4"/%s, error %d\n",
 909                        OLID4(rec->ur_id1), rec->ur_name, rc);
 910                 GOTO(cleanup, rc);
 911         }
 912
 913         cleanup_phase = 2; /* child dentry */
 914
 915         OBD_FAIL_WRITE(OBD_FAIL_MDS_REINT_CREATE_WRITE, dir->i_sb);
 916
 917         if (type == S_IFREG || type == S_IFDIR) {
 918                 rc = mds_try_to_split_dir(obd, dparent, &mea, 0, parent_mode);
 919                 CDEBUG(D_OTHER, "%s: splitted %lu/%u - %d/%d\n",
 920                        obd->obd_name, dparent->d_inode->i_ino,
 921                        dparent->d_inode->i_generation, rc, parent_mode);
 922                 if (rc > 0) {
 923                         /* dir got splitted */
 924                         GOTO(cleanup, rc = -ERESTART);
 925                 } else if (rc < 0) {
 926                         /* error happened during spitting. */
 927                         GOTO(cleanup, rc);
 928                 }
 929         }
 930
 931         if (dir->i_mode & S_ISGID) {
 932                 if (S_ISDIR(rec->ur_mode))
 933                         rec->ur_mode |= S_ISGID;
 934         }
 935
 936         /* for reint case stor ecookie should be zero */
 937         if (rec->ur_flags & MDS_REINT_REQ) {
 938                 LASSERT(id_ino(rec->ur_id1) == 0);
 939                 LASSERT(id_ino(rec->ur_id2) == 0);
 940         }
 941
 942         if (id_fid(rec->ur_id2))
 943                 fid = id_fid(rec->ur_id2);
 944         else
 945                 fid = mds_alloc_fid(obd);
 946
 947         dchild->d_fsdata = (void *)&dp;
 948         dp.p_inum = (unsigned long)id_ino(rec->ur_id2);
 949         dp.p_ptr = req;
 950
 951         dp.p_fid = fid;
 952         dp.p_group = mds->mds_num;
 953
 954         body = lustre_msg_buf(req->rq_repmsg, 0, sizeof(*body));
 955
 956         switch (type) {
 957         case S_IFREG: {
 958                 handle = fsfilt_start(obd, dir, FSFILT_OP_CREATE, NULL);
 959                 if (IS_ERR(handle))
 960                         GOTO(cleanup, rc = PTR_ERR(handle));
 961                 rc = ll_vfs_create(dir, dchild, rec->ur_mode, NULL);
 962
 963                 /* XXX: here we should check what type of EA is in ur_eadata
 964                  * and do appropriate actions. --umka */
 965                 if (rec->ur_eadata && rec->ur_eadatalen &&
 966                     rc == 0 && dchild->d_inode != NULL) {
 967                     if (rec->ur_flags & MDS_REINT_REQ) {
 968                         /* for CMOBD to set lov md info when cmobd reint
 969                          * create */
 970                         CDEBUG(D_INFO, "set lsm %p, len %d to inode %lu \n",
 971                                rec->ur_eadata, rec->ur_eadatalen,
 972                                dchild->d_inode->i_ino);
 973                         fsfilt_set_md(obd, dchild->d_inode, handle, rec->ur_eadata,
 974                                       rec->ur_eadatalen, EA_LOV);
 975                     } else {
 976                         /* assumption: when ur_eadata is not NULL,
 977                          * ur_eadata is crypto key, should fix it later,
 978                          * --wangdi */
 979                         mds_set_gskey(obd, handle, dchild->d_inode,
 980                                       rec->ur_eadata, rec->ur_eadatalen,
 981                                       ATTR_MAC | ATTR_KEY);
 982                     }
 983                 }
 984                 break;
 985         }
 986         case S_IFDIR: {
 987                 int i;
 988
 989                 /*
 990                  * as Peter asked, mkdir() should distribute new directories
 991                  * over the whole cluster in order to distribute namespace
 992                  * processing load. first, we calculate which MDS to use to put
 993                  * new directory's inode in.
 994                  */
 995
 996                 /* XXX: here we order mds_choose_mdsnum() to use local mdsnum
 997                  * for reint requests. This should be gone when real flushing on
 998                  * LMV is fixed. --umka */
 999                 i = mds_choose_mdsnum(obd, rec->ur_name, rec->ur_namelen - 1,
1000                                       rec->ur_flags, &req->rq_peer, dir,
1001                                       (rec->ur_flags & MDS_REINT_REQ));
1002
1003                 if (i == mds->mds_num) {
1004                         /* inode will be created locally */
1005                         handle = fsfilt_start(obd, dir, FSFILT_OP_MKDIR, NULL);
1006                         if (IS_ERR(handle))
1007                                 GOTO(cleanup, rc = PTR_ERR(handle));
1008
1009                         rc = vfs_mkdir(dir, dchild, rec->ur_mode);
1010                         if (rc) {
1011                                 CDEBUG(D_OTHER,
1012                                        "Can't create dir \"%s\", rc = %d\n",
1013                                        dchild->d_name.name, rc);
1014                                 GOTO(cleanup, rc);
1015                         }
1016
1017                 } else if (!DENTRY_VALID(dchild)) {
1018                         /* inode will be created on another MDS */
1019                         struct obdo *oa = NULL;
1020                         void *acl = NULL;
1021                         int acl_size;
1022
1023                         /* first, create that inode */
1024                         oa = obdo_alloc();
1025                         if (!oa)
1026                                 GOTO(cleanup, rc = -ENOMEM);
1027
1028                         oa->o_mds = i;
1029                         oa->o_easize = 0;
1030
1031                         if (rec->ur_eadata) {
1032                                 /* user asks for creating splitted dir */
1033                                 oa->o_easize = *((u16 *) rec->ur_eadata);
1034                         }
1035
1036                         obdo_from_inode(oa, dir, OBD_MD_FLATIME |
1037                                         OBD_MD_FLMTIME | OBD_MD_FLCTIME);
1038
1039                         /* adjust the uid/gid/mode bits */
1040                         oa->o_mode = rec->ur_mode;
1041                         oa->o_uid = current->fsuid;
1042                         oa->o_gid = (dir->i_mode & S_ISGID) ?
1043                                      dir->i_gid : current->fsgid;
1044
1045                         /* letting remote MDS know that this is reint
1046                          * request. */
1047                         if (rec->ur_flags & MDS_REINT_REQ)
1048                                 oa->o_flags |= OBD_FL_REINT;
1049
1050                         /* transfer parent id to remote inode */
1051                         memcpy(obdo_id(oa), &sid, sizeof(sid));
1052                         oa->o_valid |= OBD_MD_FLTYPE | OBD_MD_FLUID |
1053                                        OBD_MD_FLGID | OBD_MD_FLIFID;
1054
1055                         CDEBUG(D_OTHER, "%s: create dir on MDS %u\n",
1056                                obd->obd_name, i);
1057
1058                         if (lustre_msg_get_flags(req->rq_reqmsg) & MSG_REPLAY) {
1059                                 /*
1060                                  * here inode number and generation are
1061                                  * important, as this is replay request and we
1062                                  * need them to check if such an object is
1063                                  * already created.
1064                                  */
1065                                 CDEBUG(D_HA, "%s: replay dir creation %*s -> %u/%u\n",
1066                                        obd->obd_name, rec->ur_namelen - 1,
1067                                        rec->ur_name, (unsigned)id_ino(rec->ur_id2),
1068                                        (unsigned)id_gen(rec->ur_id2));
1069                                 oa->o_id = id_ino(rec->ur_id2);
1070                                 oa->o_fid = id_fid(rec->ur_id2);
1071                                 oa->o_generation = id_gen(rec->ur_id2);
1072                                 oa->o_flags |= OBD_FL_RECREATE_OBJS;
1073                                 LASSERT(oa->o_fid != 0);
1074                         }
1075
1076                         /* obtain default ACL */
1077                         acl_size = mds_get_default_acl(dir, &acl);
1078                         if (acl_size < 0) {
1079                                 obdo_free(oa);
1080                                 GOTO(cleanup, rc = -ENOMEM);
1081                         }
1082
1083                         /*
1084                          * before obd_create() is called, o_fid is not known if
1085                          * this is not recovery of cause.
1086                          */
1087                         rc = obd_create(mds->mds_md_exp, oa, acl, acl_size,
1088                                         NULL, NULL);
1089
1090                         if (acl)
1091                                 OBD_FREE(acl, acl_size);
1092
1093                         if (rc) {
1094                                 CERROR("can't create remote inode: %d\n", rc);
1095                                 DEBUG_REQ(D_ERROR, req, "parent "LPU64"/%u name %s mode %o",
1096                                           id_ino(rec->ur_id1), id_gen(rec->ur_id1),
1097                                           rec->ur_name, rec->ur_mode);
1098                                 obdo_free(oa);
1099                                 GOTO(cleanup, rc);
1100                         }
1101
1102                         LASSERT(oa->o_fid != 0);
1103
1104                         /* now, add new dir entry for it */
1105                         handle = fsfilt_start(obd, dir, FSFILT_OP_MKDIR, NULL);
1106                         if (IS_ERR(handle)) {
1107                                 obdo_free(oa);
1108                                 GOTO(cleanup, rc = PTR_ERR(handle));
1109                         }
1110
1111                         /* creating local dentry for remote inode. */
1112                         rc = fsfilt_add_dir_entry(obd, dparent, rec->ur_name,
1113                                                   rec->ur_namelen - 1, oa->o_id,
1114                                                   oa->o_generation, i, oa->o_fid);
1115
1116                         if (rc) {
1117                                 CERROR("Can't create local entry %*s for "
1118                                        "remote inode.\n", rec->ur_namelen - 1,
1119                                         rec->ur_name);
1120                                 GOTO(cleanup, rc);
1121                         }
1122
1123                         /* fill reply */
1124                         body->valid |= OBD_MD_FLID | OBD_MD_MDS | OBD_MD_FID;
1125
1126                         obdo2id(&body->id1, oa);
1127                         obdo_free(oa);
1128                 } else {
1129                         /* requested name exists in the directory */
1130                         rc = -EEXIST;
1131                 }
1132                 break;
1133         }
1134         case S_IFLNK:{
1135                 handle = fsfilt_start(obd, dir, FSFILT_OP_SYMLINK, NULL);
1136                 if (IS_ERR(handle))
1137                         GOTO(cleanup, rc = PTR_ERR(handle));
1138                 if (rec->ur_tgt == NULL)        /* no target supplied */
1139                         rc = -EINVAL;           /* -EPROTO? */
1140                 else
1141                         rc = ll_vfs_symlink(dir, dchild, rec->ur_tgt, S_IALLUGO);
1142                 break;
1143         }
1144         case S_IFCHR:
1145         case S_IFBLK:
1146         case S_IFIFO:
1147         case S_IFSOCK:{
1148                 int rdev = rec->ur_rdev;
1149                 handle = fsfilt_start(obd, dir, FSFILT_OP_MKNOD, NULL);
1150                 if (IS_ERR(handle))
1151                         GOTO(cleanup, (handle = NULL, rc = PTR_ERR(handle)));
1152                 rc = vfs_mknod(dir, dchild, rec->ur_mode, rdev);
1153                 break;
1154         }
1155         default:
1156                 CERROR("bad file type %o creating %s\n", type, rec->ur_name);
1157                 dchild->d_fsdata = NULL;
1158                 GOTO(cleanup, rc = -EINVAL);
1159         }
1160
1161         /* In case we stored the desired inum in here, we want to clean up. */
1162         if (dchild->d_fsdata == (void *)(unsigned long)id_ino(rec->ur_id2))
1163                 dchild->d_fsdata = NULL;
1164
1165         if (rc) {
1166                 CDEBUG(D_INODE, "error during create: %d\n", rc);
1167                 GOTO(cleanup, rc);
1168         } else if (dchild->d_inode) {
1169                 struct mds_export_data *med = &req->rq_export->u.eu_mds_data;
1170                 struct inode *inode = dchild->d_inode;
1171                 struct iattr iattr;
1172
1173                 created = 1;
1174                 iattr.ia_uid = rec->ur_fsuid;
1175                 LTIME_S(iattr.ia_atime) = rec->ur_time;
1176                 LTIME_S(iattr.ia_ctime) = rec->ur_time;
1177                 LTIME_S(iattr.ia_mtime) = rec->ur_time;
1178
1179                 if (dir->i_mode & S_ISGID)
1180                         iattr.ia_gid = dir->i_gid;
1181                 else
1182                         iattr.ia_gid = rec->ur_fsgid;
1183
1184                 iattr.ia_valid = ATTR_UID | ATTR_GID | ATTR_ATIME |
1185                         ATTR_MTIME | ATTR_CTIME;
1186
1187                 if (id_ino(rec->ur_id2)) {
1188                         LASSERT(id_ino(rec->ur_id2) == inode->i_ino);
1189                         inode->i_generation = id_gen(rec->ur_id2);
1190                         /* dirtied and committed by the upcoming setattr. */
1191                         CDEBUG(D_INODE, "recreated ino %lu with gen %u\n",
1192                                inode->i_ino, inode->i_generation);
1193                 }
1194                 mds_inode2id(obd, &body->id1, dchild->d_inode, fid);
1195                 mds_update_inode_ids(obd, inode, handle, &body->id1, &sid);
1196
1197                 rc = fsfilt_setattr(obd, dchild, handle, &iattr, 0);
1198                 if (rc)
1199                         CERROR("error on child setattr: rc = %d\n", rc);
1200
1201                 iattr.ia_valid = ATTR_MTIME | ATTR_CTIME;
1202                 rc = fsfilt_setattr(obd, dparent, handle, &iattr, 0);
1203                 if (rc)
1204                         CERROR("error on parent setattr: rc = %d\n", rc);
1205                 else
1206                         MD_COUNTER_INCREMENT(obd, create);
1207
1208                 /* take care of default stripe inheritance */
1209                 if (type == S_IFDIR) {
1210                         struct lov_mds_md lmm;
1211                         int lmm_size = sizeof(lmm), nstripes = 0;
1212
1213                         rc = mds_get_md(obd, dir, &lmm, &lmm_size, 1, 0);
1214                         if (rc > 0) {
1215                                 down(&inode->i_sem);
1216                                 rc = fsfilt_set_md(obd, inode, handle,
1217                                                    &lmm, lmm_size, EA_LOV);
1218                                 up(&inode->i_sem);
1219                         }
1220                         if (rc) {
1221                                 CERROR("error on copy stripe info: rc = %d\n",
1222                                        rc);
1223                                 rc = 0;
1224                         }
1225
1226                         if (rec->ur_eadata)
1227                                 nstripes = *(u16 *)rec->ur_eadata;
1228
1229                         if (nstripes) {
1230                                 /*
1231                                  * we pass LCK_EX to split routine to signal,
1232                                  * that we have exclusive access to the
1233                                  * directory. Simple because nobody knows it
1234                                  * already exists -bzzz
1235                                  */
1236                                 rc = mds_try_to_split_dir(obd, dchild,
1237                                                           NULL, nstripes,
1238                                                           LCK_EX);
1239                                 if (rc > 0) {
1240                                         /* dir got splitted */
1241                                         rc = 0;
1242                                 } else if (rc < 0) {
1243                                         /* an error occured during
1244                                          * splitting. */
1245                                         GOTO(cleanup, rc);
1246                                 }
1247                         }
1248
1249                 }
1250
1251                 mds_pack_inode2body(obd, body, inode, 1);
1252                 mds_body_do_reverse_map(med, body);
1253
1254                 if (rec->ur_flags & MDS_REINT_REQ) {
1255                         LASSERT(body != NULL);
1256                         rc = mds_fidmap_add(obd, &body->id1);
1257                         if (rc < 0) {
1258                                 CERROR("can't create fid->ino mapping, "
1259                                        "err %d\n", rc);
1260                         } else {
1261                                 rc = 0;
1262                         }
1263                 }
1264         }
1265
1266         EXIT;
1267 cleanup:
1268         err = mds_finish_transno(mds, dir, handle, req, rc, 0);
1269
1270         if (rc && created) {
1271                 /* Destroy the file we just created. This should not need extra
1272                  * journal credits, as we have already modified all of the
1273                  * blocks needed in order to create the file in the first
1274                  * place. */
1275                 switch (type) {
1276                 case S_IFDIR:
1277                         err = vfs_rmdir(dir, dchild);
1278                         if (err)
1279                                 CERROR("rmdir in error path: %d\n", err);
1280                         break;
1281                 default:
1282                         err = vfs_unlink(dir, dchild);
1283                         if (err)
1284                                 CERROR("unlink in error path: %d\n", err);
1285                         break;
1286                 }
1287         } else if (created) {
1288                 /* The inode we were allocated may have just been freed
1289                  * by an unlink operation.  We take this lock to
1290                  * synchronize against the matching reply-ack-lock taken
1291                  * in unlink, to avoid replay problems if this reply
1292                  * makes it out to the client but the unlink's does not.
1293                  * See bug 2029 for more detail.*/
1294                 mds_lock_new_child(obd, dchild->d_inode, NULL);
1295         } else {
1296                 rc = err;
1297         }
1298         switch (cleanup_phase) {
1299         case 2: /* child dentry */
1300                 l_dput(dchild);
1301         case 1: /* locked parent dentry */
1302 #ifdef S_PDIROPS
1303                 if (lockh[1].cookie != 0)
1304                         ldlm_lock_decref(lockh + 1, parent_mode);
1305 #endif
1306                 if (rc) {
1307                         ldlm_lock_decref(lockh, LCK_PW);
1308                 } else {
1309                         ptlrpc_save_lock(req, lockh, LCK_PW);
1310                 }
1311                 l_dput(dparent);
1312         case 0:
1313                 break;
1314         default:
1315                 CERROR("invalid cleanup_phase %d\n", cleanup_phase);
1316                 LBUG();
1317         }
1318         if (mea)
1319                 OBD_FREE(mea, mea_size);
1320         req->rq_status = rc;
1321         return 0;
1322 }
1323
1324 static inline int
1325 res_gt(struct ldlm_res_id *res1, struct ldlm_res_id *res2,
1326        ldlm_policy_data_t *p1, ldlm_policy_data_t *p2)
1327 {
1328         int i;
1329
1330         for (i = 0; i < RES_NAME_SIZE; i++) {
1331                 /*
1332                  * this is needed to make zeroed res_id entries to be put at the
1333                  * end of list in *ordered_locks() .
1334                  */
1335                 if (res1->name[i] == 0 && res2->name[i] != 0)
1336                         return 1;
1337                 if (res2->name[i] == 0 && res1->name[i] != 0)
1338                         return 0;
1339                 if (res1->name[i] > res2->name[i])
1340                         return 1;
1341                 if (res1->name[i] < res2->name[i])
1342                         return 0;
1343         }
1344
1345         if (!p1 || !p2)
1346                 return 0;
1347
1348         if (memcmp(p1, p2, sizeof(*p1)) < 0)
1349                 return 1;
1350
1351         return 0;
1352 }
1353
1354 /* This function doesn't use ldlm_match_or_enqueue because we're always called
1355  * with EX or PW locks, and the MDS is no longer allowed to match write locks,
1356  * because they take the place of local semaphores.
1357  *
1358  * One or two locks are taken in numerical order.  A res_id->name[0] of 0 means
1359  * no lock is taken for that res_id.  Must be at least one non-zero res_id. */
1360 int enqueue_ordered_locks(struct obd_device *obd, struct ldlm_res_id *p1_res_id,
1361                           struct lustre_handle *p1_lockh, int p1_lock_mode,
1362                           ldlm_policy_data_t *p1_policy,
1363                           struct ldlm_res_id *p2_res_id,
1364                           struct lustre_handle *p2_lockh, int p2_lock_mode,
1365                           ldlm_policy_data_t *p2_policy)
1366 {
1367         int lock_modes[2] = { p1_lock_mode, p2_lock_mode };
1368         struct ldlm_res_id *res_id[2] = { p1_res_id, p2_res_id };
1369         struct lustre_handle *handles[2] = { p1_lockh, p2_lockh };
1370         ldlm_policy_data_t *policies[2] = { p1_policy, p2_policy };
1371         int rc, flags;
1372         ENTRY;
1373
1374         LASSERT(p1_res_id != NULL && p2_res_id != NULL);
1375
1376         CDEBUG(D_INFO, "locks before: "LPU64"/"LPU64"\n",
1377                res_id[0]->name[0], res_id[1]->name[0]);
1378
1379         if (res_gt(p1_res_id, p2_res_id, p1_policy, p2_policy)) {
1380                 handles[1] = p1_lockh;
1381                 handles[0] = p2_lockh;
1382                 res_id[1] = p1_res_id;
1383                 res_id[0] = p2_res_id;
1384                 lock_modes[1] = p1_lock_mode;
1385                 lock_modes[0] = p2_lock_mode;
1386                 policies[1] = p1_policy;
1387                 policies[0] = p2_policy;
1388         }
1389
1390         CDEBUG(D_DLMTRACE, "lock order: "LPU64"/"LPU64"\n",
1391                res_id[0]->name[0], res_id[1]->name[0]);
1392
1393         flags = LDLM_FL_LOCAL_ONLY | LDLM_FL_ATOMIC_CB;
1394         rc = ldlm_cli_enqueue(NULL, NULL, obd->obd_namespace, *res_id[0],
1395                               LDLM_IBITS, policies[0], lock_modes[0], &flags,
1396                               mds_blocking_ast, ldlm_completion_ast, NULL, NULL,
1397                               NULL, 0, NULL, handles[0]);
1398         if (rc != ELDLM_OK)
1399                 RETURN(-EIO);
1400         ldlm_lock_dump_handle(D_OTHER, handles[0]);
1401
1402         if (!memcmp(res_id[0], res_id[1], sizeof(*res_id[0])) &&
1403             (policies[0]->l_inodebits.bits & policies[1]->l_inodebits.bits)) {
1404                 memcpy(handles[1], handles[0], sizeof(*(handles[1])));
1405                 ldlm_lock_addref(handles[1], lock_modes[1]);
1406         } else if (res_id[1]->name[0] != 0) {
1407                 flags = LDLM_FL_LOCAL_ONLY | LDLM_FL_ATOMIC_CB;
1408                 rc = ldlm_cli_enqueue(NULL, NULL, obd->obd_namespace,
1409                                       *res_id[1], LDLM_IBITS, policies[1],
1410                                       lock_modes[1], &flags, mds_blocking_ast,
1411                                       ldlm_completion_ast, NULL, NULL, NULL, 0,
1412                                       NULL, handles[1]);
1413                 if (rc != ELDLM_OK) {
1414                         ldlm_lock_decref(handles[0], lock_modes[0]);
1415                         RETURN(-EIO);
1416                 }
1417                 ldlm_lock_dump_handle(D_OTHER, handles[1]);
1418         }
1419
1420         RETURN(0);
1421 }
1422
1423 int enqueue_4ordered_locks(struct obd_device *obd,struct ldlm_res_id *p1_res_id,
1424                            struct lustre_handle *p1_lockh, int p1_lock_mode,
1425                            ldlm_policy_data_t *p1_policy,
1426                            struct ldlm_res_id *p2_res_id,
1427                            struct lustre_handle *p2_lockh, int p2_lock_mode,
1428                            ldlm_policy_data_t *p2_policy,
1429                            struct ldlm_res_id *c1_res_id,
1430                            struct lustre_handle *c1_lockh, int c1_lock_mode,
1431                            ldlm_policy_data_t *c1_policy,
1432                            struct ldlm_res_id *c2_res_id,
1433                            struct lustre_handle *c2_lockh, int c2_lock_mode,
1434                            ldlm_policy_data_t *c2_policy)
1435 {
1436         struct ldlm_res_id *res_id[5] = { p1_res_id, p2_res_id,
1437                                           c1_res_id, c2_res_id };
1438         struct lustre_handle *dlm_handles[5] = { p1_lockh, p2_lockh,
1439                                                  c1_lockh, c2_lockh };
1440         int lock_modes[5] = { p1_lock_mode, p2_lock_mode,
1441                               c1_lock_mode, c2_lock_mode };
1442         ldlm_policy_data_t *policies[5] = { p1_policy, p2_policy,
1443                                             c1_policy, c2_policy};
1444         int rc, i, j, sorted, flags;
1445         ENTRY;
1446
1447         CDEBUG(D_DLMTRACE, "locks before: "LPU64"/"LPU64"/"LPU64"/"LPU64"\n",
1448                res_id[0]->name[0], res_id[1]->name[0], res_id[2]->name[0],
1449                res_id[3]->name[0]);
1450
1451         /*
1452          * simple insertion sort - we have at most 4 elements. Note, that zeroed
1453          * res_id should be at the end of list after sorting is finished.
1454          */
1455         for (i = 1; i < 4; i++) {
1456                 j = i - 1;
1457                 dlm_handles[4] = dlm_handles[i];
1458                 res_id[4] = res_id[i];
1459                 lock_modes[4] = lock_modes[i];
1460                 policies[4] = policies[i];
1461
1462                 sorted = 0;
1463                 do {
1464                         if (res_gt(res_id[j], res_id[4], policies[j],
1465                                    policies[4])) {
1466                                 dlm_handles[j + 1] = dlm_handles[j];
1467                                 res_id[j + 1] = res_id[j];
1468                                 lock_modes[j + 1] = lock_modes[j];
1469                                 policies[j + 1] = policies[j];
1470                                 j--;
1471                         } else {
1472                                 sorted = 1;
1473                         }
1474                 } while (j >= 0 && !sorted);
1475
1476                 dlm_handles[j + 1] = dlm_handles[4];
1477                 res_id[j + 1] = res_id[4];
1478                 lock_modes[j + 1] = lock_modes[4];
1479                 policies[j + 1] = policies[4];
1480         }
1481
1482         CDEBUG(D_DLMTRACE, "lock order: "LPU64"/"LPU64"/"LPU64"/"LPU64"\n",
1483                res_id[0]->name[0], res_id[1]->name[0], res_id[2]->name[0],
1484                res_id[3]->name[0]);
1485
1486         /* XXX we could send ASTs on all these locks first before blocking? */
1487         for (i = 0; i < 4; i++) {
1488                 flags = LDLM_FL_ATOMIC_CB;
1489
1490                 /*
1491                  * nevertheless zeroed res_ids should be at the end of list, and
1492                  * could use break here, I think, that it is more correctly for
1493                  * clear understanding of code to have continue here, as it
1494                  * clearly means, that zeroed res_id should be skipped and does
1495                  * not mean, that if we meet zeroed res_id we should stop
1496                  * locking loop.
1497                  */
1498                 if (res_id[i]->name[0] == 0)
1499                         continue;
1500
1501                 if (i != 0 &&
1502                     !memcmp(res_id[i], res_id[i-1], sizeof(*res_id[i])) &&
1503                     (policies[i]->l_inodebits.bits &
1504                      policies[i-1]->l_inodebits.bits) ) {
1505                         memcpy(dlm_handles[i], dlm_handles[i-1],
1506                                sizeof(*(dlm_handles[i])));
1507                         ldlm_lock_addref(dlm_handles[i], lock_modes[i]);
1508                 } else {
1509                         rc = ldlm_cli_enqueue(NULL, NULL, obd->obd_namespace,
1510                                               *res_id[i], LDLM_IBITS,
1511                                               policies[i],
1512                                               lock_modes[i], &flags,
1513                                               mds_blocking_ast,
1514                                               ldlm_completion_ast, NULL, NULL,
1515                                               NULL, 0, NULL, dlm_handles[i]);
1516                         if (rc != ELDLM_OK)
1517                                 GOTO(out_err, rc = -EIO);
1518                         ldlm_lock_dump_handle(D_OTHER, dlm_handles[i]);
1519                 }
1520         }
1521
1522         RETURN(0);
1523 out_err:
1524         while (i-- > 0)
1525                 ldlm_lock_decref(dlm_handles[i], lock_modes[i]);
1526
1527         return rc;
1528 }
1529
1530 /* In the unlikely case that the child changed while we were waiting
1531  * on the lock, we need to drop the lock on the old child and either:
1532  * - if the child has a lower resource name, then we have to also
1533  *   drop the parent lock and regain the locks in the right order
1534  * - in the rename case, if the child has a lower resource name than one of
1535  *   the other parent/child resources (maxres) we also need to reget the locks
1536  * - if the child has a higher resource name (this is the common case)
1537  *   we can just get the lock on the new child (still in lock order)
1538  *
1539  * Returns 0 if the child did not change or if it changed but could be locked.
1540  * Returns 1 if the child changed and we need to re-lock (no locks held).
1541  * Returns -ve error with a valid dchild (no locks held). */
1542 static int mds_verify_child(struct obd_device *obd,
1543                             struct ldlm_res_id *parent_res_id,
1544                             struct lustre_handle *parent_lockh,
1545                             struct dentry *dparent, int parent_mode,
1546                             struct ldlm_res_id *child_res_id,
1547                             struct lustre_handle *child_lockh,
1548                             struct dentry **dchildp, int child_mode,
1549                             ldlm_policy_data_t *child_policy,
1550                             const char *name, int namelen,
1551                             struct ldlm_res_id *maxres,
1552                             unsigned long child_ino, __u32 child_gen)
1553 {
1554         struct lustre_id sid;
1555         struct dentry *vchild, *dchild = *dchildp;
1556         int rc = 0, cleanup_phase = 2; /* parent, child locks */
1557         ENTRY;
1558
1559         vchild = ll_lookup_one_len(name, dparent, namelen - 1);
1560         if (IS_ERR(vchild))
1561                 GOTO(cleanup, rc = PTR_ERR(vchild));
1562
1563         if ((vchild->d_flags & DCACHE_CROSS_REF)) {
1564                 if (child_gen == vchild->d_generation &&
1565                     child_ino == vchild->d_inum) {
1566                         if (dchild)
1567                                 l_dput(dchild);
1568                         *dchildp = vchild;
1569                         RETURN(0);
1570                 }
1571                 goto changed;
1572         }
1573
1574         if (likely((vchild->d_inode == NULL && child_res_id->name[0] == 0) ||
1575                    (vchild->d_inode != NULL &&
1576                     child_gen == vchild->d_inode->i_generation &&
1577                     child_ino == vchild->d_inode->i_ino))) {
1578                 if (dchild)
1579                         l_dput(dchild);
1580                 *dchildp = vchild;
1581                 RETURN(0);
1582         }
1583
1584 changed:
1585         CDEBUG(D_DLMTRACE, "child inode changed: %p != %p (%lu != "LPU64")\n",
1586                vchild->d_inode, dchild ? dchild->d_inode : 0,
1587                vchild->d_inode ? vchild->d_inode->i_ino : 0,
1588                child_res_id->name[0]);
1589
1590         if (child_res_id->name[0] != 0)
1591                 ldlm_lock_decref(child_lockh, child_mode);
1592         if (dchild)
1593                 l_dput(dchild);
1594
1595         cleanup_phase = 1; /* parent lock only */
1596         *dchildp = dchild = vchild;
1597
1598         if (dchild->d_inode || (dchild->d_flags & DCACHE_CROSS_REF)) {
1599                 int flags = LDLM_FL_ATOMIC_CB;
1600
1601                 if (dchild->d_inode) {
1602                         down(&dchild->d_inode->i_sem);
1603                         rc = mds_read_inode_sid(obd, dchild->d_inode, &sid);
1604                         up(&dchild->d_inode->i_sem);
1605                         if (rc) {
1606                                 CERROR("Can't read inode self id, inode %lu,"
1607                                        " rc %d\n",  dchild->d_inode->i_ino, rc);
1608                                 GOTO(cleanup, rc);
1609                         }
1610                         child_res_id->name[0] = id_fid(&sid);
1611                         child_res_id->name[1] = id_group(&sid);
1612                 } else {
1613                         child_res_id->name[0] = dchild->d_fid;
1614                         child_res_id->name[1] = dchild->d_mdsnum;
1615                 }
1616
1617                 if (res_gt(parent_res_id, child_res_id, NULL, NULL) ||
1618                     res_gt(maxres, child_res_id, NULL, NULL)) {
1619                         CDEBUG(D_DLMTRACE, "relock "LPU64"<("LPU64"|"LPU64")\n",
1620                                child_res_id->name[0], parent_res_id->name[0],
1621                                maxres->name[0]);
1622                         GOTO(cleanup, rc = 1);
1623                 }
1624
1625                 rc = ldlm_cli_enqueue(NULL, NULL, obd->obd_namespace,
1626                                       *child_res_id, LDLM_IBITS, child_policy,
1627                                       child_mode, &flags, mds_blocking_ast,
1628                                       ldlm_completion_ast, NULL, NULL, NULL, 0,
1629                                       NULL, child_lockh);
1630                 if (rc != ELDLM_OK)
1631                         GOTO(cleanup, rc = -EIO);
1632
1633         } else {
1634                 memset(child_res_id, 0, sizeof(*child_res_id));
1635         }
1636
1637         EXIT;
1638 cleanup:
1639         if (rc) {
1640                 switch(cleanup_phase) {
1641                 case 2:
1642                         if (child_res_id->name[0] != 0)
1643                                 ldlm_lock_decref(child_lockh, child_mode);
1644                 case 1:
1645                         ldlm_lock_decref(parent_lockh, parent_mode);
1646                 }
1647         }
1648         return rc;
1649 }
1650
1651 int mds_get_parent_child_locked(struct obd_device *obd, struct mds_obd *mds,
1652                                 struct lustre_id *id,
1653                                 struct lustre_handle *parent_lockh,
1654                                 struct dentry **dparentp, int parent_mode,
1655                                 __u64 parent_lockpart, int *update_mode,
1656                                 char *name, int namelen,
1657                                 struct lustre_handle *child_lockh,
1658                                 struct dentry **dchildp, int child_mode,
1659                                 __u64 child_lockpart)
1660 {
1661         ldlm_policy_data_t parent_policy = {.l_inodebits = { parent_lockpart }};
1662         ldlm_policy_data_t child_policy = {.l_inodebits = { child_lockpart }};
1663         struct ldlm_res_id parent_res_id = { .name = {0} };
1664         struct ldlm_res_id child_res_id = { .name = {0} };
1665         unsigned long child_ino = 0; __u32 child_gen = 0;
1666         int rc = 0, cleanup_phase = 0;
1667         struct lustre_id sid;
1668         struct inode *inode;
1669         ENTRY;
1670
1671         /* Step 1: Lookup parent */
1672         *dparentp = mds_id2dentry(obd, id, NULL);
1673         if (IS_ERR(*dparentp)) {
1674                 rc = PTR_ERR(*dparentp);
1675                 *dparentp = NULL;
1676                 RETURN(rc);
1677         }
1678
1679         CDEBUG(D_INODE, "parent ino %lu, name %s\n",
1680                (*dparentp)->d_inode->i_ino, name);
1681
1682         parent_res_id.name[0] = id_fid(id);
1683         parent_res_id.name[1] = id_group(id);
1684
1685 #ifdef S_PDIROPS
1686         parent_lockh[1].cookie = 0;
1687         if (name && IS_PDIROPS((*dparentp)->d_inode)) {
1688                 struct ldlm_res_id res_id = { .name = {0} };
1689                 ldlm_policy_data_t policy;
1690                 int flags = LDLM_FL_ATOMIC_CB;
1691
1692                 *update_mode = mds_lock_mode_for_dir(obd, *dparentp, parent_mode);
1693                 if (*update_mode) {
1694                         res_id.name[0] = id_fid(id);
1695                         res_id.name[1] = id_group(id);
1696                         policy.l_inodebits.bits = MDS_INODELOCK_UPDATE;
1697
1698                         rc = ldlm_cli_enqueue(NULL, NULL, obd->obd_namespace,
1699                                               res_id, LDLM_IBITS, &policy,
1700                                               *update_mode, &flags,
1701                                               mds_blocking_ast,
1702                                               ldlm_completion_ast,
1703                                               NULL, NULL, NULL, 0, NULL,
1704                                               parent_lockh + 1);
1705                         if (rc != ELDLM_OK)
1706                                 RETURN(-ENOLCK);
1707                 }
1708
1709                 parent_res_id.name[2] = full_name_hash((unsigned char *)name,
1710                                                        namelen - 1);
1711
1712                 CDEBUG(D_INFO, "take lock on %lu:%lu:"LPX64"\n",
1713                        (unsigned long)id_fid(id), (unsigned long)id_group(id),
1714                        parent_res_id.name[2]);
1715         }
1716 #endif
1717
1718         cleanup_phase = 1; /* parent dentry */
1719
1720         /* Step 2: Lookup child (without DLM lock, to get resource name) */
1721         *dchildp = ll_lookup_one_len(name, *dparentp, namelen - 1);
1722         if (IS_ERR(*dchildp)) {
1723                 rc = PTR_ERR(*dchildp);
1724                 CDEBUG(D_INODE, "child lookup error %d\n", rc);
1725                 GOTO(cleanup, rc);
1726         }
1727
1728         if ((*dchildp)->d_flags & DCACHE_CROSS_REF) {
1729                 /*
1730                  * inode lives on another MDS: return * fid/mdsnum and LOOKUP
1731                  * lock. Drop possible UPDATE lock!
1732                  */
1733                 child_policy.l_inodebits.bits &= ~MDS_INODELOCK_UPDATE;
1734                 child_policy.l_inodebits.bits |= MDS_INODELOCK_LOOKUP;
1735
1736                 child_res_id.name[0] = (*dchildp)->d_fid;
1737                 child_res_id.name[1] = (*dchildp)->d_mdsnum;
1738                 child_ino = (*dchildp)->d_inum;
1739                 child_gen = (*dchildp)->d_generation;
1740                 goto retry_locks;
1741         }
1742
1743         inode = (*dchildp)->d_inode;
1744         if (inode != NULL)
1745                 inode = igrab(inode);
1746         if (inode == NULL)
1747                 goto retry_locks;
1748
1749         down(&inode->i_sem);
1750         rc = mds_read_inode_sid(obd, inode, &sid);
1751         up(&inode->i_sem);
1752         if (rc) {
1753                 CERROR("Can't read inode self id, inode %lu, "
1754                        "rc %d\n", inode->i_ino, rc);
1755                 iput(inode);
1756                 GOTO(cleanup, rc);
1757         }
1758
1759         child_ino = inode->i_ino;
1760         child_gen = inode->i_generation;
1761         child_res_id.name[0] = id_fid(&sid);
1762         child_res_id.name[1] = id_group(&sid);
1763         iput(inode);
1764
1765 retry_locks:
1766         cleanup_phase = 2; /* child dentry */
1767
1768         /* Step 3: Lock parent and child in resource order.  If child doesn't
1769          * exist, we still have to lock the parent and re-lookup. */
1770         rc = enqueue_ordered_locks(obd, &parent_res_id, parent_lockh, parent_mode,
1771                                    &parent_policy, &child_res_id, child_lockh,
1772                                    child_mode, &child_policy);
1773         if (rc)
1774                 GOTO(cleanup, rc);
1775
1776         if ((*dchildp)->d_inode || ((*dchildp)->d_flags & DCACHE_CROSS_REF))
1777                 cleanup_phase = 4; /* child lock */
1778         else
1779                 cleanup_phase = 3; /* parent lock */
1780
1781         /* Step 4: Re-lookup child to verify it hasn't changed since locking */
1782         rc = mds_verify_child(obd, &parent_res_id, parent_lockh, *dparentp,
1783                               parent_mode, &child_res_id, child_lockh,
1784                               dchildp, child_mode, &child_policy,
1785                               name, namelen, &parent_res_id, child_ino,
1786                               child_gen);
1787         if (rc > 0)
1788                 goto retry_locks;
1789         if (rc < 0) {
1790                 cleanup_phase = 3;
1791                 GOTO(cleanup, rc);
1792         }
1793
1794         EXIT;
1795 cleanup:
1796         if (rc) {
1797                 switch (cleanup_phase) {
1798                 case 4:
1799                         ldlm_lock_decref(child_lockh, child_mode);
1800                 case 3:
1801                         ldlm_lock_decref(parent_lockh, parent_mode);
1802                 case 2:
1803                         l_dput(*dchildp);
1804                 case 1:
1805 #ifdef S_PDIROPS
1806                         if (parent_lockh[1].cookie)
1807                                 ldlm_lock_decref(parent_lockh + 1, *update_mode);
1808 #endif
1809                         l_dput(*dparentp);
1810                 }
1811         }
1812         return rc;
1813 }
1814
1815 void mds_reconstruct_generic(struct ptlrpc_request *req)
1816 {
1817         struct mds_export_data *med = &req->rq_export->exp_mds_data;
1818         mds_req_from_mcd(req, med->med_mcd);
1819 }
1820
1821 /* If we are unlinking an open file/dir (i.e. creating an orphan) then we
1822  * instead link the inode into the PENDING directory until it is finally
1823  * released. We can't simply call mds_reint_rename() or some part thereof,
1824  * because we don't have the inode to check for link count/open status until
1825  * after it is locked.
1826  *
1827  * For lock ordering, caller must get child->i_sem first, then pending->i_sem
1828  * before starting journal transaction.
1829  *
1830  * returns 1 on success
1831  * returns 0 if we lost a race and didn't make a new link
1832  * returns negative on error
1833  */
1834 static int mds_orphan_add_link(struct mds_update_record *rec,
1835                                struct obd_device *obd, struct dentry *dentry)
1836 {
1837         struct mds_obd *mds = &obd->u.mds;
1838         struct inode *pending_dir = mds->mds_pending_dir->d_inode;
1839         struct inode *inode = dentry->d_inode;
1840         struct dentry *pending_child;
1841         char idname[LL_ID_NAMELEN];
1842         int idlen = 0, rc, mode;
1843         ENTRY;
1844
1845         LASSERT(inode != NULL);
1846         LASSERT(!mds_inode_is_orphan(inode));
1847 #ifndef HAVE_I_ALLOC_SEM
1848         LASSERT(down_trylock(&inode->i_sem) != 0);
1849 #endif
1850         LASSERT(down_trylock(&pending_dir->i_sem) != 0);
1851
1852         idlen = ll_id2str(idname, inode->i_ino, inode->i_generation);
1853
1854         CDEBUG(D_INODE, "pending destroy of %dx open %d linked %s %s = %s\n",
1855                mds_orphan_open_count(inode), inode->i_nlink,
1856                S_ISDIR(inode->i_mode) ? "dir" :
1857                S_ISREG(inode->i_mode) ? "file" : "other",
1858                rec->ur_name, idname);
1859
1860         if (mds_orphan_open_count(inode) == 0 || inode->i_nlink != 0)
1861                 RETURN(0);
1862
1863         pending_child = lookup_one_len(idname, mds->mds_pending_dir, idlen);
1864         if (IS_ERR(pending_child))
1865                 RETURN(PTR_ERR(pending_child));
1866
1867         if (pending_child->d_inode != NULL) {
1868                 CERROR("re-destroying orphan file %s?\n", rec->ur_name);
1869                 LASSERT(pending_child->d_inode == inode);
1870                 GOTO(out_dput, rc = 0);
1871         }
1872
1873         /*
1874          * link() is semanticaly-wrong for S_IFDIR, so we set S_IFREG for
1875          * linking and return real mode back then -bzzz
1876          */
1877         mode = inode->i_mode;
1878         inode->i_mode = S_IFREG;
1879         rc = vfs_link(dentry, pending_dir, pending_child);
1880         if (rc)
1881                 CERROR("error linking orphan %s to PENDING: rc = %d\n",
1882                        rec->ur_name, rc);
1883         else
1884                 mds_inode_set_orphan(inode);
1885
1886         /* return mode and correct i_nlink if inode is directory */
1887         inode->i_mode = mode;
1888         LASSERTF(inode->i_nlink == 1, "%s nlink == %d\n",
1889                  S_ISDIR(mode) ? "dir" : S_ISREG(mode) ? "file" : "other",
1890                  inode->i_nlink);
1891         if (S_ISDIR(mode)) {
1892                 i_nlink_inc(inode);
1893                 i_nlink_inc(pending_dir);
1894                 mark_inode_dirty(inode);
1895                 mark_inode_dirty(pending_dir);
1896         }
1897
1898         GOTO(out_dput, rc = 1);
1899 out_dput:
1900         l_dput(pending_child);
1901         return rc;
1902 }
1903
1904 int mds_create_local_dentry(struct mds_update_record *rec,
1905                             struct obd_device *obd)
1906 {
1907         struct mds_obd *mds = &obd->u.mds;
1908         struct inode *id_dir = mds->mds_id_dir->d_inode;
1909         int idlen = 0, rc, cleanup_phase = 0;
1910         struct dentry *new_child = NULL;
1911         char *idname = rec->ur_name;
1912         struct dentry *child = NULL;
1913         struct lustre_handle lockh[2] = {{0}, {0}};
1914         struct lustre_id sid;
1915         void *handle;
1916         ENTRY;
1917
1918         down(&id_dir->i_sem);
1919         idlen = ll_id2str(idname, id_ino(rec->ur_id1),
1920                           id_gen(rec->ur_id1));
1921
1922         CDEBUG(D_OTHER, "look for local dentry '%s' for "DLID4"\n",
1923                idname, OLID4(rec->ur_id1));
1924
1925         new_child = ll_lookup_one_len(idname, mds->mds_id_dir,
1926                                       idlen);
1927         up(&id_dir->i_sem);
1928         if (IS_ERR(new_child)) {
1929                 CERROR("can't lookup %s: %d\n", idname,
1930                        (int) PTR_ERR(new_child));
1931                 GOTO(cleanup, rc = PTR_ERR(new_child));
1932         }
1933         cleanup_phase = 1;
1934
1935         down(&id_dir->i_sem);
1936         rc = mds_read_inode_sid(obd, id_dir, &sid);
1937         up(&id_dir->i_sem);
1938         if (rc) {
1939                 CERROR("Can't read inode self id, inode %lu, "
1940                        "rc %d\n", id_dir->i_ino, rc);
1941                 GOTO(cleanup, rc);
1942         }
1943
1944         if (new_child->d_inode != NULL) {
1945                 /* nice. we've already have local dentry! */
1946                 CDEBUG(D_OTHER, "found dentry in FIDS/: %u/%u\n",
1947                        (unsigned)new_child->d_inode->i_ino,
1948                        (unsigned)new_child->d_inode->i_generation);
1949
1950                 id_ino(rec->ur_id1) = id_dir->i_ino;
1951                 id_gen(rec->ur_id1) = id_dir->i_generation;
1952                 rec->ur_namelen = idlen + 1;
1953
1954                 id_fid(rec->ur_id1) = id_fid(&sid);
1955                 id_group(rec->ur_id1) = id_group(&sid);
1956
1957                 GOTO(cleanup, rc = 0);
1958         }
1959
1960         /* new, local dentry will be added soon. we need no aliases here */
1961         d_drop(new_child);
1962
1963         if (rec->ur_mode & MDS_MODE_DONT_LOCK) {
1964                 child = mds_id2dentry(obd, rec->ur_id1, NULL);
1965         } else {
1966                 child = mds_id2locked_dentry(obd, rec->ur_id1, NULL,
1967                                              LCK_EX, lockh, NULL, NULL, 0,
1968                                              MDS_INODELOCK_UPDATE);
1969         }
1970
1971         if (IS_ERR(child)) {
1972                 rc = PTR_ERR(child);
1973                 if (rc != -ENOENT || !(rec->ur_mode & MDS_MODE_REPLAY))
1974                         CERROR("can't get victim: %d\n", rc);
1975                 GOTO(cleanup, rc);
1976         }
1977         cleanup_phase = 2;
1978
1979         handle = fsfilt_start(obd, id_dir, FSFILT_OP_LINK, NULL);
1980         if (IS_ERR(handle))
1981                 GOTO(cleanup, rc = PTR_ERR(handle));
1982
1983         rc = fsfilt_add_dir_entry(obd, mds->mds_id_dir, idname,
1984                                   idlen, id_ino(rec->ur_id1),
1985                                   id_gen(rec->ur_id1), mds->mds_num,
1986                                   id_fid(rec->ur_id1));
1987         if (rc)
1988                 CERROR("error linking orphan %lu/%lu to FIDS: rc = %d\n",
1989                        (unsigned long)child->d_inode->i_ino,
1990                        (unsigned long)child->d_inode->i_generation, rc);
1991         else {
1992                 if (S_ISDIR(child->d_inode->i_mode)) {
1993                         i_nlink_inc(id_dir);
1994                         mark_inode_dirty(id_dir);
1995                 }
1996                 mark_inode_dirty(child->d_inode);
1997         }
1998         fsfilt_commit(obd, mds->mds_sb, id_dir, handle, 0);
1999
2000         id_ino(rec->ur_id1) = id_dir->i_ino;
2001         id_gen(rec->ur_id1) = id_dir->i_generation;
2002         rec->ur_namelen = idlen + 1;
2003
2004         id_fid(rec->ur_id1) = id_fid(&sid);
2005         id_group(rec->ur_id1) = id_group(&sid);
2006
2007         EXIT;
2008 cleanup:
2009         switch(cleanup_phase) {
2010                 case 2:
2011                         if (!(rec->ur_mode & MDS_MODE_DONT_LOCK))
2012                                 ldlm_lock_decref(lockh, LCK_EX);
2013                         dput(child);
2014                 case 1:
2015                         dput(new_child);
2016                 case 0:
2017                        break;
2018         }
2019         return rc;
2020 }
2021
2022 static int mds_copy_unlink_reply(struct ptlrpc_request *master,
2023                                  struct ptlrpc_request *slave)
2024 {
2025         void *cookie, *cookie2;
2026         struct mds_body *body2;
2027         struct mds_body *body;
2028         void *ea, *ea2;
2029         ENTRY;
2030
2031         body = lustre_msg_buf(slave->rq_repmsg, 0, sizeof(*body));
2032         LASSERT(body != NULL);
2033
2034         body2 = lustre_msg_buf(master->rq_repmsg, 0, sizeof (*body));
2035         LASSERT(body2 != NULL);
2036
2037         if (!(body->valid & (OBD_MD_FLID | OBD_MD_FLGENER)))
2038                 RETURN(0);
2039
2040         memcpy(body2, body, sizeof(*body));
2041         body2->valid &= ~OBD_MD_FLCOOKIE;
2042
2043         if (!(body->valid & OBD_MD_FLEASIZE) &&
2044             !(body->valid & OBD_MD_FLDIREA))
2045                 RETURN(0);
2046
2047         if (body->eadatasize == 0) {
2048                 CERROR("OBD_MD_FLEASIZE set but eadatasize zero\n");
2049                 RETURN(0);
2050         }
2051
2052         LASSERT(master->rq_repmsg->buflens[1] >= body->eadatasize);
2053
2054         ea = lustre_msg_buf(slave->rq_repmsg, 1, body->eadatasize);
2055         LASSERT(ea != NULL);
2056
2057         ea2 = lustre_msg_buf(master->rq_repmsg, 1, body->eadatasize);
2058         LASSERT(ea2 != NULL);
2059
2060         memcpy(ea2, ea, body->eadatasize);
2061
2062         if (body->valid & OBD_MD_FLCOOKIE) {
2063                 LASSERT(master->rq_repmsg->buflens[2] >=
2064                                 slave->rq_repmsg->buflens[2]);
2065                 cookie = lustre_msg_buf(slave->rq_repmsg, 2,
2066                                 slave->rq_repmsg->buflens[2]);
2067                 LASSERT(cookie != NULL);
2068
2069                 cookie2 = lustre_msg_buf(master->rq_repmsg, 2,
2070                                 master->rq_repmsg->buflens[2]);
2071                 LASSERT(cookie2 != NULL);
2072                 memcpy(cookie2, cookie, slave->rq_repmsg->buflens[2]);
2073                 body2->valid |= OBD_MD_FLCOOKIE;
2074         }
2075         RETURN(0);
2076 }
2077
2078 static int mds_reint_unlink_remote(struct mds_update_record *rec,
2079                                    int offset, struct ptlrpc_request *req,
2080                                    struct lustre_handle *parent_lockh,
2081                                    int update_mode, struct dentry *dparent,
2082                                    struct lustre_handle *child_lockh,
2083                                    struct dentry *dchild)
2084 {
2085         struct obd_device *obd = req->rq_export->exp_obd;
2086         struct mds_obd *mds = mds_req2mds(req);
2087         struct ptlrpc_request *request = NULL;
2088         int rc = 0, cleanup_phase = 0;
2089         struct mdc_op_data *op_data;
2090         void *handle;
2091         ENTRY;
2092
2093         LASSERT(offset == 1 || offset == 3);
2094
2095         /* time to drop i_nlink on remote MDS */
2096         OBD_ALLOC(op_data, sizeof(*op_data));
2097         if (op_data == NULL)
2098                 RETURN(-ENOMEM);
2099
2100         memset(op_data, 0, sizeof(*op_data));
2101         mds_pack_dentry2id(obd, &op_data->id1, dchild, 1);
2102         op_data->create_mode = rec->ur_mode;
2103
2104         DEBUG_REQ(D_INODE, req, "unlink %*s (remote inode "DLID4")",
2105                   rec->ur_namelen - 1, rec->ur_name, OLID4(&op_data->id1));
2106
2107         if (lustre_msg_get_flags(req->rq_reqmsg) & MSG_REPLAY) {
2108                 DEBUG_REQ(D_HA, req, "unlink %*s (remote inode "DLID4")",
2109                           rec->ur_namelen - 1, rec->ur_name, OLID4(&op_data->id1));
2110         }
2111
2112         if (lustre_msg_get_flags(req->rq_reqmsg) & MSG_REPLAY)
2113                 op_data->create_mode |= MDS_MODE_REPLAY;
2114
2115         rc = md_unlink(mds->mds_md_exp, op_data, &request);
2116         OBD_FREE(op_data, sizeof(*op_data));
2117         cleanup_phase = 2;
2118
2119         if (request) {
2120                 if (rc == 0)
2121                         mds_copy_unlink_reply(req, request);
2122                 ptlrpc_req_finished(request);
2123         }
2124
2125         if (rc == 0) {
2126                 handle = fsfilt_start(obd, dparent->d_inode, FSFILT_OP_RMDIR,
2127                                       NULL);
2128                 if (IS_ERR(handle))
2129                         GOTO(cleanup, rc = PTR_ERR(handle));
2130                 rc = fsfilt_del_dir_entry(req->rq_export->exp_obd, dchild);
2131                 rc = mds_finish_transno(mds, dparent->d_inode, handle, req,
2132                                         rc, 0);
2133         }
2134         EXIT;
2135 cleanup:
2136         req->rq_status = rc;
2137
2138 #ifdef S_PDIROPS
2139         if (parent_lockh[1].cookie != 0)
2140                 ldlm_lock_decref(parent_lockh + 1, update_mode);
2141 #endif
2142         ldlm_lock_decref(child_lockh, LCK_EX);
2143         if (rc)
2144                 ldlm_lock_decref(parent_lockh, LCK_PW);
2145         else
2146                 ptlrpc_save_lock(req, parent_lockh, LCK_PW);
2147         l_dput(dchild);
2148         l_dput(dparent);
2149
2150         return 0;
2151 }
2152
2153 static int mds_reint_unlink(struct mds_update_record *rec, int offset,
2154                             struct ptlrpc_request *req, struct lustre_handle *lh)
2155 {
2156         struct dentry *dparent = NULL, *dchild;
2157         struct mds_obd *mds = mds_req2mds(req);
2158         struct obd_device *obd = req->rq_export->exp_obd;
2159         struct mds_body *body = NULL;
2160         struct inode *child_inode = NULL;
2161         struct lustre_handle parent_lockh[2] = {{0}, {0}};
2162         struct lustre_handle child_lockh = {0};
2163         struct lustre_handle child_reuse_lockh = {0};
2164         struct lustre_handle *slave_lockh = NULL;
2165         char idname[LL_ID_NAMELEN];
2166         struct llog_create_locks *lcl = NULL;
2167         void *handle = NULL;
2168         int rc = 0, cleanup_phase = 0;
2169         int unlink_by_id = 0;
2170         int update_mode;
2171         ENTRY;
2172
2173         LASSERT(offset == 1 || offset == 3);
2174
2175         DEBUG_REQ(D_INODE, req, "parent ino "LPU64"/%u, child %s",
2176                   id_ino(rec->ur_id1), id_gen(rec->ur_id1),
2177                   rec->ur_name);
2178
2179         MDS_CHECK_RESENT(req, mds_reconstruct_generic(req));
2180
2181         if (lustre_msg_get_flags(req->rq_reqmsg) & MSG_REPLAY) {
2182                 DEBUG_REQ(D_HA, req, "unlink replay");
2183                 LASSERT(offset == 1); /* should not come from intent */
2184                 memcpy(lustre_msg_buf(req->rq_repmsg, 2, 0),
2185                        lustre_msg_buf(req->rq_reqmsg, offset + 2, 0),
2186                        req->rq_repmsg->buflens[2]);
2187         }
2188
2189         MD_COUNTER_INCREMENT(obd, unlink);
2190
2191         if (OBD_FAIL_CHECK(OBD_FAIL_MDS_REINT_UNLINK))
2192                 GOTO(cleanup, rc = -ENOENT);
2193
2194         if (rec->ur_namelen == 1) {
2195                 /* this is request to drop i_nlink on local inode */
2196                 unlink_by_id = 1;
2197                 rec->ur_name = idname;
2198                 rc = mds_create_local_dentry(rec, obd);
2199                 if (rc == -ENOENT || (rec->ur_mode & MDS_MODE_REPLAY)) {
2200                         DEBUG_REQ(D_HA, req,
2201                                   "drop nlink on inode "DLID4" (replay)",
2202                                   OLID4(rec->ur_id1));
2203                         req->rq_status = 0;
2204                         RETURN(0);
2205                 }
2206         }
2207
2208         if (rec->ur_mode & MDS_MODE_DONT_LOCK) {
2209                 /* master mds for directory asks slave removing inode is already
2210                  * locked */
2211                 dparent = mds_id2locked_dentry(obd, rec->ur_id1, NULL,
2212                                                LCK_PW, parent_lockh,
2213                                                &update_mode, rec->ur_name,
2214                                                rec->ur_namelen,
2215                                                MDS_INODELOCK_UPDATE);
2216                 if (IS_ERR(dparent))
2217                         GOTO(cleanup, rc = PTR_ERR(dparent));
2218                 dchild = ll_lookup_one_len(rec->ur_name, dparent,
2219                                            rec->ur_namelen - 1);
2220                 if (IS_ERR(dchild))
2221                         GOTO(cleanup, rc = PTR_ERR(dchild));
2222                 child_lockh.cookie = 0;
2223                 LASSERT(!(dchild->d_flags & DCACHE_CROSS_REF));
2224                 LASSERT(dchild->d_inode != NULL);
2225                 LASSERT(S_ISDIR(dchild->d_inode->i_mode));
2226         } else {
2227                 rc = mds_get_parent_child_locked(obd, mds, rec->ur_id1,
2228                                                  parent_lockh, &dparent,
2229                                                  LCK_PW, MDS_INODELOCK_UPDATE,
2230                                                  &update_mode, rec->ur_name,
2231                                                  rec->ur_namelen, &child_lockh,
2232                                                  &dchild, LCK_EX,
2233                                                  (MDS_INODELOCK_LOOKUP |
2234                                                   MDS_INODELOCK_UPDATE));
2235         }
2236         if (rc)
2237                 GOTO(cleanup, rc);
2238
2239         if (dchild->d_flags & DCACHE_CROSS_REF) {
2240                 /* we should have parent lock only here */
2241                 LASSERT(unlink_by_id == 0);
2242                 LASSERT(dchild->d_mdsnum != mds->mds_num);
2243                 mds_reint_unlink_remote(rec, offset, req, parent_lockh,
2244                                         update_mode, dparent, &child_lockh, dchild);
2245                 RETURN(0);
2246         }
2247
2248         cleanup_phase = 1; /* dchild, dparent, locks */
2249
2250         dget(dchild);
2251         child_inode = dchild->d_inode;
2252         if (child_inode == NULL) {
2253                 CDEBUG(D_INODE, "child doesn't exist (dir %lu, name %s)\n",
2254                        dparent ? dparent->d_inode->i_ino : 0, rec->ur_name);
2255                 GOTO(cleanup, rc = -ENOENT);
2256         }
2257
2258         cleanup_phase = 2; /* dchild has a lock */
2259
2260         /* We have to do these checks ourselves, in case we are making an
2261          * orphan.  The client tells us whether rmdir() or unlink() was called,
2262          * so we need to return appropriate errors (bug 72).
2263          *
2264          * We don't have to check permissions, because vfs_rename (called from
2265          * mds_open_unlink_rename) also calls may_delete. */
2266         if ((rec->ur_mode & S_IFMT) == S_IFDIR) {
2267                 if (!S_ISDIR(child_inode->i_mode))
2268                         GOTO(cleanup, rc = -ENOTDIR);
2269         } else {
2270                 if (S_ISDIR(child_inode->i_mode))
2271                         GOTO(cleanup, rc = -EISDIR);
2272         }
2273
2274         /* handle splitted dir */
2275         rc = mds_lock_slave_objs(obd, dchild, &slave_lockh);
2276         if (rc)
2277                 GOTO(cleanup, rc);
2278
2279         /* Step 4: Get a lock on the ino to sync with creation WRT inode
2280          * reuse (see bug 2029). */
2281         rc = mds_lock_new_child(obd, child_inode, &child_reuse_lockh);
2282         if (rc != ELDLM_OK)
2283                 GOTO(cleanup, rc);
2284         cleanup_phase = 3; /* child inum lock */
2285
2286         OBD_FAIL_WRITE(OBD_FAIL_MDS_REINT_UNLINK_WRITE, dparent->d_inode->i_sb);
2287
2288         /* ldlm_reply in buf[0] if called via intent */
2289         if (offset == 3)
2290                 offset = 1;
2291         else
2292                 offset = 0;
2293
2294         body = lustre_msg_buf(req->rq_repmsg, offset, sizeof (*body));
2295         LASSERT(body != NULL);
2296
2297         /* child i_alloc_sem protects orphan_dec_test && is_orphan race */
2298         DOWN_READ_I_ALLOC_SEM(child_inode);
2299         cleanup_phase = 4; /* up(&child_inode->i_sem) when finished */
2300
2301         /* If this is potentially the last reference to this inode, get the
2302          * OBD EA data first so the client can destroy OST objects.  We
2303          * only do the object removal later if no open files/links remain. */
2304         if ((S_ISDIR(child_inode->i_mode) && child_inode->i_nlink == 2) ||
2305             child_inode->i_nlink == 1) {
2306                 if (mds_orphan_open_count(child_inode) > 0) {
2307                         /* need to lock pending_dir before transaction */
2308                         down(&mds->mds_pending_dir->d_inode->i_sem);
2309                         cleanup_phase = 5; /* up(&pending_dir->i_sem) */
2310                 } else if (S_ISREG(child_inode->i_mode)) {
2311                         mds_pack_inode2body(obd, body, child_inode, 0);
2312                         mds_pack_md(obd, req->rq_repmsg, offset + 1,
2313                                     body, child_inode, MDS_PACK_MD_LOCK, 0);
2314                 }
2315         }
2316
2317         /* Step 4: Do the unlink: we already verified ur_mode above (bug 72) */
2318         switch (child_inode->i_mode & S_IFMT) {
2319         case S_IFDIR:
2320                 /* Drop any lingering child directories before we start our
2321                  * transaction, to avoid doing multiple inode dirty/delete
2322                  * in our compound transaction (bug 1321). */
2323                 shrink_dcache_parent(dchild);
2324                 handle = fsfilt_start(obd, dparent->d_inode, FSFILT_OP_RMDIR,
2325                                       NULL);
2326                 if (IS_ERR(handle))
2327                         GOTO(cleanup, rc = PTR_ERR(handle));
2328                 rc = vfs_rmdir(dparent->d_inode, dchild);
2329                 break;
2330         case S_IFREG: {
2331 #warning "optimization is possible here: we could drop nlink w/o removing local dentry in FIDS/"
2332                 struct lov_mds_md *lmm = lustre_msg_buf(req->rq_repmsg,
2333                                                         offset + 1, 0);
2334                 handle = fsfilt_start_log(obd, dparent->d_inode,
2335                                           FSFILT_OP_UNLINK, NULL,
2336                                           le32_to_cpu(lmm->lmm_stripe_count));
2337                 if (IS_ERR(handle))
2338                         GOTO(cleanup, rc = PTR_ERR(handle));
2339                 rc = vfs_unlink(dparent->d_inode, dchild);
2340                 break;
2341         }
2342         case S_IFLNK:
2343         case S_IFCHR:
2344         case S_IFBLK:
2345         case S_IFIFO:
2346         case S_IFSOCK:
2347                 handle = fsfilt_start(obd, dparent->d_inode, FSFILT_OP_UNLINK,
2348                                       NULL);
2349                 if (IS_ERR(handle))
2350                         GOTO(cleanup, rc = PTR_ERR(handle));
2351                 rc = vfs_unlink(dparent->d_inode, dchild);
2352                 break;
2353         default:
2354                 CERROR("bad file type %o unlinking %s\n", rec->ur_mode,
2355                        rec->ur_name);
2356                 LBUG();
2357                 GOTO(cleanup, rc = -EINVAL);
2358         }
2359
2360         if (rc == 0 && child_inode->i_nlink == 0) {
2361                 if (mds_orphan_open_count(child_inode) > 0)
2362                         rc = mds_orphan_add_link(rec, obd, dchild);
2363
2364                 if (rc == 1)
2365                         GOTO(cleanup, rc = 0);
2366
2367                 if (!S_ISREG(child_inode->i_mode))
2368                         GOTO(cleanup, rc);
2369
2370                 if (!(body->valid & OBD_MD_FLEASIZE)) {
2371                         body->valid |= (OBD_MD_FLSIZE | OBD_MD_FLBLOCKS |
2372                                         OBD_MD_FLATIME | OBD_MD_FLMTIME);
2373                 } else if (mds_log_op_unlink(obd, child_inode,
2374                                              lustre_msg_buf(req->rq_repmsg, offset + 1, 0),
2375                                              req->rq_repmsg->buflens[offset + 1],
2376                                              lustre_msg_buf(req->rq_repmsg, offset + 2, 0),
2377                                              req->rq_repmsg->buflens[offset + 2],
2378                                              &lcl) > 0){
2379                         body->valid |= OBD_MD_FLCOOKIE;
2380                 }
2381
2382                 rc = mds_destroy_object(obd, child_inode, 1);
2383                 if (rc) {
2384                         CERROR("can't remove OST object, err %d\n",
2385                                rc);
2386                 }
2387
2388                 if (child_inode->i_nlink == 0)
2389                         mds_fidmap_del(obd, &body->id1);
2390         }
2391
2392         GOTO(cleanup, rc);
2393
2394 cleanup:
2395         if (rc == 0) {
2396                 struct iattr iattr;
2397                 int err;
2398
2399                 iattr.ia_valid = ATTR_MTIME | ATTR_CTIME;
2400                 LTIME_S(iattr.ia_mtime) = rec->ur_time;
2401                 LTIME_S(iattr.ia_ctime) = rec->ur_time;
2402
2403                 err = fsfilt_setattr(obd, dparent, handle, &iattr, 0);
2404                 if (err)
2405                         CERROR("error on parent setattr: rc = %d\n", err);
2406         }
2407         rc = mds_finish_transno(mds, dparent ? dparent->d_inode : NULL,
2408                                 handle, req, rc, 0);
2409         if (!rc)
2410                 (void)obd_set_info(mds->mds_dt_exp, strlen("unlinked"),
2411                                    "unlinked", 0, NULL);
2412         switch(cleanup_phase) {
2413         case 5: /* pending_dir semaphore */
2414                 up(&mds->mds_pending_dir->d_inode->i_sem);
2415         case 4: /* child inode semaphore */
2416                 UP_READ_I_ALLOC_SEM(child_inode);
2417                  /* handle splitted dir */
2418                 if (rc == 0) {
2419                         /* master directory can be non-empty or something else ... */
2420                         mds_unlink_slave_objs(obd, dchild);
2421                 }
2422                 if (lcl != NULL)
2423                         ptlrpc_save_llog_lock(req, lcl);
2424         case 3: /* child ino-reuse lock */
2425                 if (rc && body != NULL) {
2426                         // Don't unlink the OST objects if the MDS unlink failed
2427                         body->valid = 0;
2428                 }
2429                 if (rc)
2430                         ldlm_lock_decref(&child_reuse_lockh, LCK_EX);
2431                 else
2432                         ptlrpc_save_lock(req, &child_reuse_lockh, LCK_EX);
2433         case 2: /* child lock */
2434                 mds_unlock_slave_objs(obd, dchild, slave_lockh);
2435                 if (child_lockh.cookie)
2436                         ldlm_lock_decref(&child_lockh, LCK_EX);
2437         case 1: /* child and parent dentry, parent lock */
2438 #ifdef S_PDIROPS
2439                 if (parent_lockh[1].cookie != 0)
2440                         ldlm_lock_decref(parent_lockh + 1, update_mode);
2441 #endif
2442                 if (rc)
2443                         ldlm_lock_decref(parent_lockh, LCK_PW);
2444                 else
2445                         ptlrpc_save_lock(req, parent_lockh, LCK_PW);
2446                 l_dput(dchild);
2447                 l_dput(dchild);
2448                 l_dput(dparent);
2449         case 0:
2450                 break;
2451         default:
2452                 CERROR("invalid cleanup_phase %d\n", cleanup_phase);
2453                 LBUG();
2454         }
2455         req->rq_status = rc;
2456         return 0;
2457 }
2458
2459 /*
2460  * to service requests from remote MDS to increment i_nlink
2461  */
2462 static int mds_reint_link_acquire(struct mds_update_record *rec,
2463                                   int offset, struct ptlrpc_request *req,
2464                                   struct lustre_handle *lh)
2465 {
2466         struct obd_device *obd = req->rq_export->exp_obd;
2467         struct ldlm_res_id src_res_id = { .name = {0} };
2468         struct lustre_handle *handle = NULL, src_lockh = {0};
2469         struct mds_obd *mds = mds_req2mds(req);
2470         int rc = 0, cleanup_phase = 0;
2471         struct dentry *de_src = NULL;
2472         ldlm_policy_data_t policy;
2473         int flags = LDLM_FL_ATOMIC_CB;
2474         ENTRY;
2475
2476         DEBUG_REQ(D_INODE, req, "%s: request to acquire i_nlinks "DLID4"\n",
2477                   obd->obd_name, OLID4(rec->ur_id1));
2478
2479         /* Step 1: Lookup the source inode and target directory by ID */
2480         de_src = mds_id2dentry(obd, rec->ur_id1, NULL);
2481         if (IS_ERR(de_src))
2482                 GOTO(cleanup, rc = PTR_ERR(de_src));
2483         cleanup_phase = 1; /* source dentry */
2484
2485         src_res_id.name[0] = id_fid(rec->ur_id1);
2486         src_res_id.name[1] = id_group(rec->ur_id1);
2487         policy.l_inodebits.bits = MDS_INODELOCK_UPDATE;
2488
2489         rc = ldlm_cli_enqueue(NULL, NULL, obd->obd_namespace,
2490                               src_res_id, LDLM_IBITS, &policy,
2491                               LCK_EX, &flags, mds_blocking_ast,
2492                               ldlm_completion_ast, NULL, NULL,
2493                               NULL, 0, NULL, &src_lockh);
2494         if (rc != ELDLM_OK)
2495                 GOTO(cleanup, rc = -ENOLCK);
2496         cleanup_phase = 2; /* lock */
2497
2498         OBD_FAIL_WRITE(OBD_FAIL_MDS_REINT_LINK_WRITE, de_src->d_inode->i_sb);
2499
2500         handle = fsfilt_start(obd, de_src->d_inode, FSFILT_OP_LINK, NULL);
2501         if (IS_ERR(handle)) {
2502                 rc = PTR_ERR(handle);
2503                 GOTO(cleanup, rc);
2504         }
2505         i_nlink_inc(de_src->d_inode);
2506         mark_inode_dirty(de_src->d_inode);
2507
2508         EXIT;
2509 cleanup:
2510         rc = mds_finish_transno(mds, de_src ? de_src->d_inode : NULL,
2511                                 handle, req, rc, 0);
2512         switch (cleanup_phase) {
2513                 case 2:
2514                         if (rc)
2515                                 ldlm_lock_decref(&src_lockh, LCK_EX);
2516                         else
2517                                 ptlrpc_save_lock(req, &src_lockh, LCK_EX);
2518                 case 1:
2519                         l_dput(de_src);
2520                 case 0:
2521                         break;
2522                 default:
2523                         CERROR("invalid cleanup_phase %d\n", cleanup_phase);
2524                         LBUG();
2525         }
2526         req->rq_status = rc;
2527         return 0;
2528 }
2529
2530 /*
2531  * request to link to foreign inode:
2532  *  - acquire i_nlinks on this inode
2533  *  - add dentry
2534  */
2535 static int mds_reint_link_to_remote(struct mds_update_record *rec,
2536                                     int offset, struct ptlrpc_request *req,
2537                                     struct lustre_handle *lh)
2538 {
2539         struct lustre_handle *handle = NULL, tgt_dir_lockh[2] = {{0}, {0}};
2540         struct obd_device *obd = req->rq_export->exp_obd;
2541         struct dentry *de_tgt_dir = NULL;
2542         struct mds_obd *mds = mds_req2mds(req);
2543         int rc = 0, cleanup_phase = 0;
2544         struct mdc_op_data *op_data;
2545         struct ptlrpc_request *request = NULL;
2546         int update_mode;
2547         ENTRY;
2548
2549         DEBUG_REQ(D_INODE, req, "%s: request to link "DLID4
2550                   ":%*s to foreign inode "DLID4"\n", obd->obd_name,
2551                   OLID4(rec->ur_id2), rec->ur_namelen - 1, rec->ur_name,
2552                   OLID4(rec->ur_id1));
2553
2554         de_tgt_dir = mds_id2locked_dentry(obd, rec->ur_id2, NULL, LCK_EX,
2555                                           tgt_dir_lockh, &update_mode,
2556                                           rec->ur_name, rec->ur_namelen - 1,
2557                                           MDS_INODELOCK_UPDATE);
2558         if (IS_ERR(de_tgt_dir))
2559                 GOTO(cleanup, rc = PTR_ERR(de_tgt_dir));
2560         cleanup_phase = 1;
2561
2562         OBD_ALLOC(op_data, sizeof(*op_data));
2563         if (op_data == NULL)
2564                 GOTO(cleanup, rc = -ENOMEM);
2565
2566         memset(op_data, 0, sizeof(*op_data));
2567         op_data->id1 = *(rec->ur_id1);
2568         rc = md_link(mds->mds_md_exp, op_data, &request);
2569         OBD_FREE(op_data, sizeof(*op_data));
2570
2571         if (request)
2572                 ptlrpc_req_finished(request);
2573         if (rc)
2574                 GOTO(cleanup, rc);
2575
2576         cleanup_phase = 2;
2577
2578         OBD_FAIL_WRITE(OBD_FAIL_MDS_REINT_LINK_WRITE, de_tgt_dir->d_inode->i_sb);
2579
2580         handle = fsfilt_start(obd, de_tgt_dir->d_inode, FSFILT_OP_LINK, NULL);
2581         if (IS_ERR(handle)) {
2582                 rc = PTR_ERR(handle);
2583                 GOTO(cleanup, rc);
2584         }
2585
2586         cleanup_phase = 3;
2587
2588         rc = fsfilt_add_dir_entry(obd, de_tgt_dir, rec->ur_name,
2589                                   rec->ur_namelen - 1, id_ino(rec->ur_id1),
2590                                   id_gen(rec->ur_id1), id_group(rec->ur_id1),
2591                                   id_fid(rec->ur_id1));
2592         EXIT;
2593 cleanup:
2594         rc = mds_finish_transno(mds, de_tgt_dir ? de_tgt_dir->d_inode : NULL,
2595                                 handle, req, rc, 0);
2596
2597         switch (cleanup_phase) {
2598                 case 3:
2599                         if (rc) {
2600                                 OBD_ALLOC(op_data, sizeof(*op_data));
2601                                 if (op_data != NULL) {
2602                                         request = NULL;
2603                                         memset(op_data, 0, sizeof(*op_data));
2604
2605                                         op_data->id1 = *(rec->ur_id1);
2606                                         op_data->create_mode = rec->ur_mode;
2607
2608                                         rc = md_unlink(mds->mds_md_exp, op_data, &request);
2609                                         OBD_FREE(op_data, sizeof(*op_data));
2610                                         if (request)
2611                                                 ptlrpc_req_finished(request);
2612                                         if (rc) {
2613                                                 CERROR("error %d while dropping i_nlink on "
2614                                                        "remote inode\n", rc);
2615                                         }
2616                                 } else {
2617                                         CERROR("rc %d prevented dropping i_nlink on "
2618                                                "remote inode\n", -ENOMEM);
2619                                 }
2620                         }
2621                 case 2:
2622                 case 1:
2623                         if (rc) {
2624                                 ldlm_lock_decref(tgt_dir_lockh, LCK_EX);
2625 #ifdef S_PDIROPS
2626                                 ldlm_lock_decref(tgt_dir_lockh + 1, update_mode);
2627 #endif
2628                         } else {
2629                                 ptlrpc_save_lock(req, tgt_dir_lockh, LCK_EX);
2630 #ifdef S_PDIROPS
2631                                 ptlrpc_save_lock(req, tgt_dir_lockh + 1, update_mode);
2632 #endif
2633                         }
2634                         l_dput(de_tgt_dir);
2635                         break;
2636                 default:
2637                         CERROR("invalid cleanup_phase %d\n", cleanup_phase);
2638                         LBUG();
2639         }
2640         req->rq_status = rc;
2641         return 0;
2642 }
2643
2644 static int mds_reint_link(struct mds_update_record *rec, int offset,
2645                           struct ptlrpc_request *req, struct lustre_handle *lh)
2646 {
2647         struct obd_device *obd = req->rq_export->exp_obd;
2648         struct dentry *de_src = NULL;
2649         struct dentry *de_tgt_dir = NULL;
2650         struct dentry *dchild = NULL;
2651         struct mds_obd *mds = mds_req2mds(req);
2652         struct lustre_handle *handle = NULL;
2653         struct lustre_handle tgt_dir_lockh[2] = {{0}, {0}}, src_lockh = {0};
2654         struct ldlm_res_id src_res_id = { .name = {0} };
2655         struct ldlm_res_id tgt_dir_res_id = { .name = {0} };
2656         ldlm_policy_data_t src_policy ={.l_inodebits = {MDS_INODELOCK_UPDATE}};
2657         ldlm_policy_data_t tgt_dir_policy =
2658                                        {.l_inodebits = {MDS_INODELOCK_UPDATE}};
2659         int rc = 0, cleanup_phase = 0;
2660 #ifdef S_PDIROPS
2661         int update_mode = 0;
2662 #endif
2663         ENTRY;
2664
2665         LASSERT(offset == 1);
2666
2667         DEBUG_REQ(D_INODE, req, "original "LPU64"/%u to "LPU64"/%u %s",
2668                   id_ino(rec->ur_id1), id_gen(rec->ur_id1),
2669                   id_ino(rec->ur_id2), id_gen(rec->ur_id2),
2670                   rec->ur_name);
2671
2672         MDS_CHECK_RESENT(req, mds_reconstruct_generic(req));
2673         MD_COUNTER_INCREMENT(obd, link);
2674
2675         if (OBD_FAIL_CHECK(OBD_FAIL_MDS_REINT_LINK))
2676                 GOTO(cleanup, rc = -ENOENT);
2677
2678         if (id_group(rec->ur_id1) != mds->mds_num) {
2679                 rc = mds_reint_link_to_remote(rec, offset, req, lh);
2680                 RETURN(rc);
2681         }
2682
2683         if (rec->ur_namelen == 1) {
2684                 rc = mds_reint_link_acquire(rec, offset, req, lh);
2685                 RETURN(rc);
2686         }
2687
2688         /* Step 1: Lookup the source inode and target directory by ID */
2689         de_src = mds_id2dentry(obd, rec->ur_id1, NULL);
2690         if (IS_ERR(de_src))
2691                 GOTO(cleanup, rc = PTR_ERR(de_src));
2692
2693         cleanup_phase = 1; /* source dentry */
2694
2695         de_tgt_dir = mds_id2dentry(obd, rec->ur_id2, NULL);
2696         if (IS_ERR(de_tgt_dir)) {
2697                 rc = PTR_ERR(de_tgt_dir);
2698                 de_tgt_dir = NULL;
2699                 GOTO(cleanup, rc);
2700         }
2701
2702         cleanup_phase = 2; /* target directory dentry */
2703
2704         CDEBUG(D_INODE, "linking %*s/%s to inode %lu\n",
2705                de_tgt_dir->d_name.len, de_tgt_dir->d_name.name,
2706                rec->ur_name, de_src->d_inode->i_ino);
2707
2708         /* Step 2: Take the two locks */
2709         src_res_id.name[0] = id_fid(rec->ur_id1);
2710         src_res_id.name[1] = id_group(rec->ur_id1);
2711         tgt_dir_res_id.name[0] = id_fid(rec->ur_id2);
2712         tgt_dir_res_id.name[1] = id_group(rec->ur_id2);
2713
2714 #ifdef S_PDIROPS
2715         if (IS_PDIROPS(de_tgt_dir->d_inode)) {
2716                 int flags = LDLM_FL_ATOMIC_CB;
2717                 update_mode = mds_lock_mode_for_dir(obd, de_tgt_dir, LCK_EX);
2718                 if (update_mode) {
2719                         rc = ldlm_cli_enqueue(NULL, NULL, obd->obd_namespace,
2720                                               tgt_dir_res_id, LDLM_IBITS,
2721                                               &src_policy, update_mode, &flags,
2722                                               mds_blocking_ast,
2723                                               ldlm_completion_ast, NULL, NULL,
2724                                               NULL, 0, NULL, tgt_dir_lockh + 1);
2725                         if (rc != ELDLM_OK)
2726                                 GOTO(cleanup, rc = -ENOLCK);
2727                 }
2728
2729                 tgt_dir_res_id.name[2] = full_name_hash((unsigned char *)rec->ur_name,
2730                                                         rec->ur_namelen - 1);
2731                 CDEBUG(D_INFO, "take lock on %lu:%lu:"LPX64"\n",
2732                        (unsigned long)id_fid(rec->ur_id2),
2733                        (unsigned long)id_group(rec->ur_id2),
2734                        tgt_dir_res_id.name[2]);
2735         }
2736 #endif
2737         rc = enqueue_ordered_locks(obd, &src_res_id, &src_lockh, LCK_EX,
2738                                    &src_policy, &tgt_dir_res_id, tgt_dir_lockh,
2739                                    LCK_EX, &tgt_dir_policy);
2740         if (rc)
2741                 GOTO(cleanup, rc);
2742
2743         cleanup_phase = 3; /* locks */
2744
2745         /* Step 3: Lookup the child */
2746         dchild = ll_lookup_one_len(rec->ur_name, de_tgt_dir,
2747                                    rec->ur_namelen - 1);
2748         if (IS_ERR(dchild)) {
2749                 rc = PTR_ERR(dchild);
2750                 if (rc != -EPERM && rc != -EACCES)
2751                         CERROR("child lookup error %d\n", rc);
2752                 GOTO(cleanup, rc);
2753         }
2754
2755         cleanup_phase = 4; /* child dentry */
2756
2757         if (dchild->d_inode) {
2758                 CDEBUG(D_INODE, "child exists (dir %lu, name %s)\n",
2759                        de_tgt_dir->d_inode->i_ino, rec->ur_name);
2760                 rc = -EEXIST;
2761                 GOTO(cleanup, rc);
2762         }
2763
2764         /* Step 4: Do it. */
2765         OBD_FAIL_WRITE(OBD_FAIL_MDS_REINT_LINK_WRITE, de_src->d_inode->i_sb);
2766
2767         handle = fsfilt_start(obd, de_tgt_dir->d_inode, FSFILT_OP_LINK, NULL);
2768         if (IS_ERR(handle)) {
2769                 rc = PTR_ERR(handle);
2770                 GOTO(cleanup, rc);
2771         }
2772
2773         rc = vfs_link(de_src, de_tgt_dir->d_inode, dchild);
2774         if (rc && rc != -EPERM && rc != -EACCES)
2775                 CERROR("vfs_link error %d\n", rc);
2776 cleanup:
2777         rc = mds_finish_transno(mds, de_tgt_dir ? de_tgt_dir->d_inode : NULL,
2778                                 handle, req, rc, 0);
2779         EXIT;
2780
2781         switch (cleanup_phase) {
2782         case 4: /* child dentry */
2783                 l_dput(dchild);
2784         case 3: /* locks */
2785                 if (rc) {
2786                         ldlm_lock_decref(&src_lockh, LCK_EX);
2787                         ldlm_lock_decref(tgt_dir_lockh, LCK_EX);
2788                 } else {
2789                         ptlrpc_save_lock(req, &src_lockh, LCK_EX);
2790                         ptlrpc_save_lock(req, tgt_dir_lockh, LCK_EX);
2791                 }
2792         case 2: /* target dentry */
2793 #ifdef S_PDIROPS
2794                 if (tgt_dir_lockh[1].cookie && update_mode)
2795                         ldlm_lock_decref(tgt_dir_lockh + 1, update_mode);
2796 #endif
2797                 if (de_tgt_dir)
2798                         l_dput(de_tgt_dir);
2799         case 1: /* source dentry */
2800                 l_dput(de_src);
2801         case 0:
2802                 break;
2803         default:
2804                 CERROR("invalid cleanup_phase %d\n", cleanup_phase);
2805                 LBUG();
2806         }
2807         req->rq_status = rc;
2808         return 0;
2809 }
2810
2811 /* The idea here is that we need to get four locks in the end:
2812  * one on each parent directory, one on each child.  We need to take
2813  * these locks in some kind of order (to avoid deadlocks), and the order
2814  * I selected is "increasing resource number" order.  We need to look up
2815  * the children, however, before we know what the resource number(s) are.
2816  * Thus the following plan:
2817  *
2818  * 1,2. Look up the parents
2819  * 3,4. Look up the children
2820  * 5. Take locks on the parents and children, in order
2821  * 6. Verify that the children haven't changed since they were looked up
2822  *
2823  * If there was a race and the children changed since they were first looked
2824  * up, it is possible that mds_verify_child() will be able to just grab the
2825  * lock on the new child resource (if it has a higher resource than any other)
2826  * but we need to compare against not only its parent, but also against the
2827  * parent and child of the "other half" of the rename, hence maxres_{src,tgt}.
2828  *
2829  * We need the fancy igrab() on the child inodes because we aren't holding a
2830  * lock on the parent after the lookup is done, so dentry->d_inode may change
2831  * at any time, and igrab() itself doesn't like getting passed a NULL argument.
2832  */
2833 static int mds_get_parents_children_locked(struct obd_device *obd,
2834                                            struct mds_obd *mds,
2835                                            struct lustre_id *p1_id,
2836                                            struct dentry **de_srcdirp,
2837                                            struct lustre_id *p2_id,
2838                                            struct dentry **de_tgtdirp,
2839                                            int parent_mode,
2840                                            const char *old_name, int old_len,
2841                                            struct dentry **de_oldp,
2842                                            const char *new_name, int new_len,
2843                                            struct dentry **de_newp,
2844                                            struct lustre_handle *dlm_handles,
2845                                            int child_mode)
2846 {
2847         struct ldlm_res_id p1_res_id = { .name = {0} };
2848         struct ldlm_res_id p2_res_id = { .name = {0} };
2849         struct ldlm_res_id c1_res_id = { .name = {0} };
2850         struct ldlm_res_id c2_res_id = { .name = {0} };
2851         ldlm_policy_data_t p_policy = {.l_inodebits = {MDS_INODELOCK_UPDATE}};
2852         /* Only dentry should disappear, but the inode itself would be
2853            intact otherwise. */
2854         ldlm_policy_data_t c1_policy = {.l_inodebits = {MDS_INODELOCK_LOOKUP}};
2855         /* If something is going to be replaced, both dentry and inode locks are
2856            needed */
2857         ldlm_policy_data_t c2_policy = {.l_inodebits = {MDS_INODELOCK_FULL}};
2858         struct ldlm_res_id *maxres_src, *maxres_tgt;
2859         struct inode *inode;
2860         int rc = 0, cleanup_phase = 0;
2861         __u32 child_gen1 = 0;
2862         __u32 child_gen2 = 0;
2863         unsigned long child_ino1 = 0;
2864         unsigned long child_ino2 = 0;
2865         ENTRY;
2866
2867         /* Step 1: Lookup the source directory */
2868         *de_srcdirp = mds_id2dentry(obd, p1_id, NULL);
2869         if (IS_ERR(*de_srcdirp))
2870                 GOTO(cleanup, rc = PTR_ERR(*de_srcdirp));
2871
2872         cleanup_phase = 1; /* source directory dentry */
2873
2874         p1_res_id.name[0] = id_fid(p1_id);
2875         p1_res_id.name[1] = id_group(p1_id);
2876
2877         /* Step 2: Lookup the target directory */
2878         if (id_equal_stc(p1_id, p2_id)) {
2879                 *de_tgtdirp = dget(*de_srcdirp);
2880         } else {
2881                 *de_tgtdirp = mds_id2dentry(obd, p2_id, NULL);
2882                 if (IS_ERR(*de_tgtdirp)) {
2883                         rc = PTR_ERR(*de_tgtdirp);
2884                         *de_tgtdirp = NULL;
2885                         GOTO(cleanup, rc);
2886                 }
2887         }
2888
2889         cleanup_phase = 2; /* target directory dentry */
2890
2891         p2_res_id.name[0] = id_fid(p2_id);
2892         p2_res_id.name[1] = id_group(p2_id);
2893
2894 #ifdef S_PDIROPS
2895         dlm_handles[5].cookie = 0;
2896         dlm_handles[6].cookie = 0;
2897
2898         if (IS_PDIROPS((*de_srcdirp)->d_inode)) {
2899                 /*
2900                  * get a temp lock on just fid, group to flush client cache and
2901                  * to protect dirs from concurrent splitting.
2902                  */
2903                 rc = enqueue_ordered_locks(obd, &p1_res_id, &dlm_handles[5],
2904                                            LCK_PW, &p_policy, &p2_res_id,
2905                                            &dlm_handles[6], LCK_PW, &p_policy);
2906                 if (rc != ELDLM_OK)
2907                         GOTO(cleanup, rc);
2908
2909                 p1_res_id.name[2] = full_name_hash((unsigned char *)old_name,
2910                                                    old_len - 1);
2911                 p2_res_id.name[2] = full_name_hash((unsigned char *)new_name,
2912                                                    new_len - 1);
2913
2914                 CDEBUG(D_INFO, "take locks on "
2915                        LPX64":"LPX64":"LPX64", "LPX64":"LPX64":"LPX64"\n",
2916                        p1_res_id.name[0], p1_res_id.name[1], p1_res_id.name[2],
2917                        p2_res_id.name[0], p2_res_id.name[1], p2_res_id.name[2]);
2918         }
2919         cleanup_phase = 3;
2920 #endif
2921
2922         /* Step 3: Lookup the source child entry */
2923         *de_oldp = ll_lookup_one_len(old_name, *de_srcdirp,
2924                                      old_len - 1);
2925         if (IS_ERR(*de_oldp)) {
2926                 rc = PTR_ERR(*de_oldp);
2927                 CERROR("old child lookup error (%.*s): %d\n",
2928                        old_len - 1, old_name, rc);
2929                 GOTO(cleanup, rc);
2930         }
2931
2932         cleanup_phase = 4; /* original name dentry */
2933
2934         inode = (*de_oldp)->d_inode;
2935         if (inode != NULL) {
2936                 struct lustre_id sid;
2937
2938                 inode = igrab(inode);
2939                 if (inode == NULL)
2940                         GOTO(cleanup, rc = -ENOENT);
2941
2942                 down(&inode->i_sem);
2943                 rc = mds_read_inode_sid(obd, inode, &sid);
2944                 up(&inode->i_sem);
2945                 if (rc) {
2946                         CERROR("Can't read inode self id, inode %lu, "
2947                                "rc %d\n", inode->i_ino, rc);
2948                         iput(inode);
2949                         GOTO(cleanup, rc);
2950                 }
2951
2952                 child_ino1 = inode->i_ino;
2953                 child_gen1 = inode->i_generation;
2954                 c1_res_id.name[0] = id_fid(&sid);
2955                 c1_res_id.name[1] = id_group(&sid);
2956                 iput(inode);
2957         } else if ((*de_oldp)->d_flags & DCACHE_CROSS_REF) {
2958                 child_ino1 = (*de_oldp)->d_inum;
2959                 child_gen1 = (*de_oldp)->d_generation;
2960                 c1_res_id.name[0] = (*de_oldp)->d_fid;
2961                 c1_res_id.name[1] = (*de_oldp)->d_mdsnum;
2962         } else {
2963                 GOTO(cleanup, rc = -ENOENT);
2964         }
2965
2966         /* Step 4: Lookup the target child entry */
2967         *de_newp = ll_lookup_one_len(new_name, *de_tgtdirp,
2968                                      new_len - 1);
2969         if (IS_ERR(*de_newp)) {
2970                 rc = PTR_ERR(*de_newp);
2971                 CERROR("new child lookup error (%.*s): %d\n",
2972                        old_len - 1, old_name, rc);
2973                 GOTO(cleanup, rc);
2974         }
2975
2976         cleanup_phase = 5; /* target dentry */
2977
2978         inode = (*de_newp)->d_inode;
2979         if (inode != NULL) {
2980                 struct lustre_id sid;
2981
2982                 inode = igrab(inode);
2983                 if (inode == NULL)
2984                         goto retry_locks;
2985
2986                 down(&inode->i_sem);
2987                 rc = mds_read_inode_sid(obd, inode, &sid);
2988                 up(&inode->i_sem);
2989                 if (rc) {
2990                         CERROR("Can't read inode self id, inode %lu, "
2991                                "rc %d\n", inode->i_ino, rc);
2992                         GOTO(cleanup, rc);
2993                 }
2994
2995                 child_ino2 = inode->i_ino;
2996                 child_gen2 = inode->i_generation;
2997                 c2_res_id.name[0] = id_fid(&sid);
2998                 c2_res_id.name[1] = id_group(&sid);
2999                 iput(inode);
3000         } else if ((*de_newp)->d_flags & DCACHE_CROSS_REF) {
3001                 child_ino2 = (*de_newp)->d_inum;
3002                 child_gen2 = (*de_newp)->d_generation;
3003                 c2_res_id.name[0] = (*de_newp)->d_fid;
3004                 c2_res_id.name[1] = (*de_newp)->d_mdsnum;
3005         }
3006
3007 retry_locks:
3008         /* Step 5: Take locks on the parents and child(ren) */
3009         maxres_src = &p1_res_id;
3010         maxres_tgt = &p2_res_id;
3011         cleanup_phase = 5; /* target dentry */
3012
3013         if (c1_res_id.name[0] != 0 && res_gt(&c1_res_id, &p1_res_id, NULL, NULL))
3014                 maxres_src = &c1_res_id;
3015         if (c2_res_id.name[0] != 0 && res_gt(&c2_res_id, &p2_res_id, NULL, NULL))
3016                 maxres_tgt = &c2_res_id;
3017
3018         rc = enqueue_4ordered_locks(obd, &p1_res_id, &dlm_handles[0], parent_mode,
3019                                     &p_policy,
3020                                     &p2_res_id, &dlm_handles[1], parent_mode,
3021                                     &p_policy,
3022                                     &c1_res_id, &dlm_handles[2], child_mode,
3023                                     &c1_policy,
3024                                     &c2_res_id, &dlm_handles[3], child_mode,
3025                                     &c2_policy);
3026         if (rc)
3027                 GOTO(cleanup, rc);
3028
3029         cleanup_phase = 6; /* parent and child(ren) locks */
3030
3031         /* Step 6a: Re-lookup source child to verify it hasn't changed */
3032         rc = mds_verify_child(obd, &p1_res_id, &dlm_handles[0], *de_srcdirp,
3033                               parent_mode, &c1_res_id, &dlm_handles[2],
3034                               de_oldp, child_mode, &c1_policy, old_name, old_len,
3035                               maxres_tgt, child_ino1, child_gen1);
3036         if (rc) {
3037                 if (c2_res_id.name[0] != 0)
3038                         ldlm_lock_decref(&dlm_handles[3], child_mode);
3039                 ldlm_lock_decref(&dlm_handles[1], parent_mode);
3040                 cleanup_phase = 5;
3041                 if (rc > 0)
3042                         goto retry_locks;
3043                 GOTO(cleanup, rc);
3044         }
3045
3046         if (!DENTRY_VALID(*de_oldp))
3047                 GOTO(cleanup, rc = -ENOENT);
3048
3049         /* Step 6b: Re-lookup target child to verify it hasn't changed */
3050         rc = mds_verify_child(obd, &p2_res_id, &dlm_handles[1], *de_tgtdirp,
3051                               parent_mode, &c2_res_id, &dlm_handles[3],
3052                               de_newp, child_mode, &c2_policy, new_name,
3053                               new_len, maxres_src, child_ino2, child_gen2);
3054         if (rc) {
3055                 ldlm_lock_decref(&dlm_handles[2], child_mode);
3056                 ldlm_lock_decref(&dlm_handles[0], parent_mode);
3057                 cleanup_phase = 5;
3058                 if (rc > 0)
3059                         goto retry_locks;
3060                 GOTO(cleanup, rc);
3061         }
3062
3063         EXIT;
3064 cleanup:
3065         if (rc) {
3066                 switch (cleanup_phase) {
3067                 case 6: /* child lock(s) */
3068                         if (c2_res_id.name[0] != 0)
3069                                 ldlm_lock_decref(&dlm_handles[3], child_mode);
3070                         if (c1_res_id.name[0] != 0)
3071                                 ldlm_lock_decref(&dlm_handles[2], child_mode);
3072                         if (dlm_handles[1].cookie != 0)
3073                                 ldlm_lock_decref(&dlm_handles[1], parent_mode);
3074                         if (dlm_handles[0].cookie != 0)
3075                                 ldlm_lock_decref(&dlm_handles[0], parent_mode);
3076                 case 5: /* target dentry */
3077                         l_dput(*de_newp);
3078                 case 4: /* source dentry */
3079                         l_dput(*de_oldp);
3080                 case 3:
3081 #ifdef S_PDIROPS
3082                         if (dlm_handles[5].cookie != 0)
3083                                 ldlm_lock_decref(&(dlm_handles[5]), LCK_PW);
3084                         if (dlm_handles[6].cookie != 0)
3085                                 ldlm_lock_decref(&(dlm_handles[6]), LCK_PW);
3086 #endif
3087                 case 2: /* target directory dentry */
3088                         l_dput(*de_tgtdirp);
3089                 case 1: /* source directry dentry */
3090                         l_dput(*de_srcdirp);
3091                 }
3092         }
3093
3094         return rc;
3095 }
3096
3097 /*
3098  * checks if dentry can be removed. This function also handles cross-ref
3099  * dentries.
3100  */
3101 static int mds_check_for_rename(struct obd_device *obd,
3102                                 struct dentry *dentry)
3103 {
3104         struct mds_obd *mds = &obd->u.mds;
3105         struct lustre_handle *rlockh;
3106         struct ptlrpc_request *req;
3107         struct mdc_op_data *op_data;
3108         struct lookup_intent it;
3109         int handle_size, rc = 0;
3110         ENTRY;
3111
3112         LASSERT(dentry != NULL);
3113
3114         if (dentry->d_inode) {
3115                 if (S_ISDIR(dentry->d_inode->i_mode) &&
3116                     !mds_is_dir_empty(obd, dentry))
3117                         rc = -ENOTEMPTY;
3118         } else {
3119                 LASSERT((dentry->d_flags & DCACHE_CROSS_REF));
3120                 handle_size = sizeof(struct lustre_handle);
3121
3122                 OBD_ALLOC(rlockh, handle_size);
3123                 if (rlockh == NULL)
3124                         RETURN(-ENOMEM);
3125
3126                 memset(rlockh, 0, handle_size);
3127                 OBD_ALLOC(op_data, sizeof(*op_data));
3128                 if (op_data == NULL) {
3129                         OBD_FREE(rlockh, handle_size);
3130                         RETURN(-ENOMEM);
3131                 }
3132                 memset(op_data, 0, sizeof(*op_data));
3133                 mds_pack_dentry2id(obd, &op_data->id1, dentry, 1);
3134
3135                 it.it_op = IT_UNLINK;
3136                 OBD_ALLOC(it.d.fs_data, sizeof(struct lustre_intent_data));
3137                 if (!it.d.fs_data)
3138                         RETURN(-ENOMEM);
3139                 rc = md_enqueue(mds->mds_md_exp, LDLM_IBITS, &it, LCK_EX,
3140                                 op_data, rlockh, NULL, 0, ldlm_completion_ast,
3141                                 mds_blocking_ast, NULL);
3142                 OBD_FREE(op_data, sizeof(*op_data));
3143
3144
3145                 if (rc) {
3146                         OBD_FREE(it.d.fs_data,
3147                                  sizeof(struct lustre_intent_data));
3148                         RETURN(rc);
3149                 }
3150                 if (rlockh->cookie != 0)
3151                         ldlm_lock_decref(rlockh, LCK_EX);
3152
3153                 if (LUSTRE_IT(&it)->it_data) {
3154                         req = (struct ptlrpc_request *)LUSTRE_IT(&it)->it_data;
3155                         ptlrpc_req_finished(req);
3156                 }
3157
3158                 if (LUSTRE_IT(&it)->it_status)
3159                         rc = LUSTRE_IT(&it)->it_status;
3160                 OBD_FREE(it.d.fs_data, sizeof(struct lustre_intent_data));
3161                 OBD_FREE(rlockh, handle_size);
3162         }
3163         RETURN(rc);
3164 }
3165
3166 static int mds_add_local_dentry(struct mds_update_record *rec, int offset,
3167                                 struct ptlrpc_request *req, struct lustre_id *id,
3168                                 struct dentry *de_dir, struct dentry *de)
3169 {
3170         struct obd_device *obd = req->rq_export->exp_obd;
3171         struct mds_obd *mds = mds_req2mds(req);
3172         void *handle = NULL;
3173         int rc = 0;
3174         ENTRY;
3175
3176         if (de->d_inode) {
3177                 /*
3178                  * name exists and points to local inode try to unlink this name
3179                  * and create new one.
3180                  */
3181                 CDEBUG(D_OTHER, "%s: %s points to local inode %lu/%lu\n",
3182                        obd->obd_name, rec->ur_tgt, (unsigned long)de->d_inode->i_ino,
3183                        (unsigned long)de->d_inode->i_generation);
3184
3185                 /* checking if we can remove local dentry. */
3186                 rc = mds_check_for_rename(obd, de);
3187                 if (rc)
3188                         GOTO(cleanup, rc);
3189
3190                 handle = fsfilt_start(obd, de_dir->d_inode,
3191                                       FSFILT_OP_RENAME, NULL);
3192                 if (IS_ERR(handle))
3193                         GOTO(cleanup, rc = PTR_ERR(handle));
3194                 rc = fsfilt_del_dir_entry(req->rq_export->exp_obd, de);
3195                 if (rc)
3196                         GOTO(cleanup, rc);
3197         } else if (de->d_flags & DCACHE_CROSS_REF) {
3198                 CDEBUG(D_OTHER, "%s: %s points to remote inode %lu/%lu\n",
3199                        obd->obd_name, rec->ur_tgt, (unsigned long)de->d_mdsnum,
3200                         (unsigned long)de->d_fid);
3201
3202                 /* checking if we can remove local dentry. */
3203                 rc = mds_check_for_rename(obd, de);
3204                 if (rc)
3205                         GOTO(cleanup, rc);
3206
3207                 /*
3208                  * to be fully POSIX compatible, we should add one more check:
3209                  *
3210                  * if de_new is subdir of dir rec->ur_id1. If so - return
3211                  * -EINVAL.
3212                  *
3213                  * I do not know how to implement it right now, because
3214                  * inodes/dentries for new and old names lie on different MDS,
3215                  * so add this notice here just to make it visible for the rest
3216                  * of developers and do not forget about. And when this check
3217                  * will be added, del_cross_ref should gone, that is local
3218                  * dentry is able to be removed if all checks passed. --umka
3219                  */
3220
3221                 handle = fsfilt_start(obd, de_dir->d_inode,
3222                                       FSFILT_OP_RENAME, NULL);
3223                 if (IS_ERR(handle))
3224                         GOTO(cleanup, rc = PTR_ERR(handle));
3225                 rc = fsfilt_del_dir_entry(req->rq_export->exp_obd, de);
3226                 if (rc)
3227                         GOTO(cleanup, rc);
3228         } else {
3229                 /* name doesn't exist. the simplest case. */
3230                 handle = fsfilt_start(obd, de_dir->d_inode,
3231                                       FSFILT_OP_LINK, NULL);
3232                 if (IS_ERR(handle))
3233                         GOTO(cleanup, rc = PTR_ERR(handle));
3234         }
3235
3236         rc = fsfilt_add_dir_entry(obd, de_dir, rec->ur_tgt,
3237                                   rec->ur_tgtlen - 1, id_ino(id),
3238                                   id_gen(id), id_group(id), id_fid(id));
3239         if (rc) {
3240                 CERROR("add_dir_entry() returned error %d\n", rc);
3241                 GOTO(cleanup, rc);
3242         }
3243
3244         EXIT;
3245 cleanup:
3246         rc = mds_finish_transno(mds, de_dir ? de_dir->d_inode : NULL,
3247                                 handle, req, rc, 0);
3248
3249         return rc;
3250 }
3251
3252 static int mds_del_local_dentry(struct mds_update_record *rec, int offset,
3253                                 struct ptlrpc_request *req, struct dentry *de_dir,
3254                                 struct dentry *de)
3255 {
3256         struct obd_device *obd = req->rq_export->exp_obd;
3257         struct mds_obd *mds = mds_req2mds(req);
3258         void *handle = NULL;
3259         int rc = 0;
3260         ENTRY;
3261
3262         handle = fsfilt_start(obd, de_dir->d_inode, FSFILT_OP_UNLINK, NULL);
3263         if (IS_ERR(handle))
3264                 GOTO(cleanup, rc = PTR_ERR(handle));
3265         rc = fsfilt_del_dir_entry(obd, de);
3266         d_drop(de);
3267
3268         EXIT;
3269 cleanup:
3270         rc = mds_finish_transno(mds, de_dir ? de_dir->d_inode : NULL,
3271                                 handle, req, rc, 0);
3272         return rc;
3273 }
3274
3275 static int mds_reint_rename_create_name(struct mds_update_record *rec,
3276                                         int offset, struct ptlrpc_request *req)
3277 {
3278         struct lustre_handle parent_lockh[2] = {{0}, {0}};
3279         struct obd_device *obd = req->rq_export->exp_obd;
3280         struct mds_obd *mds = mds_req2mds(req);
3281         struct lustre_handle child_lockh = {0};
3282         struct dentry *de_tgtdir = NULL;
3283         struct dentry *de_new = NULL;
3284         int cleanup_phase = 0;
3285         int update_mode, rc = 0;
3286         struct lustre_id ids[2]; /* sid, pid */
3287         ENTRY;
3288
3289         /*
3290          * another MDS executing rename operation has asked us to create target
3291          * name. such a creation should destroy existing target name.
3292          */
3293         CDEBUG(D_OTHER, "%s: request to create name %s for "DLID4"\n",
3294                obd->obd_name, rec->ur_tgt, OLID4(rec->ur_id1));
3295
3296         /* first, lookup the target */
3297         rc = mds_get_parent_child_locked(obd, mds, rec->ur_id2, parent_lockh,
3298                                          &de_tgtdir, LCK_PW, MDS_INODELOCK_UPDATE,
3299                                          &update_mode, rec->ur_tgt, rec->ur_tgtlen,
3300                                          &child_lockh, &de_new, LCK_EX,
3301                                          MDS_INODELOCK_LOOKUP);
3302         if (rc)
3303                 GOTO(cleanup, rc);
3304
3305         /* get parent id: ldlm lock on the parent protects ea */
3306         rc = mds_read_inode_sid(obd, de_tgtdir->d_inode, &ids[1]);
3307
3308         if (rc)
3309                 GOTO(cleanup, rc);
3310         cleanup_phase = 1;
3311
3312         LASSERT(de_tgtdir);
3313         LASSERT(de_tgtdir->d_inode);
3314         LASSERT(de_new);
3315
3316         rc = mds_add_local_dentry(rec, offset, req, rec->ur_id1,
3317                                   de_tgtdir, de_new);
3318         if (rc)
3319                 GOTO(cleanup, rc);
3320
3321         ids[0] = *(rec->ur_id1);
3322         rc = obd_set_info(mds->mds_md_obd->u.lmv.tgts[id_group(rec->ur_id1)].ltd_exp,
3323                           strlen("ids"), "ids",
3324                           sizeof(struct lustre_id) * 2, ids);
3325
3326         EXIT;
3327 cleanup:
3328
3329         if (cleanup_phase == 1) {
3330 #ifdef S_PDIROPS
3331                 if (parent_lockh[1].cookie != 0)
3332                         ldlm_lock_decref(parent_lockh + 1, update_mode);
3333 #endif
3334                 ldlm_lock_decref(parent_lockh, LCK_PW);
3335                 if (child_lockh.cookie != 0)
3336                         ldlm_lock_decref(&child_lockh, LCK_EX);
3337                 l_dput(de_new);
3338                 l_dput(de_tgtdir);
3339         }
3340
3341         req->rq_status = rc;
3342         return 0;
3343 }
3344
3345 static int mds_reint_rename_to_remote(struct mds_update_record *rec, int offset,
3346                                       struct ptlrpc_request *req)
3347 {
3348         struct obd_device *obd = req->rq_export->exp_obd;
3349         struct ptlrpc_request *req2 = NULL;
3350         struct dentry *de_srcdir = NULL;
3351         struct dentry *de_old = NULL;
3352         struct mds_obd *mds = mds_req2mds(req);
3353         struct lustre_handle parent_lockh[2] = {{0}, {0}};
3354         struct lustre_handle child_lockh = {0};
3355         struct mdc_op_data *op_data;
3356         int update_mode, rc = 0;
3357         ENTRY;
3358
3359         CDEBUG(D_OTHER, "%s: move name %s onto another mds #%lu\n",
3360                obd->obd_name, rec->ur_name, (unsigned long)id_group(rec->ur_id2));
3361
3362         OBD_ALLOC(op_data, sizeof(*op_data));
3363         if (op_data == NULL)
3364                 RETURN(-ENOMEM);
3365         memset(op_data, 0, sizeof(*op_data));
3366
3367         rc = mds_get_parent_child_locked(obd, mds, rec->ur_id1, parent_lockh,
3368                                          &de_srcdir, LCK_PW, MDS_INODELOCK_UPDATE,
3369                                          &update_mode, rec->ur_name,
3370                                          rec->ur_namelen, &child_lockh, &de_old,
3371                                          LCK_EX, MDS_INODELOCK_LOOKUP);
3372         if (rc) {
3373                 OBD_FREE(op_data, sizeof(*op_data));
3374                 RETURN(rc);
3375         }
3376
3377         LASSERT(de_srcdir);
3378         LASSERT(de_srcdir->d_inode);
3379         LASSERT(de_old);
3380
3381         /*
3382          * we already know the target should be created on another MDS so, we
3383          * have to request that MDS to do it.
3384          */
3385
3386         /* prepare source id */
3387         if (de_old->d_flags & DCACHE_CROSS_REF) {
3388                 LASSERT(de_old->d_inode == NULL);
3389                 CDEBUG(D_OTHER, "request to move remote name\n");
3390                 mds_pack_dentry2id(obd, &op_data->id1, de_old, 1);
3391         } else if (de_old->d_inode == NULL) {
3392                 /* oh, source doesn't exist */
3393                 OBD_FREE(op_data, sizeof(*op_data));
3394                 GOTO(cleanup, rc = -ENOENT);
3395         } else {
3396                 struct lustre_id sid;
3397                 struct inode *inode = de_old->d_inode;
3398
3399                 LASSERT(inode != NULL);
3400                 CDEBUG(D_OTHER, "request to move local name\n");
3401                 id_ino(&op_data->id1) = inode->i_ino;
3402                 id_group(&op_data->id1) = mds->mds_num;
3403                 id_gen(&op_data->id1) = inode->i_generation;
3404
3405                 down(&inode->i_sem);
3406                 rc = mds_read_inode_sid(obd, inode, &sid);
3407                 up(&inode->i_sem);
3408                 if (rc) {
3409                         CERROR("Can't read inode self id, "
3410                                "inode %lu, rc = %d\n",
3411                                inode->i_ino, rc);
3412                         GOTO(cleanup, rc);
3413                 }
3414
3415                 id_fid(&op_data->id1) = id_fid(&sid);
3416         }
3417
3418         op_data->id2 = *rec->ur_id2;
3419         rc = md_rename(mds->mds_md_exp, op_data, NULL, 0,
3420                        rec->ur_tgt, rec->ur_tgtlen - 1, &req2);
3421         OBD_FREE(op_data, sizeof(*op_data));
3422
3423         if (rc)
3424                 GOTO(cleanup, rc);
3425
3426         rc = mds_del_local_dentry(rec, offset, req, de_srcdir,
3427                                   de_old);
3428
3429         EXIT;
3430 cleanup:
3431         if (req2)
3432                 ptlrpc_req_finished(req2);
3433
3434 #ifdef S_PDIROPS
3435         if (parent_lockh[1].cookie != 0)
3436                 ldlm_lock_decref(parent_lockh + 1, update_mode);
3437 #endif
3438         ldlm_lock_decref(parent_lockh, LCK_PW);
3439         if (child_lockh.cookie != 0)
3440                 ldlm_lock_decref(&child_lockh, LCK_EX);
3441
3442         l_dput(de_old);
3443         l_dput(de_srcdir);
3444
3445         req->rq_status = rc;
3446         return 0;
3447 }
3448
3449 static int mds_reint_rename(struct mds_update_record *rec, int offset,
3450                             struct ptlrpc_request *req, struct lustre_handle *lockh)
3451 {
3452         struct obd_device *obd = req->rq_export->exp_obd;
3453         struct dentry *de_srcdir = NULL;
3454         struct dentry *de_tgtdir = NULL;
3455         struct dentry *de_old = NULL;
3456         struct dentry *de_new = NULL;
3457         struct inode *old_inode = NULL, *new_inode = NULL;
3458         struct mds_obd *mds = mds_req2mds(req);
3459         struct lustre_handle dlm_handles[7] = {{0},{0},{0},{0},{0},{0},{0}};
3460         struct mds_body *body = NULL;
3461         struct llog_create_locks *lcl = NULL;
3462         struct lov_mds_md *lmm = NULL;
3463         int rc = 0, cleanup_phase = 0;
3464         struct lustre_id ids[2];  /* sid, pid */
3465         void *handle = NULL;
3466         ENTRY;
3467
3468         LASSERT(offset == 1);
3469
3470         DEBUG_REQ(D_INODE, req, "parent "DLID4" %s to "DLID4" %s",
3471                   OLID4(rec->ur_id1), rec->ur_name, OLID4(rec->ur_id2),
3472                   rec->ur_tgt);
3473
3474         MDS_CHECK_RESENT(req, mds_reconstruct_generic(req));
3475
3476         if (lustre_msg_get_flags(req->rq_reqmsg) & MSG_REPLAY) {
3477                 DEBUG_REQ(D_HA, req, "rename replay");
3478                 memcpy(lustre_msg_buf(req->rq_repmsg, 2, 0),
3479                        lustre_msg_buf(req->rq_reqmsg, offset + 3, 0),
3480                        req->rq_repmsg->buflens[2]);
3481         }
3482
3483         MD_COUNTER_INCREMENT(obd, rename);
3484
3485         if (rec->ur_namelen == 1) {
3486                 rc = mds_reint_rename_create_name(rec, offset, req);
3487                 RETURN(rc);
3488         }
3489
3490         /* check if new name should be located on remote target. */
3491         if (id_group(rec->ur_id2) != mds->mds_num) {
3492                 rc = mds_reint_rename_to_remote(rec, offset, req);
3493                 RETURN(rc);
3494         }
3495
3496         rc = mds_get_parents_children_locked(obd, mds, rec->ur_id1, &de_srcdir,
3497                                              rec->ur_id2, &de_tgtdir, LCK_PW,
3498                                              rec->ur_name, rec->ur_namelen,
3499                                              &de_old, rec->ur_tgt,
3500                                              rec->ur_tgtlen, &de_new,
3501                                              dlm_handles, LCK_EX);
3502         if (rc)
3503                 GOTO(cleanup, rc);
3504
3505         cleanup_phase = 1; /* parent(s), children, locks */
3506         old_inode = de_old->d_inode;
3507         new_inode = de_new->d_inode;
3508
3509         /* sanity check for src inode */
3510         if (de_old->d_flags & DCACHE_CROSS_REF) {
3511                 LASSERT(de_old->d_inode == NULL);
3512
3513                 /*
3514                  * in the case of cross-ref dir, we can perform this check only
3515                  * if child and parent lie on the same mds. This is because
3516                  * otherwise they can have the same inode numbers.
3517                  */
3518                 if (de_old->d_mdsnum == mds->mds_num) {
3519                         if (de_old->d_inum == de_srcdir->d_inode->i_ino ||
3520                             de_old->d_inum == de_tgtdir->d_inode->i_ino)
3521                                 GOTO(cleanup, rc = -EINVAL);
3522                 }
3523         } else {
3524                 LASSERT(de_old->d_inode != NULL);
3525                 if (de_old->d_inode->i_ino == de_srcdir->d_inode->i_ino ||
3526                     de_old->d_inode->i_ino == de_tgtdir->d_inode->i_ino)
3527                         GOTO(cleanup, rc = -EINVAL);
3528         }
3529
3530         /* sanity check for dest inode */
3531         if (de_new->d_flags & DCACHE_CROSS_REF) {
3532                 LASSERT(new_inode == NULL);
3533
3534                 /* the same check about target dentry. */
3535                 if (de_new->d_mdsnum == mds->mds_num) {
3536                         if (de_new->d_inum == de_srcdir->d_inode->i_ino ||
3537                             de_new->d_inum == de_tgtdir->d_inode->i_ino)
3538                                 GOTO(cleanup, rc = -EINVAL);
3539                 }
3540
3541                 /*
3542                  * regular files usualy do not have ->rename() implemented. But
3543                  * we handle only this case when @de_new is cross-ref entry,
3544                  * because in other cases it will be handled by vfs_rename().
3545                  */
3546                 if (de_old->d_inode && (!de_old->d_inode->i_op ||
3547                     !de_old->d_inode->i_op->rename))
3548                         GOTO(cleanup, rc = -EPERM);
3549         } else {
3550                 if (new_inode &&
3551                     (new_inode->i_ino == de_srcdir->d_inode->i_ino ||
3552                      new_inode->i_ino == de_tgtdir->d_inode->i_ino))
3553                         GOTO(cleanup, rc = -EINVAL);
3554
3555         }
3556
3557         /*
3558          * check if inodes point to each other. This should be checked before
3559          * is_subdir() check, as for the same entries it will think that they
3560          * are subdirs.
3561          */
3562         if (!(de_old->d_flags & DCACHE_CROSS_REF) &&
3563             !(de_new->d_flags & DCACHE_CROSS_REF) &&
3564             old_inode == new_inode)
3565                 GOTO(cleanup, rc = 0);
3566
3567 #if LINUX_VERSION_CODE >= KERNEL_VERSION(2,5,0)
3568         /*
3569          * check if we are moving old entry into its child. 2.6 does not check
3570          * for this in vfs_rename() anymore.
3571          */
3572         if (is_subdir(de_new, de_old))
3573                 GOTO(cleanup, rc = -EINVAL);
3574 #endif
3575
3576         /*
3577          * if we are about to remove the target at first, pass the EA of that
3578          * inode to client to perform and cleanup on OST.
3579          */
3580         body = lustre_msg_buf(req->rq_repmsg, 0, sizeof (*body));
3581         LASSERT(body != NULL);
3582
3583         /* get new parent id: ldlm lock on the parent protects ea */
3584         rc = mds_read_inode_sid(obd, de_tgtdir->d_inode, &ids[1]);
3585         if (rc)
3586                 GOTO(cleanup, rc);
3587
3588         /* child i_alloc_sem protects orphan_dec_test && is_orphan race */
3589         if (new_inode)
3590                 DOWN_READ_I_ALLOC_SEM(new_inode);
3591
3592         cleanup_phase = 2; /* up(&new_inode->i_sem) when finished */
3593
3594         if (new_inode && ((S_ISDIR(new_inode->i_mode) &&
3595             new_inode->i_nlink == 2) ||
3596             new_inode->i_nlink == 1)) {
3597                 if (mds_orphan_open_count(new_inode) > 0) {
3598                         /* need to lock pending_dir before transaction */
3599                         down(&mds->mds_pending_dir->d_inode->i_sem);
3600                         cleanup_phase = 3; /* up(&pending_dir->i_sem) */
3601                 } else if (S_ISREG(new_inode->i_mode)) {
3602                         mds_pack_inode2body(obd, body, new_inode, 0);
3603                         mds_pack_md(obd, req->rq_repmsg, 1, body,
3604                                     new_inode, MDS_PACK_MD_LOCK, 0);
3605                  }
3606         }
3607
3608         OBD_FAIL_WRITE(OBD_FAIL_MDS_REINT_RENAME_WRITE,
3609                        de_srcdir->d_inode->i_sb);
3610
3611         if (de_old->d_flags & DCACHE_CROSS_REF) {
3612                 struct lustre_id old_id;
3613                 struct obd_export *tgt_exp =
3614                         mds->mds_md_obd->u.lmv.tgts[de_old->d_mdsnum].ltd_exp;
3615
3616
3617                 mds_pack_dentry2id(obd, &old_id, de_old, 1);
3618
3619                 rc = mds_add_local_dentry(rec, offset, req, &old_id,
3620                                           de_tgtdir, de_new);
3621                 if (rc)
3622                         GOTO(cleanup, rc);
3623
3624                 rc = mds_del_local_dentry(rec, offset, req, de_srcdir,
3625                                           de_old);
3626                 if (rc)
3627                         GOTO(cleanup, rc);
3628
3629                 ids[0] = old_id;
3630                 rc = obd_set_info(tgt_exp, strlen("ids"), "ids",
3631                                   sizeof(struct lustre_id) * 2, ids);
3632
3633                 GOTO(cleanup, rc);
3634         }
3635
3636         lmm = lustre_msg_buf(req->rq_repmsg, 1, 0);
3637         handle = fsfilt_start_log(obd, de_tgtdir->d_inode, FSFILT_OP_RENAME,
3638                                   NULL, le32_to_cpu(lmm->lmm_stripe_count));
3639
3640         if (IS_ERR(handle))
3641                 GOTO(cleanup, rc = PTR_ERR(handle));
3642
3643         lock_kernel();
3644         de_old->d_fsdata = req;
3645         de_new->d_fsdata = req;
3646         rc = vfs_rename(de_srcdir->d_inode, de_old, de_tgtdir->d_inode, de_new);
3647         unlock_kernel();
3648
3649         if (rc == 0 && new_inode != NULL && new_inode->i_nlink == 0) {
3650                 if (mds_orphan_open_count(new_inode) > 0)
3651                         rc = mds_orphan_add_link(rec, obd, de_new);
3652
3653                 if (rc == 1)
3654                         GOTO(cleanup, rc = 0);
3655
3656                 if (!S_ISREG(new_inode->i_mode))
3657                         GOTO(cleanup, rc);
3658
3659                 if (!(body->valid & OBD_MD_FLEASIZE)) {
3660                         body->valid |= (OBD_MD_FLSIZE | OBD_MD_FLBLOCKS |
3661                                         OBD_MD_FLATIME | OBD_MD_FLMTIME);
3662                 } else if (mds_log_op_unlink(obd, new_inode,
3663                                              lustre_msg_buf(req->rq_repmsg,1,0),
3664                                              req->rq_repmsg->buflens[1],
3665                                              lustre_msg_buf(req->rq_repmsg,2,0),
3666                                              req->rq_repmsg->buflens[2],
3667                                              &lcl) > 0) {
3668                         body->valid |= OBD_MD_FLCOOKIE;
3669                 }
3670
3671                 rc = mds_destroy_object(obd, old_inode, 1);
3672                 if (rc) {
3673                         CERROR("can't remove OST object, err %d\n",
3674                                rc);
3675                 }
3676         }
3677
3678         if (rc == 0)
3679                rc = mds_update_inode_ids(obd, de_old->d_inode,
3680                                          handle, NULL, &ids[1]);
3681
3682         EXIT;
3683 cleanup:
3684         rc = mds_finish_transno(mds, (de_tgtdir ? de_tgtdir->d_inode : NULL),
3685                                 handle, req, rc, 0);
3686
3687         switch (cleanup_phase) {
3688         case 3:
3689                 up(&mds->mds_pending_dir->d_inode->i_sem);
3690         case 2:
3691                 if (new_inode)
3692                         UP_READ_I_ALLOC_SEM(new_inode);
3693         case 1:
3694 #ifdef S_PDIROPS
3695                 if (dlm_handles[5].cookie != 0)
3696                         ldlm_lock_decref(&(dlm_handles[5]), LCK_PW);
3697                 if (dlm_handles[6].cookie != 0)
3698                         ldlm_lock_decref(&(dlm_handles[6]), LCK_PW);
3699 #endif
3700                 if (lcl != NULL)
3701                         ptlrpc_save_llog_lock(req, lcl);
3702
3703                 if (rc) {
3704                         if (dlm_handles[3].cookie != 0)
3705                                 ldlm_lock_decref(&(dlm_handles[3]), LCK_EX);
3706                         ldlm_lock_decref(&(dlm_handles[2]), LCK_EX);
3707                         ldlm_lock_decref(&(dlm_handles[1]), LCK_PW);
3708                         ldlm_lock_decref(&(dlm_handles[0]), LCK_PW);
3709                 } else {
3710                         if (dlm_handles[3].cookie != 0)
3711                                 ptlrpc_save_lock(req,&(dlm_handles[3]), LCK_EX);
3712                         ptlrpc_save_lock(req, &(dlm_handles[2]), LCK_EX);
3713                         ptlrpc_save_lock(req, &(dlm_handles[1]), LCK_PW);
3714                         ptlrpc_save_lock(req, &(dlm_handles[0]), LCK_PW);
3715                 }
3716                 l_dput(de_new);
3717                 l_dput(de_old);
3718                 l_dput(de_tgtdir);
3719                 l_dput(de_srcdir);
3720         case 0:
3721                 break;
3722         default:
3723                 CERROR("invalid cleanup_phase %d\n", cleanup_phase);
3724                 LBUG();
3725         }
3726         req->rq_status = rc;
3727         return 0;
3728 }
3729
3730 typedef int (*mds_reinter)(struct mds_update_record *, int offset,
3731                            struct ptlrpc_request *, struct lustre_handle *);
3732
3733 static mds_reinter reinters[REINT_MAX + 1] = {
3734         [REINT_SETATTR] mds_reint_setattr,
3735         [REINT_CREATE] mds_reint_create,
3736         [REINT_LINK] mds_reint_link,
3737         [REINT_UNLINK] mds_reint_unlink,
3738         [REINT_RENAME] mds_reint_rename,
3739         [REINT_OPEN] mds_open
3740 };
3741
3742 int mds_reint_rec(struct mds_update_record *rec, int offset,
3743                   struct ptlrpc_request *req, struct lustre_handle *lockh)
3744 {
3745         struct obd_device *obd = req->rq_export->exp_obd;
3746         struct lvfs_run_ctxt saved;
3747         int rc;
3748
3749         /* checked by unpacker */
3750         LASSERT(rec->ur_opcode <= REINT_MAX &&
3751                 reinters[rec->ur_opcode] != NULL);
3752
3753         push_ctxt(&saved, &obd->obd_lvfs_ctxt, &rec->ur_uc);
3754         rc = reinters[rec->ur_opcode] (rec, offset, req, lockh);
3755         pop_ctxt(&saved, &obd->obd_lvfs_ctxt, &rec->ur_uc);
3756
3757         return rc;
3758 }