Whamcloud - gitweb
LU-909 osd: changes to osd api
[fs/lustre-release.git] / lustre / mdd / mdd_lov.c
1 /* -*- mode: c; c-basic-offset: 8; indent-tabs-mode: nil; -*-
2  * vim:expandtab:shiftwidth=8:tabstop=8:
3  *
4  * GPL HEADER START
5  *
6  * DO NOT ALTER OR REMOVE COPYRIGHT NOTICES OR THIS FILE HEADER.
7  *
8  * This program is free software; you can redistribute it and/or modify
9  * it under the terms of the GNU General Public License version 2 only,
10  * as published by the Free Software Foundation.
11  *
12  * This program is distributed in the hope that it will be useful, but
13  * WITHOUT ANY WARRANTY; without even the implied warranty of
14  * MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the GNU
15  * General Public License version 2 for more details (a copy is included
16  * in the LICENSE file that accompanied this code).
17  *
18  * You should have received a copy of the GNU General Public License
19  * version 2 along with this program; If not, see
20  * http://www.sun.com/software/products/lustre/docs/GPLv2.pdf
21  *
22  * Please contact Sun Microsystems, Inc., 4150 Network Circle, Santa Clara,
23  * CA 95054 USA or visit www.sun.com if you need additional information or
24  * have any questions.
25  *
26  * GPL HEADER END
27  */
28 /*
29  * Copyright (c) 2007, 2010, Oracle and/or its affiliates. All rights reserved.
30  * Use is subject to license terms.
31  *
32  * Copyright (c) 2011 Whamcloud, Inc.
33  *
34  */
35 /*
36  * This file is part of Lustre, http://www.lustre.org/
37  * Lustre is a trademark of Sun Microsystems, Inc.
38  *
39  * lustre/mdd/mdd_lov.c
40  *
41  * Lustre Metadata Server (mds) handling of striped file data
42  *
43  * Author: Peter Braam <braam@clusterfs.com>
44  * Author: wangdi <wangdi@clusterfs.com>
45  */
46
47 #ifndef EXPORT_SYMTAB
48 # define EXPORT_SYMTAB
49 #endif
50 #define DEBUG_SUBSYSTEM S_MDS
51
52 #include <linux/module.h>
53 #include <obd.h>
54 #include <obd_class.h>
55 #include <lustre_ver.h>
56 #include <obd_support.h>
57 #include <obd_lov.h>
58 #include <lprocfs_status.h>
59 #include <lustre_mds.h>
60 #include <lustre_fid.h>
61 #include <lustre/lustre_idl.h>
62
63 #include "mdd_internal.h"
64
65 static int mdd_notify(struct obd_device *host, struct obd_device *watched,
66                       enum obd_notify_event ev, void *owner, void *data)
67 {
68         struct mdd_device *mdd = owner;
69         int rc = 0;
70         ENTRY;
71
72         LASSERT(owner != NULL);
73         switch (ev)
74         {
75                 case OBD_NOTIFY_ACTIVE:
76                 case OBD_NOTIFY_SYNC:
77                 case OBD_NOTIFY_SYNC_NONBLOCK:
78                         rc = md_do_upcall(NULL, &mdd->mdd_md_dev,
79                                           MD_LOV_SYNC, data);
80                         break;
81                 case OBD_NOTIFY_CONFIG:
82                         rc = md_do_upcall(NULL, &mdd->mdd_md_dev,
83                                           MD_LOV_CONFIG, data);
84                         break;
85 #ifdef HAVE_QUOTA_SUPPORT
86                 case OBD_NOTIFY_QUOTA:
87                         rc = md_do_upcall(NULL, &mdd->mdd_md_dev,
88                                           MD_LOV_QUOTA, data);
89                         break;
90 #endif
91                 default:
92                         CDEBUG(D_INFO, "Unhandled notification %#x\n", ev);
93         }
94
95         RETURN(rc);
96 }
97
98 /* The obd is created for handling data stack for mdd */
99 int mdd_init_obd(const struct lu_env *env, struct mdd_device *mdd,
100                  struct lustre_cfg *cfg)
101 {
102         char                   *dev = lustre_cfg_string(cfg, 0);
103         int                     rc, name_size, uuid_size;
104         char                   *name, *uuid;
105         __u32                   mds_id;
106         struct lustre_cfg_bufs *bufs;
107         struct lustre_cfg      *lcfg;
108         struct obd_device      *obd;
109         ENTRY;
110
111         mds_id = lu_site2md(mdd2lu_dev(mdd)->ld_site)->ms_node_id;
112         name_size = strlen(MDD_OBD_NAME) + 35;
113         uuid_size = strlen(MDD_OBD_UUID) + 35;
114
115         OBD_ALLOC(name, name_size);
116         OBD_ALLOC(uuid, uuid_size);
117         if (name == NULL || uuid == NULL)
118                 GOTO(cleanup_mem, rc = -ENOMEM);
119
120         OBD_ALLOC_PTR(bufs);
121         if (!bufs)
122                 GOTO(cleanup_mem, rc = -ENOMEM);
123
124         snprintf(name, strlen(MDD_OBD_NAME) + 35, "%s-%s",
125                  MDD_OBD_NAME, dev);
126
127         snprintf(uuid, strlen(MDD_OBD_UUID) + 35, "%s-%s",
128                  MDD_OBD_UUID, dev);
129
130         lustre_cfg_bufs_reset(bufs, name);
131         lustre_cfg_bufs_set_string(bufs, 1, MDD_OBD_TYPE);
132         lustre_cfg_bufs_set_string(bufs, 2, uuid);
133         lustre_cfg_bufs_set_string(bufs, 3, (char*)dev/* MDD_OBD_PROFILE */);
134         lustre_cfg_bufs_set_string(bufs, 4, (char*)dev);
135
136         lcfg = lustre_cfg_new(LCFG_ATTACH, bufs);
137         OBD_FREE_PTR(bufs);
138         if (!lcfg)
139                 GOTO(cleanup_mem, rc = -ENOMEM);
140
141         rc = class_attach(lcfg);
142         if (rc)
143                 GOTO(lcfg_cleanup, rc);
144
145         obd = class_name2obd(name);
146         if (!obd) {
147                 CERROR("Can not find obd %s\n", MDD_OBD_NAME);
148                 LBUG();
149         }
150
151         cfs_spin_lock(&obd->obd_dev_lock);
152         obd->obd_recovering = 1;
153         cfs_spin_unlock(&obd->obd_dev_lock);
154         obd->u.mds.mds_id = mds_id;
155         obd->u.obt.obt_osd_properties.osd_max_ea_size =
156                                                mdd->mdd_dt_conf.ddp_max_ea_size;
157
158         rc = class_setup(obd, lcfg);
159         if (rc)
160                 GOTO(class_detach, rc);
161
162         /*
163          * Add here for obd notify mechanism, when adding a new ost, the mds
164          * will notify this mdd. The mds will be used for quota also.
165          */
166         obd->obd_upcall.onu_upcall = mdd_notify;
167         obd->obd_upcall.onu_owner = mdd;
168         mdd->mdd_obd_dev = obd;
169
170         EXIT;
171 class_detach:
172         if (rc)
173                 class_detach(obd, lcfg);
174 lcfg_cleanup:
175         lustre_cfg_free(lcfg);
176 cleanup_mem:
177         if (name)
178                 OBD_FREE(name, name_size);
179         if (uuid)
180                 OBD_FREE(uuid, uuid_size);
181         return rc;
182 }
183
184 int mdd_fini_obd(const struct lu_env *env, struct mdd_device *mdd,
185                  struct lustre_cfg *lcfg)
186 {
187         struct obd_device      *obd;
188         int rc;
189         ENTRY;
190
191         obd = mdd2obd_dev(mdd);
192         LASSERT(obd);
193
194         rc = class_cleanup(obd, lcfg);
195         if (rc)
196                 GOTO(lcfg_cleanup, rc);
197
198         obd->obd_upcall.onu_upcall = NULL;
199         obd->obd_upcall.onu_owner = NULL;
200         rc = class_detach(obd, lcfg);
201         if (rc)
202                 GOTO(lcfg_cleanup, rc);
203         mdd->mdd_obd_dev = NULL;
204
205         EXIT;
206 lcfg_cleanup:
207         return rc;
208 }
209
210 int mdd_get_md(const struct lu_env *env, struct mdd_object *obj,
211                void *md, int *md_size, const char *name)
212 {
213         int rc;
214         ENTRY;
215
216         rc = mdo_xattr_get(env, obj, mdd_buf_get(env, md, *md_size), name,
217                            mdd_object_capa(env, obj));
218         /*
219          * XXX: Handling of -ENODATA, the right way is to have ->do_md_get()
220          * exported by dt layer.
221          */
222         if (rc == 0 || rc == -ENODATA) {
223                 *md_size = 0;
224                 rc = 0;
225         } else if (rc < 0) {
226                 CERROR("Error %d reading eadata - %d\n", rc, *md_size);
227         } else {
228                 /* XXX: Convert lov EA but fixed after verification test. */
229                 *md_size = rc;
230         }
231
232         RETURN(rc);
233 }
234
235 int mdd_get_md_locked(const struct lu_env *env, struct mdd_object *obj,
236                       void *md, int *md_size, const char *name)
237 {
238         int rc = 0;
239         mdd_read_lock(env, obj, MOR_TGT_CHILD);
240         rc = mdd_get_md(env, obj, md, md_size, name);
241         mdd_read_unlock(env, obj);
242         return rc;
243 }
244
245 static int mdd_lov_set_stripe_md(const struct lu_env *env,
246                                  struct mdd_object *obj, struct lu_buf *buf,
247                                  struct thandle *handle)
248 {
249         struct mdd_device       *mdd = mdo2mdd(&obj->mod_obj);
250         struct obd_device       *obd = mdd2obd_dev(mdd);
251         struct obd_export       *lov_exp = obd->u.mds.mds_lov_exp;
252         struct lov_stripe_md    *lsm = NULL;
253         int rc;
254         ENTRY;
255
256         LASSERT(S_ISDIR(mdd_object_type(obj)) || S_ISREG(mdd_object_type(obj)));
257         rc = obd_iocontrol(OBD_IOC_LOV_SETSTRIPE, lov_exp, 0,
258                            &lsm, buf->lb_buf);
259         if (rc)
260                 RETURN(rc);
261         obd_free_memmd(lov_exp, &lsm);
262
263         rc = mdd_xattr_set_txn(env, obj, buf, XATTR_NAME_LOV, 0, handle);
264
265         CDEBUG(D_INFO, "set lov ea of "DFID" rc %d \n", PFID(mdo2fid(obj)), rc);
266         RETURN(rc);
267 }
268
269 /*
270  * Permission check is done before call it,
271  * no need check again.
272  */
273 static int mdd_lov_set_dir_md(const struct lu_env *env,
274                               struct mdd_object *obj, struct lu_buf *buf,
275                               struct thandle *handle)
276 {
277         struct lov_user_md *lum = NULL;
278         int rc = 0;
279         ENTRY;
280
281         LASSERT(S_ISDIR(mdd_object_type(obj)));
282         lum = (struct lov_user_md*)buf->lb_buf;
283
284         /* if { size, offset, count } = { 0, -1, 0 } and no pool (i.e. all default
285          * values specified) then delete default striping from dir. */
286         if (LOVEA_DELETE_VALUES(lum->lmm_stripe_size, lum->lmm_stripe_count,
287                                 lum->lmm_stripe_offset) &&
288             lum->lmm_magic != LOV_USER_MAGIC_V3) {
289                 rc = mdd_xattr_set_txn(env, obj, &LU_BUF_NULL,
290                                        XATTR_NAME_LOV, 0, handle);
291                 if (rc == -ENODATA)
292                         rc = 0;
293                 CDEBUG(D_INFO, "delete lov ea of "DFID" rc %d \n",
294                                 PFID(mdo2fid(obj)), rc);
295         } else {
296                 rc = mdd_lov_set_stripe_md(env, obj, buf, handle);
297         }
298         RETURN(rc);
299 }
300
301 int mdd_lsm_sanity_check(const struct lu_env *env,  struct mdd_object *obj)
302 {
303         struct lu_attr   *tmp_la = &mdd_env_info(env)->mti_la;
304         struct md_ucred  *uc     = md_ucred(env);
305         int rc;
306         ENTRY;
307
308         rc = mdd_la_get(env, obj, tmp_la, BYPASS_CAPA);
309         if (rc)
310                 RETURN(rc);
311
312         if ((uc->mu_fsuid != tmp_la->la_uid) &&
313             !mdd_capable(uc, CFS_CAP_FOWNER))
314                 rc = mdd_permission_internal_locked(env, obj, tmp_la,
315                                                     MAY_WRITE, MOR_TGT_CHILD);
316
317         RETURN(rc);
318 }
319
320 int mdd_lov_set_md(const struct lu_env *env, struct mdd_object *pobj,
321                    struct mdd_object *child, struct lov_mds_md *lmmp,
322                    int lmm_size, struct thandle *handle, int set_stripe)
323 {
324         struct lu_buf *buf;
325         cfs_umode_t mode;
326         int rc = 0;
327         ENTRY;
328
329         buf = mdd_buf_get(env, lmmp, lmm_size);
330         mode = mdd_object_type(child);
331         if (S_ISREG(mode) && lmm_size > 0) {
332                 if (set_stripe) {
333                         rc = mdd_lov_set_stripe_md(env, child, buf, handle);
334                 } else {
335                         rc = mdd_xattr_set_txn(env, child, buf,
336                                                XATTR_NAME_LOV, 0, handle);
337                 }
338         } else if (S_ISDIR(mode)) {
339                 if (lmmp == NULL && lmm_size == 0) {
340                         struct mdd_device *mdd = mdd_obj2mdd_dev(child);
341                         struct lov_mds_md *lmm = mdd_max_lmm_get(env, mdd);
342                         int size = sizeof(struct lov_mds_md_v3);
343
344                         /* Get parent dir stripe and set */
345                         if (pobj != NULL)
346                                 rc = mdd_get_md_locked(env, pobj, lmm, &size,
347                                                        XATTR_NAME_LOV);
348                         if (rc > 0) {
349                                 buf = mdd_buf_get(env, lmm, size);
350                                 rc = mdd_xattr_set_txn(env, child, buf,
351                                                XATTR_NAME_LOV, 0, handle);
352                                 if (rc)
353                                         CERROR("error on copy stripe info: rc "
354                                                 "= %d\n", rc);
355                         }
356                 } else {
357                         LASSERT(lmmp != NULL && lmm_size > 0);
358                         rc = mdd_lov_set_dir_md(env, child, buf, handle);
359                 }
360         }
361         CDEBUG(D_INFO, "Set lov md %p size %d for fid "DFID" rc %d\n",
362                         lmmp, lmm_size, PFID(mdo2fid(child)), rc);
363         RETURN(rc);
364 }
365
366 int mdd_lov_objid_prepare(struct mdd_device *mdd, struct lov_mds_md *lmm)
367 {
368         /* copy mds_lov code is using wrong layer */
369         return mds_lov_prepare_objids(mdd->mdd_obd_dev, lmm);
370 }
371
372 int mdd_declare_lov_objid_update(const struct lu_env *env,
373                                  struct mdd_device *mdd,
374                                  struct thandle *handle)
375 {
376         struct obd_device *obd = mdd2obd_dev(mdd);
377         int size;
378
379         /* in prepare we create local files */
380         if (unlikely(mdd->mdd_capa == NULL))
381                 return 0;
382
383         /* XXX: this is a temporary solution to declare llog changes
384          *      will be fixed in 2.3 with new llog implementation */
385
386         size = obd->u.mds.mds_lov_desc.ld_tgt_count * sizeof(obd_id);
387         return dt_declare_record_write(env, mdd->mdd_capa, size, 0, handle);
388 }
389
390 void mdd_lov_objid_update(struct mdd_device *mdd, struct lov_mds_md *lmm)
391 {
392         /* copy mds_lov code is using wrong layer */
393         mds_lov_update_objids(mdd->mdd_obd_dev, lmm);
394 }
395
396 void mdd_lov_create_finish(const struct lu_env *env, struct mdd_device *mdd,
397                            struct lov_mds_md *lmm, int lmm_size,
398                            const struct md_op_spec *spec)
399 {
400         if (lmm && !spec->no_create)
401                 OBD_FREE_LARGE(lmm, lmm_size);
402 }
403
404 int mdd_lov_create(const struct lu_env *env, struct mdd_device *mdd,
405                    struct mdd_object *parent, struct mdd_object *child,
406                    struct lov_mds_md **lmm, int *lmm_size,
407                    const struct md_op_spec *spec, struct lu_attr *la)
408 {
409         struct obd_device     *obd = mdd2obd_dev(mdd);
410         struct obd_export     *lov_exp = obd->u.mds.mds_lov_exp;
411         struct lu_site        *site = mdd2lu_dev(mdd)->ld_site;
412         struct obdo           *oa;
413         struct lov_stripe_md  *lsm = NULL;
414         const void            *eadata = spec->u.sp_ea.eadata;
415         __u64                  create_flags = spec->sp_cr_flags;
416         struct obd_trans_info *oti = &mdd_env_info(env)->mti_oti;
417         int                    rc = 0;
418         ENTRY;
419
420         if (!md_should_create(create_flags)) {
421                 *lmm_size = 0;
422                 RETURN(0);
423         }
424         oti_init(oti, NULL);
425
426         /* replay case, has objects already, only get lov from eadata */
427         if (spec->no_create != 0) {
428                 *lmm = (struct lov_mds_md *)spec->u.sp_ea.eadata;
429                 *lmm_size = spec->u.sp_ea.eadatalen;
430                 if (*lmm_size == lov_mds_md_size((*lmm)->lmm_stripe_count,
431                                                  (*lmm)->lmm_magic)) {
432                         RETURN(0);
433                 } else {
434                         CERROR("incorrect lsm received during recovery\n");
435                         RETURN(-EPROTO);
436                 }
437         }
438
439         if (OBD_FAIL_CHECK(OBD_FAIL_MDS_ALLOC_OBDO))
440                 GOTO(out_ids, rc = -ENOMEM);
441
442         LASSERT(lov_exp != NULL);
443         oa = &mdd_env_info(env)->mti_oa;
444
445         oa->o_uid = 0; /* must have 0 uid / gid on OST */
446         oa->o_gid = 0;
447         oa->o_seq = mdt_to_obd_objseq(lu_site2md(site)->ms_node_id);
448         oa->o_mode = S_IFREG | 0600;
449         oa->o_id = fid_ver_oid(mdd_object_fid(child));
450         oa->o_valid = OBD_MD_FLID | OBD_MD_FLTYPE | OBD_MD_FLFLAGS |
451                 OBD_MD_FLMODE | OBD_MD_FLUID | OBD_MD_FLGID | OBD_MD_FLGROUP;
452         oa->o_size = 0;
453
454         if (!(create_flags & MDS_OPEN_HAS_OBJS)) {
455                 if (create_flags & MDS_OPEN_HAS_EA) {
456                         LASSERT(eadata != NULL);
457                         rc = obd_iocontrol(OBD_IOC_LOV_SETSTRIPE, lov_exp,
458                                            0, &lsm, (void*)eadata);
459                         if (rc)
460                                 GOTO(out_oti, rc);
461                 } else if (parent != NULL) {
462                         /* get lov ea from parent and set to lov */
463                         struct lov_mds_md *_lmm;
464                         int _lmm_size;
465
466                         _lmm_size = mdd_lov_mdsize(env, mdd);
467                         _lmm = mdd_max_lmm_get(env, mdd);
468
469                         if (_lmm == NULL)
470                                 GOTO(out_oti, rc = -ENOMEM);
471
472                         rc = mdd_get_md_locked(env, parent, _lmm,
473                                                &_lmm_size,
474                                                XATTR_NAME_LOV);
475                         if (rc > 0)
476                                 rc = obd_iocontrol(OBD_IOC_LOV_SETSTRIPE,
477                                                    lov_exp, *lmm_size,
478                                                    &lsm, _lmm);
479
480                         if (rc)
481                                 GOTO(out_oti, rc);
482                 }
483
484                 OBD_FAIL_TIMEOUT(OBD_FAIL_MDS_OPEN_WAIT_CREATE, 10);
485                 rc = obd_create(lov_exp, oa, &lsm, oti);
486                 if (rc) {
487                         if (rc > 0) {
488                                 CERROR("Create error for "DFID": %d\n",
489                                        PFID(mdo2fid(child)), rc);
490                                 rc = -EIO;
491                         }
492                         GOTO(out_oti, rc);
493                 }
494                 LASSERT_SEQ_IS_MDT(lsm->lsm_object_seq);
495         } else {
496                 LASSERT(eadata != NULL);
497                 rc = obd_iocontrol(OBD_IOC_LOV_SETEA, lov_exp, 0, &lsm,
498                                    (void*)eadata);
499                 if (rc)
500                         GOTO(out_oti, rc);
501
502         }
503
504         lsm->lsm_object_id = fid_ver_oid(mdd_object_fid(child));
505         lsm->lsm_object_seq = fid_seq(mdd_object_fid(child));
506         /*
507          * Sometimes, we may truncate some object(without lsm) then open it
508          * (with write flags), so creating lsm above.  The Nonzero(truncated)
509          * size should tell ost, since size attr is in charge by OST.
510          */
511         if (la->la_size && la->la_valid & LA_SIZE) {
512                 struct obd_info *oinfo = &mdd_env_info(env)->mti_oi;
513
514                 memset(oinfo, 0, sizeof(*oinfo));
515
516                 /* When setting attr to ost, FLBKSZ is not needed. */
517                 oa->o_valid &= ~OBD_MD_FLBLKSZ;
518                 obdo_from_la(oa, la, OBD_MD_FLTYPE | OBD_MD_FLATIME |
519                              OBD_MD_FLMTIME | OBD_MD_FLCTIME | OBD_MD_FLSIZE);
520
521                 /*
522                  * XXX: Pack lustre id to OST, in OST, it will be packed by
523                  * filter_fid, but can not see what is the usages. So just pack
524                  * o_seq o_ver here, maybe fix it after this cycle.
525                  */
526                 obdo_from_inode(oa, NULL,
527                                 (struct lu_fid *)mdd_object_fid(child), 0);
528                 oinfo->oi_oa = oa;
529                 oinfo->oi_md = lsm;
530                 oinfo->oi_capa = NULL;
531                 oinfo->oi_policy.l_extent.start = la->la_size;
532                 oinfo->oi_policy.l_extent.end = OBD_OBJECT_EOF;
533
534                 rc = obd_punch_rqset(lov_exp, oinfo, oti);
535                 if (rc) {
536                         CERROR("Error setting attrs for "DFID": rc %d\n",
537                                PFID(mdo2fid(child)), rc);
538                         if (rc > 0) {
539                                 CERROR("obd_setattr for "DFID" rc %d\n",
540                                         PFID(mdo2fid(child)), rc);
541                                 rc = -EIO;
542                         }
543                         GOTO(out_oti, rc);
544                 }
545         }
546         /* blksize should be changed after create data object */
547         la->la_valid |= LA_BLKSIZE;
548         la->la_blksize = oa->o_blksize;
549         *lmm = NULL;
550         rc = obd_packmd(lov_exp, lmm, lsm);
551         if (rc < 0) {
552                 CERROR("Cannot pack lsm, err = %d\n", rc);
553                 GOTO(out_oti, rc);
554         }
555         if (mdd_lov_objid_prepare(mdd, *lmm) != 0) {
556                 CERROR("Not have memory for update objid\n");
557                 OBD_FREE(*lmm, rc);
558                 *lmm = NULL;
559                 GOTO(out_oti, rc = -ENOMEM);
560         }
561         *lmm_size = rc;
562         rc = 0;
563         EXIT;
564 out_oti:
565         oti_free_cookies(oti);
566 out_ids:
567         if (lsm)
568                 obd_free_memmd(lov_exp, &lsm);
569
570         return rc;
571 }
572
573 /*
574  * used when destroying orphans and from mds_reint_unlink() when MDS wants to
575  * destroy objects on OSS.
576  */
577 static
578 int mdd_lovobj_unlink(const struct lu_env *env, struct mdd_device *mdd,
579                       struct mdd_object *obj, struct lu_attr *la,
580                       struct lov_mds_md *lmm, int lmm_size,
581                       struct llog_cookie *logcookies,
582                       int log_unlink)
583 {
584         struct obd_device     *obd = mdd2obd_dev(mdd);
585         struct obd_export     *lov_exp = obd->u.mds.mds_lov_exp;
586         struct lov_stripe_md  *lsm = NULL;
587         struct obd_trans_info *oti = &mdd_env_info(env)->mti_oti;
588         struct obdo           *oa = &mdd_env_info(env)->mti_oa;
589         struct lu_site        *site = mdd2lu_dev(mdd)->ld_site;
590         int rc;
591         ENTRY;
592
593         if (lmm_size == 0)
594                 RETURN(0);
595
596         rc = obd_unpackmd(lov_exp, &lsm, lmm, lmm_size);
597         if (rc < 0) {
598                 CERROR("Error unpack md %p\n", lmm);
599                 RETURN(rc);
600         } else {
601                 LASSERT(rc >= sizeof(*lsm));
602                 rc = 0;
603         }
604
605         oa->o_id = lsm->lsm_object_id;
606         oa->o_seq = mdt_to_obd_objseq(lu_site2md(site)->ms_node_id);
607         oa->o_mode = la->la_mode & S_IFMT;
608         oa->o_valid = OBD_MD_FLID | OBD_MD_FLTYPE | OBD_MD_FLGROUP;
609
610         oti_init(oti, NULL);
611         if (log_unlink && logcookies) {
612                 oa->o_valid |= OBD_MD_FLCOOKIE;
613                 oti->oti_logcookies = logcookies;
614         }
615
616         CDEBUG(D_INFO, "destroying OSS object "LPU64":"LPU64"\n", oa->o_seq,
617                oa->o_id);
618
619         rc = obd_destroy(lov_exp, oa, lsm, oti, NULL, NULL);
620
621         obd_free_memmd(lov_exp, &lsm);
622         RETURN(rc);
623 }
624
625 /*
626  * called with obj locked. 
627  */
628 int mdd_lov_destroy(const struct lu_env *env, struct mdd_device *mdd,
629                     struct mdd_object *obj, struct lu_attr *la)
630 {
631         struct md_attr    *ma = &mdd_env_info(env)->mti_ma;
632         int                rc;
633         ENTRY;
634
635         LASSERT(mdd_write_locked(env, obj) != 0);
636
637         if (unlikely(!S_ISREG(mdd_object_type(obj))))
638                 RETURN(0);
639
640         if (unlikely(la->la_nlink != 0)) {
641                 CWARN("Attempt to destroy OSS object when nlink == %d\n",
642                       la->la_nlink);
643                 RETURN(0);
644         }
645
646         ma->ma_lmm_size = mdd_lov_mdsize(env, mdd);
647         ma->ma_lmm = mdd_max_lmm_get(env, mdd);
648         ma->ma_cookie_size = mdd_lov_cookiesize(env, mdd);
649         ma->ma_cookie = mdd_max_cookie_get(env, mdd);
650         if (ma->ma_lmm == NULL || ma->ma_cookie == NULL)
651                 RETURN(rc = -ENOMEM);
652
653         /* get lov ea */
654
655         rc = mdd_get_md(env, obj, ma->ma_lmm, &ma->ma_lmm_size,
656                         XATTR_NAME_LOV);
657
658         if (rc <= 0) {
659                 CWARN("Get lov ea failed for "DFID" rc = %d\n",
660                          PFID(mdo2fid(obj)), rc);
661                 if (rc == 0)
662                         rc = -ENOENT;
663                 RETURN(rc);
664         }
665
666         ma->ma_valid = MA_LOV;
667
668         rc = mdd_unlink_log(env, mdd, obj, ma);
669         if (rc) {
670                 CWARN("mds unlink log for "DFID" failed: %d\n",
671                        PFID(mdo2fid(obj)), rc);
672                 RETURN(rc);
673         }
674
675         if (ma->ma_valid & MA_COOKIE)
676                 rc = mdd_lovobj_unlink(env, mdd, obj, la,
677                                        ma->ma_lmm, ma->ma_lmm_size,
678                                        ma->ma_cookie, 1);
679         RETURN(rc);
680 }
681
682 int mdd_declare_unlink_log(const struct lu_env *env, struct mdd_object *obj,
683                            struct md_attr *ma, struct thandle *handle)
684 {
685         struct mdd_device *mdd = mdo2mdd(&obj->mod_obj);
686         int rc, stripe, i;
687
688         LASSERT(obj);
689         LASSERT(ma);
690
691         if (!S_ISREG(lu_object_attr(&obj->mod_obj.mo_lu)))
692                 return 0;
693
694         rc = mdd_lmm_get_locked(env, obj, ma);
695         if (rc || !(ma->ma_valid & MA_LOV))
696                 return rc;
697
698         LASSERT(ma->ma_lmm);
699         if (le32_to_cpu(ma->ma_lmm->lmm_magic) != LOV_MAGIC_V1 &&
700                         le32_to_cpu(ma->ma_lmm->lmm_magic) != LOV_MAGIC_V3) {
701                 CERROR("%s: invalid LOV_MAGIC %08x on object "DFID"\n",
702                                 mdd->mdd_obd_dev->obd_name,
703                                 le32_to_cpu(ma->ma_lmm->lmm_magic),
704                                 PFID(lu_object_fid(&obj->mod_obj.mo_lu)));
705                 return -EINVAL;
706         }
707
708         if ((int)le32_to_cpu(ma->ma_lmm->lmm_stripe_count) < 0)
709                 stripe = mdd2obd_dev(mdd)->u.mds.mds_lov_desc.ld_tgt_count;
710         else
711                 stripe = le32_to_cpu(ma->ma_lmm->lmm_stripe_count);
712
713         for (i = 0; i < stripe; i++) {
714                 rc = mdd_declare_llog_record(env, mdd,
715                                              sizeof(struct llog_unlink_rec),
716                                              handle);
717                 if (rc)
718                         return rc;
719         }
720
721         return rc;
722 }
723
724 int mdd_unlink_log(const struct lu_env *env, struct mdd_device *mdd,
725                    struct mdd_object *mdd_cobj, struct md_attr *ma)
726 {
727         LASSERT(ma->ma_valid & MA_LOV);
728
729         if ((ma->ma_cookie_size > 0) &&
730             (mds_log_op_unlink(mdd2obd_dev(mdd), ma->ma_lmm, ma->ma_lmm_size,
731                                ma->ma_cookie, ma->ma_cookie_size) > 0)) {
732                 CDEBUG(D_HA, "DEBUG: unlink log is added for object "DFID"\n",
733                        PFID(mdd_object_fid(mdd_cobj)));
734                 ma->ma_valid |= MA_COOKIE;
735         }
736         return 0;
737 }
738
739 int mdd_log_op_setattr(struct obd_device *obd, __u32 uid, __u32 gid,
740                        struct lov_mds_md *lmm, int lmm_size,
741                        struct llog_cookie *logcookies, int cookies_size)
742 {
743         struct mds_obd *mds = &obd->u.mds;
744         struct lov_stripe_md *lsm = NULL;
745         struct llog_setattr64_rec *lsr;
746         struct llog_ctxt *ctxt;
747         int rc;
748         ENTRY;
749
750         if (IS_ERR(mds->mds_lov_obd))
751                 RETURN(PTR_ERR(mds->mds_lov_obd));
752
753         rc = obd_unpackmd(mds->mds_lov_exp, &lsm, lmm, lmm_size);
754         if (rc < 0)
755                 RETURN(rc);
756
757         OBD_ALLOC(lsr, sizeof(*lsr));
758         if (!lsr)
759                 GOTO(out, rc = -ENOMEM);
760
761         /* prepare setattr log record */
762         lsr->lsr_hdr.lrh_len = lsr->lsr_tail.lrt_len = sizeof(*lsr);
763         lsr->lsr_hdr.lrh_type = MDS_SETATTR64_REC;
764         lsr->lsr_uid = uid;
765         lsr->lsr_gid = gid;
766
767         /* write setattr log */
768         ctxt = llog_get_context(obd, LLOG_MDS_OST_ORIG_CTXT);
769         rc = llog_add(ctxt, &lsr->lsr_hdr, lsm, logcookies,
770                       cookies_size / sizeof(struct llog_cookie));
771
772         llog_ctxt_put(ctxt);
773
774         OBD_FREE(lsr, sizeof(*lsr));
775  out:
776         obd_free_memmd(mds->mds_lov_exp, &lsm);
777         RETURN(rc);
778 }
779
780 int mdd_setattr_log(const struct lu_env *env, struct mdd_device *mdd,
781                     const struct md_attr *ma,
782                     struct lov_mds_md *lmm, int lmm_size,
783                     struct llog_cookie *logcookies, int cookies_size)
784 {
785         struct obd_device *obd = mdd2obd_dev(mdd);
786
787         /* journal chown/chgrp in llog, just like unlink */
788         if (lmm_size > 0) {
789                 CDEBUG(D_INFO, "setattr llog for uid/gid=%lu/%lu\n",
790                         (unsigned long)ma->ma_attr.la_uid,
791                         (unsigned long)ma->ma_attr.la_gid);
792                 return mdd_log_op_setattr(obd, ma->ma_attr.la_uid,
793                                           ma->ma_attr.la_gid, lmm,
794                                           lmm_size, logcookies,
795                                           cookies_size);
796         } else
797                 return 0;
798 }
799
800 static int mdd_osc_setattr_async(struct obd_device *obd, __u32 uid, __u32 gid,
801                           struct lov_mds_md *lmm, int lmm_size,
802                           struct llog_cookie *logcookies, const struct lu_fid *parent,
803                           struct obd_capa *oc)
804 {
805         struct mds_obd *mds = &obd->u.mds;
806         struct obd_trans_info oti = { 0 };
807         struct obd_info oinfo = { { { 0 } } };
808         int rc;
809         ENTRY;
810
811         if (OBD_FAIL_CHECK(OBD_FAIL_MDS_OST_SETATTR))
812                 RETURN(0);
813
814         /* first get memory EA */
815         OBDO_ALLOC(oinfo.oi_oa);
816         if (!oinfo.oi_oa)
817                 RETURN(-ENOMEM);
818
819         LASSERT(lmm);
820
821         rc = obd_unpackmd(mds->mds_lov_exp, &oinfo.oi_md, lmm, lmm_size);
822         if (rc < 0) {
823                 CERROR("Error unpack md %p for obj "DFID"\n", lmm,
824                         PFID(parent));
825                 GOTO(out, rc);
826         }
827
828         /* then fill oa */
829         oinfo.oi_oa->o_uid = uid;
830         oinfo.oi_oa->o_gid = gid;
831         oinfo.oi_oa->o_id = oinfo.oi_md->lsm_object_id;
832         oinfo.oi_oa->o_seq = oinfo.oi_md->lsm_object_seq;
833         oinfo.oi_oa->o_valid |= OBD_MD_FLID | OBD_MD_FLGROUP |
834                                 OBD_MD_FLUID | OBD_MD_FLGID;
835         if (logcookies) {
836                 oinfo.oi_oa->o_valid |= OBD_MD_FLCOOKIE;
837                 oti.oti_logcookies = logcookies;
838         }
839
840         obdo_from_inode(oinfo.oi_oa, NULL, (struct lu_fid *)parent, 0);
841         oinfo.oi_capa = oc;
842
843         /* do async setattr from mds to ost not waiting for responses. */
844         rc = obd_setattr_async(mds->mds_lov_exp, &oinfo, &oti, NULL);
845         if (rc)
846                 CDEBUG(D_INODE, "mds to ost setattr objid 0x"LPX64
847                        " on ost error %d\n", oinfo.oi_md->lsm_object_id, rc);
848 out:
849         if (oinfo.oi_md)
850                 obd_free_memmd(mds->mds_lov_exp, &oinfo.oi_md);
851         OBDO_FREE(oinfo.oi_oa);
852         RETURN(rc);
853 }
854
855 int mdd_lov_setattr_async(const struct lu_env *env, struct mdd_object *obj,
856                           struct lov_mds_md *lmm, int lmm_size,
857                           struct llog_cookie *logcookies)
858 {
859         struct mdd_device   *mdd = mdo2mdd(&obj->mod_obj);
860         struct obd_device   *obd = mdd2obd_dev(mdd);
861         struct lu_attr      *tmp_la = &mdd_env_info(env)->mti_la;
862         const struct lu_fid *fid = mdd_object_fid(obj);
863         int rc = 0;
864         ENTRY;
865
866         mdd_read_lock(env, obj, MOR_TGT_CHILD);
867         rc = mdo_attr_get(env, obj, tmp_la, mdd_object_capa(env, obj));
868         mdd_read_unlock(env, obj);
869         if (rc)
870                 RETURN(rc);
871
872         rc = mdd_osc_setattr_async(obd, tmp_la->la_uid, tmp_la->la_gid, lmm,
873                                    lmm_size, logcookies, fid, NULL);
874         RETURN(rc);
875 }
876
877 static int grouplock_blocking_ast(struct ldlm_lock *lock,
878                                   struct ldlm_lock_desc *desc,
879                                   void *data, int flag)
880 {
881         struct md_attr *ma = data;
882         struct lustre_handle lockh;
883         int rc = 0;
884         ENTRY;
885
886         switch (flag)
887         {
888                 case LDLM_CB_BLOCKING :
889                         /* lock is canceled */
890                         CDEBUG(D_DLMTRACE, "Lock %p is canceled\n", lock);
891
892                         ldlm_lock2handle(lock, &lockh);
893                         rc = ldlm_cli_cancel(&lockh);
894
895                         break;
896                 case LDLM_CB_CANCELING :
897                         CDEBUG(D_DLMTRACE,
898                                "Lock %p has been canceled, do cleaning\n",
899                                lock);
900
901                         if (ma && ma->ma_som)
902                                 OBD_FREE_PTR(ma->ma_som);
903                         if (ma)
904                                 OBD_FREE_PTR(ma);
905                         break;
906                 default:
907                         LBUG();
908         }
909         RETURN(rc);
910 }
911
912 static int grouplock_glimpse_ast(struct ldlm_lock *lock, void *data)
913 {
914         struct ptlrpc_request *req = data;
915         struct ost_lvb *lvb;
916         int rc;
917         struct md_attr *ma;
918         ENTRY;
919
920         ma = lock->l_ast_data;
921
922         req_capsule_extend(&req->rq_pill, &RQF_LDLM_GL_CALLBACK);
923         req_capsule_set_size(&req->rq_pill, &RMF_DLM_LVB, RCL_SERVER,
924                              sizeof(*lvb));
925         rc = req_capsule_server_pack(&req->rq_pill);
926         if (rc) {
927                 CERROR("failed pack reply: %d\n", rc);
928                 GOTO(out, rc);
929         }
930
931         lvb = req_capsule_server_get(&req->rq_pill, &RMF_DLM_LVB);
932
933         if ((ma) && (ma->ma_valid & MA_SOM)) {
934                 lvb->lvb_size = ma->ma_som->msd_size;
935                 lvb->lvb_blocks = ma->ma_som->msd_blocks;
936         } else if ((ma) && (ma->ma_valid & MA_INODE)) {
937                 lvb->lvb_size = ma->ma_attr.la_size;
938                 lvb->lvb_blocks = ma->ma_attr.la_blocks;
939         } else {
940                 lvb->lvb_size = 0;
941                 rc = -ELDLM_NO_LOCK_DATA;
942         }
943
944         EXIT;
945 out:
946         if (rc == -ELDLM_NO_LOCK_DATA)
947                 lustre_pack_reply(req, 1, NULL, NULL);
948
949         req->rq_status = rc;
950         return rc;
951 }
952
953 int mdd_file_lock(const struct lu_env *env, struct md_object *obj,
954                   struct lov_mds_md *lmm, struct ldlm_extent *extent,
955                   struct lustre_handle *lockh)
956 {
957         struct ldlm_enqueue_info einfo = { 0 };
958         struct obd_info oinfo = { { { 0 } } };
959         struct obd_device *obd;
960         struct obd_export *lov_exp;
961         struct lov_stripe_md *lsm = NULL;
962         struct md_attr *ma = NULL;
963         int rc;
964         ENTRY;
965
966         obd = mdo2mdd(obj)->mdd_obd_dev;
967         lov_exp = obd->u.mds.mds_lov_exp;
968
969         obd_unpackmd(lov_exp, &lsm, lmm,
970                      lov_mds_md_size(lmm->lmm_stripe_count, lmm->lmm_magic));
971
972         OBD_ALLOC_PTR(ma);
973         if (ma == NULL)
974                 GOTO(out, rc = -ENOMEM);
975
976         OBD_ALLOC_PTR(ma->ma_som);
977         if (ma->ma_som == NULL)
978                 GOTO(out, rc = -ENOMEM);
979
980         ma->ma_need = MA_SOM | MA_INODE;
981         mo_attr_get(env, obj, ma);
982
983         einfo.ei_type = LDLM_EXTENT;
984         einfo.ei_mode = LCK_GROUP;
985         einfo.ei_cb_bl = grouplock_blocking_ast;
986         einfo.ei_cb_cp = ldlm_completion_ast;
987         einfo.ei_cb_gl = grouplock_glimpse_ast;
988
989         if (ma->ma_valid & (MA_SOM | MA_INODE))
990                 einfo.ei_cbdata = ma;
991         else
992                 einfo.ei_cbdata = NULL;
993
994         memset(&oinfo.oi_policy, 0, sizeof(oinfo.oi_policy));
995         oinfo.oi_policy.l_extent = *extent;
996         oinfo.oi_lockh = lockh;
997         oinfo.oi_md = lsm;
998         oinfo.oi_flags = 0;
999
1000         rc = obd_enqueue(lov_exp, &oinfo, &einfo, NULL);
1001         /* ei_cbdata is used as a free flag at exit */
1002         if (rc)
1003                 einfo.ei_cbdata = NULL;
1004
1005         obd_unpackmd(lov_exp, &lsm, NULL, 0);
1006
1007 out:
1008         /* ma is freed if not used as callback data */
1009         if ((einfo.ei_cbdata == NULL) && ma && ma->ma_som)
1010                 OBD_FREE_PTR(ma->ma_som);
1011         if ((einfo.ei_cbdata == NULL) && ma)
1012                 OBD_FREE_PTR(ma);
1013
1014         RETURN(rc);
1015 }
1016
1017 int mdd_file_unlock(const struct lu_env *env, struct md_object *obj,
1018                     struct lov_mds_md *lmm, struct lustre_handle *lockh)
1019 {
1020         struct obd_device *obd;
1021         struct obd_export *lov_exp;
1022         struct lov_stripe_md *lsm = NULL;
1023         int rc;
1024         ENTRY;
1025
1026         LASSERT(lustre_handle_is_used(lockh));
1027
1028         obd = mdo2mdd(obj)->mdd_obd_dev;
1029         lov_exp = obd->u.mds.mds_lov_exp;
1030
1031         obd_unpackmd(lov_exp, &lsm, lmm,
1032                      lov_mds_md_size(lmm->lmm_stripe_count, lmm->lmm_magic));
1033
1034         rc = obd_cancel(lov_exp, lsm, LCK_GROUP, lockh);
1035
1036         obd_unpackmd(lov_exp, &lsm, NULL, 0);
1037
1038         RETURN(rc);
1039 }