Whamcloud - gitweb
56691e169371ca5858bbd723cc4f041967854413
[fs/lustre-release.git] / lustre / mdd / mdd_lov.c
1 /* -*- mode: c; c-basic-offset: 8; indent-tabs-mode: nil; -*-
2  * vim:expandtab:shiftwidth=8:tabstop=8:
3  *
4  * GPL HEADER START
5  *
6  * DO NOT ALTER OR REMOVE COPYRIGHT NOTICES OR THIS FILE HEADER.
7  *
8  * This program is free software; you can redistribute it and/or modify
9  * it under the terms of the GNU General Public License version 2 only,
10  * as published by the Free Software Foundation.
11  *
12  * This program is distributed in the hope that it will be useful, but
13  * WITHOUT ANY WARRANTY; without even the implied warranty of
14  * MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the GNU
15  * General Public License version 2 for more details (a copy is included
16  * in the LICENSE file that accompanied this code).
17  *
18  * You should have received a copy of the GNU General Public License
19  * version 2 along with this program; If not, see
20  * http://www.sun.com/software/products/lustre/docs/GPLv2.pdf
21  *
22  * Please contact Sun Microsystems, Inc., 4150 Network Circle, Santa Clara,
23  * CA 95054 USA or visit www.sun.com if you need additional information or
24  * have any questions.
25  *
26  * GPL HEADER END
27  */
28 /*
29  * Copyright (c) 2007, 2010, Oracle and/or its affiliates. All rights reserved.
30  * Use is subject to license terms.
31  *
32  * Copyright (c) 2011, 2012, Whamcloud, Inc.
33  */
34 /*
35  * This file is part of Lustre, http://www.lustre.org/
36  * Lustre is a trademark of Sun Microsystems, Inc.
37  *
38  * lustre/mdd/mdd_lov.c
39  *
40  * Lustre Metadata Server (mds) handling of striped file data
41  *
42  * Author: Peter Braam <braam@clusterfs.com>
43  * Author: wangdi <wangdi@clusterfs.com>
44  */
45
46 #ifndef EXPORT_SYMTAB
47 # define EXPORT_SYMTAB
48 #endif
49 #define DEBUG_SUBSYSTEM S_MDS
50
51 #include <linux/module.h>
52 #include <obd.h>
53 #include <obd_class.h>
54 #include <lustre_ver.h>
55 #include <obd_support.h>
56 #include <obd_lov.h>
57 #include <lprocfs_status.h>
58 #include <lustre_mds.h>
59 #include <lustre_fid.h>
60 #include <lustre/lustre_idl.h>
61
62 #include "mdd_internal.h"
63
64 static int mdd_notify(struct obd_device *host, struct obd_device *watched,
65                       enum obd_notify_event ev, void *owner, void *data)
66 {
67         struct mdd_device *mdd = owner;
68         int rc = 0;
69         ENTRY;
70
71         LASSERT(owner != NULL);
72         switch (ev)
73         {
74                 case OBD_NOTIFY_ACTIVE:
75                 case OBD_NOTIFY_SYNC:
76                 case OBD_NOTIFY_SYNC_NONBLOCK:
77                         rc = md_do_upcall(NULL, &mdd->mdd_md_dev,
78                                           MD_LOV_SYNC, data);
79                         break;
80                 case OBD_NOTIFY_CONFIG:
81                         rc = md_do_upcall(NULL, &mdd->mdd_md_dev,
82                                           MD_LOV_CONFIG, data);
83                         break;
84 #ifdef HAVE_QUOTA_SUPPORT
85                 case OBD_NOTIFY_QUOTA:
86                         rc = md_do_upcall(NULL, &mdd->mdd_md_dev,
87                                           MD_LOV_QUOTA, data);
88                         break;
89 #endif
90                 default:
91                         CDEBUG(D_INFO, "Unhandled notification %#x\n", ev);
92         }
93
94         RETURN(rc);
95 }
96
97 /* The obd is created for handling data stack for mdd */
98 int mdd_init_obd(const struct lu_env *env, struct mdd_device *mdd,
99                  struct lustre_cfg *cfg)
100 {
101         char                   *dev = lustre_cfg_string(cfg, 0);
102         int                     rc, name_size, uuid_size;
103         char                   *name, *uuid;
104         __u32                   mds_id;
105         struct lustre_cfg_bufs *bufs;
106         struct lustre_cfg      *lcfg;
107         struct obd_device      *obd;
108         ENTRY;
109
110         mds_id = lu_site2md(mdd2lu_dev(mdd)->ld_site)->ms_node_id;
111         name_size = strlen(MDD_OBD_NAME) + 35;
112         uuid_size = strlen(MDD_OBD_UUID) + 35;
113
114         OBD_ALLOC(name, name_size);
115         OBD_ALLOC(uuid, uuid_size);
116         if (name == NULL || uuid == NULL)
117                 GOTO(cleanup_mem, rc = -ENOMEM);
118
119         OBD_ALLOC_PTR(bufs);
120         if (!bufs)
121                 GOTO(cleanup_mem, rc = -ENOMEM);
122
123         snprintf(name, strlen(MDD_OBD_NAME) + 35, "%s-%s",
124                  MDD_OBD_NAME, dev);
125
126         snprintf(uuid, strlen(MDD_OBD_UUID) + 35, "%s-%s",
127                  MDD_OBD_UUID, dev);
128
129         lustre_cfg_bufs_reset(bufs, name);
130         lustre_cfg_bufs_set_string(bufs, 1, MDD_OBD_TYPE);
131         lustre_cfg_bufs_set_string(bufs, 2, uuid);
132         lustre_cfg_bufs_set_string(bufs, 3, (char*)dev/* MDD_OBD_PROFILE */);
133         lustre_cfg_bufs_set_string(bufs, 4, (char*)dev);
134
135         lcfg = lustre_cfg_new(LCFG_ATTACH, bufs);
136         OBD_FREE_PTR(bufs);
137         if (!lcfg)
138                 GOTO(cleanup_mem, rc = -ENOMEM);
139
140         rc = class_attach(lcfg);
141         if (rc)
142                 GOTO(lcfg_cleanup, rc);
143
144         obd = class_name2obd(name);
145         if (!obd) {
146                 CERROR("Can not find obd %s\n", MDD_OBD_NAME);
147                 LBUG();
148         }
149
150         cfs_spin_lock(&obd->obd_dev_lock);
151         obd->obd_recovering = 1;
152         cfs_spin_unlock(&obd->obd_dev_lock);
153         obd->u.mds.mds_id = mds_id;
154         obd->u.obt.obt_osd_properties.osd_max_ea_size =
155                                                mdd->mdd_dt_conf.ddp_max_ea_size;
156
157         rc = class_setup(obd, lcfg);
158         if (rc)
159                 GOTO(class_detach, rc);
160
161         /*
162          * Add here for obd notify mechanism, when adding a new ost, the mds
163          * will notify this mdd. The mds will be used for quota also.
164          */
165         obd->obd_upcall.onu_upcall = mdd_notify;
166         obd->obd_upcall.onu_owner = mdd;
167         mdd->mdd_obd_dev = obd;
168
169         EXIT;
170 class_detach:
171         if (rc)
172                 class_detach(obd, lcfg);
173 lcfg_cleanup:
174         lustre_cfg_free(lcfg);
175 cleanup_mem:
176         if (name)
177                 OBD_FREE(name, name_size);
178         if (uuid)
179                 OBD_FREE(uuid, uuid_size);
180         return rc;
181 }
182
183 int mdd_fini_obd(const struct lu_env *env, struct mdd_device *mdd,
184                  struct lustre_cfg *lcfg)
185 {
186         struct obd_device      *obd;
187         int rc;
188         ENTRY;
189
190         obd = mdd2obd_dev(mdd);
191         LASSERT(obd);
192
193         rc = class_cleanup(obd, lcfg);
194         if (rc)
195                 GOTO(lcfg_cleanup, rc);
196
197         obd->obd_upcall.onu_upcall = NULL;
198         obd->obd_upcall.onu_owner = NULL;
199         rc = class_detach(obd, lcfg);
200         if (rc)
201                 GOTO(lcfg_cleanup, rc);
202         mdd->mdd_obd_dev = NULL;
203
204         EXIT;
205 lcfg_cleanup:
206         return rc;
207 }
208
209 int mdd_get_md(const struct lu_env *env, struct mdd_object *obj,
210                void *md, int *md_size, const char *name)
211 {
212         int rc;
213         ENTRY;
214
215         rc = mdo_xattr_get(env, obj, mdd_buf_get(env, md, *md_size), name,
216                            mdd_object_capa(env, obj));
217         /*
218          * XXX: Handling of -ENODATA, the right way is to have ->do_md_get()
219          * exported by dt layer.
220          */
221         if (rc == 0 || rc == -ENODATA) {
222                 *md_size = 0;
223                 rc = 0;
224         } else if (rc < 0) {
225                 CERROR("Error %d reading eadata - %d\n", rc, *md_size);
226         } else {
227                 /* XXX: Convert lov EA but fixed after verification test. */
228                 *md_size = rc;
229         }
230
231         RETURN(rc);
232 }
233
234 int mdd_get_md_locked(const struct lu_env *env, struct mdd_object *obj,
235                       void *md, int *md_size, const char *name)
236 {
237         int rc = 0;
238         mdd_read_lock(env, obj, MOR_TGT_CHILD);
239         rc = mdd_get_md(env, obj, md, md_size, name);
240         mdd_read_unlock(env, obj);
241         return rc;
242 }
243
244 static int mdd_lov_set_stripe_md(const struct lu_env *env,
245                                  struct mdd_object *obj, struct lu_buf *buf,
246                                  struct thandle *handle)
247 {
248         struct mdd_device       *mdd = mdo2mdd(&obj->mod_obj);
249         struct obd_device       *obd = mdd2obd_dev(mdd);
250         struct obd_export       *lov_exp = obd->u.mds.mds_lov_exp;
251         struct lov_stripe_md    *lsm = NULL;
252         int rc;
253         ENTRY;
254
255         LASSERT(S_ISDIR(mdd_object_type(obj)) || S_ISREG(mdd_object_type(obj)));
256         rc = obd_iocontrol(OBD_IOC_LOV_SETSTRIPE, lov_exp, 0,
257                            &lsm, buf->lb_buf);
258         if (rc)
259                 RETURN(rc);
260         obd_free_memmd(lov_exp, &lsm);
261
262         rc = mdd_xattr_set_txn(env, obj, buf, XATTR_NAME_LOV, 0, handle);
263
264         CDEBUG(D_INFO, "set lov ea of "DFID" rc %d \n", PFID(mdo2fid(obj)), rc);
265         RETURN(rc);
266 }
267
268 /*
269  * Permission check is done before call it,
270  * no need check again.
271  */
272 static int mdd_lov_set_dir_md(const struct lu_env *env,
273                               struct mdd_object *obj, struct lu_buf *buf,
274                               struct thandle *handle)
275 {
276         struct lov_user_md *lum = NULL;
277         int rc = 0;
278         ENTRY;
279
280         LASSERT(S_ISDIR(mdd_object_type(obj)));
281         lum = (struct lov_user_md*)buf->lb_buf;
282
283         /* if { size, offset, count } = { 0, -1, 0 } and no pool
284          * (i.e. all default values specified) then delete default
285          * striping from dir. */
286         if (LOVEA_DELETE_VALUES(lum->lmm_stripe_size, lum->lmm_stripe_count,
287                                 lum->lmm_stripe_offset) &&
288             lum->lmm_magic != LOV_USER_MAGIC_V3) {
289                 rc = mdd_xattr_set_txn(env, obj, &LU_BUF_NULL,
290                                        XATTR_NAME_LOV, 0, handle);
291                 if (rc == -ENODATA)
292                         rc = 0;
293                 CDEBUG(D_INFO, "delete lov ea of "DFID" rc %d \n",
294                                 PFID(mdo2fid(obj)), rc);
295         } else {
296                 rc = mdd_lov_set_stripe_md(env, obj, buf, handle);
297         }
298         RETURN(rc);
299 }
300
301 int mdd_lsm_sanity_check(const struct lu_env *env,  struct mdd_object *obj)
302 {
303         struct lu_attr   *tmp_la = &mdd_env_info(env)->mti_la;
304         struct md_ucred  *uc     = md_ucred(env);
305         int rc;
306         ENTRY;
307
308         rc = mdd_la_get(env, obj, tmp_la, BYPASS_CAPA);
309         if (rc)
310                 RETURN(rc);
311
312         if ((uc->mu_fsuid != tmp_la->la_uid) &&
313             !mdd_capable(uc, CFS_CAP_FOWNER))
314                 rc = mdd_permission_internal_locked(env, obj, tmp_la,
315                                                     MAY_WRITE, MOR_TGT_CHILD);
316
317         RETURN(rc);
318 }
319
320 int mdd_lov_set_md(const struct lu_env *env, struct mdd_object *pobj,
321                    struct mdd_object *child, struct lov_mds_md *lmmp,
322                    int lmm_size, struct thandle *handle, int set_stripe)
323 {
324         struct lu_buf *buf;
325         cfs_umode_t mode;
326         int rc = 0;
327         ENTRY;
328
329         buf = mdd_buf_get(env, lmmp, lmm_size);
330         mode = mdd_object_type(child);
331         if (S_ISREG(mode) && lmm_size > 0) {
332                 if (set_stripe) {
333                         rc = mdd_lov_set_stripe_md(env, child, buf, handle);
334                 } else {
335                         rc = mdd_xattr_set_txn(env, child, buf,
336                                                XATTR_NAME_LOV, 0, handle);
337                 }
338         } else if (S_ISDIR(mode)) {
339                 if (lmmp == NULL && lmm_size == 0) {
340                         struct mdd_device *mdd = mdd_obj2mdd_dev(child);
341                         struct lov_mds_md *lmm = mdd_max_lmm_get(env, mdd);
342                         int size = sizeof(struct lov_mds_md_v3);
343
344                         /* Get parent dir stripe and set */
345                         if (pobj != NULL)
346                                 rc = mdd_get_md_locked(env, pobj, lmm, &size,
347                                                        XATTR_NAME_LOV);
348                         if (rc > 0) {
349                                 buf = mdd_buf_get(env, lmm, size);
350                                 rc = mdd_xattr_set_txn(env, child, buf,
351                                                        XATTR_NAME_LOV, 0,
352                                                        handle);
353                                 if (rc)
354                                         CERROR("error on copy stripe info: rc "
355                                                 "= %d\n", rc);
356                         }
357                 } else {
358                         LASSERT(lmmp != NULL && lmm_size > 0);
359                         rc = mdd_lov_set_dir_md(env, child, buf, handle);
360                 }
361         }
362         CDEBUG(D_INFO, "Set lov md %p size %d for fid "DFID" rc %d\n",
363                         lmmp, lmm_size, PFID(mdo2fid(child)), rc);
364         RETURN(rc);
365 }
366
367 int mdd_lov_objid_prepare(struct mdd_device *mdd, struct lov_mds_md *lmm)
368 {
369         /* copy mds_lov code is using wrong layer */
370         return mds_lov_prepare_objids(mdd->mdd_obd_dev, lmm);
371 }
372
373 int mdd_declare_lov_objid_update(const struct lu_env *env,
374                                  struct mdd_device *mdd,
375                                  struct thandle *handle)
376 {
377         struct obd_device *obd = mdd2obd_dev(mdd);
378         int size;
379
380         /* in prepare we create local files */
381         if (unlikely(mdd->mdd_capa == NULL))
382                 return 0;
383
384         /* XXX: this is a temporary solution to declare llog changes
385          *      will be fixed in 2.3 with new llog implementation */
386
387         size = obd->u.mds.mds_lov_desc.ld_tgt_count * sizeof(obd_id);
388         return dt_declare_record_write(env, mdd->mdd_capa, size, 0, handle);
389 }
390
391 void mdd_lov_objid_update(struct mdd_device *mdd, struct lov_mds_md *lmm)
392 {
393         /* copy mds_lov code is using wrong layer */
394         mds_lov_update_objids(mdd->mdd_obd_dev, lmm);
395 }
396
397 void mdd_lov_create_finish(const struct lu_env *env, struct mdd_device *mdd,
398                            struct lov_mds_md *lmm, int lmm_size,
399                            const struct md_op_spec *spec)
400 {
401         if (lmm && !spec->no_create)
402                 OBD_FREE_LARGE(lmm, lmm_size);
403 }
404
405 int mdd_lov_create(const struct lu_env *env, struct mdd_device *mdd,
406                    struct mdd_object *parent, struct mdd_object *child,
407                    struct lov_mds_md **lmm, int *lmm_size,
408                    const struct md_op_spec *spec, struct md_attr *ma)
409 {
410         struct obd_device     *obd = mdd2obd_dev(mdd);
411         struct obd_export     *lov_exp = obd->u.mds.mds_lov_exp;
412         struct lu_site        *site = mdd2lu_dev(mdd)->ld_site;
413         struct obdo           *oa;
414         struct lov_stripe_md  *lsm = NULL;
415         const void            *eadata = spec->u.sp_ea.eadata;
416         __u64                  create_flags = spec->sp_cr_flags;
417         struct obd_trans_info *oti = &mdd_env_info(env)->mti_oti;
418         struct lu_attr        *la = &ma->ma_attr;
419         int                    rc = 0;
420         ENTRY;
421
422         if (!md_should_create(create_flags)) {
423                 *lmm_size = 0;
424                 RETURN(0);
425         }
426         oti_init(oti, NULL);
427
428         /* replay case, has objects already, only get lov from eadata */
429         if (spec->no_create != 0) {
430                 *lmm = (struct lov_mds_md *)spec->u.sp_ea.eadata;
431                 *lmm_size = spec->u.sp_ea.eadatalen;
432                 if (*lmm_size == lov_mds_md_size((*lmm)->lmm_stripe_count,
433                                                  (*lmm)->lmm_magic)) {
434                         RETURN(0);
435                 } else {
436                         CERROR("incorrect lsm received during recovery\n");
437                         RETURN(-EPROTO);
438                 }
439         }
440
441         if (OBD_FAIL_CHECK(OBD_FAIL_MDS_ALLOC_OBDO))
442                 GOTO(out_ids, rc = -ENOMEM);
443
444         LASSERT(lov_exp != NULL);
445         oa = &mdd_env_info(env)->mti_oa;
446
447         oa->o_uid = 0; /* must have 0 uid / gid on OST */
448         oa->o_gid = 0;
449         oa->o_seq = mdt_to_obd_objseq(lu_site2md(site)->ms_node_id);
450         oa->o_mode = S_IFREG | 0600;
451         oa->o_id = fid_ver_oid(mdd_object_fid(child));
452         oa->o_valid = OBD_MD_FLID | OBD_MD_FLTYPE | OBD_MD_FLFLAGS |
453                 OBD_MD_FLMODE | OBD_MD_FLUID | OBD_MD_FLGID | OBD_MD_FLGROUP;
454         oa->o_size = 0;
455
456         if (!(create_flags & MDS_OPEN_HAS_OBJS)) {
457                 if (create_flags & MDS_OPEN_HAS_EA) {
458                         LASSERT(eadata != NULL);
459                         rc = obd_iocontrol(OBD_IOC_LOV_SETSTRIPE, lov_exp,
460                                            0, &lsm, (void*)eadata);
461                         if (rc)
462                                 GOTO(out_oti, rc);
463                 } else {
464                         /* get lov ea from parent and set to lov */
465                         struct lov_mds_md *_lmm;
466                         int _lmm_size;
467
468                         LASSERT(parent != NULL);
469
470                         _lmm_size = mdd_lov_mdsize(env, mdd);
471                         _lmm = mdd_max_lmm_get(env, mdd);
472
473                         if (_lmm == NULL)
474                                 GOTO(out_oti, rc = -ENOMEM);
475
476                         rc = mdd_get_md_locked(env, parent, _lmm,
477                                                &_lmm_size,
478                                                XATTR_NAME_LOV);
479                         if (rc > 0)
480                                 rc = obd_iocontrol(OBD_IOC_LOV_SETSTRIPE,
481                                                    lov_exp, *lmm_size,
482                                                    &lsm, _lmm);
483
484                         if (rc)
485                                 GOTO(out_oti, rc);
486                 }
487
488                 OBD_FAIL_TIMEOUT(OBD_FAIL_MDS_OPEN_WAIT_CREATE, 10);
489                 rc = obd_create(lov_exp, oa, &lsm, oti);
490                 if (rc) {
491                         if (rc > 0) {
492                                 CERROR("Create error for "DFID": %d\n",
493                                        PFID(mdo2fid(child)), rc);
494                                 rc = -EIO;
495                         }
496                         GOTO(out_oti, rc);
497                 }
498
499                 if (ma->ma_valid & MA_LAY_GEN)
500                         /* If we already have a lsm, the file is not new and we
501                          * are about to change the layout, so we have to bump
502                          * the generation. It is worth noting that old versions
503                          * will be confused by a non-zero gen, that's why
504                          * OBD_INCOMPAT_LMM_VER has been introduced */
505                         lsm->lsm_layout_gen = ma->ma_layout_gen + 1;
506                 else
507                         /* Start with a null generation for backward
508                          * compatiblity with old versions */
509                         lsm->lsm_layout_gen = 0;
510
511                 LASSERT_SEQ_IS_MDT(lsm->lsm_object_seq);
512         } else {
513                 LASSERT(eadata != NULL);
514                 rc = obd_iocontrol(OBD_IOC_LOV_SETEA, lov_exp, 0, &lsm,
515                                    (void*)eadata);
516                 if (rc)
517                         GOTO(out_oti, rc);
518
519                 if (ma->ma_valid & MA_LAY_GEN)
520                         lsm->lsm_layout_gen = ma->ma_layout_gen;
521                 else
522                         lsm->lsm_layout_gen = 0;
523         }
524
525         lsm->lsm_object_id = fid_ver_oid(mdd_object_fid(child));
526         lsm->lsm_object_seq = fid_seq(mdd_object_fid(child));
527         /*
528          * Sometimes, we may truncate some object(without lsm) then open it
529          * (with write flags), so creating lsm above.  The Nonzero(truncated)
530          * size should tell ost, since size attr is in charge by OST.
531          */
532         if (la->la_size && la->la_valid & LA_SIZE) {
533                 struct obd_info *oinfo = &mdd_env_info(env)->mti_oi;
534
535                 memset(oinfo, 0, sizeof(*oinfo));
536
537                 /* When setting attr to ost, FLBKSZ is not needed. */
538                 oa->o_valid &= ~OBD_MD_FLBLKSZ;
539                 obdo_from_la(oa, la, OBD_MD_FLTYPE | OBD_MD_FLATIME |
540                              OBD_MD_FLMTIME | OBD_MD_FLCTIME | OBD_MD_FLSIZE);
541
542                 /*
543                  * XXX: Pack lustre id to OST, in OST, it will be packed by
544                  * filter_fid, but can not see what is the usages. So just pack
545                  * o_seq o_ver here, maybe fix it after this cycle.
546                  */
547                 obdo_from_inode(oa, NULL,
548                                 (struct lu_fid *)mdd_object_fid(child), 0);
549                 oinfo->oi_oa = oa;
550                 oinfo->oi_md = lsm;
551                 oinfo->oi_capa = NULL;
552                 oinfo->oi_policy.l_extent.start = la->la_size;
553                 oinfo->oi_policy.l_extent.end = OBD_OBJECT_EOF;
554
555                 rc = obd_punch_rqset(lov_exp, oinfo, oti);
556                 if (rc) {
557                         CERROR("Error setting attrs for "DFID": rc %d\n",
558                                PFID(mdo2fid(child)), rc);
559                         if (rc > 0) {
560                                 CERROR("obd_setattr for "DFID" rc %d\n",
561                                         PFID(mdo2fid(child)), rc);
562                                 rc = -EIO;
563                         }
564                         GOTO(out_oti, rc);
565                 }
566         }
567         /* blksize should be changed after create data object */
568         la->la_valid |= LA_BLKSIZE;
569         la->la_blksize = oa->o_blksize;
570         *lmm = NULL;
571         rc = obd_packmd(lov_exp, lmm, lsm);
572         if (rc < 0) {
573                 CERROR("Cannot pack lsm, err = %d\n", rc);
574                 GOTO(out_oti, rc);
575         }
576         if (mdd_lov_objid_prepare(mdd, *lmm) != 0) {
577                 CERROR("Not have memory for update objid\n");
578                 OBD_FREE(*lmm, rc);
579                 *lmm = NULL;
580                 GOTO(out_oti, rc = -ENOMEM);
581         }
582         *lmm_size = rc;
583         rc = 0;
584         EXIT;
585 out_oti:
586         oti_free_cookies(oti);
587 out_ids:
588         if (lsm)
589                 obd_free_memmd(lov_exp, &lsm);
590
591         return rc;
592 }
593
594 /*
595  * used when destroying orphans and from mds_reint_unlink() when MDS wants to
596  * destroy objects on OSS.
597  */
598 int mdd_lovobj_unlink(const struct lu_env *env, struct mdd_device *mdd,
599                       struct mdd_object *obj, struct lu_attr *la,
600                       struct lov_mds_md *lmm, int lmm_size,
601                       struct llog_cookie *logcookies,
602                       int log_unlink)
603 {
604         struct obd_device     *obd = mdd2obd_dev(mdd);
605         struct obd_export     *lov_exp = obd->u.mds.mds_lov_exp;
606         struct lov_stripe_md  *lsm = NULL;
607         struct obd_trans_info *oti = &mdd_env_info(env)->mti_oti;
608         struct obdo           *oa = &mdd_env_info(env)->mti_oa;
609         struct lu_site        *site = mdd2lu_dev(mdd)->ld_site;
610         int rc;
611         ENTRY;
612
613         if (lmm_size == 0)
614                 RETURN(0);
615
616         rc = obd_unpackmd(lov_exp, &lsm, lmm, lmm_size);
617         if (rc < 0) {
618                 CERROR("Error unpack md %p\n", lmm);
619                 RETURN(rc);
620         } else {
621                 LASSERT(rc >= sizeof(*lsm));
622                 rc = 0;
623         }
624
625         oa->o_id = lsm->lsm_object_id;
626         oa->o_seq = mdt_to_obd_objseq(lu_site2md(site)->ms_node_id);
627         oa->o_mode = la->la_mode & S_IFMT;
628         oa->o_valid = OBD_MD_FLID | OBD_MD_FLTYPE | OBD_MD_FLGROUP;
629
630         oti_init(oti, NULL);
631         if (log_unlink && logcookies) {
632                 oa->o_valid |= OBD_MD_FLCOOKIE;
633                 oti->oti_logcookies = logcookies;
634         }
635
636         CDEBUG(D_INFO, "destroying OSS object "LPU64":"LPU64"\n", oa->o_seq,
637                oa->o_id);
638
639         rc = obd_destroy(lov_exp, oa, lsm, oti, NULL, NULL);
640
641         obd_free_memmd(lov_exp, &lsm);
642         RETURN(rc);
643 }
644
645 /*
646  * called with obj locked.
647  */
648 int mdd_lov_destroy(const struct lu_env *env, struct mdd_device *mdd,
649                     struct mdd_object *obj, struct lu_attr *la)
650 {
651         struct md_attr    *ma = &mdd_env_info(env)->mti_ma;
652         int                rc;
653         ENTRY;
654
655         LASSERT(mdd_write_locked(env, obj) != 0);
656
657         if (unlikely(!S_ISREG(mdd_object_type(obj))))
658                 RETURN(0);
659
660         if (unlikely(la->la_nlink != 0)) {
661                 CWARN("Attempt to destroy OSS object when nlink == %d\n",
662                       la->la_nlink);
663                 RETURN(0);
664         }
665
666         ma->ma_lmm_size = mdd_lov_mdsize(env, mdd);
667         ma->ma_lmm = mdd_max_lmm_get(env, mdd);
668         ma->ma_cookie_size = mdd_lov_cookiesize(env, mdd);
669         ma->ma_cookie = mdd_max_cookie_get(env, mdd);
670         if (ma->ma_lmm == NULL || ma->ma_cookie == NULL)
671                 RETURN(rc = -ENOMEM);
672
673         /* get lov ea */
674
675         rc = mdd_get_md(env, obj, ma->ma_lmm, &ma->ma_lmm_size,
676                         XATTR_NAME_LOV);
677
678         if (rc <= 0) {
679                 CWARN("Get lov ea failed for "DFID" rc = %d\n",
680                          PFID(mdo2fid(obj)), rc);
681                 if (rc == 0)
682                         rc = -ENOENT;
683                 RETURN(rc);
684         }
685
686         ma->ma_valid = MA_LOV;
687
688         rc = mdd_unlink_log(env, mdd, obj, ma);
689         if (rc) {
690                 CWARN("mds unlink log for "DFID" failed: %d\n",
691                        PFID(mdo2fid(obj)), rc);
692                 RETURN(rc);
693         }
694
695         if (ma->ma_valid & MA_COOKIE)
696                 rc = mdd_lovobj_unlink(env, mdd, obj, la,
697                                        ma->ma_lmm, ma->ma_lmm_size,
698                                        ma->ma_cookie, 1);
699         RETURN(rc);
700 }
701
702 int mdd_declare_unlink_log(const struct lu_env *env, struct mdd_object *obj,
703                            struct md_attr *ma, struct thandle *handle)
704 {
705         struct mdd_device *mdd = mdo2mdd(&obj->mod_obj);
706         int rc, i;
707         __u16 stripe;
708
709         LASSERT(obj);
710         LASSERT(ma);
711
712         if (!S_ISREG(lu_object_attr(&obj->mod_obj.mo_lu)))
713                 return 0;
714
715         rc = mdd_lmm_get_locked(env, obj, ma);
716         if (rc || !(ma->ma_valid & MA_LOV))
717                 return rc;
718
719         LASSERT(ma->ma_lmm);
720         if (le32_to_cpu(ma->ma_lmm->lmm_magic) != LOV_MAGIC_V1 &&
721                         le32_to_cpu(ma->ma_lmm->lmm_magic) != LOV_MAGIC_V3) {
722                 CERROR("%s: invalid LOV_MAGIC %08x on object "DFID"\n",
723                                 mdd->mdd_obd_dev->obd_name,
724                                 le32_to_cpu(ma->ma_lmm->lmm_magic),
725                                 PFID(lu_object_fid(&obj->mod_obj.mo_lu)));
726                 return -EINVAL;
727         }
728
729         stripe = le16_to_cpu(ma->ma_lmm->lmm_stripe_count);
730         if (stripe == LOV_ALL_STRIPES);
731                 stripe = mdd2obd_dev(mdd)->u.mds.mds_lov_desc.ld_tgt_count;
732
733         for (i = 0; i < stripe; i++) {
734                 rc = mdd_declare_llog_record(env, mdd,
735                                              sizeof(struct llog_unlink_rec),
736                                              handle);
737                 if (rc)
738                         return rc;
739         }
740
741         return rc;
742 }
743
744 int mdd_unlink_log(const struct lu_env *env, struct mdd_device *mdd,
745                    struct mdd_object *mdd_cobj, struct md_attr *ma)
746 {
747         LASSERT(ma->ma_valid & MA_LOV);
748
749         if ((ma->ma_cookie_size > 0) &&
750             (mds_log_op_unlink(mdd2obd_dev(mdd), ma->ma_lmm, ma->ma_lmm_size,
751                                ma->ma_cookie, ma->ma_cookie_size) > 0)) {
752                 CDEBUG(D_HA, "DEBUG: unlink log is added for object "DFID"\n",
753                        PFID(mdd_object_fid(mdd_cobj)));
754                 ma->ma_valid |= MA_COOKIE;
755         }
756         return 0;
757 }
758
759 int mdd_log_op_setattr(struct obd_device *obd, __u32 uid, __u32 gid,
760                        struct lov_mds_md *lmm, int lmm_size,
761                        struct llog_cookie *logcookies, int cookies_size)
762 {
763         struct mds_obd *mds = &obd->u.mds;
764         struct lov_stripe_md *lsm = NULL;
765         struct llog_setattr64_rec *lsr;
766         struct llog_ctxt *ctxt;
767         int rc;
768         ENTRY;
769
770         if (IS_ERR(mds->mds_lov_obd))
771                 RETURN(PTR_ERR(mds->mds_lov_obd));
772
773         rc = obd_unpackmd(mds->mds_lov_exp, &lsm, lmm, lmm_size);
774         if (rc < 0)
775                 RETURN(rc);
776
777         OBD_ALLOC(lsr, sizeof(*lsr));
778         if (!lsr)
779                 GOTO(out, rc = -ENOMEM);
780
781         /* prepare setattr log record */
782         lsr->lsr_hdr.lrh_len = lsr->lsr_tail.lrt_len = sizeof(*lsr);
783         lsr->lsr_hdr.lrh_type = MDS_SETATTR64_REC;
784         lsr->lsr_uid = uid;
785         lsr->lsr_gid = gid;
786
787         /* write setattr log */
788         ctxt = llog_get_context(obd, LLOG_MDS_OST_ORIG_CTXT);
789         rc = llog_add(ctxt, &lsr->lsr_hdr, lsm, logcookies,
790                       cookies_size / sizeof(struct llog_cookie));
791
792         llog_ctxt_put(ctxt);
793
794         OBD_FREE(lsr, sizeof(*lsr));
795  out:
796         obd_free_memmd(mds->mds_lov_exp, &lsm);
797         RETURN(rc);
798 }
799
800 int mdd_setattr_log(const struct lu_env *env, struct mdd_device *mdd,
801                     const struct md_attr *ma,
802                     struct lov_mds_md *lmm, int lmm_size,
803                     struct llog_cookie *logcookies, int cookies_size)
804 {
805         struct obd_device *obd = mdd2obd_dev(mdd);
806
807         /* journal chown/chgrp in llog, just like unlink */
808         if (lmm_size > 0) {
809                 CDEBUG(D_INFO, "setattr llog for uid/gid=%lu/%lu\n",
810                         (unsigned long)ma->ma_attr.la_uid,
811                         (unsigned long)ma->ma_attr.la_gid);
812                 return mdd_log_op_setattr(obd, ma->ma_attr.la_uid,
813                                           ma->ma_attr.la_gid, lmm,
814                                           lmm_size, logcookies,
815                                           cookies_size);
816         } else
817                 return 0;
818 }
819
820 static int mdd_osc_setattr_async(struct obd_device *obd, __u32 uid, __u32 gid,
821                           struct lov_mds_md *lmm, int lmm_size,
822                           struct llog_cookie *logcookies, const struct lu_fid *parent,
823                           struct obd_capa *oc)
824 {
825         struct mds_obd *mds = &obd->u.mds;
826         struct obd_trans_info oti = { 0 };
827         struct obd_info oinfo = { { { 0 } } };
828         int rc;
829         ENTRY;
830
831         if (OBD_FAIL_CHECK(OBD_FAIL_MDS_OST_SETATTR))
832                 RETURN(0);
833
834         /* first get memory EA */
835         OBDO_ALLOC(oinfo.oi_oa);
836         if (!oinfo.oi_oa)
837                 RETURN(-ENOMEM);
838
839         LASSERT(lmm);
840
841         rc = obd_unpackmd(mds->mds_lov_exp, &oinfo.oi_md, lmm, lmm_size);
842         if (rc < 0) {
843                 CERROR("Error unpack md %p for obj "DFID"\n", lmm,
844                         PFID(parent));
845                 GOTO(out, rc);
846         }
847
848         /* then fill oa */
849         oinfo.oi_oa->o_uid = uid;
850         oinfo.oi_oa->o_gid = gid;
851         oinfo.oi_oa->o_id = oinfo.oi_md->lsm_object_id;
852         oinfo.oi_oa->o_seq = oinfo.oi_md->lsm_object_seq;
853         oinfo.oi_oa->o_valid |= OBD_MD_FLID | OBD_MD_FLGROUP |
854                                 OBD_MD_FLUID | OBD_MD_FLGID;
855         if (logcookies) {
856                 oinfo.oi_oa->o_valid |= OBD_MD_FLCOOKIE;
857                 oti.oti_logcookies = logcookies;
858         }
859
860         obdo_from_inode(oinfo.oi_oa, NULL, (struct lu_fid *)parent, 0);
861         oinfo.oi_capa = oc;
862
863         /* do async setattr from mds to ost not waiting for responses. */
864         rc = obd_setattr_async(mds->mds_lov_exp, &oinfo, &oti, NULL);
865         if (rc)
866                 CDEBUG(D_INODE, "mds to ost setattr objid 0x"LPX64
867                        " on ost error %d\n", oinfo.oi_md->lsm_object_id, rc);
868 out:
869         if (oinfo.oi_md)
870                 obd_free_memmd(mds->mds_lov_exp, &oinfo.oi_md);
871         OBDO_FREE(oinfo.oi_oa);
872         RETURN(rc);
873 }
874
875 int mdd_lov_setattr_async(const struct lu_env *env, struct mdd_object *obj,
876                           struct lov_mds_md *lmm, int lmm_size,
877                           struct llog_cookie *logcookies)
878 {
879         struct mdd_device   *mdd = mdo2mdd(&obj->mod_obj);
880         struct obd_device   *obd = mdd2obd_dev(mdd);
881         struct lu_attr      *tmp_la = &mdd_env_info(env)->mti_la;
882         const struct lu_fid *fid = mdd_object_fid(obj);
883         int rc = 0;
884         ENTRY;
885
886         mdd_read_lock(env, obj, MOR_TGT_CHILD);
887         rc = mdo_attr_get(env, obj, tmp_la, mdd_object_capa(env, obj));
888         mdd_read_unlock(env, obj);
889         if (rc)
890                 RETURN(rc);
891
892         rc = mdd_osc_setattr_async(obd, tmp_la->la_uid, tmp_la->la_gid, lmm,
893                                    lmm_size, logcookies, fid, NULL);
894         RETURN(rc);
895 }
896
897 static int grouplock_blocking_ast(struct ldlm_lock *lock,
898                                   struct ldlm_lock_desc *desc,
899                                   void *data, int flag)
900 {
901         struct md_attr *ma = data;
902         struct lustre_handle lockh;
903         int rc = 0;
904         ENTRY;
905
906         switch (flag)
907         {
908                 case LDLM_CB_BLOCKING :
909                         /* lock is canceled */
910                         CDEBUG(D_DLMTRACE, "Lock %p is canceled\n", lock);
911
912                         ldlm_lock2handle(lock, &lockh);
913                         rc = ldlm_cli_cancel(&lockh);
914
915                         break;
916                 case LDLM_CB_CANCELING :
917                         CDEBUG(D_DLMTRACE,
918                                "Lock %p has been canceled, do cleaning\n",
919                                lock);
920
921                         if (ma && ma->ma_som)
922                                 OBD_FREE_PTR(ma->ma_som);
923                         if (ma)
924                                 OBD_FREE_PTR(ma);
925                         break;
926                 default:
927                         LBUG();
928         }
929         RETURN(rc);
930 }
931
932 static int grouplock_glimpse_ast(struct ldlm_lock *lock, void *data)
933 {
934         struct ptlrpc_request *req = data;
935         struct ost_lvb *lvb;
936         int rc;
937         struct md_attr *ma;
938         ENTRY;
939
940         ma = lock->l_ast_data;
941
942         req_capsule_extend(&req->rq_pill, &RQF_LDLM_GL_CALLBACK);
943         req_capsule_set_size(&req->rq_pill, &RMF_DLM_LVB, RCL_SERVER,
944                              sizeof(*lvb));
945         rc = req_capsule_server_pack(&req->rq_pill);
946         if (rc) {
947                 CERROR("failed pack reply: %d\n", rc);
948                 GOTO(out, rc);
949         }
950
951         lvb = req_capsule_server_get(&req->rq_pill, &RMF_DLM_LVB);
952
953         if ((ma) && (ma->ma_valid & MA_SOM)) {
954                 lvb->lvb_size = ma->ma_som->msd_size;
955                 lvb->lvb_blocks = ma->ma_som->msd_blocks;
956         } else if ((ma) && (ma->ma_valid & MA_INODE)) {
957                 lvb->lvb_size = ma->ma_attr.la_size;
958                 lvb->lvb_blocks = ma->ma_attr.la_blocks;
959         } else {
960                 lvb->lvb_size = 0;
961                 rc = -ELDLM_NO_LOCK_DATA;
962         }
963
964         EXIT;
965 out:
966         if (rc == -ELDLM_NO_LOCK_DATA)
967                 lustre_pack_reply(req, 1, NULL, NULL);
968
969         req->rq_status = rc;
970         return rc;
971 }
972
973 int mdd_file_lock(const struct lu_env *env, struct md_object *obj,
974                   struct lov_mds_md *lmm, struct ldlm_extent *extent,
975                   struct lustre_handle *lockh)
976 {
977         struct ldlm_enqueue_info einfo = { 0 };
978         struct obd_info oinfo = { { { 0 } } };
979         struct obd_device *obd;
980         struct obd_export *lov_exp;
981         struct lov_stripe_md *lsm = NULL;
982         struct md_attr *ma = NULL;
983         int rc;
984         ENTRY;
985
986         obd = mdo2mdd(obj)->mdd_obd_dev;
987         lov_exp = obd->u.mds.mds_lov_exp;
988
989         obd_unpackmd(lov_exp, &lsm, lmm,
990                      lov_mds_md_size(lmm->lmm_stripe_count, lmm->lmm_magic));
991
992         OBD_ALLOC_PTR(ma);
993         if (ma == NULL)
994                 GOTO(out, rc = -ENOMEM);
995
996         OBD_ALLOC_PTR(ma->ma_som);
997         if (ma->ma_som == NULL)
998                 GOTO(out, rc = -ENOMEM);
999
1000         ma->ma_need = MA_SOM | MA_INODE;
1001         mo_attr_get(env, obj, ma);
1002
1003         einfo.ei_type = LDLM_EXTENT;
1004         einfo.ei_mode = LCK_GROUP;
1005         einfo.ei_cb_bl = grouplock_blocking_ast;
1006         einfo.ei_cb_cp = ldlm_completion_ast;
1007         einfo.ei_cb_gl = grouplock_glimpse_ast;
1008
1009         if (ma->ma_valid & (MA_SOM | MA_INODE))
1010                 einfo.ei_cbdata = ma;
1011         else
1012                 einfo.ei_cbdata = NULL;
1013
1014         memset(&oinfo.oi_policy, 0, sizeof(oinfo.oi_policy));
1015         oinfo.oi_policy.l_extent = *extent;
1016         oinfo.oi_lockh = lockh;
1017         oinfo.oi_md = lsm;
1018         oinfo.oi_flags = 0;
1019
1020         rc = obd_enqueue(lov_exp, &oinfo, &einfo, NULL);
1021         /* ei_cbdata is used as a free flag at exit */
1022         if (rc)
1023                 einfo.ei_cbdata = NULL;
1024
1025         obd_unpackmd(lov_exp, &lsm, NULL, 0);
1026
1027 out:
1028         /* ma is freed if not used as callback data */
1029         if ((einfo.ei_cbdata == NULL) && ma && ma->ma_som)
1030                 OBD_FREE_PTR(ma->ma_som);
1031         if ((einfo.ei_cbdata == NULL) && ma)
1032                 OBD_FREE_PTR(ma);
1033
1034         RETURN(rc);
1035 }
1036
1037 int mdd_file_unlock(const struct lu_env *env, struct md_object *obj,
1038                     struct lov_mds_md *lmm, struct lustre_handle *lockh)
1039 {
1040         struct obd_device *obd;
1041         struct obd_export *lov_exp;
1042         struct lov_stripe_md *lsm = NULL;
1043         int rc;
1044         ENTRY;
1045
1046         LASSERT(lustre_handle_is_used(lockh));
1047
1048         obd = mdo2mdd(obj)->mdd_obd_dev;
1049         lov_exp = obd->u.mds.mds_lov_exp;
1050
1051         obd_unpackmd(lov_exp, &lsm, lmm,
1052                      lov_mds_md_size(lmm->lmm_stripe_count, lmm->lmm_magic));
1053
1054         rc = obd_cancel(lov_exp, lsm, LCK_GROUP, lockh);
1055
1056         obd_unpackmd(lov_exp, &lsm, NULL, 0);
1057
1058         RETURN(rc);
1059 }
1060
1061 /* file lov is in ma->ma_lmm */
1062 /* requested lov is in info->mti_spec.u.sp_ea.eadata */
1063 int mdd_lum_lmm_cmp(const struct lu_env *env, struct md_object *cobj,
1064                     const struct md_op_spec *spec, struct md_attr *ma)
1065 {
1066         struct obd_export *lov_exp =
1067                 mdd2obd_dev(mdo2mdd(cobj))->u.mds.mds_lov_exp;
1068         struct lov_mds_md *lmm = ma->ma_lmm;
1069         struct lov_user_md_v3 *lum =
1070                 (struct lov_user_md_v3 *)(spec->u.sp_ea.eadata);
1071         struct lov_stripe_md *lsm = NULL;
1072         int lmm_magic, rc;
1073         ENTRY;
1074
1075         rc = obd_unpackmd(lov_exp, &lsm, lmm,
1076                           lov_mds_md_size(lmm->lmm_stripe_count,
1077                                           lmm->lmm_magic));
1078         ma->ma_layout_gen = lsm->lsm_layout_gen;
1079         ma->ma_valid |= MA_LAY_GEN;
1080
1081         rc = lov_lum_swab_if_needed(lum, &lmm_magic, NULL);
1082         if (rc)
1083                 GOTO(out, rc);
1084
1085         rc = lov_lum_lsm_cmp((struct lov_user_md *)lum, lsm);
1086         if (rc)
1087                 GOTO(out, rc);  /* keep GOTO to for traces */
1088
1089 out:
1090         /* free lsm */
1091         obd_unpackmd(lov_exp, &lsm, NULL, 0);
1092         return rc;
1093 }