Whamcloud - gitweb
f6fd068d0ddf8a1b7efd47b4528efa11f2b08a96
[fs/lustre-release.git] / lustre / ofd / ofd_objects.c
1 /*
2  * GPL HEADER START
3  *
4  * DO NOT ALTER OR REMOVE COPYRIGHT NOTICES OR THIS FILE HEADER.
5  *
6  * This program is free software; you can redistribute it and/or modify
7  * it under the terms of the GNU General Public License version 2 only,
8  * as published by the Free Software Foundation.
9  *
10  * This program is distributed in the hope that it will be useful, but
11  * WITHOUT ANY WARRANTY; without even the implied warranty of
12  * MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the GNU
13  * General Public License version 2 for more details (a copy is included
14  * in the LICENSE file that accompanied this code).
15  *
16  * You should have received a copy of the GNU General Public License
17  * version 2 along with this program; If not, see
18  * http://www.sun.com/software/products/lustre/docs/GPLv2.pdf
19  *
20  * Please contact Sun Microsystems, Inc., 4150 Network Circle, Santa Clara,
21  * CA 95054 USA or visit www.sun.com if you need additional information or
22  * have any questions.
23  *
24  * GPL HEADER END
25  */
26 /*
27  * Copyright (c) 2009, 2010, Oracle and/or its affiliates. All rights reserved.
28  * Use is subject to license terms.
29  *
30  * Copyright (c) 2012, 2013, Intel Corporation.
31  */
32 /*
33  * This file is part of Lustre, http://www.lustre.org/
34  * Lustre is a trademark of Sun Microsystems, Inc.
35  *
36  * lustre/ofd/ofd_objects.c
37  *
38  * Author: Alex Zhuravlev <bzzz@whamcloud.com>
39  * Author: Mikhail Pershin <tappro@whamcloud.com>
40  */
41
42 #define DEBUG_SUBSYSTEM S_FILTER
43
44 #include <dt_object.h>
45 #include <lustre/lustre_idl.h>
46
47 #include "ofd_internal.h"
48
49 int ofd_version_get_check(struct ofd_thread_info *info,
50                           struct ofd_object *fo)
51 {
52         dt_obj_version_t curr_version;
53
54         LASSERT(ofd_object_exists(fo));
55         LASSERT(info->fti_exp);
56
57         curr_version = dt_version_get(info->fti_env, ofd_object_child(fo));
58         if ((__s64)curr_version == -EOPNOTSUPP)
59                 RETURN(0);
60         /* VBR: version is checked always because costs nothing */
61         if (info->fti_pre_version != 0 &&
62             info->fti_pre_version != curr_version) {
63                 CDEBUG(D_INODE, "Version mismatch "LPX64" != "LPX64"\n",
64                        info->fti_pre_version, curr_version);
65                 spin_lock(&info->fti_exp->exp_lock);
66                 info->fti_exp->exp_vbr_failed = 1;
67                 spin_unlock(&info->fti_exp->exp_lock);
68                 RETURN (-EOVERFLOW);
69         }
70         info->fti_pre_version = curr_version;
71         RETURN(0);
72 }
73
74 struct ofd_object *ofd_object_find(const struct lu_env *env,
75                                    struct ofd_device *ofd,
76                                    const struct lu_fid *fid)
77 {
78         struct ofd_object *fo;
79         struct lu_object  *o;
80
81         ENTRY;
82
83         o = lu_object_find(env, &ofd->ofd_dt_dev.dd_lu_dev, fid, NULL);
84         if (likely(!IS_ERR(o)))
85                 fo = ofd_obj(o);
86         else
87                 fo = ERR_CAST(o); /* return error */
88
89         RETURN(fo);
90 }
91
92 struct ofd_object *ofd_object_find_or_create(const struct lu_env *env,
93                                              struct ofd_device *ofd,
94                                              const struct lu_fid *fid,
95                                              struct lu_attr *attr)
96 {
97         struct ofd_thread_info  *info = ofd_info(env);
98         struct lu_object        *fo_obj;
99         struct dt_object        *dto;
100
101         ENTRY;
102
103         info->fti_dof.dof_type = dt_mode_to_dft(S_IFREG);
104
105         dto = dt_find_or_create(env, ofd->ofd_osd, fid, &info->fti_dof, attr);
106         if (IS_ERR(dto))
107                 RETURN(ERR_CAST(dto));
108
109         fo_obj = lu_object_locate(dto->do_lu.lo_header,
110                                   ofd->ofd_dt_dev.dd_lu_dev.ld_type);
111         RETURN(ofd_obj(fo_obj));
112 }
113
114 int ofd_object_ff_check(const struct lu_env *env, struct ofd_object *fo)
115 {
116         int rc = 0;
117
118         ENTRY;
119
120         if (!fo->ofo_ff_exists) {
121                 /*
122                  * This actually means that we don't know whether the object
123                  * has the "fid" EA or not.
124                  */
125                 rc = dt_xattr_get(env, ofd_object_child(fo), &LU_BUF_NULL,
126                                   XATTR_NAME_FID, BYPASS_CAPA);
127                 if (rc >= 0 || rc == -ENODATA) {
128                         /*
129                          * Here we assume that, if the object doesn't have the
130                          * "fid" EA, the caller will add one, unless a fatal
131                          * error (e.g., a memory or disk failure) prevents it
132                          * from doing so.
133                          */
134                         fo->ofo_ff_exists = 1;
135                 }
136                 if (rc > 0)
137                         rc = 0;
138         }
139         RETURN(rc);
140 }
141
142 void ofd_object_put(const struct lu_env *env, struct ofd_object *fo)
143 {
144         lu_object_put(env, &fo->ofo_obj.do_lu);
145 }
146
147 int ofd_precreate_objects(const struct lu_env *env, struct ofd_device *ofd,
148                           obd_id id, struct ofd_seq *oseq, int nr, int sync)
149 {
150         struct ofd_thread_info  *info = ofd_info(env);
151         struct ofd_object       *fo = NULL;
152         struct dt_object        *next;
153         struct thandle          *th;
154         struct ofd_object       **batch;
155         struct lu_fid           *fid = &info->fti_fid;
156         obd_id                   tmp;
157         int                      rc;
158         int                      i;
159         int                      objects = 0;
160         int                      nr_saved = nr;
161
162         ENTRY;
163
164         /* Don't create objects beyond the valid range for this SEQ */
165         if (unlikely(fid_seq_is_mdt0(ostid_seq(&oseq->os_oi)) &&
166                      (id + nr) >= IDIF_MAX_OID)) {
167                 CERROR("%s:"DOSTID" hit the IDIF_MAX_OID (1<<48)!\n",
168                        ofd_name(ofd), id, ostid_seq(&oseq->os_oi));
169                 RETURN(rc = -ENOSPC);
170         } else if (unlikely(!fid_seq_is_mdt0(ostid_seq(&oseq->os_oi)) &&
171                             (id + nr) >= OBIF_MAX_OID)) {
172                 CERROR("%s:"DOSTID" hit the OBIF_MAX_OID (1<<32)!\n",
173                        ofd_name(ofd), id, ostid_seq(&oseq->os_oi));
174                 RETURN(rc = -ENOSPC);
175         }
176
177         OBD_ALLOC(batch, nr_saved * sizeof(struct ofd_object *));
178         if (batch == NULL)
179                 RETURN(-ENOMEM);
180
181         info->fti_attr.la_valid = LA_TYPE | LA_MODE;
182         /*
183          * We mark object SUID+SGID to flag it for accepting UID+GID from
184          * client on first write.  Currently the permission bits on the OST are
185          * never used, so this is OK.
186          */
187         info->fti_attr.la_mode = S_IFREG | S_ISUID | S_ISGID | 0666;
188         info->fti_dof.dof_type = dt_mode_to_dft(S_IFREG);
189
190         /* Initialize a/c/m time so any client timestamp will always
191          * be newer and update the inode. ctime = 0 is also handled
192          * specially in osd_inode_setattr(). See LU-221, LU-1042 */
193         info->fti_attr.la_valid |= LA_ATIME | LA_MTIME | LA_CTIME;
194         info->fti_attr.la_atime = 0;
195         info->fti_attr.la_mtime = 0;
196         info->fti_attr.la_ctime = 0;
197
198         LASSERT(id != 0);
199
200         /* prepare objects */
201         *fid = *lu_object_fid(&oseq->os_lastid_obj->do_lu);
202         for (i = 0; i < nr; i++) {
203                 rc = fid_set_id(fid, id + i);
204                 if (rc != 0) {
205                         if (i == 0)
206                                 GOTO(out, rc);
207
208                         nr = i;
209                         break;
210                 }
211
212                 fo = ofd_object_find(env, ofd, fid);
213                 if (IS_ERR(fo)) {
214                         if (i == 0)
215                                 GOTO(out, rc = PTR_ERR(fo));
216
217                         nr = i;
218                         break;
219                 }
220
221                 ofd_write_lock(env, fo);
222                 batch[i] = fo;
223         }
224         info->fti_buf.lb_buf = &tmp;
225         info->fti_buf.lb_len = sizeof(tmp);
226         info->fti_off = 0;
227
228         th = ofd_trans_create(env, ofd);
229         if (IS_ERR(th))
230                 GOTO(out, rc = PTR_ERR(th));
231
232         th->th_sync |= sync;
233
234         rc = dt_declare_record_write(env, oseq->os_lastid_obj, sizeof(tmp),
235                                      info->fti_off, th);
236         if (rc)
237                 GOTO(trans_stop, rc);
238
239         for (i = 0; i < nr; i++) {
240                 fo = batch[i];
241                 LASSERT(fo);
242
243                 if (unlikely(ofd_object_exists(fo))) {
244                         /* object may exist being re-created by write replay */
245                         CDEBUG(D_INODE, "object "LPX64"/"LPX64" exists: "
246                                DFID"\n", ostid_seq(&oseq->os_oi), id,
247                                PFID(lu_object_fid(&fo->ofo_obj.do_lu)));
248                         continue;
249                 }
250
251                 next = ofd_object_child(fo);
252                 LASSERT(next != NULL);
253
254                 rc = dt_declare_create(env, next, &info->fti_attr, NULL,
255                                        &info->fti_dof, th);
256                 if (rc) {
257                         nr = i;
258                         break;
259                 }
260         }
261
262         rc = dt_trans_start_local(env, ofd->ofd_osd, th);
263         if (rc)
264                 GOTO(trans_stop, rc);
265
266         CDEBUG(D_OTHER, "%s: create new object "DFID" nr %d\n",
267                ofd_name(ofd), PFID(fid), nr);
268
269         LASSERT(nr > 0);
270
271          /* When the LFSCK scanning the whole device to verify the LAST_ID file
272           * consistency, it will load the last_id into RAM firstly, and compare
273           * the last_id with each OST-object's ID. If the later one is larger,
274           * then it will regard the LAST_ID file crashed. But during the LFSCK
275           * scanning, the OFD may continue to create new OST-objects. Those new
276           * created OST-objects will have larger IDs than the LFSCK known ones.
277           * So from the LFSCK view, it needs to re-load the last_id from disk
278           * file, and if the latest last_id is still smaller than the object's
279           * ID, then the LAST_ID file is real crashed.
280           *
281           * To make above mechanism to work, before OFD pre-create OST-objects,
282           * it needs to update the LAST_ID file firstly, otherwise, the LFSCK
283           * may cannot get latest last_id although new OST-object created. */
284         if (!OBD_FAIL_CHECK(OBD_FAIL_LFSCK_SKIP_LASTID)) {
285                 tmp = cpu_to_le64(id + nr - 1);
286                 dt_write_lock(env, oseq->os_lastid_obj, 0);
287                 rc = dt_record_write(env, oseq->os_lastid_obj,
288                                      &info->fti_buf, &info->fti_off, th);
289                 dt_write_unlock(env, oseq->os_lastid_obj);
290                 if (rc != 0)
291                         GOTO(trans_stop, rc);
292         }
293
294         for (i = 0; i < nr; i++) {
295                 fo = batch[i];
296                 LASSERT(fo);
297
298                 if (likely(!ofd_object_exists(fo) &&
299                            !OBD_FAIL_CHECK(OBD_FAIL_LFSCK_DANGLING))) {
300                         next = ofd_object_child(fo);
301                         LASSERT(next != NULL);
302
303                         rc = dt_create(env, next, &info->fti_attr, NULL,
304                                        &info->fti_dof, th);
305                         if (rc)
306                                 break;
307                         LASSERT(ofd_object_exists(fo));
308                 }
309                 ofd_seq_last_oid_set(oseq, id + i);
310         }
311
312         objects = i;
313         /* NOT all the wanted objects have been created,
314          * set the LAST_ID as the real created. */
315         if (unlikely(objects < nr)) {
316                 int rc1;
317
318                 info->fti_off = 0;
319                 tmp = cpu_to_le64(ofd_seq_last_oid(oseq));
320                 dt_write_lock(env, oseq->os_lastid_obj, 0);
321                 rc1 = dt_record_write(env, oseq->os_lastid_obj,
322                                       &info->fti_buf, &info->fti_off, th);
323                 dt_write_unlock(env, oseq->os_lastid_obj);
324                 if (rc1 != 0)
325                         CERROR("%s: fail to reset the LAST_ID for seq ("LPX64
326                                ") from "LPU64" to "LPU64"\n", ofd_name(ofd),
327                                ostid_seq(&oseq->os_oi), id + nr - 1,
328                                ofd_seq_last_oid(oseq));
329         }
330
331 trans_stop:
332         ofd_trans_stop(env, ofd, th, rc);
333 out:
334         for (i = 0; i < nr_saved; i++) {
335                 fo = batch[i];
336                 if (fo) {
337                         ofd_write_unlock(env, fo);
338                         ofd_object_put(env, fo);
339                 }
340         }
341         OBD_FREE(batch, nr_saved * sizeof(struct ofd_object *));
342
343         CDEBUG((objects == 0 && rc == 0) ? D_ERROR : D_OTHER,
344                "created %d/%d objects: %d\n", objects, nr_saved, rc);
345
346         LASSERT(ergo(objects == 0, rc < 0));
347         RETURN(objects > 0 ? objects : rc);
348 }
349
350 /*
351  * If the object still has SUID+SGID bits set (see ofd_precreate_object()) then
352  * we will accept the UID+GID if sent by the client for initializing the
353  * ownership of this object.  We only allow this to happen once (so clear these
354  * bits) and later only allow setattr.
355  */
356 int ofd_attr_handle_ugid(const struct lu_env *env, struct ofd_object *fo,
357                          struct lu_attr *la, int is_setattr)
358 {
359         struct ofd_thread_info  *info = ofd_info(env);
360         struct lu_attr          *ln = &info->fti_attr2;
361         __u32                    mask = 0;
362         int                      rc;
363
364         ENTRY;
365
366         if (!(la->la_valid & LA_UID) && !(la->la_valid & LA_GID))
367                 RETURN(0);
368
369         rc = dt_attr_get(env, ofd_object_child(fo), ln, BYPASS_CAPA);
370         if (rc != 0)
371                 RETURN(rc);
372
373         LASSERT(ln->la_valid & LA_MODE);
374
375         if (!is_setattr) {
376                 if (!(ln->la_mode & S_ISUID))
377                         la->la_valid &= ~LA_UID;
378                 if (!(ln->la_mode & S_ISGID))
379                         la->la_valid &= ~LA_GID;
380         }
381
382         if ((la->la_valid & LA_UID) && (ln->la_mode & S_ISUID))
383                 mask |= S_ISUID;
384         if ((la->la_valid & LA_GID) && (ln->la_mode & S_ISGID))
385                 mask |= S_ISGID;
386         if (mask != 0) {
387                 if (!(la->la_valid & LA_MODE) || !is_setattr) {
388                         la->la_mode = ln->la_mode;
389                         la->la_valid |= LA_MODE;
390                 }
391                 la->la_mode &= ~mask;
392         }
393
394         RETURN(0);
395 }
396
397 int ofd_attr_set(const struct lu_env *env, struct ofd_object *fo,
398                  struct lu_attr *la, struct filter_fid *ff)
399 {
400         struct ofd_thread_info  *info = ofd_info(env);
401         struct ofd_device       *ofd = ofd_obj2dev(fo);
402         struct thandle          *th;
403         struct ofd_mod_data     *fmd;
404         int                      ff_needed = 0;
405         int                      rc;
406         ENTRY;
407
408         ofd_write_lock(env, fo);
409         if (!ofd_object_exists(fo))
410                 GOTO(unlock, rc = -ENOENT);
411
412         if (la->la_valid & (LA_ATIME | LA_MTIME | LA_CTIME)) {
413                 fmd = ofd_fmd_get(info->fti_exp, &fo->ofo_header.loh_fid);
414                 if (fmd && fmd->fmd_mactime_xid < info->fti_xid)
415                         fmd->fmd_mactime_xid = info->fti_xid;
416                 ofd_fmd_put(info->fti_exp, fmd);
417         }
418
419         /* VBR: version recovery check */
420         rc = ofd_version_get_check(info, fo);
421         if (rc)
422                 GOTO(unlock, rc);
423
424         rc = ofd_attr_handle_ugid(env, fo, la, 1 /* is_setattr */);
425         if (rc != 0)
426                 GOTO(unlock, rc);
427
428         if (ff != NULL) {
429                 rc = ofd_object_ff_check(env, fo);
430                 if (rc == -ENODATA)
431                         ff_needed = 1;
432                 else if (rc < 0)
433                         GOTO(unlock, rc);
434         }
435
436         th = ofd_trans_create(env, ofd);
437         if (IS_ERR(th))
438                 GOTO(unlock, rc = PTR_ERR(th));
439
440         rc = dt_declare_attr_set(env, ofd_object_child(fo), la, th);
441         if (rc)
442                 GOTO(stop, rc);
443
444         if (ff_needed) {
445                 info->fti_buf.lb_buf = ff;
446                 info->fti_buf.lb_len = sizeof(*ff);
447                 rc = dt_declare_xattr_set(env, ofd_object_child(fo),
448                                           &info->fti_buf, XATTR_NAME_FID, 0,
449                                           th);
450                 if (rc)
451                         GOTO(stop, rc);
452         }
453
454         rc = ofd_trans_start(env, ofd, la->la_valid & LA_SIZE ? fo : NULL, th);
455         if (rc)
456                 GOTO(stop, rc);
457
458         rc = dt_attr_set(env, ofd_object_child(fo), la, th,
459                          ofd_object_capa(env, fo));
460         if (rc)
461                 GOTO(stop, rc);
462
463         if (ff_needed)
464                 rc = dt_xattr_set(env, ofd_object_child(fo), &info->fti_buf,
465                                   XATTR_NAME_FID, 0, th, BYPASS_CAPA);
466
467 stop:
468         ofd_trans_stop(env, ofd, th, rc);
469 unlock:
470         ofd_write_unlock(env, fo);
471         RETURN(rc);
472 }
473
474 int ofd_object_punch(const struct lu_env *env, struct ofd_object *fo,
475                      __u64 start, __u64 end, struct lu_attr *la,
476                      struct filter_fid *ff)
477 {
478         struct ofd_thread_info  *info = ofd_info(env);
479         struct ofd_device       *ofd = ofd_obj2dev(fo);
480         struct ofd_mod_data     *fmd;
481         struct dt_object        *dob = ofd_object_child(fo);
482         struct thandle          *th;
483         int                      ff_needed = 0;
484         int                      rc;
485
486         ENTRY;
487
488         /* we support truncate, not punch yet */
489         LASSERT(end == OBD_OBJECT_EOF);
490
491         fmd = ofd_fmd_get(info->fti_exp, &fo->ofo_header.loh_fid);
492         if (fmd && fmd->fmd_mactime_xid < info->fti_xid)
493                 fmd->fmd_mactime_xid = info->fti_xid;
494         ofd_fmd_put(info->fti_exp, fmd);
495
496         ofd_write_lock(env, fo);
497         if (!ofd_object_exists(fo))
498                 GOTO(unlock, rc = -ENOENT);
499
500         /* VBR: version recovery check */
501         rc = ofd_version_get_check(info, fo);
502         if (rc)
503                 GOTO(unlock, rc);
504
505         rc = ofd_attr_handle_ugid(env, fo, la, 0 /* !is_setattr */);
506         if (rc != 0)
507                 GOTO(unlock, rc);
508
509         if (ff != NULL) {
510                 rc = ofd_object_ff_check(env, fo);
511                 if (rc == -ENODATA)
512                         ff_needed = 1;
513                 else if (rc < 0)
514                         GOTO(unlock, rc);
515         }
516
517         th = ofd_trans_create(env, ofd);
518         if (IS_ERR(th))
519                 GOTO(unlock, rc = PTR_ERR(th));
520
521         rc = dt_declare_attr_set(env, dob, la, th);
522         if (rc)
523                 GOTO(stop, rc);
524
525         rc = dt_declare_punch(env, dob, start, OBD_OBJECT_EOF, th);
526         if (rc)
527                 GOTO(stop, rc);
528
529         if (ff_needed) {
530                 info->fti_buf.lb_buf = ff;
531                 info->fti_buf.lb_len = sizeof(*ff);
532                 rc = dt_declare_xattr_set(env, ofd_object_child(fo),
533                                           &info->fti_buf, XATTR_NAME_FID, 0,
534                                           th);
535                 if (rc)
536                         GOTO(stop, rc);
537         }
538
539         rc = ofd_trans_start(env, ofd, fo, th);
540         if (rc)
541                 GOTO(stop, rc);
542
543         rc = dt_punch(env, dob, start, OBD_OBJECT_EOF, th,
544                       ofd_object_capa(env, fo));
545         if (rc)
546                 GOTO(stop, rc);
547
548         rc = dt_attr_set(env, dob, la, th, ofd_object_capa(env, fo));
549         if (rc)
550                 GOTO(stop, rc);
551
552         if (ff_needed)
553                 rc = dt_xattr_set(env, ofd_object_child(fo), &info->fti_buf,
554                                   XATTR_NAME_FID, 0, th, BYPASS_CAPA);
555
556 stop:
557         ofd_trans_stop(env, ofd, th, rc);
558 unlock:
559         ofd_write_unlock(env, fo);
560         RETURN(rc);
561 }
562
563 int ofd_object_destroy(const struct lu_env *env, struct ofd_object *fo,
564                        int orphan)
565 {
566         struct ofd_device       *ofd = ofd_obj2dev(fo);
567         struct thandle          *th;
568         int                      rc = 0;
569
570         ENTRY;
571
572         ofd_write_lock(env, fo);
573         if (!ofd_object_exists(fo))
574                 GOTO(unlock, rc = -ENOENT);
575
576         th = ofd_trans_create(env, ofd);
577         if (IS_ERR(th))
578                 GOTO(unlock, rc = PTR_ERR(th));
579
580         dt_declare_ref_del(env, ofd_object_child(fo), th);
581         dt_declare_destroy(env, ofd_object_child(fo), th);
582         if (orphan)
583                 rc = dt_trans_start_local(env, ofd->ofd_osd, th);
584         else
585                 rc = ofd_trans_start(env, ofd, NULL, th);
586         if (rc)
587                 GOTO(stop, rc);
588
589         ofd_fmd_drop(ofd_info(env)->fti_exp, &fo->ofo_header.loh_fid);
590
591         dt_ref_del(env, ofd_object_child(fo), th);
592         dt_destroy(env, ofd_object_child(fo), th);
593 stop:
594         ofd_trans_stop(env, ofd, th, rc);
595 unlock:
596         ofd_write_unlock(env, fo);
597         RETURN(rc);
598 }
599
600 int ofd_attr_get(const struct lu_env *env, struct ofd_object *fo,
601                  struct lu_attr *la)
602 {
603         int rc = 0;
604
605         ENTRY;
606
607         if (ofd_object_exists(fo)) {
608                 rc = dt_attr_get(env, ofd_object_child(fo), la,
609                                  ofd_object_capa(env, fo));
610
611 #if LUSTRE_VERSION_CODE < OBD_OCD_VERSION(2, 7, 50, 0)
612                 /* Try to correct for a bug in 2.1.0 (LU-221) that caused
613                  * negative timestamps to appear to be in the far future,
614                  * due old timestamp being stored on disk as an unsigned value.
615                  * This fixes up any bad values stored on disk before
616                  * returning them to the client, and ensures any timestamp
617                  * updates are correct.  LU-1042 */
618                 if (unlikely(la->la_atime == LU221_BAD_TIME))
619                         la->la_atime = 0;
620                 if (unlikely(la->la_mtime == LU221_BAD_TIME))
621                         la->la_mtime = 0;
622                 if (unlikely(la->la_ctime == LU221_BAD_TIME))
623                         la->la_ctime = 0;
624 #else
625 #warning "remove old LU-221/LU-1042 workaround code"
626 #endif
627         } else {
628                 rc = -ENOENT;
629         }
630         RETURN(rc);
631 }