Whamcloud - gitweb
ea3d87b560760032256e10a4a1d4c59700a7c899
[fs/lustre-release.git] / lustre / ofd / ofd_fs.c
1 /*
2  * GPL HEADER START
3  *
4  * DO NOT ALTER OR REMOVE COPYRIGHT NOTICES OR THIS FILE HEADER.
5  *
6  * This program is free software; you can redistribute it and/or modify
7  * it under the terms of the GNU General Public License version 2 only,
8  * as published by the Free Software Foundation.
9  *
10  * This program is distributed in the hope that it will be useful, but
11  * WITHOUT ANY WARRANTY; without even the implied warranty of
12  * MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the GNU
13  * General Public License version 2 for more details (a copy is included
14  * in the LICENSE file that accompanied this code).
15  *
16  * You should have received a copy of the GNU General Public License
17  * version 2 along with this program; If not, see
18  * http://www.gnu.org/licenses/gpl-2.0.html
19  *
20  * GPL HEADER END
21  */
22 /*
23  * Copyright (c) 2009, 2010, Oracle and/or its affiliates. All rights reserved.
24  * Use is subject to license terms.
25  *
26  * Copyright (c) 2012, 2014, Intel Corporation.
27  */
28 /*
29  * This file is part of Lustre, http://www.lustre.org/
30  * Lustre is a trademark of Sun Microsystems, Inc.
31  *
32  * lustre/ofd/ofd_fs.c
33  *
34  * This file provides helper functions to handle various data stored on disk.
35  * It uses OSD API and works with any OSD.
36  *
37  * Note: this file contains also functions for sequence handling, they are
38  * placed here improperly and will be moved to the ofd_dev.c and ofd_internal.h,
39  * this comment is to be removed after that.
40  *
41  * Author: Alexey Zhuravlev <alexey.zhuravlev@intel.com>
42  * Author: Mikhail Pershin <mike.pershin@intel.com>
43  */
44
45 #define DEBUG_SUBSYSTEM S_FILTER
46
47 #include "ofd_internal.h"
48
49 /**
50  * Restrict precreate batch count by its upper limit.
51  *
52  * The precreate batch count is a number of precreates to do in
53  * single transaction. It has upper limit - ofd_device::ofd_precreate_batch
54  * value which shouldn't be exceeded.
55  *
56  * \param[in] ofd       OFD device
57  * \param[in] batch     number of updates in the batch
58  *
59  * \retval              \a batch limited by ofd_device::ofd_precreate_batch
60  */
61 int ofd_precreate_batch(struct ofd_device *ofd, int batch)
62 {
63         int count;
64
65         spin_lock(&ofd->ofd_batch_lock);
66         count = min(ofd->ofd_precreate_batch, batch);
67         spin_unlock(&ofd->ofd_batch_lock);
68
69         return count;
70 }
71
72 /**
73  * Get ofd_seq for \a seq.
74  *
75  * Function finds appropriate structure by \a seq number and
76  * increases the reference counter of that structure.
77  *
78  * \param[in] ofd       OFD device
79  * \param[in] seq       sequence number, FID sequence number usually
80  *
81  * \retval              pointer to the requested ofd_seq structure
82  * \retval              NULL if ofd_seq is not found
83  */
84 struct ofd_seq *ofd_seq_get(struct ofd_device *ofd, u64 seq)
85 {
86         struct ofd_seq *oseq;
87
88         read_lock(&ofd->ofd_seq_list_lock);
89         list_for_each_entry(oseq, &ofd->ofd_seq_list, os_list) {
90                 if (ostid_seq(&oseq->os_oi) == seq) {
91                         atomic_inc(&oseq->os_refc);
92                         read_unlock(&ofd->ofd_seq_list_lock);
93                         return oseq;
94                 }
95         }
96         read_unlock(&ofd->ofd_seq_list_lock);
97         return NULL;
98 }
99
100 /**
101  * Drop a reference to ofd_seq.
102  *
103  * The paired function to the ofd_seq_get(). It decrease the reference counter
104  * of the ofd_seq structure and free it if that reference was last one.
105  *
106  * \param[in] env       execution environment
107  * \param[in] oseq      ofd_seq structure to put
108  */
109 void ofd_seq_put(const struct lu_env *env, struct ofd_seq *oseq)
110 {
111         if (atomic_dec_and_test(&oseq->os_refc)) {
112                 LASSERT(list_empty(&oseq->os_list));
113                 LASSERT(oseq->os_lastid_obj != NULL);
114                 lu_object_put(env, &oseq->os_lastid_obj->do_lu);
115                 OBD_FREE_PTR(oseq);
116         }
117 }
118
119 /**
120  * Add a new ofd_seq to the given OFD device.
121  *
122  * First it checks if there is already existent ofd_seq with the same
123  * sequence number as used by \a new_seq.
124  * If such ofd_seq is not found then the \a new_seq is added to the list
125  * of all ofd_seq structures else the \a new_seq is dropped and the found
126  * ofd_seq is returned back.
127  *
128  * \param[in] env       execution environment
129  * \param[in] ofd       OFD device
130  * \param[in] new_seq   new ofd_seq to be added
131  *
132  * \retval              ofd_seq structure
133  */
134 static struct ofd_seq *ofd_seq_add(const struct lu_env *env,
135                                    struct ofd_device *ofd,
136                                    struct ofd_seq *new_seq)
137 {
138         struct ofd_seq *os = NULL;
139
140         write_lock(&ofd->ofd_seq_list_lock);
141         list_for_each_entry(os, &ofd->ofd_seq_list, os_list) {
142                 if (ostid_seq(&os->os_oi) == ostid_seq(&new_seq->os_oi)) {
143                         atomic_inc(&os->os_refc);
144                         write_unlock(&ofd->ofd_seq_list_lock);
145                         /* The seq has not been added to the list */
146                         ofd_seq_put(env, new_seq);
147                         return os;
148                 }
149         }
150         atomic_inc(&new_seq->os_refc);
151         list_add_tail(&new_seq->os_list, &ofd->ofd_seq_list);
152         ofd->ofd_seq_count++;
153         write_unlock(&ofd->ofd_seq_list_lock);
154         return new_seq;
155 }
156
157 /**
158  * Get last object ID for the given sequence.
159  *
160  * \param[in] oseq      OFD sequence structure
161  *
162  * \retval              the last object ID for this sequence
163  */
164 u64 ofd_seq_last_oid(struct ofd_seq *oseq)
165 {
166         u64 id;
167
168         spin_lock(&oseq->os_last_oid_lock);
169         id = ostid_id(&oseq->os_oi);
170         spin_unlock(&oseq->os_last_oid_lock);
171
172         return id;
173 }
174
175 /**
176  * Set new last object ID for the given sequence.
177  *
178  * \param[in] oseq      OFD sequence
179  * \param[in] id        the new OID to set
180  */
181 void ofd_seq_last_oid_set(struct ofd_seq *oseq, u64 id)
182 {
183         spin_lock(&oseq->os_last_oid_lock);
184         if (likely(ostid_id(&oseq->os_oi) < id))
185                 ostid_set_id(&oseq->os_oi, id);
186         spin_unlock(&oseq->os_last_oid_lock);
187 }
188
189 /**
190  * Update last used OID on disk for the given sequence.
191  *
192  * The last used object ID is stored persistently on disk and
193  * must be written when updated. This function writes the sequence data.
194  * The format is just an object ID of the latest used object FID.
195  * Each ID is stored in per-sequence file.
196  *
197  * \param[in] env       execution environment
198  * \param[in] ofd       OFD device
199  * \param[in] oseq      ofd_seq structure with data to write
200  *
201  * \retval              0 on successful write of data from \a oseq
202  * \retval              negative value on error
203  */
204 int ofd_seq_last_oid_write(const struct lu_env *env, struct ofd_device *ofd,
205                            struct ofd_seq *oseq)
206 {
207         struct ofd_thread_info  *info = ofd_info(env);
208         u64                      tmp;
209         struct dt_object        *obj = oseq->os_lastid_obj;
210         struct thandle          *th;
211         int                      rc;
212
213         ENTRY;
214
215         if (ofd->ofd_osd->dd_rdonly)
216                 RETURN(0);
217
218         tmp = cpu_to_le64(ofd_seq_last_oid(oseq));
219
220         info->fti_buf.lb_buf = &tmp;
221         info->fti_buf.lb_len = sizeof(tmp);
222         info->fti_off = 0;
223
224         LASSERT(obj != NULL);
225
226         th = dt_trans_create(env, ofd->ofd_osd);
227         if (IS_ERR(th))
228                 RETURN(PTR_ERR(th));
229
230         rc = dt_declare_record_write(env, obj, &info->fti_buf,
231                                      info->fti_off, th);
232         if (rc < 0)
233                 GOTO(out, rc);
234         rc = dt_trans_start_local(env, ofd->ofd_osd, th);
235         if (rc < 0)
236                 GOTO(out, rc);
237         rc = dt_record_write(env, obj, &info->fti_buf, &info->fti_off,
238                              th);
239         if (rc < 0)
240                 GOTO(out, rc);
241
242         CDEBUG(D_INODE, "%s: write last_objid "DOSTID": rc = %d\n",
243                ofd_name(ofd), POSTID(&oseq->os_oi), rc);
244         EXIT;
245 out:
246         dt_trans_stop(env, ofd->ofd_osd, th);
247         return rc;
248 }
249
250 /**
251  * Deregister LWP items for FLDB and SEQ client on OFD.
252  *
253  * LWP is lightweight proxy - simplified connection between
254  * servers. It is used for FID Location Database (FLDB) and
255  * sequence (SEQ) client-server interactions.
256  *
257  * This function is used during server cleanup process to free
258  * LWP items that were previously set up upon OFD start.
259  *
260  * \param[in]     ofd   OFD device
261  */
262 static void ofd_deregister_seq_exp(struct ofd_device *ofd)
263 {
264         struct seq_server_site  *ss = &ofd->ofd_seq_site;
265
266         if (ss->ss_client_seq != NULL) {
267                 lustre_deregister_lwp_item(&ss->ss_client_seq->lcs_exp);
268                 ss->ss_client_seq->lcs_exp = NULL;
269         }
270
271         if (ss->ss_server_fld != NULL) {
272                 lustre_deregister_lwp_item(&ss->ss_server_fld->lsf_control_exp);
273                 ss->ss_server_fld->lsf_control_exp = NULL;
274         }
275 }
276
277 /**
278  * Stop FLDB server on OFD.
279  *
280  * This function is part of OFD cleanup process.
281  *
282  * \param[in] env       execution environment
283  * \param[in] ofd       OFD device
284  *
285  */
286 static void ofd_fld_fini(const struct lu_env *env, struct ofd_device *ofd)
287 {
288         struct seq_server_site *ss = &ofd->ofd_seq_site;
289
290         if (ss != NULL && ss->ss_server_fld != NULL) {
291                 fld_server_fini(env, ss->ss_server_fld);
292                 OBD_FREE_PTR(ss->ss_server_fld);
293                 ss->ss_server_fld = NULL;
294         }
295 }
296
297 /**
298  * Free sequence structures on OFD.
299  *
300  * This function is part of OFD cleanup process, it goes through
301  * the list of ofd_seq structures stored in ofd_device structure
302  * and frees them.
303  *
304  * \param[in] env       execution environment
305  * \param[in] ofd       OFD device
306  */
307 void ofd_seqs_free(const struct lu_env *env, struct ofd_device *ofd)
308 {
309         struct ofd_seq          *oseq;
310         struct ofd_seq          *tmp;
311         struct list_head         dispose;
312
313         INIT_LIST_HEAD(&dispose);
314         write_lock(&ofd->ofd_seq_list_lock);
315         list_for_each_entry_safe(oseq, tmp, &ofd->ofd_seq_list, os_list)
316                 list_move(&oseq->os_list, &dispose);
317         write_unlock(&ofd->ofd_seq_list_lock);
318
319         while (!list_empty(&dispose)) {
320                 oseq = container_of0(dispose.next, struct ofd_seq, os_list);
321                 list_del_init(&oseq->os_list);
322                 ofd_seq_put(env, oseq);
323         }
324 }
325
326 /**
327  * Stop FLDB and SEQ services on OFD.
328  *
329  * This function is part of OFD cleanup process.
330  *
331  * \param[in] env       execution environment
332  * \param[in] ofd       OFD device
333  *
334  */
335 void ofd_seqs_fini(const struct lu_env *env, struct ofd_device *ofd)
336 {
337         int rc;
338
339         ofd_deregister_seq_exp(ofd);
340
341         rc = ofd_fid_fini(env, ofd);
342         if (rc != 0)
343                 CERROR("%s: fid fini error: rc = %d\n", ofd_name(ofd), rc);
344
345         ofd_fld_fini(env, ofd);
346
347         ofd_seqs_free(env, ofd);
348
349         LASSERT(list_empty(&ofd->ofd_seq_list));
350 }
351
352 /**
353  * Return ofd_seq structure filled with valid data.
354  *
355  * This function gets the ofd_seq by sequence number and read
356  * corresponding data from disk.
357  *
358  * \param[in] env       execution environment
359  * \param[in] ofd       OFD device
360  * \param[in] seq       sequence number
361  *
362  * \retval              ofd_seq structure filled with data
363  * \retval              ERR_PTR pointer on error
364  */
365 struct ofd_seq *ofd_seq_load(const struct lu_env *env, struct ofd_device *ofd,
366                              u64 seq)
367 {
368         struct ofd_thread_info  *info = ofd_info(env);
369         struct ofd_seq          *oseq = NULL;
370         struct dt_object        *dob;
371         u64                      lastid;
372         int                      rc;
373
374         ENTRY;
375
376         /* if seq is already initialized */
377         oseq = ofd_seq_get(ofd, seq);
378         if (oseq != NULL)
379                 RETURN(oseq);
380
381         OBD_ALLOC_PTR(oseq);
382         if (oseq == NULL)
383                 RETURN(ERR_PTR(-ENOMEM));
384
385         lu_last_id_fid(&info->fti_fid, seq, ofd->ofd_lut.lut_lsd.lsd_osd_index);
386         memset(&info->fti_attr, 0, sizeof(info->fti_attr));
387         info->fti_attr.la_valid = LA_MODE;
388         info->fti_attr.la_mode = S_IFREG |  S_IRUGO | S_IWUSR;
389         info->fti_dof.dof_type = dt_mode_to_dft(S_IFREG);
390
391         /* create object tracking per-seq last created
392          * id to be used by orphan recovery mechanism */
393         dob = dt_find_or_create(env, ofd->ofd_osd, &info->fti_fid,
394                                 &info->fti_dof, &info->fti_attr);
395         if (IS_ERR(dob)) {
396                 OBD_FREE_PTR(oseq);
397                 RETURN((void *)dob);
398         }
399
400         oseq->os_lastid_obj = dob;
401
402         INIT_LIST_HEAD(&oseq->os_list);
403         mutex_init(&oseq->os_create_lock);
404         spin_lock_init(&oseq->os_last_oid_lock);
405         ostid_set_seq(&oseq->os_oi, seq);
406
407         atomic_set(&oseq->os_refc, 1);
408
409         rc = dt_attr_get(env, dob, &info->fti_attr);
410         if (rc)
411                 GOTO(cleanup, rc);
412
413         if (info->fti_attr.la_size == 0) {
414                 /* object is just created, initialize last id */
415                 ofd_seq_last_oid_set(oseq, OFD_INIT_OBJID);
416                 ofd_seq_last_oid_write(env, ofd, oseq);
417         } else if (info->fti_attr.la_size == sizeof(lastid)) {
418                 info->fti_off = 0;
419                 info->fti_buf.lb_buf = &lastid;
420                 info->fti_buf.lb_len = sizeof(lastid);
421
422                 rc = dt_record_read(env, dob, &info->fti_buf, &info->fti_off);
423                 if (rc) {
424                         CERROR("%s: can't read last_id: rc = %d\n",
425                                 ofd_name(ofd), rc);
426                         GOTO(cleanup, rc);
427                 }
428                 ofd_seq_last_oid_set(oseq, le64_to_cpu(lastid));
429         } else {
430                 CERROR("%s: corrupted size %llu LAST_ID of seq %#llx\n",
431                         ofd_name(ofd), (__u64)info->fti_attr.la_size, seq);
432                 GOTO(cleanup, rc = -EINVAL);
433         }
434
435         oseq = ofd_seq_add(env, ofd, oseq);
436         RETURN((oseq != NULL) ? oseq : ERR_PTR(-ENOENT));
437 cleanup:
438         ofd_seq_put(env, oseq);
439         return ERR_PTR(rc);
440 }
441
442 /**
443  * initialize local FLDB server.
444  *
445  * \param[in] env       execution environment
446  * \param[in] uuid      unique name for this FLDS server
447  * \param[in] ofd       OFD device
448  *
449  * \retval              0 on successful initialization
450  * \retval              negative value on error
451  */
452 static int ofd_fld_init(const struct lu_env *env, const char *uuid,
453                         struct ofd_device *ofd)
454 {
455         struct seq_server_site *ss = &ofd->ofd_seq_site;
456         int rc;
457
458         ENTRY;
459
460         OBD_ALLOC_PTR(ss->ss_server_fld);
461         if (ss->ss_server_fld == NULL)
462                 RETURN(rc = -ENOMEM);
463
464         rc = fld_server_init(env, ss->ss_server_fld, ofd->ofd_osd, uuid,
465                              LU_SEQ_RANGE_OST);
466         if (rc < 0) {
467                 OBD_FREE_PTR(ss->ss_server_fld);
468                 ss->ss_server_fld = NULL;
469                 RETURN(rc);
470         }
471         RETURN(0);
472 }
473
474 /**
475  * Update local FLDB copy from master server.
476  *
477  * This callback is called when LWP is connected to the server.
478  * It retrieves its FLDB entries from MDT0, and it only happens
479  * when upgrading the existing file system to 2.6.
480  *
481  * \param[in] data      OFD device
482  *
483  * \retval              0 on successful FLDB update
484  * \retval              negative value in case if failure
485  */
486 static int ofd_register_lwp_callback(void *data)
487 {
488         struct lu_env           *env;
489         struct ofd_device       *ofd = data;
490         struct lu_server_fld    *fld = ofd->ofd_seq_site.ss_server_fld;
491         int                     rc;
492
493         ENTRY;
494
495         if (!likely(fld->lsf_new))
496                 RETURN(0);
497
498         OBD_ALLOC_PTR(env);
499         if (env == NULL)
500                 RETURN(-ENOMEM);
501
502         rc = lu_env_init(env, LCT_DT_THREAD);
503         if (rc < 0)
504                 GOTO(out, rc);
505
506         rc = fld_update_from_controller(env, fld);
507         if (rc < 0) {
508                 CERROR("%s: cannot update controller: rc = %d\n",
509                        ofd_name(ofd), rc);
510                 GOTO(out, rc);
511         }
512         EXIT;
513 out:
514         lu_env_fini(env);
515         OBD_FREE_PTR(env);
516         return rc;
517 }
518
519 /**
520  * Get LWP exports from LWP connection for local FLDB server and SEQ client.
521  *
522  * This function is part of setup process and initialize FLDB server and SEQ
523  * client, so they may work with remote servers.
524  *
525  * \param[in] ofd       OFD device
526  *
527  * \retval              0 on successful export get
528  * \retval              negative value on error
529  */
530 static int ofd_register_seq_exp(struct ofd_device *ofd)
531 {
532         struct seq_server_site  *ss = &ofd->ofd_seq_site;
533         char                    *lwp_name = NULL;
534         int                     rc;
535
536         OBD_ALLOC(lwp_name, MAX_OBD_NAME);
537         if (lwp_name == NULL)
538                 GOTO(out_free, rc = -ENOMEM);
539
540         rc = tgt_name2lwp_name(ofd_name(ofd), lwp_name, MAX_OBD_NAME, 0);
541         if (rc != 0)
542                 GOTO(out_free, rc);
543
544         rc = lustre_register_lwp_item(lwp_name, &ss->ss_client_seq->lcs_exp,
545                                       NULL, NULL);
546         if (rc != 0)
547                 GOTO(out_free, rc);
548
549         rc = lustre_register_lwp_item(lwp_name,
550                                       &ss->ss_server_fld->lsf_control_exp,
551                                       ofd_register_lwp_callback, ofd);
552         if (rc != 0) {
553                 lustre_deregister_lwp_item(&ss->ss_client_seq->lcs_exp);
554                 ss->ss_client_seq->lcs_exp = NULL;
555                 GOTO(out_free, rc);
556         }
557 out_free:
558         if (lwp_name != NULL)
559                 OBD_FREE(lwp_name, MAX_OBD_NAME);
560
561         return rc;
562 }
563
564 /**
565  * Initialize SEQ and FLD service on OFD.
566  *
567  * This is part of OFD setup process.
568  *
569  * \param[in] env       execution environment
570  * \param[in] ofd       OFD device
571  *
572  * \retval              0 on successful services initialization
573  * \retval              negative value on error
574  */
575 int ofd_seqs_init(const struct lu_env *env, struct ofd_device *ofd)
576 {
577         int rc;
578
579         rwlock_init(&ofd->ofd_seq_list_lock);
580         INIT_LIST_HEAD(&ofd->ofd_seq_list);
581         ofd->ofd_seq_count = 0;
582
583         rc = ofd_fid_init(env, ofd);
584         if (rc != 0) {
585                 CERROR("%s: fid init error: rc = %d\n", ofd_name(ofd), rc);
586                 GOTO(out, rc);
587         }
588
589         rc = ofd_fld_init(env, ofd_name(ofd), ofd);
590         if (rc < 0) {
591                 CERROR("%s: Can't init fld, rc %d\n", ofd_name(ofd), rc);
592                 GOTO(out_fid, rc);
593         }
594
595         rc = ofd_register_seq_exp(ofd);
596         if (rc < 0) {
597                 CERROR("%s: Can't init seq exp, rc %d\n", ofd_name(ofd), rc);
598                 GOTO(out_fld, rc);
599         }
600
601         RETURN(0);
602
603 out_fld:
604         ofd_fld_fini(env, ofd);
605 out_fid:
606         ofd_fid_fini(env, ofd);
607 out:
608         return rc;
609 }
610
611 /**
612  * Initialize storage for the OFD.
613  *
614  * This function sets up service files for OFD. Currently, the only
615  * service file is "health_check".
616  *
617  * \param[in] env       execution environment
618  * \param[in] ofd       OFD device
619  * \param[in] obd       OBD device (unused now)
620  *
621  * \retval              0 on successful setup
622  * \retval              negative value on error
623  */
624 int ofd_fs_setup(const struct lu_env *env, struct ofd_device *ofd,
625                  struct obd_device *obd)
626 {
627         struct ofd_thread_info  *info = ofd_info(env);
628         struct dt_object        *fo;
629         int                      rc = 0;
630
631         ENTRY;
632
633         rc = ofd_seqs_init(env, ofd);
634         if (rc)
635                 GOTO(out, rc);
636
637         if (OBD_FAIL_CHECK(OBD_FAIL_MDS_FS_SETUP))
638                 GOTO(out_seqs, rc = -ENOENT);
639
640         lu_local_obj_fid(&info->fti_fid, OFD_HEALTH_CHECK_OID);
641         memset(&info->fti_attr, 0, sizeof(info->fti_attr));
642         info->fti_attr.la_valid = LA_MODE;
643         info->fti_attr.la_mode = S_IFREG | S_IRUGO | S_IWUSR;
644         info->fti_dof.dof_type = dt_mode_to_dft(S_IFREG);
645
646         fo = dt_find_or_create(env, ofd->ofd_osd, &info->fti_fid,
647                                &info->fti_dof, &info->fti_attr);
648         if (IS_ERR(fo))
649                 GOTO(out_seqs, rc = PTR_ERR(fo));
650
651         ofd->ofd_health_check_file = fo;
652
653         RETURN(0);
654
655 out_seqs:
656         ofd_seqs_fini(env, ofd);
657 out:
658         return rc;
659 }
660
661 /**
662  * Cleanup service files on OFD.
663  *
664  * This function syncs whole OFD device and close "health check" file.
665  *
666  * \param[in] env       execution environment
667  * \param[in] ofd       OFD device
668  */
669 void ofd_fs_cleanup(const struct lu_env *env, struct ofd_device *ofd)
670 {
671         int rc;
672
673         ENTRY;
674
675         ofd_seqs_fini(env, ofd);
676
677         rc = dt_sync(env, ofd->ofd_osd);
678         if (rc < 0)
679                 CWARN("%s: can't sync OFD upon cleanup: %d\n",
680                       ofd_name(ofd), rc);
681
682         if (ofd->ofd_health_check_file) {
683                 lu_object_put(env, &ofd->ofd_health_check_file->do_lu);
684                 ofd->ofd_health_check_file = NULL;
685         }
686
687         EXIT;
688 }
689