Whamcloud - gitweb
b=2751
[fs/lustre-release.git] / lustre / mds / mds_lov.c
1 /* -*- mode: c; c-basic-offset: 8; indent-tabs-mode: nil; -*-
2  * vim:expandtab:shiftwidth=8:tabstop=8:
3  *
4  *  linux/mds/mds_lov.c
5  *  Lustre Metadata Server (mds) handling of striped file data
6  *
7  *  Copyright (C) 2001-2003 Cluster File Systems, Inc.
8  *   Author: Peter Braam <braam@clusterfs.com>
9  *
10  *   This file is part of Lustre, http://www.lustre.org.
11  *
12  *   Lustre is free software; you can redistribute it and/or
13  *   modify it under the terms of version 2 of the GNU General Public
14  *   License as published by the Free Software Foundation.
15  *
16  *   Lustre is distributed in the hope that it will be useful,
17  *   but WITHOUT ANY WARRANTY; without even the implied warranty of
18  *   MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the
19  *   GNU General Public License for more details.
20  *
21  *   You should have received a copy of the GNU General Public License
22  *   along with Lustre; if not, write to the Free Software
23  *   Foundation, Inc., 675 Mass Ave, Cambridge, MA 02139, USA.
24  */
25
26 #ifndef EXPORT_SYMTAB
27 # define EXPORT_SYMTAB
28 #endif
29 #define DEBUG_SUBSYSTEM S_MDS
30
31 #include <linux/module.h>
32 #include <linux/lustre_mds.h>
33 #include <linux/lustre_idl.h>
34 #include <linux/obd_class.h>
35 #include <linux/obd_lov.h>
36 #include <linux/lustre_lib.h>
37 #include <linux/lustre_fsfilt.h>
38
39 #include "mds_internal.h"
40
41 void le_lov_desc_to_cpu (struct lov_desc *ld)
42 {
43         ld->ld_tgt_count = le32_to_cpu (ld->ld_tgt_count);
44         ld->ld_default_stripe_count = le32_to_cpu (ld->ld_default_stripe_count);
45         ld->ld_default_stripe_size = le32_to_cpu (ld->ld_default_stripe_size);
46         ld->ld_pattern = le32_to_cpu (ld->ld_pattern);
47 }
48
49 void cpu_to_le_lov_desc (struct lov_desc *ld)
50 {
51         ld->ld_tgt_count = cpu_to_le32 (ld->ld_tgt_count);
52         ld->ld_default_stripe_count = cpu_to_le32 (ld->ld_default_stripe_count);
53         ld->ld_default_stripe_size = cpu_to_le32 (ld->ld_default_stripe_size);
54         ld->ld_pattern = cpu_to_le32 (ld->ld_pattern);
55 }
56
57 void mds_lov_update_objids(struct obd_device *obd, obd_id *ids)
58 {
59         struct mds_obd *mds = &obd->u.mds;
60         int i;
61         ENTRY;
62
63         lock_kernel();
64         for (i = 0; i < mds->mds_lov_desc.ld_tgt_count; i++)
65                 if (ids[i] > (mds->mds_lov_objids)[i])
66                         (mds->mds_lov_objids)[i] = ids[i];
67         unlock_kernel();
68         EXIT;
69 }
70
71 static int mds_lov_read_objids(struct obd_device *obd)
72 {
73         struct mds_obd *mds = &obd->u.mds;
74         obd_id *ids;
75         loff_t off = 0;
76         int i, rc, size = mds->mds_lov_desc.ld_tgt_count * sizeof(*ids);
77         ENTRY;
78
79         if (mds->mds_lov_objids != NULL)
80                 RETURN(0);
81
82         OBD_ALLOC(ids, size);
83         if (ids == NULL)
84                 RETURN(-ENOMEM);
85         mds->mds_lov_objids = ids;
86
87         if (mds->mds_lov_objid_filp->f_dentry->d_inode->i_size == 0)
88                 RETURN(0);
89         rc = fsfilt_read_record(obd, mds->mds_lov_objid_filp, ids, size, &off);
90         if (rc < 0) {
91                 CERROR("Error reading objids %d\n", rc);
92         } else {
93                 mds->mds_lov_objids_valid = 1;
94                 rc = 0;
95         }
96
97         for (i = 0; i < mds->mds_lov_desc.ld_tgt_count; i++)
98                 CDEBUG(D_INFO, "read last object "LPU64" for idx %d\n",
99                        mds->mds_lov_objids[i], i);
100
101         RETURN(rc);
102 }
103
104 int mds_lov_write_objids(struct obd_device *obd)
105 {
106         struct mds_obd *mds = &obd->u.mds;
107         loff_t off = 0;
108         int i, rc, size = mds->mds_lov_desc.ld_tgt_count * sizeof(obd_id);
109         ENTRY;
110
111         for (i = 0; i < mds->mds_lov_desc.ld_tgt_count; i++)
112                 CDEBUG(D_INFO, "writing last object "LPU64" for idx %d\n",
113                        mds->mds_lov_objids[i], i);
114
115         rc = fsfilt_write_record(obd, mds->mds_lov_objid_filp,
116                                  mds->mds_lov_objids, size, &off, 0);
117         RETURN(rc);
118 }
119
120 static int mds_lov_clearorphans(struct mds_obd *mds, struct obd_uuid *ost_uuid)
121 {
122         int rc;
123         struct obdo oa;
124         struct obd_trans_info oti = {0};
125         struct lov_stripe_md  *empty_ea = NULL;
126         ENTRY;
127
128         LASSERT(mds->mds_lov_objids != NULL);
129
130         /* This create will in fact either create or destroy:  If the OST is
131          * missing objects below this ID, they will be created.  If it finds
132          * objects above this ID, they will be removed. */
133         memset(&oa, 0, sizeof(oa));
134         oa.o_valid = OBD_MD_FLFLAGS;
135         oa.o_flags = OBD_FL_DELORPHAN;
136         if (ost_uuid != NULL) {
137                 memcpy(&oa.o_inline, ost_uuid, sizeof(*ost_uuid));
138                 oa.o_valid |= OBD_MD_FLINLINE;
139         }
140         rc = obd_create(mds->mds_osc_exp, &oa, &empty_ea, &oti);
141
142         RETURN(rc);
143 }
144
145 /* update the LOV-OSC knowledge of the last used object id's */
146 int mds_lov_set_nextid(struct obd_device *obd)
147 {
148         struct mds_obd *mds = &obd->u.mds;
149         int rc;
150         ENTRY;
151
152         LASSERT(!obd->obd_recovering);
153
154         LASSERT(mds->mds_lov_objids != NULL);
155
156         rc = obd_set_info(mds->mds_osc_exp, strlen("next_id"), "next_id",
157                           mds->mds_lov_desc.ld_tgt_count, mds->mds_lov_objids);
158         if (rc < 0)
159                 GOTO(out, rc);
160
161         rc = mds_lov_clearorphans(mds, NULL /* all OSTs */);
162         if (rc < 0)
163                 GOTO(out, rc);
164
165 out:
166         if (rc && mds->mds_lov_objids) {
167                 /* Might as well crash here, until we figure out what to do.
168                  * If we OBD_FREE, we'll just LASSERT the next time through this
169                  * function. */
170                 LBUG();
171                 OBD_FREE(mds->mds_lov_objids,
172                          mds->mds_lov_desc.ld_tgt_count * sizeof(obd_id));
173                 mds->mds_lov_objids = NULL;
174         }
175
176         RETURN(rc);
177 }
178
179 /* tell the LOV-OSC by how much to pre-create */
180 int mds_lov_set_growth(struct mds_obd *mds, int count)
181 {
182         int rc;
183         ENTRY;
184
185         rc = obd_set_info(mds->mds_osc_exp, strlen("growth_count"),
186                           "growth_count", sizeof(count), &count);
187
188         RETURN(rc);
189 }
190
191 int mds_lov_connect(struct obd_device *obd, char * lov_name)
192 {
193         struct mds_obd *mds = &obd->u.mds;
194         struct lustre_handle conn = {0,};
195         int valsize;
196         int rc, i;
197         ENTRY;
198
199         if (IS_ERR(mds->mds_osc_obd))
200                 RETURN(PTR_ERR(mds->mds_osc_obd));
201
202         if (mds->mds_osc_obd)
203                 RETURN(0);
204
205         mds->mds_osc_obd = class_name2obd(lov_name);
206         if (!mds->mds_osc_obd) {
207                 CERROR("MDS cannot locate LOV %s\n",
208                        lov_name);
209                 mds->mds_osc_obd = ERR_PTR(-ENOTCONN);
210                 RETURN(-ENOTCONN);
211         }
212
213         rc = obd_connect(&conn, mds->mds_osc_obd, &obd->obd_uuid);
214         if (rc) {
215                 CERROR("MDS cannot connect to LOV %s (%d)\n",
216                        lov_name, rc);
217                 mds->mds_osc_obd = ERR_PTR(rc);
218                 RETURN(rc);
219         }
220         mds->mds_osc_exp = class_conn2export(&conn);
221
222         rc = obd_register_observer(mds->mds_osc_obd, obd);
223         if (rc) {
224                 CERROR("MDS cannot register as observer of LOV %s (%d)\n",
225                        lov_name, rc);
226                 GOTO(err_discon, rc);
227         }
228
229         valsize = sizeof(mds->mds_lov_desc);
230         rc = obd_get_info(mds->mds_osc_exp, strlen("lovdesc") + 1, "lovdesc",
231                           &valsize, &mds->mds_lov_desc);
232         if (rc)
233                 GOTO(err_reg, rc);
234
235         mds->mds_max_mdsize = lov_mds_md_size(mds->mds_lov_desc.ld_tgt_count);
236         mds->mds_max_cookiesize = mds->mds_lov_desc.ld_tgt_count*
237                 sizeof(struct llog_cookie);
238         mds->mds_has_lov_desc = 1;
239         rc = mds_lov_read_objids(obd);
240         if (rc) {
241                 CERROR("cannot read %s: rc = %d\n", "lov_objids", rc);
242                 GOTO(err_reg, rc);
243         }
244
245         rc = llog_cat_initialize(obd, mds->mds_lov_desc.ld_tgt_count);
246         if (rc) {
247                 CERROR("failed to initialize catalog %d\n", rc);
248                 GOTO(err_reg, rc);
249         }
250
251         /* FIXME before set info call is made, we must initialize logging */
252         rc = obd_set_info(mds->mds_osc_exp, strlen("mds_conn"), "mds_conn",
253                           0, NULL);
254         if (rc)
255                 GOTO(err_reg, rc);
256
257         /* If we're mounting this code for the first time on an existing FS,
258          * we need to populate the objids array from the real OST values */
259         if (!mds->mds_lov_objids_valid) {
260                 int size = sizeof(obd_id) * mds->mds_lov_desc.ld_tgt_count;
261                 rc = obd_get_info(mds->mds_osc_exp, strlen("last_id"),
262                                   "last_id", &size, mds->mds_lov_objids);
263                 if (!rc) {
264                         for (i = 0; i < mds->mds_lov_desc.ld_tgt_count; i++)
265                                 CWARN("got last object "LPU64" from OST %d\n",
266                                       mds->mds_lov_objids[i], i);
267                         mds->mds_lov_objids_valid = 1;
268                         rc = mds_lov_write_objids(obd);
269                         if (rc)
270                                 CERROR("got last objids from OSTs, but error "
271                                        "writing objids file: %d\n", rc);
272                 }
273         }
274
275         /* I want to see a callback happen when the OBD moves to a
276          * "For General Use" state, and that's when we'll call
277          * set_nextid().  The class driver can help us here, because
278          * it can use the obd_recovering flag to determine when the
279          * the OBD is full available. */
280         if (!obd->obd_recovering) {
281                 rc = llog_connect(llog_get_context(obd, LLOG_UNLINK_ORIG_CTXT),
282                                   obd->u.mds.mds_lov_desc.ld_tgt_count, NULL,
283                                   NULL);
284                 if (rc != 0)
285                         CERROR("faild at llog_origin_connect: %d\n", rc);
286
287                 rc = mds_cleanup_orphans(obd);
288                 if (rc > 0)
289                         CERROR("Cleanup %d orphans while MDS isn't recovering\n", rc);
290
291                 rc = mds_lov_set_nextid(obd);
292                 if (rc)
293                         GOTO(err_llog, rc);
294         }
295         RETURN(rc);
296
297 err_llog:
298         /* cleanup all llogging subsystems */
299         rc = obd_llog_finish(obd, mds->mds_lov_desc.ld_tgt_count);
300         if (rc)
301                 CERROR("failed to cleanup llogging subsystems\n");
302 err_reg:
303         obd_register_observer(mds->mds_osc_obd, NULL);
304 err_discon:
305         obd_disconnect(mds->mds_osc_exp, 0);
306         mds->mds_osc_exp = NULL;
307         mds->mds_osc_obd = ERR_PTR(rc);
308         RETURN(rc);
309 }
310
311 int mds_lov_disconnect(struct obd_device *obd, int flags)
312 {
313         struct mds_obd *mds = &obd->u.mds;
314         int rc = 0;
315         ENTRY;
316
317         if (!IS_ERR(mds->mds_osc_obd) && mds->mds_osc_exp != NULL) {
318                 /* cleanup all llogging subsystems */
319                 rc = obd_llog_finish(obd, mds->mds_lov_desc.ld_tgt_count);
320                 if (rc)
321                         CERROR("failed to cleanup llogging subsystems\n");
322
323                 obd_register_observer(mds->mds_osc_obd, NULL);
324
325                 rc = obd_disconnect(mds->mds_osc_exp, flags);
326                 /* if obd_disconnect fails (probably because the
327                  * export was disconnected by class_disconnect_exports)
328                  * then we just need to drop our ref. */
329                 if (rc != 0)
330                         class_export_put(mds->mds_osc_exp);
331                 mds->mds_osc_exp = NULL;
332                 mds->mds_osc_obd = NULL;
333         }
334
335         RETURN(rc);
336 }
337
338 int mds_iocontrol(unsigned int cmd, struct obd_export *exp, int len,
339                   void *karg, void *uarg)
340 {
341         static struct obd_uuid cfg_uuid = { .uuid = "config_uuid" };
342         struct obd_device *obd = exp->exp_obd;
343         struct mds_obd *mds = &obd->u.mds;
344         struct obd_ioctl_data *data = karg;
345         struct obd_run_ctxt saved;
346         int rc = 0;
347
348         switch (cmd) {
349         case OBD_IOC_RECORD: {
350                 char *name = data->ioc_inlbuf1;
351                 if (mds->mds_cfg_llh)
352                         RETURN(-EBUSY);
353
354                 push_ctxt(&saved, &obd->obd_ctxt, NULL);
355                 rc = llog_create(llog_get_context(obd, LLOG_CONFIG_ORIG_CTXT),
356                                  &mds->mds_cfg_llh, NULL, name);
357                 if (rc == 0)
358                         llog_init_handle(mds->mds_cfg_llh, LLOG_F_IS_PLAIN,
359                                          &cfg_uuid);
360                 else
361                         mds->mds_cfg_llh = NULL;
362                 pop_ctxt(&saved, &obd->obd_ctxt, NULL);
363
364                 RETURN(rc);
365         }
366
367         case OBD_IOC_ENDRECORD: {
368                 if (!mds->mds_cfg_llh)
369                         RETURN(-EBADF);
370
371                 push_ctxt(&saved, &obd->obd_ctxt, NULL);
372                 rc = llog_close(mds->mds_cfg_llh);
373                 pop_ctxt(&saved, &obd->obd_ctxt, NULL);
374
375                 mds->mds_cfg_llh = NULL;
376                 RETURN(rc);
377         }
378
379         case OBD_IOC_DORECORD: {
380                 char *cfg_buf;
381                 struct llog_rec_hdr rec;
382                 if (!mds->mds_cfg_llh)
383                         RETURN(-EBADF);
384
385                 rec.lrh_len = llog_data_len(data->ioc_plen1);
386
387                 if (data->ioc_type == LUSTRE_CFG_TYPE) {
388                         rec.lrh_type = OBD_CFG_REC;
389                 } else if (data->ioc_type == PORTALS_CFG_TYPE) {
390                         rec.lrh_type = PTL_CFG_REC;
391                 } else {
392                         CERROR("unknown cfg record type:%d \n", data->ioc_type);
393                         RETURN(-EINVAL);
394                 }
395
396                 OBD_ALLOC(cfg_buf, data->ioc_plen1);
397                 if (cfg_buf == NULL)
398                         RETURN(-EINVAL);
399                 rc = copy_from_user(cfg_buf, data->ioc_pbuf1, data->ioc_plen1);
400                 if (rc) {
401                         OBD_FREE(cfg_buf, data->ioc_plen1);
402                         RETURN(rc);
403                 }
404
405                 push_ctxt(&saved, &obd->obd_ctxt, NULL);
406                 rc = llog_write_rec(mds->mds_cfg_llh, &rec, NULL, 0,
407                                     cfg_buf, -1);
408                 pop_ctxt(&saved, &obd->obd_ctxt, NULL);
409
410                 OBD_FREE(cfg_buf, data->ioc_plen1);
411                 RETURN(rc);
412         }
413
414         case OBD_IOC_PARSE: {
415                 struct llog_ctxt *ctxt =
416                         llog_get_context(obd, LLOG_CONFIG_ORIG_CTXT);
417                 push_ctxt(&saved, &obd->obd_ctxt, NULL);
418                 rc = class_config_parse_llog(ctxt, data->ioc_inlbuf1, NULL);
419                 pop_ctxt(&saved, &obd->obd_ctxt, NULL);
420                 if (rc)
421                         RETURN(rc);
422
423                 RETURN(rc);
424         }
425
426         case OBD_IOC_DUMP_LOG: {
427                 struct llog_ctxt *ctxt =
428                         llog_get_context(obd, LLOG_CONFIG_ORIG_CTXT);
429                 push_ctxt(&saved, &obd->obd_ctxt, NULL);
430                 rc = class_config_dump_llog(ctxt, data->ioc_inlbuf1, NULL);
431                 pop_ctxt(&saved, &obd->obd_ctxt, NULL);
432                 if (rc)
433                         RETURN(rc);
434
435                 RETURN(rc);
436         }
437
438         case OBD_IOC_SET_READONLY: {
439                 void *handle;
440                 struct inode *inode = obd->u.mds.mds_sb->s_root->d_inode;
441                 BDEVNAME_DECLARE_STORAGE(tmp);
442                 CERROR("setting device %s read-only\n",
443                        ll_bdevname(obd->u.mds.mds_sb, tmp));
444
445                 handle = fsfilt_start(obd, inode, FSFILT_OP_MKNOD, NULL);
446                 LASSERT(handle);
447                 rc = fsfilt_commit(obd, inode, handle, 1);
448
449                 dev_set_rdonly(ll_sbdev(obd->u.mds.mds_sb), 2);
450                 RETURN(0);
451         }
452
453         case OBD_IOC_CATLOGLIST: {
454                 int count = mds->mds_lov_desc.ld_tgt_count;
455                 rc = llog_catlog_list(obd, count, data);
456                 RETURN(rc);
457
458         }
459         case OBD_IOC_LLOG_CHECK:
460         case OBD_IOC_LLOG_CANCEL:
461         case OBD_IOC_LLOG_REMOVE: {
462                 struct llog_ctxt *ctxt =
463                         llog_get_context(obd, LLOG_CONFIG_ORIG_CTXT);
464
465                 obd_llog_finish(obd, mds->mds_lov_desc.ld_tgt_count);
466                 push_ctxt(&saved, &ctxt->loc_exp->exp_obd->obd_ctxt, NULL);
467                 rc = llog_ioctl(ctxt, cmd, data);
468                 pop_ctxt(&saved, &ctxt->loc_exp->exp_obd->obd_ctxt, NULL);
469                 llog_cat_initialize(obd, mds->mds_lov_desc.ld_tgt_count);
470
471                 RETURN(rc);
472         }
473         case OBD_IOC_LLOG_INFO:
474         case OBD_IOC_LLOG_PRINT: {
475                 struct llog_ctxt *ctxt =
476                         llog_get_context(obd, LLOG_CONFIG_ORIG_CTXT);
477
478                 push_ctxt(&saved, &ctxt->loc_exp->exp_obd->obd_ctxt, NULL);
479                 rc = llog_ioctl(ctxt, cmd, data);
480                 pop_ctxt(&saved, &ctxt->loc_exp->exp_obd->obd_ctxt, NULL);
481
482                 RETURN(rc);
483         }
484
485         case OBD_IOC_ABORT_RECOVERY:
486                 CERROR("aborting recovery for device %s\n", obd->obd_name);
487                 target_abort_recovery(obd);
488                 RETURN(0);
489
490         default:
491                 RETURN(-EINVAL);
492         }
493         RETURN(0);
494 }
495
496 int mds_notify(struct obd_device *obd, struct obd_device *watched,
497                int active)
498 {
499         struct obd_uuid *uuid; 
500         int rc = 0;
501
502         if (!active)
503                 RETURN(0);
504
505         if (strcmp(watched->obd_type->typ_name, "osc")) {
506                 CERROR("unexpected notification of %s %s!\n",
507                        watched->obd_type->typ_name,
508                        watched->obd_name);
509                 RETURN(-EINVAL);
510         }
511
512         if (obd->obd_recovering) {
513                 CWARN("MDS %s: in recovery, not resetting orphans on %s\n",
514                       obd->obd_name, uuid->uuid);
515         } else {
516                 uuid = &watched->u.cli.cl_import->imp_target_uuid;
517                 CWARN("MDS %s: %s now active, resetting orphans\n",
518                       obd->obd_name, uuid->uuid);
519                 rc = mds_lov_clearorphans(&obd->u.mds, uuid);
520         }
521         RETURN(rc);
522 }
523
524 /* Convert the on-disk LOV EA structre.
525  * We always try to convert from an old LOV EA format to the common in-memory
526  * (lsm) format (obd_unpackmd() understands the old on-disk (lmm) format) and
527  * then convert back to the new on-disk format and save it back to disk
528  * (obd_packmd() only ever saves to the new on-disk format) so we don't have
529  * to convert it each time this inode is accessed.
530  *
531  * This function is a bit interesting in the error handling.  We can safely
532  * ship the old lmm to the client in case of failure, since it uses the same
533  * obd_unpackmd() code and can do the conversion if the MDS fails for some
534  * reason.  We will not delete the old lmm data until we have written the
535  * new format lmm data in fsfilt_set_md(). */
536 int mds_convert_lov_ea(struct obd_device *obd, struct inode *inode,
537                        struct lov_mds_md *lmm, int lmm_size)
538 {
539         struct lov_stripe_md *lsm = NULL;
540         void *handle;
541         int rc, err;
542         ENTRY;
543
544         if (le32_to_cpu(lmm->lmm_magic) == LOV_MAGIC)
545                 RETURN(0);
546
547         CWARN("converting LOV EA on %lu/%u from V0 to V1\n",
548               inode->i_ino, inode->i_generation);
549         rc = obd_unpackmd(obd->u.mds.mds_osc_exp, &lsm, lmm, lmm_size);
550         if (rc < 0)
551                 GOTO(conv_end, rc);
552
553         rc = obd_packmd(obd->u.mds.mds_osc_exp, &lmm, lsm);
554         if (rc < 0)
555                 GOTO(conv_free, rc);
556         lmm_size = rc;
557
558         handle = fsfilt_start(obd, inode, FSFILT_OP_SETATTR, NULL);
559         if (IS_ERR(handle)) {
560                 rc = PTR_ERR(handle);
561                 GOTO(conv_free, rc);
562         }
563
564         rc = fsfilt_set_md(obd, inode, handle, lmm, lmm_size);
565
566         err = fsfilt_commit(obd, inode, handle, 0);
567         if (!rc)
568                 rc = err ? err : lmm_size;
569         GOTO(conv_free, rc);
570 conv_free:
571         obd_free_memmd(obd->u.mds.mds_osc_exp, &lsm);
572 conv_end:
573         return rc;
574 }