Whamcloud - gitweb
b=14149
[fs/lustre-release.git] / lustre / obdclass / obd_mount.c
1 /* -*- mode: c; c-basic-offset: 8; indent-tabs-mode: nil; -*-
2  * vim:expandtab:shiftwidth=8:tabstop=8:
3  *
4  *  lustre/obdclass/obd_mount.c
5  *  Client/server mount routines
6  *
7  *  Copyright (c) 2006 Cluster File Systems, Inc.
8  *   Author: Nathan Rutman <nathan@clusterfs.com>
9  *
10  *   This file is part of Lustre, http://www.lustre.org/
11  *
12  *   Lustre is free software; you can redistribute it and/or
13  *   modify it under the terms of version 2 of the GNU General Public
14  *   License as published by the Free Software Foundation.
15  *
16  *   Lustre is distributed in the hope that it will be useful,
17  *   but WITHOUT ANY WARRANTY; without even the implied warranty of
18  *   MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the
19  *   GNU General Public License for more details.
20  *
21  *   You should have received a copy of the GNU General Public License
22  *   along with Lustre; if not, write to the Free Software
23  *   Foundation, Inc., 675 Mass Ave, Cambridge, MA 02139, USA.
24  */
25
26
27 #define DEBUG_SUBSYSTEM S_CLASS
28 #define D_MOUNT D_SUPER|D_CONFIG /*|D_WARNING */
29 #define PRINT_CMD CDEBUG
30 #define PRINT_MASK D_SUPER|D_CONFIG
31
32 #include <obd.h>
33 #include <lvfs.h>
34 #include <lustre_fsfilt.h>
35 #include <obd_class.h>
36 #include <lustre/lustre_user.h>
37 #include <linux/version.h>
38 #include <lustre_log.h>
39 #include <lustre_disk.h>
40 #include <lustre_param.h>
41
42 static int (*client_fill_super)(struct super_block *sb) = NULL;
43 static void (*kill_super_cb)(struct super_block *sb) = NULL;
44
45 /*********** mount lookup *********/
46
47 DECLARE_MUTEX(lustre_mount_info_lock);
48 struct list_head server_mount_info_list = LIST_HEAD_INIT(server_mount_info_list);
49
50 static struct lustre_mount_info *server_find_mount(const char *name)
51 {
52         struct list_head *tmp;
53         struct lustre_mount_info *lmi;
54         ENTRY;
55
56         list_for_each(tmp, &server_mount_info_list) {
57                 lmi = list_entry(tmp, struct lustre_mount_info, lmi_list_chain);
58                 if (strcmp(name, lmi->lmi_name) == 0)
59                         RETURN(lmi);
60         }
61         RETURN(NULL);
62 }
63
64 /* we must register an obd for a mount before we call the setup routine.
65    *_setup will call lustre_get_mount to get the mnt struct
66    by obd_name, since we can't pass the pointer to setup. */
67 static int server_register_mount(const char *name, struct super_block *sb,
68                           struct vfsmount *mnt)
69 {
70         struct lustre_mount_info *lmi;
71         char *name_cp;
72         ENTRY;
73
74         LASSERT(mnt);
75         LASSERT(sb);
76
77         OBD_ALLOC(lmi, sizeof(*lmi));
78         if (!lmi)
79                 RETURN(-ENOMEM);
80         OBD_ALLOC(name_cp, strlen(name) + 1);
81         if (!name_cp) {
82                 OBD_FREE(lmi, sizeof(*lmi));
83                 RETURN(-ENOMEM);
84         }
85         strcpy(name_cp, name);
86
87         down(&lustre_mount_info_lock);
88
89         if (server_find_mount(name)) {
90                 up(&lustre_mount_info_lock);
91                 OBD_FREE(lmi, sizeof(*lmi));
92                 OBD_FREE(name_cp, strlen(name) + 1);
93                 CERROR("Already registered %s\n", name);
94                 RETURN(-EEXIST);
95         }
96         lmi->lmi_name = name_cp;
97         lmi->lmi_sb = sb;
98         lmi->lmi_mnt = mnt;
99         list_add(&lmi->lmi_list_chain, &server_mount_info_list);
100
101         up(&lustre_mount_info_lock);
102
103         CDEBUG(D_MOUNT, "reg_mnt %p from %s, vfscount=%d\n",
104                lmi->lmi_mnt, name, atomic_read(&lmi->lmi_mnt->mnt_count));
105
106         RETURN(0);
107 }
108
109 /* when an obd no longer needs a mount */
110 static int server_deregister_mount(const char *name)
111 {
112         struct lustre_mount_info *lmi;
113         ENTRY;
114
115         down(&lustre_mount_info_lock);
116         lmi = server_find_mount(name);
117         if (!lmi) {
118                 up(&lustre_mount_info_lock);
119                 CERROR("%s not registered\n", name);
120                 RETURN(-ENOENT);
121         }
122
123         CDEBUG(D_MOUNT, "dereg_mnt %p from %s, vfscount=%d\n",
124                lmi->lmi_mnt, name, atomic_read(&lmi->lmi_mnt->mnt_count));
125
126         OBD_FREE(lmi->lmi_name, strlen(lmi->lmi_name) + 1);
127         list_del(&lmi->lmi_list_chain);
128         OBD_FREE(lmi, sizeof(*lmi));
129         up(&lustre_mount_info_lock);
130
131         RETURN(0);
132 }
133
134 /* obd's look up a registered mount using their obdname. This is just
135    for initial obd setup to find the mount struct.  It should not be
136    called every time you want to mntget. */
137 struct lustre_mount_info *server_get_mount(const char *name)
138 {
139         struct lustre_mount_info *lmi;
140         struct lustre_sb_info *lsi;
141         ENTRY;
142
143         down(&lustre_mount_info_lock);
144         lmi = server_find_mount(name);
145         up(&lustre_mount_info_lock);
146         if (!lmi) {
147                 CERROR("Can't find mount for %s\n", name);
148                 RETURN(NULL);
149         }
150         lsi = s2lsi(lmi->lmi_sb);
151         mntget(lmi->lmi_mnt);
152         atomic_inc(&lsi->lsi_mounts);
153
154         CDEBUG(D_MOUNT, "get_mnt %p from %s, refs=%d, vfscount=%d\n",
155                lmi->lmi_mnt, name, atomic_read(&lsi->lsi_mounts),
156                atomic_read(&lmi->lmi_mnt->mnt_count));
157
158         RETURN(lmi);
159 }
160
161 /*
162  * Used by mdt to get mount_info from obdname.
163  * There are no blocking when using the mount_info.
164  * Do not use server_get_mount for this purpose.
165  */
166 struct lustre_mount_info *server_get_mount_2(const char *name)
167 {
168         struct lustre_mount_info *lmi;
169         ENTRY;
170
171         down(&lustre_mount_info_lock);
172         lmi = server_find_mount(name);
173         up(&lustre_mount_info_lock);
174         if (!lmi)
175                 CERROR("Can't find mount for %s\n", name);
176
177         RETURN(lmi);
178 }
179
180 static void unlock_mntput(struct vfsmount *mnt)
181 {
182         if (kernel_locked()) {
183                 unlock_kernel();
184                 mntput(mnt);
185                 lock_kernel();
186         } else {
187                 mntput(mnt);
188         }
189 }
190
191 static int lustre_put_lsi(struct super_block *sb);
192
193 /* to be called from obd_cleanup methods */
194 int server_put_mount(const char *name, struct vfsmount *mnt)
195 {
196         struct lustre_mount_info *lmi;
197         struct lustre_sb_info *lsi;
198         int count = atomic_read(&mnt->mnt_count) - 1;
199         ENTRY;
200
201         /* This might be the last one, can't deref after this */
202         unlock_mntput(mnt);
203
204         down(&lustre_mount_info_lock);
205         lmi = server_find_mount(name);
206         up(&lustre_mount_info_lock);
207         if (!lmi) {
208                 CERROR("Can't find mount for %s\n", name);
209                 RETURN(-ENOENT);
210         }
211         lsi = s2lsi(lmi->lmi_sb);
212         LASSERT(lmi->lmi_mnt == mnt);
213
214         CDEBUG(D_MOUNT, "put_mnt %p from %s, refs=%d, vfscount=%d\n",
215                lmi->lmi_mnt, name, atomic_read(&lsi->lsi_mounts), count);
216
217         if (lustre_put_lsi(lmi->lmi_sb)) {
218                 CDEBUG(D_MOUNT, "Last put of mnt %p from %s, vfscount=%d\n",
219                        lmi->lmi_mnt, name, count);
220                 /* last mount is the One True Mount */
221                 if (count > 1)
222                         CERROR("%s: mount busy, vfscount=%d!\n", name, count);
223         }
224
225         /* this obd should never need the mount again */
226         server_deregister_mount(name);
227
228         RETURN(0);
229 }
230
231 /* Corresponding to server_get_mount_2 */
232 int server_put_mount_2(const char *name, struct vfsmount *mnt)
233 {
234         ENTRY;
235         RETURN(0);
236 }
237
238 /******* mount helper utilities *********/
239
240 #if 0
241 static void ldd_print(struct lustre_disk_data *ldd)
242 {
243         PRINT_CMD(PRINT_MASK, "  disk data:\n");
244         PRINT_CMD(PRINT_MASK, "server:  %s\n", ldd->ldd_svname);
245         PRINT_CMD(PRINT_MASK, "uuid:    %s\n", (char *)ldd->ldd_uuid);
246         PRINT_CMD(PRINT_MASK, "fs:      %s\n", ldd->ldd_fsname);
247         PRINT_CMD(PRINT_MASK, "index:   %04x\n", ldd->ldd_svindex);
248         PRINT_CMD(PRINT_MASK, "config:  %d\n", ldd->ldd_config_ver);
249         PRINT_CMD(PRINT_MASK, "flags:   %#x\n", ldd->ldd_flags);
250         PRINT_CMD(PRINT_MASK, "diskfs:  %s\n", MT_STR(ldd));
251         PRINT_CMD(PRINT_MASK, "options: %s\n", ldd->ldd_mount_opts);
252         PRINT_CMD(PRINT_MASK, "params:  %s\n", ldd->ldd_params);
253         PRINT_CMD(PRINT_MASK, "comment: %s\n", ldd->ldd_userdata);
254 }
255 #endif
256
257 static int ldd_parse(struct lvfs_run_ctxt *mount_ctxt,
258                            struct lustre_disk_data *ldd)
259 {
260         struct lvfs_run_ctxt saved;
261         struct file *file;
262         loff_t off = 0;
263         unsigned long len;
264         int rc;
265         ENTRY;
266
267         push_ctxt(&saved, mount_ctxt, NULL);
268
269         file = filp_open(MOUNT_DATA_FILE, O_RDONLY, 0644);
270         if (IS_ERR(file)) {
271                 rc = PTR_ERR(file);
272                 CERROR("cannot open %s: rc = %d\n", MOUNT_DATA_FILE, rc);
273                 GOTO(out, rc);
274         }
275
276         len = i_size_read(file->f_dentry->d_inode);
277         CDEBUG(D_MOUNT, "Have %s, size %lu\n", MOUNT_DATA_FILE, len);
278         if (len != sizeof(*ldd)) {
279                 CERROR("disk data size does not match: see %lu expect "LPSZ"\n",
280                        len, sizeof(*ldd));
281                 GOTO(out_close, rc = -EINVAL);
282         }
283
284         rc = lustre_fread(file, ldd, len, &off);
285         if (rc != len) {
286                 CERROR("error reading %s: read %d of %lu\n",
287                        MOUNT_DATA_FILE, rc, len);
288                 GOTO(out_close, rc = -EINVAL);
289         }
290         rc = 0;
291
292         if (ldd->ldd_magic != LDD_MAGIC) {
293                 /* FIXME add swabbing support */
294                 CERROR("Bad magic in %s: %x!=%x\n", MOUNT_DATA_FILE,
295                        ldd->ldd_magic, LDD_MAGIC);
296                 GOTO(out_close, rc = -EINVAL);
297         }
298
299         if (ldd->ldd_feature_incompat & ~LDD_INCOMPAT_SUPP) {
300                 CERROR("%s: unsupported incompat filesystem feature(s) %x\n",
301                        ldd->ldd_svname,
302                        ldd->ldd_feature_incompat & ~LDD_INCOMPAT_SUPP);
303                 GOTO(out_close, rc = -EINVAL);
304         }
305         if (ldd->ldd_feature_rocompat & ~LDD_ROCOMPAT_SUPP) {
306                 CERROR("%s: unsupported read-only filesystem feature(s) %x\n",
307                        ldd->ldd_svname,
308                        ldd->ldd_feature_rocompat & ~LDD_ROCOMPAT_SUPP);
309                 /* Do something like remount filesystem read-only */
310                 GOTO(out_close, rc = -EINVAL);
311         }
312
313 out_close:
314         filp_close(file, 0);
315 out:
316         pop_ctxt(&saved, mount_ctxt, NULL);
317         RETURN(rc);
318 }
319
320 static int ldd_write(struct lvfs_run_ctxt *mount_ctxt,
321                      struct lustre_disk_data *ldd)
322 {
323         struct lvfs_run_ctxt saved;
324         struct file *file;
325         loff_t off = 0;
326         unsigned long len = sizeof(struct lustre_disk_data);
327         int rc = 0;
328         ENTRY;
329
330         LASSERT(ldd->ldd_magic == LDD_MAGIC);
331
332         ldd->ldd_config_ver++;
333
334         push_ctxt(&saved, mount_ctxt, NULL);
335
336         file = filp_open(MOUNT_DATA_FILE, O_RDWR, 0644);
337         if (IS_ERR(file)) {
338                 rc = PTR_ERR(file);
339                 CERROR("cannot open %s: rc = %d\n", MOUNT_DATA_FILE, rc);
340                 GOTO(out, rc);
341         }
342
343         rc = lustre_fwrite(file, ldd, len, &off);
344         if (rc != len) {
345                 CERROR("error writing %s: read %d of %lu\n",
346                        MOUNT_DATA_FILE, rc, len);
347                 GOTO(out_close, rc = -EINVAL);
348         }
349
350         rc = 0;
351
352 out_close:
353         filp_close(file, 0);
354 out:
355         pop_ctxt(&saved, mount_ctxt, NULL);
356         RETURN(rc);
357 }
358
359
360 /**************** config llog ********************/
361
362 /* Get a config log from the MGS and process it.
363    This func is called for both clients and servers.
364    Continue to process new statements appended to the logs
365    (whenever the config lock is revoked) until lustre_end_log
366    is called. */
367 int lustre_process_log(struct super_block *sb, char *logname,
368                      struct config_llog_instance *cfg)
369 {
370         struct lustre_cfg *lcfg;
371         struct lustre_cfg_bufs bufs;
372         struct lustre_sb_info *lsi = s2lsi(sb);
373         struct obd_device *mgc = lsi->lsi_mgc;
374         int rc;
375         ENTRY;
376
377         LASSERT(mgc);
378         LASSERT(cfg);
379
380         /* mgc_process_config */
381         lustre_cfg_bufs_reset(&bufs, mgc->obd_name);
382         lustre_cfg_bufs_set_string(&bufs, 1, logname);
383         lustre_cfg_bufs_set(&bufs, 2, cfg, sizeof(*cfg));
384         lustre_cfg_bufs_set(&bufs, 3, &sb, sizeof(sb));
385         lcfg = lustre_cfg_new(LCFG_LOG_START, &bufs);
386         rc = obd_process_config(mgc, sizeof(*lcfg), lcfg);
387         lustre_cfg_free(lcfg);
388
389         if (rc == -EINVAL)
390                 LCONSOLE_ERROR_MSG(0x15b, "%s: The configuration from log '%s'"
391                                    "failed from the MGS (%d).  Make sure this "
392                                    "client and the MGS are running compatible "
393                                    "versions of Lustre.\n",
394                                    mgc->obd_name, logname, rc);
395
396         if (rc)
397                 LCONSOLE_ERROR_MSG(0x15c, "%s: The configuration from log '%s' "
398                                    "failed (%d). This may be the result of "
399                                    "communication errors between this node and "
400                                    "the MGS, a bad configuration, or other "
401                                    "errors. See the syslog for more "
402                                    "information.\n", mgc->obd_name, logname, 
403                                    rc);
404
405         /* class_obd_list(); */
406         RETURN(rc);
407 }
408
409 /* Stop watching this config log for updates */
410 int lustre_end_log(struct super_block *sb, char *logname,
411                        struct config_llog_instance *cfg)
412 {
413         struct lustre_cfg *lcfg;
414         struct lustre_cfg_bufs bufs;
415         struct lustre_sb_info *lsi = s2lsi(sb);
416         struct obd_device *mgc = lsi->lsi_mgc;
417         int rc;
418         ENTRY;
419
420         if (!mgc)
421                 RETURN(-ENOENT);
422
423         /* mgc_process_config */
424         lustre_cfg_bufs_reset(&bufs, mgc->obd_name);
425         lustre_cfg_bufs_set_string(&bufs, 1, logname);
426         if (cfg)
427                 lustre_cfg_bufs_set(&bufs, 2, cfg, sizeof(*cfg));
428         lcfg = lustre_cfg_new(LCFG_LOG_END, &bufs);
429         rc = obd_process_config(mgc, sizeof(*lcfg), lcfg);
430         lustre_cfg_free(lcfg);
431         RETURN(rc);
432 }
433
434 /**************** obd start *******************/
435
436 int do_lcfg(char *cfgname, lnet_nid_t nid, int cmd,
437             char *s1, char *s2, char *s3, char *s4)
438 {
439         struct lustre_cfg_bufs bufs;
440         struct lustre_cfg    * lcfg = NULL;
441         int rc;
442
443         CDEBUG(D_TRACE, "lcfg %s %#x %s %s %s %s\n", cfgname,
444                cmd, s1, s2, s3, s4);
445
446         lustre_cfg_bufs_reset(&bufs, cfgname);
447         if (s1)
448                 lustre_cfg_bufs_set_string(&bufs, 1, s1);
449         if (s2)
450                 lustre_cfg_bufs_set_string(&bufs, 2, s2);
451         if (s3)
452                 lustre_cfg_bufs_set_string(&bufs, 3, s3);
453         if (s4)
454                 lustre_cfg_bufs_set_string(&bufs, 4, s4);
455
456         lcfg = lustre_cfg_new(cmd, &bufs);
457         lcfg->lcfg_nid = nid;
458         rc = class_process_config(lcfg);
459         lustre_cfg_free(lcfg);
460         return(rc);
461 }
462
463 static int lustre_start_simple(char *obdname, char *type, char *uuid,
464                                char *s1, char *s2)
465 {
466         int rc;
467         CDEBUG(D_MOUNT, "Starting obd %s (typ=%s)\n", obdname, type);
468
469         rc = do_lcfg(obdname, 0, LCFG_ATTACH, type, uuid, 0, 0);
470         if (rc) {
471                 CERROR("%s attach error %d\n", obdname, rc);
472                 return(rc);
473         }
474         rc = do_lcfg(obdname, 0, LCFG_SETUP, s1, s2, 0, 0);
475         if (rc) {
476                 CERROR("%s setup error %d\n", obdname, rc);
477                 do_lcfg(obdname, 0, LCFG_DETACH, 0, 0, 0, 0);
478         }
479         return rc;
480 }
481
482 /* Set up a MGS to serve startup logs */
483 static int server_start_mgs(struct super_block *sb)
484 {
485         struct lustre_sb_info    *lsi = s2lsi(sb);
486         struct vfsmount          *mnt = lsi->lsi_srv_mnt;
487         struct lustre_mount_info *lmi;
488         int    rc = 0;
489         ENTRY;
490         LASSERT(mnt);
491
492         /* It is impossible to have more than 1 MGS per node, since
493            MGC wouldn't know which to connect to */
494         lmi = server_find_mount(LUSTRE_MGS_OBDNAME);
495         if (lmi) {
496                 lsi = s2lsi(lmi->lmi_sb);
497                 LCONSOLE_ERROR_MSG(0x15d, "The MGS service was already started"
498                                    " from server %s\n",
499                                    lsi->lsi_ldd->ldd_svname);
500                 RETURN(-EALREADY);
501         }
502
503         CDEBUG(D_CONFIG, "Start MGS service %s\n", LUSTRE_MGS_OBDNAME);
504
505         rc = server_register_mount(LUSTRE_MGS_OBDNAME, sb, mnt);
506
507         if (!rc &&
508             ((rc = lustre_start_simple(LUSTRE_MGS_OBDNAME, LUSTRE_MGS_NAME,
509                                        LUSTRE_MGS_OBDNAME, 0, 0))))
510                 server_deregister_mount(LUSTRE_MGS_OBDNAME);
511
512         if (rc)
513                 LCONSOLE_ERROR_MSG(0x15e, "Failed to start MGS '%s' (%d). "
514                                    "Is the 'mgs' module loaded?\n",
515                                    LUSTRE_MGS_OBDNAME, rc);
516         RETURN(rc);
517 }
518
519 static int server_stop_mgs(struct super_block *sb)
520 {
521         struct obd_device *obd;
522         int rc;
523         ENTRY;
524
525         CDEBUG(D_MOUNT, "Stop MGS service %s\n", LUSTRE_MGS_OBDNAME);
526
527         /* There better be only one MGS */
528         obd = class_name2obd(LUSTRE_MGS_OBDNAME);
529         if (!obd) {
530                 CDEBUG(D_CONFIG, "mgs %s not running\n", LUSTRE_MGS_OBDNAME);
531                 RETURN(-EALREADY);
532         }
533
534         /* The MGS should always stop when we say so */
535         obd->obd_force = 1;
536         rc = class_manual_cleanup(obd);
537         RETURN(rc);
538 }
539
540 DECLARE_MUTEX(mgc_start_lock);
541
542 /* Set up a mgcobd to process startup logs */
543 static int lustre_start_mgc(struct super_block *sb)
544 {
545         struct lustre_handle mgc_conn = {0, };
546         struct obd_connect_data ocd = { 0 };
547         struct lustre_sb_info *lsi = s2lsi(sb);
548         struct obd_device *obd;
549         struct obd_export *exp;
550         struct obd_uuid *uuid;
551         class_uuid_t uuidc;
552         lnet_nid_t nid;
553         char *mgcname, *niduuid;
554         char *ptr;
555         int recov_bk;
556         int rc = 0, i = 0, j, len;
557         ENTRY;
558
559         LASSERT(lsi->lsi_lmd);
560
561         /* Find the first non-lo MGS nid for our MGC name */
562         if (lsi->lsi_flags & LSI_SERVER) {
563                 ptr = lsi->lsi_ldd->ldd_params;
564                 /* Use mgsnode= nids */
565                 if ((class_find_param(ptr, PARAM_MGSNODE, &ptr) == 0) &&
566                     (class_parse_nid(ptr, &nid, &ptr) == 0)) {
567                         i++;
568                 } else if (IS_MGS(lsi->lsi_ldd)) {
569                         lnet_process_id_t id;
570                         while ((rc = LNetGetId(i++, &id)) != -ENOENT) {
571                                 if (LNET_NETTYP(LNET_NIDNET(id.nid)) == LOLND)
572                                         continue;
573                                 nid = id.nid;
574                                 i++;
575                                 break;
576                         }
577                 }
578         } else { /* client */
579                 /* Use nids from mount line: uml1,1@elan:uml2,2@elan:/lustre */
580                 ptr = lsi->lsi_lmd->lmd_dev;
581                 if (class_parse_nid(ptr, &nid, &ptr) == 0)
582                         i++;
583         }
584         if (i == 0) {
585                 CERROR("No valid MGS nids found.\n");
586                 RETURN(-EINVAL);
587         }
588
589         len = strlen(LUSTRE_MGC_OBDNAME) + strlen(libcfs_nid2str(nid)) + 1;
590         OBD_ALLOC(mgcname, len);
591         OBD_ALLOC(niduuid, len + 2);
592         if (!mgcname || !niduuid)
593                 GOTO(out_free, rc = -ENOMEM);
594         sprintf(mgcname, "%s%s", LUSTRE_MGC_OBDNAME, libcfs_nid2str(nid));
595
596         mutex_down(&mgc_start_lock);
597
598         obd = class_name2obd(mgcname);
599         if (obd) {
600                 /* Re-using an existing MGC */
601                 atomic_inc(&obd->u.cli.cl_mgc_refcount);
602
603                 recov_bk = 0;
604                 /* If we are restarting the MGS, don't try to keep the MGC's
605                    old connection, or registration will fail. */
606                 if ((lsi->lsi_flags & LSI_SERVER) && IS_MGS(lsi->lsi_ldd)) {
607                         CDEBUG(D_MOUNT, "New MGS with live MGC\n");
608                         recov_bk = 1;
609                 }
610
611                 /* Try all connections, but only once (again).
612                    We don't want to block another target from starting
613                    (using its local copy of the log), but we do want to connect
614                    if at all possible. */
615                 recov_bk++;
616                 CDEBUG(D_MOUNT, "%s: Set MGC reconnect %d\n", mgcname,recov_bk);
617                 rc = obd_set_info_async(obd->obd_self_export,
618                                         strlen(KEY_INIT_RECOV_BACKUP),
619                                         KEY_INIT_RECOV_BACKUP,
620                                         sizeof(recov_bk), &recov_bk, NULL);
621                 GOTO(out, rc = 0);
622         }
623
624         CDEBUG(D_MOUNT, "Start MGC '%s'\n", mgcname);
625
626         /* Add the primary nids for the MGS */
627         i = 0;
628         sprintf(niduuid, "%s_%x", mgcname, i);
629         if (lsi->lsi_flags & LSI_SERVER) {
630                 ptr = lsi->lsi_ldd->ldd_params;
631                 if (IS_MGS(lsi->lsi_ldd)) {
632                         /* Use local nids (including LO) */
633                         lnet_process_id_t id;
634                         while ((rc = LNetGetId(i++, &id)) != -ENOENT) {
635                                 rc = do_lcfg(mgcname, id.nid,
636                                              LCFG_ADD_UUID, niduuid, 0,0,0);
637                         }
638                 } else {
639                         /* Use mgsnode= nids */
640                         if (class_find_param(ptr, PARAM_MGSNODE, &ptr) != 0) {
641                                 CERROR("No MGS nids given.\n");
642                                 GOTO(out_free, rc = -EINVAL);
643                         }
644                         while (class_parse_nid(ptr, &nid, &ptr) == 0) {
645                                 rc = do_lcfg(mgcname, nid,
646                                              LCFG_ADD_UUID, niduuid, 0,0,0);
647                                 i++;
648                         }
649                 }
650         } else { /* client */
651                 /* Use nids from mount line: uml1,1@elan:uml2,2@elan:/lustre */
652                 ptr = lsi->lsi_lmd->lmd_dev;
653                 while (class_parse_nid(ptr, &nid, &ptr) == 0) {
654                         rc = do_lcfg(mgcname, nid,
655                                      LCFG_ADD_UUID, niduuid, 0,0,0);
656                         i++;
657                         /* Stop at the first failover nid */
658                         if (*ptr == ':')
659                                 break;
660                 }
661         }
662         if (i == 0) {
663                 CERROR("No valid MGS nids found.\n");
664                 GOTO(out_free, rc = -EINVAL);
665         }
666         lsi->lsi_lmd->lmd_mgs_failnodes = 1;
667
668         /* Random uuid for MGC allows easier reconnects */
669         OBD_ALLOC_PTR(uuid);
670         ll_generate_random_uuid(uuidc);
671         class_uuid_unparse(uuidc, uuid);
672
673         /* Start the MGC */
674         rc = lustre_start_simple(mgcname, LUSTRE_MGC_NAME,
675                                  (char *)uuid->uuid, LUSTRE_MGS_OBDNAME,
676                                  niduuid);
677         OBD_FREE_PTR(uuid);
678         if (rc)
679                 GOTO(out_free, rc);
680
681         /* Add any failover MGS nids */
682         i = 1;
683         while ((*ptr == ':' ||
684                 class_find_param(ptr, PARAM_MGSNODE, &ptr) == 0)) {
685                 /* New failover node */
686                 sprintf(niduuid, "%s_%x", mgcname, i);
687                 j = 0;
688                 while (class_parse_nid(ptr, &nid, &ptr) == 0) {
689                         j++;
690                         rc = do_lcfg(mgcname, nid,
691                                      LCFG_ADD_UUID, niduuid, 0,0,0);
692                         if (*ptr == ':')
693                                 break;
694                 }
695                 if (j > 0) {
696                         rc = do_lcfg(mgcname, 0, LCFG_ADD_CONN,
697                                      niduuid, 0, 0, 0);
698                         i++;
699                 } else {
700                         /* at ":/fsname" */
701                         break;
702                 }
703         }
704         lsi->lsi_lmd->lmd_mgs_failnodes = i;
705
706         obd = class_name2obd(mgcname);
707         if (!obd) {
708                 CERROR("Can't find mgcobd %s\n", mgcname);
709                 GOTO(out_free, rc = -ENOTCONN);
710         }
711
712         /* Keep a refcount of servers/clients who started with "mount",
713            so we know when we can get rid of the mgc. */
714         atomic_set(&obd->u.cli.cl_mgc_refcount, 1);
715
716         /* Try all connections, but only once. */
717         recov_bk = 1;
718         rc = obd_set_info_async(obd->obd_self_export,
719                                 strlen(KEY_INIT_RECOV_BACKUP),
720                                 KEY_INIT_RECOV_BACKUP,
721                                 sizeof(recov_bk), &recov_bk, NULL);
722         if (rc)
723                 /* nonfatal */
724                 CERROR("can't set %s %d\n", KEY_INIT_RECOV_BACKUP, rc);
725         /* We connect to the MGS at setup, and don't disconnect until cleanup */
726
727         ocd.ocd_connect_flags = OBD_CONNECT_VERSION | OBD_CONNECT_FID;
728         ocd.ocd_version = LUSTRE_VERSION_CODE;
729
730         rc = obd_connect(NULL, &mgc_conn, obd, &(obd->obd_uuid), &ocd);
731         if (rc) {
732                 CERROR("connect failed %d\n", rc);
733                 GOTO(out, rc);
734         }
735
736         exp = class_conn2export(&mgc_conn);
737         obd->u.cli.cl_mgc_mgsexp = exp;
738
739 out:
740         /* Keep the mgc info in the sb. Note that many lsi's can point
741            to the same mgc.*/
742         lsi->lsi_mgc = obd;
743 out_free:
744         mutex_up(&mgc_start_lock);
745
746         if (mgcname)
747                 OBD_FREE(mgcname, len);
748         if (niduuid)
749                 OBD_FREE(niduuid, len + 2);
750         RETURN(rc);
751 }
752
753 static int lustre_stop_mgc(struct super_block *sb)
754 {
755         struct lustre_sb_info *lsi = s2lsi(sb);
756         struct obd_device *obd;
757         char *niduuid = 0, *ptr = 0;
758         int i, rc = 0, len = 0;
759         ENTRY;
760
761         if (!lsi)
762                 RETURN(-ENOENT);
763         obd = lsi->lsi_mgc;
764         if (!obd)
765                 RETURN(-ENOENT);
766
767         lsi->lsi_mgc = NULL;
768         mutex_down(&mgc_start_lock);
769         if (!atomic_dec_and_test(&obd->u.cli.cl_mgc_refcount)) {
770                 /* This is not fatal, every client that stops
771                    will call in here. */
772                 CDEBUG(D_MOUNT, "mgc still has %d references.\n",
773                        atomic_read(&obd->u.cli.cl_mgc_refcount));
774                 GOTO(out, rc = -EBUSY);
775         }
776
777         /* The MGC has no recoverable data in any case. 
778          * force shotdown set in umount_begin */
779         obd->obd_no_recov = 1;
780
781         if (obd->u.cli.cl_mgc_mgsexp)
782                 obd_disconnect(obd->u.cli.cl_mgc_mgsexp);
783
784         /* Save the obdname for cleaning the nid uuids, which are
785            obdname_XX */
786         len = strlen(obd->obd_name) + 6;
787         OBD_ALLOC(niduuid, len);
788         if (niduuid) {
789                 strcpy(niduuid, obd->obd_name);
790                 ptr = niduuid + strlen(niduuid);
791         }
792
793         rc = class_manual_cleanup(obd);
794         if (rc)
795                 GOTO(out, rc);
796
797         /* Clean the nid uuids */
798         if (!niduuid)
799                 RETURN(-ENOMEM);
800         for (i = 0; i < lsi->lsi_lmd->lmd_mgs_failnodes; i++) {
801                 sprintf(ptr, "_%x", i);
802                 rc = do_lcfg(LUSTRE_MGC_OBDNAME, 0, LCFG_DEL_UUID,
803                              niduuid, 0, 0, 0);
804                 if (rc)
805                         CERROR("del MDC UUID %s failed: rc = %d\n",
806                                niduuid, rc);
807         }
808         OBD_FREE(niduuid, len);
809         /* class_import_put will get rid of the additional connections */
810
811 out:
812         mutex_up(&mgc_start_lock);
813         RETURN(rc);
814 }
815
816 /* Since there's only one mgc per node, we have to change it's fs to get
817    access to the right disk. */
818 static int server_mgc_set_fs(struct obd_device *mgc, struct super_block *sb)
819 {
820         struct lustre_sb_info *lsi = s2lsi(sb);
821         int rc;
822         ENTRY;
823
824         CDEBUG(D_MOUNT, "Set mgc disk for %s\n", lsi->lsi_lmd->lmd_dev);
825
826         /* cl_mgc_sem in mgc insures we sleep if the mgc_fs is busy */
827         rc = obd_set_info_async(mgc->obd_self_export,
828                                 strlen("set_fs"), "set_fs",
829                                 sizeof(*sb), sb, NULL);
830         if (rc) {
831                 CERROR("can't set_fs %d\n", rc);
832         }
833
834         RETURN(rc);
835 }
836
837 static int server_mgc_clear_fs(struct obd_device *mgc)
838 {
839         int rc;
840         ENTRY;
841
842         CDEBUG(D_MOUNT, "Unassign mgc disk\n");
843
844         rc = obd_set_info_async(mgc->obd_self_export,
845                                 strlen("clear_fs"), "clear_fs",
846                                 0, NULL, NULL);
847         RETURN(rc);
848 }
849
850 DECLARE_MUTEX(server_start_lock);
851
852 /* Stop MDS/OSS if nobody is using them */
853 static int server_stop_servers(int lddflags, int lsiflags)
854 {
855         struct obd_device *obd = NULL;
856         struct obd_type *type = NULL;
857         int rc = 0;
858         ENTRY;
859
860         mutex_down(&server_start_lock);
861
862         /* Either an MDT or an OST or neither  */
863         /* if this was an MDT, and there are no more MDT's, clean up the MDS */
864         if ((lddflags & LDD_F_SV_TYPE_MDT) &&
865             (obd = class_name2obd(LUSTRE_MDS_OBDNAME))) {
866                 /*FIXME pre-rename, should eventually be LUSTRE_MDT_NAME*/
867                 type = class_search_type(LUSTRE_MDS_NAME);
868         }
869         /* if this was an OST, and there are no more OST's, clean up the OSS */
870         if ((lddflags & LDD_F_SV_TYPE_OST) &&
871             (obd = class_name2obd(LUSTRE_OSS_OBDNAME))) {
872                 type = class_search_type(LUSTRE_OST_NAME);
873         }
874
875         if (obd && (!type || !type->typ_refcnt)) {
876                 int err;
877                 obd->obd_force = 1;
878                 /* obd_fail doesn't mean much on a server obd */
879                 err = class_manual_cleanup(obd);
880                 if (!rc)
881                         rc = err;
882         }
883
884         mutex_up(&server_start_lock);
885
886         RETURN(rc);
887 }
888
889 int server_mti_print(char *title, struct mgs_target_info *mti)
890 {
891         PRINT_CMD(PRINT_MASK, "mti %s\n", title);
892         PRINT_CMD(PRINT_MASK, "server: %s\n", mti->mti_svname);
893         PRINT_CMD(PRINT_MASK, "fs:     %s\n", mti->mti_fsname);
894         PRINT_CMD(PRINT_MASK, "uuid:   %s\n", mti->mti_uuid);
895         PRINT_CMD(PRINT_MASK, "ver: %d  flags: %#x\n",
896                   mti->mti_config_ver, mti->mti_flags);
897         return(0);
898 }
899
900 static int server_sb2mti(struct super_block *sb, struct mgs_target_info *mti)
901 {
902         struct lustre_sb_info    *lsi = s2lsi(sb);
903         struct lustre_disk_data  *ldd = lsi->lsi_ldd;
904         lnet_process_id_t         id;
905         int i = 0;
906         ENTRY;
907
908         if (!(lsi->lsi_flags & LSI_SERVER))
909                 RETURN(-EINVAL);
910
911         strncpy(mti->mti_fsname, ldd->ldd_fsname,
912                 sizeof(mti->mti_fsname));
913         strncpy(mti->mti_svname, ldd->ldd_svname,
914                 sizeof(mti->mti_svname));
915
916         mti->mti_nid_count = 0;
917         while (LNetGetId(i++, &id) != -ENOENT) {
918                 if (LNET_NETTYP(LNET_NIDNET(id.nid)) == LOLND)
919                         continue;
920                 mti->mti_nids[mti->mti_nid_count] = id.nid;
921                 mti->mti_nid_count++;
922                 if (mti->mti_nid_count >= MTI_NIDS_MAX) {
923                         CWARN("Only using first %d nids for %s\n",
924                               mti->mti_nid_count, mti->mti_svname);
925                         break;
926                 }
927         }
928
929         mti->mti_lustre_ver = LUSTRE_VERSION_CODE;
930         mti->mti_config_ver = 0;
931         mti->mti_flags = ldd->ldd_flags;
932         mti->mti_stripe_index = ldd->ldd_svindex;
933         memcpy(mti->mti_uuid, ldd->ldd_uuid, sizeof(mti->mti_uuid));
934         if (strlen(ldd->ldd_params) > sizeof(mti->mti_params)) {
935                 CERROR("params too big for mti\n");
936                 RETURN(-ENOMEM);
937         }
938         memcpy(mti->mti_params, ldd->ldd_params, sizeof(mti->mti_params));
939         RETURN(0);
940 }
941
942 /* Register an old or new target with the MGS. If needed MGS will construct
943    startup logs and assign index */
944 int server_register_target(struct super_block *sb)
945 {
946         struct lustre_sb_info *lsi = s2lsi(sb);
947         struct obd_device *mgc = lsi->lsi_mgc;
948         struct lustre_disk_data *ldd = lsi->lsi_ldd;
949         struct mgs_target_info *mti = NULL;
950         int rc;
951         ENTRY;
952
953         LASSERT(mgc);
954
955         if (!(lsi->lsi_flags & LSI_SERVER))
956                 RETURN(-EINVAL);
957
958         OBD_ALLOC_PTR(mti);
959         if (!mti)
960                 RETURN(-ENOMEM);
961         rc = server_sb2mti(sb, mti);
962         if (rc)
963                 GOTO(out, rc);
964
965         CDEBUG(D_MOUNT, "Registration %s, fs=%s, %s, index=%04x, flags=%#x\n",
966                mti->mti_svname, mti->mti_fsname,
967                libcfs_nid2str(mti->mti_nids[0]), mti->mti_stripe_index,
968                mti->mti_flags);
969
970         /* Register the target */
971         /* FIXME use mgc_process_config instead */
972         rc = obd_set_info_async(mgc->u.cli.cl_mgc_mgsexp,
973                                 strlen("register_target"), "register_target",
974                                 sizeof(*mti), mti, NULL);
975         if (rc) {
976                 CERROR("registration with the MGS failed (%d)\n", rc);
977                 GOTO(out, rc);
978         }
979
980         /* Always update our flags */
981         ldd->ldd_flags = mti->mti_flags & ~LDD_F_REWRITE_LDD;
982
983         /* If this flag is set, it means the MGS wants us to change our
984            on-disk data. (So far this means just the index.) */
985         if (mti->mti_flags & LDD_F_REWRITE_LDD) {
986                 char *label;
987                 int err;
988                 CDEBUG(D_MOUNT, "Changing on-disk index from %#x to %#x "
989                        "for %s\n", ldd->ldd_svindex, mti->mti_stripe_index,
990                        mti->mti_svname);
991                 ldd->ldd_svindex = mti->mti_stripe_index;
992                 strncpy(ldd->ldd_svname, mti->mti_svname,
993                         sizeof(ldd->ldd_svname));
994                 /* or ldd_make_sv_name(ldd); */
995                 ldd_write(&mgc->obd_lvfs_ctxt, ldd);
996                 err = fsfilt_set_label(mgc, lsi->lsi_srv_mnt->mnt_sb,
997                                        mti->mti_svname);
998                 if (err)
999                         CERROR("Label set error %d\n", err);
1000                 label = fsfilt_get_label(mgc, lsi->lsi_srv_mnt->mnt_sb);
1001                 if (label)
1002                         CDEBUG(D_MOUNT, "Disk label changed to %s\n", label);
1003
1004                 /* Flush the new ldd to disk */
1005                 fsfilt_sync(mgc, lsi->lsi_srv_mnt->mnt_sb);
1006         }
1007
1008 out:
1009         if (mti)
1010                 OBD_FREE_PTR(mti);
1011         RETURN(rc);
1012 }
1013
1014 /* Start targets */
1015 static int server_start_targets(struct super_block *sb, struct vfsmount *mnt)
1016 {
1017         struct obd_device *obd;
1018         struct lustre_sb_info *lsi = s2lsi(sb);
1019         struct config_llog_instance cfg;
1020         int rc;
1021         ENTRY;
1022
1023         CDEBUG(D_MOUNT, "starting target %s\n", lsi->lsi_ldd->ldd_svname);
1024
1025 #if 0
1026         /* If we're an MDT, make sure the global MDS is running */
1027         if (lsi->lsi_ldd->ldd_flags & LDD_F_SV_TYPE_MDT) {
1028                 /* make sure the MDS is started */
1029                 mutex_down(&server_start_lock);
1030                 obd = class_name2obd(LUSTRE_MDS_OBDNAME);
1031                 if (!obd) {
1032                         rc = lustre_start_simple(LUSTRE_MDS_OBDNAME,
1033                     /* FIXME pre-rename, should eventually be LUSTRE_MDS_NAME */
1034                                                  LUSTRE_MDT_NAME,
1035                                                  LUSTRE_MDS_OBDNAME"_uuid",
1036                                                  0, 0);
1037                         if (rc) {
1038                                 mutex_up(&server_start_lock);
1039                                 CERROR("failed to start MDS: %d\n", rc);
1040                                 RETURN(rc);
1041                         }
1042                 }
1043                 mutex_up(&server_start_lock);
1044         }
1045 #endif
1046
1047         /* If we're an OST, make sure the global OSS is running */
1048         if (lsi->lsi_ldd->ldd_flags & LDD_F_SV_TYPE_OST) {
1049                 /* make sure OSS is started */
1050                 mutex_down(&server_start_lock);
1051                 obd = class_name2obd(LUSTRE_OSS_OBDNAME);
1052                 if (!obd) {
1053                         rc = lustre_start_simple(LUSTRE_OSS_OBDNAME,
1054                                                  LUSTRE_OSS_NAME,
1055                                                  LUSTRE_OSS_OBDNAME"_uuid",
1056                                                  0, 0);
1057                         if (rc) {
1058                                 mutex_up(&server_start_lock);
1059                                 CERROR("failed to start OSS: %d\n", rc);
1060                                 RETURN(rc);
1061                         }
1062                 }
1063                 mutex_up(&server_start_lock);
1064         }
1065
1066         /* Set the mgc fs to our server disk.  This allows the MGC
1067            to read and write configs locally. */
1068         rc = server_mgc_set_fs(lsi->lsi_mgc, sb);
1069         if (rc)
1070                 RETURN(rc);
1071
1072         /* Register with MGS */
1073         rc = server_register_target(sb);
1074         if (rc && (lsi->lsi_ldd->ldd_flags &
1075                    (LDD_F_NEED_INDEX | LDD_F_UPDATE | LDD_F_UPGRADE14))){
1076                 CERROR("Required registration failed for %s: %d\n",
1077                        lsi->lsi_ldd->ldd_svname, rc);
1078                 if (rc == -EIO) {
1079                         LCONSOLE_ERROR_MSG(0x15f, "Communication error with "
1080                                            "the MGS.  Is the MGS running?\n");
1081                 }
1082                 GOTO(out_mgc, rc);
1083         }
1084         if (rc == -EINVAL) {
1085                 LCONSOLE_ERROR_MSG(0x160, "The MGS is refusing to allow this "
1086                                    "server (%s) to start. Please see messages"
1087                                    " on the MGS node.\n",
1088                                    lsi->lsi_ldd->ldd_svname);
1089                 GOTO(out_mgc, rc);
1090         }
1091
1092         /* Let the target look up the mount using the target's name
1093            (we can't pass the sb or mnt through class_process_config.) */
1094         rc = server_register_mount(lsi->lsi_ldd->ldd_svname, sb, mnt);
1095         if (rc)
1096                 GOTO(out_mgc, rc);
1097
1098         /* Start targets using the llog named for the target */
1099         memset(&cfg, 0, sizeof(cfg));
1100         rc = lustre_process_log(sb, lsi->lsi_ldd->ldd_svname, &cfg);
1101         if (rc) {
1102                 CERROR("failed to start server %s: %d\n",
1103                        lsi->lsi_ldd->ldd_svname, rc);
1104                 GOTO(out_mgc, rc);
1105         }
1106
1107 out_mgc:
1108         /* Release the mgc fs for others to use */
1109         server_mgc_clear_fs(lsi->lsi_mgc);
1110
1111         if (!rc) {
1112                 obd = class_name2obd(lsi->lsi_ldd->ldd_svname);
1113                 if (!obd) {
1114                         CERROR("no server named %s was started\n",
1115                                lsi->lsi_ldd->ldd_svname);
1116                         RETURN(-ENXIO);
1117                 }
1118
1119                 if ((lsi->lsi_lmd->lmd_flags & LMD_FLG_ABORT_RECOV) &&
1120                     (OBP(obd, iocontrol))) {
1121                         obd_iocontrol(OBD_IOC_ABORT_RECOVERY,
1122                                       obd->obd_self_export, 0, NULL, NULL);
1123                 }
1124
1125                 /* log has been fully processed */
1126                 obd_notify(obd, NULL, OBD_NOTIFY_CONFIG, (void *)CONFIG_LOG);
1127         }
1128
1129         RETURN(rc);
1130 }
1131
1132 /***************** lustre superblock **************/
1133
1134 struct lustre_sb_info *lustre_init_lsi(struct super_block *sb)
1135 {
1136         struct lustre_sb_info *lsi = NULL;
1137         ENTRY;
1138
1139         OBD_ALLOC(lsi, sizeof(*lsi));
1140         if (!lsi)
1141                 RETURN(NULL);
1142         OBD_ALLOC(lsi->lsi_lmd, sizeof(*lsi->lsi_lmd));
1143         if (!lsi->lsi_lmd) {
1144                 OBD_FREE(lsi, sizeof(*lsi));
1145                 RETURN(NULL);
1146         }
1147
1148         lsi->lsi_lmd->lmd_exclude_count = 0;
1149         s2lsi_nocast(sb) = lsi;
1150         /* we take 1 extra ref for our setup */
1151         atomic_set(&lsi->lsi_mounts, 1);
1152
1153         /* Default umount style */
1154         lsi->lsi_flags = LSI_UMOUNT_FAILOVER;
1155
1156         RETURN(lsi);
1157 }
1158
1159 static int lustre_free_lsi(struct super_block *sb)
1160 {
1161         struct lustre_sb_info *lsi = s2lsi(sb);
1162         ENTRY;
1163
1164         if (!lsi)
1165                 RETURN(0);
1166
1167         CDEBUG(D_MOUNT, "Freeing lsi\n");
1168
1169         /* someone didn't call server_put_mount. */
1170         LASSERT(atomic_read(&lsi->lsi_mounts) == 0);
1171
1172         if (lsi->lsi_ldd != NULL)
1173                 OBD_FREE(lsi->lsi_ldd, sizeof(*lsi->lsi_ldd));
1174
1175         if (lsi->lsi_lmd != NULL) {
1176                 if (lsi->lsi_lmd->lmd_dev != NULL)
1177                         OBD_FREE(lsi->lsi_lmd->lmd_dev,
1178                                  strlen(lsi->lsi_lmd->lmd_dev) + 1);
1179                 if (lsi->lsi_lmd->lmd_profile != NULL)
1180                         OBD_FREE(lsi->lsi_lmd->lmd_profile,
1181                                  strlen(lsi->lsi_lmd->lmd_profile) + 1);
1182                 if (lsi->lsi_lmd->lmd_opts != NULL)
1183                         OBD_FREE(lsi->lsi_lmd->lmd_opts,
1184                                  strlen(lsi->lsi_lmd->lmd_opts) + 1);
1185                 if (lsi->lsi_lmd->lmd_exclude_count)
1186                         OBD_FREE(lsi->lsi_lmd->lmd_exclude,
1187                                  sizeof(lsi->lsi_lmd->lmd_exclude[0]) *
1188                                  lsi->lsi_lmd->lmd_exclude_count);
1189                 OBD_FREE(lsi->lsi_lmd, sizeof(*lsi->lsi_lmd));
1190         }
1191
1192         LASSERT(lsi->lsi_llsbi == NULL);
1193         OBD_FREE(lsi, sizeof(*lsi));
1194         s2lsi_nocast(sb) = NULL;
1195
1196         RETURN(0);
1197 }
1198
1199 /* The lsi has one reference for every server that is using the disk -
1200    e.g. MDT, MGS, and potentially MGC */
1201 static int lustre_put_lsi(struct super_block *sb)
1202 {
1203         struct lustre_sb_info *lsi = s2lsi(sb);
1204         ENTRY;
1205
1206         LASSERT(lsi);
1207
1208         CDEBUG(D_MOUNT, "put %p %d\n", sb, atomic_read(&lsi->lsi_mounts));
1209
1210         if (atomic_dec_and_test(&lsi->lsi_mounts)) {
1211                 lustre_free_lsi(sb);
1212                 RETURN(1);
1213         }
1214         RETURN(0);
1215 }
1216
1217 /*************** server mount ******************/
1218
1219 /* Kernel mount using mount options in MOUNT_DATA_FILE */
1220 static struct vfsmount *server_kernel_mount(struct super_block *sb)
1221 {
1222         struct lvfs_run_ctxt mount_ctxt;
1223         struct lustre_sb_info *lsi = s2lsi(sb);
1224         struct lustre_disk_data *ldd;
1225         struct lustre_mount_data *lmd = lsi->lsi_lmd;
1226         struct vfsmount *mnt;
1227         char *options = NULL;
1228         unsigned long page, s_flags;
1229         struct page *__page;
1230         int rc;
1231         ENTRY;
1232
1233         OBD_ALLOC(ldd, sizeof(*ldd));
1234         if (!ldd)
1235                 RETURN(ERR_PTR(-ENOMEM));
1236
1237         /* In the past, we have always used flags = 0.
1238            Note ext3/ldiskfs can't be mounted ro. */
1239         s_flags = sb->s_flags;
1240
1241         /* Pre-mount ldiskfs to read the MOUNT_DATA_FILE */
1242         CDEBUG(D_MOUNT, "Pre-mount ldiskfs %s\n", lmd->lmd_dev);
1243         mnt = ll_kern_mount("ldiskfs", s_flags, lmd->lmd_dev, 0);
1244         if (IS_ERR(mnt)) {
1245                 rc = PTR_ERR(mnt);
1246                 CERROR("premount %s:%#lx ldiskfs failed: %d "
1247                         "Is the ldiskfs module available?\n",
1248                         lmd->lmd_dev, s_flags, rc );
1249                 GOTO(out_free, rc);
1250         }
1251
1252         OBD_SET_CTXT_MAGIC(&mount_ctxt);
1253         mount_ctxt.pwdmnt = mnt;
1254         mount_ctxt.pwd = mnt->mnt_root;
1255         mount_ctxt.fs = get_ds();
1256
1257         rc = ldd_parse(&mount_ctxt, ldd);
1258         unlock_mntput(mnt);
1259
1260         if (rc) {
1261                 CERROR("premount parse options failed: rc = %d\n", rc);
1262                 GOTO(out_free, rc);
1263         }
1264
1265         /* Done with our pre-mount, now do the real mount. */
1266
1267         /* Glom up mount options */
1268         OBD_PAGE_ALLOC(__page, CFS_ALLOC_STD);
1269         if (!__page)
1270                 GOTO(out_free, rc = -ENOMEM);
1271         page = (unsigned long)cfs_page_address(__page);
1272
1273         options = (char *)page;
1274         memset(options, 0, CFS_PAGE_SIZE);
1275         strncpy(options, ldd->ldd_mount_opts, CFS_PAGE_SIZE - 2);
1276
1277         /* Add in any mount-line options */
1278         if (lmd->lmd_opts && (*(lmd->lmd_opts) != 0)) {
1279                 int len = CFS_PAGE_SIZE - strlen(options) - 2;
1280                 if (*options != 0)
1281                         strcat(options, ",");
1282                 strncat(options, lmd->lmd_opts, len);
1283         }
1284
1285         /* Special permanent mount flags */
1286         if (IS_OST(ldd))
1287             s_flags |= MS_NOATIME | MS_NODIRATIME;
1288
1289         CDEBUG(D_MOUNT, "kern_mount: %s %s %s\n",
1290                MT_STR(ldd), lmd->lmd_dev, options);
1291         mnt = ll_kern_mount(MT_STR(ldd), s_flags, lmd->lmd_dev,
1292                             (void *)options);
1293         OBD_PAGE_FREE(__page);
1294         if (IS_ERR(mnt)) {
1295                 rc = PTR_ERR(mnt);
1296                 CERROR("ll_kern_mount failed: rc = %d\n", rc);
1297                 GOTO(out_free, rc);
1298         }
1299
1300         lsi->lsi_ldd = ldd;   /* freed at lsi cleanup */
1301         CDEBUG(D_SUPER, "%s: mnt = %p\n", lmd->lmd_dev, mnt);
1302         RETURN(mnt);
1303
1304 out_free:
1305         OBD_FREE(ldd, sizeof(*ldd));
1306         lsi->lsi_ldd = NULL;
1307         RETURN(ERR_PTR(rc));
1308 }
1309
1310 static void server_wait_finished(struct vfsmount *mnt)
1311 {
1312         wait_queue_head_t   waitq;
1313         struct l_wait_info  lwi;
1314         int                 retries = 330;
1315
1316         init_waitqueue_head(&waitq);
1317
1318         while ((atomic_read(&mnt->mnt_count) > 1) && (retries > 0)) {
1319                 LCONSOLE_WARN("Mount still busy with %d refs, waiting for "
1320                               "%d secs...\n",
1321                               atomic_read(&mnt->mnt_count), retries);
1322
1323                 /* Wait for a bit */
1324                 retries -= 5;
1325                 lwi = LWI_TIMEOUT(5 * HZ, NULL, NULL);
1326                 l_wait_event(waitq, 0, &lwi);
1327         }
1328         if (atomic_read(&mnt->mnt_count) > 1) {
1329                 CERROR("Mount %p is still busy (%d refs), giving up.\n",
1330                        mnt, atomic_read(&mnt->mnt_count));
1331         }
1332 }
1333
1334 static void server_put_super(struct super_block *sb)
1335 {
1336         struct lustre_sb_info *lsi = s2lsi(sb);
1337         struct obd_device     *obd;
1338         struct vfsmount       *mnt = lsi->lsi_srv_mnt;
1339         char *tmpname, *extraname = NULL;
1340         int tmpname_sz;
1341         int lddflags = lsi->lsi_ldd->ldd_flags;
1342         int lsiflags = lsi->lsi_flags;
1343         int rc;
1344         ENTRY;
1345
1346         LASSERT(lsiflags & LSI_SERVER);
1347
1348         tmpname_sz = strlen(lsi->lsi_ldd->ldd_svname) + 1;
1349         OBD_ALLOC(tmpname, tmpname_sz);
1350         memcpy(tmpname, lsi->lsi_ldd->ldd_svname, tmpname_sz);
1351         CDEBUG(D_MOUNT, "server put_super %s\n", tmpname);
1352
1353         /* Stop the target */
1354         if (IS_MDT(lsi->lsi_ldd) || IS_OST(lsi->lsi_ldd)) {
1355                 struct lustre_profile *lprof = NULL;
1356
1357                 /* tell the mgc to drop the config log */
1358                 lustre_end_log(sb, lsi->lsi_ldd->ldd_svname, NULL);
1359
1360                 /* COMPAT_146 - profile may get deleted in mgc_cleanup.
1361                    If there are any setup/cleanup errors, save the lov
1362                    name for safety cleanup later. */
1363                 lprof = class_get_profile(lsi->lsi_ldd->ldd_svname);
1364                 if (lprof && lprof->lp_dt) {
1365                         OBD_ALLOC(extraname, strlen(lprof->lp_dt) + 1);
1366                         strcpy(extraname, lprof->lp_dt);
1367                 }
1368
1369                 obd = class_name2obd(lsi->lsi_ldd->ldd_svname);
1370                 if (obd) {
1371                         CDEBUG(D_MOUNT, "stopping %s\n", obd->obd_name);
1372                         if (lsi->lsi_flags & LSI_UMOUNT_FAILOVER)
1373                                 obd->obd_fail = 1;
1374                         /* We can't seem to give an error return code
1375                          * to .put_super, so we better make sure we clean up! */
1376                         obd->obd_force = 1;
1377                         class_manual_cleanup(obd);
1378                 } else {
1379                         CERROR("no obd %s\n", lsi->lsi_ldd->ldd_svname);
1380                         server_deregister_mount(lsi->lsi_ldd->ldd_svname);
1381                 }
1382         }
1383
1384         /* If they wanted the mgs to stop separately from the mdt, they
1385            should have put it on a different device. */
1386         if (IS_MGS(lsi->lsi_ldd)) {
1387                 /* stop the mgc before the mgs so the connection gets cleaned
1388                    up */
1389                 lustre_stop_mgc(sb);
1390                 server_stop_mgs(sb);
1391         }
1392
1393         /* Clean the mgc and sb */
1394         rc = lustre_common_put_super(sb);
1395         /* FIXME how can I report a failure to umount? */
1396
1397         /* Wait for the targets to really clean up - can't exit (and let the
1398            sb get destroyed) while the mount is still in use */
1399         server_wait_finished(mnt);
1400
1401         /* drop the One True Mount */
1402         unlock_mntput(mnt);
1403
1404         /* Stop the servers (MDS, OSS) if no longer needed.  We must wait
1405            until the target is really gone so that our type refcount check
1406            is right. */
1407         server_stop_servers(lddflags, lsiflags);
1408
1409         /* In case of startup or cleanup err, stop related obds */
1410         if (extraname) {
1411                 obd = class_name2obd(extraname);
1412                 if (obd) {
1413                         CWARN("Cleaning orphaned obd %s\n", extraname);
1414                         obd->obd_force = 1;
1415                         class_manual_cleanup(obd);
1416                 }
1417                 OBD_FREE(extraname, strlen(extraname) + 1);
1418         }
1419
1420         LCONSOLE_WARN("server umount %s complete\n", tmpname);
1421         OBD_FREE(tmpname, tmpname_sz);
1422         EXIT;
1423 }
1424
1425 #ifdef HAVE_UMOUNTBEGIN_VFSMOUNT
1426 static void server_umount_begin(struct vfsmount *vfsmnt, int flags)
1427 {
1428         struct super_block *sb = vfsmnt->mnt_sb;
1429 #else
1430 static void server_umount_begin(struct super_block *sb)
1431 {
1432 #endif
1433         struct lustre_sb_info *lsi = s2lsi(sb);
1434         ENTRY;
1435
1436 #ifdef HAVE_UMOUNTBEGIN_VFSMOUNT
1437         if (!(flags & MNT_FORCE)) {
1438                 EXIT;
1439                 return;
1440         }
1441 #endif
1442
1443         CDEBUG(D_MOUNT, "umount -f\n");
1444         /* umount = failover
1445            umount -f = force
1446            no third way to do non-force, non-failover */
1447         lsi->lsi_flags &= ~LSI_UMOUNT_FAILOVER;
1448         lsi->lsi_flags |= LSI_UMOUNT_FORCE;
1449         EXIT;
1450 }
1451
1452 #ifndef HAVE_STATFS_DENTRY_PARAM
1453 static int server_statfs (struct super_block *sb, struct kstatfs *buf)
1454 {
1455 #else
1456 static int server_statfs (struct dentry *dentry, struct kstatfs *buf)
1457 {
1458         struct super_block *sb = dentry->d_sb;
1459 #endif
1460         struct vfsmount *mnt = s2lsi(sb)->lsi_srv_mnt;
1461         ENTRY;
1462
1463         if (mnt && mnt->mnt_sb && mnt->mnt_sb->s_op->statfs) {
1464 #ifdef HAVE_STATFS_DENTRY_PARAM
1465                 int rc = mnt->mnt_sb->s_op->statfs(mnt->mnt_root, buf);
1466 #else
1467                 int rc = mnt->mnt_sb->s_op->statfs(mnt->mnt_sb, buf);
1468 #endif
1469                 if (!rc) {
1470                         buf->f_type = sb->s_magic;
1471                         RETURN(0);
1472                 }
1473         }
1474
1475         /* just return 0 */
1476         buf->f_type = sb->s_magic;
1477         buf->f_bsize = sb->s_blocksize;
1478         buf->f_blocks = 1;
1479         buf->f_bfree = 0;
1480         buf->f_bavail = 0;
1481         buf->f_files = 1;
1482         buf->f_ffree = 0;
1483         buf->f_namelen = NAME_MAX;
1484         RETURN(0);
1485 }
1486
1487 static struct super_operations server_ops =
1488 {
1489         .put_super      = server_put_super,
1490         .umount_begin   = server_umount_begin, /* umount -f */
1491         .statfs         = server_statfs,
1492 };
1493
1494 #define log2(n) ffz(~(n))
1495 #define LUSTRE_SUPER_MAGIC 0x0BD00BD1
1496
1497 static int server_fill_super_common(struct super_block *sb)
1498 {
1499         struct inode *root = 0;
1500         ENTRY;
1501
1502         CDEBUG(D_MOUNT, "Server sb, dev=%d\n", (int)sb->s_dev);
1503
1504         sb->s_blocksize = 4096;
1505         sb->s_blocksize_bits = log2(sb->s_blocksize);
1506         sb->s_magic = LUSTRE_SUPER_MAGIC;
1507         sb->s_maxbytes = 0; //PAGE_CACHE_MAXBYTES;
1508         sb->s_flags |= MS_RDONLY;
1509         sb->s_op = &server_ops;
1510
1511         root = new_inode(sb);
1512         if (!root) {
1513                 CERROR("Can't make root inode\n");
1514                 RETURN(-EIO);
1515         }
1516
1517         /* returns -EIO for every operation */
1518         /* make_bad_inode(root); -- badness - can't umount */
1519         /* apparently we need to be a directory for the mount to finish */
1520         root->i_mode = S_IFDIR;
1521
1522         sb->s_root = d_alloc_root(root);
1523         if (!sb->s_root) {
1524                 CERROR("Can't make root dentry\n");
1525                 iput(root);
1526                 RETURN(-EIO);
1527         }
1528
1529         RETURN(0);
1530 }
1531
1532 static int server_fill_super(struct super_block *sb)
1533 {
1534         struct lustre_sb_info *lsi = s2lsi(sb);
1535         struct vfsmount *mnt;
1536         int rc;
1537         ENTRY;
1538
1539         /* the One True Mount */
1540         mnt = server_kernel_mount(sb);
1541         if (IS_ERR(mnt)) {
1542                 rc = PTR_ERR(mnt);
1543                 CERROR("Unable to mount device %s: %d\n",
1544                       lsi->lsi_lmd->lmd_dev, rc);
1545                 lustre_put_lsi(sb);
1546                 GOTO(out, rc);
1547         }
1548         lsi->lsi_srv_mnt = mnt;
1549
1550         LASSERT(lsi->lsi_ldd);
1551         CDEBUG(D_MOUNT, "Found service %s for fs '%s' on device %s\n",
1552                lsi->lsi_ldd->ldd_svname, lsi->lsi_ldd->ldd_fsname,
1553                lsi->lsi_lmd->lmd_dev);
1554
1555         if (class_name2obd(lsi->lsi_ldd->ldd_svname)) {
1556                 LCONSOLE_ERROR_MSG(0x161, "The target named %s is already "
1557                                    "running. Double-mount may have compromised"
1558                                    " the disk journal.\n",
1559                                    lsi->lsi_ldd->ldd_svname);
1560                 unlock_mntput(mnt);
1561                 lustre_put_lsi(sb);
1562                 GOTO(out, rc = -EALREADY);
1563         }
1564
1565         /* start MGS before MGC */
1566         if (IS_MGS(lsi->lsi_ldd)) {
1567                 rc = server_start_mgs(sb);
1568                 if (rc)
1569                         GOTO(out_mnt, rc);
1570         }
1571
1572         rc = lustre_start_mgc(sb);
1573         if (rc)
1574                 GOTO(out_mnt, rc);
1575
1576         /* Set up all obd devices for service */
1577         if (!(lsi->lsi_lmd->lmd_flags & LMD_FLG_NOSVC) &&
1578                 (IS_OST(lsi->lsi_ldd) || IS_MDT(lsi->lsi_ldd))) {
1579                 rc = server_start_targets(sb, mnt);
1580                 if (rc < 0) {
1581                         CERROR("Unable to start targets: %d\n", rc);
1582                         GOTO(out_mnt, rc);
1583                 }
1584         /* FIXME overmount client here,
1585            or can we just start a client log and client_fill_super on this sb?
1586            We need to make sure server_put_super gets called too - ll_put_super
1587            calls lustre_common_put_super; check there for LSI_SERVER flag,
1588            call s_p_s if so.
1589            Probably should start client from new thread so we can return.
1590            Client will not finish until all servers are connected.
1591            Note - MGS-only server does NOT get a client, since there is no
1592            lustre fs associated - the MGS is for all lustre fs's */
1593         }
1594
1595         rc = server_fill_super_common(sb);
1596         if (rc)
1597                 GOTO(out_mnt, rc);
1598
1599         LCONSOLE_WARN("Server %s on device %s has started\n",
1600                       lsi->lsi_ldd->ldd_svname, lsi->lsi_lmd->lmd_dev);
1601
1602         RETURN(0);
1603
1604 out_mnt:
1605         server_put_super(sb);
1606 out:
1607         RETURN(rc);
1608 }
1609
1610 /* Get the index from the obd name.
1611    rc = server type, or
1612    rc < 0  on error
1613    if endptr isn't NULL it is set to end of name */
1614 int server_name2index(char *svname, __u32 *idx, char **endptr)
1615 {
1616         unsigned long index;
1617         int rc;
1618         char *dash = strchr(svname, '-');
1619         if (!dash)
1620                 return(-EINVAL);
1621
1622         if (strncmp(dash + 1, "MDT", 3) == 0)
1623                 rc = LDD_F_SV_TYPE_MDT;
1624         else if (strncmp(dash + 1, "OST", 3) == 0)
1625                 rc = LDD_F_SV_TYPE_OST;
1626         else
1627                 return(-EINVAL);
1628
1629         index = simple_strtoul(dash + 4, endptr, 16);
1630         *idx = index;
1631         return rc;
1632 }
1633
1634 /*************** mount common betweeen server and client ***************/
1635
1636 /* Common umount */
1637 int lustre_common_put_super(struct super_block *sb)
1638 {
1639         int rc;
1640         ENTRY;
1641
1642         CDEBUG(D_MOUNT, "dropping sb %p\n", sb);
1643
1644         /* Drop a ref to the MGC */
1645         rc = lustre_stop_mgc(sb);
1646         if (rc && (rc != -ENOENT)) {
1647                 if (rc != -EBUSY) {
1648                         CERROR("Can't stop MGC: %d\n", rc);
1649                         RETURN(rc);
1650                 }
1651                 /* BUSY just means that there's some other obd that
1652                    needs the mgc.  Let him clean it up. */
1653                 CDEBUG(D_MOUNT, "MGC still in use\n");
1654         }
1655         /* Drop a ref to the mounted disk */
1656         lustre_put_lsi(sb);
1657         RETURN(rc);
1658 }
1659
1660 #if 0
1661 static void lmd_print(struct lustre_mount_data *lmd)
1662 {
1663         int i;
1664
1665         PRINT_CMD(PRINT_MASK, "  mount data:\n");
1666         if (lmd_is_client(lmd))
1667                 PRINT_CMD(PRINT_MASK, "profile: %s\n", lmd->lmd_profile);
1668         PRINT_CMD(PRINT_MASK, "device:  %s\n", lmd->lmd_dev);
1669         PRINT_CMD(PRINT_MASK, "flags:   %x\n", lmd->lmd_flags);
1670         if (lmd->lmd_opts)
1671                 PRINT_CMD(PRINT_MASK, "options: %s\n", lmd->lmd_opts);
1672         for (i = 0; i < lmd->lmd_exclude_count; i++) {
1673                 PRINT_CMD(PRINT_MASK, "exclude %d:  OST%04x\n", i,
1674                           lmd->lmd_exclude[i]);
1675         }
1676 }
1677 #endif
1678
1679 /* Is this server on the exclusion list */
1680 int lustre_check_exclusion(struct super_block *sb, char *svname)
1681 {
1682         struct lustre_sb_info *lsi = s2lsi(sb);
1683         struct lustre_mount_data *lmd = lsi->lsi_lmd;
1684         __u32 index;
1685         int i, rc;
1686         ENTRY;
1687
1688         rc = server_name2index(svname, &index, NULL);
1689         if (rc != LDD_F_SV_TYPE_OST)
1690                 /* Only exclude OSTs */
1691                 RETURN(0);
1692
1693         CDEBUG(D_MOUNT, "Check exclusion %s (%d) in %d of %s\n", svname,
1694                index, lmd->lmd_exclude_count, lmd->lmd_dev);
1695
1696         for(i = 0; i < lmd->lmd_exclude_count; i++) {
1697                 if (index == lmd->lmd_exclude[i]) {
1698                         CWARN("Excluding %s (on exclusion list)\n", svname);
1699                         RETURN(1);
1700                 }
1701         }
1702         RETURN(0);
1703 }
1704
1705 /* mount -v  -o exclude=lustre-OST0001:lustre-OST0002 -t lustre ... */
1706 static int lmd_make_exclusion(struct lustre_mount_data *lmd, char *ptr)
1707 {
1708         char *s1 = ptr, *s2;
1709         __u32 index, *exclude_list;
1710         int rc = 0, devmax;
1711         ENTRY;
1712
1713         /* The shortest an ost name can be is 8 chars: -OST0000.
1714            We don't actually know the fsname at this time, so in fact
1715            a user could specify any fsname. */
1716         devmax = strlen(ptr) / 8 + 1;
1717
1718         /* temp storage until we figure out how many we have */
1719         OBD_ALLOC(exclude_list, sizeof(index) * devmax);
1720         if (!exclude_list)
1721                 RETURN(-ENOMEM);
1722
1723         /* we enter this fn pointing at the '=' */
1724         while (*s1 && *s1 != ' ' && *s1 != ',') {
1725                 s1++;
1726                 rc = server_name2index(s1, &index, &s2);
1727                 if (rc < 0) {
1728                         CERROR("Can't parse server name '%s'\n", s1);
1729                         break;
1730                 }
1731                 if (rc == LDD_F_SV_TYPE_OST)
1732                         exclude_list[lmd->lmd_exclude_count++] = index;
1733                 else
1734                         CDEBUG(D_MOUNT, "ignoring exclude %.7s\n", s1);
1735                 s1 = s2;
1736                 /* now we are pointing at ':' (next exclude)
1737                    or ',' (end of excludes) */
1738                 if (lmd->lmd_exclude_count >= devmax)
1739                         break;
1740         }
1741         if (rc >= 0) /* non-err */
1742                 rc = 0;
1743
1744         if (lmd->lmd_exclude_count) {
1745                 /* permanent, freed in lustre_free_lsi */
1746                 OBD_ALLOC(lmd->lmd_exclude, sizeof(index) *
1747                           lmd->lmd_exclude_count);
1748                 if (lmd->lmd_exclude) {
1749                         memcpy(lmd->lmd_exclude, exclude_list,
1750                                sizeof(index) * lmd->lmd_exclude_count);
1751                 } else {
1752                         rc = -ENOMEM;
1753                         lmd->lmd_exclude_count = 0;
1754                 }
1755         }
1756         OBD_FREE(exclude_list, sizeof(index) * devmax);
1757         RETURN(rc);
1758 }
1759
1760 /* mount -v -t lustre uml1:uml2:/lustre-client /mnt/lustre */
1761 static int lmd_parse(char *options, struct lustre_mount_data *lmd)
1762 {
1763         char *s1, *s2, *devname = NULL;
1764         struct lustre_mount_data *raw = (struct lustre_mount_data *)options;
1765         int rc = 0;
1766         ENTRY;
1767
1768         LASSERT(lmd);
1769         if (!options) {
1770                 LCONSOLE_ERROR_MSG(0x162, "Missing mount data: check that "
1771                                    "/sbin/mount.lustre is installed.\n");
1772                 RETURN(-EINVAL);
1773         }
1774
1775         /* Options should be a string - try to detect old lmd data */
1776         if ((raw->lmd_magic & 0xffffff00) == (LMD_MAGIC & 0xffffff00)) {
1777                 LCONSOLE_ERROR_MSG(0x163, "You're using an old version of "
1778                                    "/sbin/mount.lustre.  Please install "
1779                                    "version %s\n", LUSTRE_VERSION_STRING);
1780                 RETURN(-EINVAL);
1781         }
1782         lmd->lmd_magic = LMD_MAGIC;
1783
1784         /* Set default flags here */
1785
1786         s1 = options;
1787         while (*s1) {
1788                 int clear = 0;
1789                 /* Skip whitespace and extra commas */
1790                 while (*s1 == ' ' || *s1 == ',')
1791                         s1++;
1792
1793                 /* Client options are parsed in ll_options: eg. flock,
1794                    user_xattr, acl */
1795
1796                 /* Parse non-ldiskfs options here. Rather than modifying
1797                    ldiskfs, we just zero these out here */
1798                 if (strncmp(s1, "abort_recov", 11) == 0) {
1799                         lmd->lmd_flags |= LMD_FLG_ABORT_RECOV;
1800                         clear++;
1801                 } else if (strncmp(s1, "nosvc", 5) == 0) {
1802                         lmd->lmd_flags |= LMD_FLG_NOSVC;
1803                         clear++;
1804                 /* ost exclusion list */
1805                 } else if (strncmp(s1, "exclude=", 8) == 0) {
1806                         rc = lmd_make_exclusion(lmd, s1 + 7);
1807                         if (rc)
1808                                 goto invalid;
1809                         clear++;
1810                 }
1811                 /* Linux 2.4 doesn't pass the device, so we stuck it at the
1812                    end of the options. */
1813                 else if (strncmp(s1, "device=", 7) == 0) {
1814                         devname = s1 + 7;
1815                         /* terminate options right before device.  device
1816                            must be the last one. */
1817                         *s1 = '\0';
1818                         break;
1819                 }
1820
1821                 /* Find next opt */
1822                 s2 = strchr(s1, ',');
1823                 if (s2 == NULL) {
1824                         if (clear)
1825                                 *s1 = '\0';
1826                         break;
1827                 }
1828                 s2++;
1829                 if (clear)
1830                         memmove(s1, s2, strlen(s2) + 1);
1831                 else
1832                         s1 = s2;
1833         }
1834
1835         if (!devname) {
1836                 LCONSOLE_ERROR_MSG(0x164, "Can't find the device name "
1837                                    "(need mount option 'device=...')\n");
1838                 goto invalid;
1839         }
1840
1841         s1 = strrchr(devname, ':');
1842         if (s1) {
1843                 lmd->lmd_flags = LMD_FLG_CLIENT;
1844                 /* Remove leading /s from fsname */
1845                 while (*++s1 == '/') ;
1846                 /* Freed in lustre_free_lsi */
1847                 OBD_ALLOC(lmd->lmd_profile, strlen(s1) + 8);
1848                 if (!lmd->lmd_profile)
1849                         RETURN(-ENOMEM);
1850                 sprintf(lmd->lmd_profile, "%s-client", s1);
1851         }
1852
1853         /* Freed in lustre_free_lsi */
1854         OBD_ALLOC(lmd->lmd_dev, strlen(devname) + 1);
1855         if (!lmd->lmd_dev)
1856                 RETURN(-ENOMEM);
1857         strcpy(lmd->lmd_dev, devname);
1858
1859         /* Save mount options */
1860         s1 = options + strlen(options) - 1;
1861         while (s1 >= options && (*s1 == ',' || *s1 == ' '))
1862                 *s1-- = 0;
1863         if (*options != 0) {
1864                 /* Freed in lustre_free_lsi */
1865                 OBD_ALLOC(lmd->lmd_opts, strlen(options) + 1);
1866                 if (!lmd->lmd_opts)
1867                         RETURN(-ENOMEM);
1868                 strcpy(lmd->lmd_opts, options);
1869         }
1870
1871         lmd->lmd_magic = LMD_MAGIC;
1872
1873         RETURN(rc);
1874
1875 invalid:
1876         CERROR("Bad mount options %s\n", options);
1877         RETURN(-EINVAL);
1878 }
1879
1880
1881 /* Common mount */
1882 int lustre_fill_super(struct super_block *sb, void *data, int silent)
1883 {
1884         struct lustre_mount_data *lmd;
1885         struct lustre_sb_info *lsi;
1886         int rc;
1887         ENTRY;
1888
1889         CDEBUG(D_MOUNT|D_VFSTRACE, "VFS Op: sb %p\n", sb);
1890
1891         lsi = lustre_init_lsi(sb);
1892         if (!lsi)
1893                 RETURN(-ENOMEM);
1894         lmd = lsi->lsi_lmd;
1895
1896         /* Figure out the lmd from the mount options */
1897         if (lmd_parse((char *)data, lmd)) {
1898                 lustre_put_lsi(sb);
1899                 RETURN(-EINVAL);
1900         }
1901
1902         if (lmd_is_client(lmd)) {
1903                 CDEBUG(D_MOUNT, "Mounting client %s\n", lmd->lmd_profile);
1904                 if (!client_fill_super) {
1905                         LCONSOLE_ERROR_MSG(0x165, "Nothing registered for "
1906                                            "client mount! Is the 'lustre' "
1907                                            "module loaded?\n");
1908                         rc = -ENODEV;
1909                 } else {
1910                         rc = lustre_start_mgc(sb);
1911                         if (rc) {
1912                                 lustre_stop_mgc(sb);
1913                                 goto out;
1914                         }
1915                         /* Connect and start */
1916                         /* (should always be ll_fill_super) */
1917                         rc = (*client_fill_super)(sb);
1918                         /* c_f_s will call lustre_common_put_super on failure */
1919                 }
1920         } else {
1921                 CDEBUG(D_MOUNT, "Mounting server from %s\n", lmd->lmd_dev);
1922                 lsi->lsi_flags |= LSI_SERVER;
1923                 rc = server_fill_super(sb);
1924                 /* s_f_s calls lustre_start_mgc after the mount because we need
1925                    the MGS nids which are stored on disk.  Plus, we may
1926                    need to start the MGS first. */
1927                 /* s_f_s will call server_put_super on failure */
1928         }
1929
1930 out:
1931         if (rc){
1932                 CERROR("Unable to mount %s (%d)\n",
1933                        s2lsi(sb) ? lmd->lmd_dev : "", rc);
1934         } else {
1935                 CDEBUG(D_SUPER, "mount %s complete\n", lmd->lmd_dev);
1936         }
1937         RETURN(rc);
1938 }
1939
1940
1941 /* We can't call ll_fill_super by name because it lives in a module that
1942    must be loaded after this one. */
1943 void lustre_register_client_fill_super(int (*cfs)(struct super_block *sb))
1944 {
1945         client_fill_super = cfs;
1946 }
1947
1948 void lustre_register_kill_super_cb(void (*cfs)(struct super_block *sb))
1949 {
1950         kill_super_cb = cfs;
1951 }
1952
1953 /***************** FS registration ******************/
1954
1955 #if (LINUX_VERSION_CODE < KERNEL_VERSION(2,6,18))
1956 struct super_block * lustre_get_sb(struct file_system_type *fs_type,
1957                                int flags, const char *devname, void * data)
1958 {
1959         /* calls back in fill super */
1960         /* we could append devname= onto options (*data) here,
1961            but 2.4 doesn't get devname.  So we do it in mount_lustre.c */
1962         return get_sb_nodev(fs_type, flags, data, lustre_fill_super);
1963 }
1964 #else
1965 int lustre_get_sb(struct file_system_type *fs_type,
1966                                int flags, const char *devname, void * data,
1967                                struct vfsmount *mnt)
1968 {
1969         /* calls back in fill super */
1970         /* we could append devname= onto options (*data) here,
1971            but 2.4 doesn't get devname.  So we do it in mount_lustre.c */
1972         return get_sb_nodev(fs_type, flags, data, lustre_fill_super, mnt);
1973 }
1974 #endif
1975
1976 void lustre_kill_super(struct super_block *sb)
1977 {
1978         struct lustre_sb_info *lsi = s2lsi(sb);
1979
1980         if (kill_super_cb && lsi &&(lsi->lsi_flags & LSI_SERVER))
1981                 (*kill_super_cb)(sb);
1982
1983         kill_anon_super(sb);
1984 }
1985
1986 struct file_system_type lustre_fs_type = {
1987         .owner        = THIS_MODULE,
1988         .name         = "lustre",
1989         .get_sb       = lustre_get_sb,
1990         .kill_sb      = lustre_kill_super,
1991         .fs_flags     = FS_BINARY_MOUNTDATA | FS_REQUIRES_DEV,
1992 };
1993
1994 int lustre_register_fs(void)
1995 {
1996         return register_filesystem(&lustre_fs_type);
1997 }
1998
1999 int lustre_unregister_fs(void)
2000 {
2001         return unregister_filesystem(&lustre_fs_type);
2002 }
2003
2004 EXPORT_SYMBOL(lustre_register_client_fill_super);
2005 EXPORT_SYMBOL(lustre_register_kill_super_cb);
2006 EXPORT_SYMBOL(lustre_common_put_super);
2007 EXPORT_SYMBOL(lustre_process_log);
2008 EXPORT_SYMBOL(lustre_end_log);
2009 EXPORT_SYMBOL(server_get_mount);
2010 EXPORT_SYMBOL(server_get_mount_2);
2011 EXPORT_SYMBOL(server_put_mount);
2012 EXPORT_SYMBOL(server_put_mount_2);
2013 EXPORT_SYMBOL(server_register_target);
2014 EXPORT_SYMBOL(server_name2index);
2015 EXPORT_SYMBOL(server_mti_print);
2016 EXPORT_SYMBOL(do_lcfg);
2017
2018