Whamcloud - gitweb
b070f258b83eea1045b3796994ddb629caba42e1
[fs/lustre-release.git] / lustre / obdclass / obd_mount.c
1 /* -*- mode: c; c-basic-offset: 8; indent-tabs-mode: nil; -*-
2  * vim:expandtab:shiftwidth=8:tabstop=8:
3  *
4  *  lustre/obdclass/obd_mount.c
5  *  Client/server mount routines
6  *
7  *  Copyright (c) 2006 Cluster File Systems, Inc.
8  *   Author: Nathan Rutman <nathan@clusterfs.com>
9  *
10  *   This file is part of Lustre, http://www.lustre.org/
11  *
12  *   Lustre is free software; you can redistribute it and/or
13  *   modify it under the terms of version 2 of the GNU General Public
14  *   License as published by the Free Software Foundation.
15  *
16  *   Lustre is distributed in the hope that it will be useful,
17  *   but WITHOUT ANY WARRANTY; without even the implied warranty of
18  *   MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the
19  *   GNU General Public License for more details.
20  *
21  *   You should have received a copy of the GNU General Public License
22  *   along with Lustre; if not, write to the Free Software
23  *   Foundation, Inc., 675 Mass Ave, Cambridge, MA 02139, USA.
24  */
25
26
27 #define DEBUG_SUBSYSTEM S_CLASS
28 #define D_MOUNT D_SUPER|D_CONFIG /*|D_WARNING */
29 #define PRINT_CMD CDEBUG
30 #define PRINT_MASK D_SUPER|D_CONFIG
31
32 #include <obd.h>
33 #include <lvfs.h>
34 #include <lustre_fsfilt.h>
35 #include <obd_class.h>
36 #include <lustre/lustre_user.h>
37 #include <linux/version.h>
38 #include <lustre_log.h>
39 #include <lustre_disk.h>
40 #include <lustre_param.h>
41
42 static int (*client_fill_super)(struct super_block *sb) = NULL;
43 static void (*kill_super_cb)(struct super_block *sb) = NULL;
44
45 /*********** mount lookup *********/
46
47 DECLARE_MUTEX(lustre_mount_info_lock);
48 struct list_head server_mount_info_list = LIST_HEAD_INIT(server_mount_info_list);
49
50 static struct lustre_mount_info *server_find_mount(const char *name)
51 {
52         struct list_head *tmp;
53         struct lustre_mount_info *lmi;
54         ENTRY;
55
56         list_for_each(tmp, &server_mount_info_list) {
57                 lmi = list_entry(tmp, struct lustre_mount_info, lmi_list_chain);
58                 if (strcmp(name, lmi->lmi_name) == 0)
59                         RETURN(lmi);
60         }
61         RETURN(NULL);
62 }
63
64 /* we must register an obd for a mount before we call the setup routine.
65    *_setup will call lustre_get_mount to get the mnt struct
66    by obd_name, since we can't pass the pointer to setup. */
67 static int server_register_mount(const char *name, struct super_block *sb,
68                           struct vfsmount *mnt)
69 {
70         struct lustre_mount_info *lmi;
71         char *name_cp;
72         ENTRY;
73
74         LASSERT(mnt);
75         LASSERT(sb);
76
77         OBD_ALLOC(lmi, sizeof(*lmi));
78         if (!lmi)
79                 RETURN(-ENOMEM);
80         OBD_ALLOC(name_cp, strlen(name) + 1);
81         if (!name_cp) {
82                 OBD_FREE(lmi, sizeof(*lmi));
83                 RETURN(-ENOMEM);
84         }
85         strcpy(name_cp, name);
86
87         down(&lustre_mount_info_lock);
88
89         if (server_find_mount(name)) {
90                 up(&lustre_mount_info_lock);
91                 OBD_FREE(lmi, sizeof(*lmi));
92                 OBD_FREE(name_cp, strlen(name) + 1);
93                 CERROR("Already registered %s\n", name);
94                 RETURN(-EEXIST);
95         }
96         lmi->lmi_name = name_cp;
97         lmi->lmi_sb = sb;
98         lmi->lmi_mnt = mnt;
99         list_add(&lmi->lmi_list_chain, &server_mount_info_list);
100
101         up(&lustre_mount_info_lock);
102
103         CDEBUG(D_MOUNT, "reg_mnt %p from %s, vfscount=%d\n",
104                lmi->lmi_mnt, name, atomic_read(&lmi->lmi_mnt->mnt_count));
105
106         RETURN(0);
107 }
108
109 /* when an obd no longer needs a mount */
110 static int server_deregister_mount(const char *name)
111 {
112         struct lustre_mount_info *lmi;
113         ENTRY;
114
115         down(&lustre_mount_info_lock);
116         lmi = server_find_mount(name);
117         if (!lmi) {
118                 up(&lustre_mount_info_lock);
119                 CERROR("%s not registered\n", name);
120                 RETURN(-ENOENT);
121         }
122
123         CDEBUG(D_MOUNT, "dereg_mnt %p from %s, vfscount=%d\n",
124                lmi->lmi_mnt, name, atomic_read(&lmi->lmi_mnt->mnt_count));
125
126         OBD_FREE(lmi->lmi_name, strlen(lmi->lmi_name) + 1);
127         list_del(&lmi->lmi_list_chain);
128         OBD_FREE(lmi, sizeof(*lmi));
129         up(&lustre_mount_info_lock);
130
131         RETURN(0);
132 }
133
134 /* obd's look up a registered mount using their obdname. This is just
135    for initial obd setup to find the mount struct.  It should not be
136    called every time you want to mntget. */
137 struct lustre_mount_info *server_get_mount(const char *name)
138 {
139         struct lustre_mount_info *lmi;
140         struct lustre_sb_info *lsi;
141         ENTRY;
142
143         down(&lustre_mount_info_lock);
144         lmi = server_find_mount(name);
145         up(&lustre_mount_info_lock);
146         if (!lmi) {
147                 CERROR("Can't find mount for %s\n", name);
148                 RETURN(NULL);
149         }
150         lsi = s2lsi(lmi->lmi_sb);
151         mntget(lmi->lmi_mnt);
152         atomic_inc(&lsi->lsi_mounts);
153
154         CDEBUG(D_MOUNT, "get_mnt %p from %s, refs=%d, vfscount=%d\n",
155                lmi->lmi_mnt, name, atomic_read(&lsi->lsi_mounts),
156                atomic_read(&lmi->lmi_mnt->mnt_count));
157
158         RETURN(lmi);
159 }
160
161 /*
162  * Used by mdt to get mount_info from obdname.
163  * There are no blocking when using the mount_info.
164  * Do not use server_get_mount for this purpose.
165  */
166 struct lustre_mount_info *server_get_mount_2(const char *name)
167 {
168         struct lustre_mount_info *lmi;
169         ENTRY;
170
171         down(&lustre_mount_info_lock);
172         lmi = server_find_mount(name);
173         up(&lustre_mount_info_lock);
174         if (!lmi)
175                 CERROR("Can't find mount for %s\n", name);
176
177         RETURN(lmi);
178 }
179
180 static void unlock_mntput(struct vfsmount *mnt)
181 {
182         if (kernel_locked()) {
183                 unlock_kernel();
184                 mntput(mnt);
185                 lock_kernel();
186         } else {
187                 mntput(mnt);
188         }
189 }
190
191 static int lustre_put_lsi(struct super_block *sb);
192
193 /* to be called from obd_cleanup methods */
194 int server_put_mount(const char *name, struct vfsmount *mnt)
195 {
196         struct lustre_mount_info *lmi;
197         struct lustre_sb_info *lsi;
198         int count = atomic_read(&mnt->mnt_count) - 1;
199         ENTRY;
200
201         /* This might be the last one, can't deref after this */
202         unlock_mntput(mnt);
203
204         down(&lustre_mount_info_lock);
205         lmi = server_find_mount(name);
206         up(&lustre_mount_info_lock);
207         if (!lmi) {
208                 CERROR("Can't find mount for %s\n", name);
209                 RETURN(-ENOENT);
210         }
211         lsi = s2lsi(lmi->lmi_sb);
212         LASSERT(lmi->lmi_mnt == mnt);
213
214         CDEBUG(D_MOUNT, "put_mnt %p from %s, refs=%d, vfscount=%d\n",
215                lmi->lmi_mnt, name, atomic_read(&lsi->lsi_mounts), count);
216
217         if (lustre_put_lsi(lmi->lmi_sb)) {
218                 CDEBUG(D_MOUNT, "Last put of mnt %p from %s, vfscount=%d\n",
219                        lmi->lmi_mnt, name, count);
220                 /* last mount is the One True Mount */
221                 if (count > 1)
222                         CERROR("%s: mount busy, vfscount=%d!\n", name, count);
223         }
224
225         /* this obd should never need the mount again */
226         server_deregister_mount(name);
227
228         RETURN(0);
229 }
230
231 /* Corresponding to server_get_mount_2 */
232 int server_put_mount_2(const char *name, struct vfsmount *mnt)
233 {
234         ENTRY;
235         RETURN(0);
236 }
237
238 /******* mount helper utilities *********/
239
240 #if 0
241 static void ldd_print(struct lustre_disk_data *ldd)
242 {
243         PRINT_CMD(PRINT_MASK, "  disk data:\n");
244         PRINT_CMD(PRINT_MASK, "server:  %s\n", ldd->ldd_svname);
245         PRINT_CMD(PRINT_MASK, "uuid:    %s\n", (char *)ldd->ldd_uuid);
246         PRINT_CMD(PRINT_MASK, "fs:      %s\n", ldd->ldd_fsname);
247         PRINT_CMD(PRINT_MASK, "index:   %04x\n", ldd->ldd_svindex);
248         PRINT_CMD(PRINT_MASK, "config:  %d\n", ldd->ldd_config_ver);
249         PRINT_CMD(PRINT_MASK, "flags:   %#x\n", ldd->ldd_flags);
250         PRINT_CMD(PRINT_MASK, "diskfs:  %s\n", MT_STR(ldd));
251         PRINT_CMD(PRINT_MASK, "options: %s\n", ldd->ldd_mount_opts);
252         PRINT_CMD(PRINT_MASK, "params:  %s\n", ldd->ldd_params);
253         PRINT_CMD(PRINT_MASK, "comment: %s\n", ldd->ldd_userdata);
254 }
255 #endif
256
257 static int ldd_parse(struct lvfs_run_ctxt *mount_ctxt,
258                            struct lustre_disk_data *ldd)
259 {
260         struct lvfs_run_ctxt saved;
261         struct file *file;
262         loff_t off = 0;
263         unsigned long len;
264         int rc;
265         ENTRY;
266
267         push_ctxt(&saved, mount_ctxt, NULL);
268
269         file = filp_open(MOUNT_DATA_FILE, O_RDONLY, 0644);
270         if (IS_ERR(file)) {
271                 rc = PTR_ERR(file);
272                 CERROR("cannot open %s: rc = %d\n", MOUNT_DATA_FILE, rc);
273                 GOTO(out, rc);
274         }
275
276         len = i_size_read(file->f_dentry->d_inode);
277         CDEBUG(D_MOUNT, "Have %s, size %lu\n", MOUNT_DATA_FILE, len);
278         if (len != sizeof(*ldd)) {
279                 CERROR("disk data size does not match: see %lu expect "LPSZ"\n",
280                        len, sizeof(*ldd));
281                 GOTO(out_close, rc = -EINVAL);
282         }
283
284         rc = lustre_fread(file, ldd, len, &off);
285         if (rc != len) {
286                 CERROR("error reading %s: read %d of %lu\n",
287                        MOUNT_DATA_FILE, rc, len);
288                 GOTO(out_close, rc = -EINVAL);
289         }
290         rc = 0;
291
292         if (ldd->ldd_magic != LDD_MAGIC) {
293                 /* FIXME add swabbing support */
294                 CERROR("Bad magic in %s: %x!=%x\n", MOUNT_DATA_FILE,
295                        ldd->ldd_magic, LDD_MAGIC);
296                 GOTO(out_close, rc = -EINVAL);
297         }
298
299         if (ldd->ldd_feature_incompat & ~LDD_INCOMPAT_SUPP) {
300                 CERROR("%s: unsupported incompat filesystem feature(s) %x\n",
301                        ldd->ldd_svname,
302                        ldd->ldd_feature_incompat & ~LDD_INCOMPAT_SUPP);
303                 GOTO(out_close, rc = -EINVAL);
304         }
305         if (ldd->ldd_feature_rocompat & ~LDD_ROCOMPAT_SUPP) {
306                 CERROR("%s: unsupported read-only filesystem feature(s) %x\n",
307                        ldd->ldd_svname,
308                        ldd->ldd_feature_rocompat & ~LDD_ROCOMPAT_SUPP);
309                 /* Do something like remount filesystem read-only */
310                 GOTO(out_close, rc = -EINVAL);
311         }
312
313 out_close:
314         filp_close(file, 0);
315 out:
316         pop_ctxt(&saved, mount_ctxt, NULL);
317         RETURN(rc);
318 }
319
320 static int ldd_write(struct lvfs_run_ctxt *mount_ctxt,
321                      struct lustre_disk_data *ldd)
322 {
323         struct lvfs_run_ctxt saved;
324         struct file *file;
325         loff_t off = 0;
326         unsigned long len = sizeof(struct lustre_disk_data);
327         int rc = 0;
328         ENTRY;
329
330         LASSERT(ldd->ldd_magic == LDD_MAGIC);
331
332         ldd->ldd_config_ver++;
333
334         push_ctxt(&saved, mount_ctxt, NULL);
335
336         file = filp_open(MOUNT_DATA_FILE, O_RDWR, 0644);
337         if (IS_ERR(file)) {
338                 rc = PTR_ERR(file);
339                 CERROR("cannot open %s: rc = %d\n", MOUNT_DATA_FILE, rc);
340                 GOTO(out, rc);
341         }
342
343         rc = lustre_fwrite(file, ldd, len, &off);
344         if (rc != len) {
345                 CERROR("error writing %s: read %d of %lu\n",
346                        MOUNT_DATA_FILE, rc, len);
347                 GOTO(out_close, rc = -EINVAL);
348         }
349
350         rc = 0;
351
352 out_close:
353         filp_close(file, 0);
354 out:
355         pop_ctxt(&saved, mount_ctxt, NULL);
356         RETURN(rc);
357 }
358
359
360 /**************** config llog ********************/
361
362 /* Get a config log from the MGS and process it.
363    This func is called for both clients and servers.
364    Continue to process new statements appended to the logs
365    (whenever the config lock is revoked) until lustre_end_log
366    is called. */
367 int lustre_process_log(struct super_block *sb, char *logname,
368                      struct config_llog_instance *cfg)
369 {
370         struct lustre_cfg *lcfg;
371         struct lustre_cfg_bufs bufs;
372         struct lustre_sb_info *lsi = s2lsi(sb);
373         struct obd_device *mgc = lsi->lsi_mgc;
374         int rc;
375         ENTRY;
376
377         LASSERT(mgc);
378         LASSERT(cfg);
379
380         /* mgc_process_config */
381         lustre_cfg_bufs_reset(&bufs, mgc->obd_name);
382         lustre_cfg_bufs_set_string(&bufs, 1, logname);
383         lustre_cfg_bufs_set(&bufs, 2, cfg, sizeof(*cfg));
384         lustre_cfg_bufs_set(&bufs, 3, &sb, sizeof(sb));
385         lcfg = lustre_cfg_new(LCFG_LOG_START, &bufs);
386         rc = obd_process_config(mgc, sizeof(*lcfg), lcfg);
387         lustre_cfg_free(lcfg);
388
389         if (rc == -EINVAL)
390                 LCONSOLE_ERROR_MSG(0x15b, "%s: The configuration from log '%s'"
391                                    "failed from the MGS (%d).  Make sure this "
392                                    "client and the MGS are running compatible "
393                                    "versions of Lustre.\n",
394                                    mgc->obd_name, logname, rc);
395
396         if (rc)
397                 LCONSOLE_ERROR_MSG(0x15c, "%s: The configuration from log '%s' "
398                                    "failed (%d). This may be the result of "
399                                    "communication errors between this node and "
400                                    "the MGS, a bad configuration, or other "
401                                    "errors. See the syslog for more "
402                                    "information.\n", mgc->obd_name, logname, 
403                                    rc);
404
405         /* class_obd_list(); */
406         RETURN(rc);
407 }
408
409 /* Stop watching this config log for updates */
410 int lustre_end_log(struct super_block *sb, char *logname,
411                        struct config_llog_instance *cfg)
412 {
413         struct lustre_cfg *lcfg;
414         struct lustre_cfg_bufs bufs;
415         struct lustre_sb_info *lsi = s2lsi(sb);
416         struct obd_device *mgc = lsi->lsi_mgc;
417         int rc;
418         ENTRY;
419
420         if (!mgc)
421                 RETURN(-ENOENT);
422
423         /* mgc_process_config */
424         lustre_cfg_bufs_reset(&bufs, mgc->obd_name);
425         lustre_cfg_bufs_set_string(&bufs, 1, logname);
426         if (cfg)
427                 lustre_cfg_bufs_set(&bufs, 2, cfg, sizeof(*cfg));
428         lcfg = lustre_cfg_new(LCFG_LOG_END, &bufs);
429         rc = obd_process_config(mgc, sizeof(*lcfg), lcfg);
430         lustre_cfg_free(lcfg);
431         RETURN(rc);
432 }
433
434 /**************** obd start *******************/
435
436 int do_lcfg(char *cfgname, lnet_nid_t nid, int cmd,
437             char *s1, char *s2, char *s3, char *s4)
438 {
439         struct lustre_cfg_bufs bufs;
440         struct lustre_cfg    * lcfg = NULL;
441         int rc;
442
443         CDEBUG(D_TRACE, "lcfg %s %#x %s %s %s %s\n", cfgname,
444                cmd, s1, s2, s3, s4);
445
446         lustre_cfg_bufs_reset(&bufs, cfgname);
447         if (s1)
448                 lustre_cfg_bufs_set_string(&bufs, 1, s1);
449         if (s2)
450                 lustre_cfg_bufs_set_string(&bufs, 2, s2);
451         if (s3)
452                 lustre_cfg_bufs_set_string(&bufs, 3, s3);
453         if (s4)
454                 lustre_cfg_bufs_set_string(&bufs, 4, s4);
455
456         lcfg = lustre_cfg_new(cmd, &bufs);
457         lcfg->lcfg_nid = nid;
458         rc = class_process_config(lcfg);
459         lustre_cfg_free(lcfg);
460         return(rc);
461 }
462
463 static int lustre_start_simple(char *obdname, char *type, char *uuid,
464                                char *s1, char *s2)
465 {
466         int rc;
467         CDEBUG(D_MOUNT, "Starting obd %s (typ=%s)\n", obdname, type);
468
469         rc = do_lcfg(obdname, 0, LCFG_ATTACH, type, uuid, 0, 0);
470         if (rc) {
471                 CERROR("%s attach error %d\n", obdname, rc);
472                 return(rc);
473         }
474         rc = do_lcfg(obdname, 0, LCFG_SETUP, s1, s2, 0, 0);
475         if (rc) {
476                 CERROR("%s setup error %d\n", obdname, rc);
477                 do_lcfg(obdname, 0, LCFG_DETACH, 0, 0, 0, 0);
478         }
479         return rc;
480 }
481
482 /* Set up a MGS to serve startup logs */
483 static int server_start_mgs(struct super_block *sb)
484 {
485         struct lustre_sb_info    *lsi = s2lsi(sb);
486         struct vfsmount          *mnt = lsi->lsi_srv_mnt;
487         struct lustre_mount_info *lmi;
488         int    rc = 0;
489         ENTRY;
490         LASSERT(mnt);
491
492         /* It is impossible to have more than 1 MGS per node, since
493            MGC wouldn't know which to connect to */
494         lmi = server_find_mount(LUSTRE_MGS_OBDNAME);
495         if (lmi) {
496                 lsi = s2lsi(lmi->lmi_sb);
497                 LCONSOLE_ERROR_MSG(0x15d, "The MGS service was already started"
498                                    " from server %s\n",
499                                    lsi->lsi_ldd->ldd_svname);
500                 RETURN(-EALREADY);
501         }
502
503         CDEBUG(D_CONFIG, "Start MGS service %s\n", LUSTRE_MGS_OBDNAME);
504
505         rc = server_register_mount(LUSTRE_MGS_OBDNAME, sb, mnt);
506
507         if (!rc &&
508             ((rc = lustre_start_simple(LUSTRE_MGS_OBDNAME, LUSTRE_MGS_NAME,
509                                        LUSTRE_MGS_OBDNAME, 0, 0))))
510                 server_deregister_mount(LUSTRE_MGS_OBDNAME);
511
512         if (rc)
513                 LCONSOLE_ERROR_MSG(0x15e, "Failed to start MGS '%s' (%d). "
514                                    "Is the 'mgs' module loaded?\n",
515                                    LUSTRE_MGS_OBDNAME, rc);
516         RETURN(rc);
517 }
518
519 static int server_stop_mgs(struct super_block *sb)
520 {
521         struct obd_device *obd;
522         int rc;
523         ENTRY;
524
525         CDEBUG(D_MOUNT, "Stop MGS service %s\n", LUSTRE_MGS_OBDNAME);
526
527         /* There better be only one MGS */
528         obd = class_name2obd(LUSTRE_MGS_OBDNAME);
529         if (!obd) {
530                 CDEBUG(D_CONFIG, "mgs %s not running\n", LUSTRE_MGS_OBDNAME);
531                 RETURN(-EALREADY);
532         }
533
534         /* The MGS should always stop when we say so */
535         obd->obd_force = 1;
536         rc = class_manual_cleanup(obd);
537         RETURN(rc);
538 }
539
540 DECLARE_MUTEX(mgc_start_lock);
541
542 /* Set up a mgcobd to process startup logs */
543 static int lustre_start_mgc(struct super_block *sb)
544 {
545         struct lustre_handle mgc_conn = {0, };
546         struct obd_connect_data ocd = { 0 };
547         struct lustre_sb_info *lsi = s2lsi(sb);
548         struct obd_device *obd;
549         struct obd_export *exp;
550         struct obd_uuid *uuid;
551         class_uuid_t uuidc;
552         lnet_nid_t nid;
553         char *mgcname, *niduuid;
554         char *ptr;
555         int recov_bk;
556         int rc = 0, i = 0, j, len;
557         ENTRY;
558
559         LASSERT(lsi->lsi_lmd);
560
561         /* Find the first non-lo MGS nid for our MGC name */
562         if (lsi->lsi_flags & LSI_SERVER) {
563                 ptr = lsi->lsi_ldd->ldd_params;
564                 /* Use mgsnode= nids */
565                 if ((class_find_param(ptr, PARAM_MGSNODE, &ptr) == 0) &&
566                     (class_parse_nid(ptr, &nid, &ptr) == 0)) {
567                         i++;
568                 } else if (IS_MGS(lsi->lsi_ldd)) {
569                         lnet_process_id_t id;
570                         while ((rc = LNetGetId(i++, &id)) != -ENOENT) {
571                                 if (LNET_NETTYP(LNET_NIDNET(id.nid)) == LOLND)
572                                         continue;
573                                 nid = id.nid;
574                                 i++;
575                                 break;
576                         }
577                 }
578         } else { /* client */
579                 /* Use nids from mount line: uml1,1@elan:uml2,2@elan:/lustre */
580                 ptr = lsi->lsi_lmd->lmd_dev;
581                 if (class_parse_nid(ptr, &nid, &ptr) == 0)
582                         i++;
583         }
584         if (i == 0) {
585                 CERROR("No valid MGS nids found.\n");
586                 RETURN(-EINVAL);
587         }
588
589         len = strlen(LUSTRE_MGC_OBDNAME) + strlen(libcfs_nid2str(nid)) + 1;
590         OBD_ALLOC(mgcname, len);
591         OBD_ALLOC(niduuid, len + 2);
592         if (!mgcname || !niduuid)
593                 GOTO(out_free, rc = -ENOMEM);
594         sprintf(mgcname, "%s%s", LUSTRE_MGC_OBDNAME, libcfs_nid2str(nid));
595
596         mutex_down(&mgc_start_lock);
597
598         obd = class_name2obd(mgcname);
599         if (obd) {
600                 /* Re-using an existing MGC */
601                 atomic_inc(&obd->u.cli.cl_mgc_refcount);
602
603                 recov_bk = 0;
604                 /* If we are restarting the MGS, don't try to keep the MGC's
605                    old connection, or registration will fail. */
606                 if ((lsi->lsi_flags & LSI_SERVER) && IS_MGS(lsi->lsi_ldd)) {
607                         CDEBUG(D_MOUNT, "New MGS with live MGC\n");
608                         recov_bk = 1;
609                 }
610
611                 /* Try all connections, but only once (again).
612                    We don't want to block another target from starting
613                    (using its local copy of the log), but we do want to connect
614                    if at all possible. */
615                 recov_bk++;
616                 CDEBUG(D_MOUNT, "%s: Set MGC reconnect %d\n", mgcname,recov_bk);
617                 rc = obd_set_info_async(obd->obd_self_export,
618                                         strlen(KEY_INIT_RECOV_BACKUP),
619                                         KEY_INIT_RECOV_BACKUP,
620                                         sizeof(recov_bk), &recov_bk, NULL);
621                 GOTO(out, rc = 0);
622         }
623
624         CDEBUG(D_MOUNT, "Start MGC '%s'\n", mgcname);
625
626         /* Add the primary nids for the MGS */
627         i = 0;
628         sprintf(niduuid, "%s_%x", mgcname, i);
629         if (lsi->lsi_flags & LSI_SERVER) {
630                 ptr = lsi->lsi_ldd->ldd_params;
631                 if (IS_MGS(lsi->lsi_ldd)) {
632                         /* Use local nids (including LO) */
633                         lnet_process_id_t id;
634                         while ((rc = LNetGetId(i++, &id)) != -ENOENT) {
635                                 rc = do_lcfg(mgcname, id.nid,
636                                              LCFG_ADD_UUID, niduuid, 0,0,0);
637                         }
638                 } else {
639                         /* Use mgsnode= nids */
640                         if (class_find_param(ptr, PARAM_MGSNODE, &ptr) != 0) {
641                                 CERROR("No MGS nids given.\n");
642                                 GOTO(out_free, rc = -EINVAL);
643                         }
644                         while (class_parse_nid(ptr, &nid, &ptr) == 0) {
645                                 rc = do_lcfg(mgcname, nid,
646                                              LCFG_ADD_UUID, niduuid, 0,0,0);
647                                 i++;
648                         }
649                 }
650         } else { /* client */
651                 /* Use nids from mount line: uml1,1@elan:uml2,2@elan:/lustre */
652                 ptr = lsi->lsi_lmd->lmd_dev;
653                 while (class_parse_nid(ptr, &nid, &ptr) == 0) {
654                         rc = do_lcfg(mgcname, nid,
655                                      LCFG_ADD_UUID, niduuid, 0,0,0);
656                         i++;
657                         /* Stop at the first failover nid */
658                         if (*ptr == ':')
659                                 break;
660                 }
661         }
662         if (i == 0) {
663                 CERROR("No valid MGS nids found.\n");
664                 GOTO(out_free, rc = -EINVAL);
665         }
666         lsi->lsi_lmd->lmd_mgs_failnodes = 1;
667
668         /* Random uuid for MGC allows easier reconnects */
669         OBD_ALLOC_PTR(uuid);
670         ll_generate_random_uuid(uuidc);
671         class_uuid_unparse(uuidc, uuid);
672
673         /* Start the MGC */
674         rc = lustre_start_simple(mgcname, LUSTRE_MGC_NAME,
675                                  (char *)uuid->uuid, LUSTRE_MGS_OBDNAME,
676                                  niduuid);
677         OBD_FREE_PTR(uuid);
678         if (rc)
679                 GOTO(out_free, rc);
680
681         /* Add any failover MGS nids */
682         i = 1;
683         while ((*ptr == ':' ||
684                 class_find_param(ptr, PARAM_MGSNODE, &ptr) == 0)) {
685                 /* New failover node */
686                 sprintf(niduuid, "%s_%x", mgcname, i);
687                 j = 0;
688                 while (class_parse_nid(ptr, &nid, &ptr) == 0) {
689                         j++;
690                         rc = do_lcfg(mgcname, nid,
691                                      LCFG_ADD_UUID, niduuid, 0,0,0);
692                         if (*ptr == ':')
693                                 break;
694                 }
695                 if (j > 0) {
696                         rc = do_lcfg(mgcname, 0, LCFG_ADD_CONN,
697                                      niduuid, 0, 0, 0);
698                         i++;
699                 } else {
700                         /* at ":/fsname" */
701                         break;
702                 }
703         }
704         lsi->lsi_lmd->lmd_mgs_failnodes = i;
705
706         obd = class_name2obd(mgcname);
707         if (!obd) {
708                 CERROR("Can't find mgcobd %s\n", mgcname);
709                 GOTO(out_free, rc = -ENOTCONN);
710         }
711
712         /* Keep a refcount of servers/clients who started with "mount",
713            so we know when we can get rid of the mgc. */
714         atomic_set(&obd->u.cli.cl_mgc_refcount, 1);
715
716         /* Try all connections, but only once. */
717         recov_bk = 1;
718         rc = obd_set_info_async(obd->obd_self_export,
719                                 strlen(KEY_INIT_RECOV_BACKUP),
720                                 KEY_INIT_RECOV_BACKUP,
721                                 sizeof(recov_bk), &recov_bk, NULL);
722         if (rc)
723                 /* nonfatal */
724                 CERROR("can't set %s %d\n", KEY_INIT_RECOV_BACKUP, rc);
725         /* We connect to the MGS at setup, and don't disconnect until cleanup */
726         rc = obd_connect(NULL, &mgc_conn, obd, &(obd->obd_uuid), &ocd);
727         if (rc) {
728                 CERROR("connect failed %d\n", rc);
729                 GOTO(out, rc);
730         }
731
732         exp = class_conn2export(&mgc_conn);
733         obd->u.cli.cl_mgc_mgsexp = exp;
734
735 out:
736         /* Keep the mgc info in the sb. Note that many lsi's can point
737            to the same mgc.*/
738         lsi->lsi_mgc = obd;
739 out_free:
740         mutex_up(&mgc_start_lock);
741
742         if (mgcname)
743                 OBD_FREE(mgcname, len);
744         if (niduuid)
745                 OBD_FREE(niduuid, len + 2);
746         RETURN(rc);
747 }
748
749 static int lustre_stop_mgc(struct super_block *sb)
750 {
751         struct lustre_sb_info *lsi = s2lsi(sb);
752         struct obd_device *obd;
753         char *niduuid, *ptr = 0;
754         int i, rc = 0, len;
755         ENTRY;
756
757         if (!lsi)
758                 RETURN(-ENOENT);
759         obd = lsi->lsi_mgc;
760         if (!obd)
761                 RETURN(-ENOENT);
762
763         lsi->lsi_mgc = NULL;
764         mutex_down(&mgc_start_lock);
765         if (!atomic_dec_and_test(&obd->u.cli.cl_mgc_refcount)) {
766                 /* This is not fatal, every client that stops
767                    will call in here. */
768                 CDEBUG(D_MOUNT, "mgc still has %d references.\n",
769                        atomic_read(&obd->u.cli.cl_mgc_refcount));
770                 GOTO(out, rc = -EBUSY);
771         }
772
773         /* MGC must always stop */
774         obd->obd_force = 1;
775         /* client_disconnect_export uses the no_recov flag to decide whether it
776            should disconnect or just invalidate.  (The MGC has no
777            recoverable data in any case.) */
778         obd->obd_no_recov = 1;
779
780         if (obd->u.cli.cl_mgc_mgsexp)
781                 obd_disconnect(obd->u.cli.cl_mgc_mgsexp);
782
783         /* Save the obdname for cleaning the nid uuids, which are
784            obdname_XX */
785         len = strlen(obd->obd_name) + 6;
786         OBD_ALLOC(niduuid, len);
787         if (niduuid) {
788                 strcpy(niduuid, obd->obd_name);
789                 ptr = niduuid + strlen(niduuid);
790         }
791
792         rc = class_manual_cleanup(obd);
793         if (rc)
794                 GOTO(out, rc);
795
796         /* Clean the nid uuids */
797         if (!niduuid)
798                 RETURN(-ENOMEM);
799         for (i = 0; i < lsi->lsi_lmd->lmd_mgs_failnodes; i++) {
800                 sprintf(ptr, "_%x", i);
801                 rc = do_lcfg(LUSTRE_MGC_OBDNAME, 0, LCFG_DEL_UUID,
802                              niduuid, 0, 0, 0);
803                 if (rc)
804                         CERROR("del MDC UUID %s failed: rc = %d\n",
805                                niduuid, rc);
806         }
807         OBD_FREE(niduuid, len);
808         /* class_import_put will get rid of the additional connections */
809
810 out:
811         mutex_up(&mgc_start_lock);
812         RETURN(rc);
813 }
814
815 /* Since there's only one mgc per node, we have to change it's fs to get
816    access to the right disk. */
817 static int server_mgc_set_fs(struct obd_device *mgc, struct super_block *sb)
818 {
819         struct lustre_sb_info *lsi = s2lsi(sb);
820         int rc;
821         ENTRY;
822
823         CDEBUG(D_MOUNT, "Set mgc disk for %s\n", lsi->lsi_lmd->lmd_dev);
824
825         /* cl_mgc_sem in mgc insures we sleep if the mgc_fs is busy */
826         rc = obd_set_info_async(mgc->obd_self_export,
827                                 strlen("set_fs"), "set_fs",
828                                 sizeof(*sb), sb, NULL);
829         if (rc) {
830                 CERROR("can't set_fs %d\n", rc);
831         }
832
833         RETURN(rc);
834 }
835
836 static int server_mgc_clear_fs(struct obd_device *mgc)
837 {
838         int rc;
839         ENTRY;
840
841         CDEBUG(D_MOUNT, "Unassign mgc disk\n");
842
843         rc = obd_set_info_async(mgc->obd_self_export,
844                                 strlen("clear_fs"), "clear_fs",
845                                 0, NULL, NULL);
846         RETURN(rc);
847 }
848
849 DECLARE_MUTEX(server_start_lock);
850
851 /* Stop MDS/OSS if nobody is using them */
852 static int server_stop_servers(int lddflags, int lsiflags)
853 {
854         struct obd_device *obd = NULL;
855         struct obd_type *type = NULL;
856         int rc = 0;
857         ENTRY;
858
859         mutex_down(&server_start_lock);
860
861         /* Either an MDT or an OST or neither  */
862         /* if this was an MDT, and there are no more MDT's, clean up the MDS */
863         if ((lddflags & LDD_F_SV_TYPE_MDT) &&
864             (obd = class_name2obd(LUSTRE_MDS_OBDNAME))) {
865                 /*FIXME pre-rename, should eventually be LUSTRE_MDT_NAME*/
866                 type = class_search_type(LUSTRE_MDS_NAME);
867         }
868         /* if this was an OST, and there are no more OST's, clean up the OSS */
869         if ((lddflags & LDD_F_SV_TYPE_OST) &&
870             (obd = class_name2obd(LUSTRE_OSS_OBDNAME))) {
871                 type = class_search_type(LUSTRE_OST_NAME);
872         }
873
874         if (obd && (!type || !type->typ_refcnt)) {
875                 int err;
876                 obd->obd_force = 1;
877                 /* obd_fail doesn't mean much on a server obd */
878                 err = class_manual_cleanup(obd);
879                 if (!rc)
880                         rc = err;
881         }
882
883         mutex_up(&server_start_lock);
884
885         RETURN(rc);
886 }
887
888 int server_mti_print(char *title, struct mgs_target_info *mti)
889 {
890         PRINT_CMD(PRINT_MASK, "mti %s\n", title);
891         PRINT_CMD(PRINT_MASK, "server: %s\n", mti->mti_svname);
892         PRINT_CMD(PRINT_MASK, "fs:     %s\n", mti->mti_fsname);
893         PRINT_CMD(PRINT_MASK, "uuid:   %s\n", mti->mti_uuid);
894         PRINT_CMD(PRINT_MASK, "ver: %d  flags: %#x\n",
895                   mti->mti_config_ver, mti->mti_flags);
896         return(0);
897 }
898
899 static
900 int mti_set_sec_opts(struct mgs_target_info *mti, struct lustre_mount_data *lmd)
901 {
902         char *s1, *s2;
903
904         if (lmd->lmd_sec_mdt == NULL && lmd->lmd_sec_cli == NULL) {
905                 /* just let on-disk params do its work. but we have an
906                  * assumption that any changes of on-disk data by tune2fs
907                  * should lead to server rewrite log.
908                  */
909                 return 0;
910         }
911
912         /* filter out existing sec options */
913         s1 = mti->mti_params;
914         while (*s1) {
915                 int clear;
916
917                 while (*s1 == ' ')
918                         s1++;
919
920                 if (strncmp(s1, PARAM_SEC_RPC_MDT,
921                             sizeof(PARAM_SEC_RPC_MDT) - 1) == 0 ||
922                     strncmp(s1, PARAM_SEC_RPC_CLI,
923                             sizeof(PARAM_SEC_RPC_CLI) - 1) == 0)
924                         clear = 1;
925                 else
926                         clear = 0;
927
928                 s2 = strchr(s1, ' ');
929                 if (s2 == NULL) {
930                         if (clear)
931                                 *s1 = '\0';
932                         break;
933                 }
934                 s2++;
935                 if (clear)
936                         memmove(s1, s2, strlen(s2) + 1);
937                 else
938                         s1 = s2;
939         }
940
941         /* append sec options from lmd */
942         /* FIXME add flag LDD_F_UPDATE after mountconf start supporting
943          * log updating.
944          */
945         if (lmd->lmd_sec_mdt) {
946                 if (strlen(mti->mti_params) + strlen(lmd->lmd_sec_mdt) +
947                     sizeof(PARAM_SEC_RPC_MDT) + 1 >= sizeof(mti->mti_params)) {
948                         CERROR("security params too big for mti\n");
949                         return -ENOMEM;
950                 }
951                 strcat(mti->mti_params, " "PARAM_SEC_RPC_MDT);
952                 strcat(mti->mti_params, lmd->lmd_sec_mdt);
953                 //mti->mti_flags |= LDD_F_UPDATE;
954         }
955         if (lmd->lmd_sec_cli) {
956                 if (strlen(mti->mti_params) + strlen(lmd->lmd_sec_cli) +
957                     sizeof(PARAM_SEC_RPC_CLI) + 2 > sizeof(mti->mti_params)) {
958                         CERROR("security params too big for mti\n");
959                         return -ENOMEM;
960                 }
961                 strcat(mti->mti_params, " "PARAM_SEC_RPC_CLI);
962                 strcat(mti->mti_params, lmd->lmd_sec_cli);
963                 //mti->mti_flags |= LDD_F_UPDATE;
964         }
965
966         return 0;
967 }
968
969 static int server_sb2mti(struct super_block *sb, struct mgs_target_info *mti)
970 {
971         struct lustre_sb_info    *lsi = s2lsi(sb);
972         struct lustre_disk_data  *ldd = lsi->lsi_ldd;
973         struct lustre_mount_data *lmd = lsi->lsi_lmd;
974         lnet_process_id_t         id;
975         int i = 0;
976         ENTRY;
977
978         if (!(lsi->lsi_flags & LSI_SERVER))
979                 RETURN(-EINVAL);
980
981         strncpy(mti->mti_fsname, ldd->ldd_fsname,
982                 sizeof(mti->mti_fsname));
983         strncpy(mti->mti_svname, ldd->ldd_svname,
984                 sizeof(mti->mti_svname));
985
986         mti->mti_nid_count = 0;
987         while (LNetGetId(i++, &id) != -ENOENT) {
988                 if (LNET_NETTYP(LNET_NIDNET(id.nid)) == LOLND)
989                         continue;
990                 mti->mti_nids[mti->mti_nid_count] = id.nid;
991                 mti->mti_nid_count++;
992                 if (mti->mti_nid_count >= MTI_NIDS_MAX) {
993                         CWARN("Only using first %d nids for %s\n",
994                               mti->mti_nid_count, mti->mti_svname);
995                         break;
996                 }
997         }
998
999         mti->mti_lustre_ver = LUSTRE_VERSION_CODE;
1000         mti->mti_config_ver = 0;
1001         mti->mti_flags = ldd->ldd_flags;
1002         mti->mti_stripe_index = ldd->ldd_svindex;
1003         memcpy(mti->mti_uuid, ldd->ldd_uuid, sizeof(mti->mti_uuid));
1004         if (strlen(ldd->ldd_params) > sizeof(mti->mti_params)) {
1005                 CERROR("params too big for mti\n");
1006                 RETURN(-ENOMEM);
1007         }
1008         memcpy(mti->mti_params, ldd->ldd_params, sizeof(mti->mti_params));
1009
1010         RETURN(mti_set_sec_opts(mti, lmd));
1011 }
1012
1013 /* Register an old or new target with the MGS. If needed MGS will construct
1014    startup logs and assign index */
1015 int server_register_target(struct super_block *sb)
1016 {
1017         struct lustre_sb_info *lsi = s2lsi(sb);
1018         struct obd_device *mgc = lsi->lsi_mgc;
1019         struct lustre_disk_data *ldd = lsi->lsi_ldd;
1020         struct mgs_target_info *mti = NULL;
1021         int rc;
1022         ENTRY;
1023
1024         LASSERT(mgc);
1025
1026         if (!(lsi->lsi_flags & LSI_SERVER))
1027                 RETURN(-EINVAL);
1028
1029         OBD_ALLOC_PTR(mti);
1030         if (!mti)
1031                 RETURN(-ENOMEM);
1032         rc = server_sb2mti(sb, mti);
1033         if (rc)
1034                 GOTO(out, rc);
1035
1036         CDEBUG(D_MOUNT, "Registration %s, fs=%s, %s, index=%04x, flags=%#x\n",
1037                mti->mti_svname, mti->mti_fsname,
1038                libcfs_nid2str(mti->mti_nids[0]), mti->mti_stripe_index,
1039                mti->mti_flags);
1040
1041         /* Register the target */
1042         /* FIXME use mgc_process_config instead */
1043         rc = obd_set_info_async(mgc->u.cli.cl_mgc_mgsexp,
1044                                 strlen("register_target"), "register_target",
1045                                 sizeof(*mti), mti, NULL);
1046         if (rc) {
1047                 CERROR("registration with the MGS failed (%d)\n", rc);
1048                 GOTO(out, rc);
1049         }
1050
1051         /* Always update our flags */
1052         ldd->ldd_flags = mti->mti_flags & ~LDD_F_REWRITE_LDD;
1053
1054         /* If this flag is set, it means the MGS wants us to change our
1055            on-disk data. (So far this means just the index.) */
1056         if (mti->mti_flags & LDD_F_REWRITE_LDD) {
1057                 char *label;
1058                 int err;
1059                 CDEBUG(D_MOUNT, "Changing on-disk index from %#x to %#x "
1060                        "for %s\n", ldd->ldd_svindex, mti->mti_stripe_index,
1061                        mti->mti_svname);
1062                 ldd->ldd_svindex = mti->mti_stripe_index;
1063                 strncpy(ldd->ldd_svname, mti->mti_svname,
1064                         sizeof(ldd->ldd_svname));
1065                 /* or ldd_make_sv_name(ldd); */
1066                 ldd_write(&mgc->obd_lvfs_ctxt, ldd);
1067                 err = fsfilt_set_label(mgc, lsi->lsi_srv_mnt->mnt_sb,
1068                                        mti->mti_svname);
1069                 if (err)
1070                         CERROR("Label set error %d\n", err);
1071                 label = fsfilt_get_label(mgc, lsi->lsi_srv_mnt->mnt_sb);
1072                 if (label)
1073                         CDEBUG(D_MOUNT, "Disk label changed to %s\n", label);
1074
1075                 /* Flush the new ldd to disk */
1076                 fsfilt_sync(mgc, lsi->lsi_srv_mnt->mnt_sb);
1077         }
1078
1079 out:
1080         if (mti)
1081                 OBD_FREE_PTR(mti);
1082         RETURN(rc);
1083 }
1084
1085 /* Start targets */
1086 static int server_start_targets(struct super_block *sb, struct vfsmount *mnt)
1087 {
1088         struct obd_device *obd;
1089         struct lustre_sb_info *lsi = s2lsi(sb);
1090         struct config_llog_instance cfg;
1091         int rc;
1092         ENTRY;
1093
1094         CDEBUG(D_MOUNT, "starting target %s\n", lsi->lsi_ldd->ldd_svname);
1095
1096 #if 0
1097         /* If we're an MDT, make sure the global MDS is running */
1098         if (lsi->lsi_ldd->ldd_flags & LDD_F_SV_TYPE_MDT) {
1099                 /* make sure the MDS is started */
1100                 mutex_down(&server_start_lock);
1101                 obd = class_name2obd(LUSTRE_MDS_OBDNAME);
1102                 if (!obd) {
1103                         rc = lustre_start_simple(LUSTRE_MDS_OBDNAME,
1104                     /* FIXME pre-rename, should eventually be LUSTRE_MDS_NAME */
1105                                                  LUSTRE_MDT_NAME,
1106                                                  LUSTRE_MDS_OBDNAME"_uuid",
1107                                                  0, 0);
1108                         if (rc) {
1109                                 mutex_up(&server_start_lock);
1110                                 CERROR("failed to start MDS: %d\n", rc);
1111                                 RETURN(rc);
1112                         }
1113                 }
1114                 mutex_up(&server_start_lock);
1115         }
1116 #endif
1117
1118         /* If we're an OST, make sure the global OSS is running */
1119         if (lsi->lsi_ldd->ldd_flags & LDD_F_SV_TYPE_OST) {
1120                 /* make sure OSS is started */
1121                 mutex_down(&server_start_lock);
1122                 obd = class_name2obd(LUSTRE_OSS_OBDNAME);
1123                 if (!obd) {
1124                         rc = lustre_start_simple(LUSTRE_OSS_OBDNAME,
1125                                                  LUSTRE_OSS_NAME,
1126                                                  LUSTRE_OSS_OBDNAME"_uuid",
1127                                                  0, 0);
1128                         if (rc) {
1129                                 mutex_up(&server_start_lock);
1130                                 CERROR("failed to start OSS: %d\n", rc);
1131                                 RETURN(rc);
1132                         }
1133                 }
1134                 mutex_up(&server_start_lock);
1135         }
1136
1137         /* Set the mgc fs to our server disk.  This allows the MGC
1138            to read and write configs locally. */
1139         rc = server_mgc_set_fs(lsi->lsi_mgc, sb);
1140         if (rc)
1141                 RETURN(rc);
1142
1143         /* Register with MGS */
1144         rc = server_register_target(sb);
1145         if (rc && (lsi->lsi_ldd->ldd_flags &
1146                    (LDD_F_NEED_INDEX | LDD_F_UPDATE | LDD_F_UPGRADE14))){
1147                 CERROR("Required registration failed for %s: %d\n",
1148                        lsi->lsi_ldd->ldd_svname, rc);
1149                 if (rc == -EIO) {
1150                         LCONSOLE_ERROR_MSG(0x15f, "Communication error with "
1151                                            "the MGS.  Is the MGS running?\n");
1152                 }
1153                 GOTO(out_mgc, rc);
1154         }
1155         if (rc == -EINVAL) {
1156                 LCONSOLE_ERROR_MSG(0x160, "The MGS is refusing to allow this "
1157                                    "server (%s) to start. Please see messages"
1158                                    " on the MGS node.\n",
1159                                    lsi->lsi_ldd->ldd_svname);
1160                 GOTO(out_mgc, rc);
1161         }
1162
1163         /* Let the target look up the mount using the target's name
1164            (we can't pass the sb or mnt through class_process_config.) */
1165         rc = server_register_mount(lsi->lsi_ldd->ldd_svname, sb, mnt);
1166         if (rc)
1167                 GOTO(out_mgc, rc);
1168
1169         /* Start targets using the llog named for the target */
1170         memset(&cfg, 0, sizeof(cfg));
1171         rc = lustre_process_log(sb, lsi->lsi_ldd->ldd_svname, &cfg);
1172         if (rc) {
1173                 CERROR("failed to start server %s: %d\n",
1174                        lsi->lsi_ldd->ldd_svname, rc);
1175                 GOTO(out_mgc, rc);
1176         }
1177
1178 out_mgc:
1179         /* Release the mgc fs for others to use */
1180         server_mgc_clear_fs(lsi->lsi_mgc);
1181
1182         if (!rc) {
1183                 obd = class_name2obd(lsi->lsi_ldd->ldd_svname);
1184                 if (!obd) {
1185                         CERROR("no server named %s was started\n",
1186                                lsi->lsi_ldd->ldd_svname);
1187                         RETURN(-ENXIO);
1188                 }
1189
1190                 if ((lsi->lsi_lmd->lmd_flags & LMD_FLG_ABORT_RECOV) &&
1191                     (OBP(obd, iocontrol))) {
1192                         obd_iocontrol(OBD_IOC_ABORT_RECOVERY,
1193                                       obd->obd_self_export, 0, NULL, NULL);
1194                 }
1195
1196                 /* log has been fully processed */
1197                 obd_notify(obd, NULL, OBD_NOTIFY_CONFIG, (void *)CONFIG_LOG);
1198         }
1199
1200         RETURN(rc);
1201 }
1202
1203 /***************** lustre superblock **************/
1204
1205 struct lustre_sb_info *lustre_init_lsi(struct super_block *sb)
1206 {
1207         struct lustre_sb_info *lsi = NULL;
1208         ENTRY;
1209
1210         OBD_ALLOC(lsi, sizeof(*lsi));
1211         if (!lsi)
1212                 RETURN(NULL);
1213         OBD_ALLOC(lsi->lsi_lmd, sizeof(*lsi->lsi_lmd));
1214         if (!lsi->lsi_lmd) {
1215                 OBD_FREE(lsi, sizeof(*lsi));
1216                 RETURN(NULL);
1217         }
1218
1219         lsi->lsi_lmd->lmd_exclude_count = 0;
1220         s2lsi_nocast(sb) = lsi;
1221         /* we take 1 extra ref for our setup */
1222         atomic_set(&lsi->lsi_mounts, 1);
1223
1224         /* Default umount style */
1225         lsi->lsi_flags = LSI_UMOUNT_FAILOVER;
1226
1227         lsi->lsi_lmd->lmd_nllu = NOBODY_UID;
1228         lsi->lsi_lmd->lmd_nllg = NOBODY_GID;
1229         RETURN(lsi);
1230 }
1231
1232 static int lustre_free_lsi(struct super_block *sb)
1233 {
1234         struct lustre_sb_info *lsi = s2lsi(sb);
1235         ENTRY;
1236
1237         if (!lsi)
1238                 RETURN(0);
1239
1240         CDEBUG(D_MOUNT, "Freeing lsi\n");
1241
1242         /* someone didn't call server_put_mount. */
1243         LASSERT(atomic_read(&lsi->lsi_mounts) == 0);
1244
1245         if (lsi->lsi_ldd != NULL)
1246                 OBD_FREE(lsi->lsi_ldd, sizeof(*lsi->lsi_ldd));
1247
1248         if (lsi->lsi_lmd != NULL) {
1249                 if (lsi->lsi_lmd->lmd_dev != NULL)
1250                         OBD_FREE(lsi->lsi_lmd->lmd_dev,
1251                                  strlen(lsi->lsi_lmd->lmd_dev) + 1);
1252                 if (lsi->lsi_lmd->lmd_profile != NULL)
1253                         OBD_FREE(lsi->lsi_lmd->lmd_profile,
1254                                  strlen(lsi->lsi_lmd->lmd_profile) + 1);
1255                 if (lsi->lsi_lmd->lmd_sec_mdt != NULL)
1256                         OBD_FREE(lsi->lsi_lmd->lmd_sec_mdt,
1257                                  strlen(lsi->lsi_lmd->lmd_sec_mdt) + 1);
1258                 if (lsi->lsi_lmd->lmd_sec_cli != NULL)
1259                         OBD_FREE(lsi->lsi_lmd->lmd_sec_cli,
1260                                  strlen(lsi->lsi_lmd->lmd_sec_cli) + 1);
1261                 if (lsi->lsi_lmd->lmd_opts != NULL)
1262                         OBD_FREE(lsi->lsi_lmd->lmd_opts,
1263                                  strlen(lsi->lsi_lmd->lmd_opts) + 1);
1264                 if (lsi->lsi_lmd->lmd_exclude_count)
1265                         OBD_FREE(lsi->lsi_lmd->lmd_exclude,
1266                                  sizeof(lsi->lsi_lmd->lmd_exclude[0]) *
1267                                  lsi->lsi_lmd->lmd_exclude_count);
1268                 OBD_FREE(lsi->lsi_lmd, sizeof(*lsi->lsi_lmd));
1269         }
1270
1271         LASSERT(lsi->lsi_llsbi == NULL);
1272         OBD_FREE(lsi, sizeof(*lsi));
1273         s2lsi_nocast(sb) = NULL;
1274
1275         RETURN(0);
1276 }
1277
1278 /* The lsi has one reference for every server that is using the disk -
1279    e.g. MDT, MGS, and potentially MGC */
1280 static int lustre_put_lsi(struct super_block *sb)
1281 {
1282         struct lustre_sb_info *lsi = s2lsi(sb);
1283         ENTRY;
1284
1285         LASSERT(lsi);
1286
1287         CDEBUG(D_MOUNT, "put %p %d\n", sb, atomic_read(&lsi->lsi_mounts));
1288
1289         if (atomic_dec_and_test(&lsi->lsi_mounts)) {
1290                 lustre_free_lsi(sb);
1291                 RETURN(1);
1292         }
1293         RETURN(0);
1294 }
1295
1296 /*************** server mount ******************/
1297
1298 /* Kernel mount using mount options in MOUNT_DATA_FILE */
1299 static struct vfsmount *server_kernel_mount(struct super_block *sb)
1300 {
1301         struct lvfs_run_ctxt mount_ctxt;
1302         struct lustre_sb_info *lsi = s2lsi(sb);
1303         struct lustre_disk_data *ldd;
1304         struct lustre_mount_data *lmd = lsi->lsi_lmd;
1305         struct vfsmount *mnt;
1306         char *options = NULL;
1307         unsigned long page, s_flags;
1308         int rc;
1309         ENTRY;
1310
1311         OBD_ALLOC(ldd, sizeof(*ldd));
1312         if (!ldd)
1313                 RETURN(ERR_PTR(-ENOMEM));
1314
1315         /* In the past, we have always used flags = 0.
1316            Note ext3/ldiskfs can't be mounted ro. */
1317         s_flags = sb->s_flags;
1318
1319         /* Pre-mount ldiskfs to read the MOUNT_DATA_FILE */
1320         CDEBUG(D_MOUNT, "Pre-mount ldiskfs %s\n", lmd->lmd_dev);
1321         mnt = ll_kern_mount("ldiskfs", s_flags, lmd->lmd_dev, 0);
1322         if (IS_ERR(mnt)) {
1323                 rc = PTR_ERR(mnt);
1324 #if (LINUX_VERSION_CODE >= KERNEL_VERSION(2,5,0))
1325                 /* 2.6 kernels: if ldiskfs fails, try ldiskfs2 */
1326                 mnt = ll_kern_mount("ldiskfs2", s_flags, lmd->lmd_dev, 0);
1327                 if (IS_ERR(mnt)) {
1328                         int rc2 = PTR_ERR(mnt);
1329                         CERROR("premount %s:%#lx ldiskfs failed: %d, ldiskfs2 "
1330                                "failed: %d.  Is the ldiskfs module available?\n",
1331                                lmd->lmd_dev, s_flags, rc, rc2);
1332                         GOTO(out_free, rc);
1333                 }
1334 #else
1335                 /* 2.4 kernels: if ldiskfs fails, try ext3 */
1336                 mnt = ll_kern_mount("ext3", s_flags, lmd->lmd_dev, 0);
1337                 if (IS_ERR(mnt)) {
1338                         rc = PTR_ERR(mnt);
1339                         CERROR("premount ext3 failed: rc = %d\n", rc);
1340                         GOTO(out_free, rc);
1341                 }
1342 #endif
1343         }
1344
1345         OBD_SET_CTXT_MAGIC(&mount_ctxt);
1346         mount_ctxt.pwdmnt = mnt;
1347         mount_ctxt.pwd = mnt->mnt_root;
1348         mount_ctxt.fs = get_ds();
1349
1350         rc = ldd_parse(&mount_ctxt, ldd);
1351         unlock_mntput(mnt);
1352
1353         if (rc) {
1354                 CERROR("premount parse options failed: rc = %d\n", rc);
1355                 GOTO(out_free, rc);
1356         }
1357
1358         /* Done with our pre-mount, now do the real mount. */
1359
1360         /* Glom up mount options */
1361         page = __get_free_page(GFP_KERNEL);
1362         if (!page)
1363                 GOTO(out_free, rc = -ENOMEM);
1364
1365         options = (char *)page;
1366         memset(options, 0, CFS_PAGE_SIZE);
1367         strncpy(options, ldd->ldd_mount_opts, CFS_PAGE_SIZE - 2);
1368
1369         /* Add in any mount-line options */
1370         if (lmd->lmd_opts && (*(lmd->lmd_opts) != 0)) {
1371                 int len = CFS_PAGE_SIZE - strlen(options) - 2;
1372                 if (*options != 0)
1373                         strcat(options, ",");
1374                 strncat(options, lmd->lmd_opts, len);
1375         }
1376
1377         /* Special permanent mount flags */
1378         if (IS_OST(ldd))
1379             s_flags |= MS_NOATIME | MS_NODIRATIME;
1380
1381         CDEBUG(D_MOUNT, "kern_mount: %s %s %s\n",
1382                MT_STR(ldd), lmd->lmd_dev, options);
1383         mnt = ll_kern_mount(MT_STR(ldd), s_flags, lmd->lmd_dev,
1384                             (void *)options);
1385         free_page(page);
1386         if (IS_ERR(mnt)) {
1387                 rc = PTR_ERR(mnt);
1388                 CERROR("ll_kern_mount failed: rc = %d\n", rc);
1389                 GOTO(out_free, rc);
1390         }
1391
1392         lsi->lsi_ldd = ldd;   /* freed at lsi cleanup */
1393         CDEBUG(D_SUPER, "%s: mnt = %p\n", lmd->lmd_dev, mnt);
1394         RETURN(mnt);
1395
1396 out_free:
1397         OBD_FREE(ldd, sizeof(*ldd));
1398         lsi->lsi_ldd = NULL;
1399         RETURN(ERR_PTR(rc));
1400 }
1401
1402 static void server_wait_finished(struct vfsmount *mnt)
1403 {
1404         wait_queue_head_t   waitq;
1405         struct l_wait_info  lwi;
1406         int                 retries = 120;
1407
1408         init_waitqueue_head(&waitq);
1409
1410         while ((atomic_read(&mnt->mnt_count) > 1) && (retries > 0)) {
1411                 LCONSOLE_WARN("Mount still busy with %d refs, waiting for "
1412                               "%d secs...\n",
1413                               atomic_read(&mnt->mnt_count), retries);
1414
1415                 /* Wait for a bit */
1416                 retries -= 5;
1417                 lwi = LWI_TIMEOUT(5 * HZ, NULL, NULL);
1418                 l_wait_event(waitq, 0, &lwi);
1419         }
1420         if (atomic_read(&mnt->mnt_count) > 1) {
1421                 CERROR("Mount %p is still busy (%d refs), giving up.\n",
1422                        mnt, atomic_read(&mnt->mnt_count));
1423         }
1424 }
1425
1426 static void server_put_super(struct super_block *sb)
1427 {
1428         struct lustre_sb_info *lsi = s2lsi(sb);
1429         struct obd_device     *obd;
1430         struct vfsmount       *mnt = lsi->lsi_srv_mnt;
1431         char *tmpname, *extraname = NULL;
1432         int tmpname_sz;
1433         int lddflags = lsi->lsi_ldd->ldd_flags;
1434         int lsiflags = lsi->lsi_flags;
1435         int rc;
1436         ENTRY;
1437
1438         LASSERT(lsiflags & LSI_SERVER);
1439
1440         tmpname_sz = strlen(lsi->lsi_ldd->ldd_svname) + 1;
1441         OBD_ALLOC(tmpname, tmpname_sz);
1442         memcpy(tmpname, lsi->lsi_ldd->ldd_svname, tmpname_sz);
1443         CDEBUG(D_MOUNT, "server put_super %s\n", tmpname);
1444
1445         /* Stop the target */
1446         if (IS_MDT(lsi->lsi_ldd) || IS_OST(lsi->lsi_ldd)) {
1447                 struct lustre_profile *lprof = NULL;
1448
1449                 /* tell the mgc to drop the config log */
1450                 lustre_end_log(sb, lsi->lsi_ldd->ldd_svname, NULL);
1451
1452                 /* COMPAT_146 - profile may get deleted in mgc_cleanup.
1453                    If there are any setup/cleanup errors, save the lov
1454                    name for safety cleanup later. */
1455                 lprof = class_get_profile(lsi->lsi_ldd->ldd_svname);
1456                 if (lprof && lprof->lp_dt) {
1457                         OBD_ALLOC(extraname, strlen(lprof->lp_dt) + 1);
1458                         strcpy(extraname, lprof->lp_dt);
1459                 }
1460
1461                 obd = class_name2obd(lsi->lsi_ldd->ldd_svname);
1462                 if (obd) {
1463                         CDEBUG(D_MOUNT, "stopping %s\n", obd->obd_name);
1464                         if (lsi->lsi_flags & LSI_UMOUNT_FORCE)
1465                                 obd->obd_force = 1;
1466                         if (lsi->lsi_flags & LSI_UMOUNT_FAILOVER)
1467                                 obd->obd_fail = 1;
1468                         /* We can't seem to give an error return code
1469                            to .put_super, so we better make sure we clean up! */
1470                         obd->obd_force = 1;
1471                         class_manual_cleanup(obd);
1472                 } else {
1473                         CERROR("no obd %s\n", lsi->lsi_ldd->ldd_svname);
1474                         server_deregister_mount(lsi->lsi_ldd->ldd_svname);
1475                 }
1476         }
1477
1478         /* If they wanted the mgs to stop separately from the mdt, they
1479            should have put it on a different device. */
1480         if (IS_MGS(lsi->lsi_ldd)) {
1481                 /* stop the mgc before the mgs so the connection gets cleaned
1482                    up */
1483                 lustre_stop_mgc(sb);
1484                 server_stop_mgs(sb);
1485         }
1486
1487         /* Clean the mgc and sb */
1488         rc = lustre_common_put_super(sb);
1489         /* FIXME how can I report a failure to umount? */
1490
1491         /* Wait for the targets to really clean up - can't exit (and let the
1492            sb get destroyed) while the mount is still in use */
1493         server_wait_finished(mnt);
1494
1495         /* drop the One True Mount */
1496         unlock_mntput(mnt);
1497
1498         /* Stop the servers (MDS, OSS) if no longer needed.  We must wait
1499            until the target is really gone so that our type refcount check
1500            is right. */
1501         server_stop_servers(lddflags, lsiflags);
1502
1503         /* In case of startup or cleanup err, stop related obds */
1504         if (extraname) {
1505                 obd = class_name2obd(extraname);
1506                 if (obd) {
1507                         CWARN("Cleaning orphaned obd %s\n", extraname);
1508                         obd->obd_force = 1;
1509                         class_manual_cleanup(obd);
1510                 }
1511                 OBD_FREE(extraname, strlen(extraname) + 1);
1512         }
1513
1514         LCONSOLE_WARN("server umount %s complete\n", tmpname);
1515         OBD_FREE(tmpname, tmpname_sz);
1516         EXIT;
1517 }
1518
1519 #ifdef HAVE_UMOUNTBEGIN_VFSMOUNT
1520 static void server_umount_begin(struct vfsmount *vfsmnt, int flags)
1521 {
1522         struct super_block *sb = vfsmnt->mnt_sb;
1523 #else
1524 static void server_umount_begin(struct super_block *sb)
1525 {
1526 #endif
1527         struct lustre_sb_info *lsi = s2lsi(sb);
1528         ENTRY;
1529
1530 #ifdef HAVE_UMOUNTBEGIN_VFSMOUNT
1531         if (!(flags & MNT_FORCE)) {
1532                 EXIT;
1533                 return;
1534         }
1535 #endif
1536
1537         CDEBUG(D_MOUNT, "umount -f\n");
1538         /* umount = failover
1539            umount -f = force
1540            no third way to do non-force, non-failover */
1541         lsi->lsi_flags &= ~LSI_UMOUNT_FAILOVER;
1542         lsi->lsi_flags |= LSI_UMOUNT_FORCE;
1543         EXIT;
1544 }
1545
1546 #ifndef HAVE_STATFS_DENTRY_PARAM
1547 static int server_statfs (struct super_block *sb, struct kstatfs *buf)
1548 {
1549 #else
1550 static int server_statfs (struct dentry *dentry, struct kstatfs *buf)
1551 {
1552         struct super_block *sb = dentry->d_sb;
1553 #endif
1554         struct vfsmount *mnt = s2lsi(sb)->lsi_srv_mnt;
1555         ENTRY;
1556
1557         if (mnt && mnt->mnt_sb && mnt->mnt_sb->s_op->statfs) {
1558 #ifdef HAVE_STATFS_DENTRY_PARAM
1559                 int rc = mnt->mnt_sb->s_op->statfs(mnt->mnt_root, buf);
1560 #else
1561                 int rc = mnt->mnt_sb->s_op->statfs(mnt->mnt_sb, buf);
1562 #endif
1563                 if (!rc) {
1564                         buf->f_type = sb->s_magic;
1565                         RETURN(0);
1566                 }
1567         }
1568
1569         /* just return 0 */
1570         buf->f_type = sb->s_magic;
1571         buf->f_bsize = sb->s_blocksize;
1572         buf->f_blocks = 1;
1573         buf->f_bfree = 0;
1574         buf->f_bavail = 0;
1575         buf->f_files = 1;
1576         buf->f_ffree = 0;
1577         buf->f_namelen = NAME_MAX;
1578         RETURN(0);
1579 }
1580
1581 static struct super_operations server_ops =
1582 {
1583         .put_super      = server_put_super,
1584         .umount_begin   = server_umount_begin, /* umount -f */
1585         .statfs         = server_statfs,
1586 };
1587
1588 #define log2(n) ffz(~(n))
1589 #define LUSTRE_SUPER_MAGIC 0x0BD00BD1
1590
1591 static int server_fill_super_common(struct super_block *sb)
1592 {
1593         struct inode *root = 0;
1594         ENTRY;
1595
1596         CDEBUG(D_MOUNT, "Server sb, dev=%d\n", (int)sb->s_dev);
1597
1598         sb->s_blocksize = 4096;
1599         sb->s_blocksize_bits = log2(sb->s_blocksize);
1600         sb->s_magic = LUSTRE_SUPER_MAGIC;
1601         sb->s_maxbytes = 0; //PAGE_CACHE_MAXBYTES;
1602         sb->s_flags |= MS_RDONLY;
1603         sb->s_op = &server_ops;
1604
1605         root = new_inode(sb);
1606         if (!root) {
1607                 CERROR("Can't make root inode\n");
1608                 RETURN(-EIO);
1609         }
1610
1611         /* returns -EIO for every operation */
1612         /* make_bad_inode(root); -- badness - can't umount */
1613         /* apparently we need to be a directory for the mount to finish */
1614         root->i_mode = S_IFDIR;
1615
1616         sb->s_root = d_alloc_root(root);
1617         if (!sb->s_root) {
1618                 CERROR("Can't make root dentry\n");
1619                 iput(root);
1620                 RETURN(-EIO);
1621         }
1622
1623         RETURN(0);
1624 }
1625
1626 static int server_fill_super(struct super_block *sb)
1627 {
1628         struct lustre_sb_info *lsi = s2lsi(sb);
1629         struct vfsmount *mnt;
1630         int rc;
1631         ENTRY;
1632
1633         /* the One True Mount */
1634         mnt = server_kernel_mount(sb);
1635         if (IS_ERR(mnt)) {
1636                 rc = PTR_ERR(mnt);
1637                 CERROR("Unable to mount device %s: %d\n",
1638                       lsi->lsi_lmd->lmd_dev, rc);
1639                 lustre_put_lsi(sb);
1640                 GOTO(out, rc);
1641         }
1642         lsi->lsi_srv_mnt = mnt;
1643
1644         LASSERT(lsi->lsi_ldd);
1645         CDEBUG(D_MOUNT, "Found service %s for fs '%s' on device %s\n",
1646                lsi->lsi_ldd->ldd_svname, lsi->lsi_ldd->ldd_fsname,
1647                lsi->lsi_lmd->lmd_dev);
1648
1649         if (class_name2obd(lsi->lsi_ldd->ldd_svname)) {
1650                 LCONSOLE_ERROR_MSG(0x161, "The target named %s is already "
1651                                    "running. Double-mount may have compromised"
1652                                    " the disk journal.\n",
1653                                    lsi->lsi_ldd->ldd_svname);
1654                 unlock_mntput(mnt);
1655                 lustre_put_lsi(sb);
1656                 GOTO(out, rc = -EALREADY);
1657         }
1658
1659         /* start MGS before MGC */
1660         if (IS_MGS(lsi->lsi_ldd)) {
1661                 rc = server_start_mgs(sb);
1662                 if (rc)
1663                         GOTO(out_mnt, rc);
1664         }
1665
1666         rc = lustre_start_mgc(sb);
1667         if (rc)
1668                 GOTO(out_mnt, rc);
1669
1670         /* Set up all obd devices for service */
1671         if (!(lsi->lsi_lmd->lmd_flags & LMD_FLG_NOSVC) &&
1672                 (IS_OST(lsi->lsi_ldd) || IS_MDT(lsi->lsi_ldd))) {
1673                 rc = server_start_targets(sb, mnt);
1674                 if (rc < 0) {
1675                         CERROR("Unable to start targets: %d\n", rc);
1676                         GOTO(out_mnt, rc);
1677                 }
1678         /* FIXME overmount client here,
1679            or can we just start a client log and client_fill_super on this sb?
1680            We need to make sure server_put_super gets called too - ll_put_super
1681            calls lustre_common_put_super; check there for LSI_SERVER flag,
1682            call s_p_s if so.
1683            Probably should start client from new thread so we can return.
1684            Client will not finish until all servers are connected.
1685            Note - MGS-only server does NOT get a client, since there is no
1686            lustre fs associated - the MGS is for all lustre fs's */
1687         }
1688
1689         rc = server_fill_super_common(sb);
1690         if (rc)
1691                 GOTO(out_mnt, rc);
1692
1693         LCONSOLE_WARN("Server %s on device %s has started\n",
1694                       lsi->lsi_ldd->ldd_svname, lsi->lsi_lmd->lmd_dev);
1695
1696         RETURN(0);
1697
1698 out_mnt:
1699         server_put_super(sb);
1700 out:
1701         RETURN(rc);
1702 }
1703
1704 /* Get the index from the obd name.
1705    rc = server type, or
1706    rc < 0  on error
1707    if endptr isn't NULL it is set to end of name */
1708 int server_name2index(char *svname, __u32 *idx, char **endptr)
1709 {
1710         unsigned long index;
1711         int rc;
1712         char *dash = strchr(svname, '-');
1713         if (!dash)
1714                 return(-EINVAL);
1715
1716         if (strncmp(dash + 1, "MDT", 3) == 0)
1717                 rc = LDD_F_SV_TYPE_MDT;
1718         else if (strncmp(dash + 1, "OST", 3) == 0)
1719                 rc = LDD_F_SV_TYPE_OST;
1720         else
1721                 return(-EINVAL);
1722
1723         index = simple_strtoul(dash + 4, endptr, 16);
1724         *idx = index;
1725         return rc;
1726 }
1727
1728 /*************** mount common betweeen server and client ***************/
1729
1730 /* Common umount */
1731 int lustre_common_put_super(struct super_block *sb)
1732 {
1733         int rc;
1734         ENTRY;
1735
1736         CDEBUG(D_MOUNT, "dropping sb %p\n", sb);
1737
1738         /* Drop a ref to the MGC */
1739         rc = lustre_stop_mgc(sb);
1740         if (rc && (rc != -ENOENT)) {
1741                 if (rc != -EBUSY) {
1742                         CERROR("Can't stop MGC: %d\n", rc);
1743                         RETURN(rc);
1744                 }
1745                 /* BUSY just means that there's some other obd that
1746                    needs the mgc.  Let him clean it up. */
1747                 CDEBUG(D_MOUNT, "MGC still in use\n");
1748         }
1749         /* Drop a ref to the mounted disk */
1750         lustre_put_lsi(sb);
1751         RETURN(rc);
1752 }
1753
1754 #if 0
1755 static void lmd_print(struct lustre_mount_data *lmd)
1756 {
1757         int i;
1758
1759         PRINT_CMD(PRINT_MASK, "  mount data:\n");
1760         if (lmd_is_client(lmd))
1761                 PRINT_CMD(PRINT_MASK, "profile: %s\n", lmd->lmd_profile);
1762         PRINT_CMD(PRINT_MASK, "device:  %s\n", lmd->lmd_dev);
1763         PRINT_CMD(PRINT_MASK, "flags:   %x\n", lmd->lmd_flags);
1764         if (lmd->lmd_sec_mdt)
1765                 PRINT_CMD(PRINT_MASK, "sec_mdt: %s\n", lmd->lmd_sec_mdt);
1766         if (lmd->lmd_sec_cli)
1767                 PRINT_CMD(PRINT_MASK, "sec_cli: %s\n", lmd->lmd_sec_cli);
1768         if (lmd->lmd_opts)
1769                 PRINT_CMD(PRINT_MASK, "options: %s\n", lmd->lmd_opts);
1770         for (i = 0; i < lmd->lmd_exclude_count; i++) {
1771                 PRINT_CMD(PRINT_MASK, "exclude %d:  OST%04x\n", i,
1772                           lmd->lmd_exclude[i]);
1773         }
1774 }
1775 #endif
1776
1777 /* Is this server on the exclusion list */
1778 int lustre_check_exclusion(struct super_block *sb, char *svname)
1779 {
1780         struct lustre_sb_info *lsi = s2lsi(sb);
1781         struct lustre_mount_data *lmd = lsi->lsi_lmd;
1782         __u32 index;
1783         int i, rc;
1784         ENTRY;
1785
1786         rc = server_name2index(svname, &index, NULL);
1787         if (rc != LDD_F_SV_TYPE_OST)
1788                 /* Only exclude OSTs */
1789                 RETURN(0);
1790
1791         CDEBUG(D_MOUNT, "Check exclusion %s (%d) in %d of %s\n", svname,
1792                index, lmd->lmd_exclude_count, lmd->lmd_dev);
1793
1794         for(i = 0; i < lmd->lmd_exclude_count; i++) {
1795                 if (index == lmd->lmd_exclude[i]) {
1796                         CWARN("Excluding %s (on exclusion list)\n", svname);
1797                         RETURN(1);
1798                 }
1799         }
1800         RETURN(0);
1801 }
1802
1803 /* mount -v  -o exclude=lustre-OST0001:lustre-OST0002 -t lustre ... */
1804 static int lmd_make_exclusion(struct lustre_mount_data *lmd, char *ptr)
1805 {
1806         char *s1 = ptr, *s2;
1807         __u32 index, *exclude_list;
1808         int rc = 0, devmax;
1809         ENTRY;
1810
1811         /* The shortest an ost name can be is 8 chars: -OST0000.
1812            We don't actually know the fsname at this time, so in fact
1813            a user could specify any fsname. */
1814         devmax = strlen(ptr) / 8 + 1;
1815
1816         /* temp storage until we figure out how many we have */
1817         OBD_ALLOC(exclude_list, sizeof(index) * devmax);
1818         if (!exclude_list)
1819                 RETURN(-ENOMEM);
1820
1821         /* we enter this fn pointing at the '=' */
1822         while (*s1 && *s1 != ' ' && *s1 != ',') {
1823                 s1++;
1824                 rc = server_name2index(s1, &index, &s2);
1825                 if (rc < 0) {
1826                         CERROR("Can't parse server name '%s'\n", s1);
1827                         break;
1828                 }
1829                 if (rc == LDD_F_SV_TYPE_OST)
1830                         exclude_list[lmd->lmd_exclude_count++] = index;
1831                 else
1832                         CDEBUG(D_MOUNT, "ignoring exclude %.7s\n", s1);
1833                 s1 = s2;
1834                 /* now we are pointing at ':' (next exclude)
1835                    or ',' (end of excludes) */
1836                 if (lmd->lmd_exclude_count >= devmax)
1837                         break;
1838         }
1839         if (rc >= 0) /* non-err */
1840                 rc = 0;
1841
1842         if (lmd->lmd_exclude_count) {
1843                 /* permanent, freed in lustre_free_lsi */
1844                 OBD_ALLOC(lmd->lmd_exclude, sizeof(index) *
1845                           lmd->lmd_exclude_count);
1846                 if (lmd->lmd_exclude) {
1847                         memcpy(lmd->lmd_exclude, exclude_list,
1848                                sizeof(index) * lmd->lmd_exclude_count);
1849                 } else {
1850                         rc = -ENOMEM;
1851                         lmd->lmd_exclude_count = 0;
1852                 }
1853         }
1854         OBD_FREE(exclude_list, sizeof(index) * devmax);
1855         RETURN(rc);
1856 }
1857
1858 static
1859 int lmd_set_sec_opts(char **set, char *opts, int length)
1860 {
1861         if (*set)
1862                 OBD_FREE(*set, strlen(*set) + 1);
1863
1864         OBD_ALLOC(*set, length + 1);
1865         if (*set == NULL)
1866                 return -ENOMEM;
1867
1868         memcpy(*set, opts, length);
1869         (*set)[length] = '\0';
1870
1871         return 0;
1872 }
1873
1874 static
1875 int lmd_parse_sec_opts(struct lustre_mount_data *lmd, char *ptr)
1876 {
1877         char  *tail;
1878         char **set = NULL;
1879         int    length;
1880
1881         /* check peer name */
1882         if (strncmp(ptr, "sec_mdt=", 8) == 0) {
1883                 set = &lmd->lmd_sec_mdt;
1884                 ptr += 8;
1885         } else if (strncmp(ptr, "sec_cli=", 8) == 0) {
1886                 set = &lmd->lmd_sec_cli;
1887                 ptr += 8;
1888         } else if (strncmp(ptr, "sec=", 4) == 0) {
1889                 /* leave 'set' be null */
1890                 ptr += 4;
1891         } else {
1892                 CERROR("invalid security options: %s\n", ptr);
1893                 return -EINVAL;
1894         }
1895
1896         tail = strchr(ptr, ',');
1897         if (tail == NULL)
1898                 length = strlen(ptr);
1899         else
1900                 length = tail - ptr;
1901
1902         if (set) {
1903                 if (lmd_set_sec_opts(set, ptr, length))
1904                         return -EINVAL;
1905         } else {
1906                 if (lmd->lmd_sec_mdt == NULL &&
1907                     lmd_set_sec_opts(&lmd->lmd_sec_mdt, ptr, length))
1908                         return -EINVAL;
1909
1910                 if (lmd->lmd_sec_cli == NULL &&
1911                     lmd_set_sec_opts(&lmd->lmd_sec_cli, ptr, length))
1912                         return -EINVAL;
1913         }
1914
1915         return 0;
1916 }
1917
1918 /* mount -v -t lustre uml1:uml2:/lustre-client /mnt/lustre */
1919 static int lmd_parse(char *options, struct lustre_mount_data *lmd)
1920 {
1921         char *s1, *s2, *devname = NULL;
1922         struct lustre_mount_data *raw = (struct lustre_mount_data *)options;
1923         int rc = 0;
1924         ENTRY;
1925
1926         LASSERT(lmd);
1927         if (!options) {
1928                 LCONSOLE_ERROR_MSG(0x162, "Missing mount data: check that "
1929                                    "/sbin/mount.lustre is installed.\n");
1930                 RETURN(-EINVAL);
1931         }
1932
1933         /* Options should be a string - try to detect old lmd data */
1934         if ((raw->lmd_magic & 0xffffff00) == (LMD_MAGIC & 0xffffff00)) {
1935                 LCONSOLE_ERROR_MSG(0x163, "You're using an old version of "
1936                                    "/sbin/mount.lustre.  Please install "
1937                                    "version %s\n", LUSTRE_VERSION_STRING);
1938                 RETURN(-EINVAL);
1939         }
1940         lmd->lmd_magic = LMD_MAGIC;
1941
1942         /* Set default flags here */
1943
1944         s1 = options;
1945         while (*s1) {
1946                 int clear = 0;
1947                 /* Skip whitespace and extra commas */
1948                 while (*s1 == ' ' || *s1 == ',')
1949                         s1++;
1950
1951                 /* Client options are parsed in ll_options: eg. flock,
1952                    user_xattr, acl */
1953
1954                 /* Parse non-ldiskfs options here. Rather than modifying
1955                    ldiskfs, we just zero these out here */
1956                 if (strncmp(s1, "abort_recov", 11) == 0) {
1957                         lmd->lmd_flags |= LMD_FLG_ABORT_RECOV;
1958                         clear++;
1959                 } else if (strncmp(s1, "nosvc", 5) == 0) {
1960                         lmd->lmd_flags |= LMD_FLG_NOSVC;
1961                         clear++;
1962                 /* ost exclusion list */
1963                 } else if (strncmp(s1, "exclude=", 8) == 0) {
1964                         rc = lmd_make_exclusion(lmd, s1 + 7);
1965                         if (rc)
1966                                 goto invalid;
1967                         clear++;
1968                 } else if (strncmp(s1, "nllu=", 5) == 0) {
1969                         lmd->lmd_nllu = simple_strtoul(s1 + 5, NULL, 10);
1970                         clear++;
1971                 } else if (strncmp(s1, "nllg=", 5) == 0) {
1972                         lmd->lmd_nllg = simple_strtoul(s1 + 5, NULL, 10);
1973                         clear++;
1974                 } else if (strncmp(s1, "sec", 3) == 0) {
1975                         rc = lmd_parse_sec_opts(lmd, s1);
1976                         if (rc)
1977                                 goto invalid;
1978                         clear++;
1979                 }
1980                 /* Linux 2.4 doesn't pass the device, so we stuck it at the
1981                    end of the options. */
1982                 else if (strncmp(s1, "device=", 7) == 0) {
1983                         devname = s1 + 7;
1984                         /* terminate options right before device.  device
1985                            must be the last one. */
1986                         *s1 = '\0';
1987                         break;
1988                 }
1989
1990                 /* Find next opt */
1991                 s2 = strchr(s1, ',');
1992                 if (s2 == NULL) {
1993                         if (clear)
1994                                 *s1 = '\0';
1995                         break;
1996                 }
1997                 s2++;
1998                 if (clear)
1999                         memmove(s1, s2, strlen(s2) + 1);
2000                 else
2001                         s1 = s2;
2002         }
2003
2004         if (!devname) {
2005                 LCONSOLE_ERROR_MSG(0x164, "Can't find the device name "
2006                                    "(need mount option 'device=...')\n");
2007                 goto invalid;
2008         }
2009
2010         s1 = strrchr(devname, ':');
2011         if (s1) {
2012                 lmd->lmd_flags = LMD_FLG_CLIENT;
2013                 /* Remove leading /s from fsname */
2014                 while (*++s1 == '/') ;
2015                 /* Freed in lustre_free_lsi */
2016                 OBD_ALLOC(lmd->lmd_profile, strlen(s1) + 8);
2017                 if (!lmd->lmd_profile)
2018                         RETURN(-ENOMEM);
2019                 sprintf(lmd->lmd_profile, "%s-client", s1);
2020         }
2021
2022         /* Freed in lustre_free_lsi */
2023         OBD_ALLOC(lmd->lmd_dev, strlen(devname) + 1);
2024         if (!lmd->lmd_dev)
2025                 RETURN(-ENOMEM);
2026         strcpy(lmd->lmd_dev, devname);
2027
2028         /* Save mount options */
2029         s1 = options + strlen(options) - 1;
2030         while (s1 >= options && (*s1 == ',' || *s1 == ' '))
2031                 *s1-- = 0;
2032         if (*options != 0) {
2033                 /* Freed in lustre_free_lsi */
2034                 OBD_ALLOC(lmd->lmd_opts, strlen(options) + 1);
2035                 if (!lmd->lmd_opts)
2036                         RETURN(-ENOMEM);
2037                 strcpy(lmd->lmd_opts, options);
2038         }
2039
2040         lmd->lmd_magic = LMD_MAGIC;
2041
2042         RETURN(rc);
2043
2044 invalid:
2045         CERROR("Bad mount options %s\n", options);
2046         RETURN(-EINVAL);
2047 }
2048
2049
2050 /* Common mount */
2051 int lustre_fill_super(struct super_block *sb, void *data, int silent)
2052 {
2053         struct lustre_mount_data *lmd;
2054         struct lustre_sb_info *lsi;
2055         int rc;
2056         ENTRY;
2057
2058         CDEBUG(D_MOUNT|D_VFSTRACE, "VFS Op: sb %p\n", sb);
2059
2060         lsi = lustre_init_lsi(sb);
2061         if (!lsi)
2062                 RETURN(-ENOMEM);
2063         lmd = lsi->lsi_lmd;
2064
2065         /* Figure out the lmd from the mount options */
2066         if (lmd_parse((char *)data, lmd)) {
2067                 lustre_put_lsi(sb);
2068                 RETURN(-EINVAL);
2069         }
2070
2071         if (lmd_is_client(lmd)) {
2072                 CDEBUG(D_MOUNT, "Mounting client %s\n", lmd->lmd_profile);
2073                 if (!client_fill_super) {
2074                         LCONSOLE_ERROR_MSG(0x165, "Nothing registered for "
2075                                            "client mount! Is the 'lustre' "
2076                                            "module loaded?\n");
2077                         rc = -ENODEV;
2078                 } else {
2079                         rc = lustre_start_mgc(sb);
2080                         if (rc) {
2081                                 lustre_stop_mgc(sb);
2082                                 goto out;
2083                         }
2084                         /* Connect and start */
2085                         /* (should always be ll_fill_super) */
2086                         rc = (*client_fill_super)(sb);
2087                         /* c_f_s will call lustre_common_put_super on failure */
2088                 }
2089         } else {
2090                 CDEBUG(D_MOUNT, "Mounting server from %s\n", lmd->lmd_dev);
2091                 lsi->lsi_flags |= LSI_SERVER;
2092                 rc = server_fill_super(sb);
2093                 /* s_f_s calls lustre_start_mgc after the mount because we need
2094                    the MGS nids which are stored on disk.  Plus, we may
2095                    need to start the MGS first. */
2096                 /* s_f_s will call server_put_super on failure */
2097         }
2098
2099 out:
2100         if (rc){
2101                 CERROR("Unable to mount %s (%d)\n",
2102                        s2lsi(sb) ? lmd->lmd_dev : "", rc);
2103         } else {
2104                 CDEBUG(D_SUPER, "mount %s complete\n", lmd->lmd_dev);
2105         }
2106         RETURN(rc);
2107 }
2108
2109
2110 /* We can't call ll_fill_super by name because it lives in a module that
2111    must be loaded after this one. */
2112 void lustre_register_client_fill_super(int (*cfs)(struct super_block *sb))
2113 {
2114         client_fill_super = cfs;
2115 }
2116
2117 void lustre_register_kill_super_cb(void (*cfs)(struct super_block *sb))
2118 {
2119         kill_super_cb = cfs;
2120 }
2121
2122 /***************** FS registration ******************/
2123
2124 #if (LINUX_VERSION_CODE >= KERNEL_VERSION(2,5,0))
2125 /* 2.5 and later */
2126 #if (LINUX_VERSION_CODE < KERNEL_VERSION(2,6,18))
2127 struct super_block * lustre_get_sb(struct file_system_type *fs_type,
2128                                int flags, const char *devname, void * data)
2129 {
2130         /* calls back in fill super */
2131         /* we could append devname= onto options (*data) here,
2132            but 2.4 doesn't get devname.  So we do it in mount_lustre.c */
2133         return get_sb_nodev(fs_type, flags, data, lustre_fill_super);
2134 }
2135 #else
2136 int lustre_get_sb(struct file_system_type *fs_type,
2137                                int flags, const char *devname, void * data,
2138                                struct vfsmount *mnt)
2139 {
2140         /* calls back in fill super */
2141         /* we could append devname= onto options (*data) here,
2142            but 2.4 doesn't get devname.  So we do it in mount_lustre.c */
2143         return get_sb_nodev(fs_type, flags, data, lustre_fill_super, mnt);
2144 }
2145 #endif
2146
2147 void lustre_kill_super(struct super_block *sb)
2148 {
2149         struct lustre_sb_info *lsi = s2lsi(sb);
2150
2151         if (kill_super_cb && lsi &&(lsi->lsi_flags & LSI_SERVER))
2152                 (*kill_super_cb)(sb);
2153
2154         kill_anon_super(sb);
2155 }
2156
2157 struct file_system_type lustre_fs_type = {
2158         .owner        = THIS_MODULE,
2159         .name         = "lustre",
2160         .get_sb       = lustre_get_sb,
2161         .kill_sb      = lustre_kill_super,
2162         .fs_flags     = FS_BINARY_MOUNTDATA | FS_REQUIRES_DEV,
2163 };
2164
2165 #else
2166 /* 2.4 */
2167 static struct super_block *lustre_read_super(struct super_block *sb,
2168                                              void *data, int silent)
2169 {
2170         int rc;
2171         ENTRY;
2172
2173         rc = lustre_fill_super(sb, data, silent);
2174         if (rc)
2175                 RETURN(NULL);
2176         RETURN(sb);
2177 }
2178
2179 static struct file_system_type lustre_fs_type = {
2180         .owner          = THIS_MODULE,
2181         .name           = "lustre",
2182         .fs_flags       = FS_NFSEXP_FSID,
2183         .read_super     = lustre_read_super,
2184 };
2185 #endif
2186
2187 int lustre_register_fs(void)
2188 {
2189         return register_filesystem(&lustre_fs_type);
2190 }
2191
2192 int lustre_unregister_fs(void)
2193 {
2194         return unregister_filesystem(&lustre_fs_type);
2195 }
2196
2197 EXPORT_SYMBOL(lustre_register_client_fill_super);
2198 EXPORT_SYMBOL(lustre_register_kill_super_cb);
2199 EXPORT_SYMBOL(lustre_common_put_super);
2200 EXPORT_SYMBOL(lustre_process_log);
2201 EXPORT_SYMBOL(lustre_end_log);
2202 EXPORT_SYMBOL(server_get_mount);
2203 EXPORT_SYMBOL(server_get_mount_2);
2204 EXPORT_SYMBOL(server_put_mount);
2205 EXPORT_SYMBOL(server_put_mount_2);
2206 EXPORT_SYMBOL(server_register_target);
2207 EXPORT_SYMBOL(server_name2index);
2208 EXPORT_SYMBOL(server_mti_print);
2209 EXPORT_SYMBOL(do_lcfg);
2210
2211