Whamcloud - gitweb
LU-6401 uapi: change lustre_cfg.h into a proper UAPI header
[fs/lustre-release.git] / lustre / obdclass / obd_mount.c
1 /*
2  * GPL HEADER START
3  *
4  * DO NOT ALTER OR REMOVE COPYRIGHT NOTICES OR THIS FILE HEADER.
5  *
6  * This program is free software; you can redistribute it and/or modify
7  * it under the terms of the GNU General Public License version 2 only,
8  * as published by the Free Software Foundation.
9  *
10  * This program is distributed in the hope that it will be useful, but
11  * WITHOUT ANY WARRANTY; without even the implied warranty of
12  * MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the GNU
13  * General Public License version 2 for more details (a copy is included
14  * in the LICENSE file that accompanied this code).
15  *
16  * You should have received a copy of the GNU General Public License
17  * version 2 along with this program; If not, see
18  * http://www.gnu.org/licenses/gpl-2.0.html
19  *
20  * GPL HEADER END
21  */
22 /*
23  * Copyright (c) 2007, 2010, Oracle and/or its affiliates. All rights reserved.
24  * Use is subject to license terms.
25  *
26  * Copyright (c) 2011, 2016, Intel Corporation.
27  */
28 /*
29  * This file is part of Lustre, http://www.lustre.org/
30  * Lustre is a trademark of Sun Microsystems, Inc.
31  *
32  * lustre/obdclass/obd_mount.c
33  *
34  * Client mount routines
35  *
36  * Author: Nathan Rutman <nathan@clusterfs.com>
37  */
38
39
40 #define DEBUG_SUBSYSTEM S_CLASS
41 #define D_MOUNT (D_SUPER|D_CONFIG/*|D_WARNING */)
42 #define PRINT_CMD CDEBUG
43
44 #include <obd.h>
45 #include <obd_class.h>
46 #include <lustre/lustre_user.h>
47 #include <linux/version.h>
48 #include <lustre_log.h>
49 #include <lustre_disk.h>
50 #include <uapi/linux/lustre_param.h>
51
52 static int (*client_fill_super)(struct super_block *sb,
53                                 struct vfsmount *mnt);
54
55 static void (*kill_super_cb)(struct super_block *sb);
56
57 /**************** config llog ********************/
58
59 /** Get a config log from the MGS and process it.
60  * This func is called for both clients and servers.
61  * Continue to process new statements appended to the logs
62  * (whenever the config lock is revoked) until lustre_end_log
63  * is called.
64  * @param sb The superblock is used by the MGC to write to the local copy of
65  *   the config log
66  * @param logname The name of the llog to replicate from the MGS
67  * @param cfg Since the same mgc may be used to follow multiple config logs
68  *   (e.g. ost1, ost2, client), the config_llog_instance keeps the state for
69  *   this log, and is added to the mgc's list of logs to follow.
70  */
71 int lustre_process_log(struct super_block *sb, char *logname,
72                      struct config_llog_instance *cfg)
73 {
74         struct lustre_cfg *lcfg;
75         struct lustre_cfg_bufs *bufs;
76         struct lustre_sb_info *lsi = s2lsi(sb);
77         struct obd_device *mgc = lsi->lsi_mgc;
78         int rc;
79         ENTRY;
80
81         LASSERT(mgc);
82         LASSERT(cfg);
83
84         OBD_ALLOC_PTR(bufs);
85         if (bufs == NULL)
86                 RETURN(-ENOMEM);
87
88         /* mgc_process_config */
89         lustre_cfg_bufs_reset(bufs, mgc->obd_name);
90         lustre_cfg_bufs_set_string(bufs, 1, logname);
91         lustre_cfg_bufs_set(bufs, 2, cfg, sizeof(*cfg));
92         lustre_cfg_bufs_set(bufs, 3, &sb, sizeof(sb));
93         OBD_ALLOC(lcfg, lustre_cfg_len(bufs->lcfg_bufcount, bufs->lcfg_buflen));
94         if (!lcfg)
95                 GOTO(out, rc = -ENOMEM);
96         lustre_cfg_init(lcfg, LCFG_LOG_START, bufs);
97
98         rc = obd_process_config(mgc, sizeof(*lcfg), lcfg);
99         OBD_FREE(lcfg, lustre_cfg_len(lcfg->lcfg_bufcount, lcfg->lcfg_buflens));
100 out:
101         OBD_FREE_PTR(bufs);
102
103         if (rc == -EINVAL)
104                 LCONSOLE_ERROR_MSG(0x15b, "%s: The configuration from log '%s'"
105                                    "failed from the MGS (%d).  Make sure this "
106                                    "client and the MGS are running compatible "
107                                    "versions of Lustre.\n",
108                                    mgc->obd_name, logname, rc);
109         else if (rc != 0)
110                 LCONSOLE_ERROR_MSG(0x15c, "%s: The configuration from log '%s' "
111                                    "failed (%d). This may be the result of "
112                                    "communication errors between this node and "
113                                    "the MGS, a bad configuration, or other "
114                                    "errors. See the syslog for more "
115                                    "information.\n", mgc->obd_name, logname,
116                                    rc);
117
118         /* class_obd_list(); */
119         RETURN(rc);
120 }
121 EXPORT_SYMBOL(lustre_process_log);
122
123 /* Stop watching this config log for updates */
124 int lustre_end_log(struct super_block *sb, char *logname,
125                        struct config_llog_instance *cfg)
126 {
127         struct lustre_cfg *lcfg;
128         struct lustre_cfg_bufs bufs;
129         struct lustre_sb_info *lsi = s2lsi(sb);
130         struct obd_device *mgc = lsi->lsi_mgc;
131         int rc;
132         ENTRY;
133
134         if (!mgc)
135                 RETURN(-ENOENT);
136
137         /* mgc_process_config */
138         lustre_cfg_bufs_reset(&bufs, mgc->obd_name);
139         lustre_cfg_bufs_set_string(&bufs, 1, logname);
140         if (cfg)
141                 lustre_cfg_bufs_set(&bufs, 2, cfg, sizeof(*cfg));
142         OBD_ALLOC(lcfg, lustre_cfg_len(bufs.lcfg_bufcount, bufs.lcfg_buflen));
143         if (!lcfg)
144                 RETURN(-ENOMEM);
145         lustre_cfg_init(lcfg, LCFG_LOG_END, &bufs);
146         rc = obd_process_config(mgc, sizeof(*lcfg), lcfg);
147         OBD_FREE(lcfg, lustre_cfg_len(lcfg->lcfg_bufcount, lcfg->lcfg_buflens));
148         RETURN(rc);
149 }
150 EXPORT_SYMBOL(lustre_end_log);
151
152 /**************** obd start *******************/
153
154 /** lustre_cfg_bufs are a holdover from 1.4; we can still set these up from
155  * lctl (and do for echo cli/srv.
156  */
157 static int do_lcfg(char *cfgname, lnet_nid_t nid, int cmd,
158                    char *s1, char *s2, char *s3, char *s4)
159 {
160         struct lustre_cfg_bufs bufs;
161         struct lustre_cfg *lcfg = NULL;
162         int rc;
163
164         CDEBUG(D_TRACE, "lcfg %s %#x %s %s %s %s\n", cfgname,
165                cmd, s1, s2, s3, s4);
166
167         lustre_cfg_bufs_reset(&bufs, cfgname);
168         if (s1)
169                 lustre_cfg_bufs_set_string(&bufs, 1, s1);
170         if (s2)
171                 lustre_cfg_bufs_set_string(&bufs, 2, s2);
172         if (s3)
173                 lustre_cfg_bufs_set_string(&bufs, 3, s3);
174         if (s4)
175                 lustre_cfg_bufs_set_string(&bufs, 4, s4);
176
177         OBD_ALLOC(lcfg, lustre_cfg_len(bufs.lcfg_bufcount, bufs.lcfg_buflen));
178         if (!lcfg)
179                 return -ENOMEM;
180         lustre_cfg_init(lcfg, cmd, &bufs);
181         lcfg->lcfg_nid = nid;
182         rc = class_process_config(lcfg);
183         OBD_FREE(lcfg, lustre_cfg_len(lcfg->lcfg_bufcount, lcfg->lcfg_buflens));
184         return rc;
185 }
186
187 /** Call class_attach and class_setup.  These methods in turn call
188  * obd type-specific methods.
189  */
190 int lustre_start_simple(char *obdname, char *type, char *uuid,
191                         char *s1, char *s2, char *s3, char *s4)
192 {
193         int rc;
194         CDEBUG(D_MOUNT, "Starting obd %s (typ=%s)\n", obdname, type);
195
196         rc = do_lcfg(obdname, 0, LCFG_ATTACH, type, uuid, NULL, NULL);
197         if (rc) {
198                 CERROR("%s attach error %d\n", obdname, rc);
199                 return rc;
200         }
201         rc = do_lcfg(obdname, 0, LCFG_SETUP, s1, s2, s3, s4);
202         if (rc) {
203                 CERROR("%s setup error %d\n", obdname, rc);
204                 do_lcfg(obdname, 0, LCFG_DETACH, NULL, NULL, NULL, NULL);
205         }
206         return rc;
207 }
208
209 static DEFINE_MUTEX(mgc_start_lock);
210
211 /** Set up a mgc obd to process startup logs
212  *
213  * \param sb [in] super block of the mgc obd
214  *
215  * \retval 0 success, otherwise error code
216  */
217 int lustre_start_mgc(struct super_block *sb)
218 {
219         struct obd_connect_data *data = NULL;
220         struct lustre_sb_info *lsi = s2lsi(sb);
221         struct obd_device *obd;
222         struct obd_export *exp;
223         struct obd_uuid *uuid;
224         class_uuid_t uuidc;
225         lnet_nid_t nid;
226         char nidstr[LNET_NIDSTR_SIZE];
227         char *mgcname = NULL, *niduuid = NULL, *mgssec = NULL;
228         char *ptr;
229         int rc = 0, i = 0, j;
230         size_t len;
231         ENTRY;
232
233         LASSERT(lsi->lsi_lmd);
234
235         /* Find the first non-lo MGS nid for our MGC name */
236         if (IS_SERVER(lsi)) {
237                 /* mount -o mgsnode=nid */
238                 ptr = lsi->lsi_lmd->lmd_mgs;
239                 if (lsi->lsi_lmd->lmd_mgs &&
240                     (class_parse_nid(lsi->lsi_lmd->lmd_mgs, &nid, &ptr) == 0)) {
241                         i++;
242                 } else if (IS_MGS(lsi)) {
243                         struct lnet_process_id id;
244
245                         while ((rc = LNetGetId(i++, &id)) != -ENOENT) {
246                                 if (LNET_NETTYP(LNET_NIDNET(id.nid)) == LOLND)
247                                         continue;
248                                 nid = id.nid;
249                                 i++;
250                                 break;
251                         }
252                 }
253         } else { /* client */
254                 /* Use nids from mount line: uml1,1@elan:uml2,2@elan:/lustre */
255                 ptr = lsi->lsi_lmd->lmd_dev;
256                 if (class_parse_nid(ptr, &nid, &ptr) == 0)
257                         i++;
258         }
259         if (i == 0) {
260                 CERROR("No valid MGS nids found.\n");
261                 RETURN(-EINVAL);
262         }
263
264         mutex_lock(&mgc_start_lock);
265
266         libcfs_nid2str_r(nid, nidstr, sizeof(nidstr));
267         len = strlen(LUSTRE_MGC_OBDNAME) + strlen(nidstr) + 1;
268         OBD_ALLOC(mgcname, len);
269         OBD_ALLOC(niduuid, len + 2);
270         if (mgcname == NULL || niduuid == NULL)
271                 GOTO(out_free, rc = -ENOMEM);
272         snprintf(mgcname, len, "%s%s", LUSTRE_MGC_OBDNAME, nidstr);
273
274         mgssec = lsi->lsi_lmd->lmd_mgssec ? lsi->lsi_lmd->lmd_mgssec : "";
275
276         OBD_ALLOC_PTR(data);
277         if (data == NULL)
278                 GOTO(out_free, rc = -ENOMEM);
279
280         obd = class_name2obd(mgcname);
281         if (obd && !obd->obd_stopping) {
282                 int recov_bk;
283
284                 rc = obd_set_info_async(NULL, obd->obd_self_export,
285                                         strlen(KEY_MGSSEC), KEY_MGSSEC,
286                                         strlen(mgssec), mgssec, NULL);
287                 if (rc)
288                         GOTO(out_free, rc);
289
290                 /* Re-using an existing MGC */
291                 atomic_inc(&obd->u.cli.cl_mgc_refcount);
292
293                 /* IR compatibility check, only for clients */
294                 if (lmd_is_client(lsi->lsi_lmd)) {
295                         int has_ir;
296                         int vallen = sizeof(*data);
297                         __u32 *flags = &lsi->lsi_lmd->lmd_flags;
298
299                         rc = obd_get_info(NULL, obd->obd_self_export,
300                                           strlen(KEY_CONN_DATA), KEY_CONN_DATA,
301                                           &vallen, data);
302                         LASSERT(rc == 0);
303                         has_ir = OCD_HAS_FLAG(data, IMP_RECOV);
304                         if (has_ir ^ !(*flags & LMD_FLG_NOIR)) {
305                                 /* LMD_FLG_NOIR is for test purpose only */
306                                 LCONSOLE_WARN(
307                                     "Trying to mount a client with IR setting "
308                                     "not compatible with current mgc. "
309                                     "Force to use current mgc setting that is "
310                                     "IR %s.\n",
311                                     has_ir ? "enabled" : "disabled");
312                                 if (has_ir)
313                                         *flags &= ~LMD_FLG_NOIR;
314                                 else
315                                         *flags |= LMD_FLG_NOIR;
316                         }
317                 }
318
319                 recov_bk = 0;
320                 /* If we are restarting the MGS, don't try to keep the MGC's
321                    old connection, or registration will fail. */
322                 if (IS_MGS(lsi)) {
323                         CDEBUG(D_MOUNT, "New MGS with live MGC\n");
324                         recov_bk = 1;
325                 }
326
327                 /* Try all connections, but only once (again).
328                    We don't want to block another target from starting
329                    (using its local copy of the log), but we do want to connect
330                    if at all possible. */
331                 recov_bk++;
332                 CDEBUG(D_MOUNT, "%s: Set MGC reconnect %d\n", mgcname,recov_bk);
333                 rc = obd_set_info_async(NULL, obd->obd_self_export,
334                                         sizeof(KEY_INIT_RECOV_BACKUP),
335                                         KEY_INIT_RECOV_BACKUP,
336                                         sizeof(recov_bk), &recov_bk, NULL);
337                 GOTO(out, rc = 0);
338         }
339
340         CDEBUG(D_MOUNT, "Start MGC '%s'\n", mgcname);
341
342         /* Add the primary nids for the MGS */
343         i = 0;
344         snprintf(niduuid, len + 2, "%s_%x", mgcname, i);
345         if (IS_SERVER(lsi)) {
346                 ptr = lsi->lsi_lmd->lmd_mgs;
347                 CDEBUG(D_MOUNT, "mgs nids %s.\n", ptr);
348                 if (IS_MGS(lsi)) {
349                         /* Use local nids (including LO) */
350                         struct lnet_process_id id;
351
352                         while ((rc = LNetGetId(i++, &id)) != -ENOENT) {
353                                 rc = do_lcfg(mgcname, id.nid, LCFG_ADD_UUID,
354                                              niduuid, NULL, NULL, NULL);
355                         }
356                 } else {
357                         /* Use mgsnode= nids */
358                         /* mount -o mgsnode=nid */
359                         if (lsi->lsi_lmd->lmd_mgs) {
360                                 ptr = lsi->lsi_lmd->lmd_mgs;
361                         } else if (class_find_param(ptr, PARAM_MGSNODE,
362                                                     &ptr) != 0) {
363                                 CERROR("No MGS nids given.\n");
364                                 GOTO(out_free, rc = -EINVAL);
365                         }
366                         /*
367                          * Add primary MGS nid(s).
368                          * Multiple nids on one MGS node are separated
369                          * by commas.
370                          */
371                         while (class_parse_nid(ptr, &nid, &ptr) == 0) {
372                                 rc = do_lcfg(mgcname, nid, LCFG_ADD_UUID,
373                                              niduuid, NULL, NULL, NULL);
374                                 if (rc == 0)
375                                         ++i;
376                                 /* Stop at the first failover nid */
377                                 if (*ptr == ':')
378                                         break;
379                         }
380                 }
381         } else { /* client */
382                 /* Use nids from mount line: uml1,1@elan:uml2,2@elan:/lustre */
383                 ptr = lsi->lsi_lmd->lmd_dev;
384                 while (class_parse_nid(ptr, &nid, &ptr) == 0) {
385                         rc = do_lcfg(mgcname, nid, LCFG_ADD_UUID,
386                                      niduuid, NULL, NULL, NULL);
387                         if (rc == 0)
388                                 ++i;
389                         /* Stop at the first failover nid */
390                         if (*ptr == ':')
391                                 break;
392                 }
393         }
394         if (i == 0) {
395                 CERROR("No valid MGS nids found.\n");
396                 GOTO(out_free, rc = -EINVAL);
397         }
398         lsi->lsi_lmd->lmd_mgs_failnodes = 1;
399
400         /* Random uuid for MGC allows easier reconnects */
401         OBD_ALLOC_PTR(uuid);
402         if (uuid == NULL)
403                 GOTO(out_free, rc = -ENOMEM);
404
405         ll_generate_random_uuid(uuidc);
406         class_uuid_unparse(uuidc, uuid);
407
408         /* Start the MGC */
409         rc = lustre_start_simple(mgcname, LUSTRE_MGC_NAME,
410                                  (char *)uuid->uuid, LUSTRE_MGS_OBDNAME,
411                                  niduuid, NULL, NULL);
412         OBD_FREE_PTR(uuid);
413         if (rc)
414                 GOTO(out_free, rc);
415
416         /* Add any failover MGS nids */
417         i = 1;
418         while (ptr && ((*ptr == ':' ||
419                class_find_param(ptr, PARAM_MGSNODE, &ptr) == 0))) {
420                 /* New failover node */
421                 sprintf(niduuid, "%s_%x", mgcname, i);
422                 j = 0;
423                 while (class_parse_nid_quiet(ptr, &nid, &ptr) == 0) {
424                         rc = do_lcfg(mgcname, nid, LCFG_ADD_UUID,
425                                      niduuid, NULL, NULL, NULL);
426                         if (rc == 0)
427                                 ++j;
428                         if (*ptr == ':')
429                                 break;
430                 }
431                 if (j > 0) {
432                         rc = do_lcfg(mgcname, 0, LCFG_ADD_CONN,
433                                      niduuid, NULL, NULL, NULL);
434                         if (rc == 0)
435                                 ++i;
436                 } else {
437                         /* at ":/fsname" */
438                         break;
439                 }
440         }
441         lsi->lsi_lmd->lmd_mgs_failnodes = i;
442
443         obd = class_name2obd(mgcname);
444         if (!obd) {
445                 CERROR("Can't find mgcobd %s\n", mgcname);
446                 GOTO(out_free, rc = -ENOTCONN);
447         }
448
449         rc = obd_set_info_async(NULL, obd->obd_self_export,
450                                 strlen(KEY_MGSSEC), KEY_MGSSEC,
451                                 strlen(mgssec), mgssec, NULL);
452         if (rc)
453                 GOTO(out_free, rc);
454
455         /* Keep a refcount of servers/clients who started with "mount",
456            so we know when we can get rid of the mgc. */
457         atomic_set(&obd->u.cli.cl_mgc_refcount, 1);
458
459         /* We connect to the MGS at setup, and don't disconnect until cleanup */
460         data->ocd_connect_flags = OBD_CONNECT_VERSION | OBD_CONNECT_AT |
461                                   OBD_CONNECT_FULL20 | OBD_CONNECT_IMP_RECOV |
462                                   OBD_CONNECT_LVB_TYPE |
463                                   OBD_CONNECT_BULK_MBITS | OBD_CONNECT_BARRIER;
464
465 #if LUSTRE_VERSION_CODE < OBD_OCD_VERSION(3, 0, 53, 0)
466         data->ocd_connect_flags |= OBD_CONNECT_MNE_SWAB;
467 #endif
468
469         if (lmd_is_client(lsi->lsi_lmd) &&
470             lsi->lsi_lmd->lmd_flags & LMD_FLG_NOIR)
471                 data->ocd_connect_flags &= ~OBD_CONNECT_IMP_RECOV;
472         data->ocd_version = LUSTRE_VERSION_CODE;
473         rc = obd_connect(NULL, &exp, obd, &(obd->obd_uuid), data, NULL);
474         if (rc) {
475                 CERROR("connect failed %d\n", rc);
476                 GOTO(out, rc);
477         }
478
479         obd->u.cli.cl_mgc_mgsexp = exp;
480
481 out:
482         /* Keep the mgc info in the sb. Note that many lsi's can point
483            to the same mgc.*/
484         lsi->lsi_mgc = obd;
485 out_free:
486         mutex_unlock(&mgc_start_lock);
487
488         if (data)
489                 OBD_FREE_PTR(data);
490         if (mgcname)
491                 OBD_FREE(mgcname, len);
492         if (niduuid)
493                 OBD_FREE(niduuid, len + 2);
494         RETURN(rc);
495 }
496
497 static int lustre_stop_mgc(struct super_block *sb)
498 {
499         struct lustre_sb_info *lsi = s2lsi(sb);
500         struct obd_device *obd;
501         char *niduuid = NULL, *ptr = NULL;
502         int i, rc = 0, len = 0;
503         ENTRY;
504
505         if (!lsi)
506                 RETURN(-ENOENT);
507         obd = lsi->lsi_mgc;
508         if (!obd)
509                 RETURN(-ENOENT);
510         lsi->lsi_mgc = NULL;
511
512         mutex_lock(&mgc_start_lock);
513         LASSERT(atomic_read(&obd->u.cli.cl_mgc_refcount) > 0);
514         if (!atomic_dec_and_test(&obd->u.cli.cl_mgc_refcount)) {
515                 /* This is not fatal, every client that stops
516                    will call in here. */
517                 CDEBUG(D_MOUNT, "mgc still has %d references.\n",
518                        atomic_read(&obd->u.cli.cl_mgc_refcount));
519                 GOTO(out, rc = -EBUSY);
520         }
521
522         /* The MGC has no recoverable data in any case.
523          * force shotdown set in umount_begin */
524         obd->obd_no_recov = 1;
525
526         if (obd->u.cli.cl_mgc_mgsexp) {
527                 /* An error is not fatal, if we are unable to send the
528                    disconnect mgs ping evictor cleans up the export */
529                 rc = obd_disconnect(obd->u.cli.cl_mgc_mgsexp);
530                 if (rc)
531                         CDEBUG(D_MOUNT, "disconnect failed %d\n", rc);
532         }
533
534         /* Save the obdname for cleaning the nid uuids, which are
535            obdname_XX */
536         len = strlen(obd->obd_name) + 6;
537         OBD_ALLOC(niduuid, len);
538         if (niduuid) {
539                 strcpy(niduuid, obd->obd_name);
540                 ptr = niduuid + strlen(niduuid);
541         }
542
543         rc = class_manual_cleanup(obd);
544         if (rc)
545                 GOTO(out, rc);
546
547         /* Clean the nid uuids */
548         if (!niduuid)
549                 GOTO(out, rc = -ENOMEM);
550
551         for (i = 0; i < lsi->lsi_lmd->lmd_mgs_failnodes; i++) {
552                 sprintf(ptr, "_%x", i);
553                 rc = do_lcfg(LUSTRE_MGC_OBDNAME, 0, LCFG_DEL_UUID,
554                              niduuid, NULL, NULL, NULL);
555                 if (rc)
556                         CERROR("del MDC UUID %s failed: rc = %d\n",
557                                niduuid, rc);
558         }
559 out:
560         if (niduuid)
561                 OBD_FREE(niduuid, len);
562
563         /* class_import_put will get rid of the additional connections */
564         mutex_unlock(&mgc_start_lock);
565         RETURN(rc);
566 }
567
568 /***************** lustre superblock **************/
569
570 static struct lustre_sb_info *lustre_init_lsi(struct super_block *sb)
571 {
572         struct lustre_sb_info *lsi;
573         ENTRY;
574
575         OBD_ALLOC_PTR(lsi);
576         if (!lsi)
577                 RETURN(NULL);
578         OBD_ALLOC_PTR(lsi->lsi_lmd);
579         if (!lsi->lsi_lmd) {
580                 OBD_FREE_PTR(lsi);
581                 RETURN(NULL);
582         }
583
584         lsi->lsi_lmd->lmd_exclude_count = 0;
585         lsi->lsi_lmd->lmd_recovery_time_soft = 0;
586         lsi->lsi_lmd->lmd_recovery_time_hard = 0;
587         s2lsi_nocast(sb) = lsi;
588         /* we take 1 extra ref for our setup */
589         atomic_set(&lsi->lsi_mounts, 1);
590
591         /* Default umount style */
592         lsi->lsi_flags = LSI_UMOUNT_FAILOVER;
593         INIT_LIST_HEAD(&lsi->lsi_lwp_list);
594         spin_lock_init(&lsi->lsi_lwp_lock);
595
596         RETURN(lsi);
597 }
598
599 static int lustre_free_lsi(struct super_block *sb)
600 {
601         struct lustre_sb_info *lsi = s2lsi(sb);
602         ENTRY;
603
604         LASSERT(lsi != NULL);
605         CDEBUG(D_MOUNT, "Freeing lsi %p\n", lsi);
606
607         /* someone didn't call server_put_mount. */
608         LASSERT(atomic_read(&lsi->lsi_mounts) == 0);
609
610         if (lsi->lsi_lmd != NULL) {
611                 if (lsi->lsi_lmd->lmd_dev != NULL)
612                         OBD_FREE(lsi->lsi_lmd->lmd_dev,
613                                 strlen(lsi->lsi_lmd->lmd_dev) + 1);
614                 if (lsi->lsi_lmd->lmd_profile != NULL)
615                         OBD_FREE(lsi->lsi_lmd->lmd_profile,
616                                 strlen(lsi->lsi_lmd->lmd_profile) + 1);
617                 if (lsi->lsi_lmd->lmd_fileset != NULL)
618                         OBD_FREE(lsi->lsi_lmd->lmd_fileset,
619                                 strlen(lsi->lsi_lmd->lmd_fileset) + 1);
620                 if (lsi->lsi_lmd->lmd_mgssec != NULL)
621                         OBD_FREE(lsi->lsi_lmd->lmd_mgssec,
622                                 strlen(lsi->lsi_lmd->lmd_mgssec) + 1);
623                 if (lsi->lsi_lmd->lmd_opts != NULL)
624                         OBD_FREE(lsi->lsi_lmd->lmd_opts,
625                                 strlen(lsi->lsi_lmd->lmd_opts) + 1);
626                 if (lsi->lsi_lmd->lmd_exclude_count)
627                         OBD_FREE(lsi->lsi_lmd->lmd_exclude,
628                                 sizeof(lsi->lsi_lmd->lmd_exclude[0]) *
629                                 lsi->lsi_lmd->lmd_exclude_count);
630                 if (lsi->lsi_lmd->lmd_mgs != NULL)
631                         OBD_FREE(lsi->lsi_lmd->lmd_mgs,
632                                  strlen(lsi->lsi_lmd->lmd_mgs) + 1);
633                 if (lsi->lsi_lmd->lmd_osd_type != NULL)
634                         OBD_FREE(lsi->lsi_lmd->lmd_osd_type,
635                                  strlen(lsi->lsi_lmd->lmd_osd_type) + 1);
636                 if (lsi->lsi_lmd->lmd_params != NULL)
637                         OBD_FREE(lsi->lsi_lmd->lmd_params, 4096);
638                 if (lsi->lsi_lmd->lmd_nidnet != NULL)
639                         OBD_FREE(lsi->lsi_lmd->lmd_nidnet,
640                                 strlen(lsi->lsi_lmd->lmd_nidnet) + 1);
641
642                 OBD_FREE_PTR(lsi->lsi_lmd);
643         }
644
645         LASSERT(lsi->lsi_llsbi == NULL);
646         OBD_FREE_PTR(lsi);
647         s2lsi_nocast(sb) = NULL;
648
649         RETURN(0);
650 }
651
652 /* The lsi has one reference for every server that is using the disk -
653    e.g. MDT, MGS, and potentially MGC */
654 int lustre_put_lsi(struct super_block *sb)
655 {
656         struct lustre_sb_info *lsi = s2lsi(sb);
657         ENTRY;
658
659         LASSERT(lsi != NULL);
660
661         CDEBUG(D_MOUNT, "put %p %d\n", sb, atomic_read(&lsi->lsi_mounts));
662         if (atomic_dec_and_test(&lsi->lsi_mounts)) {
663                 if (IS_SERVER(lsi) && lsi->lsi_osd_exp) {
664                         lu_device_put(&lsi->lsi_dt_dev->dd_lu_dev);
665                         lsi->lsi_osd_exp->exp_obd->obd_lvfs_ctxt.dt = NULL;
666                         lsi->lsi_dt_dev = NULL;
667                         obd_disconnect(lsi->lsi_osd_exp);
668                         /* wait till OSD is gone */
669                         obd_zombie_barrier();
670                 }
671                 lustre_free_lsi(sb);
672                 RETURN(1);
673         }
674         RETURN(0);
675 }
676
677 /*** SERVER NAME ***
678  * <FSNAME><SEPARATOR><TYPE><INDEX>
679  * FSNAME is between 1 and 8 characters (inclusive).
680  *      Excluded characters are '/' and ':'
681  * SEPARATOR is either ':' or '-'
682  * TYPE: "OST", "MDT", etc.
683  * INDEX: Hex representation of the index
684  */
685
686 /** Get the fsname ("lustre") from the server name ("lustre-OST003F").
687  * @param [in] svname server name including type and index
688  * @param [out] fsname Buffer to copy filesystem name prefix into.
689  *  Must have at least 'strlen(fsname) + 1' chars.
690  * @param [out] endptr if endptr isn't NULL it is set to end of fsname
691  * rc < 0  on error
692  */
693 int server_name2fsname(const char *svname, char *fsname, const char **endptr)
694 {
695         const char *dash;
696
697         dash = svname + strnlen(svname, 8); /* max fsname length is 8 */
698         for (; dash > svname && *dash != '-' && *dash != ':'; dash--)
699                 ;
700         if (dash == svname)
701                 return -EINVAL;
702
703         if (fsname != NULL) {
704                 strncpy(fsname, svname, dash - svname);
705                 fsname[dash - svname] = '\0';
706         }
707
708         if (endptr != NULL)
709                 *endptr = dash;
710
711         return 0;
712 }
713 EXPORT_SYMBOL(server_name2fsname);
714
715 /**
716  * Get service name (svname) from string
717  * rc < 0 on error
718  * if endptr isn't NULL it is set to end of fsname *
719  */
720 int server_name2svname(const char *label, char *svname, const char **endptr,
721                        size_t svsize)
722 {
723         int rc;
724         const char *dash;
725
726         /* We use server_name2fsname() just for parsing */
727         rc = server_name2fsname(label, NULL, &dash);
728         if (rc != 0)
729                 return rc;
730
731         if (endptr != NULL)
732                 *endptr = dash;
733
734         if (strlcpy(svname, dash + 1, svsize) >= svsize)
735                 return -E2BIG;
736
737         return 0;
738 }
739 EXPORT_SYMBOL(server_name2svname);
740
741 /**
742  * check server name is OST.
743  **/
744 int server_name_is_ost(const char *svname)
745 {
746         const char *dash;
747         int rc;
748
749         /* We use server_name2fsname() just for parsing */
750         rc = server_name2fsname(svname, NULL, &dash);
751         if (rc != 0)
752                 return rc;
753
754         dash++;
755
756         if (strncmp(dash, "OST", 3) == 0)
757                 return 1;
758         return 0;
759 }
760 EXPORT_SYMBOL(server_name_is_ost);
761
762 /**
763  * Get the index from the target name MDTXXXX/OSTXXXX
764  * rc = server type, or rc < 0  on error
765  **/
766 int target_name2index(const char *tgtname, __u32 *idx, const char **endptr)
767 {
768         const char *dash = tgtname;
769         unsigned long index;
770         int rc;
771
772         if (strncmp(dash, "MDT", 3) == 0)
773                 rc = LDD_F_SV_TYPE_MDT;
774         else if (strncmp(dash, "OST", 3) == 0)
775                 rc = LDD_F_SV_TYPE_OST;
776         else
777                 return -EINVAL;
778
779         dash += 3;
780
781         if (strncmp(dash, "all", 3) == 0) {
782                 if (endptr != NULL)
783                         *endptr = dash + 3;
784                 return rc | LDD_F_SV_ALL;
785         }
786
787         index = simple_strtoul(dash, (char **)endptr, 16);
788         if (idx != NULL)
789                 *idx = index;
790         return rc;
791 }
792 EXPORT_SYMBOL(target_name2index);
793
794 /* Get the index from the obd name.
795    rc = server type, or
796    rc < 0  on error
797    if endptr isn't NULL it is set to end of name */
798 int server_name2index(const char *svname, __u32 *idx, const char **endptr)
799 {
800         const char *dash;
801         int rc;
802
803         /* We use server_name2fsname() just for parsing */
804         rc = server_name2fsname(svname, NULL, &dash);
805         if (rc != 0)
806                 return rc;
807
808         dash++;
809         rc = target_name2index(dash, idx, endptr);
810         if (rc < 0)
811                 return rc;
812
813         /* Account for -mdc after index that is possible when specifying mdt */
814         if (endptr != NULL && strncmp(LUSTRE_MDC_NAME, *endptr + 1,
815                                       sizeof(LUSTRE_MDC_NAME)-1) == 0)
816                 *endptr += sizeof(LUSTRE_MDC_NAME);
817
818         return rc;
819 }
820 EXPORT_SYMBOL(server_name2index);
821
822 /*************** mount common betweeen server and client ***************/
823
824 /* Common umount */
825 int lustre_common_put_super(struct super_block *sb)
826 {
827         int rc;
828         ENTRY;
829
830         CDEBUG(D_MOUNT, "dropping sb %p\n", sb);
831
832         /* Drop a ref to the MGC */
833         rc = lustre_stop_mgc(sb);
834         if (rc && (rc != -ENOENT)) {
835                 if (rc != -EBUSY) {
836                         CERROR("Can't stop MGC: %d\n", rc);
837                         RETURN(rc);
838                 }
839                 /* BUSY just means that there's some other obd that
840                    needs the mgc.  Let him clean it up. */
841                 CDEBUG(D_MOUNT, "MGC still in use\n");
842         }
843         /* Drop a ref to the mounted disk */
844         lustre_put_lsi(sb);
845
846         RETURN(rc);
847 }
848 EXPORT_SYMBOL(lustre_common_put_super);
849
850 static void lmd_print(struct lustre_mount_data *lmd)
851 {
852         int i;
853
854         PRINT_CMD(D_MOUNT, "  mount data:\n");
855         if (lmd_is_client(lmd))
856                 PRINT_CMD(D_MOUNT, "profile: %s\n", lmd->lmd_profile);
857         PRINT_CMD(D_MOUNT, "device:  %s\n", lmd->lmd_dev);
858         PRINT_CMD(D_MOUNT, "flags:   %x\n", lmd->lmd_flags);
859
860         if (lmd->lmd_opts)
861                 PRINT_CMD(D_MOUNT, "options: %s\n", lmd->lmd_opts);
862
863         if (lmd->lmd_recovery_time_soft)
864                 PRINT_CMD(D_MOUNT, "recovery time soft: %d\n",
865                           lmd->lmd_recovery_time_soft);
866
867         if (lmd->lmd_recovery_time_hard)
868                 PRINT_CMD(D_MOUNT, "recovery time hard: %d\n",
869                           lmd->lmd_recovery_time_hard);
870
871         for (i = 0; i < lmd->lmd_exclude_count; i++) {
872                 PRINT_CMD(D_MOUNT, "exclude %d:  OST%04x\n", i,
873                           lmd->lmd_exclude[i]);
874         }
875 }
876
877 /* Is this server on the exclusion list */
878 int lustre_check_exclusion(struct super_block *sb, char *svname)
879 {
880         struct lustre_sb_info *lsi = s2lsi(sb);
881         struct lustre_mount_data *lmd = lsi->lsi_lmd;
882         __u32 index;
883         int i, rc;
884         ENTRY;
885
886         rc = server_name2index(svname, &index, NULL);
887         if (rc != LDD_F_SV_TYPE_OST)
888                 /* Only exclude OSTs */
889                 RETURN(0);
890
891         CDEBUG(D_MOUNT, "Check exclusion %s (%d) in %d of %s\n", svname,
892                index, lmd->lmd_exclude_count, lmd->lmd_dev);
893
894         for(i = 0; i < lmd->lmd_exclude_count; i++) {
895                 if (index == lmd->lmd_exclude[i]) {
896                         CWARN("Excluding %s (on exclusion list)\n", svname);
897                         RETURN(1);
898                 }
899         }
900         RETURN(0);
901 }
902
903 /* mount -v  -o exclude=lustre-OST0001:lustre-OST0002 -t lustre ... */
904 static int lmd_make_exclusion(struct lustre_mount_data *lmd, const char *ptr)
905 {
906         const char *s1 = ptr, *s2;
907         __u32 *exclude_list;
908         __u32 index = 0;
909         int rc = 0, devmax;
910         ENTRY;
911
912         /* The shortest an ost name can be is 8 chars: -OST0000.
913            We don't actually know the fsname at this time, so in fact
914            a user could specify any fsname. */
915         devmax = strlen(ptr) / 8 + 1;
916
917         /* temp storage until we figure out how many we have */
918         OBD_ALLOC(exclude_list, sizeof(index) * devmax);
919         if (!exclude_list)
920                 RETURN(-ENOMEM);
921
922         /* we enter this fn pointing at the '=' */
923         while (*s1 && *s1 != ' ' && *s1 != ',') {
924                 s1++;
925                 rc = server_name2index(s1, &index, &s2);
926                 if (rc < 0) {
927                         CERROR("Can't parse server name '%s': rc = %d\n",
928                                s1, rc);
929                         break;
930                 }
931                 if (rc == LDD_F_SV_TYPE_OST)
932                         exclude_list[lmd->lmd_exclude_count++] = index;
933                 else
934                         CDEBUG(D_MOUNT, "ignoring exclude %.*s: type = %#x\n",
935                                (uint)(s2-s1), s1, rc);
936                 s1 = s2;
937                 /* now we are pointing at ':' (next exclude)
938                    or ',' (end of excludes) */
939                 if (lmd->lmd_exclude_count >= devmax)
940                         break;
941         }
942         if (rc >= 0) /* non-err */
943                 rc = 0;
944
945         if (lmd->lmd_exclude_count) {
946                 /* permanent, freed in lustre_free_lsi */
947                 OBD_ALLOC(lmd->lmd_exclude, sizeof(index) *
948                           lmd->lmd_exclude_count);
949                 if (lmd->lmd_exclude) {
950                         memcpy(lmd->lmd_exclude, exclude_list,
951                                sizeof(index) * lmd->lmd_exclude_count);
952                 } else {
953                         rc = -ENOMEM;
954                         lmd->lmd_exclude_count = 0;
955                 }
956         }
957         OBD_FREE(exclude_list, sizeof(index) * devmax);
958         RETURN(rc);
959 }
960
961 static int lmd_parse_mgssec(struct lustre_mount_data *lmd, char *ptr)
962 {
963         char   *tail;
964         int     length;
965
966         if (lmd->lmd_mgssec != NULL) {
967                 OBD_FREE(lmd->lmd_mgssec, strlen(lmd->lmd_mgssec) + 1);
968                 lmd->lmd_mgssec = NULL;
969         }
970
971         tail = strchr(ptr, ',');
972         if (tail == NULL)
973                 length = strlen(ptr);
974         else
975                 length = tail - ptr;
976
977         OBD_ALLOC(lmd->lmd_mgssec, length + 1);
978         if (lmd->lmd_mgssec == NULL)
979                 return -ENOMEM;
980
981         memcpy(lmd->lmd_mgssec, ptr, length);
982         lmd->lmd_mgssec[length] = '\0';
983         return 0;
984 }
985
986 static int lmd_parse_network(struct lustre_mount_data *lmd, char *ptr)
987 {
988         char   *tail;
989         int     length;
990
991         if (lmd->lmd_nidnet != NULL) {
992                 OBD_FREE(lmd->lmd_nidnet, strlen(lmd->lmd_nidnet) + 1);
993                 lmd->lmd_nidnet = NULL;
994         }
995
996         tail = strchr(ptr, ',');
997         if (tail == NULL)
998                 length = strlen(ptr);
999         else
1000                 length = tail - ptr;
1001
1002         OBD_ALLOC(lmd->lmd_nidnet, length + 1);
1003         if (lmd->lmd_nidnet == NULL)
1004                 return -ENOMEM;
1005
1006         memcpy(lmd->lmd_nidnet, ptr, length);
1007         lmd->lmd_nidnet[length] = '\0';
1008         return 0;
1009 }
1010
1011 static int lmd_parse_string(char **handle, char *ptr)
1012 {
1013         char   *tail;
1014         int     length;
1015
1016         if ((handle == NULL) || (ptr == NULL))
1017                 return -EINVAL;
1018
1019         if (*handle != NULL) {
1020                 OBD_FREE(*handle, strlen(*handle) + 1);
1021                 *handle = NULL;
1022         }
1023
1024         tail = strchr(ptr, ',');
1025         if (tail == NULL)
1026                 length = strlen(ptr);
1027         else
1028                 length = tail - ptr;
1029
1030         OBD_ALLOC(*handle, length + 1);
1031         if (*handle == NULL)
1032                 return -ENOMEM;
1033
1034         memcpy(*handle, ptr, length);
1035         (*handle)[length] = '\0';
1036
1037         return 0;
1038 }
1039
1040 /* Collect multiple values for mgsnid specifiers */
1041 static int lmd_parse_mgs(struct lustre_mount_data *lmd, char **ptr)
1042 {
1043         lnet_nid_t nid;
1044         char *tail = *ptr;
1045         char *mgsnid;
1046         int   length;
1047         int   oldlen = 0;
1048
1049         /* Find end of nidlist */
1050         while (class_parse_nid_quiet(tail, &nid, &tail) == 0) {}
1051         length = tail - *ptr;
1052         if (length == 0) {
1053                 LCONSOLE_ERROR_MSG(0x159, "Can't parse NID '%s'\n", *ptr);
1054                 return -EINVAL;
1055         }
1056
1057         if (lmd->lmd_mgs != NULL)
1058                 oldlen = strlen(lmd->lmd_mgs) + 1;
1059
1060         OBD_ALLOC(mgsnid, oldlen + length + 1);
1061         if (mgsnid == NULL)
1062                 return -ENOMEM;
1063
1064         if (lmd->lmd_mgs != NULL) {
1065                 /* Multiple mgsnid= are taken to mean failover locations */
1066                 memcpy(mgsnid, lmd->lmd_mgs, oldlen);
1067                 mgsnid[oldlen - 1] = ':';
1068                 OBD_FREE(lmd->lmd_mgs, oldlen);
1069         }
1070         memcpy(mgsnid + oldlen, *ptr, length);
1071         mgsnid[oldlen + length] = '\0';
1072         lmd->lmd_mgs = mgsnid;
1073         *ptr = tail;
1074
1075         return 0;
1076 }
1077
1078 /**
1079  * Find the first delimiter (comma or colon) from the specified \a buf and
1080  * make \a *endh point to the string starting with the delimiter. The commas
1081  * in expression list [...] will be skipped.
1082  *
1083  * \param[in] buf       a delimiter-separated string
1084  * \param[in] endh      a pointer to a pointer that will point to the string
1085  *                      starting with the delimiter
1086  *
1087  * \retval 0            if delimiter is found
1088  * \retval 1            if delimiter is not found
1089  */
1090 static int lmd_find_delimiter(char *buf, char **endh)
1091 {
1092         char *c = buf;
1093         int   skip = 0;
1094
1095         if (buf == NULL)
1096                 return 1;
1097
1098         while (*c != '\0') {
1099                 if (*c == '[')
1100                         skip++;
1101                 else if (*c == ']')
1102                         skip--;
1103
1104                 if ((*c == ',' || *c == ':') && skip == 0) {
1105                         if (endh != NULL)
1106                                 *endh = c;
1107                         return 0;
1108                 }
1109
1110                 c++;
1111         }
1112
1113         return 1;
1114 }
1115
1116 /**
1117  * Find the first valid string delimited by comma or colon from the specified
1118  * \a buf and parse it to see whether it's a valid nid list. If yes, \a *endh
1119  * will point to the next string starting with the delimiter.
1120  *
1121  * \param[in] buf       a delimiter-separated string
1122  * \param[in] endh      a pointer to a pointer that will point to the string
1123  *                      starting with the delimiter
1124  *
1125  * \retval 0            if the string is a valid nid list
1126  * \retval 1            if the string is not a valid nid list
1127  */
1128 static int lmd_parse_nidlist(char *buf, char **endh)
1129 {
1130         struct list_head nidlist;
1131         char            *endp = buf;
1132         char             tmp;
1133         int              rc = 0;
1134
1135         if (buf == NULL)
1136                 return 1;
1137         while (*buf == ',' || *buf == ':')
1138                 buf++;
1139         if (*buf == ' ' || *buf == '/' || *buf == '\0')
1140                 return 1;
1141
1142         if (lmd_find_delimiter(buf, &endp) != 0)
1143                 endp = buf + strlen(buf);
1144
1145         tmp = *endp;
1146         *endp = '\0';
1147
1148         INIT_LIST_HEAD(&nidlist);
1149         if (cfs_parse_nidlist(buf, strlen(buf), &nidlist) <= 0)
1150                 rc = 1;
1151         cfs_free_nidlist(&nidlist);
1152
1153         *endp = tmp;
1154         if (rc != 0)
1155                 return rc;
1156         if (endh != NULL)
1157                 *endh = endp;
1158         return 0;
1159 }
1160
1161 /** Parse mount line options
1162  * e.g. mount -v -t lustre -o abort_recov uml1:uml2:/lustre-client /mnt/lustre
1163  * dev is passed as device=uml1:/lustre by mount.lustre
1164  */
1165 static int lmd_parse(char *options, struct lustre_mount_data *lmd)
1166 {
1167         char *s1, *s2, *devname = NULL;
1168         struct lustre_mount_data *raw = (struct lustre_mount_data *)options;
1169         int rc = 0;
1170         ENTRY;
1171
1172         LASSERT(lmd);
1173         if (!options) {
1174                 LCONSOLE_ERROR_MSG(0x162, "Missing mount data: check that "
1175                                    "/sbin/mount.lustre is installed.\n");
1176                 RETURN(-EINVAL);
1177         }
1178
1179         /* Options should be a string - try to detect old lmd data */
1180         if ((raw->lmd_magic & 0xffffff00) == (LMD_MAGIC & 0xffffff00)) {
1181                 LCONSOLE_ERROR_MSG(0x163, "You're using an old version of "
1182                                    "/sbin/mount.lustre.  Please install "
1183                                    "version %s\n", LUSTRE_VERSION_STRING);
1184                 RETURN(-EINVAL);
1185         }
1186         lmd->lmd_magic = LMD_MAGIC;
1187
1188         OBD_ALLOC(lmd->lmd_params, LMD_PARAMS_MAXLEN);
1189         if (lmd->lmd_params == NULL)
1190                 RETURN(-ENOMEM);
1191         lmd->lmd_params[0] = '\0';
1192
1193         /* Set default flags here */
1194
1195         s1 = options;
1196         while (*s1) {
1197                 int clear = 0;
1198                 int time_min = OBD_RECOVERY_TIME_MIN;
1199                 char *s3;
1200
1201                 /* Skip whitespace and extra commas */
1202                 while (*s1 == ' ' || *s1 == ',')
1203                         s1++;
1204                 s3 = s1;
1205
1206                 /* Client options are parsed in ll_options: eg. flock,
1207                    user_xattr, acl */
1208
1209                 /* Parse non-ldiskfs options here. Rather than modifying
1210                    ldiskfs, we just zero these out here */
1211                 if (strncmp(s1, "abort_recov", 11) == 0) {
1212                         lmd->lmd_flags |= LMD_FLG_ABORT_RECOV;
1213                         clear++;
1214                 } else if (strncmp(s1, "recovery_time_soft=", 19) == 0) {
1215                         lmd->lmd_recovery_time_soft =
1216                                 max_t(int, simple_strtoul(s1 + 19, NULL, 10),
1217                                       time_min);
1218                         clear++;
1219                 } else if (strncmp(s1, "recovery_time_hard=", 19) == 0) {
1220                         lmd->lmd_recovery_time_hard =
1221                                 max_t(int, simple_strtoul(s1 + 19, NULL, 10),
1222                                       time_min);
1223                         clear++;
1224                 } else if (strncmp(s1, "noir", 4) == 0) {
1225                         lmd->lmd_flags |= LMD_FLG_NOIR; /* test purpose only. */
1226                         clear++;
1227                 } else if (strncmp(s1, "nosvc", 5) == 0) {
1228                         lmd->lmd_flags |= LMD_FLG_NOSVC;
1229                         clear++;
1230                 } else if (strncmp(s1, "nomgs", 5) == 0) {
1231                         lmd->lmd_flags |= LMD_FLG_NOMGS;
1232                         clear++;
1233                 } else if (strncmp(s1, "noscrub", 7) == 0) {
1234                         lmd->lmd_flags |= LMD_FLG_NOSCRUB;
1235                         clear++;
1236                 } else if (strncmp(s1, "skip_lfsck", 10) == 0) {
1237                         lmd->lmd_flags |= LMD_FLG_SKIP_LFSCK;
1238                         clear++;
1239                 } else if (strncmp(s1, "rdonly_dev", 10) == 0) {
1240                         lmd->lmd_flags |= LMD_FLG_DEV_RDONLY;
1241                         clear++;
1242                 } else if (strncmp(s1, PARAM_MGSNODE,
1243                                    sizeof(PARAM_MGSNODE) - 1) == 0) {
1244                         s2 = s1 + sizeof(PARAM_MGSNODE) - 1;
1245                         /* Assume the next mount opt is the first
1246                            invalid nid we get to. */
1247                         rc = lmd_parse_mgs(lmd, &s2);
1248                         if (rc)
1249                                 goto invalid;
1250                         s3 = s2;
1251                         clear++;
1252                 } else if (strncmp(s1, "writeconf", 9) == 0) {
1253                         lmd->lmd_flags |= LMD_FLG_WRITECONF;
1254                         clear++;
1255                 } else if (strncmp(s1, "update", 6) == 0) {
1256                         lmd->lmd_flags |= LMD_FLG_UPDATE;
1257                         clear++;
1258                 } else if (strncmp(s1, "virgin", 6) == 0) {
1259                         lmd->lmd_flags |= LMD_FLG_VIRGIN;
1260                         clear++;
1261                 } else if (strncmp(s1, "noprimnode", 10) == 0) {
1262                         lmd->lmd_flags |= LMD_FLG_NO_PRIMNODE;
1263                         clear++;
1264                 } else if (strncmp(s1, "mgssec=", 7) == 0) {
1265                         rc = lmd_parse_mgssec(lmd, s1 + 7);
1266                         if (rc)
1267                                 goto invalid;
1268                         clear++;
1269                         /* ost exclusion list */
1270                 } else if (strncmp(s1, "exclude=", 8) == 0) {
1271                         rc = lmd_make_exclusion(lmd, s1 + 7);
1272                         if (rc)
1273                                 goto invalid;
1274                         clear++;
1275                 } else if (strncmp(s1, "mgs", 3) == 0) {
1276                         /* We are an MGS */
1277                         lmd->lmd_flags |= LMD_FLG_MGS;
1278                         clear++;
1279                 } else if (strncmp(s1, "svname=", 7) == 0) {
1280                         rc = lmd_parse_string(&lmd->lmd_profile, s1 + 7);
1281                         if (rc)
1282                                 goto invalid;
1283                         clear++;
1284                 } else if (strncmp(s1, "param=", 6) == 0) {
1285                         size_t length, params_length;
1286                         char  *tail = s1;
1287                         if (lmd_find_delimiter(s1 + 6, &tail) != 0)
1288                                 length = strlen(s1);
1289                         else {
1290                                 char *param_str = tail + 1;
1291                                 int   supplementary = 1;
1292                                 while (lmd_parse_nidlist(param_str,
1293                                                          &param_str) == 0) {
1294                                         supplementary = 0;
1295                                 }
1296                                 length = param_str - s1 - supplementary;
1297                         }
1298                         length -= 6;
1299                         params_length = strlen(lmd->lmd_params);
1300                         if (params_length + length + 1 >= LMD_PARAMS_MAXLEN)
1301                                 RETURN(-E2BIG);
1302                         strncat(lmd->lmd_params, s1 + 6, length);
1303                         lmd->lmd_params[params_length + length] = '\0';
1304                         strlcat(lmd->lmd_params, " ", LMD_PARAMS_MAXLEN);
1305                         s3 = s1 + 6 + length;
1306                         clear++;
1307                 } else if (strncmp(s1, "osd=", 4) == 0) {
1308                         rc = lmd_parse_string(&lmd->lmd_osd_type, s1 + 4);
1309                         if (rc)
1310                                 goto invalid;
1311                         clear++;
1312                 }
1313                 /* Linux 2.4 doesn't pass the device, so we stuck it at the
1314                    end of the options. */
1315                 else if (strncmp(s1, "device=", 7) == 0) {
1316                         devname = s1 + 7;
1317                         /* terminate options right before device.  device
1318                            must be the last one. */
1319                         *s1 = '\0';
1320                         break;
1321                 } else if (strncmp(s1, "network=", 8) == 0) {
1322                         rc = lmd_parse_network(lmd, s1 + 8);
1323                         if (rc)
1324                                 goto invalid;
1325                         clear++;
1326                 }
1327
1328                 /* Find next opt */
1329                 s2 = strchr(s3, ',');
1330                 if (s2 == NULL) {
1331                         if (clear)
1332                                 *s1 = '\0';
1333                         break;
1334                 }
1335                 s2++;
1336                 if (clear)
1337                         memmove(s1, s2, strlen(s2) + 1);
1338                 else
1339                         s1 = s2;
1340         }
1341
1342         if (!devname) {
1343                 LCONSOLE_ERROR_MSG(0x164, "Can't find the device name "
1344                                    "(need mount option 'device=...')\n");
1345                 goto invalid;
1346         }
1347
1348         s1 = strstr(devname, ":/");
1349         if (s1) {
1350                 ++s1;
1351                 lmd->lmd_flags |= LMD_FLG_CLIENT;
1352                 /* Remove leading /s from fsname */
1353                 while (*++s1 == '/')
1354                         ;
1355                 s2 = s1;
1356                 while (*s2 != '/' && *s2 != '\0')
1357                         s2++;
1358                 /* Freed in lustre_free_lsi */
1359                 OBD_ALLOC(lmd->lmd_profile, s2 - s1 + 8);
1360                 if (!lmd->lmd_profile)
1361                         RETURN(-ENOMEM);
1362
1363                 strncat(lmd->lmd_profile, s1, s2 - s1);
1364                 strncat(lmd->lmd_profile, "-client", 7);
1365
1366                 s1 = s2;
1367                 s2 = s1 + strlen(s1) - 1;
1368                 /* Remove padding /s from fileset */
1369                 while (*s2 == '/')
1370                         s2--;
1371                 if (s2 > s1) {
1372                         OBD_ALLOC(lmd->lmd_fileset, s2 - s1 + 2);
1373                         if (lmd->lmd_fileset == NULL) {
1374                                 OBD_FREE(lmd->lmd_profile,
1375                                          strlen(lmd->lmd_profile) + 1);
1376                                 RETURN(-ENOMEM);
1377                         }
1378                         strncat(lmd->lmd_fileset, s1, s2 - s1 + 1);
1379                 }
1380         } else {
1381                 /* server mount */
1382                 if (lmd->lmd_nidnet != NULL) {
1383                         /* 'network=' mount option forbidden for server */
1384                         OBD_FREE(lmd->lmd_nidnet, strlen(lmd->lmd_nidnet) + 1);
1385                         lmd->lmd_nidnet = NULL;
1386                         rc = -EINVAL;
1387                         CERROR("%s: option 'network=' not allowed for Lustre "
1388                                "servers: rc = %d\n", devname, rc);
1389                         RETURN(rc);
1390                 }
1391         }
1392
1393         /* Freed in lustre_free_lsi */
1394         OBD_ALLOC(lmd->lmd_dev, strlen(devname) + 1);
1395         if (!lmd->lmd_dev)
1396                 RETURN(-ENOMEM);
1397         strncpy(lmd->lmd_dev, devname, strlen(devname)+1);
1398
1399         /* Save mount options */
1400         s1 = options + strlen(options) - 1;
1401         while (s1 >= options && (*s1 == ',' || *s1 == ' '))
1402                 *s1-- = 0;
1403         if (*options != 0) {
1404                 /* Freed in lustre_free_lsi */
1405                 OBD_ALLOC(lmd->lmd_opts, strlen(options) + 1);
1406                 if (!lmd->lmd_opts)
1407                         RETURN(-ENOMEM);
1408                 strncpy(lmd->lmd_opts, options, strlen(options)+1);
1409         }
1410
1411         lmd_print(lmd);
1412         lmd->lmd_magic = LMD_MAGIC;
1413
1414         RETURN(rc);
1415
1416 invalid:
1417         CERROR("Bad mount options %s\n", options);
1418         RETURN(-EINVAL);
1419 }
1420
1421 struct lustre_mount_data2 {
1422         void *lmd2_data;
1423         struct vfsmount *lmd2_mnt;
1424 };
1425
1426 /** This is the entry point for the mount call into Lustre.
1427  * This is called when a server or client is mounted,
1428  * and this is where we start setting things up.
1429  * @param data Mount options (e.g. -o flock,abort_recov)
1430  */
1431 static int lustre_fill_super(struct super_block *sb, void *data, int silent)
1432 {
1433         struct lustre_mount_data *lmd;
1434         struct lustre_mount_data2 *lmd2 = data;
1435         struct lustre_sb_info *lsi;
1436         int rc;
1437         ENTRY;
1438
1439         CDEBUG(D_MOUNT|D_VFSTRACE, "VFS Op: sb %p\n", sb);
1440
1441         lsi = lustre_init_lsi(sb);
1442         if (!lsi)
1443                 RETURN(-ENOMEM);
1444         lmd = lsi->lsi_lmd;
1445
1446         /*
1447          * Disable lockdep during mount, because mount locking patterns are
1448          * `special'.
1449          */
1450         lockdep_off();
1451
1452         /*
1453          * LU-639: the obd cleanup of last mount may not finish yet, wait here.
1454          */
1455         obd_zombie_barrier();
1456
1457         /* Figure out the lmd from the mount options */
1458         if (lmd_parse((char *)(lmd2->lmd2_data), lmd)) {
1459                 lustre_put_lsi(sb);
1460                 GOTO(out, rc = -EINVAL);
1461         }
1462
1463         if (lmd_is_client(lmd)) {
1464                 CDEBUG(D_MOUNT, "Mounting client %s\n", lmd->lmd_profile);
1465                 if (client_fill_super == NULL)
1466                         request_module("lustre");
1467                 if (client_fill_super == NULL) {
1468                         LCONSOLE_ERROR_MSG(0x165, "Nothing registered for "
1469                                            "client mount! Is the 'lustre' "
1470                                            "module loaded?\n");
1471                         lustre_put_lsi(sb);
1472                         rc = -ENODEV;
1473                 } else {
1474                         rc = lustre_start_mgc(sb);
1475                         if (rc) {
1476                                 lustre_common_put_super(sb);
1477                                 GOTO(out, rc);
1478                         }
1479                         /* Connect and start */
1480                         /* (should always be ll_fill_super) */
1481                         rc = (*client_fill_super)(sb, lmd2->lmd2_mnt);
1482                         /* c_f_s will call lustre_common_put_super on failure */
1483                 }
1484         } else {
1485 #ifdef HAVE_SERVER_SUPPORT
1486                 CDEBUG(D_MOUNT, "Mounting server from %s\n", lmd->lmd_dev);
1487                 rc = server_fill_super(sb);
1488                 /* s_f_s calls lustre_start_mgc after the mount because we need
1489                    the MGS nids which are stored on disk.  Plus, we may
1490                    need to start the MGS first. */
1491                 /* s_f_s will call server_put_super on failure */
1492 #else
1493                 CERROR("This is client-side-only module, "
1494                        "cannot handle server mount.\n");
1495                 rc = -EINVAL;
1496 #endif
1497         }
1498
1499         /* If error happens in fill_super() call, @lsi will be killed there.
1500          * This is why we do not put it here. */
1501         GOTO(out, rc);
1502 out:
1503         if (rc) {
1504                 CERROR("Unable to mount %s (%d)\n",
1505                        s2lsi(sb) ? lmd->lmd_dev : "", rc);
1506         } else {
1507                 CDEBUG(D_SUPER, "Mount %s complete\n",
1508                        lmd->lmd_dev);
1509         }
1510         lockdep_on();
1511         return rc;
1512 }
1513
1514
1515 /* We can't call ll_fill_super by name because it lives in a module that
1516    must be loaded after this one. */
1517 void lustre_register_client_fill_super(int (*cfs)(struct super_block *sb,
1518                                                   struct vfsmount *mnt))
1519 {
1520         client_fill_super = cfs;
1521 }
1522 EXPORT_SYMBOL(lustre_register_client_fill_super);
1523
1524 void lustre_register_kill_super_cb(void (*cfs)(struct super_block *sb))
1525 {
1526         kill_super_cb = cfs;
1527 }
1528 EXPORT_SYMBOL(lustre_register_kill_super_cb);
1529
1530 /***************** FS registration ******************/
1531 #ifdef HAVE_FSTYPE_MOUNT
1532 static struct dentry *lustre_mount(struct file_system_type *fs_type, int flags,
1533                                    const char *devname, void *data)
1534 {
1535         struct lustre_mount_data2 lmd2 = {
1536                 .lmd2_data = data,
1537         };
1538
1539         return mount_nodev(fs_type, flags, &lmd2, lustre_fill_super);
1540 }
1541 #else
1542 static int lustre_get_sb(struct file_system_type *fs_type, int flags,
1543                          const char *devname, void *data, struct vfsmount *mnt)
1544 {
1545         struct lustre_mount_data2 lmd2 = {
1546                 .lmd2_data = data,
1547                 .lmd2_mnt = mnt,
1548         };
1549
1550         return get_sb_nodev(fs_type, flags, &lmd2, lustre_fill_super, mnt);
1551 }
1552 #endif
1553
1554 static void lustre_kill_super(struct super_block *sb)
1555 {
1556         struct lustre_sb_info *lsi = s2lsi(sb);
1557
1558         if (kill_super_cb && lsi && !IS_SERVER(lsi))
1559                 (*kill_super_cb)(sb);
1560
1561         kill_anon_super(sb);
1562 }
1563
1564 /** Register the "lustre" fs type
1565  */
1566 static struct file_system_type lustre_fs_type = {
1567         .owner        = THIS_MODULE,
1568         .name         = "lustre",
1569 #ifdef HAVE_FSTYPE_MOUNT
1570         .mount        = lustre_mount,
1571 #else
1572         .get_sb       = lustre_get_sb,
1573 #endif
1574         .kill_sb      = lustre_kill_super,
1575         .fs_flags     = FS_REQUIRES_DEV | FS_HAS_FIEMAP | FS_RENAME_DOES_D_MOVE,
1576 };
1577 MODULE_ALIAS_FS("lustre");
1578
1579 int lustre_register_fs(void)
1580 {
1581         return register_filesystem(&lustre_fs_type);
1582 }
1583
1584 int lustre_unregister_fs(void)
1585 {
1586         return unregister_filesystem(&lustre_fs_type);
1587 }