Whamcloud - gitweb
Branch HEAD
[fs/lustre-release.git] / lustre / utils / mount_lustre.c
index 17c5471..c0905bc 100644 (file)
 #include <sys/utsname.h>
 #include "obdctl.h"
 #include <lustre_ver.h>
+#include <glob.h>
+#include <ctype.h>
+#include <limits.h>
+
+#define MAX_HW_SECTORS_KB_PATH  "queue/max_hw_sectors_kb"
+#define MAX_SECTORS_KB_PATH     "queue/max_sectors_kb"
 
 int          verbose = 0;
 int          nomtab = 0;
@@ -48,9 +54,9 @@ void usage(FILE *out)
         fprintf(out, "%s v"LUSTRE_VERSION_STRING"\n", progname);
         fprintf(out, "\nThis mount helper should only be invoked via the "
                 "mount (8) command,\ne.g. mount -t lustre dev dir\n\n");
-        fprintf(out, "usage: %s [-fhnv] [-o <mntopt>] <device> <mountpt>\n", 
+        fprintf(out, "usage: %s [-fhnv] [-o <mntopt>] <device> <mountpt>\n",
                 progname);
-        fprintf(out, 
+        fprintf(out,
                 "\t<device>: the disk device, or for a client:\n"
                 "\t\t<mgmtnid>[:<altmgtnid>...]:/<filesystem>-client\n"
                 "\t<filesystem>: name of the Lustre filesystem (e.g. lustre1)\n"
@@ -83,7 +89,7 @@ static int check_mtab_entry(char *spec, char *mtpt, char *type)
                         strcmp(mnt->mnt_dir, mtpt) == 0 &&
                         strcmp(mnt->mnt_type, type) == 0) {
                         endmntent(fp);
-                        return(EEXIST); 
+                        return(EEXIST);
                 }
         }
         endmntent(fp);
@@ -131,7 +137,7 @@ static char *convert_hostnames(char *s1)
         char sep;
         int left = MAXNIDSTR;
         lnet_nid_t nid;
-        
+
         converted = malloc(left);
         c = converted;
         while ((left > 0) && (*s1 != '/')) {
@@ -139,8 +145,9 @@ static char *convert_hostnames(char *s1)
                 if (!s2)
                         goto out_free;
                 sep = *s2;
-                *s2 = '\0';     
+                *s2 = '\0';
                 nid = libcfs_str2nid(s1);
+                *s2 = sep;                      /* back to original string */
                 if (nid == LNET_NID_ANY)
                         goto out_free;
                 c += snprintf(c, left, "%s%c", libcfs_nid2str(nid), sep);
@@ -181,13 +188,25 @@ static const struct opt_map opt_map[] = {
   { "nosuid",   0, MS_NOSUID },      /* don't honor suid executables */
   { "dev",      1, MS_NODEV  },      /* interpret device files  */
   { "nodev",    0, MS_NODEV  },      /* don't interpret devices */
+  { "sync",     0, MS_SYNCHRONOUS},  /* synchronous I/O */
   { "async",    1, MS_SYNCHRONOUS},  /* asynchronous I/O */
+  { "atime",    1, MS_NOATIME  },    /* set file access time on read */
+  { "noatime",  0, MS_NOATIME  },    /* do not set file access time on read */
+#ifdef MS_NODIRATIME
+  { "diratime", 1, MS_NODIRATIME },  /* set file access time on read */
+  { "nodiratime",0,MS_NODIRATIME },  /* do not set file access time on read */
+#endif
+#ifdef MS_RELATIME
+  { "relatime", 0, MS_RELATIME },  /* set file access time on read */
+  { "norelatime",1,MS_RELATIME },  /* do not set file access time on read */
+#endif
   { "auto",     0, 0         },      /* Can be mounted using -a */
   { "noauto",   0, 0         },      /* Can only be mounted explicitly */
   { "nousers",  1, 0         },      /* Forbid ordinary user to mount */
   { "nouser",   1, 0         },      /* Forbid ordinary user to mount */
   { "noowner",  1, 0         },      /* Device owner has no special privs */
   { "_netdev",  0, 0         },      /* Device accessible only via network */
+  { "loop",     0, 0         },
   { NULL,       0, 0         }
 };
 /****************************************************************************/
@@ -224,7 +243,7 @@ int parse_options(char *orig_options, int *flagp)
         *flagp = 0;
         nextopt = orig_options;
         while ((opt = strsep(&nextopt, ","))) {
-                if (!*opt) 
+                if (!*opt)
                         /* empty option */
                         continue;
                 if (parse_one_option(opt, flagp) == 0) {
@@ -240,10 +259,169 @@ int parse_options(char *orig_options, int *flagp)
 }
 
 
+int read_file(char *path, char *buf, int size)
+{
+        FILE *fd;
+
+        fd = fopen(path, "r");
+        if (fd == NULL)
+                return errno;
+
+        fgets(buf, size, fd);
+        fclose(fd);
+        return 0;
+}
+
+int write_file(char *path, char *buf)
+{
+        FILE *fd;
+
+        fd = fopen(path, "w");
+        if (fd == NULL)
+                return errno;
+
+        fputs(buf, fd);
+        fclose(fd);
+        return 0;
+}
+
+/* This is to tune the kernel for good SCSI performance.
+ * For that we set the value of /sys/block/{dev}/queue/max_sectors_kb
+ * to the value of /sys/block/{dev}/queue/max_hw_sectors_kb */
+int set_tunables(char *source, int src_len)
+{
+        glob_t glob_info;
+        struct stat stat_buf;
+        char *chk_major, *chk_minor;
+        char *savept, *dev, *s2 = 0;
+        char *ret_path;
+        char buf[PATH_MAX] = {'\0'}, path[PATH_MAX] = {'\0'};
+        char real_path[PATH_MAX] = {'\0'};
+        int i, rc = 0;
+        int major, minor;
+
+        if (!source)
+                return -EINVAL;
+
+        ret_path = realpath(source, real_path);
+        if (ret_path == NULL) {
+                if (verbose)
+                        fprintf(stderr, "warning: %s: cannot resolve: %s",
+                                source, strerror(errno));
+                return -EINVAL;
+        }
+
+        src_len = sizeof(real_path);
+
+        if (strncmp(real_path, "/dev/loop", 9) == 0)
+                return 0;
+
+        if ((real_path[0] != '/') && ((s2 = strpbrk(real_path, ",:")) != NULL))
+                return 0;
+
+        dev = real_path + src_len - 1;
+        while (dev > real_path && (*dev != '/')) {
+                if (isdigit(*dev))
+                        *dev = 0;
+                dev--;
+        }
+        snprintf(path, sizeof(path), "/sys/block%s/%s", dev,
+                 MAX_HW_SECTORS_KB_PATH);
+        rc = read_file(path, buf, sizeof(buf));
+        if (rc == 0 && (strlen(buf) - 1) > 0) {
+                snprintf(path, sizeof(path), "/sys/block%s/%s", dev,
+                         MAX_SECTORS_KB_PATH);
+                rc = write_file(path, buf);
+                if (rc && verbose)
+                        fprintf(stderr, "warning: opening %s: %s\n",
+                                path, strerror(errno));
+                return rc;
+        }
+
+        if (rc != ENOENT)
+                return rc;
+
+        /* The name of the device say 'X' specified in /dev/X may not
+         * match any entry under /sys/block/. In that case we need to
+         * match the major/minor number to find the entry under
+         * sys/block corresponding to /dev/X */
+        dev = real_path + src_len - 1;
+        while (dev > real_path) {
+                if (isdigit(*dev))
+                        *dev = 0;
+                dev--;
+        }
+
+        rc = stat(dev, &stat_buf);
+        if (rc) {
+                if (verbose)
+                        fprintf(stderr, "warning: %s, device %s stat failed\n",
+                                strerror(errno), dev);
+                return rc;
+        }
+
+        major = major(stat_buf.st_rdev);
+        minor = minor(stat_buf.st_rdev);
+        rc = glob("/sys/block/*", GLOB_NOSORT, NULL, &glob_info);
+        if (rc) {
+                if (verbose)
+                        fprintf(stderr, "warning: failed to read entries under "
+                                "/sys/block\n");
+                return rc;
+        }
+
+        for (i = 0; i < glob_info.gl_pathc; i++){
+                snprintf(path, sizeof(path), "%s/dev", glob_info.gl_pathv[i]);
+
+                rc = read_file(path, buf, sizeof(buf));
+                if (rc)
+                        continue;
+
+                if (buf[strlen(buf) - 1] == '\n')
+                        buf[strlen(buf) - 1] = '\0';
+
+                chk_major = strtok_r(buf, ":", &savept);
+                chk_minor = savept;
+                if (major == atoi(chk_major) &&minor == atoi(chk_minor))
+                        break;
+        }
+
+        if (i == glob_info.gl_pathc) {
+                if (verbose)
+                        fprintf(stderr,"warning: device %s does not match any "
+                                "entry under /sys/block\n", real_path);
+                rc = -EINVAL;
+                goto out;
+        }
+
+        snprintf(path, sizeof(path), "%s/%s", glob_info.gl_pathv[i],
+                 MAX_HW_SECTORS_KB_PATH);
+        rc = read_file(path, buf, sizeof(buf));
+        if (rc) {
+                if (verbose)
+                        fprintf(stderr, "warning: opening %s: %s\n",
+                                path, strerror(errno));
+                goto out;
+        }
+
+        if (strlen(buf) - 1 > 0) {
+                snprintf(path, sizeof(path), "%s/%s",
+                         glob_info.gl_pathv[i], MAX_SECTORS_KB_PATH);
+                rc = write_file(path, buf);
+                if (rc && verbose)
+                        fprintf(stderr, "warning: writing to %s: %s\n",
+                                path, strerror(errno));
+        }
+
+out:
+        globfree(&glob_info);
+        return rc;
+}
+
 int main(int argc, char *const argv[])
 {
         char default_options[] = "";
-        char *source, *target, *ptr;
+        char *usource, *source, *target, *ptr;
         char *options, *optcopy, *orig_options = default_options;
         int i, nargs = 3, opt, rc, flags, optlen;
         static struct option long_opt[] = {
@@ -301,7 +479,8 @@ int main(int argc, char *const argv[])
                 usage(stderr);
         }
 
-        source = convert_hostnames(argv[optind]);
+        usource = argv[optind];
+        source = convert_hostnames(usource);
         target = argv[optind + 1];
         ptr = target + strlen(target) - 1;
         while ((ptr > target) && (*ptr == '/')) {
@@ -309,20 +488,20 @@ int main(int argc, char *const argv[])
                 ptr--;
         }
 
-        if (!source) {
+        if (!usource || !source) {
                 usage(stderr);
         }
 
         if (verbose) {
                 for (i = 0; i < argc; i++)
                         printf("arg[%d] = %s\n", i, argv[i]);
-                printf("source = %s, target = %s\n", source, target);
+                printf("source = %s (%s), target = %s\n", usource, source, target);
                 printf("options = %s\n", orig_options);
         }
 
         options = malloc(strlen(orig_options) + 1);
         strcpy(options, orig_options);
-        rc = parse_options(options, &flags); 
+        rc = parse_options(options, &flags);
         if (rc) {
                 fprintf(stderr, "%s: can't parse options: %s\n",
                         progname, options);
@@ -330,21 +509,21 @@ int main(int argc, char *const argv[])
         }
 
         if (!force) {
-                rc = check_mtab_entry(source, target, "lustre");
+                rc = check_mtab_entry(usource, target, "lustre");
                 if (rc && !(flags & MS_REMOUNT)) {
                         fprintf(stderr, "%s: according to %s %s is "
                                 "already mounted on %s\n",
-                                progname, MOUNTED, source, target);
+                                progname, MOUNTED, usource, target);
                         return(EEXIST);
                 }
                 if (!rc && (flags & MS_REMOUNT)) {
                         fprintf(stderr, "%s: according to %s %s is "
                                 "not already mounted on %s\n",
-                                progname, MOUNTED, source, target);
+                                progname, MOUNTED, usource, target);
                         return(ENOENT);
                 }
         }
-        if (flags & MS_REMOUNT) 
+        if (flags & MS_REMOUNT)
                 nomtab++;
 
         rc = access(target, F_OK);
@@ -365,13 +544,18 @@ int main(int argc, char *const argv[])
         strcat(optcopy, "device=");
         strcat(optcopy, source);
 
-        if (verbose) 
+        if (verbose)
                 printf("mounting device %s at %s, flags=%#x options=%s\n",
                        source, target, flags, optcopy);
-        
+
+        if (set_tunables(source, strlen(source)) && verbose)
+                fprintf(stderr, "%s: unable to set tunables for %s"
+                                " (may cause reduced IO performance)",
+                                argv[0], source);
+
         if (!fake)
-                /* flags and target get to lustre_get_sb, but not 
-                   lustre_fill_super.  Lustre ignores the flags, but mount 
+                /* flags and target get to lustre_get_sb, but not
+                   lustre_fill_super.  Lustre ignores the flags, but mount
                    does not. */
                 rc = mount(source, target, "lustre", flags, (void *)optcopy);
 
@@ -380,14 +564,14 @@ int main(int argc, char *const argv[])
 
                 rc = errno;
 
-                cli = strrchr(source, ':');
-                if (cli && (strlen(cli) > 2)) 
+                cli = strrchr(usource, ':');
+                if (cli && (strlen(cli) > 2))
                         cli += 2;
                 else
                         cli = NULL;
 
-                fprintf(stderr, "%s: mount %s at %s failed: %s\n", progname, 
-                        source, target, strerror(errno));
+                fprintf(stderr, "%s: mount %s at %s failed: %s\n", progname,
+                        usource, target, strerror(errno));
                 if (errno == ENODEV)
                         fprintf(stderr, "Are the lustre modules loaded?\n"
                                 "Check /etc/modprobe.conf and /proc/filesystems"
@@ -396,7 +580,7 @@ int main(int argc, char *const argv[])
                 if (errno == ENOTBLK)
                         fprintf(stderr, "Do you need -o loop?\n");
                 if (errno == ENOMEDIUM)
-                        fprintf(stderr, 
+                        fprintf(stderr,
                                 "This filesystem needs at least 1 OST\n");
                 if (errno == ENOENT) {
                         fprintf(stderr, "Is the MGS specification correct?\n");
@@ -406,19 +590,19 @@ int main(int argc, char *const argv[])
                 }
                 if (errno == EALREADY)
                         fprintf(stderr, "The target service is already running."
-                                " (%s)\n", source);
+                                " (%s)\n", usource);
                 if (errno == ENXIO)
                         fprintf(stderr, "The target service failed to start "
                                 "(bad config log?) (%s).  "
-                                "See /var/log/messages.\n", source);
+                                "See /var/log/messages.\n", usource);
                 if (errno == EIO)
                         fprintf(stderr, "Is the MGS running?\n");
                 if (errno == EADDRINUSE)
                         fprintf(stderr, "The target service's index is already "
-                                "in use. (%s)\n", source);
+                                "in use. (%s)\n", usource);
                 if (errno == EINVAL) {
                         fprintf(stderr, "This may have multiple causes.\n");
-                        if (cli) 
+                        if (cli)
                                 fprintf(stderr, "Is '%s' the correct filesystem"
                                         " name?\n", cli);
                         fprintf(stderr, "Are the mount options correct?\n");
@@ -426,14 +610,14 @@ int main(int argc, char *const argv[])
                 }
 
                 /* May as well try to clean up loop devs */
-                if (strncmp(source, "/dev/loop", 9) == 0) {
+                if (strncmp(usource, "/dev/loop", 9) == 0) {
                         char cmd[256];
-                        sprintf(cmd, "/sbin/losetup -d %s", source);
+                        sprintf(cmd, "/sbin/losetup -d %s", usource);
                         system(cmd);
                 }
 
         } else if (!nomtab) {
-                rc = update_mtab_entry(source, target, "lustre", orig_options,
+                rc = update_mtab_entry(usource, target, "lustre", orig_options,
                                        0,0,0);
         }