Whamcloud - gitweb
LUDOC-11 misc: remove pre-2.5 conditional text
[doc/manual.git] / LustreOperations.xml
1 <?xml version='1.0' encoding='utf-8'?>
2 <chapter xmlns="http://docbook.org/ns/docbook"
3 xmlns:xl="http://www.w3.org/1999/xlink" version="5.0" xml:lang="en-US"
4 xml:id="lustreoperations">
5   <title xml:id="lustreoperations.title">Lustre Operations</title>
6   <para>Once you have the Lustre file system up and running, you can use the
7   procedures in this section to perform these basic Lustre administration
8   tasks.</para>
9   <section xml:id="dbdoclet.50438194_42877">
10     <title>
11     <indexterm>
12       <primary>operations</primary>
13     </indexterm>
14     <indexterm>
15       <primary>operations</primary>
16       <secondary>mounting by label</secondary>
17     </indexterm>Mounting by Label</title>
18     <para>The file system name is limited to 8 characters. We have encoded the
19     file system and target information in the disk label, so you can mount by
20     label. This allows system administrators to move disks around without
21     worrying about issues such as SCSI disk reordering or getting the 
22     <literal>/dev/device</literal> wrong for a shared target. Soon, file system
23     naming will be made as fail-safe as possible. Currently, Linux disk labels
24     are limited to 16 characters. To identify the target within the file
25     system, 8 characters are reserved, leaving 8 characters for the file system
26     name:</para>
27     <screen>
28 <replaceable>fsname</replaceable>-MDT0000 or 
29 <replaceable>fsname</replaceable>-OST0a19
30 </screen>
31     <para>To mount by label, use this command:</para>
32     <screen>
33 mount -t lustre -L 
34 <replaceable>file_system_label</replaceable> 
35 <replaceable>/mount_point</replaceable>
36 </screen>
37     <para>This is an example of mount-by-label:</para>
38     <screen>
39 mds# mount -t lustre -L testfs-MDT0000 /mnt/mdt
40 </screen>
41     <caution>
42       <para>Mount-by-label should NOT be used in a multi-path environment or
43       when snapshots are being created of the device, since multiple block
44       devices will have the same label.</para>
45     </caution>
46     <para>Although the file system name is internally limited to 8 characters,
47     you can mount the clients at any mount point, so file system users are not
48     subjected to short names. Here is an example:</para>
49     <screen>
50 client# mount -t lustre mds0@tcp0:/short 
51 <replaceable>/dev/long_mountpoint_name</replaceable>
52 </screen>
53   </section>
54   <section xml:id="dbdoclet.50438194_24122">
55     <title>
56     <indexterm>
57       <primary>operations</primary>
58       <secondary>starting</secondary>
59     </indexterm>Starting Lustre</title>
60     <para>On the first start of a Lustre file system, the components must be
61     started in the following order:</para>
62     <orderedlist>
63       <listitem>
64         <para>Mount the MGT.</para>
65         <note>
66           <para>If a combined MGT/MDT is present, Lustre will correctly mount
67           the MGT and MDT automatically.</para>
68         </note>
69       </listitem>
70       <listitem>
71         <para>Mount the MDT.</para>
72         <note>
73           <para>Mount all MDTs if multiple MDTs are present.</para>
74         </note>
75       </listitem>
76       <listitem>
77         <para>Mount the OST(s).</para>
78       </listitem>
79       <listitem>
80         <para>Mount the client(s).</para>
81       </listitem>
82     </orderedlist>
83   </section>
84   <section xml:id="dbdoclet.50438194_84876">
85     <title>
86     <indexterm>
87       <primary>operations</primary>
88       <secondary>mounting</secondary>
89     </indexterm>Mounting a Server</title>
90     <para>Starting a Lustre server is straightforward and only involves the
91     mount command. Lustre servers can be added to 
92     <literal>/etc/fstab</literal>:</para>
93     <screen>
94 mount -t lustre
95 </screen>
96     <para>The mount command generates output similar to this:</para>
97     <screen>
98 /dev/sda1 on /mnt/test/mdt type lustre (rw)
99 /dev/sda2 on /mnt/test/ost0 type lustre (rw)
100 192.168.0.21@tcp:/testfs on /mnt/testfs type lustre (rw)
101 </screen>
102     <para>In this example, the MDT, an OST (ost0) and file system (testfs) are
103     mounted.</para>
104     <screen>
105 LABEL=testfs-MDT0000 /mnt/test/mdt lustre defaults,_netdev,noauto 0 0
106 LABEL=testfs-OST0000 /mnt/test/ost0 lustre defaults,_netdev,noauto 0 0
107 </screen>
108     <para>In general, it is wise to specify noauto and let your
109     high-availability (HA) package manage when to mount the device. If you are
110     not using failover, make sure that networking has been started before
111     mounting a Lustre server. If you are running Red Hat Enterprise Linux, SUSE
112     Linux Enterprise Server, Debian operating system (and perhaps others), use
113     the 
114     <literal>_netdev</literal> flag to ensure that these disks are mounted after
115     the network is up.</para>
116     <para>We are mounting by disk label here. The label of a device can be read
117     with 
118     <literal>e2label</literal>. The label of a newly-formatted Lustre server
119     may end in 
120     <literal>FFFF</literal> if the 
121     <literal>--index</literal> option is not specified to 
122     <literal>mkfs.lustre</literal>, meaning that it has yet to be assigned. The
123     assignment takes place when the server is first started, and the disk label
124     is updated. It is recommended that the 
125     <literal>--index</literal> option always be used, which will also ensure
126     that the label is set at format time.</para>
127     <caution>
128       <para>Do not do this when the client and OSS are on the same node, as
129       memory pressure between the client and OSS can lead to deadlocks.</para>
130     </caution>
131     <caution>
132       <para>Mount-by-label should NOT be used in a multi-path
133       environment.</para>
134     </caution>
135   </section>
136   <section xml:id="dbdoclet.shutdownLustre">
137       <title>
138           <indexterm>
139               <primary>operations</primary>
140               <secondary>shutdownLustre</secondary>
141           </indexterm>Stopping the Filesystem</title>
142       <para>A complete Lustre filesystem shutdown occurs by unmounting all
143       clients and servers in the order shown below.  Please note that unmounting
144       a block device causes the Lustre software to be shut down on that node.
145       </para>
146       <note><para>Please note that the <literal>-a -t lustre</literal> in the
147           commands below is not the name of a filesystem, but rather is
148           specifying to unmount all entries in /etc/mtab that are of type
149           <literal>lustre</literal></para></note>
150       <orderedlist>
151           <listitem><para>Unmount the clients</para>
152               <para>On each client node, unmount the filesystem on that client
153               using the <literal>umount</literal> command:</para>
154               <para><literal>umount -a -t lustre</literal></para>
155               <para>The example below shows the unmount of the
156               <literal>testfs</literal> filesystem on a client node:</para>
157               <para><screen>[root@client1 ~]# mount |grep testfs
158 XXX.XXX.0.11@tcp:/testfs on /mnt/testfs type lustre (rw,lazystatfs)
159
160 [root@client1 ~]# umount -a -t lustre
161 [154523.177714] Lustre: Unmounted testfs-client</screen></para>
162           </listitem>
163           <listitem><para>Unmount the MDT and MGT</para>
164               <para>On the MGS and MDS node(s), use the <literal>umount</literal>
165               command:</para>
166               <para><literal>umount -a -t lustre</literal></para>
167               <para>The example below shows the unmount of the MDT and MGT for
168               the <literal>testfs</literal> filesystem on a combined MGS/MDS:
169               </para>
170               <para><screen>[root@mds1 ~]# mount |grep lustre
171 /dev/sda on /mnt/mgt type lustre (ro)
172 /dev/sdb on /mnt/mdt type lustre (ro)
173
174 [root@mds1 ~]# umount -a -t lustre
175 [155263.566230] Lustre: Failing over testfs-MDT0000
176 [155263.775355] Lustre: server umount testfs-MDT0000 complete
177 [155269.843862] Lustre: server umount MGS complete</screen></para>
178           <para>For a seperate MGS and MDS, the same command is used, first on
179           the MDS and then followed by the MGS.</para>
180           </listitem>
181           <listitem><para>Unmount all the OSTs</para>
182               <para>On each OSS node, use the <literal>umount</literal> command:
183               </para>
184               <para><literal>umount -a -t lustre</literal></para>
185               <para>The example below shows the unmount of all OSTs for the
186               <literal>testfs</literal> filesystem on server
187               <literal>OSS1</literal>:
188               </para>
189               <para><screen>[root@oss1 ~]# mount |grep lustre
190 /dev/sda on /mnt/ost0 type lustre (ro)
191 /dev/sdb on /mnt/ost1 type lustre (ro)
192 /dev/sdc on /mnt/ost2 type lustre (ro)
193
194 [root@oss1 ~]# umount -a -t lustre
195 [155336.491445] Lustre: Failing over testfs-OST0002
196 [155336.556752] Lustre: server umount testfs-OST0002 complete</screen></para>
197           </listitem>
198       </orderedlist>
199       <para>For unmount command syntax for a single OST, MDT, or MGT target
200       please refer to <xref linkend="dbdoclet.umountTarget"/></para>
201   </section>
202   <section xml:id="dbdoclet.umountTarget">
203     <title>
204     <indexterm>
205       <primary>operations</primary>
206       <secondary>unmounting</secondary>
207     </indexterm>Unmounting a Specific Target on a Server</title>
208     <para>To stop a Lustre OST, MDT, or MGT , use the
209     <literal>umount 
210     <replaceable>/mount_point</replaceable></literal> command.</para>
211     <para>The example below stops an OST, <literal>ost0</literal>, on mount
212     point <literal>/mnt/ost0</literal> for the <literal>testfs</literal>
213     filesystem:</para>
214     <screen>[root@oss1 ~]# umount /mnt/ost0
215 [  385.142264] Lustre: Failing over testfs-OST0000
216 [  385.210810] Lustre: server umount testfs-OST0000 complete</screen>
217     <para>Gracefully stopping a server with the 
218     <literal>umount</literal> command preserves the state of the connected
219     clients. The next time the server is started, it waits for clients to
220     reconnect, and then goes through the recovery procedure.</para>
221     <para>If the force (
222     <literal>-f</literal>) flag is used, then the server evicts all clients and
223     stops WITHOUT recovery. Upon restart, the server does not wait for
224     recovery. Any currently connected clients receive I/O errors until they
225     reconnect.</para>
226     <note>
227       <para>If you are using loopback devices, use the 
228       <literal>-d</literal> flag. This flag cleans up loop devices and can
229       always be safely specified.</para>
230     </note>
231   </section>
232   <section xml:id="dbdoclet.50438194_57420">
233     <title>
234     <indexterm>
235       <primary>operations</primary>
236       <secondary>failover</secondary>
237     </indexterm>Specifying Failout/Failover Mode for OSTs</title>
238     <para>In a Lustre file system, an OST that has become unreachable because
239     it fails, is taken off the network, or is unmounted can be handled in one
240     of two ways:</para>
241     <itemizedlist>
242       <listitem>
243         <para>In 
244         <literal>failout</literal> mode, Lustre clients immediately receive
245         errors (EIOs) after a timeout, instead of waiting for the OST to
246         recover.</para>
247       </listitem>
248       <listitem>
249         <para>In 
250         <literal>failover</literal> mode, Lustre clients wait for the OST to
251         recover.</para>
252       </listitem>
253     </itemizedlist>
254     <para>By default, the Lustre file system uses 
255     <literal>failover</literal> mode for OSTs. To specify 
256     <literal>failout</literal> mode instead, use the 
257     <literal>--param="failover.mode=failout"</literal> option as shown below
258     (entered on one line):</para>
259     <screen>
260 oss# mkfs.lustre --fsname=
261 <replaceable>fsname</replaceable> --mgsnode=
262 <replaceable>mgs_NID</replaceable> --param=failover.mode=failout 
263       --ost --index=
264 <replaceable>ost_index</replaceable> 
265 <replaceable>/dev/ost_block_device</replaceable>
266 </screen>
267     <para>In the example below, 
268     <literal>failout</literal> mode is specified for the OSTs on the MGS 
269     <literal>mds0</literal> in the file system 
270     <literal>testfs</literal>(entered on one line).</para>
271     <screen>
272 oss# mkfs.lustre --fsname=testfs --mgsnode=mds0 --param=failover.mode=failout 
273       --ost --index=3 /dev/sdb 
274 </screen>
275     <caution>
276       <para>Before running this command, unmount all OSTs that will be affected
277       by a change in 
278       <literal>failover</literal>/ 
279       <literal>failout</literal> mode.</para>
280     </caution>
281     <note>
282       <para>After initial file system configuration, use the 
283       <literal>tunefs.lustre</literal> utility to change the mode. For example,
284       to set the 
285       <literal>failout</literal> mode, run:</para>
286       <para>
287         <screen>
288 $ tunefs.lustre --param failover.mode=failout 
289 <replaceable>/dev/ost_device</replaceable>
290 </screen>
291       </para>
292     </note>
293   </section>
294   <section xml:id="dbdoclet.degraded_ost">
295     <title>
296     <indexterm>
297       <primary>operations</primary>
298       <secondary>degraded OST RAID</secondary>
299     </indexterm>Handling Degraded OST RAID Arrays</title>
300     <para>Lustre includes functionality that notifies Lustre if an external
301     RAID array has degraded performance (resulting in reduced overall file
302     system performance), either because a disk has failed and not been
303     replaced, or because a disk was replaced and is undergoing a rebuild. To
304     avoid a global performance slowdown due to a degraded OST, the MDS can
305     avoid the OST for new object allocation if it is notified of the degraded
306     state.</para>
307     <para>A parameter for each OST, called 
308     <literal>degraded</literal>, specifies whether the OST is running in
309     degraded mode or not.</para>
310     <para>To mark the OST as degraded, use:</para>
311     <screen>
312 lctl set_param obdfilter.{OST_name}.degraded=1
313 </screen>
314     <para>To mark that the OST is back in normal operation, use:</para>
315     <screen>
316 lctl set_param obdfilter.{OST_name}.degraded=0
317 </screen>
318     <para>To determine if OSTs are currently in degraded mode, use:</para>
319     <screen>
320 lctl get_param obdfilter.*.degraded
321 </screen>
322     <para>If the OST is remounted due to a reboot or other condition, the flag
323     resets to 
324     <literal>0</literal>.</para>
325     <para>It is recommended that this be implemented by an automated script
326     that monitors the status of individual RAID devices, such as MD-RAID's
327     <literal>mdadm(8)</literal> command with the <literal>--monitor</literal>
328     option to mark an affected device degraded or restored.</para>
329   </section>
330   <section xml:id="dbdoclet.50438194_88063">
331     <title>
332     <indexterm>
333       <primary>operations</primary>
334       <secondary>multiple file systems</secondary>
335     </indexterm>Running Multiple Lustre File Systems</title>
336     <para>Lustre supports multiple file systems provided the combination of 
337     <literal>NID:fsname</literal> is unique. Each file system must be allocated
338     a unique name during creation with the 
339     <literal>--fsname</literal> parameter. Unique names for file systems are
340     enforced if a single MGS is present. If multiple MGSs are present (for
341     example if you have an MGS on every MDS) the administrator is responsible
342     for ensuring file system names are unique. A single MGS and unique file
343     system names provides a single point of administration and allows commands
344     to be issued against the file system even if it is not mounted.</para>
345     <para>Lustre supports multiple file systems on a single MGS. With a single
346     MGS fsnames are guaranteed to be unique. Lustre also allows multiple MGSs
347     to co-exist. For example, multiple MGSs will be necessary if multiple file
348     systems on different Lustre software versions are to be concurrently
349     available. With multiple MGSs additional care must be taken to ensure file
350     system names are unique. Each file system should have a unique fsname among
351     all systems that may interoperate in the future.</para>
352     <para>By default, the 
353     <literal>mkfs.lustre</literal> command creates a file system named 
354     <literal>lustre</literal>. To specify a different file system name (limited
355     to 8 characters) at format time, use the 
356     <literal>--fsname</literal> option:</para>
357     <para>
358       <screen>
359 mkfs.lustre --fsname=
360 <replaceable>file_system_name</replaceable>
361 </screen>
362     </para>
363     <note>
364       <para>The MDT, OSTs and clients in the new file system must use the same
365       file system name (prepended to the device name). For example, for a new
366       file system named 
367       <literal>foo</literal>, the MDT and two OSTs would be named 
368       <literal>foo-MDT0000</literal>, 
369       <literal>foo-OST0000</literal>, and 
370       <literal>foo-OST0001</literal>.</para>
371     </note>
372     <para>To mount a client on the file system, run:</para>
373     <screen>
374 client# mount -t lustre 
375 <replaceable>mgsnode</replaceable>:
376 <replaceable>/new_fsname</replaceable> 
377 <replaceable>/mount_point</replaceable>
378 </screen>
379     <para>For example, to mount a client on file system foo at mount point
380     /mnt/foo, run:</para>
381     <screen>
382 client# mount -t lustre mgsnode:/foo /mnt/foo
383 </screen>
384     <note>
385       <para>If a client(s) will be mounted on several file systems, add the
386       following line to 
387       <literal>/etc/xattr.conf</literal> file to avoid problems when files are
388       moved between the file systems: 
389       <literal>lustre.* skip</literal></para>
390     </note>
391     <note>
392       <para>To ensure that a new MDT is added to an existing MGS create the MDT
393       by specifying: 
394       <literal>--mdt --mgsnode=
395       <replaceable>mgs_NID</replaceable></literal>.</para>
396     </note>
397     <para>A Lustre installation with two file systems (
398     <literal>foo</literal> and 
399     <literal>bar</literal>) could look like this, where the MGS node is 
400     <literal>mgsnode@tcp0</literal> and the mount points are 
401     <literal>/mnt/foo</literal> and 
402     <literal>/mnt/bar</literal>.</para>
403     <screen>
404 mgsnode# mkfs.lustre --mgs /dev/sda
405 mdtfoonode# mkfs.lustre --fsname=foo --mgsnode=mgsnode@tcp0 --mdt --index=0
406 /dev/sdb
407 ossfoonode# mkfs.lustre --fsname=foo --mgsnode=mgsnode@tcp0 --ost --index=0
408 /dev/sda
409 ossfoonode# mkfs.lustre --fsname=foo --mgsnode=mgsnode@tcp0 --ost --index=1
410 /dev/sdb
411 mdtbarnode# mkfs.lustre --fsname=bar --mgsnode=mgsnode@tcp0 --mdt --index=0
412 /dev/sda
413 ossbarnode# mkfs.lustre --fsname=bar --mgsnode=mgsnode@tcp0 --ost --index=0
414 /dev/sdc
415 ossbarnode# mkfs.lustre --fsname=bar --mgsnode=mgsnode@tcp0 --ost --index=1
416 /dev/sdd
417 </screen>
418     <para>To mount a client on file system foo at mount point 
419     <literal>/mnt/foo</literal>, run:</para>
420     <screen>
421 client# mount -t lustre mgsnode@tcp0:/foo /mnt/foo
422 </screen>
423     <para>To mount a client on file system bar at mount point 
424     <literal>/mnt/bar</literal>, run:</para>
425     <screen>
426 client# mount -t lustre mgsnode@tcp0:/bar /mnt/bar
427 </screen>
428   </section>
429   <section xml:id="dbdoclet.lfsmkdir">
430     <title>
431     <indexterm>
432       <primary>operations</primary>
433       <secondary>remote directory</secondary>
434     </indexterm>Creating a sub-directory on a specific MDT</title>
435     <para>It is possible to create individual directories, along with its
436       files and sub-directories, to be stored on specific MDTs. To create
437       a sub-directory on a given MDT use the command:
438     </para>
439     <screen>
440 client# lfs mkdir â€“i
441 <replaceable>mdt_index</replaceable>
442 <replaceable>/mount_point/remote_dir</replaceable>
443 </screen>
444     <para>This command will allocate the sub-directory
445     <literal>remote_dir</literal> onto the MDT of index
446     <literal>mdt_index</literal>. For more information on adding additional MDTs
447     and 
448     <literal>mdt_index</literal> see
449     <xref linkend='dbdoclet.addmdtindex' />.</para>
450     <warning>
451       <para>An administrator can allocate remote sub-directories to separate
452       MDTs. Creating remote sub-directories in parent directories not hosted on
453       MDT0000 is not recommended. This is because the failure of the parent MDT
454       will leave the namespace below it inaccessible. For this reason, by
455       default it is only possible to create remote sub-directories off MDT0000.
456       To relax this restriction and enable remote sub-directories off any MDT,
457       an administrator must issue the following command on the MGS:
458       <screen>mgs# lctl conf_param <replaceable>fsname</replaceable>.mdt.enable_remote_dir=1</screen>
459       For Lustre filesystem 'scratch', the command executed is:
460       <screen>mgs# lctl conf_param scratch.mdt.enable_remote_dir=1</screen>
461       To verify the configuration setting execute the following command on any
462       MDS:
463           <screen>mds# lctl get_param mdt.*.enable_remote_dir</screen></para>
464     </warning>
465     <para condition='l28'>With Lustre software version 2.8, a new
466     tunable is available to allow users with a specific group ID to create
467     and delete remote and striped directories. This tunable is
468     <literal>enable_remote_dir_gid</literal>. For example, setting this
469     parameter to the 'wheel' or 'admin' group ID allows users with that GID
470     to create and delete remote and striped directories. Setting this
471     parameter to <literal>-1</literal> on MDT0000 to permanently allow any
472     non-root users create and delete remote and striped directories.
473     On the MGS execute the following command:
474     <screen>mgs# lctl conf_param <replaceable>fsname</replaceable>.mdt.enable_remote_dir_gid=-1</screen>
475     For the Lustre filesystem 'scratch', the commands expands to:
476     <screen>mgs# lctl conf_param scratch.mdt.enable_remote_dir_gid=-1</screen>.
477     The change can be verified by executing the following command on every MDS:
478     <screen>mds# lctl get_param mdt.<replaceable>*</replaceable>.enable_remote_dir_gid</screen>
479     </para>
480   </section>
481   <section xml:id="dbdoclet.lfsmkdirdne2" condition='l28'>
482     <title>
483     <indexterm>
484       <primary>operations</primary>
485       <secondary>striped directory</secondary>
486     </indexterm>
487     <indexterm>
488       <primary>operations</primary>
489       <secondary>mkdir</secondary>
490     </indexterm>
491     <indexterm>
492       <primary>operations</primary>
493       <secondary>setdirstripe</secondary>
494     </indexterm>
495     <indexterm>
496       <primary>striping</primary>
497       <secondary>metadata</secondary>
498     </indexterm>Creating a directory striped across multiple MDTs</title>
499     <para>The Lustre 2.8 DNE feature enables individual files in a given
500     directory to store their metadata on separate MDTs (a <emphasis>striped
501     directory</emphasis>) once additional MDTs have been added to the
502     filesystem, see <xref linkend="lustremaint.adding_new_mdt"/>.
503     The result of this is that metadata requests for
504     files in a striped directory are serviced by multiple MDTs and metadata
505     service load is distributed over all the MDTs that service a given
506     directory. By distributing metadata service load over multiple MDTs,
507     performance can be improved beyond the limit of single MDT
508     performance. Prior to the development of this feature all files in a
509     directory must record their metadata on a single MDT.</para>
510     <para>This command to stripe a directory over
511     <replaceable>mdt_count</replaceable> MDTs is:
512     </para>
513     <screen>
514 client# lfs mkdir -c
515 <replaceable>mdt_count</replaceable>
516 <replaceable>/mount_point/new_directory</replaceable>
517 </screen>
518     <para>The striped directory feature is most useful for distributing
519     single large directories (50k entries or more) across multiple MDTs,
520     since it incurs more overhead than non-striped directories.</para>
521     <section xml:id="dbdoclet.lfsmkdirbyspace" condition='l2D'>
522       <title>Directory creation by space/inode usage</title>
523       <para>If the starting MDT is not specified when creating a new directory,
524       this directory and its stripes will be distributed on MDTs by space usage.
525       For example the following will create a directory and its stripes on MDTs
526       with balanced space usage:</para>
527       <screen>lfs mkdir -c 2 &lt;dir1&gt;</screen>
528       <para>Alternatively, if a default directory stripe is set on a directory,
529       the subsequent syscall <literal>mkdir</literal> under
530       <literal>&lt;dir1&gt;</literal> will have the same effect:
531       <screen>lfs setdirstripe -D -c 2 &lt;dir1&gt;</screen></para>
532       <para>The policy is:</para>
533       <itemizedlist>
534         <listitem><para>If free inodes/blocks on all MDT are almost the same,
535         i.e. <literal>max_inodes_avail * 84% &lt; min_inodes_avail</literal> and
536         <literal>max_blocks_avail * 84% &lt; min_blocks_avail</literal>, then
537         choose MDT roundrobin.</para></listitem>
538         <listitem><para>Otherwise, create more subdirectories on MDTs with more
539         free inodes/blocks.</para></listitem>
540       </itemizedlist>
541     </section>
542   </section>
543   <section xml:id="dbdoclet.50438194_88980">
544     <title>
545     <indexterm>
546       <primary>operations</primary>
547       <secondary>parameters</secondary>
548     </indexterm>Setting and Retrieving Lustre Parameters</title>
549     <para>Several options are available for setting parameters in
550     Lustre:</para>
551     <itemizedlist>
552       <listitem>
553         <para>When creating a file system, use mkfs.lustre. See 
554         <xref linkend="dbdoclet.50438194_17237" />below.</para>
555       </listitem>
556       <listitem>
557         <para>When a server is stopped, use tunefs.lustre. See 
558         <xref linkend="dbdoclet.50438194_55253" />below.</para>
559       </listitem>
560       <listitem>
561         <para>When the file system is running, use lctl to set or retrieve
562         Lustre parameters. See 
563         <xref linkend="dbdoclet.50438194_51490" />and 
564         <xref linkend="dbdoclet.50438194_63247" />below.</para>
565       </listitem>
566     </itemizedlist>
567     <section xml:id="dbdoclet.50438194_17237">
568       <title>Setting Tunable Parameters with 
569       <literal>mkfs.lustre</literal></title>
570       <para>When the file system is first formatted, parameters can simply be
571       added as a 
572       <literal>--param</literal> option to the 
573       <literal>mkfs.lustre</literal> command. For example:</para>
574       <screen>
575 mds# mkfs.lustre --mdt --param="sys.timeout=50" /dev/sda
576 </screen>
577       <para>For more details about creating a file system,see 
578       <xref linkend="configuringlustre" />. For more details about 
579       <literal>mkfs.lustre</literal>, see 
580       <xref linkend="systemconfigurationutilities" />.</para>
581     </section>
582     <section xml:id="dbdoclet.50438194_55253">
583       <title>Setting Parameters with 
584       <literal>tunefs.lustre</literal></title>
585       <para>If a server (OSS or MDS) is stopped, parameters can be added to an
586       existing file system using the 
587       <literal>--param</literal> option to the 
588       <literal>tunefs.lustre</literal> command. For example:</para>
589       <screen>
590 oss# tunefs.lustre --param=failover.node=192.168.0.13@tcp0 /dev/sda
591 </screen>
592       <para>With 
593       <literal>tunefs.lustre</literal>, parameters are 
594       <emphasis>additive</emphasis>-- new parameters are specified in addition
595       to old parameters, they do not replace them. To erase all old 
596       <literal>tunefs.lustre</literal> parameters and just use newly-specified
597       parameters, run:</para>
598       <screen>
599 mds# tunefs.lustre --erase-params --param=
600 <replaceable>new_parameters</replaceable> 
601 </screen>
602       <para>The tunefs.lustre command can be used to set any parameter settable
603       via <literal>lctl conf_param</literal> and that has its own OBD device,
604       so it can be specified as 
605       <literal>
606       <replaceable>obdname|fsname</replaceable>.
607       <replaceable>obdtype</replaceable>.
608       <replaceable>proc_file_name</replaceable>=
609       <replaceable>value</replaceable></literal>. For example:</para>
610       <screen>
611 mds# tunefs.lustre --param mdt.identity_upcall=NONE /dev/sda1
612 </screen>
613       <para>For more details about 
614       <literal>tunefs.lustre</literal>, see 
615       <xref linkend="systemconfigurationutilities" />.</para>
616     </section>
617     <section xml:id="dbdoclet.50438194_51490">
618       <title>Setting Parameters with 
619       <literal>lctl</literal></title>
620       <para>When the file system is running, the 
621       <literal>lctl</literal> command can be used to set parameters (temporary
622       or permanent) and report current parameter values. Temporary parameters
623       are active as long as the server or client is not shut down. Permanent
624       parameters live through server and client reboots.</para>
625       <note>
626         <para>The <literal>lctl list_param</literal> command enables users to
627           list all parameters that can be set. See 
628         <xref linkend="dbdoclet.50438194_88217" />.</para>
629       </note>
630       <para>For more details about the 
631       <literal>lctl</literal> command, see the examples in the sections below
632       and 
633       <xref linkend="systemconfigurationutilities" />.</para>
634       <section remap="h4">
635         <title>Setting Temporary Parameters</title>
636         <para>Use 
637         <literal>lctl set_param</literal> to set temporary parameters on the
638         node where it is run. These parameters map to items in 
639         <literal>/proc/{fs,sys}/{lnet,lustre}</literal>. The 
640         <literal>lctl set_param</literal> command uses this syntax:</para>
641         <screen>
642 lctl set_param [-n] [-P]
643 <replaceable>obdtype</replaceable>.
644 <replaceable>obdname</replaceable>.
645 <replaceable>proc_file_name</replaceable>=
646 <replaceable>value</replaceable>
647 </screen>
648         <para>For example:</para>
649         <screen>
650 # lctl set_param osc.*.max_dirty_mb=1024
651 osc.myth-OST0000-osc.max_dirty_mb=32
652 osc.myth-OST0001-osc.max_dirty_mb=32
653 osc.myth-OST0002-osc.max_dirty_mb=32
654 osc.myth-OST0003-osc.max_dirty_mb=32
655 osc.myth-OST0004-osc.max_dirty_mb=32
656 </screen>
657       </section>
658       <section xml:id="dbdoclet.50438194_64195">
659         <title>Setting Permanent Parameters</title>
660         <para>Use <literal>lctl set_param -P</literal> or
661         <literal>lctl conf_param</literal> command to set permanent parameters.
662         In general, the 
663         <literal>lctl conf_param</literal> command can be used to specify any
664         parameter settable in a 
665         <literal>/proc/fs/lustre</literal> file, with its own OBD device. The 
666         <literal>lctl conf_param</literal> command uses this syntax (same as the
667         
668         <literal>mkfs.lustre</literal> and 
669         <literal>tunefs.lustre</literal> commands):</para>
670         <screen>
671 <replaceable>obdname|fsname</replaceable>.
672 <replaceable>obdtype</replaceable>.
673 <replaceable>proc_file_name</replaceable>=
674 <replaceable>value</replaceable>) 
675 </screen>
676         <para>Here are a few examples of 
677         <literal>lctl conf_param</literal> commands:</para>
678         <screen>
679 mgs# lctl conf_param testfs-MDT0000.sys.timeout=40
680 $ lctl conf_param testfs-MDT0000.mdt.identity_upcall=NONE
681 $ lctl conf_param testfs.llite.max_read_ahead_mb=16
682 $ lctl conf_param testfs-MDT0000.lov.stripesize=2M
683 $ lctl conf_param testfs-OST0000.osc.max_dirty_mb=29.15
684 $ lctl conf_param testfs-OST0000.ost.client_cache_seconds=15
685 $ lctl conf_param testfs.sys.timeout=40 
686 </screen>
687         <caution>
688           <para>Parameters specified with the 
689           <literal>lctl conf_param</literal> command are set permanently in the
690           file system's configuration file on the MGS.</para>
691         </caution>
692       </section>
693       <section xml:id="dbdoclet.setparamp" condition='l25'>
694         <title>Setting Permanent Parameters with lctl set_param -P</title>
695         <para>The <literal>lctl set_param -P</literal> command can also
696           set parameters permanently. This command must be issued on the MGS.
697           The given parameter is set on every host using 
698           <literal>lctl</literal> upcall. Parameters map to items in 
699           <literal>/proc/{fs,sys}/{lnet,lustre}</literal>. The 
700           <literal>lctl set_param</literal> command uses this syntax:</para>
701         <screen>
702 lctl set_param -P 
703 <replaceable>obdtype</replaceable>.
704 <replaceable>obdname</replaceable>.
705 <replaceable>proc_file_name</replaceable>=
706 <replaceable>value</replaceable>
707 </screen>
708         <para>For example:</para>
709         <screen>
710 # lctl set_param -P osc.*.max_dirty_mb=1024
711 osc.myth-OST0000-osc.max_dirty_mb=32
712 osc.myth-OST0001-osc.max_dirty_mb=32
713 osc.myth-OST0002-osc.max_dirty_mb=32
714 osc.myth-OST0003-osc.max_dirty_mb=32
715 osc.myth-OST0004-osc.max_dirty_mb=32 
716 </screen>
717         <para>Use 
718         <literal>-d</literal>(only with -P) option to delete permanent
719         parameter. Syntax:</para>
720         <screen>
721 lctl set_param -P -d
722 <replaceable>obdtype</replaceable>.
723 <replaceable>obdname</replaceable>.
724 <replaceable>proc_file_name</replaceable>
725 </screen>
726         <para>For example:</para>
727         <screen>
728 # lctl set_param -P -d osc.*.max_dirty_mb 
729 </screen>
730       </section>
731       <section xml:id="dbdoclet.50438194_88217">
732         <title>Listing Parameters</title>
733         <para>To list Lustre or LNet parameters that are available to set, use
734         the 
735         <literal>lctl list_param</literal> command. For example:</para>
736         <screen>
737 lctl list_param [-FR] 
738 <replaceable>obdtype</replaceable>.
739 <replaceable>obdname</replaceable>
740 </screen>
741         <para>The following arguments are available for the 
742         <literal>lctl list_param</literal> command.</para>
743         <para>
744         <literal>-F</literal> Add '
745         <literal>/</literal>', '
746         <literal>@</literal>' or '
747         <literal>=</literal>' for directories, symlinks and writeable files,
748         respectively</para>
749         <para>
750         <literal>-R</literal> Recursively lists all parameters under the
751         specified path</para>
752         <para>For example:</para>
753         <screen>
754 oss# lctl list_param obdfilter.lustre-OST0000 
755 </screen>
756       </section>
757       <section xml:id="dbdoclet.50438194_63247">
758         <title>Reporting Current Parameter Values</title>
759         <para>To report current Lustre parameter values, use the 
760         <literal>lctl get_param</literal> command with this syntax:</para>
761         <screen>
762 lctl get_param [-n] 
763 <replaceable>obdtype</replaceable>.
764 <replaceable>obdname</replaceable>.
765 <replaceable>proc_file_name</replaceable>
766 </screen>
767         <para>This example reports data on RPC service times.</para>
768         <screen>
769 oss# lctl get_param -n ost.*.ost_io.timeouts
770 service : cur 1 worst 30 (at 1257150393, 85d23h58m54s ago) 1 1 1 1 
771 </screen>
772         <para>This example reports the amount of space this client has reserved
773         for writeback cache with each OST:</para>
774         <screen>
775 client# lctl get_param osc.*.cur_grant_bytes
776 osc.myth-OST0000-osc-ffff8800376bdc00.cur_grant_bytes=2097152
777 osc.myth-OST0001-osc-ffff8800376bdc00.cur_grant_bytes=33890304
778 osc.myth-OST0002-osc-ffff8800376bdc00.cur_grant_bytes=35418112
779 osc.myth-OST0003-osc-ffff8800376bdc00.cur_grant_bytes=2097152
780 osc.myth-OST0004-osc-ffff8800376bdc00.cur_grant_bytes=33808384
781 </screen>
782       </section>
783     </section>
784   </section>
785   <section xml:id="dbdoclet.50438194_41817">
786     <title>
787     <indexterm>
788       <primary>operations</primary>
789       <secondary>failover</secondary>
790     </indexterm>Specifying NIDs and Failover</title>
791     <para>If a node has multiple network interfaces, it may have multiple NIDs,
792     which must all be identified so other nodes can choose the NID that is
793     appropriate for their network interfaces. Typically, NIDs are specified in
794     a list delimited by commas (
795     <literal>,</literal>). However, when failover nodes are specified, the NIDs
796     are delimited by a colon (
797     <literal>:</literal>) or by repeating a keyword such as 
798     <literal>--mgsnode=</literal> or 
799     <literal>--servicenode=</literal>).</para>
800     <para>To display the NIDs of all servers in networks configured to work
801     with the Lustre file system, run (while LNet is running):</para>
802     <screen>
803 lctl list_nids
804 </screen>
805     <para>In the example below, 
806     <literal>mds0</literal> and 
807     <literal>mds1</literal> are configured as a combined MGS/MDT failover pair
808     and 
809     <literal>oss0</literal> and 
810     <literal>oss1</literal> are configured as an OST failover pair. The Ethernet
811     address for 
812     <literal>mds0</literal> is 192.168.10.1, and for 
813     <literal>mds1</literal> is 192.168.10.2. The Ethernet addresses for 
814     <literal>oss0</literal> and 
815     <literal>oss1</literal> are 192.168.10.20 and 192.168.10.21
816     respectively.</para>
817     <screen>
818 mds0# mkfs.lustre --fsname=testfs --mdt --mgs \
819         --servicenode=192.168.10.2@tcp0 \
820         -–servicenode=192.168.10.1@tcp0 /dev/sda1
821 mds0# mount -t lustre /dev/sda1 /mnt/test/mdt
822 oss0# mkfs.lustre --fsname=testfs --servicenode=192.168.10.20@tcp0 \
823         --servicenode=192.168.10.21 --ost --index=0 \
824         --mgsnode=192.168.10.1@tcp0 --mgsnode=192.168.10.2@tcp0 \
825         /dev/sdb
826 oss0# mount -t lustre /dev/sdb /mnt/test/ost0
827 client# mount -t lustre 192.168.10.1@tcp0:192.168.10.2@tcp0:/testfs \
828         /mnt/testfs
829 mds0# umount /mnt/mdt
830 mds1# mount -t lustre /dev/sda1 /mnt/test/mdt
831 mds1# lctl get_param mdt.testfs-MDT0000.recovery_status
832 </screen>
833     <para>Where multiple NIDs are specified separated by commas (for example, 
834     <literal>10.67.73.200@tcp,192.168.10.1@tcp</literal>), the two NIDs refer
835     to the same host, and the Lustre software chooses the 
836     <emphasis>best</emphasis> one for communication. When a pair of NIDs is
837     separated by a colon (for example, 
838     <literal>10.67.73.200@tcp:10.67.73.201@tcp</literal>), the two NIDs refer
839     to two different hosts and are treated as a failover pair (the Lustre
840     software tries the first one, and if that fails, it tries the second
841     one.)</para>
842     <para>Two options to 
843     <literal>mkfs.lustre</literal> can be used to specify failover nodes.  The
844     <literal>--servicenode</literal> option is used to specify all service NIDs,
845     including those for primary nodes and failover nodes. When the 
846     <literal>--servicenode</literal> option is used, the first service node to
847     load the target device becomes the primary service node, while nodes
848     corresponding to the other specified NIDs become failover locations for the
849     target device. An older option, <literal>--failnode</literal>, specifies
850     just the NIDs of failover nodes.  For more information about the 
851     <literal>--servicenode</literal> and 
852     <literal>--failnode</literal> options, see 
853     <xref xmlns:xlink="http://www.w3.org/1999/xlink"
854     linkend="configuringfailover" />.</para>
855   </section>
856   <section xml:id="dbdoclet.50438194_70905">
857     <title>
858     <indexterm>
859       <primary>operations</primary>
860       <secondary>erasing a file system</secondary>
861     </indexterm>Erasing a File System</title>
862     <para>If you want to erase a file system and permanently delete all the
863     data in the file system, run this command on your targets:</para>
864     <screen>
865 $ "mkfs.lustre --reformat"
866 </screen>
867     <para>If you are using a separate MGS and want to keep other file systems
868     defined on that MGS, then set the 
869     <literal>writeconf</literal> flag on the MDT for that file system. The 
870     <literal>writeconf</literal> flag causes the configuration logs to be
871     erased; they are regenerated the next time the servers start.</para>
872     <para>To set the 
873     <literal>writeconf</literal> flag on the MDT:</para>
874     <orderedlist>
875       <listitem>
876         <para>Unmount all clients/servers using this file system, run:</para>
877         <screen>
878 $ umount /mnt/lustre
879 </screen>
880       </listitem>
881       <listitem>
882         <para>Permanently erase the file system and, presumably, replace it
883         with another file system, run:</para>
884         <screen>
885 $ mkfs.lustre --reformat --fsname spfs --mgs --mdt --index=0 /dev/
886 <emphasis>{mdsdev}</emphasis>
887 </screen>
888       </listitem>
889       <listitem>
890         <para>If you have a separate MGS (that you do not want to reformat),
891         then add the 
892         <literal>--writeconf</literal> flag to 
893         <literal>mkfs.lustre</literal> on the MDT, run:</para>
894         <screen>
895 $ mkfs.lustre --reformat --writeconf --fsname spfs --mgsnode=
896 <replaceable>mgs_nid</replaceable> --mdt --index=0 
897 <replaceable>/dev/mds_device</replaceable>
898 </screen>
899       </listitem>
900     </orderedlist>
901     <note>
902       <para>If you have a combined MGS/MDT, reformatting the MDT reformats the
903       MGS as well, causing all configuration information to be lost; you can
904       start building your new file system. Nothing needs to be done with old
905       disks that will not be part of the new file system, just do not mount
906       them.</para>
907     </note>
908   </section>
909   <section xml:id="dbdoclet.50438194_16954">
910     <title>
911     <indexterm>
912       <primary>operations</primary>
913       <secondary>reclaiming space</secondary>
914     </indexterm>Reclaiming Reserved Disk Space</title>
915     <para>All current Lustre installations run the ldiskfs file system
916     internally on service nodes. By default, ldiskfs reserves 5% of the disk
917     space to avoid file system fragmentation. In order to reclaim this space,
918     run the following command on your OSS for each OST in the file
919     system:</para>
920     <screen>
921 tune2fs [-m reserved_blocks_percent] /dev/
922 <emphasis>{ostdev}</emphasis>
923 </screen>
924     <para>You do not need to shut down Lustre before running this command or
925     restart it afterwards.</para>
926     <warning>
927       <para>Reducing the space reservation can cause severe performance
928       degradation as the OST file system becomes more than 95% full, due to
929       difficulty in locating large areas of contiguous free space. This
930       performance degradation may persist even if the space usage drops below
931       95% again. It is recommended NOT to reduce the reserved disk space below
932       5%.</para>
933     </warning>
934   </section>
935   <section xml:id="dbdoclet.50438194_69998">
936     <title>
937     <indexterm>
938       <primary>operations</primary>
939       <secondary>replacing an OST or MDS</secondary>
940     </indexterm>Replacing an Existing OST or MDT</title>
941     <para>To copy the contents of an existing OST to a new OST (or an old MDT
942     to a new MDT), follow the process for either OST/MDT backups in 
943     <xref linkend='dbdoclet.backup_device' />or 
944     <xref linkend='backup_fs_level' />.
945     For more information on removing a MDT, see 
946     <xref linkend='lustremaint.rmremotedir' />.</para>
947   </section>
948   <section xml:id="dbdoclet.50438194_30872">
949     <title>
950     <indexterm>
951       <primary>operations</primary>
952       <secondary>identifying OSTs</secondary>
953     </indexterm>Identifying To Which Lustre File an OST Object Belongs</title>
954     <para>Use this procedure to identify the file containing a given object on
955     a given OST.</para>
956     <orderedlist>
957       <listitem>
958         <para>On the OST (as root), run 
959         <literal>debugfs</literal> to display the file identifier (
960         <literal>FID</literal>) of the file associated with the object.</para>
961         <para>For example, if the object is 
962         <literal>34976</literal> on 
963         <literal>/dev/lustre/ost_test2</literal>, the debug command is: 
964         <screen>
965 # debugfs -c -R "stat /O/0/d$((34976 % 32))/34976" /dev/lustre/ost_test2 
966 </screen></para>
967         <para>The command output is: 
968         <screen>
969 debugfs 1.42.3.wc3 (15-Aug-2012)
970 /dev/lustre/ost_test2: catastrophic mode - not reading inode or group bitmaps
971 Inode: 352365   Type: regular    Mode:  0666   Flags: 0x80000
972 Generation: 2393149953    Version: 0x0000002a:00005f81
973 User:  1000   Group:  1000   Size: 260096
974 File ACL: 0    Directory ACL: 0
975 Links: 1   Blockcount: 512
976 Fragment:  Address: 0    Number: 0    Size: 0
977 ctime: 0x4a216b48:00000000 -- Sat May 30 13:22:16 2009
978 atime: 0x4a216b48:00000000 -- Sat May 30 13:22:16 2009
979 mtime: 0x4a216b48:00000000 -- Sat May 30 13:22:16 2009
980 crtime: 0x4a216b3c:975870dc -- Sat May 30 13:22:04 2009
981 Size of extra inode fields: 24
982 Extended attributes stored in inode body:
983   fid = "b9 da 24 00 00 00 00 00 6a fa 0d 3f 01 00 00 00 eb 5b 0b 00 00 00 0000
984 00 00 00 00 00 00 00 00 " (32)
985   fid: objid=34976 seq=0 parent=[0x24dab9:0x3f0dfa6a:0x0] stripe=1
986 EXTENTS:
987 (0-64):4620544-4620607
988 </screen></para>
989       </listitem>
990       <listitem>
991         <para>For Lustre software release 2.x file systems, the parent FID will
992         be of the form [0x200000400:0x122:0x0] and can be resolved directly
993         using the 
994         <literal>lfs fid2path [0x200000404:0x122:0x0]
995         /mnt/lustre</literal> command on any Lustre client, and the process is
996         complete.</para>
997       </listitem>
998       <listitem>
999         <para>In this example the parent inode FID is an upgraded 1.x inode
1000         (due to the first part of the FID being below 0x200000400), the MDT
1001         inode number is 
1002         <literal>0x24dab9</literal> and generation 
1003         <literal>0x3f0dfa6a</literal> and the pathname needs to be resolved
1004         using 
1005         <literal>debugfs</literal>.</para>
1006       </listitem>
1007       <listitem>
1008         <para>On the MDS (as root), use 
1009         <literal>debugfs</literal> to find the file associated with the
1010         inode:</para>
1011         <screen>
1012 # debugfs -c -R "ncheck 0x24dab9" /dev/lustre/mdt_test 
1013 </screen>
1014         <para>Here is the command output:</para>
1015         <screen>
1016 debugfs 1.42.3.wc2 (15-Aug-2012)
1017 /dev/lustre/mdt_test: catastrophic mode - not reading inode or group bitmap\
1018 s
1019 Inode      Pathname
1020 2415289    /ROOT/brian-laptop-guest/clients/client11/~dmtmp/PWRPNT/ZD16.BMP
1021 </screen>
1022       </listitem>
1023     </orderedlist>
1024     <para>The command lists the inode and pathname associated with the
1025     object.</para>
1026     <note>
1027       <para>
1028       <literal>Debugfs</literal>' ''ncheck'' is a brute-force search that may
1029       take a long time to complete.</para>
1030     </note>
1031     <note>
1032       <para>To find the Lustre file from a disk LBA, follow the steps listed in
1033       the document at this URL: 
1034       <link xl:href="http://smartmontools.sourceforge.net/badblockhowto.html">
1035       http://smartmontools.sourceforge.net/badblockhowto.html</link>. Then,
1036       follow the steps above to resolve the Lustre filename.</para>
1037     </note>
1038   </section>
1039 </chapter>