Whamcloud - gitweb
b99b4b6ca6af5903bb722f64edbaea7a91cb2d1d
[fs/lustre-release.git] / lustre / tests / mmp.sh
1 #!/bin/bash
2 # -*- mode: Bash; tab-width: 4; indent-tabs-mode: t; -*-
3 # vim:shiftwidth=4:softtabstop=4:tabstop=4:
4 #
5 # Tests for multiple mount protection (MMP) feature.
6 #
7 # Run select tests by setting ONLY, or as arguments to the script.
8 # Skip specific tests by setting EXCEPT.
9 #
10 # e.g. ONLY="5 6" or ONLY="`seq 8 11`" or EXCEPT="7"
11 set -e
12
13 ONLY=${ONLY:-"$*"}
14
15 # bug number for skipped test:
16 ALWAYS_EXCEPT=${ALWAYS_EXCEPT:-"$MMP_EXCEPT"}
17 # UPDATE THE COMMENT ABOVE WITH BUG NUMBERS WHEN CHANGING ALWAYS_EXCEPT!
18
19 SRCDIR=$(cd $(dirname $0); echo $PWD)
20 export PATH=$PWD/$SRCDIR:$SRCDIR:$SRCDIR/../utils:$PATH:/sbin
21
22 LUSTRE=${LUSTRE:-$(cd $(dirname $0)/..; echo $PWD)}
23 . $LUSTRE/tests/test-framework.sh
24 init_test_env $@
25 . ${CONFIG:=$LUSTRE/tests/cfg/$NAME.sh}
26 init_logging
27
28 remote_mds_nodsh && skip "remote MDS with nodsh" && exit 0
29 remote_ost_nodsh && skip "remote OST with nodsh" && exit 0
30 [ "$MDSFSTYPE" != "ldiskfs" ] && skip "MDS not running ldiskfs" && exit 0
31 [ "$OSTFSTYPE" != "ldiskfs" ] && skip "OST not running ldiskfs" && exit 0
32
33 # unmount and cleanup the Lustre filesystem
34 MMP_RESTORE_MOUNT=false
35 if is_mounted $MOUNT || is_mounted $MOUNT2; then
36     cleanupall
37     MMP_RESTORE_MOUNT=true
38 fi
39
40 SAVED_FAIL_ON_ERROR=$FAIL_ON_ERROR
41 FAIL_ON_ERROR=false
42
43 build_test_filter
44
45 # Get the failover facet.
46 get_failover_facet() {
47     local facet=$1
48     local failover_facet=${facet}failover
49
50     local host=$(facet_host $facet)
51     local failover_host=$(facet_host $failover_facet)
52
53     [ -z "$failover_host" -o "$host" = "$failover_host" ] && \
54         failover_facet=$facet
55
56     echo $failover_facet
57 }
58
59 # Initiate the variables for Lustre servers and targets.
60 init_vars() {
61     MMP_MDS=${MMP_MDS:-$SINGLEMDS}
62     MMP_MDS_FAILOVER=$(get_failover_facet $MMP_MDS)
63
64     local mds_num=$(echo $MMP_MDS | tr -d "mds")
65     MMP_MDSDEV=$(mdsdevname $mds_num)
66
67     MMP_OSS=${MMP_OSS:-ost1}
68     MMP_OSS_FAILOVER=$(get_failover_facet $MMP_OSS)
69
70     local oss_num=$(echo $MMP_OSS | tr -d "ost")
71     MMP_OSTDEV=$(ostdevname $oss_num)
72 }
73
74 # Stop the MDS and OSS services on the primary or failover servers.
75 stop_services() {
76     local flavor=$1
77     shift
78     local opts="$@"
79     local mds_facet
80     local oss_facet
81
82     if [ "$flavor" = "failover" ]; then
83         mds_facet=$MMP_MDS_FAILOVER
84         oss_facet=$MMP_OSS_FAILOVER
85     else
86         mds_facet=$MMP_MDS
87         oss_facet=$MMP_OSS
88     fi
89
90     stop $mds_facet $opts || return ${PIPESTATUS[0]}
91     stop $oss_facet $opts || return ${PIPESTATUS[0]}
92 }
93
94 # Enable the MMP feature.
95 enable_mmp() {
96     local facet=$1
97     local device=$2
98
99     do_facet $facet "$TUNE2FS -O mmp $device"
100     return ${PIPESTATUS[0]}
101 }
102
103 # Disable the MMP feature.
104 disable_mmp() {
105     local facet=$1
106     local device=$2
107
108     do_facet $facet "$TUNE2FS -O ^mmp $device"
109     return ${PIPESTATUS[0]}
110 }
111
112 # Set the MMP block to 'fsck' state
113 mark_mmp_block() {
114     local facet=$1
115     local device=$2
116
117     do_facet $facet "$LUSTRE/tests/mmp_mark.sh $device"
118     return ${PIPESTATUS[0]}
119 }
120
121 # Reset the MMP block (if any) back to the clean state.
122 reset_mmp_block() {
123     local facet=$1
124     local device=$2
125
126     do_facet $facet "$TUNE2FS -f -E clear-mmp $device"
127     return ${PIPESTATUS[0]}
128 }
129
130 # Check whether the MMP feature is enabled or not.
131 mmp_is_enabled() {
132     local facet=$1
133     local device=$2
134
135     do_facet $facet "$DUMPE2FS -h $device | grep mmp"
136     return ${PIPESTATUS[0]}
137 }
138
139 # Get MMP update interval (in seconds) from the Lustre server target.
140 get_mmp_update_interval() {
141     local facet=$1
142     local device=$2
143     local interval
144
145     interval=$(do_facet $facet "$DEBUGFS -c -R dump_mmp $device 2>/dev/null \
146                 | grep 'MMP Update Interval' | cut -d' ' -f4")
147     [ -z "$interval" ] && interval=1
148
149     echo $interval
150 }
151
152 # Get MMP check interval (in seconds) from the Lustre server target.
153 get_mmp_check_interval() {
154     local facet=$1
155     local device=$2
156     local interval
157
158     interval=$(do_facet $facet "$DEBUGFS -c -R dump_mmp $device 2>/dev/null \
159                 | grep 'MMP Check Interval' | cut -d' ' -f4")
160     [ -z "$interval" ] && interval=5
161
162     echo $interval
163 }
164
165 # Enable the MMP feature on the Lustre server targets.
166 mmp_init() {
167     init_vars
168
169     # The MMP feature is automatically enabled by mkfs.lustre for
170     # new file system at format time if failover is being used.
171     # Otherwise, the Lustre administrator has to manually enable
172     # this feature when the file system is unmounted.
173
174     local var=${MMP_MDS}failover_HOST
175     if [ -z "${!var}" ]; then
176         log "Failover is not used on MDS, enabling MMP manually..."
177         enable_mmp $MMP_MDS $MMP_MDSDEV || \
178             error "failed to enable MMP on $MMP_MDSDEV on $MMP_MDS"
179     fi
180
181     var=${MMP_OSS}failover_HOST
182     if [ -z "${!var}" ]; then
183         log "Failover is not used on OSS, enabling MMP manually..."
184         enable_mmp $MMP_OSS $MMP_OSTDEV || \
185             error "failed to enable MMP on $MMP_OSTDEV on $MMP_OSS"
186     fi
187
188     # check whether the MMP feature is enabled or not
189     mmp_is_enabled $MMP_MDS $MMP_MDSDEV || \
190         error "MMP was not enabled on $MMP_MDSDEV on $MMP_MDS"
191
192     mmp_is_enabled $MMP_OSS $MMP_OSTDEV || \
193         error "MMP was not enabled on $MMP_OSTDEV on $MMP_OSS"
194 }
195
196 # Disable the MMP feature on the Lustre server targets
197 # which did not use failover.
198 mmp_fini() {
199
200     local var=${MMP_MDS}failover_HOST
201     if [ -z "${!var}" ]; then
202         log "Failover is not used on MDS, disabling MMP manually..."
203         disable_mmp $MMP_MDS $MMP_MDSDEV || \
204             error "failed to disable MMP on $MMP_MDSDEV on $MMP_MDS"
205         mmp_is_enabled $MMP_MDS $MMP_MDSDEV && \
206             error "MMP was not disabled on $MMP_MDSDEV on $MMP_MDS"
207     fi
208
209     var=${MMP_OSS}failover_HOST
210     if [ -z "${!var}" ]; then
211         log "Failover is not used on OSS, disabling MMP manually..."
212         disable_mmp $MMP_OSS $MMP_OSTDEV || \
213             error "failed to disable MMP on $MMP_OSTDEV on $MMP_OSS"
214         mmp_is_enabled $MMP_OSS $MMP_OSTDEV && \
215             error "MMP was not disabled on $MMP_OSTDEV on $MMP_OSS"
216     fi
217
218     return 0
219 }
220
221 # Mount the shared target on the failover server after some interval it's 
222 # mounted on the primary server.
223 mount_after_interval_sub() {
224     local interval=$1
225     shift
226     local device=$1
227     shift
228     local facet=$1
229     shift
230     local opts="$@"
231     local failover_facet=$(get_failover_facet $facet)
232
233     local mount_pid
234     local first_mount_rc=0
235     local second_mount_rc=0
236
237     log "Mounting $device on $facet..."
238     start $facet $device $opts &
239     mount_pid=$!
240
241     if [ $interval -ne 0 ]; then
242         log "sleep $interval..."
243         sleep $interval
244     fi
245
246     log "Mounting $device on $failover_facet..."
247     start $failover_facet $device $opts
248     second_mount_rc=${PIPESTATUS[0]}
249
250     wait $mount_pid
251     first_mount_rc=${PIPESTATUS[0]}
252
253     if [ $second_mount_rc -eq 0 -a $first_mount_rc -eq 0 ]; then
254         error_noexit "one mount delayed by mmp interval $interval should fail"
255         stop $facet || return ${PIPESTATUS[0]}
256         [ "$failover_facet" != "$facet" ] && stop $failover_facet || \
257             return ${PIPESTATUS[0]}
258         return 1
259     elif [ $second_mount_rc -ne 0 -a $first_mount_rc -ne 0 ]; then
260         error_noexit "failed to mount on the failover pair $facet,$failover_facet"
261         return $first_mount_rc
262     fi
263
264     return 0
265 }
266
267 mount_after_interval() {
268     local mdt_interval=$1
269     local ost_interval=$2
270     local rc=0
271
272     mount_after_interval_sub $mdt_interval $MMP_MDSDEV $MMP_MDS \
273         $MDS_MOUNT_OPTS || return ${PIPESTATUS[0]}
274
275     echo
276     mount_after_interval_sub $ost_interval $MMP_OSTDEV $MMP_OSS $OST_MOUNT_OPTS
277     rc=${PIPESTATUS[0]}
278     if [ $rc -ne 0 ]; then
279         stop $MMP_MDS
280         return $rc
281     fi
282
283     return 0
284 }
285
286 # Mount the shared target on the failover server 
287 # during unmounting it on the primary server.
288 mount_during_unmount() {
289     local device=$1
290     shift
291     local facet=$1
292     shift
293     local mnt_opts="$@"
294     local failover_facet=$(get_failover_facet $facet)
295
296     local unmount_pid
297     local unmount_rc=0
298     local mount_rc=0
299
300     log "Mounting $device on $facet..."
301     start $facet $device $mnt_opts || return ${PIPESTATUS[0]}
302
303     log "Unmounting $device on $facet..."
304     stop $facet &
305     unmount_pid=$!
306
307     log "Mounting $device on $failover_facet..."
308     start $failover_facet $device $mnt_opts
309     mount_rc=${PIPESTATUS[0]}
310
311     wait $unmount_pid
312     unmount_rc=${PIPESTATUS[0]}
313
314     if [ $mount_rc -eq 0 ]; then
315         error_noexit "mount during unmount of the first filesystem should fail"
316         stop $failover_facet || return ${PIPESTATUS[0]}
317         return 1
318     fi
319
320     if [ $unmount_rc -ne 0 ]; then
321         error_noexit "unmount the $device on $facet should succeed"
322         return $unmount_rc
323     fi
324
325     return 0
326 }
327
328 # Mount the shared target on the failover server 
329 # after clean unmounting it on the primary server.
330 mount_after_unmount() {
331     local device=$1
332     shift
333     local facet=$1
334     shift
335     local mnt_opts="$@"
336     local failover_facet=$(get_failover_facet $facet)
337
338     log "Mounting $device on $facet..."
339     start $facet $device $mnt_opts || return ${PIPESTATUS[0]}
340
341     log "Unmounting $device on $facet..."
342     stop $facet || return ${PIPESTATUS[0]} 
343
344     log "Mounting $device on $failover_facet..."
345     start $failover_facet $device $mnt_opts || return ${PIPESTATUS[0]}
346
347     return 0
348 }
349
350 # Mount the shared target on the failover server after rebooting
351 # the primary server.
352 mount_after_reboot() {
353     local device=$1
354     shift
355     local facet=$1
356     shift
357     local mnt_opts="$@"
358     local failover_facet=$(get_failover_facet $facet)
359     local rc=0
360
361     log "Mounting $device on $facet..."
362     start $facet $device $mnt_opts || return ${PIPESTATUS[0]}
363
364     if [ "$FAILURE_MODE" = "HARD" ]; then
365         shutdown_facet $facet
366         reboot_facet $facet
367         wait_for_facet $facet
368     else
369         replay_barrier_nodf $facet
370     fi
371
372     log "Mounting $device on $failover_facet..."
373     start $failover_facet $device $mnt_opts
374     rc=${PIPESTATUS[0]}
375     if [ $rc -ne 0 ]; then
376         error_noexit "mount $device on $failover_facet should succeed"
377         stop $facet || return ${PIPESTATUS[0]}
378         return $rc
379     fi
380
381     return 0
382 }
383
384 # Run e2fsck on the Lustre server target.
385 run_e2fsck() {
386     local facet=$1
387     shift
388     local device=$1
389     shift
390     local opts="$@"
391
392     log "Running e2fsck on the device $device on $facet..."
393     do_facet $facet "$E2FSCK $opts $device"
394     return ${PIPESTATUS[0]}
395 }
396
397 # Check whether there are failover pairs for MDS and OSS servers.
398 check_failover_pair() {
399     [ "$MMP_MDS" = "$MMP_MDS_FAILOVER" -o "$MMP_OSS" = "$MMP_OSS_FAILOVER" ] \
400         && { skip_env "failover pair is needed" && return 1; }
401     return 0
402 }
403
404 mmp_init
405
406 # Test 1 - two mounts at the same time.
407 test_1() {
408     check_failover_pair || return 0
409
410     mount_after_interval 0 0 || return ${PIPESTATUS[0]}
411     stop_services primary || return ${PIPESTATUS[0]}
412 }
413 run_test 1 "two mounts at the same time"
414
415 # Test 2 - one mount delayed by mmp update interval.
416 test_2() {
417     check_failover_pair || return 0
418
419     local mdt_interval=$(get_mmp_update_interval $MMP_MDS $MMP_MDSDEV)
420     local ost_interval=$(get_mmp_update_interval $MMP_OSS $MMP_OSTDEV)
421
422     mount_after_interval $mdt_interval $ost_interval || return ${PIPESTATUS[0]}
423     stop_services primary || return ${PIPESTATUS[0]}
424 }
425 run_test 2 "one mount delayed by mmp update interval"
426
427 # Test 3 - one mount delayed by 2x mmp check interval.
428 test_3() {
429     check_failover_pair || return 0
430
431     local mdt_interval=$(get_mmp_check_interval $MMP_MDS $MMP_MDSDEV)
432     local ost_interval=$(get_mmp_check_interval $MMP_OSS $MMP_OSTDEV)
433
434     mdt_interval=$((2 * $mdt_interval + 1))
435     ost_interval=$((2 * $ost_interval + 1))
436
437     mount_after_interval $mdt_interval $ost_interval || return ${PIPESTATUS[0]}
438     stop_services primary || return ${PIPESTATUS[0]}
439 }
440 run_test 3 "one mount delayed by 2x mmp check interval"
441
442 # Test 4 - one mount delayed by > 2x mmp check interval.
443 test_4() {
444     check_failover_pair || return 0
445
446     local mdt_interval=$(get_mmp_check_interval $MMP_MDS $MMP_MDSDEV)
447     local ost_interval=$(get_mmp_check_interval $MMP_OSS $MMP_OSTDEV)
448
449     mdt_interval=$((4 * $mdt_interval))
450     ost_interval=$((4 * $ost_interval))
451
452     mount_after_interval $mdt_interval $ost_interval || return ${PIPESTATUS[0]}
453     stop_services primary || return ${PIPESTATUS[0]}
454 }
455 run_test 4 "one mount delayed by > 2x mmp check interval"
456
457 # Test 5 - mount during unmount of the first filesystem.
458 test_5() {
459     local rc=0
460     check_failover_pair || return 0
461
462     mount_during_unmount $MMP_MDSDEV $MMP_MDS $MDS_MOUNT_OPTS || \
463         return ${PIPESTATUS[0]}
464
465     echo
466     start $MMP_MDS $MMP_MDSDEV $MDS_MOUNT_OPTS || return ${PIPESTATUS[0]}
467     mount_during_unmount $MMP_OSTDEV $MMP_OSS $OST_MOUNT_OPTS
468     rc=${PIPESTATUS[0]}
469     if [ $rc -ne 0 ]; then
470         stop $MMP_MDS || return ${PIPESTATUS[0]}
471         return $rc
472     fi
473
474     stop $MMP_MDS || return ${PIPESTATUS[0]}
475 }
476 run_test 5 "mount during unmount of the first filesystem"
477
478 # Test 6 - mount after clean unmount.
479 test_6() {
480     local rc=0
481     check_failover_pair || return 0
482
483     mount_after_unmount $MMP_MDSDEV $MMP_MDS $MDS_MOUNT_OPTS || \
484         return ${PIPESTATUS[0]}
485
486     echo
487     mount_after_unmount $MMP_OSTDEV $MMP_OSS $OST_MOUNT_OPTS
488     rc=${PIPESTATUS[0]}
489     if [ $rc -ne 0 ]; then
490         stop $MMP_MDS_FAILOVER || return ${PIPESTATUS[0]}
491         return $rc
492     fi
493
494     stop_services failover || return ${PIPESTATUS[0]}
495 }
496 run_test 6 "mount after clean unmount"
497
498 # Test 7 - mount after reboot.
499 test_7() {
500     local rc=0
501     check_failover_pair || return 0
502
503     mount_after_reboot $MMP_MDSDEV $MMP_MDS $MDS_MOUNT_OPTS || \
504         return ${PIPESTATUS[0]}
505
506     echo
507     mount_after_reboot $MMP_OSTDEV $MMP_OSS $OST_MOUNT_OPTS
508     rc=${PIPESTATUS[0]}
509     if [ $rc -ne 0 ]; then
510         stop $MMP_MDS || return ${PIPESTATUS[0]}
511         stop $MMP_MDS_FAILOVER || return ${PIPESTATUS[0]}
512         return $rc
513     fi
514
515     stop_services failover || return ${PIPESTATUS[0]}
516     stop_services primary || return ${PIPESTATUS[0]}
517 }
518 run_test 7 "mount after reboot"
519
520 # Test 8 - mount during e2fsck (should never succeed).
521 test_8() {
522     local e2fsck_pid
523
524     run_e2fsck $MMP_MDS $MMP_MDSDEV "-fy" &
525     e2fsck_pid=$!
526     sleep 1
527
528     log "Mounting $MMP_MDSDEV on $MMP_MDS_FAILOVER..."
529     if start $MMP_MDS_FAILOVER $MMP_MDSDEV $MDS_MOUNT_OPTS; then
530         error_noexit "mount $MMP_MDSDEV on $MMP_MDS_FAILOVER should fail"
531         stop $MMP_MDS_FAILOVER || return ${PIPESTATUS[0]}
532         return 1
533     fi
534
535     wait $e2fsck_pid
536
537     echo
538     run_e2fsck $MMP_OSS $MMP_OSTDEV "-fy" &
539     e2fsck_pid=$!
540     sleep 1
541
542     log "Mounting $MMP_OSTDEV on $MMP_OSS_FAILOVER..."
543     if start $MMP_OSS_FAILOVER $MMP_OSTDEV $OST_MOUNT_OPTS; then
544         error_noexit "mount $MMP_OSTDEV on $MMP_OSS_FAILOVER should fail"
545         stop $MMP_OSS_FAILOVER || return ${PIPESTATUS[0]}
546         return 2
547     fi
548
549     wait $e2fsck_pid
550     return 0
551 }
552 run_test 8 "mount during e2fsck"
553
554 # Test 9 - mount after aborted e2fsck (should never succeed).
555 test_9() {
556     start $MMP_MDS $MMP_MDSDEV $MDS_MOUNT_OPTS || return ${PIPESTATUS[0]}
557     if ! start $MMP_OSS $MMP_OSTDEV $OST_MOUNT_OPTS; then
558         local rc=${PIPESTATUS[0]}
559         stop $MMP_MDS || return ${PIPESTATUS[0]}
560         return $rc
561     fi
562     stop_services primary || return ${PIPESTATUS[0]}
563
564     mark_mmp_block $MMP_MDS $MMP_MDSDEV || return ${PIPESTATUS[0]}
565     
566     log "Mounting $MMP_MDSDEV on $MMP_MDS..."
567     if start $MMP_MDS $MMP_MDSDEV $MDS_MOUNT_OPTS; then
568         error_noexit "mount $MMP_MDSDEV on $MMP_MDS should fail"
569         stop $MMP_MDS || return ${PIPESTATUS[0]}
570         return 1
571     fi
572
573     reset_mmp_block $MMP_MDS $MMP_MDSDEV || return ${PIPESTATUS[0]}
574
575     mark_mmp_block $MMP_OSS $MMP_OSTDEV || return ${PIPESTATUS[0]}
576
577     log "Mounting $MMP_OSTDEV on $MMP_OSS..."
578     if start $MMP_OSS $MMP_OSTDEV $OST_MOUNT_OPTS; then
579         error_noexit "mount $MMP_OSTDEV on $MMP_OSS should fail"
580         stop $MMP_OSS || return ${PIPESTATUS[0]}
581         return 2
582     fi
583
584     reset_mmp_block $MMP_OSS $MMP_OSTDEV || return ${PIPESTATUS[0]}
585     return 0
586 }
587 run_test 9 "mount after aborted e2fsck"
588
589 # Test 10 - e2fsck with mounted filesystem.
590 test_10() {
591     local rc=0
592
593     log "Mounting $MMP_MDSDEV on $MMP_MDS..."
594     start $MMP_MDS $MMP_MDSDEV $MDS_MOUNT_OPTS || return ${PIPESTATUS[0]}
595
596     run_e2fsck $MMP_MDS_FAILOVER $MMP_MDSDEV "-fn"
597     rc=${PIPESTATUS[0]}
598
599     # e2fsck is called with -n option (Open the filesystem read-only), so
600     # 0 (No errors) and 4 (File system errors left uncorrected) are the only
601     # acceptable exit codes in this case
602     if [ $rc -ne 0 ] && [ $rc -ne 4 ]; then
603         error_noexit "e2fsck $MMP_MDSDEV on $MMP_MDS_FAILOVER returned $rc"
604         stop $MMP_MDS || return ${PIPESTATUS[0]}
605         return $rc
606     fi
607
608     log "Mounting $MMP_OSTDEV on $MMP_OSS..."
609     start $MMP_OSS $MMP_OSTDEV $OST_MOUNT_OPTS
610     rc=${PIPESTATUS[0]}
611     if [ $rc -ne 0 ]; then
612         stop $MMP_MDS || return ${PIPESTATUS[0]}
613         return $rc
614     fi
615
616     run_e2fsck $MMP_OSS_FAILOVER $MMP_OSTDEV "-fn"
617     rc=${PIPESTATUS[0]}
618     if [ $rc -ne 0 ] && [ $rc -ne 4 ]; then
619         error_noexit "e2fsck $MMP_OSTDEV on $MMP_OSS_FAILOVER returned $rc"
620     fi
621
622     stop_services primary || return ${PIPESTATUS[0]}
623     return 0
624 }
625 run_test 10 "e2fsck with mounted filesystem"
626
627 mmp_fini
628 FAIL_ON_ERROR=$SAVED_FAIL_ON_ERROR
629
630 complete $(basename $0) $SECONDS
631 $MMP_RESTORE_MOUNT && setupall
632 exit_status