Whamcloud - gitweb
b=20326 Test suite for MMP feature
[fs/lustre-release.git] / lustre / tests / mmp.sh
1 #!/bin/bash
2 # vim:expandtab:shiftwidth=4:softtabstop=4:tabstop=4:
3 #
4 # Tests for multiple mount protection (MMP) feature.
5 #
6 # Run select tests by setting ONLY, or as arguments to the script.
7 # Skip specific tests by setting EXCEPT.
8 #
9 # e.g. ONLY="5 6" or ONLY="`seq 8 11`" or EXCEPT="7"
10 set -e
11
12 ONLY=${ONLY:-"$*"}
13
14 # bug number for skipped test:
15 ALWAYS_EXCEPT=${ALWAYS_EXCEPT:-"$MMP_EXCEPT"}
16 # UPDATE THE COMMENT ABOVE WITH BUG NUMBERS WHEN CHANGING ALWAYS_EXCEPT!
17
18 SRCDIR=$(cd $(dirname $0); echo $PWD)
19 export PATH=$PWD/$SRCDIR:$SRCDIR:$SRCDIR/../utils:$PATH:/sbin
20
21 LUSTRE=${LUSTRE:-$(cd $(dirname $0)/..; echo $PWD)}
22 . $LUSTRE/tests/test-framework.sh
23 init_test_env $@
24 . ${CONFIG:=$LUSTRE/tests/cfg/$NAME.sh}
25
26 remote_mds_nodsh && skip "remote MDS with nodsh" && exit 0
27 remote_ost_nodsh && skip "remote OST with nodsh" && exit 0
28
29 # unmount and cleanup the Lustre filesystem
30 MMP_RESTORE_MOUNT=false
31 if is_mounted $MOUNT || is_mounted $MOUNT2; then
32     cleanupall
33     MMP_RESTORE_MOUNT=true
34 fi
35
36 SAVED_FAIL_ON_ERROR=$FAIL_ON_ERROR
37 FAIL_ON_ERROR=false
38
39 build_test_filter
40
41 # Get the failover facet.
42 get_failover_facet() {
43     local facet=$1
44     local failover_facet=${facet}failover
45
46     local host=$(facet_host $facet)
47     local failover_host=$(facet_host $failover_facet)
48
49     [ -z "$failover_host" -o "$host" = "$failover_host" ] && \
50         failover_facet=$facet
51
52     echo $failover_facet
53 }
54
55 # Initiate the variables for Lustre servers and targets.
56 init_vars() {
57     MMP_MDS=mds
58     MMP_MDS_FAILOVER=$(get_failover_facet $MMP_MDS)
59
60     MMP_MDSDEV=$MDSDEV
61
62     MMP_OSS=${MMP_OSS:-ost1}
63     MMP_OSS_FAILOVER=$(get_failover_facet $MMP_OSS)
64
65     local oss_num=$(echo $MMP_OSS | tr -d "ost")
66     MMP_OSTDEV=$(ostdevname $oss_num)
67 }
68
69 # Stop the MDS and OSS services on the primary or failover servers.
70 stop_services() {
71     local flavor=$1
72     shift
73     local opts="$@"
74     local mds_facet
75     local oss_facet
76
77     if [ "$flavor" = "failover" ]; then
78         mds_facet=$MMP_MDS_FAILOVER
79         oss_facet=$MMP_OSS_FAILOVER
80     else
81         mds_facet=$MMP_MDS
82         oss_facet=$MMP_OSS
83     fi
84
85     stop $mds_facet $opts || return ${PIPESTATUS[0]}
86     stop $oss_facet $opts || return ${PIPESTATUS[0]}
87 }
88
89 # Enable the MMP feature.
90 enable_mmp() {
91     local facet=$1
92     local device=$2
93
94     do_facet $facet "$TUNE2FS -O mmp $device"
95     return ${PIPESTATUS[0]}
96 }
97
98 # Disable the MMP feature.
99 disable_mmp() {
100     local facet=$1
101     local device=$2
102
103     do_facet $facet "$TUNE2FS -O ^mmp $device"
104     return ${PIPESTATUS[0]}
105 }
106
107 # Reset the MMP block (if any) back to the clean state.
108 reset_mmp_block() {
109     local facet=$1
110     local device=$2
111
112     do_facet $facet "$TUNE2FS -f -E clear-mmp $device"
113     return ${PIPESTATUS[0]}
114 }
115
116 # Check whether the MMP feature is enabled or not.
117 mmp_is_enabled() {
118     local facet=$1
119     local device=$2
120
121     do_facet $facet "$DUMPE2FS -h $device | grep mmp"
122     return ${PIPESTATUS[0]}
123 }
124
125 # Get MMP update interval (in seconds) from the Lustre server target.
126 get_mmp_update_interval() {
127     local facet=$1
128     local device=$2
129     local interval
130
131     interval=$(do_facet $facet "$DEBUGFS -c -R dump_mmp $device 2>/dev/null \
132                 | grep 'MMP Update Interval' | cut -d' ' -f4")
133     [ -z "$interval" ] && interval=1
134
135     echo $interval
136 }
137
138 # Get MMP check interval (in seconds) from the Lustre server target.
139 get_mmp_check_interval() {
140     local facet=$1
141     local device=$2
142     local interval
143
144     interval=$(do_facet $facet "$DEBUGFS -c -R dump_mmp $device 2>/dev/null \
145                 | grep 'MMP Check Interval' | cut -d' ' -f4")
146     [ -z "$interval" ] && interval=5
147
148     echo $interval
149 }
150
151 # Enable the MMP feature on the Lustre server targets.
152 mmp_init() {
153     init_vars
154
155     # The MMP feature is automatically enabled by mkfs.lustre for
156     # new file system at format time if failover is being used.
157     # Otherwise, the Lustre administrator has to manually enable
158     # this feature when the file system is unmounted.
159
160     if [ -z "$mdsfailover_HOST" ]; then
161         log "Failover is not used on MDS, enabling MMP manually..."
162         enable_mmp $MMP_MDS $MMP_MDSDEV || \
163             error "failed to enable MMP on $MMP_MDSDEV on $MMP_MDS"
164     fi
165
166     if [ -z "$ostfailover_HOST" ]; then
167         log "Failover is not used on OSS, enabling MMP manually..."
168         enable_mmp $MMP_OSS $MMP_OSTDEV || \
169             error "failed to enable MMP on $MMP_OSTDEV on $MMP_OSS"
170     fi
171
172     # check whether the MMP feature is enabled or not
173     mmp_is_enabled $MMP_MDS $MMP_MDSDEV || \
174         error "MMP was not enabled on $MMP_MDSDEV on $MMP_MDS"
175
176     mmp_is_enabled $MMP_OSS $MMP_OSTDEV || \
177         error "MMP was not enabled on $MMP_OSTDEV on $MMP_OSS"
178 }
179
180 # Disable the MMP feature on the Lustre server targets
181 # which did not use failover.
182 mmp_fini() {
183
184     if [ -z "$mdsfailover_HOST" ]; then
185         log "Failover is not used on MDS, disabling MMP manually..."
186         disable_mmp $MMP_MDS $MMP_MDSDEV || \
187             error "failed to disable MMP on $MMP_MDSDEV on $MMP_MDS"
188         mmp_is_enabled $MMP_MDS $MMP_MDSDEV && \
189             error "MMP was not disabled on $MMP_MDSDEV on $MMP_MDS"
190     fi
191
192     if [ -z "$ostfailover_HOST" ]; then
193         log "Failover is not used on OSS, disabling MMP manually..."
194         disable_mmp $MMP_OSS $MMP_OSTDEV || \
195             error "failed to disable MMP on $MMP_OSTDEV on $MMP_OSS"
196         mmp_is_enabled $MMP_OSS $MMP_OSTDEV && \
197             error "MMP was not disabled on $MMP_OSTDEV on $MMP_OSS"
198     fi
199
200     return 0
201 }
202
203 # Mount the shared target on the failover server after some interval it's 
204 # mounted on the primary server.
205 mount_after_interval_sub() {
206     local interval=$1
207     shift
208     local device=$1
209     shift
210     local facet=$1
211     shift
212     local opts="$@"
213     local failover_facet=$(get_failover_facet $facet)
214
215     local mount_pid
216     local first_mount_rc=0
217     local second_mount_rc=0
218
219     log "Mounting $device on $facet..."
220     start $facet $device $opts &
221     mount_pid=$!
222
223     if [ $interval -ne 0 ]; then
224         log "sleep $interval..."
225         sleep $interval
226     fi
227
228     log "Mounting $device on $failover_facet..."
229     start $failover_facet $device $opts
230     second_mount_rc=${PIPESTATUS[0]}
231
232     wait $mount_pid
233     first_mount_rc=${PIPESTATUS[0]}
234
235     if [ $second_mount_rc -eq 0 -a $first_mount_rc -eq 0 ]; then
236         error_noexit "one mount delayed by mmp interval $interval should fail"
237         stop $facet || return ${PIPESTATUS[0]}
238         [ "$failover_facet" != "$facet" ] && stop $failover_facet || \
239             return ${PIPESTATUS[0]}
240         return 1
241     elif [ $second_mount_rc -ne 0 -a $first_mount_rc -ne 0 ]; then
242         error_noexit "failed to mount on the failover pair $facet,$failover_facet"
243         return $first_mount_rc
244     fi
245
246     return 0
247 }
248
249 mount_after_interval() {
250     local mdt_interval=$1
251     local ost_interval=$2
252     local rc=0
253
254     mount_after_interval_sub $mdt_interval $MMP_MDSDEV $MMP_MDS \
255         $MDS_MOUNT_OPTS || return ${PIPESTATUS[0]}
256
257     echo
258     mount_after_interval_sub $ost_interval $MMP_OSTDEV $MMP_OSS $OST_MOUNT_OPTS
259     rc=${PIPESTATUS[0]}
260     if [ $rc -ne 0 ]; then
261         stop $MMP_MDS
262         return $rc
263     fi
264
265     return 0
266 }
267
268 # Mount the shared target on the failover server 
269 # during unmounting it on the primary server.
270 mount_during_unmount() {
271     local device=$1
272     shift
273     local facet=$1
274     shift
275     local mnt_opts="$@"
276     local failover_facet=$(get_failover_facet $facet)
277
278     local unmount_pid
279     local unmount_rc=0
280     local mount_rc=0
281
282     log "Mounting $device on $facet..."
283     start $facet $device $mnt_opts || return ${PIPESTATUS[0]}
284
285     stop $facet &
286     unmount_pid=$!
287
288     start $failover_facet $device $mnt_opts
289     mount_rc=${PIPESTATUS[0]}
290
291     wait $unmount_pid
292     unmount_rc=${PIPESTATUS[0]}
293
294     if [ $mount_rc -eq 0 ]; then
295         error_noexit "mount during unmount of the first filesystem should fail"
296         stop $failover_facet || return ${PIPESTATUS[0]}
297         return 1
298     fi
299
300     if [ $unmount_rc -ne 0 ]; then
301         error_noexit "unmount the $device on $facet should succeed"
302         return $unmount_rc
303     fi
304
305     return 0
306 }
307
308 # Mount the shared target on the failover server 
309 # after clean unmounting it on the primary server.
310 mount_after_unmount() {
311     local device=$1
312     shift
313     local facet=$1
314     shift
315     local mnt_opts="$@"
316     local failover_facet=$(get_failover_facet $facet)
317
318     log "Mounting $device on $facet..."
319     start $facet $device $mnt_opts || return ${PIPESTATUS[0]}
320
321     log "Unmounting $device on $facet..."
322     stop $facet || return ${PIPESTATUS[0]} 
323
324     log "Mounting $device on $failover_facet..."
325     start $failover_facet $device $mnt_opts || return ${PIPESTATUS[0]}
326
327     return 0
328 }
329
330 # Mount the shared target on the failover server after rebooting
331 # the primary server.
332 mount_after_reboot() {
333     local device=$1
334     shift
335     local facet=$1
336     shift
337     local mnt_opts="$@"
338     local failover_facet=$(get_failover_facet $facet)
339     local rc=0
340
341     log "Mounting $device on $facet..."
342     start $facet $device $mnt_opts || return ${PIPESTATUS[0]}
343
344     if [ "$FAILURE_MODE" = "HARD" ]; then
345         shutdown_facet $facet
346         reboot_facet $facet
347         wait_for $facet
348     else
349         replay_barrier_nodf $facet
350     fi
351
352     log "Mounting $device on $failover_facet..."
353     start $failover_facet $device $mnt_opts
354     rc=${PIPESTATUS[0]}
355     if [ $rc -ne 0 ]; then
356         error_noexit "mount $device on $failover_facet should succeed"
357         stop $facet || return ${PIPESTATUS[0]}
358         return $rc
359     fi
360
361     return 0
362 }
363
364 # Run e2fsck on the Lustre server target.
365 run_e2fsck() {
366     local facet=$1
367     shift
368     local device=$1
369     shift
370     local opts="$@"
371
372     log "Running e2fsck on the device $device on $facet..."
373     do_facet $facet "$E2FSCK $opts $device"
374     return ${PIPESTATUS[0]}
375 }
376
377 # Check whether there are failover pairs for MDS and OSS servers.
378 check_failover_pair() {
379     [ "$MMP_MDS" = "$MMP_MDS_FAILOVER" -o "$MMP_OSS" = "$MMP_OSS_FAILOVER" ] \
380         && { skip_env "failover pair is needed" && return 1; }
381     return 0
382 }
383
384 mmp_init
385
386 # Test 1 - two mounts at the same time.
387 test_1() {
388     check_failover_pair || return 0
389
390     mount_after_interval 0 0 || return ${PIPESTATUS[0]}
391     stop_services primary || return ${PIPESTATUS[0]}
392 }
393 run_test 1 "two mounts at the same time"
394
395 # Test 2 - one mount delayed by mmp update interval.
396 test_2() {
397     check_failover_pair || return 0
398
399     local mdt_interval=$(get_mmp_update_interval $MMP_MDS $MMP_MDSDEV)
400     local ost_interval=$(get_mmp_update_interval $MMP_OSS $MMP_OSTDEV)
401
402     mount_after_interval $mdt_interval $ost_interval || return ${PIPESTATUS[0]}
403     stop_services primary || return ${PIPESTATUS[0]}
404 }
405 run_test 2 "one mount delayed by mmp update interval"
406
407 # Test 3 - one mount delayed by 2x mmp check interval.
408 test_3() {
409     check_failover_pair || return 0
410
411     local mdt_interval=$(get_mmp_check_interval $MMP_MDS $MMP_MDSDEV)
412     local ost_interval=$(get_mmp_check_interval $MMP_OSS $MMP_OSTDEV)
413
414     mdt_interval=$((2 * $mdt_interval + 1))
415     ost_interval=$((2 * $ost_interval + 1))
416
417     mount_after_interval $mdt_interval $ost_interval || return ${PIPESTATUS[0]}
418     stop_services primary || return ${PIPESTATUS[0]}
419 }
420 run_test 3 "one mount delayed by 2x mmp check interval"
421
422 # Test 4 - one mount delayed by > 2x mmp check interval.
423 test_4() {
424     check_failover_pair || return 0
425
426     local mdt_interval=$(get_mmp_check_interval $MMP_MDS $MMP_MDSDEV)
427     local ost_interval=$(get_mmp_check_interval $MMP_OSS $MMP_OSTDEV)
428
429     mdt_interval=$((4 * $mdt_interval))
430     ost_interval=$((4 * $ost_interval))
431
432     mount_after_interval $mdt_interval $ost_interval || return ${PIPESTATUS[0]}
433     stop_services primary || return ${PIPESTATUS[0]}
434 }
435 run_test 4 "one mount delayed by > 2x mmp check interval"
436
437 # Test 5 - mount during unmount of the first filesystem.
438 test_5() {
439     local rc=0
440     check_failover_pair || return 0
441
442     mount_during_unmount $MMP_MDSDEV $MMP_MDS $MDS_MOUNT_OPTS || \
443         return ${PIPESTATUS[0]}
444
445     echo
446     start $MMP_MDS $MMP_MDSDEV $MDS_MOUNT_OPTS || return ${PIPESTATUS[0]}
447     mount_during_unmount $MMP_OSTDEV $MMP_OSS $OST_MOUNT_OPTS
448     rc=${PIPESTATUS[0]}
449     if [ $rc -ne 0 ]; then
450         stop $MMP_MDS || return ${PIPESTATUS[0]}
451         return $rc
452     fi
453
454     stop $MMP_MDS || return ${PIPESTATUS[0]}
455 }
456 run_test 5 "mount during unmount of the first filesystem"
457
458 # Test 6 - mount after clean unmount.
459 test_6() {
460     local rc=0
461     check_failover_pair || return 0
462
463     mount_after_unmount $MMP_MDSDEV $MMP_MDS $MDS_MOUNT_OPTS || \
464         return ${PIPESTATUS[0]}
465
466     echo
467     mount_after_unmount $MMP_OSTDEV $MMP_OSS $OST_MOUNT_OPTS
468     rc=${PIPESTATUS[0]}
469     if [ $rc -ne 0 ]; then
470         stop $MMP_MDS_FAILOVER || return ${PIPESTATUS[0]}
471         return $rc
472     fi
473
474     stop_services failover || return ${PIPESTATUS[0]}
475 }
476 run_test 6 "mount after clean unmount"
477
478 # Test 7 - mount after reboot.
479 test_7() {
480     local rc=0
481     check_failover_pair || return 0
482
483     mount_after_reboot $MMP_MDSDEV $MMP_MDS $MDS_MOUNT_OPTS || \
484         return ${PIPESTATUS[0]}
485
486     echo
487     mount_after_reboot $MMP_OSTDEV $MMP_OSS $OST_MOUNT_OPTS
488     rc=${PIPESTATUS[0]}
489     if [ $rc -ne 0 ]; then
490         stop $MMP_MDS || return ${PIPESTATUS[0]}
491         stop $MMP_MDS_FAILOVER || return ${PIPESTATUS[0]}
492         return $rc
493     fi
494
495     stop_services failover || return ${PIPESTATUS[0]}
496     stop_services primary || return ${PIPESTATUS[0]}
497 }
498 run_test 7 "mount after reboot"
499
500 # Test 8 - mount during e2fsck (should never succeed).
501 test_8() {
502     local e2fsck_pid
503
504     run_e2fsck $MMP_MDS $MMP_MDSDEV "-fy" &
505     e2fsck_pid=$!
506     sleep 1
507
508     log "Mounting $MMP_MDSDEV on $MMP_MDS_FAILOVER..."
509     if start $MMP_MDS_FAILOVER $MMP_MDSDEV $MDS_MOUNT_OPTS; then
510         error_noexit "mount $MMP_MDSDEV on $MMP_MDS_FAILOVER should fail"
511         stop $MMP_MDS_FAILOVER || return ${PIPESTATUS[0]}
512         return 1
513     fi
514
515     wait $e2fsck_pid
516
517     echo
518     run_e2fsck $MMP_OSS $MMP_OSTDEV "-fy" &
519     e2fsck_pid=$!
520     sleep 1
521
522     log "Mounting $MMP_OSTDEV on $MMP_OSS_FAILOVER..."
523     if start $MMP_OSS_FAILOVER $MMP_OSTDEV $OST_MOUNT_OPTS; then
524         error_noexit "mount $MMP_OSTDEV on $MMP_OSS_FAILOVER should fail"
525         stop $MMP_OSS_FAILOVER || return ${PIPESTATUS[0]}
526         return 2
527     fi
528
529     wait $e2fsck_pid
530     return 0
531 }
532 run_test 8 "mount during e2fsck"
533
534 # Test 9 - mount after aborted e2fsck (should never succeed).
535 test_9() {
536     local e2fsck_pid
537     local mdt_mmp_check_interval
538     local ost_mmp_check_interval
539
540     start $MMP_MDS $MMP_MDSDEV $MDS_MOUNT_OPTS || return ${PIPESTATUS[0]}
541     if ! start $MMP_OSS $MMP_OSTDEV $OST_MOUNT_OPTS; then
542         local rc=${PIPESTATUS[0]}
543         stop $MMP_MDS || return ${PIPESTATUS[0]}
544         return $rc
545     fi
546     stop_services primary || return ${PIPESTATUS[0]}
547
548     mdt_mmp_check_interval=$(get_mmp_check_interval $MMP_MDS $MMP_MDSDEV)
549     run_e2fsck $MMP_MDS_FAILOVER $MMP_MDSDEV "-fy" &
550     e2fsck_pid=$!
551     sleep $((2 * $mdt_mmp_check_interval))
552     kill -s ABRT $e2fsck_pid
553
554     log "Mounting $MMP_MDSDEV on $MMP_MDS..."
555     if start $MMP_MDS $MMP_MDSDEV $MDS_MOUNT_OPTS; then
556         error_noexit "mount $MMP_MDSDEV on $MMP_MDS should fail"
557         stop $MMP_MDS || return ${PIPESTATUS[0]}
558         return 1
559     fi
560
561     reset_mmp_block $MMP_MDS $MMP_MDSDEV || return ${PIPESTATUS[0]}
562
563     echo
564     ost_mmp_check_interval=$(get_mmp_check_interval $MMP_OSS $MMP_OSTDEV)
565     run_e2fsck $MMP_OSS_FAILOVER $MMP_OSTDEV "-fy" &
566     e2fsck_pid=$!
567     sleep $((2 * $ost_mmp_check_interval))
568     kill -s ABRT $e2fsck_pid
569
570     log "Mounting $MMP_OSTDEV on $MMP_OSS..."
571     if start $MMP_OSS $MMP_OSTDEV $OST_MOUNT_OPTS; then
572         error_noexit "mount $MMP_OSTDEV on $MMP_OSS should fail"
573         stop $MMP_OSS || return ${PIPESTATUS[0]}
574         return 2
575     fi
576
577     reset_mmp_block $MMP_OSS $MMP_OSTDEV || return ${PIPESTATUS[0]}
578     return 0
579 }
580 run_test 9 "mount after aborted e2fsck"
581
582 # Test 10 - e2fsck with mounted filesystem.
583 test_10() {
584     local rc=0
585
586     log "Mounting $MMP_MDSDEV on $MMP_MDS..."
587     start $MMP_MDS $MMP_MDSDEV $MDS_MOUNT_OPTS || return ${PIPESTATUS[0]}
588
589     run_e2fsck $MMP_MDS_FAILOVER $MMP_MDSDEV "-fn"
590     rc=${PIPESTATUS[0]}
591     if [ $rc -ne 8 ]; then
592         error_noexit "e2fsck $MMP_MDSDEV on $MMP_MDS_FAILOVER should return 8"
593         stop $MMP_MDS || return ${PIPESTATUS[0]}
594         [ $rc -ne 0 ] && return $rc || return 1
595     fi
596
597     log "Mounting $MMP_OSTDEV on $MMP_OSS..."
598     start $MMP_OSS $MMP_OSTDEV $OST_MOUNT_OPTS
599     rc=${PIPESTATUS[0]}
600     if [ $rc -ne 0 ]; then
601         stop $MMP_MDS || return ${PIPESTATUS[0]}
602         return $rc
603     fi
604
605     run_e2fsck $MMP_OSS_FAILOVER $MMP_OSTDEV "-fn"
606     rc=${PIPESTATUS[0]}
607     if [ $rc -ne 8 ]; then
608         error_noexit "e2fsck $MMP_OSTDEV on $MMP_OSS_FAILOVER should return 8"
609         stop_services primary || return ${PIPESTATUS[0]}
610         [ $rc -ne 0 ] && return $rc || return 1
611     fi
612
613     stop_services primary || return ${PIPESTATUS[0]}
614     return 0
615 }
616 run_test 10 "e2fsck with mounted filesystem"
617
618 mmp_fini
619 FAIL_ON_ERROR=$SAVED_FAIL_ON_ERROR
620
621 equals_msg $(basename $0): test complete
622 $MMP_RESTORE_MOUNT && setupall
623 [ -f "$TESTSUITELOG" ] && cat $TESTSUITELOG && \
624     grep -q FAIL $TESTSUITELOG && exit 1 || true
625 echo "$0: completed"