Whamcloud - gitweb
b=20407 TF: "HARD" failovers with multiple targets per server
[fs/lustre-release.git] / lustre / tests / mmp.sh
1 #!/bin/bash
2 # vim:expandtab:shiftwidth=4:softtabstop=4:tabstop=4:
3 #
4 # Tests for multiple mount protection (MMP) feature.
5 #
6 # Run select tests by setting ONLY, or as arguments to the script.
7 # Skip specific tests by setting EXCEPT.
8 #
9 # e.g. ONLY="5 6" or ONLY="`seq 8 11`" or EXCEPT="7"
10 set -e
11
12 ONLY=${ONLY:-"$*"}
13
14 # bug number for skipped test:
15 ALWAYS_EXCEPT=${ALWAYS_EXCEPT:-"$MMP_EXCEPT"}
16 # UPDATE THE COMMENT ABOVE WITH BUG NUMBERS WHEN CHANGING ALWAYS_EXCEPT!
17
18 SRCDIR=$(cd $(dirname $0); echo $PWD)
19 export PATH=$PWD/$SRCDIR:$SRCDIR:$SRCDIR/../utils:$PATH:/sbin
20
21 LUSTRE=${LUSTRE:-$(cd $(dirname $0)/..; echo $PWD)}
22 . $LUSTRE/tests/test-framework.sh
23 init_test_env $@
24 . ${CONFIG:=$LUSTRE/tests/cfg/$NAME.sh}
25 init_logging
26
27 remote_mds_nodsh && skip "remote MDS with nodsh" && exit 0
28 remote_ost_nodsh && skip "remote OST with nodsh" && exit 0
29
30 # unmount and cleanup the Lustre filesystem
31 MMP_RESTORE_MOUNT=false
32 if is_mounted $MOUNT || is_mounted $MOUNT2; then
33     cleanupall
34     MMP_RESTORE_MOUNT=true
35 fi
36
37 SAVED_FAIL_ON_ERROR=$FAIL_ON_ERROR
38 FAIL_ON_ERROR=false
39
40 build_test_filter
41
42 # Get the failover facet.
43 get_failover_facet() {
44     local facet=$1
45     local failover_facet=${facet}failover
46
47     local host=$(facet_host $facet)
48     local failover_host=$(facet_host $failover_facet)
49
50     [ -z "$failover_host" -o "$host" = "$failover_host" ] && \
51         failover_facet=$facet
52
53     echo $failover_facet
54 }
55
56 # Initiate the variables for Lustre servers and targets.
57 init_vars() {
58     MMP_MDS=${MMP_MDS:-$SINGLEMDS}
59     MMP_MDS_FAILOVER=$(get_failover_facet $MMP_MDS)
60
61     local mds_num=$(echo $MMP_MDS | tr -d "mds")
62     MMP_MDSDEV=$(mdsdevname $mds_num)
63
64     MMP_OSS=${MMP_OSS:-ost1}
65     MMP_OSS_FAILOVER=$(get_failover_facet $MMP_OSS)
66
67     local oss_num=$(echo $MMP_OSS | tr -d "ost")
68     MMP_OSTDEV=$(ostdevname $oss_num)
69 }
70
71 # Stop the MDS and OSS services on the primary or failover servers.
72 stop_services() {
73     local flavor=$1
74     shift
75     local opts="$@"
76     local mds_facet
77     local oss_facet
78
79     if [ "$flavor" = "failover" ]; then
80         mds_facet=$MMP_MDS_FAILOVER
81         oss_facet=$MMP_OSS_FAILOVER
82     else
83         mds_facet=$MMP_MDS
84         oss_facet=$MMP_OSS
85     fi
86
87     stop $mds_facet $opts || return ${PIPESTATUS[0]}
88     stop $oss_facet $opts || return ${PIPESTATUS[0]}
89 }
90
91 # Enable the MMP feature.
92 enable_mmp() {
93     local facet=$1
94     local device=$2
95
96     do_facet $facet "$TUNE2FS -O mmp $device"
97     return ${PIPESTATUS[0]}
98 }
99
100 # Disable the MMP feature.
101 disable_mmp() {
102     local facet=$1
103     local device=$2
104
105     do_facet $facet "$TUNE2FS -O ^mmp $device"
106     return ${PIPESTATUS[0]}
107 }
108
109 # Reset the MMP block (if any) back to the clean state.
110 reset_mmp_block() {
111     local facet=$1
112     local device=$2
113
114     do_facet $facet "$TUNE2FS -f -E clear-mmp $device"
115     return ${PIPESTATUS[0]}
116 }
117
118 # Check whether the MMP feature is enabled or not.
119 mmp_is_enabled() {
120     local facet=$1
121     local device=$2
122
123     do_facet $facet "$DUMPE2FS -h $device | grep mmp"
124     return ${PIPESTATUS[0]}
125 }
126
127 # Get MMP update interval (in seconds) from the Lustre server target.
128 get_mmp_update_interval() {
129     local facet=$1
130     local device=$2
131     local interval
132
133     interval=$(do_facet $facet "$DEBUGFS -c -R dump_mmp $device 2>/dev/null \
134                 | grep 'MMP Update Interval' | cut -d' ' -f4")
135     [ -z "$interval" ] && interval=1
136
137     echo $interval
138 }
139
140 # Get MMP check interval (in seconds) from the Lustre server target.
141 get_mmp_check_interval() {
142     local facet=$1
143     local device=$2
144     local interval
145
146     interval=$(do_facet $facet "$DEBUGFS -c -R dump_mmp $device 2>/dev/null \
147                 | grep 'MMP Check Interval' | cut -d' ' -f4")
148     [ -z "$interval" ] && interval=5
149
150     echo $interval
151 }
152
153 # Enable the MMP feature on the Lustre server targets.
154 mmp_init() {
155     init_vars
156
157     # The MMP feature is automatically enabled by mkfs.lustre for
158     # new file system at format time if failover is being used.
159     # Otherwise, the Lustre administrator has to manually enable
160     # this feature when the file system is unmounted.
161
162     if [ -z "$mdsfailover_HOST" ]; then
163         log "Failover is not used on MDS, enabling MMP manually..."
164         enable_mmp $MMP_MDS $MMP_MDSDEV || \
165             error "failed to enable MMP on $MMP_MDSDEV on $MMP_MDS"
166     fi
167
168     if [ -z "$ostfailover_HOST" ]; then
169         log "Failover is not used on OSS, enabling MMP manually..."
170         enable_mmp $MMP_OSS $MMP_OSTDEV || \
171             error "failed to enable MMP on $MMP_OSTDEV on $MMP_OSS"
172     fi
173
174     # check whether the MMP feature is enabled or not
175     mmp_is_enabled $MMP_MDS $MMP_MDSDEV || \
176         error "MMP was not enabled on $MMP_MDSDEV on $MMP_MDS"
177
178     mmp_is_enabled $MMP_OSS $MMP_OSTDEV || \
179         error "MMP was not enabled on $MMP_OSTDEV on $MMP_OSS"
180 }
181
182 # Disable the MMP feature on the Lustre server targets
183 # which did not use failover.
184 mmp_fini() {
185
186     if [ -z "$mdsfailover_HOST" ]; then
187         log "Failover is not used on MDS, disabling MMP manually..."
188         disable_mmp $MMP_MDS $MMP_MDSDEV || \
189             error "failed to disable MMP on $MMP_MDSDEV on $MMP_MDS"
190         mmp_is_enabled $MMP_MDS $MMP_MDSDEV && \
191             error "MMP was not disabled on $MMP_MDSDEV on $MMP_MDS"
192     fi
193
194     if [ -z "$ostfailover_HOST" ]; then
195         log "Failover is not used on OSS, disabling MMP manually..."
196         disable_mmp $MMP_OSS $MMP_OSTDEV || \
197             error "failed to disable MMP on $MMP_OSTDEV on $MMP_OSS"
198         mmp_is_enabled $MMP_OSS $MMP_OSTDEV && \
199             error "MMP was not disabled on $MMP_OSTDEV on $MMP_OSS"
200     fi
201
202     return 0
203 }
204
205 # Mount the shared target on the failover server after some interval it's 
206 # mounted on the primary server.
207 mount_after_interval_sub() {
208     local interval=$1
209     shift
210     local device=$1
211     shift
212     local facet=$1
213     shift
214     local opts="$@"
215     local failover_facet=$(get_failover_facet $facet)
216
217     local mount_pid
218     local first_mount_rc=0
219     local second_mount_rc=0
220
221     log "Mounting $device on $facet..."
222     start $facet $device $opts &
223     mount_pid=$!
224
225     if [ $interval -ne 0 ]; then
226         log "sleep $interval..."
227         sleep $interval
228     fi
229
230     log "Mounting $device on $failover_facet..."
231     start $failover_facet $device $opts
232     second_mount_rc=${PIPESTATUS[0]}
233
234     wait $mount_pid
235     first_mount_rc=${PIPESTATUS[0]}
236
237     if [ $second_mount_rc -eq 0 -a $first_mount_rc -eq 0 ]; then
238         error_noexit "one mount delayed by mmp interval $interval should fail"
239         stop $facet || return ${PIPESTATUS[0]}
240         [ "$failover_facet" != "$facet" ] && stop $failover_facet || \
241             return ${PIPESTATUS[0]}
242         return 1
243     elif [ $second_mount_rc -ne 0 -a $first_mount_rc -ne 0 ]; then
244         error_noexit "failed to mount on the failover pair $facet,$failover_facet"
245         return $first_mount_rc
246     fi
247
248     return 0
249 }
250
251 mount_after_interval() {
252     local mdt_interval=$1
253     local ost_interval=$2
254     local rc=0
255
256     mount_after_interval_sub $mdt_interval $MMP_MDSDEV $MMP_MDS \
257         $MDS_MOUNT_OPTS || return ${PIPESTATUS[0]}
258
259     echo
260     mount_after_interval_sub $ost_interval $MMP_OSTDEV $MMP_OSS $OST_MOUNT_OPTS
261     rc=${PIPESTATUS[0]}
262     if [ $rc -ne 0 ]; then
263         stop $MMP_MDS
264         return $rc
265     fi
266
267     return 0
268 }
269
270 # Mount the shared target on the failover server 
271 # during unmounting it on the primary server.
272 mount_during_unmount() {
273     local device=$1
274     shift
275     local facet=$1
276     shift
277     local mnt_opts="$@"
278     local failover_facet=$(get_failover_facet $facet)
279
280     local unmount_pid
281     local unmount_rc=0
282     local mount_rc=0
283
284     log "Mounting $device on $facet..."
285     start $facet $device $mnt_opts || return ${PIPESTATUS[0]}
286
287     log "Unmounting $device on $facet..."
288     stop $facet &
289     unmount_pid=$!
290
291     log "Mounting $device on $failover_facet..."
292     start $failover_facet $device $mnt_opts
293     mount_rc=${PIPESTATUS[0]}
294
295     wait $unmount_pid
296     unmount_rc=${PIPESTATUS[0]}
297
298     if [ $mount_rc -eq 0 ]; then
299         error_noexit "mount during unmount of the first filesystem should fail"
300         stop $failover_facet || return ${PIPESTATUS[0]}
301         return 1
302     fi
303
304     if [ $unmount_rc -ne 0 ]; then
305         error_noexit "unmount the $device on $facet should succeed"
306         return $unmount_rc
307     fi
308
309     return 0
310 }
311
312 # Mount the shared target on the failover server 
313 # after clean unmounting it on the primary server.
314 mount_after_unmount() {
315     local device=$1
316     shift
317     local facet=$1
318     shift
319     local mnt_opts="$@"
320     local failover_facet=$(get_failover_facet $facet)
321
322     log "Mounting $device on $facet..."
323     start $facet $device $mnt_opts || return ${PIPESTATUS[0]}
324
325     log "Unmounting $device on $facet..."
326     stop $facet || return ${PIPESTATUS[0]} 
327
328     log "Mounting $device on $failover_facet..."
329     start $failover_facet $device $mnt_opts || return ${PIPESTATUS[0]}
330
331     return 0
332 }
333
334 # Mount the shared target on the failover server after rebooting
335 # the primary server.
336 mount_after_reboot() {
337     local device=$1
338     shift
339     local facet=$1
340     shift
341     local mnt_opts="$@"
342     local failover_facet=$(get_failover_facet $facet)
343     local rc=0
344
345     log "Mounting $device on $facet..."
346     start $facet $device $mnt_opts || return ${PIPESTATUS[0]}
347
348     if [ "$FAILURE_MODE" = "HARD" ]; then
349         shutdown_facet $facet
350         reboot_facet $facet
351         wait_for_facet $facet
352     else
353         replay_barrier_nodf $facet
354     fi
355
356     log "Mounting $device on $failover_facet..."
357     start $failover_facet $device $mnt_opts
358     rc=${PIPESTATUS[0]}
359     if [ $rc -ne 0 ]; then
360         error_noexit "mount $device on $failover_facet should succeed"
361         stop $facet || return ${PIPESTATUS[0]}
362         return $rc
363     fi
364
365     return 0
366 }
367
368 # Run e2fsck on the Lustre server target.
369 run_e2fsck() {
370     local facet=$1
371     shift
372     local device=$1
373     shift
374     local opts="$@"
375
376     log "Running e2fsck on the device $device on $facet..."
377     do_facet $facet "$E2FSCK $opts $device"
378     return ${PIPESTATUS[0]}
379 }
380
381 # Check whether there are failover pairs for MDS and OSS servers.
382 check_failover_pair() {
383     [ "$MMP_MDS" = "$MMP_MDS_FAILOVER" -o "$MMP_OSS" = "$MMP_OSS_FAILOVER" ] \
384         && { skip_env "failover pair is needed" && return 1; }
385     return 0
386 }
387
388 mmp_init
389
390 # Test 1 - two mounts at the same time.
391 test_1() {
392     check_failover_pair || return 0
393
394     mount_after_interval 0 0 || return ${PIPESTATUS[0]}
395     stop_services primary || return ${PIPESTATUS[0]}
396 }
397 run_test 1 "two mounts at the same time"
398
399 # Test 2 - one mount delayed by mmp update interval.
400 test_2() {
401     check_failover_pair || return 0
402
403     local mdt_interval=$(get_mmp_update_interval $MMP_MDS $MMP_MDSDEV)
404     local ost_interval=$(get_mmp_update_interval $MMP_OSS $MMP_OSTDEV)
405
406     mount_after_interval $mdt_interval $ost_interval || return ${PIPESTATUS[0]}
407     stop_services primary || return ${PIPESTATUS[0]}
408 }
409 run_test 2 "one mount delayed by mmp update interval"
410
411 # Test 3 - one mount delayed by 2x mmp check interval.
412 test_3() {
413     check_failover_pair || return 0
414
415     local mdt_interval=$(get_mmp_check_interval $MMP_MDS $MMP_MDSDEV)
416     local ost_interval=$(get_mmp_check_interval $MMP_OSS $MMP_OSTDEV)
417
418     mdt_interval=$((2 * $mdt_interval + 1))
419     ost_interval=$((2 * $ost_interval + 1))
420
421     mount_after_interval $mdt_interval $ost_interval || return ${PIPESTATUS[0]}
422     stop_services primary || return ${PIPESTATUS[0]}
423 }
424 run_test 3 "one mount delayed by 2x mmp check interval"
425
426 # Test 4 - one mount delayed by > 2x mmp check interval.
427 test_4() {
428     check_failover_pair || return 0
429
430     local mdt_interval=$(get_mmp_check_interval $MMP_MDS $MMP_MDSDEV)
431     local ost_interval=$(get_mmp_check_interval $MMP_OSS $MMP_OSTDEV)
432
433     mdt_interval=$((4 * $mdt_interval))
434     ost_interval=$((4 * $ost_interval))
435
436     mount_after_interval $mdt_interval $ost_interval || return ${PIPESTATUS[0]}
437     stop_services primary || return ${PIPESTATUS[0]}
438 }
439 run_test 4 "one mount delayed by > 2x mmp check interval"
440
441 # Test 5 - mount during unmount of the first filesystem.
442 test_5() {
443     local rc=0
444     check_failover_pair || return 0
445
446     mount_during_unmount $MMP_MDSDEV $MMP_MDS $MDS_MOUNT_OPTS || \
447         return ${PIPESTATUS[0]}
448
449     echo
450     start $MMP_MDS $MMP_MDSDEV $MDS_MOUNT_OPTS || return ${PIPESTATUS[0]}
451     mount_during_unmount $MMP_OSTDEV $MMP_OSS $OST_MOUNT_OPTS
452     rc=${PIPESTATUS[0]}
453     if [ $rc -ne 0 ]; then
454         stop $MMP_MDS || return ${PIPESTATUS[0]}
455         return $rc
456     fi
457
458     stop $MMP_MDS || return ${PIPESTATUS[0]}
459 }
460 run_test 5 "mount during unmount of the first filesystem"
461
462 # Test 6 - mount after clean unmount.
463 test_6() {
464     local rc=0
465     check_failover_pair || return 0
466
467     mount_after_unmount $MMP_MDSDEV $MMP_MDS $MDS_MOUNT_OPTS || \
468         return ${PIPESTATUS[0]}
469
470     echo
471     mount_after_unmount $MMP_OSTDEV $MMP_OSS $OST_MOUNT_OPTS
472     rc=${PIPESTATUS[0]}
473     if [ $rc -ne 0 ]; then
474         stop $MMP_MDS_FAILOVER || return ${PIPESTATUS[0]}
475         return $rc
476     fi
477
478     stop_services failover || return ${PIPESTATUS[0]}
479 }
480 run_test 6 "mount after clean unmount"
481
482 # Test 7 - mount after reboot.
483 test_7() {
484     local rc=0
485     check_failover_pair || return 0
486
487     mount_after_reboot $MMP_MDSDEV $MMP_MDS $MDS_MOUNT_OPTS || \
488         return ${PIPESTATUS[0]}
489
490     echo
491     mount_after_reboot $MMP_OSTDEV $MMP_OSS $OST_MOUNT_OPTS
492     rc=${PIPESTATUS[0]}
493     if [ $rc -ne 0 ]; then
494         stop $MMP_MDS || return ${PIPESTATUS[0]}
495         stop $MMP_MDS_FAILOVER || return ${PIPESTATUS[0]}
496         return $rc
497     fi
498
499     stop_services failover || return ${PIPESTATUS[0]}
500     stop_services primary || return ${PIPESTATUS[0]}
501 }
502 run_test 7 "mount after reboot"
503
504 # Test 8 - mount during e2fsck (should never succeed).
505 test_8() {
506     local e2fsck_pid
507
508     run_e2fsck $MMP_MDS $MMP_MDSDEV "-fy" &
509     e2fsck_pid=$!
510     sleep 1
511
512     log "Mounting $MMP_MDSDEV on $MMP_MDS_FAILOVER..."
513     if start $MMP_MDS_FAILOVER $MMP_MDSDEV $MDS_MOUNT_OPTS; then
514         error_noexit "mount $MMP_MDSDEV on $MMP_MDS_FAILOVER should fail"
515         stop $MMP_MDS_FAILOVER || return ${PIPESTATUS[0]}
516         return 1
517     fi
518
519     wait $e2fsck_pid
520
521     echo
522     run_e2fsck $MMP_OSS $MMP_OSTDEV "-fy" &
523     e2fsck_pid=$!
524     sleep 1
525
526     log "Mounting $MMP_OSTDEV on $MMP_OSS_FAILOVER..."
527     if start $MMP_OSS_FAILOVER $MMP_OSTDEV $OST_MOUNT_OPTS; then
528         error_noexit "mount $MMP_OSTDEV on $MMP_OSS_FAILOVER should fail"
529         stop $MMP_OSS_FAILOVER || return ${PIPESTATUS[0]}
530         return 2
531     fi
532
533     wait $e2fsck_pid
534     return 0
535 }
536 run_test 8 "mount during e2fsck"
537
538 # Test 9 - mount after aborted e2fsck (should never succeed).
539 test_9() {
540     local e2fsck_pid
541     local mdt_mmp_check_interval
542     local ost_mmp_check_interval
543
544     start $MMP_MDS $MMP_MDSDEV $MDS_MOUNT_OPTS || return ${PIPESTATUS[0]}
545     if ! start $MMP_OSS $MMP_OSTDEV $OST_MOUNT_OPTS; then
546         local rc=${PIPESTATUS[0]}
547         stop $MMP_MDS || return ${PIPESTATUS[0]}
548         return $rc
549     fi
550     stop_services primary || return ${PIPESTATUS[0]}
551
552     mdt_mmp_check_interval=$(get_mmp_check_interval $MMP_MDS $MMP_MDSDEV)
553     run_e2fsck $MMP_MDS_FAILOVER $MMP_MDSDEV "-fy" &
554     e2fsck_pid=$!
555     sleep $((2 * $mdt_mmp_check_interval + 1))
556     kill -s ABRT $e2fsck_pid
557
558     log "Mounting $MMP_MDSDEV on $MMP_MDS..."
559     if start $MMP_MDS $MMP_MDSDEV $MDS_MOUNT_OPTS; then
560         error_noexit "mount $MMP_MDSDEV on $MMP_MDS should fail"
561         stop $MMP_MDS || return ${PIPESTATUS[0]}
562         return 1
563     fi
564
565     reset_mmp_block $MMP_MDS $MMP_MDSDEV || return ${PIPESTATUS[0]}
566
567     echo
568     ost_mmp_check_interval=$(get_mmp_check_interval $MMP_OSS $MMP_OSTDEV)
569     run_e2fsck $MMP_OSS_FAILOVER $MMP_OSTDEV "-fy" &
570     e2fsck_pid=$!
571     sleep $((2 * $ost_mmp_check_interval + 1))
572     kill -s ABRT $e2fsck_pid
573
574     log "Mounting $MMP_OSTDEV on $MMP_OSS..."
575     if start $MMP_OSS $MMP_OSTDEV $OST_MOUNT_OPTS; then
576         error_noexit "mount $MMP_OSTDEV on $MMP_OSS should fail"
577         stop $MMP_OSS || return ${PIPESTATUS[0]}
578         return 2
579     fi
580
581     reset_mmp_block $MMP_OSS $MMP_OSTDEV || return ${PIPESTATUS[0]}
582     return 0
583 }
584 run_test 9 "mount after aborted e2fsck"
585
586 # Test 10 - e2fsck with mounted filesystem.
587 test_10() {
588     local rc=0
589
590     log "Mounting $MMP_MDSDEV on $MMP_MDS..."
591     start $MMP_MDS $MMP_MDSDEV $MDS_MOUNT_OPTS || return ${PIPESTATUS[0]}
592
593     run_e2fsck $MMP_MDS_FAILOVER $MMP_MDSDEV "-fn"
594     rc=${PIPESTATUS[0]}
595     if [ $rc -ne 8 ]; then
596         error_noexit "e2fsck $MMP_MDSDEV on $MMP_MDS_FAILOVER should return 8"
597         stop $MMP_MDS || return ${PIPESTATUS[0]}
598         [ $rc -ne 0 ] && return $rc || return 1
599     fi
600
601     log "Mounting $MMP_OSTDEV on $MMP_OSS..."
602     start $MMP_OSS $MMP_OSTDEV $OST_MOUNT_OPTS
603     rc=${PIPESTATUS[0]}
604     if [ $rc -ne 0 ]; then
605         stop $MMP_MDS || return ${PIPESTATUS[0]}
606         return $rc
607     fi
608
609     run_e2fsck $MMP_OSS_FAILOVER $MMP_OSTDEV "-fn"
610     rc=${PIPESTATUS[0]}
611     if [ $rc -ne 8 ]; then
612         error_noexit "e2fsck $MMP_OSTDEV on $MMP_OSS_FAILOVER should return 8"
613         stop_services primary || return ${PIPESTATUS[0]}
614         [ $rc -ne 0 ] && return $rc || return 1
615     fi
616
617     stop_services primary || return ${PIPESTATUS[0]}
618     return 0
619 }
620 run_test 10 "e2fsck with mounted filesystem"
621
622 mmp_fini
623 FAIL_ON_ERROR=$SAVED_FAIL_ON_ERROR
624
625 equals_msg $(basename $0): test complete
626 $MMP_RESTORE_MOUNT && setupall
627 [ -f "$TESTSUITELOG" ] && cat $TESTSUITELOG && \
628     grep -q FAIL $TESTSUITELOG && exit 1 || true
629 echo "$0: completed"