Whamcloud - gitweb
LU-2547 test: re-enable 24a/b of recovery-small
[fs/lustre-release.git] / lustre / tests / recovery-small.sh
index 1089c6d..165112a 100755 (executable)
@@ -19,10 +19,6 @@ require_dsh_mds || exit 0
 
 [ "$SLOW" = "no" ] && EXCEPT_SLOW=""
 
-[ $(facet_fstype $SINGLEMDS) = "zfs" ] &&
-# bug number for skipped test:       LU-2547
-       ALWAYS_EXCEPT="$ALWAYS_EXCEPT 24a 24b"
-
 build_test_filter
 
 # Allow us to override the setup if we already have a mounted system by
@@ -255,11 +251,12 @@ test_10d() {
        rm -f $TMP/$tfile
        echo -n ", world" | dd of=$TMP/$tfile bs=1c seek=5
 
+       remount_client $MOUNT
        mount_client $MOUNT2
 
        cancel_lru_locks osc
        $LFS setstripe -i 0 -c 1 $DIR1/$tfile
-       echo -n hello > $DIR1/$tfile
+       echo -n hello | dd of=$DIR1/$tfile bs=5
 
        stat $DIR2/$tfile >& /dev/null
        $LCTL set_param fail_err=71
@@ -267,8 +264,9 @@ test_10d() {
 
        client_reconnect
 
-       cmp $DIR1/$tfile $DIR2/$tfile || error "file contents differ"
-       cmp $DIR1/$tfile $TMP/$tfile || error "wrong content found"
+       cancel_lru_locks osc
+       cmp -l $DIR1/$tfile $DIR2/$tfile || error "file contents differ"
+       cmp -l $DIR1/$tfile $TMP/$tfile || error "wrong content found"
 
        evict=$(do_facet client $LCTL get_param osc.$FSNAME-OST0000*.state | \
                tr -d '\-\[\] ' | \
@@ -308,7 +306,7 @@ run_test 11 "wake up a thread waiting for completion after eviction (b=2460)"
 
 #b=2494
 test_12(){
-       $LCTL mark "$HOSTNAME: $MULTIOP $DIR/$tfile OS_c"
+       $LCTL mark $MULTIOP $DIR/$tfile OS_c
        do_facet $SINGLEMDS "lctl set_param fail_loc=0x115"
        clear_failloc $SINGLEMDS $((TIMEOUT * 2)) &
        multiop_bg_pause $DIR/$tfile OS_c ||
@@ -519,10 +517,10 @@ test_18c() {
     do_facet ost1 lctl set_param fail_loc=0x80000225
     # force reconnect
     sleep 1
-    df $MOUNT > /dev/null 2>&1
+    $LFS df $MOUNT > /dev/null 2>&1
     sleep 2
     # my understanding is that there should be nothing in the page
-    # cache after the client reconnects?     
+    # cache after the client reconnects?
     rc=0
     pgcache_empty || rc=2
     rm -f $f $TMP/$tfile
@@ -1495,6 +1493,11 @@ check_target_ir_state()
         local recovery_proc=obdfilter.${!name}.recovery_status
         local st
 
+       while : ; do
+               st=$(do_facet $target "$LCTL get_param -n $recovery_proc |
+                       awk '/status:/{ print \\\$2}'")
+               [ x$st = xRECOVERING ] || break
+       done
         st=$(do_facet $target "lctl get_param -n $recovery_proc |
                                awk '/IR:/{ print \\\$2}'")
        [ $st != ON -o $st != OFF -o $st != ENABLED -o $st != DISABLED ] ||
@@ -2496,6 +2499,54 @@ test_132() {
 }
 run_test 132 "long punch"
 
+test_131() {
+       remote_ost_nodsh && skip "remote OST with nodsh" && return 0
+
+       rm -f $DIR/$tfile
+       # get a lock on client so that export would reach the stale list
+       $SETSTRIPE -i 0 $DIR/$tfile || error "setstripe failed"
+       dd if=/dev/zero of=$DIR/$tfile count=1 || error "dd failed"
+
+       # another IO under the same lock
+       #define OBD_FAIL_OSC_DELAY_IO            0x414
+       $LCTL set_param fail_loc=0x80000414
+       dd if=/dev/zero of=$DIR/$tfile count=1 conv=notrunc oflag=dsync &
+       local pid=$!
+       sleep 1
+
+       #define OBD_FAIL_LDLM_BL_EVICT           0x31e
+       set_nodes_failloc "$(osts_nodes)" 0x8000031e
+       ost_evict_client
+       client_reconnect
+
+       wait $pid && error "dd succeeded"
+       return 0
+}
+run_test 131 "IO vs evict results to IO under staled lock"
+
+test_133() {
+       local list=$(comma_list $(mdts_nodes))
+
+       local t=$((TIMEOUT * 2))
+       touch $DIR/$tfile
+
+       flock $DIR/$tfile -c "echo bl lock;sleep $t;echo bl flock unlocked" &
+       sleep 1
+       multiop_bg_pause $DIR/$tfile O_jc || return 1
+       PID=$!
+
+       #define OBD_FAIL_LDLM_REPLY              0x30c
+       do_nodes $list $LCTL set_param fail_loc=0x8000030c
+       kill -USR1 $PID
+       echo "waiting for multiop $PID"
+       wait $PID || return 2
+
+       rm -f $DIR/$tfile
+
+       return 0
+}
+run_test 133 "don't fail on flock resend"
+
 complete $SECONDS
 check_and_cleanup_lustre
 exit_status