Whamcloud - gitweb
LU-5518 lfsck: recover orphans from backend lost+found
[fs/lustre-release.git] / lustre / tests / sanity-lfsck.sh
index 38c7f3a..f92f0f1 100644 (file)
@@ -46,7 +46,7 @@ setupall
        ALWAYS_EXCEPT="$ALWAYS_EXCEPT 11 12 13 14 15 16 17 18 19 20 21"
 
 [[ $(lustre_version_code $SINGLEMDS) -lt $(version_code 2.6.50) ]] &&
-       ALWAYS_EXCEPT="$ALWAYS_EXCEPT 2d 2e 3 22 23 24 25 26 27 28"
+       ALWAYS_EXCEPT="$ALWAYS_EXCEPT 2d 2e 3 22 23 24 25 26 27 28 29 30"
 
 build_test_filter
 
@@ -1663,7 +1663,7 @@ test_18a() {
 
        check_mount_and_prep
        $LFS mkdir -i 0 $DIR/$tdir/a1
-       $LFS setstripe -c 1 -i 0 -s 1M $DIR/$tdir/a1
+       $LFS setstripe -c 1 -i 0 -S 1M $DIR/$tdir/a1
        dd if=/dev/zero of=$DIR/$tdir/a1/f1 bs=1M count=2
 
        local saved_size=$(ls -il $DIR/$tdir/a1/f1 | awk '{ print $6 }')
@@ -1673,7 +1673,7 @@ test_18a() {
 
        if [ $MDSCOUNT -ge 2 ]; then
                $LFS mkdir -i 1 $DIR/$tdir/a2
-               $LFS setstripe -c 2 -i 1 -s 1M $DIR/$tdir/a2
+               $LFS setstripe -c 2 -i 1 -S 1M $DIR/$tdir/a2
                dd if=/dev/zero of=$DIR/$tdir/a2/f2 bs=1M count=2
                $LFS path2fid $DIR/$tdir/a2/f2
                $LFS getstripe $DIR/$tdir/a2/f2
@@ -1778,7 +1778,7 @@ test_18b() {
 
        check_mount_and_prep
        $LFS mkdir -i 0 $DIR/$tdir/a1
-       $LFS setstripe -c 1 -i 0 -s 1M $DIR/$tdir/a1
+       $LFS setstripe -c 1 -i 0 -S 1M $DIR/$tdir/a1
        dd if=/dev/zero of=$DIR/$tdir/a1/f1 bs=1M count=2
        local saved_size=$(ls -il $DIR/$tdir/a1/f1 | awk '{ print $6 }')
        local fid1=$($LFS path2fid $DIR/$tdir/a1/f1)
@@ -1787,7 +1787,7 @@ test_18b() {
 
        if [ $MDSCOUNT -ge 2 ]; then
                $LFS mkdir -i 1 $DIR/$tdir/a2
-               $LFS setstripe -c 2 -i 1 -s 1M $DIR/$tdir/a2
+               $LFS setstripe -c 2 -i 1 -S 1M $DIR/$tdir/a2
                dd if=/dev/zero of=$DIR/$tdir/a2/f2 bs=1M count=2
                fid2=$($LFS path2fid $DIR/$tdir/a2/f2)
                echo ${fid2}
@@ -1891,7 +1891,7 @@ test_18c() {
 
        check_mount_and_prep
        $LFS mkdir -i 0 $DIR/$tdir/a1
-       $LFS setstripe -c 1 -i 0 -s 1M $DIR/$tdir/a1
+       $LFS setstripe -c 1 -i 0 -S 1M $DIR/$tdir/a1
 
        echo "Inject failure, to simulate the case of missing parent FID"
        #define OBD_FAIL_LFSCK_NOPFID           0x1617
@@ -1902,7 +1902,7 @@ test_18c() {
 
        if [ $MDSCOUNT -ge 2 ]; then
                $LFS mkdir -i 1 $DIR/$tdir/a2
-               $LFS setstripe -c 1 -i 0 -s 1M $DIR/$tdir/a2
+               $LFS setstripe -c 1 -i 0 -S 1M $DIR/$tdir/a2
                dd if=/dev/zero of=$DIR/$tdir/a2/f2 bs=1M count=2
                $LFS getstripe $DIR/$tdir/a2/f2
        fi
@@ -2001,7 +2001,7 @@ test_18d() {
 
        check_mount_and_prep
        mkdir $DIR/$tdir/a1
-       $LFS setstripe -c 1 -i 0 -s 1M $DIR/$tdir/a1
+       $LFS setstripe -c 1 -i 0 -S 1M $DIR/$tdir/a1
        echo "guard" > $DIR/$tdir/a1/f1
        echo "foo" > $DIR/$tdir/a1/f2
        local saved_size=$(ls -il $DIR/$tdir/a1/f2 | awk '{ print $6 }')
@@ -2095,7 +2095,7 @@ test_18e() {
 
        check_mount_and_prep
        mkdir $DIR/$tdir/a1
-       $LFS setstripe -c 1 -i 0 -s 1M $DIR/$tdir/a1
+       $LFS setstripe -c 1 -i 0 -S 1M $DIR/$tdir/a1
        echo "guard" > $DIR/$tdir/a1/f1
        echo "foo" > $DIR/$tdir/a1/f2
        local saved_size=$(ls -il $DIR/$tdir/a1/f2 | awk '{ print $6 }')
@@ -2211,22 +2211,22 @@ test_18f() {
 
        check_mount_and_prep
        $LFS mkdir -i 0 $DIR/$tdir/a1
-       $LFS setstripe -c 1 -i 0 -s 1M $DIR/$tdir/a1
+       $LFS setstripe -c 1 -i 0 -S 1M $DIR/$tdir/a1
        dd if=/dev/zero of=$DIR/$tdir/a1/guard bs=1M count=2
        dd if=/dev/zero of=$DIR/$tdir/a1/f1 bs=1M count=2
        $LFS mkdir -i 0 $DIR/$tdir/a2
-       $LFS setstripe -c 2 -i 0 -s 1M $DIR/$tdir/a2
+       $LFS setstripe -c 2 -i 0 -S 1M $DIR/$tdir/a2
        dd if=/dev/zero of=$DIR/$tdir/a2/f2 bs=1M count=2
        $LFS getstripe $DIR/$tdir/a1/f1
        $LFS getstripe $DIR/$tdir/a2/f2
 
        if [ $MDSCOUNT -ge 2 ]; then
                $LFS mkdir -i 1 $DIR/$tdir/a3
-               $LFS setstripe -c 1 -i 0 -s 1M $DIR/$tdir/a3
+               $LFS setstripe -c 1 -i 0 -S 1M $DIR/$tdir/a3
                dd if=/dev/zero of=$DIR/$tdir/a3/guard bs=1M count=2
                dd if=/dev/zero of=$DIR/$tdir/a3/f3 bs=1M count=2
                $LFS mkdir -i 1 $DIR/$tdir/a4
-               $LFS setstripe -c 2 -i 0 -s 1M $DIR/$tdir/a4
+               $LFS setstripe -c 2 -i 0 -S 1M $DIR/$tdir/a4
                dd if=/dev/zero of=$DIR/$tdir/a4/f4 bs=1M count=2
                $LFS getstripe $DIR/$tdir/a3/f3
                $LFS getstripe $DIR/$tdir/a4/f4
@@ -2416,10 +2416,10 @@ test_20() {
        check_mount_and_prep
        $LFS mkdir -i 0 $DIR/$tdir/a1
        if [ $OSTCOUNT -gt 2 ]; then
-               $LFS setstripe -c 3 -i 0 -s 1M $DIR/$tdir/a1
+               $LFS setstripe -c 3 -i 0 -S 1M $DIR/$tdir/a1
                bcount=513
        else
-               $LFS setstripe -c 2 -i 0 -s 1M $DIR/$tdir/a1
+               $LFS setstripe -c 2 -i 0 -S 1M $DIR/$tdir/a1
                bcount=257
        fi
 
@@ -3386,7 +3386,7 @@ test_28() {
        echo "The target name entry is lost. The LFSCK should insert the"
        echo "orphan MDT-object under .lustre/lost+found/MDTxxxx. But if"
        echo "the MDT (on which the orphan MDT-object resides) has ever"
-       echo "failed to respond some name entry verification durin the"
+       echo "failed to respond some name entry verification during the"
        echo "first stage-scanning, then the LFSCK should skip to handle"
        echo "orphan MDT-object on this MDT. But other MDTs should not"
        echo "be affected."
@@ -3481,6 +3481,248 @@ test_28() {
 }
 run_test 28 "Skip the failed MDT(s) when handle orphan MDT-objects"
 
+test_29a() {
+       echo "#####"
+       echo "The object's nlink attribute is larger than the object's known"
+       echo "name entries count. The LFSCK will repair the object's nlink"
+       echo "attribute to match the known name entries count"
+       echo "#####"
+
+       check_mount_and_prep
+
+       $LFS mkdir -i 0 $DIR/$tdir/d0 || error "(1) Fail to mkdir d0"
+       touch $DIR/$tdir/d0/foo || error "(2) Fail to create foo"
+
+       echo "Inject failure stub on MDT0 to simulate the case that foo's"
+       echo "nlink attribute is larger than its name entries count."
+
+       #define OBD_FAIL_LFSCK_MORE_NLINK       0x1625
+       do_facet $SINGLEMDS $LCTL set_param fail_loc=0x1625
+       ln $DIR/$tdir/d0/foo $DIR/$tdir/d0/h1 ||
+               error "(3) Fail to hard link to $DIR/$tdir/d0/foo"
+       do_facet $SINGLEMDS $LCTL set_param fail_loc=0
+
+       cancel_lru_locks mdc
+       local count=$(stat --format=%h $DIR/$tdir/d0/foo)
+       [ $count -eq 3 ] || error "(4) Cannot inject error: $count"
+
+       echo "Trigger namespace LFSCK to repair the nlink count"
+       $START_NAMESPACE -r -A ||
+               error "(5) Fail to start LFSCK for namespace"
+
+       wait_update_facet $SINGLEMDS "$LCTL get_param -n \
+               mdd.${MDT_DEV}.lfsck_namespace |
+               awk '/^status/ { print \\\$2 }'" "completed" 32 || {
+               $SHOW_NAMESPACE
+               error "(6) unexpected status"
+       }
+
+       local repaired=$($SHOW_NAMESPACE |
+                        awk '/^nlinks_repaired/ { print $2 }')
+       [ $repaired -eq 1 ] ||
+               error "(7) Fail to repair nlink count: $repaired"
+
+       cancel_lru_locks mdc
+       count=$(stat --format=%h $DIR/$tdir/d0/foo)
+       [ $count -eq 2 ] || error "(8) Fail to repair nlink count: $count"
+}
+run_test 29a "LFSCK can repair bad nlink count (1)"
+
+test_29b() {
+       echo "#####"
+       echo "The object's nlink attribute is smaller than the object's known"
+       echo "name entries count. The LFSCK will repair the object's nlink"
+       echo "attribute to match the known name entries count"
+       echo "#####"
+
+       check_mount_and_prep
+
+       $LFS mkdir -i 0 $DIR/$tdir/d0 || error "(1) Fail to mkdir d0"
+       touch $DIR/$tdir/d0/foo || error "(2) Fail to create foo"
+
+       echo "Inject failure stub on MDT0 to simulate the case that foo's"
+       echo "nlink attribute is smaller than its name entries count."
+
+       #define OBD_FAIL_LFSCK_LESS_NLINK       0x1626
+       do_facet $SINGLEMDS $LCTL set_param fail_loc=0x1626
+       ln $DIR/$tdir/d0/foo $DIR/$tdir/d0/h1 ||
+               error "(3) Fail to hard link to $DIR/$tdir/d0/foo"
+       do_facet $SINGLEMDS $LCTL set_param fail_loc=0
+
+       cancel_lru_locks mdc
+       local count=$(stat --format=%h $DIR/$tdir/d0/foo)
+       [ $count -eq 1 ] || error "(4) Cannot inject error: $count"
+
+       echo "Trigger namespace LFSCK to repair the nlink count"
+       $START_NAMESPACE -r -A ||
+               error "(5) Fail to start LFSCK for namespace"
+
+       wait_update_facet $SINGLEMDS "$LCTL get_param -n \
+               mdd.${MDT_DEV}.lfsck_namespace |
+               awk '/^status/ { print \\\$2 }'" "completed" 32 || {
+               $SHOW_NAMESPACE
+               error "(6) unexpected status"
+       }
+
+       local repaired=$($SHOW_NAMESPACE |
+                        awk '/^nlinks_repaired/ { print $2 }')
+       [ $repaired -eq 1 ] ||
+               error "(7) Fail to repair nlink count: $repaired"
+
+       cancel_lru_locks mdc
+       count=$(stat --format=%h $DIR/$tdir/d0/foo)
+       [ $count -eq 2 ] || error "(8) Fail to repair nlink count: $count"
+}
+run_test 29b "LFSCK can repair bad nlink count (2)"
+
+test_29c() {
+       echo "#####"
+       echo "There are too much hard links to the object, and exceeds the
+       echo object's linkEA limitation, as to NOT all the known name entries"
+       echo "will be recorded in the linkEA. Under such case, LFSCK should"
+       echo "skip the nlink verification for this object."
+       echo "#####"
+
+       check_mount_and_prep
+
+       $LFS mkdir -i 0 $DIR/$tdir/d0 || error "(1) Fail to mkdir d0"
+       touch $DIR/$tdir/d0/foo || error "(2) Fail to create foo"
+       ln $DIR/$tdir/d0/foo $DIR/$tdir/d0/h1 ||
+               error "(3) Fail to hard link to $DIR/$tdir/d0/foo"
+
+       echo "Inject failure stub on MDT0 to simulate the case that"
+       echo "foo's hard links exceed the object's linkEA limitation."
+
+       #define OBD_FAIL_LFSCK_LINKEA_OVERFLOW  0x1627
+       do_facet $SINGLEMDS $LCTL set_param fail_loc=0x1627
+       ln $DIR/$tdir/d0/foo $DIR/$tdir/d0/h2 ||
+               error "(4) Fail to hard link to $DIR/$tdir/d0/foo"
+
+       cancel_lru_locks mdc
+
+       local count1=$(stat --format=%h $DIR/$tdir/d0/foo)
+       [ $count1 -eq 3 ] || error "(5) Stat failure: $count1"
+
+       local foofid=$($LFS path2fid $DIR/$tdir/d0/foo)
+       $LFS fid2path $DIR $foofid
+       local count2=$($LFS fid2path $DIR $foofid | wc -l)
+       [ $count2 -eq 2 ] || "(6) Fail to inject error: $count2"
+
+       echo "Trigger namespace LFSCK to repair the nlink count"
+       $START_NAMESPACE -r -A ||
+               error "(7) Fail to start LFSCK for namespace"
+
+       wait_update_facet $SINGLEMDS "$LCTL get_param -n \
+               mdd.${MDT_DEV}.lfsck_namespace |
+               awk '/^status/ { print \\\$2 }'" "completed" 32 || {
+               $SHOW_NAMESPACE
+               error "(8) unexpected status"
+       }
+
+       do_facet $SINGLEMDS $LCTL set_param fail_loc=0
+       local repaired=$($SHOW_NAMESPACE |
+                        awk '/^nlinks_repaired/ { print $2 }')
+       [ $repaired -eq 0 ] ||
+               error "(9) Repair nlink count unexpcetedly: $repaired"
+
+       cancel_lru_locks mdc
+
+       count1=$(stat --format=%h $DIR/$tdir/d0/foo)
+       [ $count1 -eq 3 ] || error "(10) Stat failure: $count1"
+
+       count2=$($LFS fid2path $DIR $foofid | wc -l)
+       [ $count2 -eq 2 ] ||
+               error "(11) Repaired something unexpectedly: $count2"
+}
+run_test 29c "Not verify nlink attr if hark links exceed linkEA limitation"
+
+test_30() {
+       [ $(facet_fstype $SINGLEMDS) != ldiskfs ] &&
+               skip "Only support backend /lost+found for ldiskfs" && return
+
+       echo "#####"
+       echo "The namespace LFSCK will move the orphans from backend"
+       echo "/lost+found directory to normal client visible namespace"
+       echo "or to global visible ./lustre/lost+found/MDTxxxx/ directory"
+       echo "#####"
+
+       check_mount_and_prep
+
+       $LFS mkdir -i 0 $DIR/$tdir/foo || error "(1) Fail to mkdir foo"
+       touch $DIR/$tdir/foo/f0 || error "(2) Fail to touch f1"
+
+       echo "Inject failure stub on MDT0 to simulate the case that"
+       echo "directory d0 has no linkEA entry, then the LFSCK will"
+       echo "move it into .lustre/lost+found/MDTxxxx/ later."
+
+       #define OBD_FAIL_LFSCK_NO_LINKEA        0x161d
+       do_facet $SINGLEMDS $LCTL set_param fail_loc=0x161d
+       mkdir $DIR/$tdir/foo/d0 || error "(3) Fail to mkdir d0"
+       do_facet $SINGLEMDS $LCTL set_param fail_loc=0
+
+       touch $DIR/$tdir/foo/d0/f1 || error "(4) Fail to touch f1"
+       mkdir $DIR/$tdir/foo/d0/d1 || error "(5) Fail to mkdir d1"
+
+       echo "Inject failure stub on MDT0 to simulate the case that the"
+       echo "object's name entry will be removed, but not destroy the"
+       echo "object. Then backend e2fsck will handle it as orphan and"
+       echo "add them into the backend /lost+found directory."
+
+       #define OBD_FAIL_LFSCK_NO_NAMEENTRY     0x1624
+       do_facet $SINGLEMDS $LCTL set_param fail_loc=0x1624
+       rmdir $DIR/$tdir/foo/d0/d1 || error "(6) Fail to rmdir d1"
+       rm -f $DIR/$tdir/foo/d0/f1 || error "(7) Fail to unlink f1"
+       rmdir $DIR/$tdir/foo/d0 || error "(8) Fail to rmdir d0"
+       rm -f $DIR/$tdir/foo/f0 || error "(9) Fail to unlink f0"
+       do_facet $SINGLEMDS $LCTL set_param fail_loc=0
+
+       umount_client $MOUNT || error "(10) Fail to stop client!"
+
+       stop $SINGLEMDS || error "(11) Fail to stop MDT0"
+
+       echo "run e2fsck"
+       run_e2fsck $(facet_host $SINGLEMDS) $MDT_DEVNAME "-y" ||
+               error "(12) Fail to run e2fsck"
+
+       start $SINGLEMDS $MDT_DEVNAME $MOUNT_OPTS_NOSCRUB > /dev/null ||
+               error "(13) Fail to start MDT0"
+
+       echo "Trigger namespace LFSCK to recover backend orphans"
+       $START_NAMESPACE -r -A ||
+               error "(14) Fail to start LFSCK for namespace"
+
+       wait_update_facet $SINGLEMDS "$LCTL get_param -n \
+               mdd.${MDT_DEV}.lfsck_namespace |
+               awk '/^status/ { print \\\$2 }'" "completed" 32 || {
+               $SHOW_NAMESPACE
+               error "(15) unexpected status"
+       }
+
+       local repaired=$($SHOW_NAMESPACE |
+                        awk '/^local_lost_found_moved/ { print $2 }')
+       [ $repaired -ge 4 ] ||
+               error "(16) Fail to recover backend orphans: $repaired"
+
+       mount_client $MOUNT || error "(17) Fail to start client!"
+
+       stat $DIR/$tdir/foo/f0 || "(18) f0 is not recovered"
+
+       ls -ail $MOUNT/.lustre/lost+found/
+
+       echo "d0 should become orphan under .lustre/lost+found/MDT0000/"
+       [ -d $MOUNT/.lustre/lost+found/MDT0000 ] ||
+               error "(19) $MOUNT/.lustre/lost+found/MDT0000/ should be there"
+
+       ls -ail $MOUNT/.lustre/lost+found/MDT0000/
+
+       cname=$(find $MOUNT/.lustre/lost+found/MDT0000/ -name *-*-D-*)
+       [ ! -z "$cname" ] || error "(20) d0 is not recovered"
+
+       stat ${cname}/d1 || error "(21) d0 is not recovered"
+       stat ${cname}/f1 || error "(22) f1 is not recovered"
+}
+run_test 30 "LFSCK can recover the orphans from backend /lost+found"
+
 $LCTL set_param debug=-lfsck > /dev/null || true
 
 # restore MDS/OST size