Whamcloud - gitweb
LU-13017 tests: disable statahead_agl for sanity test_56ra
[fs/lustre-release.git] / lustre / tests / sanity.sh
index d9012f1..079ac70 100755 (executable)
@@ -5131,6 +5131,27 @@ test_48e() { # bug 4134
 }
 run_test 48e "Access to recreated parent subdir (should return errors)"
 
+test_48f() {
+       [[ $MDS1_VERSION -ge $(version_code 2.13.55) ]] ||
+               skip "need MDS >= 2.13.55"
+       [[ $MDSCOUNT -ge 2 ]] || skip "needs >= 2 MDTs"
+       [[ "$(facet_host mds1)" != "$(facet_host mds2)" ]] ||
+               skip "needs different host for mdt1 mdt2"
+       [[ $(facet_fstype mds1) == ldiskfs ]] || skip "ldiskfs only"
+
+       $LFS mkdir -i0 $DIR/$tdir
+       $LFS mkdir -i 1 $DIR/$tdir/sub1 $DIR/$tdir/sub2 $DIR/$tdir/sub3
+
+       for d in sub1 sub2 sub3; do
+               #define OBD_FAIL_OSD_REF_DEL    0x19c
+               do_facet mds1 $LCTL set_param fail_loc=0x8000019c
+               rm -rf $DIR/$tdir/$d && error "rm $d should fail"
+       done
+
+       rm -d --interactive=never $DIR/$tdir || error "rm $tdir fail"
+}
+run_test 48f "non-zero nlink dir unlink won't LBUG()"
+
 test_49() { # LU-1030
        [ $PARALLEL == "yes" ] && skip "skip parallel run"
        remote_ost_nodsh && skip "remote OST with nodsh"
@@ -6236,8 +6257,13 @@ test_56ra() {
        [[ $MDS1_VERSION -gt $(version_code 2.12.58) ]] ||
                skip "MDS < 2.12.58 doesn't return LSOM data"
        local dir=$DIR/$tdir
+       local old_agl=$($LCTL get_param -n llite.*.statahead_agl)
+
+       [[ $OSC == "mdc" ]] && skip "statahead not needed for DoM files"
 
-       [[ $OSC == "mdc" ]] && skip "DoM files" && return
+       # statahead_agl may cause extra glimpse which confuses results. LU-13017
+       $LCTL set_param -n llite.*.statahead_agl=0
+       stack_trap "$LCTL set_param -n llite.*.statahead_agl=$old_agl"
 
        setup_56 $dir $NUMFILES $NUMDIRS "-c 1"
        # open and close all files to ensure LSOM is updated
@@ -7696,7 +7722,7 @@ test_60g() {
 
                do_facet mds$index $LCTL set_param fail_loc=0x8000019a \
                        > /dev/null
-               usleep 100
+               sleep 0.01
        done
 
        kill -9 $pid
@@ -8609,36 +8635,45 @@ test_74c() {
 }
 run_test 74c "ldlm_lock_create error path, (shouldn't LBUG)"
 
-num_inodes() {
-       [ -f /sys/kernel/slab/lustre_inode_cache/shrink ] &&
-               echo 1 > /sys/kernel/slab/lustre_inode_cache/shrink
-       awk '/lustre_inode_cache/ {print $2; exit}' /proc/slabinfo
+slab_lic=/sys/kernel/slab/lustre_inode_cache
+num_objects() {
+       [ -f $slab_lic/shrink ] && echo 1 > $slab_lic/shrink
+       [ -f $slab_lic/objects ] && awk '{ print $1 }' $slab_lic/objects ||
+               awk '/lustre_inode_cache/ { print $2; exit }' /proc/slabinfo
 }
 
-test_76() { # Now for bug 20433, added originally in bug 1443
+test_76() { # Now for b=20433, added originally in b=1443
        [ $PARALLEL == "yes" ] && skip "skip parallel run"
 
        cancel_lru_locks osc
+       # there may be some slab objects cached per core
        local cpus=$(getconf _NPROCESSORS_ONLN 2>/dev/null)
-       local before=$(num_inodes)
+       local before=$(num_objects)
        local count=$((512 * cpus))
-       [ "$SLOW" = "no" ] && count=$((64 * cpus))
+       [ "$SLOW" = "no" ] && count=$((128 * cpus))
+       local margin=$((count / 10))
+       if [[ -f $slab_lic/aliases ]]; then
+               local aliases=$(cat $slab_lic/aliases)
+               (( aliases > 0 )) && margin=$((margin * aliases))
+       fi
 
-       echo "before inodes: $before"
+       echo "before slab objects: $before"
        for i in $(seq $count); do
                touch $DIR/$tfile
                rm -f $DIR/$tfile
        done
        cancel_lru_locks osc
-       local after=$(num_inodes)
-       echo "after inodes: $after"
-       while (( after > before + 8 * ${cpus:-1} )); do
+       local after=$(num_objects)
+       echo "created: $count, after slab objects: $after"
+       # shared slab counts are not very accurate, allow significant margin
+       # the main goal is that the cache growth is not permanently > $count
+       while (( after > before + margin )); do
                sleep 1
-               after=$(num_inodes)
+               after=$(num_objects)
                wait=$((wait + 1))
-               (( wait % 5 == 0 )) && echo "wait $wait seconds inodes: $after"
-               if (( wait > 30 )); then
-                       error "inode slab grew from $before to $after"
+               (( wait % 5 == 0 )) && echo "wait $wait seconds objects: $after"
+               if (( wait > 60 )); then
+                       error "inode slab grew from $before+$margin to $after"
                fi
        done
 }
@@ -9521,12 +9556,11 @@ test_101g_brw_size_test() {
                sed -n '/pages per rpc/,/^$/p' |
                awk '/'$pages':/ { reads += $2; writes += $6 }; \
                END { print reads,writes }'))
-       [ ${rpcs[0]} -ne $count ] && error "${rpcs[0]} != $count read RPCs" &&
-               return 5
-       [ ${rpcs[1]} -ne $count ] && error "${rpcs[1]} != $count write RPCs" &&
-               return 6
-
-       return 0
+       # allow one extra full-sized read RPC for async readahead
+       [[ ${rpcs[0]} == $count || ${rpcs[0]} == $((count + 1)) ]] ||
+               { error "${rpcs[0]} != $count read RPCs"; return 5; }
+       [[ ${rpcs[1]} == $count ]] ||
+               { error "${rpcs[1]} != $count write RPCs"; return 6; }
 }
 
 test_101g() {
@@ -11784,18 +11818,18 @@ test_124a() {
                skip "Limit is too small $LIMIT"
        fi
 
-        # Make LVF so higher that sleeping for $SLEEP is enough to _start_
-        # killing locks. Some time was spent for creating locks. This means
-        # that up to the moment of sleep finish we must have killed some of
-        # them (10-100 locks). This depends on how fast ther were created.
-        # Many of them were touched in almost the same moment and thus will
-        # be killed in groups.
-        local LVF=$(($MAX_HRS * 60 * 60 / $SLEEP * $LIMIT / $LRU_SIZE))
-
-        # Use $LRU_SIZE_B here to take into account real number of locks
-        # created in the case of CMD, LRU_SIZE_B != $NR in most of cases
-        local LRU_SIZE_B=$LRU_SIZE
-        log "LVF=$LVF"
+       # Make LVF so higher that sleeping for $SLEEP is enough to _start_
+       # killing locks. Some time was spent for creating locks. This means
+       # that up to the moment of sleep finish we must have killed some of
+       # them (10-100 locks). This depends on how fast ther were created.
+       # Many of them were touched in almost the same moment and thus will
+       # be killed in groups.
+       local LVF=$(($MAX_HRS * 60 * 60 / $SLEEP * $LIMIT / $LRU_SIZE * 100))
+
+       # Use $LRU_SIZE_B here to take into account real number of locks
+       # created in the case of CMD, LRU_SIZE_B != $NR in most of cases
+       local LRU_SIZE_B=$LRU_SIZE
+       log "LVF=$LVF"
        local OLD_LVF=$($LCTL get_param -n $NSDIR.pool.lock_volume_factor)
        log "OLD_LVF=$OLD_LVF"
        $LCTL set_param -n $NSDIR.pool.lock_volume_factor $LVF
@@ -15757,7 +15791,8 @@ obdecho_test() {
 test_180a() {
        [ $PARALLEL == "yes" ] && skip "skip parallel run"
 
-       if ! module_loaded obdecho; then
+       if ! [ -d /sys/fs/lustre/echo_client ] &&
+          ! module_loaded obdecho; then
                load_module obdecho/obdecho &&
                        stack_trap "rmmod obdecho" EXIT ||
                        error "unable to load obdecho on client"
@@ -16536,11 +16571,25 @@ test_205a() { # Job stats
                        error "Unexpected jobids when jobid_var=$JOBENV"
        fi
 
-       lctl set_param jobid_var=USER jobid_name="S.%j.%e.%u.%h.E"
-       JOBENV="JOBCOMPLEX"
-       JOBCOMPLEX="S.$USER.touch.$(id -u).$(hostname).E"
+       # test '%j' access to environment variable - if supported
+       if lctl set_param jobid_var=USER jobid_name="S.%j.%e.%u.%h.E"; then
+               JOBENV="JOBCOMPLEX"
+               JOBCOMPLEX="S.$USER.touch.$(id -u).$(hostname).E"
+
+               verify_jobstats "touch $DIR/$tfile" $SINGLEMDS
+       fi
 
-       verify_jobstats "touch $DIR/$tfile" $SINGLEMDS
+       # test '%j' access to per-session jobid - if supported
+       if lctl list_param jobid_this_session > /dev/null 2>&1
+       then
+               lctl set_param jobid_var=session jobid_name="S.%j.%e.%u.%h.E"
+               lctl set_param jobid_this_session=$USER
+
+               JOBENV="JOBCOMPLEX"
+               JOBCOMPLEX="S.$USER.touch.$(id -u).$(hostname).E"
+
+               verify_jobstats "touch $DIR/$tfile" $SINGLEMDS
+       fi
 }
 run_test 205a "Verify job stats"
 
@@ -16548,7 +16597,9 @@ run_test 205a "Verify job stats"
 test_205b() {
        job_stats="mdt.*.job_stats"
        $LCTL set_param $job_stats=clear
-       $LCTL set_param jobid_var=USER jobid_name="%e.%u"
+       # Setting jobid_var to USER might not be supported
+       $LCTL set_param jobid_var=USER || true
+       $LCTL set_param jobid_name="%e.%u"
        env -i USERTESTJOBSTATS=foolish touch $DIR/$tfile.1
        do_facet $SINGLEMDS $LCTL get_param $job_stats |
                grep "job_id:.*foolish" &&
@@ -19330,7 +19381,7 @@ ladvise_willread_performance()
                return 0
 
        lowest_speedup=$(bc <<<"scale=2; $average_cache / 2")
-       [ ${average_ladvise%.*} -gt $lowest_speedup ] ||
+       [[ ${average_ladvise%.*} > $lowest_speedup ]] ||
                error_not_in_vm "Speedup with willread is less than " \
                        "$lowest_speedup%, got $average_ladvise%"
 }
@@ -22017,6 +22068,11 @@ test_398d() { #  LU-13846
        aiocp -a $PAGE_SIZE -b 64M -s 64M -f O_DIRECT $DIR/$tfile $aio_file
 
        diff $DIR/$tfile $aio_file || "file diff after aiocp"
+
+       # make sure we don't crash and fail properly
+       aiocp -a 512 -b 64M -s 64M -f O_DIRECT $DIR/$tfile $aio_file &&
+               error "aio not aligned with PAGE SIZE should fail"
+
        rm -rf $DIR/$tfile $aio_file
 }
 run_test 398d "run aiocp to verify block size > stripe size"
@@ -22185,70 +22241,92 @@ test_401a() { #LU-7437
 run_test 401a "Verify if 'lctl list_param -R' can list parameters recursively"
 
 test_401b() {
-       local save=$($LCTL get_param -n jobid_var)
-       local tmp=testing
+       # jobid_var may not allow arbitrary values, so use jobid_name
+       # if available
+       if $LCTL list_param jobid_name > /dev/null 2>&1; then
+               local testname=jobid_name tmp='testing%p'
+       else
+               local testname=jobid_var tmp=testing
+       fi
 
-       $LCTL set_param foo=bar jobid_var=$tmp bar=baz &&
+       local save=$($LCTL get_param -n $testname)
+
+       $LCTL set_param foo=bar $testname=$tmp bar=baz &&
                error "no error returned when setting bad parameters"
 
-       local jobid_new=$($LCTL get_param -n foe jobid_var baz)
+       local jobid_new=$($LCTL get_param -n foe $testname baz)
        [[ "$jobid_new" == "$tmp" ]] || error "jobid tmp $jobid_new != $tmp"
 
-       $LCTL set_param -n fog=bam jobid_var=$save bat=fog
-       local jobid_old=$($LCTL get_param -n foe jobid_var bag)
+       $LCTL set_param -n fog=bam $testname=$save bat=fog
+       local jobid_old=$($LCTL get_param -n foe $testname bag)
        [[ "$jobid_old" == "$save" ]] || error "jobid new $jobid_old != $save"
 }
 run_test 401b "Verify 'lctl {get,set}_param' continue after error"
 
 test_401c() {
-       local jobid_var_old=$($LCTL get_param -n jobid_var)
+       # jobid_var may not allow arbitrary values, so use jobid_name
+       # if available
+       if $LCTL list_param jobid_name > /dev/null 2>&1; then
+               local testname=jobid_name
+       else
+               local testname=jobid_var
+       fi
+
+       local jobid_var_old=$($LCTL get_param -n $testname)
        local jobid_var_new
 
-       $LCTL set_param jobid_var= &&
+       $LCTL set_param $testname= &&
                error "no error returned for 'set_param a='"
 
-       jobid_var_new=$($LCTL get_param -n jobid_var)
+       jobid_var_new=$($LCTL get_param -n $testname)
        [[ "$jobid_var_old" == "$jobid_var_new" ]] ||
-               error "jobid_var was changed by setting without value"
+               error "$testname was changed by setting without value"
 
-       $LCTL set_param jobid_var &&
+       $LCTL set_param $testname &&
                error "no error returned for 'set_param a'"
 
-       jobid_var_new=$($LCTL get_param -n jobid_var)
+       jobid_var_new=$($LCTL get_param -n $testname)
        [[ "$jobid_var_old" == "$jobid_var_new" ]] ||
-               error "jobid_var was changed by setting without value"
+               error "$testname was changed by setting without value"
 }
 run_test 401c "Verify 'lctl set_param' without value fails in either format."
 
 test_401d() {
-       local jobid_var_old=$($LCTL get_param -n jobid_var)
+       # jobid_var may not allow arbitrary values, so use jobid_name
+       # if available
+       if $LCTL list_param jobid_name > /dev/null 2>&1; then
+               local testname=jobid_name new_value='foo=bar%p'
+       else
+               local testname=jobid_var new_valuie=foo=bar
+       fi
+
+       local jobid_var_old=$($LCTL get_param -n $testname)
        local jobid_var_new
-       local new_value="foo=bar"
 
-       $LCTL set_param jobid_var=$new_value ||
+       $LCTL set_param $testname=$new_value ||
                error "'set_param a=b' did not accept a value containing '='"
 
-       jobid_var_new=$($LCTL get_param -n jobid_var)
+       jobid_var_new=$($LCTL get_param -n $testname)
        [[ "$jobid_var_new" == "$new_value" ]] ||
                error "'set_param a=b' failed on a value containing '='"
 
-       # Reset the jobid_var to test the other format
-       $LCTL set_param jobid_var=$jobid_var_old
-       jobid_var_new=$($LCTL get_param -n jobid_var)
+       # Reset the $testname to test the other format
+       $LCTL set_param $testname=$jobid_var_old
+       jobid_var_new=$($LCTL get_param -n $testname)
        [[ "$jobid_var_new" == "$jobid_var_old" ]] ||
-               error "failed to reset jobid_var"
+               error "failed to reset $testname"
 
-       $LCTL set_param jobid_var $new_value ||
+       $LCTL set_param $testname $new_value ||
                error "'set_param a b' did not accept a value containing '='"
 
-       jobid_var_new=$($LCTL get_param -n jobid_var)
+       jobid_var_new=$($LCTL get_param -n $testname)
        [[ "$jobid_var_new" == "$new_value" ]] ||
                error "'set_param a b' failed on a value containing '='"
 
-       $LCTL set_param jobid_var $jobid_var_old
-       jobid_var_new=$($LCTL get_param -n jobid_var)
+       $LCTL set_param $testname $jobid_var_old
+       jobid_var_new=$($LCTL get_param -n $testname)
        [[ "$jobid_var_new" == "$jobid_var_old" ]] ||
-               error "failed to reset jobid_var"
+               error "failed to reset $testname"
 }
 run_test 401d "Verify 'lctl set_param' accepts values containing '='"
 
@@ -23335,6 +23413,41 @@ test_424() {
 }
 run_test 424 "simulate ENOMEM in ptl_send_rpc bulk reply ME attach"
 
+test_425() {
+       test_mkdir -c -1 $DIR/$tdir
+       $LFS setstripe -c -1 $DIR/$tdir
+
+       lru_resize_disable "" 100
+       stack_trap "lru_resize_enable" EXIT
+
+       sleep 5
+
+       for i in $(seq $((MDSCOUNT * 125))); do
+               local t=$DIR/$tdir/$tfile_$i
+
+               dd if=/dev/zero of=$t bs=4K count=1 > /dev/null 2>&1 ||
+                       error_noexit "Create file $t"
+       done
+       stack_trap "rm -rf $DIR/$tdir" EXIT
+
+       for oscparam in $($LCTL list_param ldlm.namespaces.*osc-[-0-9a-f]*); do
+               local lru_size=$($LCTL get_param -n $oscparam.lru_size)
+               local lock_count=$($LCTL get_param -n $oscparam.lock_count)
+
+               [ $lock_count -le $lru_size ] ||
+                       error "osc lock count $lock_count > lru size $lru_size"
+       done
+
+       for mdcparam in $($LCTL list_param ldlm.namespaces.*mdc-*); do
+               local lru_size=$($LCTL get_param -n $mdcparam.lru_size)
+               local lock_count=$($LCTL get_param -n $mdcparam.lock_count)
+
+               [ $lock_count -le $lru_size ] ||
+                       error "mdc lock count $lock_count > lru size $lru_size"
+       done
+}
+run_test 425 "lock count should not exceed lru size"
+
 prep_801() {
        [[ $MDS1_VERSION -lt $(version_code 2.9.55) ]] ||
        [[ $OST1_VERSION -lt $(version_code 2.9.55) ]] &&