Whamcloud - gitweb
LU-11300 lnet: router aliveness 85/33185/34
authorAmir Shehata <ashehata@whamcloud.com>
Thu, 6 Sep 2018 00:03:45 +0000 (17:03 -0700)
committerAmir Shehata <ashehata@whamcloud.com>
Fri, 7 Jun 2019 18:14:48 +0000 (18:14 +0000)
commit21d2252648bea9edb107292c4a720ff9ab557748
treecaf24d57194928adcdbe58e0e98ee1f18eeca421
parent8e498d3f23ea9bcbef524153c6613f93a6229431
LU-11300 lnet: router aliveness

A route is considered alive if the gateway is able to route
messages from the local to the remote net. That means that
at least one of the network interfaces on the remote net of
the gateway is viable.

Introduced the concept of sensitivity percentage. This defaults
to 100%. It holds a dual meaning:
1. A route is considered alive if at least one of the its interfaces'
health is >= LNET_MAX_HEALTH_VALUE * router_sensitivity_percentage
100 means at least one interface has to be 100% healthy
2. On a router consider a peer_ni dead if its health is not at least
LNET_MAX_HEALTH_VALUE * router_sensitivity_percentage.
100% means the interface has to be 100% healthy.

Re-implemented lnet_notify() to decrement the health of the
peer interface if the LND reports a failure on that peer.

Test-Parameters: forbuildonly
Signed-off-by: Amir Shehata <ashehata@whamcloud.com>
Change-Id: Ie97561fb70bf6a558bc90fa9266a6ba38fa3d293
Reviewed-on: https://review.whamcloud.com/33185
Tested-by: Jenkins
lnet/include/lnet/lib-lnet.h
lnet/lnet/router.c
lnet/lnet/router_proc.c