Whamcloud - gitweb
LU-9480 lnet: add enhanced statistics
[fs/lustre-release.git] / lnet / include / lnet / lib-types.h
index 8bfa42e..7c7a9bd 100644 (file)
@@ -75,6 +75,13 @@ typedef struct lnet_msg {
        lnet_nid_t              msg_from;
        __u32                   msg_type;
 
+       /*
+        * hold parameters in case message is with held due
+        * to discovery
+        */
+       lnet_nid_t              msg_src_nid_param;
+       lnet_nid_t              msg_rtr_nid_param;
+
        /* committed for sending */
        unsigned int            msg_tx_committed:1;
        /* CPT # this message committed for sending */
@@ -287,10 +294,24 @@ enum lnet_ni_state {
        LNET_NI_STATE_DELETING
 };
 
+enum lnet_stats_type {
+       LNET_STATS_TYPE_SEND = 0,
+       LNET_STATS_TYPE_RECV,
+       LNET_STATS_TYPE_DROP
+};
+
+struct lnet_comm_count {
+       atomic_t co_get_count;
+       atomic_t co_put_count;
+       atomic_t co_reply_count;
+       atomic_t co_ack_count;
+       atomic_t co_hello_count;
+};
+
 struct lnet_element_stats {
-       atomic_t        send_count;
-       atomic_t        recv_count;
-       atomic_t        drop_count;
+       struct lnet_comm_count el_send_stats;
+       struct lnet_comm_count el_recv_stats;
+       struct lnet_comm_count el_drop_stats;
 };
 
 struct lnet_net {
@@ -421,6 +442,8 @@ struct lnet_ping_buffer {
 #define LNET_PING_BUFFER_LONI(PBUF)    ((PBUF)->pb_info.pi_ni[0].ns_nid)
 #define LNET_PING_BUFFER_SEQNO(PBUF)   ((PBUF)->pb_info.pi_ni[0].ns_status)
 
+#define LNET_PING_INFO_TO_BUFFER(PINFO)        \
+       container_of((PINFO), struct lnet_ping_buffer, pb_info)
 
 /* router checker data, per router */
 typedef struct lnet_rc_data {
@@ -526,6 +549,9 @@ struct lnet_peer {
        /* list of peer nets */
        struct list_head        lp_peer_nets;
 
+       /* list of messages pending discovery*/
+       struct list_head        lp_dc_pendq;
+
        /* primary NID of the peer */
        lnet_nid_t              lp_primary_nid;
 
@@ -543,10 +569,94 @@ struct lnet_peer {
 
        /* peer state flags */
        unsigned                lp_state;
+
+       /* buffer for data pushed by peer */
+       struct lnet_ping_buffer *lp_data;
+
+       /* MD handle for ping in progress */
+       lnet_handle_md_t        lp_ping_mdh;
+
+       /* MD handle for push in progress */
+       lnet_handle_md_t        lp_push_mdh;
+
+       /* number of NIDs for sizing push data */
+       int                     lp_data_nnis;
+
+       /* NI config sequence number of peer */
+       __u32                   lp_peer_seqno;
+
+       /* Local NI config sequence number acked by peer */
+       __u32                   lp_node_seqno;
+
+       /* Local NI config sequence number sent to peer */
+       __u32                   lp_node_seqno_sent;
+
+       /* Ping error encountered during discovery. */
+       int                     lp_ping_error;
+
+       /* Push error encountered during discovery. */
+       int                     lp_push_error;
+
+       /* Error encountered during discovery. */
+       int                     lp_dc_error;
+
+       /* time it was put on the ln_dc_working queue */
+       time64_t                lp_last_queued;
+
+       /* link on discovery-related lists */
+       struct list_head        lp_dc_list;
+
+       /* tasks waiting on discovery of this peer */
+       wait_queue_head_t       lp_dc_waitq;
 };
 
-#define LNET_PEER_MULTI_RAIL   (1 << 0)
-#define LNET_PEER_CONFIGURED   (1 << 1)
+/*
+ * The status flags in lp_state. Their semantics have chosen so that
+ * lp_state can be zero-initialized.
+ *
+ * A peer is marked MULTI_RAIL in two cases: it was configured using DLC
+ * as multi-rail aware, or the LNET_PING_FEAT_MULTI_RAIL bit was set.
+ *
+ * A peer is marked NO_DISCOVERY if the LNET_PING_FEAT_DISCOVERY bit was
+ * NOT set when the peer was pinged by discovery.
+ */
+#define LNET_PEER_MULTI_RAIL   (1 << 0)        /* Multi-rail aware */
+#define LNET_PEER_NO_DISCOVERY (1 << 1)        /* Peer disabled discovery */
+/*
+ * A peer is marked CONFIGURED if it was configured by DLC.
+ *
+ * In addition, a peer is marked DISCOVERED if it has fully passed
+ * through Peer Discovery.
+ *
+ * When Peer Discovery is disabled, the discovery thread will mark
+ * peers REDISCOVER to indicate that they should be re-examined if
+ * discovery is (re)enabled on the node.
+ *
+ * A peer that was created as the result of inbound traffic will not
+ * be marked at all.
+ */
+#define LNET_PEER_CONFIGURED   (1 << 2)        /* Configured via DLC */
+#define LNET_PEER_DISCOVERED   (1 << 3)        /* Peer was discovered */
+#define LNET_PEER_REDISCOVER   (1 << 4)        /* Discovery was disabled */
+/*
+ * A peer is marked DISCOVERING when discovery is in progress.
+ * The other flags below correspond to stages of discovery.
+ */
+#define LNET_PEER_DISCOVERING  (1 << 5)        /* Discovering */
+#define LNET_PEER_DATA_PRESENT (1 << 6)        /* Remote peer data present */
+#define LNET_PEER_NIDS_UPTODATE        (1 << 7)        /* Remote peer info uptodate */
+#define LNET_PEER_PING_SENT    (1 << 8)        /* Waiting for REPLY to Ping */
+#define LNET_PEER_PUSH_SENT    (1 << 9)        /* Waiting for ACK of Push */
+#define LNET_PEER_PING_FAILED  (1 << 10)       /* Ping send failure */
+#define LNET_PEER_PUSH_FAILED  (1 << 11)       /* Push send failure */
+/*
+ * A ping can be forced as a way to fix up state, or as a manual
+ * intervention by an admin.
+ * A push can be forced in circumstances that would normally not
+ * allow for one to happen.
+ */
+#define LNET_PEER_FORCE_PING   (1 << 12)       /* Forced Ping */
+#define LNET_PEER_FORCE_PUSH   (1 << 13)       /* Forced Push */
 
 struct lnet_peer_net {
        /* chain on lp_peer_nets */
@@ -578,7 +688,6 @@ struct lnet_peer_net {
  *    pt_hash[...]
  *    pt_peer_list
  *    pt_peers
- *    pt_peer_nnids
  * protected by pt_zombie_lock:
  *    pt_zombie_list
  *    pt_zombies
@@ -591,7 +700,6 @@ struct lnet_peer_table {
        struct list_head        *pt_hash;       /* NID->peer hash */
        struct list_head        pt_peer_list;   /* peers */
        int                     pt_peers;       /* # peers */
-       int                     pt_peer_nnids;  /* # NIDS on listed peers */
        struct list_head        pt_zombie_list; /* zombie peer_ni */
        int                     pt_zombies;     /* # zombie peers_ni */
        spinlock_t              pt_zombie_lock; /* protect list and count */
@@ -632,6 +740,8 @@ typedef struct lnet_remotenet {
 #define LNET_CREDIT_OK         0
 /** lnet message is waiting for credit */
 #define LNET_CREDIT_WAIT       1
+/** lnet message is waiting for discovery */
+#define LNET_DC_WAIT           2
 
 typedef struct lnet_rtrbufpool {
        /* my free buffer pool */
@@ -767,6 +877,11 @@ struct lnet_msg_container {
        void                    **msc_finalizers;
 };
 
+/* Peer Discovery states */
+#define LNET_DC_STATE_SHUTDOWN         0       /* not started */
+#define LNET_DC_STATE_RUNNING          1       /* started up OK */
+#define LNET_DC_STATE_STOPPING         2       /* telling thread to stop */
+
 /* Router Checker states */
 #define LNET_RC_STATE_SHUTDOWN         0       /* not started */
 #define LNET_RC_STATE_RUNNING          1       /* started up OK */
@@ -844,6 +959,32 @@ typedef struct lnet {
        struct lnet_ping_buffer         *ln_ping_target;
        atomic_t                        ln_ping_target_seqno;
 
+       /*
+        * Push Target
+        *
+        * ln_push_nnis contains the desired size of the push target.
+        * The lnet_net_lock is used to handle update races. The old
+        * buffer may linger a while after it has been unlinked, in
+        * which case the event handler cleans up.
+        */
+       lnet_handle_eq_t                ln_push_target_eq;
+       lnet_handle_md_t                ln_push_target_md;
+       struct lnet_ping_buffer         *ln_push_target;
+       int                             ln_push_target_nnis;
+
+       /* discovery event queue handle */
+       lnet_handle_eq_t                ln_dc_eqh;
+       /* discovery requests */
+       struct list_head                ln_dc_request;
+       /* discovery working list */
+       struct list_head                ln_dc_working;
+       /* discovery expired list */
+       struct list_head                ln_dc_expired;
+       /* discovery thread wait queue */
+       wait_queue_head_t               ln_dc_waitq;
+       /* discovery startup/shutdown state */
+       int                             ln_dc_state;
+
        /* router checker startup/shutdown state */
        int                             ln_rc_state;
        /* router checker's event queue */