Whamcloud - gitweb
Severity : major
[fs/lustre-release.git] / lnet / klnds / ptllnd / ptllnd.h
1 /* -*- mode: c; c-basic-offset: 8; indent-tabs-mode: nil; -*-
2  * vim:expandtab:shiftwidth=8:tabstop=8:
3  *
4  * Copyright (C) 2005 Cluster File Systems, Inc. All rights reserved.
5  *   Author: PJ Kirner <pjkirner@clusterfs.com>
6  *
7  *   This file is part of the Lustre file system, http://www.lustre.org
8  *   Lustre is a trademark of Cluster File Systems, Inc.
9  *
10  *   This file is confidential source code owned by Cluster File Systems.
11  *   No viewing, modification, compilation, redistribution, or any other
12  *   form of use is permitted except through a signed license agreement.
13  *
14  *   If you have not signed such an agreement, then you have no rights to
15  *   this file.  Please destroy it immediately and contact CFS.
16  *
17  */
18
19 #ifndef EXPORT_SYMTAB
20 # define EXPORT_SYMTAB
21 #endif
22
23 #include <linux/config.h>
24 #include <linux/module.h>
25 #include <linux/kernel.h>
26 #include <linux/mm.h>
27 #include <linux/string.h>
28 #include <linux/stat.h>
29 #include <linux/errno.h>
30 #include <linux/smp_lock.h>
31 #include <linux/unistd.h>
32 #include <linux/uio.h>
33
34 #include <asm/system.h>
35 #include <asm/uaccess.h>
36 #include <asm/io.h>
37
38 #include <linux/init.h>
39 #include <linux/fs.h>
40 #include <linux/file.h>
41 #include <linux/stat.h>
42 #include <linux/list.h>
43 #include <linux/kmod.h>
44 #include <linux/sysctl.h>
45 #include <linux/random.h>
46
47 #include <net/sock.h>
48 #include <linux/in.h>
49
50
51 #define DEBUG_SUBSYSTEM S_LND
52
53 #include <libcfs/kp30.h>
54 #include <lnet/lnet.h>
55 #include <lnet/lib-lnet.h>
56 #include <portals/p30.h>
57 #ifdef CRAY_XT3
58 #include <portals/ptltrace.h>
59 #endif
60 #include <lnet/ptllnd.h>        /* Depends on portals/p30.h */
61
62 /*
63  * Define this to enable console debug logging
64  * and simulation
65  */
66 //#define PJK_DEBUGGING
67
68 #ifdef CONFIG_SMP
69 # define PTLLND_N_SCHED         num_online_cpus()   /* # schedulers */
70 #else
71 # define PTLLND_N_SCHED         1                   /* # schedulers */
72 #endif
73
74 #define PTLLND_CREDIT_HIGHWATER ((*kptllnd_tunables.kptl_peercredits)-1)
75   /* when eagerly to return credits */
76
77 typedef struct
78 {
79         int             *kptl_ntx;              /* # tx descs to pre-allocate */
80         int             *kptl_max_nodes;        /* max # nodes all talking to me */
81         int             *kptl_max_procs_per_node; /* max # processes per node */
82         int             *kptl_checksum;         /* checksum kptl_msg_t? */
83         int             *kptl_timeout;          /* comms timeout (seconds) */
84         int             *kptl_portal;           /* portal number */
85         int             *kptl_pid;              /* portals PID (self + kernel peers) */
86         int             *kptl_rxb_npages;       /* number of pages for rx buffer */
87         int             *kptl_rxb_nspare;       /* number of spare rx buffers */
88         int             *kptl_credits;          /* number of credits */
89         int             *kptl_peercredits;      /* number of credits */
90         int             *kptl_max_msg_size;     /* max immd message size*/
91         int             *kptl_peer_hash_table_size; /* # slots in peer hash table */
92         int             *kptl_reschedule_loops; /* scheduler yield loops */
93         int             *kptl_ack_puts;         /* make portals ack PUTs */
94 #ifdef CRAY_XT3
95         int             *kptl_ptltrace_on_timeout; /* dump pltrace on timeout? */
96         char           **kptl_ptltrace_basename;  /* ptltrace dump file basename */
97 #endif
98 #ifdef PJK_DEBUGGING
99         int             *kptl_simulation_bitmap;/* simulation bitmap */
100 #endif
101
102 #if CONFIG_SYSCTL && !CFS_SYSFS_MODULE_PARM
103         struct ctl_table_header *kptl_sysctl;    /* sysctl interface */
104 #endif
105 } kptl_tunables_t;
106
107 #include "lnet/ptllnd_wire.h"
108
109 /***********************************************************************/
110
111 typedef struct kptl_data kptl_data_t;
112 typedef struct kptl_rx_buffer kptl_rx_buffer_t;
113 typedef struct kptl_peer kptl_peer_t;
114
115 typedef struct {
116         char      eva_type;
117 } kptl_eventarg_t;
118
119 #define PTLLND_EVENTARG_TYPE_MSG    0x1
120 #define PTLLND_EVENTARG_TYPE_RDMA   0x2
121 #define PTLLND_EVENTARG_TYPE_BUF    0x3
122
123 typedef struct kptl_rx                          /* receive message */
124 {
125         struct list_head        rx_list;        /* queue for attention */
126         kptl_rx_buffer_t       *rx_rxb;         /* the rx buffer pointer */
127         kptl_msg_t             *rx_msg;         /* received message */
128         int                     rx_nob;         /* received message size */
129         unsigned long           rx_treceived;   /* time received */
130         ptl_process_id_t        rx_initiator;   /* sender's address */
131 #ifdef CRAY_XT3
132         ptl_uid_t               rx_uid;         /* sender's uid */
133 #endif
134         kptl_peer_t            *rx_peer;        /* pointer to peer */
135         char                    rx_space[0];    /* copy of incoming request */
136 } kptl_rx_t;
137
138 typedef struct kptl_rx_buffer_pool
139 {
140         spinlock_t              rxbp_lock;
141         struct list_head        rxbp_list;      /* all allocated buffers */
142         int                     rxbp_count;     /* # allocated buffers */
143         int                     rxbp_reserved;  /* # requests to buffer */
144         int                     rxbp_shutdown;  /* shutdown flag */
145 } kptl_rx_buffer_pool_t;
146
147 struct kptl_rx_buffer
148 {
149         kptl_rx_buffer_pool_t  *rxb_pool;
150         struct list_head        rxb_list;       /* for the rxb_pool list */
151         struct list_head        rxb_repost_list;/* for the kptl_sched_rxbq list */
152         int                     rxb_posted:1;   /* on the net */
153         int                     rxb_idle:1;     /* all done */
154         kptl_eventarg_t         rxb_eventarg;   /* event->md.user_ptr */
155         int                     rxb_refcount;   /* reference count */
156         ptl_handle_md_t         rxb_mdh;        /* the portals memory descriptor (MD) handle */
157         char                   *rxb_buffer;     /* the buffer */
158
159 };
160
161 enum kptl_tx_type
162 {
163         TX_TYPE_RESERVED                = 0,
164         TX_TYPE_SMALL_MESSAGE           = 1,
165         TX_TYPE_PUT_REQUEST             = 2,
166         TX_TYPE_GET_REQUEST             = 3,
167         TX_TYPE_PUT_RESPONSE            = 4,
168         TX_TYPE_GET_RESPONSE            = 5,
169 };
170
171 typedef union {
172 #ifdef _USING_LUSTRE_PORTALS_
173         struct iovec iov[PTL_MD_MAX_IOV];
174         lnet_kiov_t kiov[PTL_MD_MAX_IOV];
175 #else
176         ptl_md_iovec_t iov[PTL_MD_MAX_IOV];
177 #endif
178 } kptl_fragvec_t;
179
180 typedef struct kptl_tx                           /* transmit message */
181 {
182         struct list_head        tx_list;      /* queue on idle_txs etc */
183         atomic_t                tx_refcount;  /* reference count*/
184         enum kptl_tx_type       tx_type;      /* small msg/{put,get}{req,resp} */
185         int                     tx_active:1;  /* queued on the peer */
186         int                     tx_idle:1;    /* on the free list */
187         int                     tx_acked:1;   /* portals ACK wanted (for debug only) */
188         kptl_eventarg_t         tx_msg_eventarg; /* event->md.user_ptr */
189         kptl_eventarg_t         tx_rdma_eventarg; /* event->md.user_ptr */
190         int                     tx_status;    /* the status of this tx descriptor */
191         ptl_handle_md_t         tx_rdma_mdh;  /* RDMA buffer */
192         ptl_handle_md_t         tx_msg_mdh;   /* the portals MD handle for the initial message */
193         lnet_msg_t             *tx_lnet_msg;  /* LNET message to finalize */
194         lnet_msg_t             *tx_lnet_replymsg; /* LNET reply message to finalize */
195         kptl_msg_t             *tx_msg;       /* the message data */
196         kptl_peer_t            *tx_peer;      /* the peer this is waiting on */
197         unsigned long           tx_deadline;  /* deadline */
198         unsigned long           tx_tposted;   /* time posted */
199         ptl_md_t                tx_rdma_md;   /* rdma descriptor */
200         kptl_fragvec_t         *tx_frags;     /* buffer fragments */
201 } kptl_tx_t;
202
203 enum kptllnd_peer_state
204 {
205         PEER_STATE_UNINITIALIZED        = 0,
206         PEER_STATE_ALLOCATED            = 1,
207         PEER_STATE_WAITING_HELLO        = 2,
208         PEER_STATE_ACTIVE               = 3,
209         PEER_STATE_CLOSING              = 4,
210         PEER_STATE_ZOMBIE               = 5,
211 };
212
213 struct kptl_peer
214 {
215         struct list_head        peer_list;
216         atomic_t                peer_refcount;          /* The current refrences */
217         enum kptllnd_peer_state peer_state;
218         spinlock_t              peer_lock;              /* serialize */
219         struct list_head        peer_sendq;             /* txs waiting for mh handles */
220         struct list_head        peer_activeq;           /* txs awaiting completion */
221         lnet_process_id_t       peer_id;                /* Peer's LNET id */
222         ptl_process_id_t        peer_ptlid;             /* Peer's portals id */
223         __u64                   peer_incarnation;       /* peer's incarnation */
224         __u64                   peer_myincarnation;     /* my incarnation at HELLO */
225         int                     peer_sent_hello;        /* have I sent HELLO? */
226         int                     peer_credits;           /* number of send credits */
227         int                     peer_outstanding_credits;/* number of peer credits to return */
228         int                     peer_sent_credits;      /* #msg buffers posted for peer */
229         int                     peer_max_msg_size;      /* peer's rx buffer size */
230         int                     peer_error;             /* errno on closing this peer */
231         cfs_time_t              peer_last_alive;        /* when (in jiffies) I was last alive */
232         __u64                   peer_next_matchbits;    /* Next value to register RDMA from peer */
233         __u64                   peer_last_matchbits_seen; /* last matchbits used to RDMA to peer */
234 };
235
236 struct kptl_data
237 {
238         int                     kptl_init;             /* initialisation state */
239         volatile int            kptl_shutdown;         /* shut down? */
240         atomic_t                kptl_nthreads;         /* # live threads */
241         lnet_ni_t              *kptl_ni;               /* _the_ LND instance */
242         ptl_handle_ni_t         kptl_nih;              /* network inteface handle */
243         ptl_process_id_t        kptl_portals_id;       /* Portals ID of interface */
244         __u64                   kptl_incarnation;      /* which one am I */
245         ptl_handle_eq_t         kptl_eqh;              /* Event Queue (EQ) */
246
247         spinlock_t              kptl_sched_lock;       /* serialise... */
248         wait_queue_head_t       kptl_sched_waitq;      /* schedulers sleep here */
249         struct list_head        kptl_sched_txq;        /* tx requiring attention */
250         struct list_head        kptl_sched_rxq;        /* rx requiring attention */
251         struct list_head        kptl_sched_rxbq;       /* rxb requiring reposting */
252
253         wait_queue_head_t       kptl_watchdog_waitq;   /* watchdog sleeps here */
254
255         kptl_rx_buffer_pool_t   kptl_rx_buffer_pool;   /* rx buffer pool */
256         cfs_mem_cache_t*        kptl_rx_cache;         /* rx descripter cache */
257
258         atomic_t                kptl_ntx;              /* # tx descs allocated */
259         spinlock_t              kptl_tx_lock;          /* serialise idle tx list*/
260         struct list_head        kptl_idle_txs;         /* idle tx descriptors */
261
262         rwlock_t                kptl_peer_rw_lock;     /* lock for peer table */
263         struct list_head       *kptl_peers;            /* hash table of all my known peers */
264         struct list_head        kptl_closing_peers;    /* peers being closed */
265         struct list_head        kptl_zombie_peers;     /* peers waiting for refs to drain */
266         int                     kptl_peer_hash_size;   /* size of kptl_peers */
267         int                     kptl_npeers;           /* # peers extant */
268         int                     kptl_n_active_peers;   /* # active peers */
269         int                     kptl_expected_peers;   /* # peers I can buffer HELLOs from */
270
271         kptl_msg_t             *kptl_nak_msg;          /* common NAK message */
272         spinlock_t              kptl_ptlid2str_lock;   /* serialise str ops */
273 };
274
275 enum 
276 {
277         PTLLND_INIT_NOTHING = 0,
278         PTLLND_INIT_DATA,
279         PTLLND_INIT_ALL,
280 };
281
282 extern kptl_tunables_t  kptllnd_tunables;
283 extern kptl_data_t      kptllnd_data;
284
285 static inline lnet_nid_t 
286 kptllnd_ptl2lnetnid(ptl_nid_t ptl_nid)
287 {
288 #ifdef _USING_LUSTRE_PORTALS_
289         return LNET_MKNID(LNET_NIDNET(kptllnd_data.kptl_ni->ni_nid), 
290                           LNET_NIDADDR(ptl_nid));
291 #else
292         return LNET_MKNID(LNET_NIDNET(kptllnd_data.kptl_ni->ni_nid), 
293                           ptl_nid);
294 #endif
295 }
296
297 static inline ptl_nid_t 
298 kptllnd_lnet2ptlnid(lnet_nid_t lnet_nid)
299 {
300 #ifdef _USING_LUSTRE_PORTALS_
301         return LNET_MKNID(LNET_NIDNET(kptllnd_data.kptl_portals_id.nid),
302                           LNET_NIDADDR(lnet_nid));
303 #else
304         return LNET_NIDADDR(lnet_nid);
305 #endif
306 }
307
308 int  kptllnd_startup(lnet_ni_t *ni);
309 void kptllnd_shutdown(lnet_ni_t *ni);
310 int  kptllnd_ctl(lnet_ni_t *ni, unsigned int cmd, void *arg);
311 int  kptllnd_send(lnet_ni_t *ni, void *private, lnet_msg_t *lntmsg);
312 int  kptllnd_recv(lnet_ni_t *ni, void *private, lnet_msg_t *lntmsg,
313                   int delayed, unsigned int niov, 
314                   struct iovec *iov, lnet_kiov_t *kiov,
315                   unsigned int offset, unsigned int mlen, unsigned int rlen);
316 int  kptllnd_eager_recv(struct lnet_ni *ni, void *private, 
317                         lnet_msg_t *msg, void **new_privatep);
318 void kptllnd_eq_callback(ptl_event_t *evp);
319 int  kptllnd_scheduler(void *arg);
320 int  kptllnd_watchdog(void *arg);
321 int  kptllnd_thread_start(int (*fn)(void *arg), void *arg);
322 int  kptllnd_tunables_init(void);
323 void kptllnd_tunables_fini(void);
324
325 const char *kptllnd_evtype2str(int evtype);
326 const char *kptllnd_msgtype2str(int msgtype);
327 const char *kptllnd_errtype2str(int errtype);
328
329 static inline void *
330 kptllnd_eventarg2obj (kptl_eventarg_t *eva)
331 {
332         switch (eva->eva_type) {
333         default:
334                 LBUG();
335         case PTLLND_EVENTARG_TYPE_BUF:
336                 return list_entry(eva, kptl_rx_buffer_t, rxb_eventarg);
337         case PTLLND_EVENTARG_TYPE_RDMA:
338                 return list_entry(eva, kptl_tx_t, tx_rdma_eventarg);
339         case PTLLND_EVENTARG_TYPE_MSG:
340                 return list_entry(eva, kptl_tx_t, tx_msg_eventarg);
341         }
342 }
343
344 /*
345  * RX BUFFER SUPPORT FUNCTIONS
346  */
347 void kptllnd_rx_buffer_pool_init(kptl_rx_buffer_pool_t *rxbp);
348 void kptllnd_rx_buffer_pool_fini(kptl_rx_buffer_pool_t *rxbp);
349 int  kptllnd_rx_buffer_pool_reserve(kptl_rx_buffer_pool_t *rxbp, int count);
350 void kptllnd_rx_buffer_pool_unreserve(kptl_rx_buffer_pool_t *rxbp, int count);
351 void kptllnd_rx_buffer_callback(ptl_event_t *ev);
352 void kptllnd_rx_buffer_post(kptl_rx_buffer_t *rxb);
353
354 static inline int
355 kptllnd_rx_buffer_size(void)
356 {
357         return PAGE_SIZE * (*kptllnd_tunables.kptl_rxb_npages);
358 }
359
360 static inline void
361 kptllnd_rx_buffer_addref(kptl_rx_buffer_t *rxb)
362 {
363         unsigned long flags;
364         
365         spin_lock_irqsave(&rxb->rxb_pool->rxbp_lock, flags);
366         rxb->rxb_refcount++;
367         spin_unlock_irqrestore(&rxb->rxb_pool->rxbp_lock, flags);
368 }
369
370 static inline void
371 kptllnd_rx_buffer_decref_locked(kptl_rx_buffer_t *rxb)
372 {
373         if (--(rxb->rxb_refcount) == 0) {
374                 spin_lock(&kptllnd_data.kptl_sched_lock);
375         
376                 list_add_tail(&rxb->rxb_repost_list,
377                               &kptllnd_data.kptl_sched_rxbq);
378                 wake_up(&kptllnd_data.kptl_sched_waitq);
379
380                 spin_unlock(&kptllnd_data.kptl_sched_lock);
381         }
382 }
383
384 static inline void
385 kptllnd_rx_buffer_decref(kptl_rx_buffer_t *rxb)
386 {
387         unsigned long flags;
388         int           count;
389         
390         spin_lock_irqsave(&rxb->rxb_pool->rxbp_lock, flags);
391         count = --(rxb->rxb_refcount);
392         spin_unlock_irqrestore(&rxb->rxb_pool->rxbp_lock, flags);
393
394         if (count == 0)
395                 kptllnd_rx_buffer_post(rxb);
396 }
397
398 /*
399  * RX SUPPORT FUNCTIONS
400  */
401 void kptllnd_rx_done(kptl_rx_t *rx);
402 void kptllnd_rx_parse(kptl_rx_t *rx);
403
404 /*
405  * PEER SUPPORT FUNCTIONS
406  */
407 int kptllnd_get_peer_info(int index,
408                           lnet_process_id_t *id, 
409                           int *state, int *sent_hello,
410                           int *refcount, __u64 *incarnation,
411                           __u64 *next_matchbits, __u64 *last_matchbits_seen,
412                           int *nsendq, int *nactiveq,
413                           int *credits, int *outstanding_credits);
414 void kptllnd_peer_destroy(kptl_peer_t *peer);
415 int  kptllnd_peer_del(lnet_process_id_t id);
416 void kptllnd_peer_close_locked(kptl_peer_t *peer, int why);
417 void kptllnd_peer_close(kptl_peer_t *peer, int why);
418 void kptllnd_handle_closing_peers(void);
419 int  kptllnd_peer_connect(kptl_tx_t *tx, lnet_nid_t nid);
420 void kptllnd_peer_check_sends(kptl_peer_t *peer);
421 void kptllnd_peer_check_bucket(int idx);
422 void kptllnd_tx_launch(kptl_peer_t *peer, kptl_tx_t *tx, int nfrag);
423 int  kptllnd_find_target(kptl_peer_t **peerp, lnet_process_id_t target);
424 kptl_peer_t *kptllnd_peer_handle_hello(ptl_process_id_t initiator,
425                                        kptl_msg_t *msg);
426 kptl_peer_t *kptllnd_id2peer_locked(lnet_process_id_t id);
427 void kptllnd_peer_alive(kptl_peer_t *peer);
428
429 static inline void
430 kptllnd_peer_addref (kptl_peer_t *peer)
431 {
432         atomic_inc(&peer->peer_refcount);
433 }
434
435 static inline void
436 kptllnd_peer_decref (kptl_peer_t *peer)
437 {
438         if (atomic_dec_and_test(&peer->peer_refcount))
439                 kptllnd_peer_destroy(peer);
440 }
441
442 static inline void
443 kptllnd_set_tx_peer(kptl_tx_t *tx, kptl_peer_t *peer) 
444 {
445         LASSERT (tx->tx_peer == NULL);
446         
447         kptllnd_peer_addref(peer);
448         tx->tx_peer = peer;
449 }
450
451 static inline struct list_head *
452 kptllnd_nid2peerlist(lnet_nid_t nid)
453 {
454         unsigned int hash = ((unsigned int)nid) %
455                             kptllnd_data.kptl_peer_hash_size;
456
457         return &kptllnd_data.kptl_peers[hash];
458 }
459
460 static inline kptl_peer_t *
461 kptllnd_id2peer(lnet_process_id_t id)
462 {
463         kptl_peer_t   *peer;
464         unsigned long  flags;
465
466         read_lock_irqsave(&kptllnd_data.kptl_peer_rw_lock, flags);
467         peer = kptllnd_id2peer_locked(id);
468         read_unlock_irqrestore(&kptllnd_data.kptl_peer_rw_lock, flags);
469
470         return peer;
471 }
472
473 static inline int
474 kptllnd_reserve_buffers(int n)
475 {
476         return kptllnd_rx_buffer_pool_reserve(&kptllnd_data.kptl_rx_buffer_pool,
477                                               n);
478 }
479
480 static inline int
481 kptllnd_peer_reserve_buffers(void)
482 {
483         return kptllnd_reserve_buffers(*kptllnd_tunables.kptl_peercredits);
484 }
485
486 static inline void
487 kptllnd_peer_unreserve_buffers(void)
488 {
489         kptllnd_rx_buffer_pool_unreserve(&kptllnd_data.kptl_rx_buffer_pool,
490                                          *kptllnd_tunables.kptl_peercredits);
491 }
492
493 /*
494  * TX SUPPORT FUNCTIONS
495  */
496 int  kptllnd_setup_tx_descs(void);
497 void kptllnd_cleanup_tx_descs(void);
498 void kptllnd_tx_fini(kptl_tx_t *tx);
499 kptl_tx_t *kptllnd_get_idle_tx(enum kptl_tx_type purpose);
500 void kptllnd_tx_callback(ptl_event_t *ev);
501 const char *kptllnd_tx_typestr(int type);
502
503 static inline void
504 kptllnd_tx_addref(kptl_tx_t *tx)
505 {
506         atomic_inc(&tx->tx_refcount);
507 }
508
509 static inline void 
510 kptllnd_tx_decref(kptl_tx_t *tx)
511 {
512         LASSERT (!in_interrupt());        /* Thread context only */
513
514         if (atomic_dec_and_test(&tx->tx_refcount))
515                 kptllnd_tx_fini(tx);
516 }
517
518 /*
519  * MESSAGE SUPPORT FUNCTIONS
520  */
521 void kptllnd_init_msg(kptl_msg_t *msg, int type, int body_nob);
522 void kptllnd_msg_pack(kptl_msg_t *msg, kptl_peer_t *peer);
523 int  kptllnd_msg_unpack(kptl_msg_t *msg, int nob);
524
525 /*
526  * MISC SUPPORT FUNCTIONS
527  */
528 void kptllnd_init_rdma_md(kptl_tx_t *tx, unsigned int niov,
529                           struct iovec *iov, lnet_kiov_t *kiov,
530                           unsigned int offset, unsigned int nob);
531 char *kptllnd_ptlid2str(ptl_process_id_t id);
532
533 void kptllnd_init_ptltrace(void);
534 void kptllnd_dump_ptltrace(void);
535
536 #ifdef PJK_DEBUGGING
537 #define SIMULATION_FAIL_TX_PUT_ALLOC   0       /* 0x00000001 */
538 #define SIMULATION_FAIL_TX_GET_ALLOC   1       /* 0x00000002 */
539 #define SIMULATION_FAIL_TX             2       /* 0x00000004 */
540 #define SIMULATION_FAIL_RX_ALLOC       3       /* 0x00000008 */
541
542 #define IS_SIMULATION_ENABLED(x) \
543         (((*kptllnd_tunables.kptl_simulation_bitmap) & 1<< SIMULATION_##x) != 0)
544 #else
545 #define IS_SIMULATION_ENABLED(x)       0
546 #endif
547