Whamcloud - gitweb
e9053fb289d993a4059d2b6fc17bb09feb48406f
[fs/lustre-release.git] / lnet / klnds / socklnd / socklnd.c
1 /*
2  * GPL HEADER START
3  *
4  * DO NOT ALTER OR REMOVE COPYRIGHT NOTICES OR THIS FILE HEADER.
5  *
6  * This program is free software; you can redistribute it and/or modify
7  * it under the terms of the GNU General Public License version 2 only,
8  * as published by the Free Software Foundation.
9  *
10  * This program is distributed in the hope that it will be useful, but
11  * WITHOUT ANY WARRANTY; without even the implied warranty of
12  * MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the GNU
13  * General Public License version 2 for more details (a copy is included
14  * in the LICENSE file that accompanied this code).
15  *
16  * You should have received a copy of the GNU General Public License
17  * version 2 along with this program; If not, see
18  * http://www.gnu.org/licenses/gpl-2.0.html
19  *
20  * GPL HEADER END
21  */
22 /*
23  * Copyright (c) 2003, 2010, Oracle and/or its affiliates. All rights reserved.
24  * Use is subject to license terms.
25  *
26  * Copyright (c) 2011, 2017, Intel Corporation.
27  */
28 /*
29  * This file is part of Lustre, http://www.lustre.org/
30  *
31  * lnet/klnds/socklnd/socklnd.c
32  *
33  * Author: Zach Brown <zab@zabbo.net>
34  * Author: Peter J. Braam <braam@clusterfs.com>
35  * Author: Phil Schwan <phil@clusterfs.com>
36  * Author: Eric Barton <eric@bartonsoftware.com>
37  */
38
39 #include <linux/inetdevice.h>
40 #include "socklnd.h"
41 #include <linux/sunrpc/addr.h>
42
43 static const struct lnet_lnd the_ksocklnd;
44 struct ksock_nal_data ksocknal_data;
45
46 static struct ksock_interface *
47 ksocknal_ip2iface(struct lnet_ni *ni, struct sockaddr *addr)
48 {
49         struct ksock_net *net = ni->ni_data;
50         struct ksock_interface *iface;
51
52         iface = &net->ksnn_interface;
53
54         if (rpc_cmp_addr((struct sockaddr *)&iface->ksni_addr, addr))
55                 return iface;
56
57         return NULL;
58 }
59
60 static struct ksock_interface *
61 ksocknal_index2iface(struct lnet_ni *ni, int index)
62 {
63         struct ksock_net *net = ni->ni_data;
64         struct ksock_interface *iface;
65
66         iface = &net->ksnn_interface;
67
68         if (iface->ksni_index == index)
69                 return iface;
70
71         return NULL;
72 }
73
74 static int ksocknal_ip2index(struct sockaddr *addr, struct lnet_ni *ni)
75 {
76         struct net_device *dev;
77         int ret = -1;
78         DECLARE_CONST_IN_IFADDR(ifa);
79
80         if (addr->sa_family != AF_INET)
81                 /* No IPv6 support yet */
82                 return ret;
83
84         rcu_read_lock();
85         for_each_netdev(ni->ni_net_ns, dev) {
86                 int flags = dev_get_flags(dev);
87                 struct in_device *in_dev;
88
89                 if (flags & IFF_LOOPBACK) /* skip the loopback IF */
90                         continue;
91
92                 if (!(flags & IFF_UP))
93                         continue;
94
95                 in_dev = __in_dev_get_rcu(dev);
96                 if (!in_dev)
97                         continue;
98
99                 in_dev_for_each_ifa_rcu(ifa, in_dev) {
100                         if (ifa->ifa_local ==
101                             ((struct sockaddr_in *)addr)->sin_addr.s_addr)
102                                 ret = dev->ifindex;
103                 }
104                 endfor_ifa(in_dev);
105                 if (ret >= 0)
106                         break;
107         }
108         rcu_read_unlock();
109
110         return ret;
111 }
112
113 static struct ksock_conn_cb *
114 ksocknal_create_conn_cb(struct sockaddr *addr)
115 {
116         struct ksock_conn_cb *conn_cb;
117
118         LIBCFS_ALLOC(conn_cb, sizeof(*conn_cb));
119         if (!conn_cb)
120                 return NULL;
121
122         refcount_set(&conn_cb->ksnr_refcount, 1);
123         conn_cb->ksnr_peer = NULL;
124         conn_cb->ksnr_retry_interval = 0;         /* OK to connect at any time */
125         rpc_copy_addr((struct sockaddr *)&conn_cb->ksnr_addr, addr);
126         rpc_set_port((struct sockaddr *)&conn_cb->ksnr_addr,
127                      rpc_get_port(addr));
128         conn_cb->ksnr_myiface = -1;
129         conn_cb->ksnr_scheduled = 0;
130         conn_cb->ksnr_connecting = 0;
131         conn_cb->ksnr_connected = 0;
132         conn_cb->ksnr_deleted = 0;
133         conn_cb->ksnr_conn_count = 0;
134         conn_cb->ksnr_ctrl_conn_count = 0;
135         conn_cb->ksnr_blki_conn_count = 0;
136         conn_cb->ksnr_blko_conn_count = 0;
137
138         return conn_cb;
139 }
140
141 void
142 ksocknal_destroy_conn_cb(struct ksock_conn_cb *conn_cb)
143 {
144         LASSERT(refcount_read(&conn_cb->ksnr_refcount) == 0);
145
146         if (conn_cb->ksnr_peer)
147                 ksocknal_peer_decref(conn_cb->ksnr_peer);
148
149         LIBCFS_FREE(conn_cb, sizeof(*conn_cb));
150 }
151
152 static struct ksock_peer_ni *
153 ksocknal_create_peer(struct lnet_ni *ni, struct lnet_process_id id)
154 {
155         int cpt = lnet_cpt_of_nid(id.nid, ni);
156         struct ksock_net *net = ni->ni_data;
157         struct ksock_peer_ni *peer_ni;
158
159         LASSERT(id.nid != LNET_NID_ANY);
160         LASSERT(id.pid != LNET_PID_ANY);
161         LASSERT(!in_interrupt());
162
163         if (!atomic_inc_unless_negative(&net->ksnn_npeers)) {
164                 CERROR("Can't create peer_ni: network shutdown\n");
165                 return ERR_PTR(-ESHUTDOWN);
166         }
167
168         LIBCFS_CPT_ALLOC(peer_ni, lnet_cpt_table(), cpt, sizeof(*peer_ni));
169         if (!peer_ni) {
170                 atomic_dec(&net->ksnn_npeers);
171                 return ERR_PTR(-ENOMEM);
172         }
173
174         peer_ni->ksnp_ni = ni;
175         peer_ni->ksnp_id = id;
176         refcount_set(&peer_ni->ksnp_refcount, 1); /* 1 ref for caller */
177         peer_ni->ksnp_closing = 0;
178         peer_ni->ksnp_accepting = 0;
179         peer_ni->ksnp_proto = NULL;
180         peer_ni->ksnp_last_alive = 0;
181         peer_ni->ksnp_zc_next_cookie = SOCKNAL_KEEPALIVE_PING + 1;
182         peer_ni->ksnp_conn_cb = NULL;
183
184         INIT_LIST_HEAD(&peer_ni->ksnp_conns);
185         INIT_LIST_HEAD(&peer_ni->ksnp_tx_queue);
186         INIT_LIST_HEAD(&peer_ni->ksnp_zc_req_list);
187         spin_lock_init(&peer_ni->ksnp_lock);
188
189         return peer_ni;
190 }
191
192 void
193 ksocknal_destroy_peer(struct ksock_peer_ni *peer_ni)
194 {
195         struct ksock_net *net = peer_ni->ksnp_ni->ni_data;
196
197         CDEBUG (D_NET, "peer_ni %s %p deleted\n",
198                 libcfs_id2str(peer_ni->ksnp_id), peer_ni);
199
200         LASSERT(refcount_read(&peer_ni->ksnp_refcount) == 0);
201         LASSERT(peer_ni->ksnp_accepting == 0);
202         LASSERT(list_empty(&peer_ni->ksnp_conns));
203         LASSERT(peer_ni->ksnp_conn_cb == NULL);
204         LASSERT(list_empty(&peer_ni->ksnp_tx_queue));
205         LASSERT(list_empty(&peer_ni->ksnp_zc_req_list));
206
207         LIBCFS_FREE(peer_ni, sizeof(*peer_ni));
208
209         /* NB a peer_ni's connections and conn_cb keep a reference on their
210          * peer_ni until they are destroyed, so we can be assured that _all_
211          * state to do with this peer_ni has been cleaned up when its refcount
212          * drops to zero.
213          */
214         if (atomic_dec_and_test(&net->ksnn_npeers))
215                 wake_up_var(&net->ksnn_npeers);
216 }
217
218 struct ksock_peer_ni *
219 ksocknal_find_peer_locked(struct lnet_ni *ni, struct lnet_process_id id)
220 {
221         struct ksock_peer_ni *peer_ni;
222
223         hash_for_each_possible(ksocknal_data.ksnd_peers, peer_ni,
224                                ksnp_list, id.nid) {
225                 LASSERT(!peer_ni->ksnp_closing);
226
227                 if (peer_ni->ksnp_ni != ni)
228                         continue;
229
230                 if (peer_ni->ksnp_id.nid != id.nid ||
231                     peer_ni->ksnp_id.pid != id.pid)
232                         continue;
233
234                 CDEBUG(D_NET, "got peer_ni [%p] -> %s (%d)\n",
235                        peer_ni, libcfs_id2str(id),
236                        refcount_read(&peer_ni->ksnp_refcount));
237                 return peer_ni;
238         }
239         return NULL;
240 }
241
242 struct ksock_peer_ni *
243 ksocknal_find_peer(struct lnet_ni *ni, struct lnet_process_id id)
244 {
245         struct ksock_peer_ni *peer_ni;
246
247         read_lock(&ksocknal_data.ksnd_global_lock);
248         peer_ni = ksocknal_find_peer_locked(ni, id);
249         if (peer_ni != NULL)                    /* +1 ref for caller? */
250                 ksocknal_peer_addref(peer_ni);
251         read_unlock(&ksocknal_data.ksnd_global_lock);
252
253         return (peer_ni);
254 }
255
256 static void
257 ksocknal_unlink_peer_locked(struct ksock_peer_ni *peer_ni)
258 {
259         int i;
260         struct ksock_interface *iface;
261
262         for (i = 0; i < peer_ni->ksnp_n_passive_ips; i++) {
263                 struct sockaddr_in sa = { .sin_family = AF_INET };
264                 LASSERT(i < LNET_INTERFACES_NUM);
265                 sa.sin_addr.s_addr = htonl(peer_ni->ksnp_passive_ips[i]);
266
267                 iface = ksocknal_ip2iface(peer_ni->ksnp_ni,
268                                           (struct sockaddr *)&sa);
269                 /*
270                  * All IPs in peer_ni->ksnp_passive_ips[] come from the
271                  * interface list, therefore the call must succeed.
272                  */
273                 LASSERT(iface != NULL);
274
275                 CDEBUG(D_NET, "peer_ni=%p iface=%p ksni_nroutes=%d\n",
276                        peer_ni, iface, iface->ksni_nroutes);
277                 iface->ksni_npeers--;
278         }
279
280         LASSERT(list_empty(&peer_ni->ksnp_conns));
281         LASSERT(peer_ni->ksnp_conn_cb == NULL);
282         LASSERT(!peer_ni->ksnp_closing);
283         peer_ni->ksnp_closing = 1;
284         hlist_del(&peer_ni->ksnp_list);
285         /* lose peerlist's ref */
286         ksocknal_peer_decref(peer_ni);
287 }
288
289 static int
290 ksocknal_get_peer_info(struct lnet_ni *ni, int index,
291                        struct lnet_process_id *id, __u32 *myip, __u32 *peer_ip,
292                        int *port, int *conn_count, int *share_count)
293 {
294         struct ksock_peer_ni *peer_ni;
295         struct ksock_conn_cb *conn_cb;
296         int i;
297         int j;
298         int rc = -ENOENT;
299
300         read_lock(&ksocknal_data.ksnd_global_lock);
301
302         hash_for_each(ksocknal_data.ksnd_peers, i, peer_ni, ksnp_list) {
303
304                 if (peer_ni->ksnp_ni != ni)
305                         continue;
306
307                 if (peer_ni->ksnp_n_passive_ips == 0 &&
308                     peer_ni->ksnp_conn_cb == NULL) {
309                         if (index-- > 0)
310                                 continue;
311
312                         *id = peer_ni->ksnp_id;
313                         *myip = 0;
314                         *peer_ip = 0;
315                         *port = 0;
316                         *conn_count = 0;
317                         *share_count = 0;
318                         rc = 0;
319                         goto out;
320                 }
321
322                 for (j = 0; j < peer_ni->ksnp_n_passive_ips; j++) {
323                         if (index-- > 0)
324                                 continue;
325
326                         *id = peer_ni->ksnp_id;
327                         *myip = peer_ni->ksnp_passive_ips[j];
328                         *peer_ip = 0;
329                         *port = 0;
330                         *conn_count = 0;
331                         *share_count = 0;
332                         rc = 0;
333                         goto out;
334                 }
335
336                 if (peer_ni->ksnp_conn_cb) {
337                         if (index-- > 0)
338                                 continue;
339
340                         conn_cb = peer_ni->ksnp_conn_cb;
341
342                         *id = peer_ni->ksnp_id;
343                         if (conn_cb->ksnr_addr.ss_family == AF_INET) {
344                                 struct sockaddr_in *sa =
345                                         (void *)&conn_cb->ksnr_addr;
346
347                                 rc = choose_ipv4_src(myip,
348                                                      conn_cb->ksnr_myiface,
349                                                      ntohl(sa->sin_addr.s_addr),
350                                                      ni->ni_net_ns);
351                                 *peer_ip = ntohl(sa->sin_addr.s_addr);
352                                 *port = ntohs(sa->sin_port);
353                         } else {
354                                 *myip = 0xFFFFFFFF;
355                                 *peer_ip = 0xFFFFFFFF;
356                                 *port = 0;
357                                 rc = -ENOTSUPP;
358                         }
359                         *conn_count = conn_cb->ksnr_conn_count;
360                         *share_count = 1;
361                         goto out;
362                 }
363         }
364 out:
365         read_unlock(&ksocknal_data.ksnd_global_lock);
366         return rc;
367 }
368
369 static unsigned int
370 ksocknal_get_conn_count_by_type(struct ksock_conn_cb *conn_cb,
371                                 int type)
372 {
373         unsigned int count = 0;
374
375         switch (type) {
376         case SOCKLND_CONN_CONTROL:
377                 count = conn_cb->ksnr_ctrl_conn_count;
378                 break;
379         case SOCKLND_CONN_BULK_IN:
380                 count = conn_cb->ksnr_blki_conn_count;
381                 break;
382         case SOCKLND_CONN_BULK_OUT:
383                 count = conn_cb->ksnr_blko_conn_count;
384                 break;
385         case SOCKLND_CONN_ANY:
386                 count = conn_cb->ksnr_conn_count;
387                 break;
388         default:
389                 LBUG();
390                 break;
391         }
392
393         return count;
394 }
395
396 static void
397 ksocknal_incr_conn_count(struct ksock_conn_cb *conn_cb,
398                          int type)
399 {
400         conn_cb->ksnr_conn_count++;
401
402         /* check if all connections of the given type got created */
403         switch (type) {
404         case SOCKLND_CONN_CONTROL:
405                 conn_cb->ksnr_ctrl_conn_count++;
406                 /* there's a single control connection per peer */
407                 conn_cb->ksnr_connected |= BIT(type);
408                 break;
409         case SOCKLND_CONN_BULK_IN:
410                 conn_cb->ksnr_blki_conn_count++;
411                 if (conn_cb->ksnr_blki_conn_count >=
412                     *ksocknal_tunables.ksnd_conns_per_peer)
413                         conn_cb->ksnr_connected |= BIT(type);
414                 break;
415         case SOCKLND_CONN_BULK_OUT:
416                 conn_cb->ksnr_blko_conn_count++;
417                 if (conn_cb->ksnr_blko_conn_count >=
418                     *ksocknal_tunables.ksnd_conns_per_peer)
419                         conn_cb->ksnr_connected |= BIT(type);
420                 break;
421         case SOCKLND_CONN_ANY:
422                 if (conn_cb->ksnr_conn_count >=
423                     *ksocknal_tunables.ksnd_conns_per_peer)
424                         conn_cb->ksnr_connected |= BIT(type);
425                 break;
426         default:
427                 LBUG();
428                 break;
429
430         }
431
432         CDEBUG(D_NET, "Add conn type %d, ksnr_connected %x conns_per_peer %d\n",
433                type, conn_cb->ksnr_connected, *ksocknal_tunables.ksnd_conns_per_peer);
434 }
435
436 static void
437 ksocknal_associate_cb_conn_locked(struct ksock_conn_cb *conn_cb,
438                                   struct ksock_conn *conn)
439 {
440         struct ksock_peer_ni *peer_ni = conn_cb->ksnr_peer;
441         int type = conn->ksnc_type;
442         struct ksock_interface *iface;
443         int conn_iface;
444
445         conn_iface = ksocknal_ip2index((struct sockaddr *)&conn->ksnc_myaddr,
446                                        peer_ni->ksnp_ni);
447         conn->ksnc_conn_cb = conn_cb;
448         ksocknal_conn_cb_addref(conn_cb);
449
450         if (conn_cb->ksnr_myiface != conn_iface) {
451                 if (conn_cb->ksnr_myiface < 0) {
452                         /* route wasn't bound locally yet (the initial route) */
453                         CDEBUG(D_NET, "Binding %s %pIS to interface %d\n",
454                                libcfs_id2str(peer_ni->ksnp_id),
455                                &conn_cb->ksnr_addr,
456                                conn_iface);
457                 } else {
458                         CDEBUG(D_NET,
459                                "Rebinding %s %pIS from interface %d to %d\n",
460                                libcfs_id2str(peer_ni->ksnp_id),
461                                &conn_cb->ksnr_addr,
462                                conn_cb->ksnr_myiface,
463                                conn_iface);
464
465                         iface = ksocknal_index2iface(peer_ni->ksnp_ni,
466                                                      conn_cb->ksnr_myiface);
467                         if (iface)
468                                 iface->ksni_nroutes--;
469                 }
470                 conn_cb->ksnr_myiface = conn_iface;
471                 iface = ksocknal_index2iface(peer_ni->ksnp_ni,
472                                              conn_cb->ksnr_myiface);
473                 if (iface)
474                         iface->ksni_nroutes++;
475         }
476
477         ksocknal_incr_conn_count(conn_cb, type);
478
479         /* Successful connection => further attempts can
480          * proceed immediately
481          */
482         conn_cb->ksnr_retry_interval = 0;
483 }
484
485 static void
486 ksocknal_add_conn_cb_locked(struct ksock_peer_ni *peer_ni,
487                             struct ksock_conn_cb *conn_cb)
488 {
489         struct list_head *tmp;
490         struct ksock_conn *conn;
491         struct ksock_net *net = peer_ni->ksnp_ni->ni_data;
492
493         LASSERT(!peer_ni->ksnp_closing);
494         LASSERT(!conn_cb->ksnr_peer);
495         LASSERT(!conn_cb->ksnr_scheduled);
496         LASSERT(!conn_cb->ksnr_connecting);
497         LASSERT(conn_cb->ksnr_connected == 0);
498
499         conn_cb->ksnr_peer = peer_ni;
500         ksocknal_peer_addref(peer_ni);
501
502         /* set the conn_cb's interface to the current net's interface */
503         conn_cb->ksnr_myiface = net->ksnn_interface.ksni_index;
504         net->ksnn_interface.ksni_nroutes++;
505
506         /* peer_ni's route list takes over my ref on 'route' */
507         peer_ni->ksnp_conn_cb = conn_cb;
508
509         list_for_each(tmp, &peer_ni->ksnp_conns) {
510                 conn = list_entry(tmp, struct ksock_conn, ksnc_list);
511
512                 if (!rpc_cmp_addr((struct sockaddr *)&conn->ksnc_peeraddr,
513                                   (struct sockaddr *)&conn_cb->ksnr_addr))
514                         continue;
515
516                 ksocknal_associate_cb_conn_locked(conn_cb, conn);
517                 /* keep going (typed conns) */
518         }
519 }
520
521 static void
522 ksocknal_del_conn_cb_locked(struct ksock_conn_cb *conn_cb)
523 {
524         struct ksock_peer_ni *peer_ni = conn_cb->ksnr_peer;
525         struct ksock_interface *iface;
526         struct ksock_conn *conn;
527         struct ksock_conn *cnxt;
528
529         LASSERT(!conn_cb->ksnr_deleted);
530
531         /* Close associated conns */
532         list_for_each_entry_safe(conn, cnxt, &peer_ni->ksnp_conns, ksnc_list) {
533                 if (conn->ksnc_conn_cb != conn_cb)
534                         continue;
535
536                 ksocknal_close_conn_locked(conn, 0);
537         }
538
539         if (conn_cb->ksnr_myiface >= 0) {
540                 iface = ksocknal_index2iface(peer_ni->ksnp_ni,
541                                              conn_cb->ksnr_myiface);
542                 if (iface)
543                         iface->ksni_nroutes--;
544         }
545
546         conn_cb->ksnr_deleted = 1;
547         ksocknal_conn_cb_decref(conn_cb);               /* drop peer_ni's ref */
548         peer_ni->ksnp_conn_cb = NULL;
549
550         if (list_empty(&peer_ni->ksnp_conns)) {
551                 /* I've just removed the last route to a peer_ni with no active
552                  * connections
553                  */
554                 ksocknal_unlink_peer_locked(peer_ni);
555         }
556 }
557
558 int
559 ksocknal_add_peer(struct lnet_ni *ni, struct lnet_process_id id,
560                   struct sockaddr *addr)
561 {
562         struct ksock_peer_ni *peer_ni;
563         struct ksock_peer_ni *peer2;
564         struct ksock_conn_cb *conn_cb;
565
566         if (id.nid == LNET_NID_ANY ||
567             id.pid == LNET_PID_ANY)
568                 return (-EINVAL);
569
570         /* Have a brand new peer_ni ready... */
571         peer_ni = ksocknal_create_peer(ni, id);
572         if (IS_ERR(peer_ni))
573                 return PTR_ERR(peer_ni);
574
575         conn_cb = ksocknal_create_conn_cb(addr);
576         if (!conn_cb) {
577                 ksocknal_peer_decref(peer_ni);
578                 return -ENOMEM;
579         }
580
581         write_lock_bh(&ksocknal_data.ksnd_global_lock);
582
583         /* always called with a ref on ni, so shutdown can't have started */
584         LASSERT(atomic_read(&((struct ksock_net *)ni->ni_data)->ksnn_npeers)
585                 >= 0);
586
587         peer2 = ksocknal_find_peer_locked(ni, id);
588         if (peer2 != NULL) {
589                 ksocknal_peer_decref(peer_ni);
590                 peer_ni = peer2;
591         } else {
592                 /* peer_ni table takes my ref on peer_ni */
593                 hash_add(ksocknal_data.ksnd_peers, &peer_ni->ksnp_list, id.nid);
594         }
595
596         ksocknal_add_conn_cb_locked(peer_ni, conn_cb);
597
598         write_unlock_bh(&ksocknal_data.ksnd_global_lock);
599
600         return 0;
601 }
602
603 static void
604 ksocknal_del_peer_locked(struct ksock_peer_ni *peer_ni, __u32 ip)
605 {
606         struct ksock_conn *conn;
607         struct ksock_conn *cnxt;
608         struct ksock_conn_cb *conn_cb;
609
610         LASSERT(!peer_ni->ksnp_closing);
611
612         /* Extra ref prevents peer_ni disappearing until I'm done with it */
613         ksocknal_peer_addref(peer_ni);
614         conn_cb = peer_ni->ksnp_conn_cb;
615         if (conn_cb)
616                 ksocknal_del_conn_cb_locked(conn_cb);
617
618         list_for_each_entry_safe(conn, cnxt, &peer_ni->ksnp_conns,
619                                  ksnc_list)
620                 ksocknal_close_conn_locked(conn, 0);
621
622         ksocknal_peer_decref(peer_ni);
623         /* NB peer_ni unlinks itself when last conn/conn_cb is removed */
624 }
625
626 static int
627 ksocknal_del_peer(struct lnet_ni *ni, struct lnet_process_id id, __u32 ip)
628 {
629         LIST_HEAD(zombies);
630         struct hlist_node *pnxt;
631         struct ksock_peer_ni *peer_ni;
632         int lo;
633         int hi;
634         int i;
635         int rc = -ENOENT;
636
637         write_lock_bh(&ksocknal_data.ksnd_global_lock);
638
639         if (id.nid != LNET_NID_ANY) {
640                 lo = hash_min(id.nid, HASH_BITS(ksocknal_data.ksnd_peers));
641                 hi = lo;
642         } else {
643                 lo = 0;
644                 hi = HASH_SIZE(ksocknal_data.ksnd_peers) - 1;
645         }
646
647         for (i = lo; i <= hi; i++) {
648                 hlist_for_each_entry_safe(peer_ni, pnxt,
649                                           &ksocknal_data.ksnd_peers[i],
650                                           ksnp_list) {
651                         if (peer_ni->ksnp_ni != ni)
652                                 continue;
653
654                         if (!((id.nid == LNET_NID_ANY ||
655                                peer_ni->ksnp_id.nid == id.nid) &&
656                               (id.pid == LNET_PID_ANY ||
657                                peer_ni->ksnp_id.pid == id.pid)))
658                                 continue;
659
660                         ksocknal_peer_addref(peer_ni);  /* a ref for me... */
661
662                         ksocknal_del_peer_locked(peer_ni, ip);
663
664                         if (peer_ni->ksnp_closing &&
665                             !list_empty(&peer_ni->ksnp_tx_queue)) {
666                                 LASSERT(list_empty(&peer_ni->ksnp_conns));
667                                 LASSERT(peer_ni->ksnp_conn_cb == NULL);
668
669                                 list_splice_init(&peer_ni->ksnp_tx_queue,
670                                                  &zombies);
671                         }
672
673                         ksocknal_peer_decref(peer_ni);  /* ...till here */
674
675                         rc = 0;                         /* matched! */
676                 }
677         }
678
679         write_unlock_bh(&ksocknal_data.ksnd_global_lock);
680
681         ksocknal_txlist_done(ni, &zombies, -ENETDOWN);
682
683         return rc;
684 }
685
686 static struct ksock_conn *
687 ksocknal_get_conn_by_idx(struct lnet_ni *ni, int index)
688 {
689         struct ksock_peer_ni *peer_ni;
690         struct ksock_conn *conn;
691         struct list_head *ctmp;
692         int i;
693
694         read_lock(&ksocknal_data.ksnd_global_lock);
695
696         hash_for_each(ksocknal_data.ksnd_peers, i, peer_ni, ksnp_list) {
697                 LASSERT(!peer_ni->ksnp_closing);
698
699                 if (peer_ni->ksnp_ni != ni)
700                         continue;
701
702                 list_for_each(ctmp, &peer_ni->ksnp_conns) {
703                         if (index-- > 0)
704                                 continue;
705
706                         conn = list_entry(ctmp, struct ksock_conn,
707                                           ksnc_list);
708                         ksocknal_conn_addref(conn);
709                         read_unlock(&ksocknal_data.ksnd_global_lock);
710                         return conn;
711                 }
712         }
713
714         read_unlock(&ksocknal_data.ksnd_global_lock);
715         return NULL;
716 }
717
718 static struct ksock_sched *
719 ksocknal_choose_scheduler_locked(unsigned int cpt)
720 {
721         struct ksock_sched *sched = ksocknal_data.ksnd_schedulers[cpt];
722         int i;
723
724         if (sched->kss_nthreads == 0) {
725                 cfs_percpt_for_each(sched, i, ksocknal_data.ksnd_schedulers) {
726                         if (sched->kss_nthreads > 0) {
727                                 CDEBUG(D_NET, "scheduler[%d] has no threads. selected scheduler[%d]\n",
728                                        cpt, sched->kss_cpt);
729                                 return sched;
730                         }
731                 }
732                 return NULL;
733         }
734
735         return sched;
736 }
737
738 int
739 ksocknal_accept(struct lnet_ni *ni, struct socket *sock)
740 {
741         struct ksock_connreq *cr;
742         int rc;
743         struct sockaddr_storage peer;
744
745         rc = lnet_sock_getaddr(sock, true, &peer);
746         if (rc != 0) {
747                 CERROR("Can't determine new connection's address\n");
748                 return rc;
749         }
750
751         LIBCFS_ALLOC(cr, sizeof(*cr));
752         if (cr == NULL) {
753                 LCONSOLE_ERROR_MSG(0x12f,
754                                    "Dropping connection request from %pIS: memory exhausted\n",
755                                    &peer);
756                 return -ENOMEM;
757         }
758
759         lnet_ni_addref(ni);
760         cr->ksncr_ni   = ni;
761         cr->ksncr_sock = sock;
762
763         spin_lock_bh(&ksocknal_data.ksnd_connd_lock);
764
765         list_add_tail(&cr->ksncr_list, &ksocknal_data.ksnd_connd_connreqs);
766         wake_up(&ksocknal_data.ksnd_connd_waitq);
767
768         spin_unlock_bh(&ksocknal_data.ksnd_connd_lock);
769         return 0;
770 }
771
772 static int
773 ksocknal_connecting(struct ksock_conn_cb *conn_cb, struct sockaddr *sa)
774 {
775         if (conn_cb &&
776             rpc_cmp_addr((struct sockaddr *)&conn_cb->ksnr_addr, sa))
777                 return conn_cb->ksnr_connecting;
778         return 0;
779 }
780
781 int
782 ksocknal_create_conn(struct lnet_ni *ni, struct ksock_conn_cb *conn_cb,
783                      struct socket *sock, int type)
784 {
785         rwlock_t *global_lock = &ksocknal_data.ksnd_global_lock;
786         LIST_HEAD(zombies);
787         struct lnet_process_id peerid;
788         struct list_head *tmp;
789         u64 incarnation;
790         struct ksock_conn *conn;
791         struct ksock_conn *conn2;
792         struct ksock_peer_ni *peer_ni = NULL;
793         struct ksock_peer_ni *peer2;
794         struct ksock_sched *sched;
795         struct ksock_hello_msg *hello;
796         int cpt;
797         struct ksock_tx *tx;
798         struct ksock_tx *txtmp;
799         int rc;
800         int rc2;
801         int active;
802         int num_dup = 0;
803         char *warn = NULL;
804
805         active = (conn_cb != NULL);
806
807         LASSERT(active == (type != SOCKLND_CONN_NONE));
808
809         LIBCFS_ALLOC(conn, sizeof(*conn));
810         if (conn == NULL) {
811                 rc = -ENOMEM;
812                 goto failed_0;
813         }
814
815         conn->ksnc_peer = NULL;
816         conn->ksnc_conn_cb = NULL;
817         conn->ksnc_sock = sock;
818         /* 2 ref, 1 for conn, another extra ref prevents socket
819          * being closed before establishment of connection */
820         refcount_set(&conn->ksnc_sock_refcount, 2);
821         conn->ksnc_type = type;
822         ksocknal_lib_save_callback(sock, conn);
823         refcount_set(&conn->ksnc_conn_refcount, 1); /* 1 ref for me */
824
825         conn->ksnc_rx_ready = 0;
826         conn->ksnc_rx_scheduled = 0;
827
828         INIT_LIST_HEAD(&conn->ksnc_tx_queue);
829         conn->ksnc_tx_ready = 0;
830         conn->ksnc_tx_scheduled = 0;
831         conn->ksnc_tx_carrier = NULL;
832         atomic_set (&conn->ksnc_tx_nob, 0);
833
834         LIBCFS_ALLOC(hello, offsetof(struct ksock_hello_msg,
835                                      kshm_ips[LNET_INTERFACES_NUM]));
836         if (hello == NULL) {
837                 rc = -ENOMEM;
838                 goto failed_1;
839         }
840
841         /* stash conn's local and remote addrs */
842         rc = ksocknal_lib_get_conn_addrs(conn);
843         if (rc != 0)
844                 goto failed_1;
845
846         /* Find out/confirm peer_ni's NID and connection type and get the
847          * vector of interfaces she's willing to let me connect to.
848          * Passive connections use the listener timeout since the peer_ni sends
849          * eagerly
850          */
851
852         if (active) {
853                 peer_ni = conn_cb->ksnr_peer;
854                 LASSERT(ni == peer_ni->ksnp_ni);
855
856                 /* Active connection sends HELLO eagerly */
857                 hello->kshm_nips = 0;
858                 peerid = peer_ni->ksnp_id;
859
860                 write_lock_bh(global_lock);
861                 conn->ksnc_proto = peer_ni->ksnp_proto;
862                 write_unlock_bh(global_lock);
863
864                 if (conn->ksnc_proto == NULL) {
865                         conn->ksnc_proto = &ksocknal_protocol_v3x;
866 #if SOCKNAL_VERSION_DEBUG
867                         if (*ksocknal_tunables.ksnd_protocol == 2)
868                                 conn->ksnc_proto = &ksocknal_protocol_v2x;
869                         else if (*ksocknal_tunables.ksnd_protocol == 1)
870                                 conn->ksnc_proto = &ksocknal_protocol_v1x;
871 #endif
872                 }
873
874                 rc = ksocknal_send_hello(ni, conn, peerid.nid, hello);
875                 if (rc != 0)
876                         goto failed_1;
877         } else {
878                 peerid.nid = LNET_NID_ANY;
879                 peerid.pid = LNET_PID_ANY;
880
881                 /* Passive, get protocol from peer_ni */
882                 conn->ksnc_proto = NULL;
883         }
884
885         rc = ksocknal_recv_hello(ni, conn, hello, &peerid, &incarnation);
886         if (rc < 0)
887                 goto failed_1;
888
889         LASSERT(rc == 0 || active);
890         LASSERT(conn->ksnc_proto != NULL);
891         LASSERT(peerid.nid != LNET_NID_ANY);
892
893         cpt = lnet_cpt_of_nid(peerid.nid, ni);
894
895         if (active) {
896                 ksocknal_peer_addref(peer_ni);
897                 write_lock_bh(global_lock);
898         } else {
899                 peer_ni = ksocknal_create_peer(ni, peerid);
900                 if (IS_ERR(peer_ni)) {
901                         rc = PTR_ERR(peer_ni);
902                         goto failed_1;
903                 }
904
905                 write_lock_bh(global_lock);
906
907                 /* called with a ref on ni, so shutdown can't have started */
908                 LASSERT(atomic_read(&((struct ksock_net *)ni->ni_data)->ksnn_npeers) >= 0);
909
910                 peer2 = ksocknal_find_peer_locked(ni, peerid);
911                 if (peer2 == NULL) {
912                         /* NB this puts an "empty" peer_ni in the peer_ni
913                          * table (which takes my ref) */
914                         hash_add(ksocknal_data.ksnd_peers,
915                                  &peer_ni->ksnp_list, peerid.nid);
916                 } else {
917                         ksocknal_peer_decref(peer_ni);
918                         peer_ni = peer2;
919                 }
920
921                 /* +1 ref for me */
922                 ksocknal_peer_addref(peer_ni);
923                 peer_ni->ksnp_accepting++;
924
925                 /* Am I already connecting to this guy?  Resolve in
926                  * favour of higher NID...
927                  */
928                 if (peerid.nid < ni->ni_nid &&
929                     ksocknal_connecting(peer_ni->ksnp_conn_cb,
930                                         ((struct sockaddr *) &conn->ksnc_peeraddr))) {
931                         rc = EALREADY;
932                         warn = "connection race resolution";
933                         goto failed_2;
934                 }
935         }
936
937         if (peer_ni->ksnp_closing ||
938             (active && conn_cb->ksnr_deleted)) {
939                 /* peer_ni/conn_cb got closed under me */
940                 rc = -ESTALE;
941                 warn = "peer_ni/conn_cb removed";
942                 goto failed_2;
943         }
944
945         if (peer_ni->ksnp_proto == NULL) {
946                 /* Never connected before.
947                  * NB recv_hello may have returned EPROTO to signal my peer_ni
948                  * wants a different protocol than the one I asked for.
949                  */
950                 LASSERT(list_empty(&peer_ni->ksnp_conns));
951
952                 peer_ni->ksnp_proto = conn->ksnc_proto;
953                 peer_ni->ksnp_incarnation = incarnation;
954         }
955
956         if (peer_ni->ksnp_proto != conn->ksnc_proto ||
957             peer_ni->ksnp_incarnation != incarnation) {
958                 /* peer_ni rebooted or I've got the wrong protocol version */
959                 ksocknal_close_peer_conns_locked(peer_ni, NULL, 0);
960
961                 peer_ni->ksnp_proto = NULL;
962                 rc = ESTALE;
963                 warn = peer_ni->ksnp_incarnation != incarnation ?
964                         "peer_ni rebooted" :
965                         "wrong proto version";
966                 goto failed_2;
967         }
968
969         switch (rc) {
970         default:
971                 LBUG();
972         case 0:
973                 break;
974         case EALREADY:
975                 warn = "lost conn race";
976                 goto failed_2;
977         case EPROTO:
978                 warn = "retry with different protocol version";
979                 goto failed_2;
980         }
981
982         /* Refuse to duplicate an existing connection, unless this is a
983          * loopback connection */
984         if (!rpc_cmp_addr((struct sockaddr *)&conn->ksnc_peeraddr,
985                           (struct sockaddr *)&conn->ksnc_myaddr)) {
986                 list_for_each(tmp, &peer_ni->ksnp_conns) {
987                         conn2 = list_entry(tmp, struct ksock_conn, ksnc_list);
988
989                         if (!rpc_cmp_addr(
990                                     (struct sockaddr *)&conn2->ksnc_peeraddr,
991                                     (struct sockaddr *)&conn->ksnc_peeraddr) ||
992                             !rpc_cmp_addr(
993                                     (struct sockaddr *)&conn2->ksnc_myaddr,
994                                     (struct sockaddr *)&conn->ksnc_myaddr) ||
995                             conn2->ksnc_type != conn->ksnc_type)
996                                 continue;
997
998                         num_dup++;
999                         if (num_dup < *ksocknal_tunables.ksnd_conns_per_peer)
1000                                 continue;
1001
1002                         /* Reply on a passive connection attempt so the peer_ni
1003                          * realises we're connected.
1004                          */
1005                         LASSERT(rc == 0);
1006                         if (!active)
1007                                 rc = EALREADY;
1008
1009                         warn = "duplicate";
1010                         goto failed_2;
1011                 }
1012         }
1013         /* If the connection created by this route didn't bind to the IP
1014          * address the route connected to, the connection/route matching
1015          * code below probably isn't going to work.
1016          */
1017         if (active &&
1018             !rpc_cmp_addr((struct sockaddr *)&conn_cb->ksnr_addr,
1019                           (struct sockaddr *)&conn->ksnc_peeraddr)) {
1020                 CERROR("Route %s %pIS connected to %pIS\n",
1021                        libcfs_id2str(peer_ni->ksnp_id),
1022                        &conn_cb->ksnr_addr,
1023                        &conn->ksnc_peeraddr);
1024         }
1025
1026         /* Search for a conn_cb corresponding to the new connection and
1027          * create an association.  This allows incoming connections created
1028          * by conn_cbs in my peer_ni to match my own conn_cb entries so I don't
1029          * continually create duplicate conn_cbs.
1030          */
1031         conn_cb = peer_ni->ksnp_conn_cb;
1032
1033         if (conn_cb && rpc_cmp_addr((struct sockaddr *)&conn->ksnc_peeraddr,
1034                                     (struct sockaddr *)&conn_cb->ksnr_addr))
1035                 ksocknal_associate_cb_conn_locked(conn_cb, conn);
1036
1037         conn->ksnc_peer = peer_ni;                 /* conn takes my ref on peer_ni */
1038         peer_ni->ksnp_last_alive = ktime_get_seconds();
1039         peer_ni->ksnp_send_keepalive = 0;
1040         peer_ni->ksnp_error = 0;
1041
1042         sched = ksocknal_choose_scheduler_locked(cpt);
1043         if (!sched) {
1044                 CERROR("no schedulers available. node is unhealthy\n");
1045                 goto failed_2;
1046         }
1047         /*
1048          * The cpt might have changed if we ended up selecting a non cpt
1049          * native scheduler. So use the scheduler's cpt instead.
1050          */
1051         cpt = sched->kss_cpt;
1052         sched->kss_nconns++;
1053         conn->ksnc_scheduler = sched;
1054
1055         conn->ksnc_tx_last_post = ktime_get_seconds();
1056         /* Set the deadline for the outgoing HELLO to drain */
1057         conn->ksnc_tx_bufnob = sock->sk->sk_wmem_queued;
1058         conn->ksnc_tx_deadline = ktime_get_seconds() +
1059                                  ksocknal_timeout();
1060         smp_mb();   /* order with adding to peer_ni's conn list */
1061
1062         list_add(&conn->ksnc_list, &peer_ni->ksnp_conns);
1063         ksocknal_conn_addref(conn);
1064
1065         ksocknal_new_packet(conn, 0);
1066
1067         conn->ksnc_zc_capable = ksocknal_lib_zc_capable(conn);
1068
1069         /* Take packets blocking for this connection. */
1070         list_for_each_entry_safe(tx, txtmp, &peer_ni->ksnp_tx_queue, tx_list) {
1071                 if (conn->ksnc_proto->pro_match_tx(conn, tx, tx->tx_nonblk) ==
1072                     SOCKNAL_MATCH_NO)
1073                         continue;
1074
1075                 list_del(&tx->tx_list);
1076                 ksocknal_queue_tx_locked(tx, conn);
1077         }
1078
1079         write_unlock_bh(global_lock);
1080
1081         /* We've now got a new connection.  Any errors from here on are just
1082          * like "normal" comms errors and we close the connection normally.
1083          * NB (a) we still have to send the reply HELLO for passive
1084          *        connections,
1085          *    (b) normal I/O on the conn is blocked until I setup and call the
1086          *        socket callbacks.
1087          */
1088
1089         CDEBUG(D_NET, "New conn %s p %d.x %pIS -> %pISp"
1090                " incarnation:%lld sched[%d]\n",
1091                libcfs_id2str(peerid), conn->ksnc_proto->pro_version,
1092                &conn->ksnc_myaddr, &conn->ksnc_peeraddr,
1093                incarnation, cpt);
1094
1095         if (!active) {
1096                 hello->kshm_nips = 0;
1097                 rc = ksocknal_send_hello(ni, conn, peerid.nid, hello);
1098         }
1099
1100         LIBCFS_FREE(hello, offsetof(struct ksock_hello_msg,
1101                                     kshm_ips[LNET_INTERFACES_NUM]));
1102
1103         /* setup the socket AFTER I've received hello (it disables
1104          * SO_LINGER).  I might call back to the acceptor who may want
1105          * to send a protocol version response and then close the
1106          * socket; this ensures the socket only tears down after the
1107          * response has been sent.
1108          */
1109         if (rc == 0)
1110                 rc = ksocknal_lib_setup_sock(sock);
1111
1112         write_lock_bh(global_lock);
1113
1114         /* NB my callbacks block while I hold ksnd_global_lock */
1115         ksocknal_lib_set_callback(sock, conn);
1116
1117         if (!active)
1118                 peer_ni->ksnp_accepting--;
1119
1120         write_unlock_bh(global_lock);
1121
1122         if (rc != 0) {
1123                 write_lock_bh(global_lock);
1124                 if (!conn->ksnc_closing) {
1125                         /* could be closed by another thread */
1126                         ksocknal_close_conn_locked(conn, rc);
1127                 }
1128                 write_unlock_bh(global_lock);
1129         } else if (ksocknal_connsock_addref(conn) == 0) {
1130                 /* Allow I/O to proceed. */
1131                 ksocknal_read_callback(conn);
1132                 ksocknal_write_callback(conn);
1133                 ksocknal_connsock_decref(conn);
1134         }
1135
1136         ksocknal_connsock_decref(conn);
1137         ksocknal_conn_decref(conn);
1138         return rc;
1139
1140 failed_2:
1141
1142         if (!peer_ni->ksnp_closing &&
1143             list_empty(&peer_ni->ksnp_conns) &&
1144             peer_ni->ksnp_conn_cb == NULL) {
1145                 list_splice_init(&peer_ni->ksnp_tx_queue, &zombies);
1146                 ksocknal_unlink_peer_locked(peer_ni);
1147         }
1148
1149         write_unlock_bh(global_lock);
1150
1151         if (warn != NULL) {
1152                 if (rc < 0)
1153                         CERROR("Not creating conn %s type %d: %s\n",
1154                                libcfs_id2str(peerid), conn->ksnc_type, warn);
1155                 else
1156                         CDEBUG(D_NET, "Not creating conn %s type %d: %s\n",
1157                                libcfs_id2str(peerid), conn->ksnc_type, warn);
1158         }
1159
1160         if (!active) {
1161                 if (rc > 0) {
1162                         /* Request retry by replying with CONN_NONE
1163                          * ksnc_proto has been set already
1164                          */
1165                         conn->ksnc_type = SOCKLND_CONN_NONE;
1166                         hello->kshm_nips = 0;
1167                         ksocknal_send_hello(ni, conn, peerid.nid, hello);
1168                 }
1169
1170                 write_lock_bh(global_lock);
1171                 peer_ni->ksnp_accepting--;
1172                 write_unlock_bh(global_lock);
1173         }
1174
1175         /*
1176          * If we get here without an error code, just use -EALREADY.
1177          * Depending on how we got here, the error may be positive
1178          * or negative. Normalize the value for ksocknal_txlist_done().
1179          */
1180         rc2 = (rc == 0 ? -EALREADY : (rc > 0 ? -rc : rc));
1181         ksocknal_txlist_done(ni, &zombies, rc2);
1182         ksocknal_peer_decref(peer_ni);
1183
1184 failed_1:
1185         if (hello != NULL)
1186                 LIBCFS_FREE(hello, offsetof(struct ksock_hello_msg,
1187                                             kshm_ips[LNET_INTERFACES_NUM]));
1188
1189         LIBCFS_FREE(conn, sizeof(*conn));
1190
1191 failed_0:
1192         sock_release(sock);
1193
1194         return rc;
1195 }
1196
1197 void
1198 ksocknal_close_conn_locked(struct ksock_conn *conn, int error)
1199 {
1200         /* This just does the immmediate housekeeping, and queues the
1201          * connection for the reaper to terminate.
1202          * Caller holds ksnd_global_lock exclusively in irq context */
1203         struct ksock_peer_ni *peer_ni = conn->ksnc_peer;
1204         struct ksock_conn_cb *conn_cb;
1205         struct ksock_conn *conn2;
1206         struct list_head *tmp;
1207
1208         LASSERT(peer_ni->ksnp_error == 0);
1209         LASSERT(!conn->ksnc_closing);
1210         conn->ksnc_closing = 1;
1211
1212         /* ksnd_deathrow_conns takes over peer_ni's ref */
1213         list_del(&conn->ksnc_list);
1214
1215         conn_cb = conn->ksnc_conn_cb;
1216         if (conn_cb != NULL) {
1217                 /* dissociate conn from cb... */
1218                 LASSERT(!conn_cb->ksnr_deleted);
1219
1220                 /* connected bit is set only if all connections
1221                  * of the given type got created
1222                  */
1223                 if (ksocknal_get_conn_count_by_type(conn_cb, conn->ksnc_type) ==
1224                     *ksocknal_tunables.ksnd_conns_per_peer)
1225                         LASSERT((conn_cb->ksnr_connected &
1226                                 BIT(conn->ksnc_type)) != 0);
1227
1228                 conn2 = NULL;
1229                 list_for_each(tmp, &peer_ni->ksnp_conns) {
1230                         conn2 = list_entry(tmp, struct ksock_conn, ksnc_list);
1231
1232                         if (conn2->ksnc_conn_cb == conn_cb &&
1233                             conn2->ksnc_type == conn->ksnc_type)
1234                                 break;
1235
1236                         conn2 = NULL;
1237                 }
1238                 if (conn2 == NULL)
1239                         conn_cb->ksnr_connected &= ~BIT(conn->ksnc_type);
1240
1241                 conn->ksnc_conn_cb = NULL;
1242
1243                 /* drop conn's ref on conn_cb */
1244                 ksocknal_conn_cb_decref(conn_cb);
1245         }
1246
1247         if (list_empty(&peer_ni->ksnp_conns)) {
1248                 /* No more connections to this peer_ni */
1249
1250                 if (!list_empty(&peer_ni->ksnp_tx_queue)) {
1251                         struct ksock_tx *tx;
1252
1253                         LASSERT(conn->ksnc_proto == &ksocknal_protocol_v3x);
1254
1255                         /* throw them to the last connection...,
1256                          * these TXs will be send to /dev/null by scheduler */
1257                         list_for_each_entry(tx, &peer_ni->ksnp_tx_queue,
1258                                             tx_list)
1259                                 ksocknal_tx_prep(conn, tx);
1260
1261                         spin_lock_bh(&conn->ksnc_scheduler->kss_lock);
1262                         list_splice_init(&peer_ni->ksnp_tx_queue,
1263                                          &conn->ksnc_tx_queue);
1264                         spin_unlock_bh(&conn->ksnc_scheduler->kss_lock);
1265                 }
1266
1267                 /* renegotiate protocol version */
1268                 peer_ni->ksnp_proto = NULL;
1269                 /* stash last conn close reason */
1270                 peer_ni->ksnp_error = error;
1271
1272                 if (peer_ni->ksnp_conn_cb == NULL) {
1273                         /* I've just closed last conn belonging to a
1274                          * peer_ni with no connections to it
1275                          */
1276                         ksocknal_unlink_peer_locked(peer_ni);
1277                 }
1278         }
1279
1280         spin_lock_bh(&ksocknal_data.ksnd_reaper_lock);
1281
1282         list_add_tail(&conn->ksnc_list, &ksocknal_data.ksnd_deathrow_conns);
1283         wake_up(&ksocknal_data.ksnd_reaper_waitq);
1284
1285         spin_unlock_bh(&ksocknal_data.ksnd_reaper_lock);
1286 }
1287
1288 void
1289 ksocknal_peer_failed(struct ksock_peer_ni *peer_ni)
1290 {
1291         bool notify = false;
1292         time64_t last_alive = 0;
1293
1294         /* There has been a connection failure or comms error; but I'll only
1295          * tell LNET I think the peer_ni is dead if it's to another kernel and
1296          * there are no connections or connection attempts in existence. */
1297
1298         read_lock(&ksocknal_data.ksnd_global_lock);
1299
1300         if ((peer_ni->ksnp_id.pid & LNET_PID_USERFLAG) == 0 &&
1301              list_empty(&peer_ni->ksnp_conns) &&
1302              peer_ni->ksnp_accepting == 0 &&
1303              !ksocknal_find_connecting_conn_cb_locked(peer_ni)) {
1304                 notify = true;
1305                 last_alive = peer_ni->ksnp_last_alive;
1306         }
1307
1308         read_unlock(&ksocknal_data.ksnd_global_lock);
1309
1310         if (notify)
1311                 lnet_notify(peer_ni->ksnp_ni, peer_ni->ksnp_id.nid,
1312                             false, false, last_alive);
1313 }
1314
1315 void
1316 ksocknal_finalize_zcreq(struct ksock_conn *conn)
1317 {
1318         struct ksock_peer_ni *peer_ni = conn->ksnc_peer;
1319         struct ksock_tx *tx;
1320         struct ksock_tx *tmp;
1321         LIST_HEAD(zlist);
1322
1323         /* NB safe to finalize TXs because closing of socket will
1324          * abort all buffered data */
1325         LASSERT(conn->ksnc_sock == NULL);
1326
1327         spin_lock(&peer_ni->ksnp_lock);
1328
1329         list_for_each_entry_safe(tx, tmp, &peer_ni->ksnp_zc_req_list, tx_zc_list) {
1330                 if (tx->tx_conn != conn)
1331                         continue;
1332
1333                 LASSERT(tx->tx_msg.ksm_zc_cookies[0] != 0);
1334
1335                 tx->tx_msg.ksm_zc_cookies[0] = 0;
1336                 tx->tx_zc_aborted = 1;  /* mark it as not-acked */
1337                 list_move(&tx->tx_zc_list, &zlist);
1338         }
1339
1340         spin_unlock(&peer_ni->ksnp_lock);
1341
1342         while ((tx = list_first_entry_or_null(&zlist, struct ksock_tx,
1343                                               tx_zc_list)) != NULL) {
1344                 list_del(&tx->tx_zc_list);
1345                 ksocknal_tx_decref(tx);
1346         }
1347 }
1348
1349 void
1350 ksocknal_terminate_conn(struct ksock_conn *conn)
1351 {
1352         /* This gets called by the reaper (guaranteed thread context) to
1353          * disengage the socket from its callbacks and close it.
1354          * ksnc_refcount will eventually hit zero, and then the reaper will
1355          * destroy it.
1356          */
1357         struct ksock_peer_ni *peer_ni = conn->ksnc_peer;
1358         struct ksock_sched *sched = conn->ksnc_scheduler;
1359         bool failed = false;
1360
1361         LASSERT(conn->ksnc_closing);
1362
1363         /* wake up the scheduler to "send" all remaining packets to /dev/null */
1364         spin_lock_bh(&sched->kss_lock);
1365
1366         /* a closing conn is always ready to tx */
1367         conn->ksnc_tx_ready = 1;
1368
1369         if (!conn->ksnc_tx_scheduled &&
1370             !list_empty(&conn->ksnc_tx_queue)) {
1371                 list_add_tail(&conn->ksnc_tx_list,
1372                               &sched->kss_tx_conns);
1373                 conn->ksnc_tx_scheduled = 1;
1374                 /* extra ref for scheduler */
1375                 ksocknal_conn_addref(conn);
1376
1377                 wake_up(&sched->kss_waitq);
1378         }
1379
1380         spin_unlock_bh(&sched->kss_lock);
1381
1382         /* serialise with callbacks */
1383         write_lock_bh(&ksocknal_data.ksnd_global_lock);
1384
1385         ksocknal_lib_reset_callback(conn->ksnc_sock, conn);
1386
1387         /* OK, so this conn may not be completely disengaged from its
1388          * scheduler yet, but it _has_ committed to terminate...
1389          */
1390         conn->ksnc_scheduler->kss_nconns--;
1391
1392         if (peer_ni->ksnp_error != 0) {
1393                 /* peer_ni's last conn closed in error */
1394                 LASSERT(list_empty(&peer_ni->ksnp_conns));
1395                 failed = true;
1396                 peer_ni->ksnp_error = 0;     /* avoid multiple notifications */
1397         }
1398
1399         write_unlock_bh(&ksocknal_data.ksnd_global_lock);
1400
1401         if (failed)
1402                 ksocknal_peer_failed(peer_ni);
1403
1404         /* The socket is closed on the final put; either here, or in
1405          * ksocknal_{send,recv}msg().  Since we set up the linger2 option
1406          * when the connection was established, this will close the socket
1407          * immediately, aborting anything buffered in it. Any hung
1408          * zero-copy transmits will therefore complete in finite time.
1409          */
1410         ksocknal_connsock_decref(conn);
1411 }
1412
1413 void
1414 ksocknal_queue_zombie_conn(struct ksock_conn *conn)
1415 {
1416         /* Queue the conn for the reaper to destroy */
1417         LASSERT(refcount_read(&conn->ksnc_conn_refcount) == 0);
1418         spin_lock_bh(&ksocknal_data.ksnd_reaper_lock);
1419
1420         list_add_tail(&conn->ksnc_list, &ksocknal_data.ksnd_zombie_conns);
1421         wake_up(&ksocknal_data.ksnd_reaper_waitq);
1422
1423         spin_unlock_bh(&ksocknal_data.ksnd_reaper_lock);
1424 }
1425
1426 void
1427 ksocknal_destroy_conn(struct ksock_conn *conn)
1428 {
1429         time64_t last_rcv;
1430
1431         /* Final coup-de-grace of the reaper */
1432         CDEBUG(D_NET, "connection %p\n", conn);
1433
1434         LASSERT(refcount_read(&conn->ksnc_conn_refcount) == 0);
1435         LASSERT(refcount_read(&conn->ksnc_sock_refcount) == 0);
1436         LASSERT(conn->ksnc_sock == NULL);
1437         LASSERT(conn->ksnc_conn_cb == NULL);
1438         LASSERT(!conn->ksnc_tx_scheduled);
1439         LASSERT(!conn->ksnc_rx_scheduled);
1440         LASSERT(list_empty(&conn->ksnc_tx_queue));
1441
1442         /* complete current receive if any */
1443         switch (conn->ksnc_rx_state) {
1444         case SOCKNAL_RX_LNET_PAYLOAD:
1445                 last_rcv = conn->ksnc_rx_deadline -
1446                            ksocknal_timeout();
1447                 CERROR("Completing partial receive from %s[%d], ip %pISp, with error, wanted: %d, left: %d, last alive is %lld secs ago\n",
1448                        libcfs_id2str(conn->ksnc_peer->ksnp_id), conn->ksnc_type,
1449                        &conn->ksnc_peeraddr,
1450                        conn->ksnc_rx_nob_wanted, conn->ksnc_rx_nob_left,
1451                        ktime_get_seconds() - last_rcv);
1452                 if (conn->ksnc_lnet_msg)
1453                         conn->ksnc_lnet_msg->msg_health_status =
1454                                 LNET_MSG_STATUS_REMOTE_ERROR;
1455                 lnet_finalize(conn->ksnc_lnet_msg, -EIO);
1456                 break;
1457         case SOCKNAL_RX_LNET_HEADER:
1458                 if (conn->ksnc_rx_started)
1459                         CERROR("Incomplete receive of lnet header from %s, ip %pISp, with error, protocol: %d.x.\n",
1460                                libcfs_id2str(conn->ksnc_peer->ksnp_id),
1461                                &conn->ksnc_peeraddr,
1462                                conn->ksnc_proto->pro_version);
1463                 break;
1464         case SOCKNAL_RX_KSM_HEADER:
1465                 if (conn->ksnc_rx_started)
1466                         CERROR("Incomplete receive of ksock message from %s, ip %pISp, with error, protocol: %d.x.\n",
1467                                libcfs_id2str(conn->ksnc_peer->ksnp_id),
1468                                &conn->ksnc_peeraddr,
1469                                conn->ksnc_proto->pro_version);
1470                 break;
1471         case SOCKNAL_RX_SLOP:
1472                 if (conn->ksnc_rx_started)
1473                         CERROR("Incomplete receive of slops from %s, ip %pISp, with error\n",
1474                                libcfs_id2str(conn->ksnc_peer->ksnp_id),
1475                                &conn->ksnc_peeraddr);
1476                break;
1477         default:
1478                 LBUG ();
1479                 break;
1480         }
1481
1482         ksocknal_peer_decref(conn->ksnc_peer);
1483
1484         LIBCFS_FREE (conn, sizeof (*conn));
1485 }
1486
1487 int
1488 ksocknal_close_peer_conns_locked(struct ksock_peer_ni *peer_ni,
1489                                  struct sockaddr *addr, int why)
1490 {
1491         struct ksock_conn *conn;
1492         struct ksock_conn *cnxt;
1493         int count = 0;
1494
1495         list_for_each_entry_safe(conn, cnxt, &peer_ni->ksnp_conns, ksnc_list) {
1496                 if (!addr ||
1497                     rpc_cmp_addr(addr,
1498                                  (struct sockaddr *)&conn->ksnc_peeraddr)) {
1499                         count++;
1500                         ksocknal_close_conn_locked(conn, why);
1501                 }
1502         }
1503
1504         return count;
1505 }
1506
1507 int
1508 ksocknal_close_conn_and_siblings(struct ksock_conn *conn, int why)
1509 {
1510         struct ksock_peer_ni *peer_ni = conn->ksnc_peer;
1511         int count;
1512
1513         write_lock_bh(&ksocknal_data.ksnd_global_lock);
1514
1515         count = ksocknal_close_peer_conns_locked(
1516                 peer_ni, (struct sockaddr *)&conn->ksnc_peeraddr, why);
1517
1518         write_unlock_bh(&ksocknal_data.ksnd_global_lock);
1519
1520         return count;
1521 }
1522
1523 int
1524 ksocknal_close_matching_conns(struct lnet_process_id id, __u32 ipaddr)
1525 {
1526         struct ksock_peer_ni *peer_ni;
1527         struct hlist_node *pnxt;
1528         int lo;
1529         int hi;
1530         int i;
1531         int count = 0;
1532         struct sockaddr_in sa = {.sin_family = AF_INET};
1533
1534         write_lock_bh(&ksocknal_data.ksnd_global_lock);
1535
1536         if (id.nid != LNET_NID_ANY) {
1537                 lo = hash_min(id.nid, HASH_BITS(ksocknal_data.ksnd_peers));
1538                 hi = lo;
1539         } else {
1540                 lo = 0;
1541                 hi = HASH_SIZE(ksocknal_data.ksnd_peers) - 1;
1542         }
1543
1544         sa.sin_addr.s_addr = htonl(ipaddr);
1545         for (i = lo; i <= hi; i++) {
1546                 hlist_for_each_entry_safe(peer_ni, pnxt,
1547                                           &ksocknal_data.ksnd_peers[i],
1548                                           ksnp_list) {
1549
1550                         if (!((id.nid == LNET_NID_ANY ||
1551                                id.nid == peer_ni->ksnp_id.nid) &&
1552                               (id.pid == LNET_PID_ANY ||
1553                                id.pid == peer_ni->ksnp_id.pid)))
1554                                 continue;
1555
1556                         count += ksocknal_close_peer_conns_locked(
1557                                 peer_ni,
1558                                 ipaddr ? (struct sockaddr *)&sa : NULL, 0);
1559                 }
1560         }
1561
1562         write_unlock_bh(&ksocknal_data.ksnd_global_lock);
1563
1564         /* wildcards always succeed */
1565         if (id.nid == LNET_NID_ANY || id.pid == LNET_PID_ANY || ipaddr == 0)
1566                 return 0;
1567
1568         return (count == 0 ? -ENOENT : 0);
1569 }
1570
1571 void
1572 ksocknal_notify_gw_down(lnet_nid_t gw_nid)
1573 {
1574         /* The router is telling me she's been notified of a change in
1575          * gateway state....
1576          */
1577         struct lnet_process_id id = {
1578                 .nid    = gw_nid,
1579                 .pid    = LNET_PID_ANY,
1580         };
1581
1582         CDEBUG(D_NET, "gw %s down\n", libcfs_nid2str(gw_nid));
1583
1584         /* If the gateway crashed, close all open connections... */
1585         ksocknal_close_matching_conns(id, 0);
1586         return;
1587
1588         /* We can only establish new connections
1589          * if we have autroutes, and these connect on demand. */
1590 }
1591
1592 static void
1593 ksocknal_push_peer(struct ksock_peer_ni *peer_ni)
1594 {
1595         int index;
1596         int i;
1597         struct list_head *tmp;
1598         struct ksock_conn *conn;
1599
1600         for (index = 0; ; index++) {
1601                 read_lock(&ksocknal_data.ksnd_global_lock);
1602
1603                 i = 0;
1604                 conn = NULL;
1605
1606                 list_for_each(tmp, &peer_ni->ksnp_conns) {
1607                         if (i++ == index) {
1608                                 conn = list_entry(tmp, struct ksock_conn,
1609                                                   ksnc_list);
1610                                 ksocknal_conn_addref(conn);
1611                                 break;
1612                         }
1613                 }
1614
1615                 read_unlock(&ksocknal_data.ksnd_global_lock);
1616
1617                 if (conn == NULL)
1618                         break;
1619
1620                 ksocknal_lib_push_conn (conn);
1621                 ksocknal_conn_decref(conn);
1622         }
1623 }
1624
1625 static int
1626 ksocknal_push(struct lnet_ni *ni, struct lnet_process_id id)
1627 {
1628         int lo;
1629         int hi;
1630         int bkt;
1631         int rc = -ENOENT;
1632
1633         if (id.nid != LNET_NID_ANY) {
1634                 lo = hash_min(id.nid, HASH_BITS(ksocknal_data.ksnd_peers));
1635                 hi = lo;
1636         } else {
1637                 lo = 0;
1638                 hi = HASH_SIZE(ksocknal_data.ksnd_peers) - 1;
1639         }
1640
1641         for (bkt = lo; bkt <= hi; bkt++) {
1642                 int peer_off; /* searching offset in peer_ni hash table */
1643
1644                 for (peer_off = 0; ; peer_off++) {
1645                         struct ksock_peer_ni *peer_ni;
1646                         int           i = 0;
1647
1648                         read_lock(&ksocknal_data.ksnd_global_lock);
1649                         hlist_for_each_entry(peer_ni,
1650                                              &ksocknal_data.ksnd_peers[bkt],
1651                                              ksnp_list) {
1652                                 if (!((id.nid == LNET_NID_ANY ||
1653                                        id.nid == peer_ni->ksnp_id.nid) &&
1654                                       (id.pid == LNET_PID_ANY ||
1655                                        id.pid == peer_ni->ksnp_id.pid)))
1656                                         continue;
1657
1658                                 if (i++ == peer_off) {
1659                                         ksocknal_peer_addref(peer_ni);
1660                                         break;
1661                                 }
1662                         }
1663                         read_unlock(&ksocknal_data.ksnd_global_lock);
1664
1665                         if (i <= peer_off) /* no match */
1666                                 break;
1667
1668                         rc = 0;
1669                         ksocknal_push_peer(peer_ni);
1670                         ksocknal_peer_decref(peer_ni);
1671                 }
1672         }
1673         return rc;
1674 }
1675
1676 int
1677 ksocknal_ctl(struct lnet_ni *ni, unsigned int cmd, void *arg)
1678 {
1679         struct lnet_process_id id = {0};
1680         struct libcfs_ioctl_data *data = arg;
1681         int rc;
1682
1683         switch(cmd) {
1684         case IOC_LIBCFS_GET_INTERFACE: {
1685                 struct ksock_net *net = ni->ni_data;
1686                 struct ksock_interface *iface;
1687                 struct sockaddr_in *sa;
1688
1689                 read_lock(&ksocknal_data.ksnd_global_lock);
1690
1691                 if (data->ioc_count >= 1) {
1692                         rc = -ENOENT;
1693                 } else {
1694                         rc = 0;
1695                         iface = &net->ksnn_interface;
1696
1697                         sa = (void *)&iface->ksni_addr;
1698                         if (sa->sin_family == AF_INET)
1699                                 data->ioc_u32[0] = ntohl(sa->sin_addr.s_addr);
1700                         else
1701                                 data->ioc_u32[0] = 0xFFFFFFFF;
1702                         data->ioc_u32[1] = iface->ksni_netmask;
1703                         data->ioc_u32[2] = iface->ksni_npeers;
1704                         data->ioc_u32[3] = iface->ksni_nroutes;
1705                 }
1706
1707                 read_unlock(&ksocknal_data.ksnd_global_lock);
1708                 return rc;
1709         }
1710
1711         case IOC_LIBCFS_GET_PEER: {
1712                 __u32            myip = 0;
1713                 __u32            ip = 0;
1714                 int              port = 0;
1715                 int              conn_count = 0;
1716                 int              share_count = 0;
1717
1718                 rc = ksocknal_get_peer_info(ni, data->ioc_count,
1719                                             &id, &myip, &ip, &port,
1720                                             &conn_count,  &share_count);
1721                 if (rc != 0)
1722                         return rc;
1723
1724                 data->ioc_nid    = id.nid;
1725                 data->ioc_count  = share_count;
1726                 data->ioc_u32[0] = ip;
1727                 data->ioc_u32[1] = port;
1728                 data->ioc_u32[2] = myip;
1729                 data->ioc_u32[3] = conn_count;
1730                 data->ioc_u32[4] = id.pid;
1731                 return 0;
1732         }
1733
1734         case IOC_LIBCFS_ADD_PEER: {
1735                 struct sockaddr_in sa = {.sin_family = AF_INET};
1736
1737                 id.nid = data->ioc_nid;
1738                 id.pid = LNET_PID_LUSTRE;
1739                 sa.sin_addr.s_addr = htonl(data->ioc_u32[0]);
1740                 sa.sin_port = htons(data->ioc_u32[1]);
1741                 return ksocknal_add_peer(ni, id, (struct sockaddr *)&sa);
1742         }
1743         case IOC_LIBCFS_DEL_PEER:
1744                 id.nid = data->ioc_nid;
1745                 id.pid = LNET_PID_ANY;
1746                 return ksocknal_del_peer (ni, id,
1747                                           data->ioc_u32[0]); /* IP */
1748
1749         case IOC_LIBCFS_GET_CONN: {
1750                 int           txmem;
1751                 int           rxmem;
1752                 int           nagle;
1753                 struct ksock_conn *conn = ksocknal_get_conn_by_idx(ni, data->ioc_count);
1754                 struct sockaddr_in *psa = (void *)&conn->ksnc_peeraddr;
1755                 struct sockaddr_in *mysa = (void *)&conn->ksnc_myaddr;
1756
1757                 if (conn == NULL)
1758                         return -ENOENT;
1759
1760                 ksocknal_lib_get_conn_tunables(conn, &txmem, &rxmem, &nagle);
1761
1762                 data->ioc_count  = txmem;
1763                 data->ioc_nid    = conn->ksnc_peer->ksnp_id.nid;
1764                 data->ioc_flags  = nagle;
1765                 if (psa->sin_family == AF_INET)
1766                         data->ioc_u32[0] = ntohl(psa->sin_addr.s_addr);
1767                 else
1768                         data->ioc_u32[0] = 0xFFFFFFFF;
1769                 data->ioc_u32[1] = rpc_get_port((struct sockaddr *)
1770                                                 &conn->ksnc_peeraddr);
1771                 if (mysa->sin_family == AF_INET)
1772                         data->ioc_u32[2] = ntohl(mysa->sin_addr.s_addr);
1773                 else
1774                         data->ioc_u32[2] = 0xFFFFFFFF;
1775                 data->ioc_u32[3] = conn->ksnc_type;
1776                 data->ioc_u32[4] = conn->ksnc_scheduler->kss_cpt;
1777                 data->ioc_u32[5] = rxmem;
1778                 data->ioc_u32[6] = conn->ksnc_peer->ksnp_id.pid;
1779                 ksocknal_conn_decref(conn);
1780                 return 0;
1781         }
1782
1783         case IOC_LIBCFS_CLOSE_CONNECTION:
1784                 id.nid = data->ioc_nid;
1785                 id.pid = LNET_PID_ANY;
1786                 return ksocknal_close_matching_conns (id,
1787                                                       data->ioc_u32[0]);
1788
1789         case IOC_LIBCFS_REGISTER_MYNID:
1790                 /* Ignore if this is a noop */
1791                 if (data->ioc_nid == ni->ni_nid)
1792                         return 0;
1793
1794                 CERROR("obsolete IOC_LIBCFS_REGISTER_MYNID: %s(%s)\n",
1795                        libcfs_nid2str(data->ioc_nid),
1796                        libcfs_nid2str(ni->ni_nid));
1797                 return -EINVAL;
1798
1799         case IOC_LIBCFS_PUSH_CONNECTION:
1800                 id.nid = data->ioc_nid;
1801                 id.pid = LNET_PID_ANY;
1802                 return ksocknal_push(ni, id);
1803
1804         default:
1805                 return -EINVAL;
1806         }
1807         /* not reached */
1808 }
1809
1810 static void
1811 ksocknal_free_buffers (void)
1812 {
1813         LASSERT (atomic_read(&ksocknal_data.ksnd_nactive_txs) == 0);
1814
1815         if (ksocknal_data.ksnd_schedulers != NULL)
1816                 cfs_percpt_free(ksocknal_data.ksnd_schedulers);
1817
1818         spin_lock(&ksocknal_data.ksnd_tx_lock);
1819
1820         if (!list_empty(&ksocknal_data.ksnd_idle_noop_txs)) {
1821                 LIST_HEAD(zlist);
1822                 struct ksock_tx *tx;
1823
1824                 list_splice_init(&ksocknal_data.ksnd_idle_noop_txs, &zlist);
1825                 spin_unlock(&ksocknal_data.ksnd_tx_lock);
1826
1827                 while ((tx = list_first_entry_or_null(&zlist, struct ksock_tx,
1828                                                       tx_list)) != NULL) {
1829                         list_del(&tx->tx_list);
1830                         LIBCFS_FREE(tx, tx->tx_desc_size);
1831                 }
1832         } else {
1833                 spin_unlock(&ksocknal_data.ksnd_tx_lock);
1834         }
1835 }
1836
1837 static void
1838 ksocknal_base_shutdown(void)
1839 {
1840         struct ksock_sched *sched;
1841         struct ksock_peer_ni *peer_ni;
1842         int i;
1843
1844         CDEBUG(D_MALLOC, "before NAL cleanup: kmem %lld\n",
1845                libcfs_kmem_read());
1846         LASSERT (ksocknal_data.ksnd_nnets == 0);
1847
1848         switch (ksocknal_data.ksnd_init) {
1849         default:
1850                 LASSERT(0);
1851                 /* fallthrough */
1852
1853         case SOCKNAL_INIT_ALL:
1854         case SOCKNAL_INIT_DATA:
1855                 hash_for_each(ksocknal_data.ksnd_peers, i, peer_ni, ksnp_list)
1856                         LASSERT(0);
1857
1858                 LASSERT(list_empty(&ksocknal_data.ksnd_nets));
1859                 LASSERT(list_empty(&ksocknal_data.ksnd_enomem_conns));
1860                 LASSERT(list_empty(&ksocknal_data.ksnd_zombie_conns));
1861                 LASSERT(list_empty(&ksocknal_data.ksnd_connd_connreqs));
1862                 LASSERT(list_empty(&ksocknal_data.ksnd_connd_routes));
1863
1864                 if (ksocknal_data.ksnd_schedulers != NULL) {
1865                         cfs_percpt_for_each(sched, i,
1866                                             ksocknal_data.ksnd_schedulers) {
1867
1868                                 LASSERT(list_empty(&sched->kss_tx_conns));
1869                                 LASSERT(list_empty(&sched->kss_rx_conns));
1870                                 LASSERT(list_empty(&sched->kss_zombie_noop_txs));
1871                                 LASSERT(sched->kss_nconns == 0);
1872                         }
1873                 }
1874
1875                 /* flag threads to terminate; wake and wait for them to die */
1876                 ksocknal_data.ksnd_shuttingdown = 1;
1877                 wake_up_all(&ksocknal_data.ksnd_connd_waitq);
1878                 wake_up(&ksocknal_data.ksnd_reaper_waitq);
1879
1880                 if (ksocknal_data.ksnd_schedulers != NULL) {
1881                         cfs_percpt_for_each(sched, i,
1882                                             ksocknal_data.ksnd_schedulers)
1883                                         wake_up_all(&sched->kss_waitq);
1884                 }
1885
1886                 wait_var_event_warning(&ksocknal_data.ksnd_nthreads,
1887                                        atomic_read(&ksocknal_data.ksnd_nthreads) == 0,
1888                                        "waiting for %d threads to terminate\n",
1889                                        atomic_read(&ksocknal_data.ksnd_nthreads));
1890
1891                 ksocknal_free_buffers();
1892
1893                 ksocknal_data.ksnd_init = SOCKNAL_INIT_NOTHING;
1894                 break;
1895         }
1896
1897         CDEBUG(D_MALLOC, "after NAL cleanup: kmem %lld\n",
1898                libcfs_kmem_read());
1899
1900         module_put(THIS_MODULE);
1901 }
1902
1903 static int
1904 ksocknal_base_startup(void)
1905 {
1906         struct ksock_sched *sched;
1907         int rc;
1908         int i;
1909
1910         LASSERT(ksocknal_data.ksnd_init == SOCKNAL_INIT_NOTHING);
1911         LASSERT(ksocknal_data.ksnd_nnets == 0);
1912
1913         memset(&ksocknal_data, 0, sizeof(ksocknal_data)); /* zero pointers */
1914
1915         hash_init(ksocknal_data.ksnd_peers);
1916
1917         rwlock_init(&ksocknal_data.ksnd_global_lock);
1918         INIT_LIST_HEAD(&ksocknal_data.ksnd_nets);
1919
1920         spin_lock_init(&ksocknal_data.ksnd_reaper_lock);
1921         INIT_LIST_HEAD(&ksocknal_data.ksnd_enomem_conns);
1922         INIT_LIST_HEAD(&ksocknal_data.ksnd_zombie_conns);
1923         INIT_LIST_HEAD(&ksocknal_data.ksnd_deathrow_conns);
1924         init_waitqueue_head(&ksocknal_data.ksnd_reaper_waitq);
1925
1926         spin_lock_init(&ksocknal_data.ksnd_connd_lock);
1927         INIT_LIST_HEAD(&ksocknal_data.ksnd_connd_connreqs);
1928         INIT_LIST_HEAD(&ksocknal_data.ksnd_connd_routes);
1929         init_waitqueue_head(&ksocknal_data.ksnd_connd_waitq);
1930
1931         spin_lock_init(&ksocknal_data.ksnd_tx_lock);
1932         INIT_LIST_HEAD(&ksocknal_data.ksnd_idle_noop_txs);
1933
1934         /* NB memset above zeros whole of ksocknal_data */
1935
1936         /* flag lists/ptrs/locks initialised */
1937         ksocknal_data.ksnd_init = SOCKNAL_INIT_DATA;
1938         if (!try_module_get(THIS_MODULE))
1939                 goto failed;
1940
1941         /* Create a scheduler block per available CPT */
1942         ksocknal_data.ksnd_schedulers = cfs_percpt_alloc(lnet_cpt_table(),
1943                                                          sizeof(*sched));
1944         if (ksocknal_data.ksnd_schedulers == NULL)
1945                 goto failed;
1946
1947         cfs_percpt_for_each(sched, i, ksocknal_data.ksnd_schedulers) {
1948                 int nthrs;
1949
1950                 /*
1951                  * make sure not to allocate more threads than there are
1952                  * cores/CPUs in teh CPT
1953                  */
1954                 nthrs = cfs_cpt_weight(lnet_cpt_table(), i);
1955                 if (*ksocknal_tunables.ksnd_nscheds > 0) {
1956                         nthrs = min(nthrs, *ksocknal_tunables.ksnd_nscheds);
1957                 } else {
1958                         /*
1959                          * max to half of CPUs, assume another half should be
1960                          * reserved for upper layer modules
1961                          */
1962                         nthrs = min(max(SOCKNAL_NSCHEDS, nthrs >> 1), nthrs);
1963                 }
1964
1965                 sched->kss_nthreads_max = nthrs;
1966                 sched->kss_cpt = i;
1967
1968                 spin_lock_init(&sched->kss_lock);
1969                 INIT_LIST_HEAD(&sched->kss_rx_conns);
1970                 INIT_LIST_HEAD(&sched->kss_tx_conns);
1971                 INIT_LIST_HEAD(&sched->kss_zombie_noop_txs);
1972                 init_waitqueue_head(&sched->kss_waitq);
1973         }
1974
1975         ksocknal_data.ksnd_connd_starting         = 0;
1976         ksocknal_data.ksnd_connd_failed_stamp     = 0;
1977         ksocknal_data.ksnd_connd_starting_stamp   = ktime_get_real_seconds();
1978         /* must have at least 2 connds to remain responsive to accepts while
1979          * connecting */
1980         if (*ksocknal_tunables.ksnd_nconnds < SOCKNAL_CONND_RESV + 1)
1981                 *ksocknal_tunables.ksnd_nconnds = SOCKNAL_CONND_RESV + 1;
1982
1983         if (*ksocknal_tunables.ksnd_nconnds_max <
1984             *ksocknal_tunables.ksnd_nconnds) {
1985                 ksocknal_tunables.ksnd_nconnds_max =
1986                         ksocknal_tunables.ksnd_nconnds;
1987         }
1988
1989         for (i = 0; i < *ksocknal_tunables.ksnd_nconnds; i++) {
1990                 char name[16];
1991                 spin_lock_bh(&ksocknal_data.ksnd_connd_lock);
1992                 ksocknal_data.ksnd_connd_starting++;
1993                 spin_unlock_bh(&ksocknal_data.ksnd_connd_lock);
1994
1995
1996                 snprintf(name, sizeof(name), "socknal_cd%02d", i);
1997                 rc = ksocknal_thread_start(ksocknal_connd,
1998                                            (void *)((uintptr_t)i), name);
1999                 if (rc != 0) {
2000                         spin_lock_bh(&ksocknal_data.ksnd_connd_lock);
2001                         ksocknal_data.ksnd_connd_starting--;
2002                         spin_unlock_bh(&ksocknal_data.ksnd_connd_lock);
2003                         CERROR("Can't spawn socknal connd: %d\n", rc);
2004                         goto failed;
2005                 }
2006         }
2007
2008         rc = ksocknal_thread_start(ksocknal_reaper, NULL, "socknal_reaper");
2009         if (rc != 0) {
2010                 CERROR ("Can't spawn socknal reaper: %d\n", rc);
2011                 goto failed;
2012         }
2013
2014         /* flag everything initialised */
2015         ksocknal_data.ksnd_init = SOCKNAL_INIT_ALL;
2016
2017         return 0;
2018
2019  failed:
2020         ksocknal_base_shutdown();
2021         return -ENETDOWN;
2022 }
2023
2024 static int
2025 ksocknal_debug_peerhash(struct lnet_ni *ni)
2026 {
2027         struct ksock_peer_ni *peer_ni;
2028         int i;
2029
2030         read_lock(&ksocknal_data.ksnd_global_lock);
2031
2032         hash_for_each(ksocknal_data.ksnd_peers, i, peer_ni, ksnp_list) {
2033                 struct ksock_conn_cb *conn_cb;
2034                 struct ksock_conn *conn;
2035
2036                 if (peer_ni->ksnp_ni != ni)
2037                         continue;
2038
2039                 CWARN("Active peer_ni on shutdown: %s, ref %d, "
2040                       "closing %d, accepting %d, err %d, zcookie %llu, "
2041                       "txq %d, zc_req %d\n", libcfs_id2str(peer_ni->ksnp_id),
2042                       refcount_read(&peer_ni->ksnp_refcount),
2043                       peer_ni->ksnp_closing,
2044                       peer_ni->ksnp_accepting, peer_ni->ksnp_error,
2045                       peer_ni->ksnp_zc_next_cookie,
2046                       !list_empty(&peer_ni->ksnp_tx_queue),
2047                       !list_empty(&peer_ni->ksnp_zc_req_list));
2048
2049                 conn_cb = peer_ni->ksnp_conn_cb;
2050                 if (conn_cb) {
2051                         CWARN("ConnCB: ref %d, schd %d, conn %d, cnted %d, del %d\n",
2052                               refcount_read(&conn_cb->ksnr_refcount),
2053                               conn_cb->ksnr_scheduled, conn_cb->ksnr_connecting,
2054                               conn_cb->ksnr_connected, conn_cb->ksnr_deleted);
2055                 }
2056
2057                 list_for_each_entry(conn, &peer_ni->ksnp_conns, ksnc_list) {
2058                         CWARN("Conn: ref %d, sref %d, t %d, c %d\n",
2059                               refcount_read(&conn->ksnc_conn_refcount),
2060                               refcount_read(&conn->ksnc_sock_refcount),
2061                               conn->ksnc_type, conn->ksnc_closing);
2062                 }
2063                 break;
2064         }
2065
2066         read_unlock(&ksocknal_data.ksnd_global_lock);
2067         return 0;
2068 }
2069
2070 void
2071 ksocknal_shutdown(struct lnet_ni *ni)
2072 {
2073         struct ksock_net *net = ni->ni_data;
2074         struct lnet_process_id anyid = {
2075                 .nid = LNET_NID_ANY,
2076                 .pid = LNET_PID_ANY,
2077         };
2078
2079         LASSERT(ksocknal_data.ksnd_init == SOCKNAL_INIT_ALL);
2080         LASSERT(ksocknal_data.ksnd_nnets > 0);
2081
2082         /* prevent new peers */
2083         atomic_add(SOCKNAL_SHUTDOWN_BIAS, &net->ksnn_npeers);
2084
2085         /* Delete all peers */
2086         ksocknal_del_peer(ni, anyid, 0);
2087
2088         /* Wait for all peer_ni state to clean up */
2089         wait_var_event_warning(&net->ksnn_npeers,
2090                                atomic_read(&net->ksnn_npeers) ==
2091                                SOCKNAL_SHUTDOWN_BIAS,
2092                                "waiting for %d peers to disconnect\n",
2093                                ksocknal_debug_peerhash(ni) +
2094                                atomic_read(&net->ksnn_npeers) -
2095                                SOCKNAL_SHUTDOWN_BIAS);
2096
2097         LASSERT(net->ksnn_interface.ksni_npeers == 0);
2098         LASSERT(net->ksnn_interface.ksni_nroutes == 0);
2099
2100         list_del(&net->ksnn_list);
2101         LIBCFS_FREE(net, sizeof(*net));
2102
2103         ksocknal_data.ksnd_nnets--;
2104         if (ksocknal_data.ksnd_nnets == 0)
2105                 ksocknal_base_shutdown();
2106 }
2107
2108 static int
2109 ksocknal_search_new_ipif(struct ksock_net *net)
2110 {
2111         int new_ipif = 0;
2112         char *ifnam = &net->ksnn_interface.ksni_name[0];
2113         char *colon = strchr(ifnam, ':');
2114         bool found = false;
2115         struct ksock_net *tmp;
2116
2117         if (colon != NULL)
2118                 *colon = 0;
2119
2120         list_for_each_entry(tmp, &ksocknal_data.ksnd_nets, ksnn_list) {
2121                 char *ifnam2 = &tmp->ksnn_interface.ksni_name[0];
2122                 char *colon2 = strchr(ifnam2, ':');
2123
2124                 if (colon2 != NULL)
2125                         *colon2 = 0;
2126
2127                 found = strcmp(ifnam, ifnam2) == 0;
2128                 if (colon2 != NULL)
2129                         *colon2 = ':';
2130         }
2131
2132         new_ipif += !found;
2133         if (colon != NULL)
2134                 *colon = ':';
2135
2136         return new_ipif;
2137 }
2138
2139 static int
2140 ksocknal_start_schedulers(struct ksock_sched *sched)
2141 {
2142         int     nthrs;
2143         int     rc = 0;
2144         int     i;
2145
2146         if (sched->kss_nthreads == 0) {
2147                 if (*ksocknal_tunables.ksnd_nscheds > 0) {
2148                         nthrs = sched->kss_nthreads_max;
2149                 } else {
2150                         nthrs = cfs_cpt_weight(lnet_cpt_table(),
2151                                                sched->kss_cpt);
2152                         nthrs = min(max(SOCKNAL_NSCHEDS, nthrs >> 1), nthrs);
2153                         nthrs = min(SOCKNAL_NSCHEDS_HIGH, nthrs);
2154                 }
2155                 nthrs = min(nthrs, sched->kss_nthreads_max);
2156         } else {
2157                 LASSERT(sched->kss_nthreads <= sched->kss_nthreads_max);
2158                 /* increase two threads if there is new interface */
2159                 nthrs = min(2, sched->kss_nthreads_max - sched->kss_nthreads);
2160         }
2161
2162         for (i = 0; i < nthrs; i++) {
2163                 long id;
2164                 char name[20];
2165
2166                 id = KSOCK_THREAD_ID(sched->kss_cpt, sched->kss_nthreads + i);
2167                 snprintf(name, sizeof(name), "socknal_sd%02d_%02d",
2168                          sched->kss_cpt, (int)KSOCK_THREAD_SID(id));
2169
2170                 rc = ksocknal_thread_start(ksocknal_scheduler,
2171                                            (void *)id, name);
2172                 if (rc == 0)
2173                         continue;
2174
2175                 CERROR("Can't spawn thread %d for scheduler[%d]: %d\n",
2176                        sched->kss_cpt, (int) KSOCK_THREAD_SID(id), rc);
2177                 break;
2178         }
2179
2180         sched->kss_nthreads += i;
2181         return rc;
2182 }
2183
2184 static int
2185 ksocknal_net_start_threads(struct ksock_net *net, __u32 *cpts, int ncpts)
2186 {
2187         int newif = ksocknal_search_new_ipif(net);
2188         int rc;
2189         int i;
2190
2191         if (ncpts > 0 && ncpts > cfs_cpt_number(lnet_cpt_table()))
2192                 return -EINVAL;
2193
2194         for (i = 0; i < ncpts; i++) {
2195                 struct ksock_sched *sched;
2196                 int cpt = (cpts == NULL) ? i : cpts[i];
2197
2198                 LASSERT(cpt < cfs_cpt_number(lnet_cpt_table()));
2199                 sched = ksocknal_data.ksnd_schedulers[cpt];
2200
2201                 if (!newif && sched->kss_nthreads > 0)
2202                         continue;
2203
2204                 rc = ksocknal_start_schedulers(sched);
2205                 if (rc != 0)
2206                         return rc;
2207         }
2208         return 0;
2209 }
2210
2211 int
2212 ksocknal_startup(struct lnet_ni *ni)
2213 {
2214         struct ksock_net *net;
2215         struct lnet_ioctl_config_lnd_cmn_tunables *net_tunables;
2216         struct ksock_interface *ksi = NULL;
2217         struct lnet_inetdev *ifaces = NULL;
2218         struct sockaddr_in *sa;
2219         int i = 0;
2220         int rc;
2221
2222         LASSERT (ni->ni_net->net_lnd == &the_ksocklnd);
2223         if (ksocknal_data.ksnd_init == SOCKNAL_INIT_NOTHING) {
2224                 rc = ksocknal_base_startup();
2225                 if (rc != 0)
2226                         return rc;
2227         }
2228         LIBCFS_ALLOC(net, sizeof(*net));
2229         if (net == NULL)
2230                 goto fail_0;
2231         net->ksnn_incarnation = ktime_get_real_ns();
2232         ni->ni_data = net;
2233         net_tunables = &ni->ni_net->net_tunables;
2234         if (net_tunables->lct_peer_timeout == -1)
2235                 net_tunables->lct_peer_timeout =
2236                         *ksocknal_tunables.ksnd_peertimeout;
2237
2238         if (net_tunables->lct_max_tx_credits == -1)
2239                 net_tunables->lct_max_tx_credits =
2240                         *ksocknal_tunables.ksnd_credits;
2241
2242         if (net_tunables->lct_peer_tx_credits == -1)
2243                 net_tunables->lct_peer_tx_credits =
2244                         *ksocknal_tunables.ksnd_peertxcredits;
2245
2246         if (net_tunables->lct_peer_tx_credits >
2247             net_tunables->lct_max_tx_credits)
2248                 net_tunables->lct_peer_tx_credits =
2249                         net_tunables->lct_max_tx_credits;
2250
2251         if (net_tunables->lct_peer_rtr_credits == -1)
2252                 net_tunables->lct_peer_rtr_credits =
2253                         *ksocknal_tunables.ksnd_peerrtrcredits;
2254
2255         rc = lnet_inet_enumerate(&ifaces, ni->ni_net_ns);
2256         if (rc < 0)
2257                 goto fail_1;
2258
2259         ksi = &net->ksnn_interface;
2260
2261         /* Use the first discovered interface or look in the list */
2262         if (ni->ni_interface) {
2263                 for (i = 0; i < rc; i++)
2264                         if (strcmp(ifaces[i].li_name, ni->ni_interface) == 0)
2265                                 break;
2266
2267                 /* ni_interfaces doesn't contain the interface we want */
2268                 if (i == rc) {
2269                         CERROR("ksocklnd: failed to find interface %s\n",
2270                                ni->ni_interface);
2271                         goto fail_1;
2272                 }
2273         }
2274
2275         ni->ni_dev_cpt = ifaces[i].li_cpt;
2276         sa = (void *)&ksi->ksni_addr;
2277         memset(sa, 0, sizeof(*sa));
2278         sa->sin_family = AF_INET;
2279         sa->sin_addr.s_addr = htonl(ifaces[i].li_ipaddr);
2280         ksi->ksni_index = ksocknal_ip2index((struct sockaddr *)sa, ni);
2281         ksi->ksni_netmask = ifaces[i].li_netmask;
2282         strlcpy(ksi->ksni_name, ifaces[i].li_name, sizeof(ksi->ksni_name));
2283
2284         /* call it before add it to ksocknal_data.ksnd_nets */
2285         rc = ksocknal_net_start_threads(net, ni->ni_cpts, ni->ni_ncpts);
2286         if (rc != 0)
2287                 goto fail_1;
2288
2289         LASSERT(ksi);
2290         LASSERT(ksi->ksni_addr.ss_family == AF_INET);
2291         ni->ni_nid = LNET_MKNID(
2292                 LNET_NIDNET(ni->ni_nid),
2293                 ntohl(((struct sockaddr_in *)
2294                        &ksi->ksni_addr)->sin_addr.s_addr));
2295         list_add(&net->ksnn_list, &ksocknal_data.ksnd_nets);
2296         ksocknal_data.ksnd_nnets++;
2297
2298         return 0;
2299
2300 fail_1:
2301         LIBCFS_FREE(net, sizeof(*net));
2302 fail_0:
2303         if (ksocknal_data.ksnd_nnets == 0)
2304                 ksocknal_base_shutdown();
2305
2306         return -ENETDOWN;
2307 }
2308
2309
2310 static void __exit ksocklnd_exit(void)
2311 {
2312         lnet_unregister_lnd(&the_ksocklnd);
2313 }
2314
2315 static const struct lnet_lnd the_ksocklnd = {
2316         .lnd_type               = SOCKLND,
2317         .lnd_startup            = ksocknal_startup,
2318         .lnd_shutdown           = ksocknal_shutdown,
2319         .lnd_ctl                = ksocknal_ctl,
2320         .lnd_send               = ksocknal_send,
2321         .lnd_recv               = ksocknal_recv,
2322         .lnd_notify_peer_down   = ksocknal_notify_gw_down,
2323         .lnd_accept             = ksocknal_accept,
2324 };
2325
2326 static int __init ksocklnd_init(void)
2327 {
2328         int rc;
2329
2330         /* check ksnr_connected/connecting field large enough */
2331         BUILD_BUG_ON(SOCKLND_CONN_NTYPES > 4);
2332         BUILD_BUG_ON(SOCKLND_CONN_ACK != SOCKLND_CONN_BULK_IN);
2333
2334         rc = ksocknal_tunables_init();
2335         if (rc != 0)
2336                 return rc;
2337
2338         lnet_register_lnd(&the_ksocklnd);
2339
2340         return 0;
2341 }
2342
2343 MODULE_AUTHOR("OpenSFS, Inc. <http://www.lustre.org/>");
2344 MODULE_DESCRIPTION("TCP Socket LNet Network Driver");
2345 MODULE_VERSION("2.8.0");
2346 MODULE_LICENSE("GPL");
2347
2348 module_init(ksocklnd_init);
2349 module_exit(ksocklnd_exit);