Whamcloud - gitweb
LU-14477 lnet: handle possiblity of IPv6 being unavailable.
[fs/lustre-release.git] / lnet / lnet / lib-socket.c
1 /*
2  * GPL HEADER START
3  *
4  * DO NOT ALTER OR REMOVE COPYRIGHT NOTICES OR THIS FILE HEADER.
5  *
6  * This program is free software; you can redistribute it and/or modify
7  * it under the terms of the GNU General Public License version 2 only,
8  * as published by the Free Software Foundation.
9  *
10  * This program is distributed in the hope that it will be useful, but
11  * WITHOUT ANY WARRANTY; without even the implied warranty of
12  * MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the GNU
13  * General Public License version 2 for more details (a copy is included
14  * in the LICENSE file that accompanied this code).
15  *
16  * You should have received a copy of the GNU General Public License
17  * version 2 along with this program; If not, see
18  * http://www.gnu.org/licenses/gpl-2.0.html
19  *
20  * GPL HEADER END
21  */
22 /*
23  * Copyright (c) 2008, 2010, Oracle and/or its affiliates. All rights reserved.
24  * Use is subject to license terms.
25  *
26  * Copyright (c) 2015, 2017, Intel Corporation.
27  */
28 /*
29  * This file is part of Lustre, http://www.lustre.org/
30  * Lustre is a trademark of Sun Microsystems, Inc.
31  */
32 #define DEBUG_SUBSYSTEM S_LNET
33
34 #include <linux/if.h>
35 #include <linux/in.h>
36 #include <linux/net.h>
37 #include <net/addrconf.h>
38 #include <net/ipv6.h>
39 #include <linux/file.h>
40 #include <linux/pagemap.h>
41 /* For sys_open & sys_close */
42 #include <linux/syscalls.h>
43 #include <net/sock.h>
44 #include <linux/inetdevice.h>
45
46 #include <libcfs/linux/linux-time.h>
47 #include <libcfs/linux/linux-net.h>
48 #include <libcfs/libcfs.h>
49 #include <lnet/lib-lnet.h>
50
51 int
52 lnet_sock_write(struct socket *sock, void *buffer, int nob, int timeout)
53 {
54         int rc;
55         long jiffies_left = cfs_time_seconds(timeout);
56         unsigned long then;
57
58         LASSERT(nob > 0);
59         /* Caller may pass a zero timeout if she thinks the socket buffer is
60          * empty enough to take the whole message immediately */
61
62         for (;;) {
63                 struct kvec  iov = {
64                         .iov_base = buffer,
65                         .iov_len  = nob
66                 };
67                 struct msghdr msg = {
68                         .msg_flags      = (timeout == 0) ? MSG_DONTWAIT : 0
69                 };
70
71                 if (timeout != 0) {
72                         struct sock *sk = sock->sk;
73
74                         /* Set send timeout to remaining time */
75                         lock_sock(sk);
76                         sk->sk_sndtimeo = jiffies_left;
77                         release_sock(sk);
78                 }
79
80                 then = jiffies;
81                 rc = kernel_sendmsg(sock, &msg, &iov, 1, nob);
82                 jiffies_left -= jiffies - then;
83
84                 if (rc == nob)
85                         return 0;
86
87                 if (rc < 0)
88                         return rc;
89
90                 if (rc == 0) {
91                         CERROR("Unexpected zero rc\n");
92                         return -ECONNABORTED;
93                 }
94
95                 if (jiffies_left <= 0)
96                         return -EAGAIN;
97
98                 buffer = ((char *)buffer) + rc;
99                 nob -= rc;
100         }
101         return 0;
102 }
103 EXPORT_SYMBOL(lnet_sock_write);
104
105 int
106 lnet_sock_read(struct socket *sock, void *buffer, int nob, int timeout)
107 {
108         int rc;
109         long jiffies_left = cfs_time_seconds(timeout);
110         unsigned long then;
111
112         LASSERT(nob > 0);
113         LASSERT(jiffies_left > 0);
114
115         for (;;) {
116                 struct kvec  iov = {
117                         .iov_base = buffer,
118                         .iov_len  = nob
119                 };
120                 struct msghdr msg = {
121                         .msg_flags      = 0
122                 };
123                 struct sock *sk = sock->sk;
124
125                 /* Set receive timeout to remaining time */
126                 lock_sock(sk);
127                 sk->sk_rcvtimeo = jiffies_left;
128                 release_sock(sk);
129
130                 then = jiffies;
131                 rc = kernel_recvmsg(sock, &msg, &iov, 1, nob, 0);
132                 jiffies_left -= jiffies - then;
133
134                 if (rc < 0)
135                         return rc;
136
137                 if (rc == 0)
138                         return -ECONNRESET;
139
140                 buffer = ((char *)buffer) + rc;
141                 nob -= rc;
142
143                 if (nob == 0)
144                         return 0;
145
146                 if (jiffies_left <= 0)
147                         return -ETIMEDOUT;
148         }
149 }
150 EXPORT_SYMBOL(lnet_sock_read);
151
152 int choose_ipv4_src(__u32 *ret, int interface, __u32 dst_ipaddr, struct net *ns)
153 {
154         struct net_device *dev;
155         struct in_device *in_dev;
156         int err;
157         DECLARE_CONST_IN_IFADDR(ifa);
158
159         rcu_read_lock();
160         dev = dev_get_by_index_rcu(ns, interface);
161         err = -EINVAL;
162         if (!dev || !(dev->flags & IFF_UP))
163                 goto out;
164         in_dev = __in_dev_get_rcu(dev);
165         if (!in_dev)
166                 goto out;
167         err = -ENOENT;
168         in_dev_for_each_ifa_rcu(ifa, in_dev) {
169                 if (err ||
170                     ((dst_ipaddr ^ ntohl(ifa->ifa_local))
171                      & ntohl(ifa->ifa_mask)) == 0) {
172                         /* This address at least as good as what we
173                          * already have
174                          */
175                         *ret = ntohl(ifa->ifa_local);
176                         err = 0;
177                 }
178         }
179         endfor_ifa(in_dev);
180 out:
181         rcu_read_unlock();
182         return err;
183 }
184 EXPORT_SYMBOL(choose_ipv4_src);
185
186 static struct socket *
187 lnet_sock_create(int interface, struct sockaddr *remaddr,
188                  int local_port, struct net *ns)
189 {
190         struct socket *sock;
191         int rc;
192         int family;
193
194         family = AF_INET6;
195         if (remaddr)
196                 family = remaddr->sa_family;
197 retry:
198 #ifdef HAVE_SOCK_CREATE_KERN_USE_NET
199         rc = sock_create_kern(ns, family, SOCK_STREAM, 0, &sock);
200 #else
201         rc = sock_create_kern(family, SOCK_STREAM, 0, &sock);
202 #endif
203         if (rc == -EAFNOSUPPORT && family == AF_INET6 && !remaddr) {
204                 family = AF_INET;
205                 goto retry;
206         }
207
208         if (rc) {
209                 CERROR("Can't create socket: %d\n", rc);
210                 return ERR_PTR(rc);
211         }
212
213         sock->sk->sk_reuseport = 1;
214
215         if (interface >= 0 || local_port != 0) {
216                 struct sockaddr_storage locaddr = {};
217
218                 switch (family) {
219                 case AF_INET: {
220                         struct sockaddr_in *sin = (void *)&locaddr;
221
222                         sin->sin_family = AF_INET;
223                         sin->sin_addr.s_addr = INADDR_ANY;
224                         if (interface >= 0 && remaddr) {
225                                 struct sockaddr_in *rem = (void *)remaddr;
226                                 __u32 ip;
227
228                                 rc = choose_ipv4_src(&ip,
229                                                      interface,
230                                                      ntohl(rem->sin_addr.s_addr),
231                                                      ns);
232                                 if (rc)
233                                         goto failed;
234                                 sin->sin_addr.s_addr = htonl(ip);
235                         }
236                         sin->sin_port = htons(local_port);
237                         break;
238                 }
239 #if IS_ENABLED(CONFIG_IPV6)
240                 case AF_INET6: {
241                         struct sockaddr_in6 *sin6 = (void *)&locaddr;
242
243                         sin6->sin6_family = AF_INET6;
244                         sin6->sin6_addr = in6addr_any;
245                         if (interface >= 0 && remaddr) {
246                                 struct sockaddr_in6 *rem = (void *)remaddr;
247
248                                 ipv6_dev_get_saddr(ns,
249                                                    dev_get_by_index(ns,
250                                                                     interface),
251                                                    &rem->sin6_addr, 0,
252                                                    &sin6->sin6_addr);
253                         }
254                         sin6->sin6_port = htons(local_port);
255                         break;
256                 }
257 #endif /* IS_ENABLED(CONFIG_IPV6) */
258                 }
259                 rc = kernel_bind(sock, (struct sockaddr *)&locaddr,
260                                  sizeof(locaddr));
261                 if (rc == -EADDRINUSE) {
262                         CDEBUG(D_NET, "Port %d already in use\n", local_port);
263                         goto failed;
264                 }
265                 if (rc != 0) {
266                         CERROR("Error trying to bind to port %d: %d\n",
267                                local_port, rc);
268                         goto failed;
269                 }
270         }
271         return sock;
272
273 failed:
274         sock_release(sock);
275         return ERR_PTR(rc);
276 }
277
278 void
279 lnet_sock_setbuf(struct socket *sock, int txbufsize, int rxbufsize)
280 {
281         struct sock *sk = sock->sk;
282
283         if (txbufsize != 0) {
284                 sk->sk_userlocks |= SOCK_SNDBUF_LOCK;
285                 sk->sk_sndbuf = txbufsize;
286                 sk->sk_write_space(sk);
287         }
288
289         if (rxbufsize != 0) {
290                 sk->sk_userlocks |= SOCK_RCVBUF_LOCK;
291                 sk->sk_sndbuf = rxbufsize;
292         }
293 }
294 EXPORT_SYMBOL(lnet_sock_setbuf);
295
296 int
297 lnet_sock_getaddr(struct socket *sock, bool remote,
298                   struct sockaddr_storage *peer)
299 {
300         int rc;
301 #ifndef HAVE_KERN_SOCK_GETNAME_2ARGS
302         int len = sizeof(*peer);
303 #endif
304
305         if (remote)
306                 rc = lnet_kernel_getpeername(sock,
307                                              (struct sockaddr *)peer, &len);
308         else
309                 rc = lnet_kernel_getsockname(sock,
310                                              (struct sockaddr *)peer, &len);
311         if (rc < 0) {
312                 CERROR("Error %d getting sock %s IP/port\n",
313                         rc, remote ? "peer" : "local");
314                 return rc;
315         }
316         if (peer->ss_family == AF_INET6) {
317                 struct sockaddr_in6 *in6 = (void *)peer;
318                 struct sockaddr_in *in = (void *)peer;
319                 short port = in6->sin6_port;
320
321                 if (ipv6_addr_v4mapped(&in6->sin6_addr)) {
322                         /* Pretend it is a v4 socket */
323                         memset(in, 0, sizeof(*in));
324                         in->sin_family = AF_INET;
325                         in->sin_port = port;
326                         memcpy(&in->sin_addr, &in6->sin6_addr.s6_addr32[3], 4);
327                 }
328         }
329         return 0;
330 }
331 EXPORT_SYMBOL(lnet_sock_getaddr);
332
333 void lnet_sock_getbuf(struct socket *sock, int *txbufsize, int *rxbufsize)
334 {
335         if (txbufsize != NULL)
336                 *txbufsize = sock->sk->sk_sndbuf;
337
338         if (rxbufsize != NULL)
339                 *rxbufsize = sock->sk->sk_rcvbuf;
340 }
341 EXPORT_SYMBOL(lnet_sock_getbuf);
342
343 struct socket *
344 lnet_sock_listen(int local_port, int backlog, struct net *ns)
345 {
346         struct socket *sock;
347         int val = 0;
348         int rc;
349
350         sock = lnet_sock_create(-1, NULL, local_port, ns);
351         if (IS_ERR(sock)) {
352                 rc = PTR_ERR(sock);
353                 if (rc == -EADDRINUSE)
354                         CERROR("Can't create socket: port %d already in use\n",
355                                local_port);
356                 return ERR_PTR(rc);
357         }
358
359         /* Make sure we get both IPv4 and IPv6 connections.
360          * This is the default, but it can be overridden so
361          * we force it back.
362          */
363         kernel_setsockopt(sock, IPPROTO_IPV6, IPV6_V6ONLY,
364                           (char *) &val, sizeof(val));
365
366         rc = kernel_listen(sock, backlog);
367         if (rc == 0)
368                 return sock;
369
370         CERROR("Can't set listen backlog %d: %d\n", backlog, rc);
371         sock_release(sock);
372         return ERR_PTR(rc);
373 }
374
375 struct socket *
376 lnet_sock_connect(int interface, int local_port,
377                   struct sockaddr *peeraddr,
378                   struct net *ns)
379 {
380         struct socket *sock;
381         int rc;
382
383         sock = lnet_sock_create(interface, peeraddr, local_port, ns);
384         if (IS_ERR(sock))
385                 return sock;
386
387         rc = kernel_connect(sock, peeraddr, sizeof(struct sockaddr_in6), 0);
388         if (rc == 0)
389                 return sock;
390
391         /* EADDRNOTAVAIL probably means we're already connected to the same
392          * peer/port on the same local port on a differently typed
393          * connection.  Let our caller retry with a different local
394          * port... */
395
396         CDEBUG_LIMIT(rc == -EADDRNOTAVAIL ? D_NET : D_NETERROR,
397                      "Error %d connecting %d -> %pISp\n", rc,
398                      local_port, peeraddr);
399
400         sock_release(sock);
401         return ERR_PTR(rc);
402 }