Whamcloud - gitweb
af49f93fa84214d04ecd3e399110d95b15e401ad
[fs/lustre-release.git] / lnet / ChangeLog
1 tbd  Sun Microsystems, Inc.
2        * version 1.6.5
3        * Support for networks:
4         socklnd   - any kernel supported by Lustre,
5         qswlnd    - Qsnet kernel modules 5.20 and later,
6         openiblnd - IbGold 1.8.2,
7         o2iblnd   - OFED 1.1 and 1.2.0, 1.2.5
8         viblnd    - Voltaire ibhost 3.4.5 and later,
9         ciblnd    - Topspin 3.2.0,
10         iiblnd    - Infiniserv 3.3 + PathBits patch,
11         gmlnd     - GM 2.1.22 and later,
12         mxlnd     - MX 1.2.1 or later,
13         ptllnd    - Portals 3.3 / UNICOS/lc 1.5.x, 2.0.x
14 Severity   : normal
15 Bugzilla   : 14838
16 Description: ksocklnd fails to establish connection if accept_port is high
17 Details    : PID remapping must not be done for active (outgoing) connections
18
19 --------------------------------------------------------------------------------
20
21 2008-01-11  Sun Microsystems, Inc.
22        * version 1.4.12
23        * Support for networks:
24         socklnd   - any kernel supported by Lustre,
25         qswlnd    - Qsnet kernel modules 5.20 and later,
26         openiblnd - IbGold 1.8.2,
27         o2iblnd   - OFED 1.1 and 1.2.0, 1.2.5
28         viblnd    - Voltaire ibhost 3.4.5 and later,
29         ciblnd    - Topspin 3.2.0,
30         iiblnd    - Infiniserv 3.3 + PathBits patch,
31         gmlnd     - GM 2.1.22 and later,
32         mxlnd     - MX 1.2.1 or later,
33         ptllnd    - Portals 3.3 / UNICOS/lc 1.5.x, 2.0.x
34 Severity   : normal
35 Bugzilla   : 14387
36 Description: liblustre network error
37 Details    : liblustre clients should understand LNET_ACCEPT_PORT environment
38              variable even if they don't start lnet acceptor.
39
40 Severity   : normal
41 Bugzilla   : 14300
42 Description: Strange message from lnet (Ignoring prediction from the future)
43 Details    : Incorrect calculation of peer's last_alive value in ksocklnd
44
45 --------------------------------------------------------------------------------
46
47 2007-12-07         Cluster File Systems, Inc. <info@clusterfs.com>
48        * version 1.6.4
49        * Support for networks:
50         socklnd   - any kernel supported by Lustre,
51         qswlnd    - Qsnet kernel modules 5.20 and later,
52         openiblnd - IbGold 1.8.2,
53         o2iblnd   - OFED 1.1 and 1.2.0, 1.2.5.
54         viblnd    - Voltaire ibhost 3.4.5 and later,
55         ciblnd    - Topspin 3.2.0,
56         iiblnd    - Infiniserv 3.3 + PathBits patch,
57         gmlnd     - GM 2.1.22 and later,
58         mxlnd     - MX 1.2.1 or later,
59         ptllnd    - Portals 3.3 / UNICOS/lc 1.5.x, 2.0.x
60
61 Severity   : normal
62 Bugzilla   : 14238
63 Description: ASSERTION(me == md->md_me) failed in lnet_match_md()
64
65 Severity   : normal
66 Bugzilla   : 12494
67 Description: increase send queue size for ciblnd/openiblnd
68
69 Severity   : normal
70 Bugzilla   : 12302
71 Description: new userspace socklnd
72 Details    : Old userspace tcpnal that resided in lnet/ulnds/socklnd replaced
73              with new one - usocklnd.
74
75 Severity   : enhancement
76 Bugzilla   : 11686
77 Description: Console message flood
78 Details    : Make cdls ratelimiting more tunable by adding several tunable in
79              procfs /proc/sys/lnet/console_{min,max}_delay_centisecs and
80              /proc/sys/lnet/console_backoff.
81
82 --------------------------------------------------------------------------------
83
84 2007-09-27         Cluster File Systems, Inc. <info@clusterfs.com>
85        * version 1.6.3
86        * Support for networks:
87         socklnd   - any kernel supported by Lustre,
88         qswlnd    - Qsnet kernel modules 5.20 and later,
89         openiblnd - IbGold 1.8.2,
90         o2iblnd   - OFED 1.1 and 1.2,
91         viblnd    - Voltaire ibhost 3.4.5 and later,
92         ciblnd    - Topspin 3.2.0,
93         iiblnd    - Infiniserv 3.3 + PathBits patch,
94         gmlnd     - GM 2.1.22 and later,
95         mxlnd     - MX 1.2.1 or later,
96         ptllnd    - Portals 3.3 / UNICOS/lc 1.5.x, 2.0.x
97
98 Severity   : normal
99 Bugzilla   : 12782
100 Description: /proc/sys/lnet has non-sysctl entries
101 Details    : Updating dump_kernel/daemon_file/debug_mb to use sysctl variables
102
103 Severity   : major
104 Bugzilla   : 13236
105 Description: TOE Kernel panic by ksocklnd
106 Details    : offloaded sockets provide their own implementation of sendpage,
107              can't call tcp_sendpage() directly
108
109 Severity   : normal
110 Bugzilla   : 10778
111 Description: kibnal_shutdown() doesn't finish; lconf --cleanup hangs
112 Details    : races between lnd_shutdown and peer creation prevent 
113              lnd_shutdown from finishing.
114
115 Severity   : normal
116 Bugzilla   : 13279
117 Description: open files rlimit 1024 reached while liblustre testing
118 Details    : ulnds/socklnd must close open socket after unsuccessful
119              'say hello' attempt.
120
121 Severity   : major 
122 Bugzilla   : 13482
123 Description: build error
124 Details    : fix typos in gmlnd, ptllnd and viblnd
125
126 ------------------------------------------------------------------------------
127
128 2007-07-30  Cluster File Systems, Inc. <info@clusterfs.com>
129        * version 1.6.1
130        * Support for networks:
131         socklnd   - kernels up to 2.6.16,
132         qswlnd    - Qsnet kernel modules 5.20 and later,
133         openiblnd - IbGold 1.8.2,
134         o2iblnd   - OFED 1.1 and 1.2
135         viblnd    - Voltaire ibhost 3.4.5 and later,
136         ciblnd    - Topspin 3.2.0,
137         iiblnd    - Infiniserv 3.3 + PathBits patch,
138         gmlnd     - GM 2.1.22 and later,
139         mxlnd     - MX 1.2.1 or later,
140         ptllnd    - Portals 3.3 / UNICOS/lc 1.5.x, 2.0.x
141
142 2007-06-21  Cluster File Systems, Inc. <info@clusterfs.com>
143        * version 1.4.11
144        * Support for networks:
145         socklnd   - kernels up to 2.6.16,
146         qswlnd    - Qsnet kernel modules 5.20 and later,
147         openiblnd - IbGold 1.8.2,
148         o2iblnd   - OFED 1.1
149         viblnd    - Voltaire ibhost 3.4.5 and later,
150         ciblnd    - Topspin 3.2.0,
151         iiblnd    - Infiniserv 3.3 + PathBits patch,
152         gmlnd     - GM 2.1.22 and later,
153         mxlnd     - MX 1.2.1 or later,
154         ptllnd    - Portals 3.3 / UNICOS/lc 1.5.x, 2.0.x
155
156 Severity   : minor
157 Bugzilla   : 13288
158 Description: Initialize cpumask before use
159
160 Severity   : major
161 Bugzilla   : 12014
162 Description: ASSERTION failures when upgrading to the patchless zero-copy
163              socklnd 
164 Details    : This bug affects "rolling upgrades", causing an inconsistent
165              protocol version negotiation and subsequent assertion failure
166              during rolling upgrades after the first wave of upgrades.
167
168 Severity   : minor
169 Bugzilla   : 11223
170 Details    : Change "dropped message" CERRORs to D_NETERROR so they are
171              logged instead of creating "console chatter" when a lustre
172              timeout races with normal RPC completion.
173
174 Severity   : minor
175 Details    : lnet_clear_peer_table can wait forever if user forgets to
176              clear a lazy portal.
177
178 Severity   : minor
179 Details    : libcfs_id2str should check pid against LNET_PID_ANY.
180
181 Severity   : major
182 Bugzilla   : 10916
183 Description: added LNET self test
184 Details    : landing b_self_test
185
186 Severity   : minor
187 Frequency  : rare
188 Bugzilla   : 12227
189 Description: cfs_duration_{u,n}sec() wrongly calculate nanosecond part of
190              struct timeval.
191 Details    : do_div() macro is used incorrectly.
192
193 2007-04-23  Cluster File Systems, Inc. <info@clusterfs.com>
194
195 Severity   : normal
196 Bugzilla   : 11680
197 Description: make panic on lbug configurable
198
199 Severity   : major
200 Bugzilla   : 12316
201 Description: Add OFED1.2 support to o2iblnd
202 Details    : o2iblnd depends on OFED's modules, if out-tree OFED's modules
203              are installed (other than kernel's in-tree infiniband), there
204              could be some problem while insmod o2iblnd (mismatch CRC of 
205              ib_* symbols).
206              If extra Module.symvers is supported in kernel (i.e, 2.6.17),
207              this link provides solution:
208              https://bugs.openfabrics.org/show_bug.cgi?id=355
209              if extra Module.symvers is not supported in kernel, we will
210              have to run the script in bug 12316 to update
211              $LINUX/module.symvers before building o2iblnd.
212              More details about this are in bug 12316.
213
214 ------------------------------------------------------------------------------
215
216 2007-04-01  Cluster File Systems, Inc. <info@clusterfs.com>
217        * version 1.4.10 / 1.6.0
218        * Support for networks:
219         socklnd   - kernels up to 2.6.16,
220         qswlnd    - Qsnet kernel modules 5.20 and later,
221         openiblnd - IbGold 1.8.2,
222         o2iblnd   - OFED 1.1,
223         viblnd    - Voltaire ibhost 3.4.5 and later,
224         ciblnd    - Topspin 3.2.0,
225         iiblnd    - Infiniserv 3.3 + PathBits patch,
226         gmlnd     - GM 2.1.22 and later,
227         mxlnd     - MX 1.2.1 or later,
228         ptllnd    - Portals 3.3 / UNICOS/lc 1.5.x, 2.0.x
229         
230 Severity   : minor
231 Frequency  : rare
232 Description: Ptllnd didn't init kptllnd_data.kptl_idle_txs before it could be
233              possibly accessed in kptllnd_shutdown. Ptllnd should init 
234              kptllnd_data.kptl_ptlid2str_lock before calling kptllnd_ptlid2str.
235
236 Severity   : normal
237 Frequency  : rare
238 Description: gmlnd ignored some transmit errors when finalizing lnet messages.
239
240 Severity   : minor
241 Frequency  : rare
242 Description: ptllnd logs a piece of incorrect debug info in kptllnd_peer_handle_hello.
243
244 Severity   : minor
245 Frequency  : rare
246 Description: the_lnet.ln_finalizing was not set when the current thread is
247              about to complete messages. It only affects multi-threaded 
248              user space LNet.
249         
250 Severity   : normal
251 Frequency  : rare
252 Bugzilla   : 11472
253 Description: Changed the default kqswlnd ntxmsg=512
254         
255 Severity   : major
256 Frequency  : rare
257 Bugzilla   : 12458
258 Description: Assertion failure in kernel ptllnd caused by posting passive
259              bulk buffers before connection establishment complete.
260         
261 Severity   : major
262 Frequency  : rare
263 Bugzilla   : 12445
264 Description: A race in kernel ptllnd between deleting a peer and posting
265              new communications for it could hang communications -
266              manifesting as "Unexpectedly long timeout" messages.
267         
268 Severity   : major
269 Frequency  : rare
270 Bugzilla   : 12432
271 Description: Kernel ptllnd lock ordering issue could hang a node.
272         
273 Severity   : major
274 Frequency  : rare
275 Bugzilla   : 12016
276 Description: node crash on socket teardown race
277
278 Severity   : minor
279 Frequency  : 'lctl peer_list' issued on a mx net
280 Bugzilla   : 12237
281 Description: Enable lctl's peer_list for MXLND
282
283 Severity   : major
284 Frequency  : after Ptllnd timeouts and portals congestion
285 Bugzilla   : 11659
286 Description: Credit overflows
287 Details    : This was a bug in ptllnd connection establishment.  The fix
288              implements better peer stamps to disambiguate connection
289              establishment and ensure both peers enter the credit flow
290              state machine consistently.
291
292 Severity   : major
293 Frequency  : rare       
294 Bugzilla   : 11394
295 Description: kptllnd didn't propagate some network errors up to LNET 
296 Details    : This bug was spotted while investigating 11394.  The fix
297              ensures network errors on sends and bulk transfers are
298              propagated to LNET/lustre correctly.
299
300 Severity   : enhancement
301 Bugzilla   : 10316
302 Description: Fixed console chatter in case of -ETIMEDOUT.
303
304 Severity   : enhancement
305 Bugzilla   : 11684
306 Description: Added D_NETTRACE for recording network packet history
307              (initially only for ptllnd).  Also a separate userspace
308              ptllnd facility to gather history which should really be
309              covered by D_NETTRACE too, if only CDEBUG recorded history in
310              userspace.
311
312 Severity   : major
313 Frequency  : rare       
314 Bugzilla   : 11616
315 Description: o2iblnd handle early RDMA_CM_EVENT_DISCONNECTED.
316 Details    : If the fabric is lossy, an RDMA_CM_EVENT_DISCONNECTED
317              callback can occur before a connection has actually been
318              established.  This caused an assertion failure previously.
319
320 Severity   : enhancement
321 Bugzilla   : 11094
322 Description: Multiple instances for o2iblnd
323 Details    : Allow multiple instances of o2iblnd to enable networking over
324              multiple HCAs and routing between them.
325
326 Severity   : major
327 Bugzilla   : 11201
328 Description: lnet deadlock in router_checker
329 Details    : turned ksnd_connd_lock, ksnd_reaper_lock, and ksock_net_t:ksnd_lock
330              into BH locks to eliminate potential deadlock caused by
331              ksocknal_data_ready() preempting code holding these locks.
332
333 Severity   : major
334 Bugzilla   : 11126
335 Description: Millions of failed socklnd connection attempts cause a very slow FS
336 Details    : added a new route flag ksnr_scheduled to distinguish from
337              ksnr_connecting, so that a peer connection request is only turned
338              down for race concerns when an active connection to the same peer
339              is under progress (instead of just being scheduled).
340
341 ------------------------------------------------------------------------------
342
343 2007-02-09  Cluster File Systems, Inc. <info@clusterfs.com>
344        * version 1.4.9
345        * Support for networks:
346         socklnd   - kernels up to 2.6.16
347         qswlnd    - Qsnet kernel modules 5.20 and later
348         openiblnd - IbGold 1.8.2
349         o2iblnd   - OFED 1.1
350         viblnd    - Voltaire ibhost 3.4.5 and later
351         ciblnd    - Topspin 3.2.0
352         iiblnd    - Infiniserv 3.3 + PathBits patch
353         gmlnd     - GM 2.1.22 and later
354         mxlnd     - MX 1.2.1 or later
355         ptllnd    - Portals 3.3 / UNICOS/lc 1.5.x, 2.0.x
356        * bug fixes
357
358 Severity   : major on XT3
359 Bugzilla   : none
360 Description: libcfs overwrites /proc/sys/portals
361 Details    : libcfs created a symlink from /proc/sys/portals to
362              /proc/sys/lnet for backwards compatibility.  This is no
363              longer required and makes the Cray portals /proc variables
364              inaccessible.
365
366 Severity   : minor
367 Bugzilla   : 11312
368 Description: OFED FMR API change
369 Details    : This changes parameter usage to reflect a change in
370              ib_fmr_pool_map_phys() between OFED 1.0 and OFED 1.1.  Note
371              that FMR support is only used in experimental versions of the
372              o2iblnd - this change does not affect standard usage at all.
373
374 Severity   : enhancement
375 Bugzilla   : 11245
376 Description: new ko2iblnd module parameter: ib_mtu
377 Details    : the default IB MTU of 2048 performs badly on 23108 Tavor
378              HCAs.  You can avoid this problem by setting the MTU to 1024
379              using this module parameter.
380
381 Severity   : enhancement
382 Bugzilla   : 11118/11620
383 Description: ptllnd small request message buffer alignment fix
384 Details    : Set the PTL_MD_LOCAL_ALIGN8 option on small message receives.
385              Round up small message size on sends in case this option
386              is not supported.  11620 was a defect in the initial
387              implementation which effectively asserted all peers had to be
388              running the correct protocol version which was fixed by always
389              NAK-ing such requests and handling any misalignments they
390              introduce.
391
392 Severity   : minor
393 Frequency  : rarely
394 Description: When kib(nal|lnd)_del_peer() is called upon a peer whose
395              ibp_tx_queue is not empty, kib(nal|lnd)_destroy_peer()'s
396              'LASSERT(list_empty(&peer->ibp_tx_queue))' will fail.
397
398 Severity   : enhancement
399 Bugzilla   : 11250
400 Description: Patchless ZC(zero copy) socklnd
401 Details    : New protocol for socklnd, socklnd can support zero copy without
402              kernel patch, it's compatible with old socklnd. Checksum is 
403              moved from tunables to modparams.
404
405 Severity   : minor
406 Frequency  : rarely
407 Description: When ksocknal_del_peer() is called upon a peer whose
408              ksnp_tx_queue is not empty, ksocknal_destroy_peer()'s
409              'LASSERT(list_empty(&peer->ksnp_tx_queue))' will fail.
410
411 Severity   : normal
412 Frequency  : when ptlrpc is under heavy use and runs out of request buffer
413 Bugzilla   : 11318
414 Description: In lnet_match_blocked_msg(), md can be used without holding a
415              ref on it.
416
417 Severity   : minor
418 Frequency  : very rarely
419 Bugzilla   : 10727
420 Description: If ksocknal_lib_setup_sock() fails, a ref on peer is lost.
421              If connd connects a route which has been closed by
422              ksocknal_shutdown(), ksocknal_create_routes() may create new
423              routes which hold references on the peer, causing shutdown
424              process to wait for peer to disappear forever.
425
426 Severity   : enhancement
427 Bugzilla   : 11234
428 Description: Dump XT3 portals traces on kptllnd timeout
429 Details    : Set the kptllnd module parameter "ptltrace_on_timeout=1" to
430              dump Cray portals debug traces to a file.  The kptllnd module
431              parameter "ptltrace_basename", default "/tmp/lnet-ptltrace",
432              is the basename of the dump file.
433
434 Severity   : major
435 Frequency  : infrequent
436 Bugzilla   : 11308
437 Description: kernel ptllnd fix bug in connection re-establishment
438 Details    : Kernel ptllnd could produce protocol errors e.g. illegal
439              matchbits and/or violate the credit flow protocol when trying
440              to re-establish a connection with a peer after an error or
441              timeout. 
442
443 Severity   : enhancement
444 Bugzilla   : 10316
445 Description: Allow /proc/sys/lnet/debug to be set symbolically
446 Details    : Allow debug and subsystem debug values to be read/set by name
447              in addition to numerically, for ease of use.
448
449 Severity   : normal
450 Frequency  : only in configurations with LNET routers
451 Bugzilla   : 10316
452 Description: routes automatically marked down and recovered
453 Details    : In configurations with LNET routers if a router fails routers
454              now actively try to recover routes that are down, unless they
455              are marked down by an administrator.
456
457 ------------------------------------------------------------------------------
458
459 2006-12-09  Cluster File Systems, Inc. <info@clusterfs.com>
460
461 Severity   : critical
462 Frequency  : very rarely, in configurations with LNET routers and TCP
463 Bugzilla   : 10889
464 Description: incorrect data written to files on OSTs
465 Details    : In certain high-load conditions incorrect data may be written
466              to files on the OST when using TCP networks.
467
468 ------------------------------------------------------------------------------
469
470 2006-07-31  Cluster File Systems, Inc. <info@clusterfs.com>
471         * version 1.4.7
472         - rework CDEBUG messages rate-limiting mechanism b=10375
473         - add per-socket tunables for socklnd if the kernel is patched b=10327
474
475 ------------------------------------------------------------------------------
476
477 2006-02-15  Cluster File Systems, Inc. <info@clusterfs.com>
478         * version 1.4.6
479         - fix use of portals/lnet pid to avoid dropping RPCs b=10074
480         - iiblnd wasn't mapping all memory, resulting in comms errors b=9776
481         - quiet LNET startup LNI message for liblustre b=10128
482         - Better console error messages if 'ip2nets' can't match an IP address
483         - Fixed overflow/use-before-set bugs in linux-time.h
484         - Fixed ptllnd bug that wasn't initialising rx descriptors completely
485         - LNET teardown failed an assertion about the route table being empty
486         - Fixed a crash in LNetEQPoll(<invalid handle>)
487         - Future protocol compatibility work (b_rls146_lnetprotovrsn)
488         - improve debug message for liblustre/Catamount nodes (b=10116)
489
490 2005-10-10  Cluster File Systems, Inc. <info@clusterfs.com>
491         * Configuration change for the XT3
492              The PTLLND is now used to run Lustre over Portals on the XT3.
493              The configure option(s) --with-cray-portals are no longer
494              used.  Rather --with-portals=<path-to-portals-includes> is
495              used to enable building on the XT3.  In addition to enable
496              XT3 specific features the option --enable-cray-xt3 must be
497              used.
498
499 2005-10-10  Cluster File Systems, Inc. <info@clusterfs.com>
500         * Portals has been removed, replaced by LNET.
501            LNET is new networking infrastructure for Lustre, it includes a
502            reorganized network configuration mode (see the user
503            documentation for full details) as well as support for routing
504            between different network fabrics.  Lustre Networking Devices
505            (LNDS) for the supported network fabrics have also been created
506            for this new infrastructure.
507
508 2005-08-08  Cluster File Systems, Inc. <info@clusterfs.com>
509        * version 1.4.4
510        * bug fixes
511
512 Severity   : major
513 Frequency  : rare (large Voltaire clusters only)
514 Bugzilla   : 6993
515 Description: the default number of reserved transmit descriptors was too low
516              for some large clusters
517 Details    : As a workaround, the number was increased.  A proper fix includes
518              a run-time tunable.
519
520 2005-06-02  Cluster File Systems, Inc. <info@clusterfs.com>
521        * version 1.4.3
522        * bug fixes
523
524 Severity   : major
525 Frequency  : occasional (large-scale events, cluster reboot, network failure)
526 Bugzilla   : 6411
527 Description: too many error messages on console obscure actual problem and
528              can slow down/panic server, or cause recovery to fail repeatedly
529 Details    : enable rate-limiting of console error messages, and some messages
530              that were console errors now only go to the kernel log
531
532 Severity   : enhancement
533 Bugzilla   : 1693
534 Description: add /proc/sys/portals/catastrophe entry which will report if
535              that node has previously LBUGged
536
537 2005-04-06  Cluster File Systems, Inc. <info@clusterfs.com>
538        * bugs
539         - update gmnal to use PTL_MTU, fix module refcounting (b=5786)
540
541 2005-04-04  Cluster File Systems, Inc. <info@clusterfs.com>
542        * bugs
543         - handle error return code in kranal_check_fma_rx() (5915,6054)
544
545 2005-02-04  Cluster File Systems, Inc. <info@clusterfs.com>
546        * miscellania
547         - update vibnal (Voltaire IB NAL)
548         - update gmnal (Myrinet NAL), gmnalid
549
550 2005-02-04  Eric Barton  <eeb@bartonsoftware.com>
551
552         * Landed portals:b_port_step as follows...
553
554           - removed CFS_DECL_SPIN* 
555             just use 'spinlock_t' and initialise with spin_lock_init()
556
557           - removed CFS_DECL_MUTEX*
558             just use 'struct semaphore' and initialise with init_mutex()
559
560           - removed CFS_DECL_RWSEM*
561             just use 'struct rw_semaphore' and initialise with init_rwsem()
562
563           - renamed cfs_sleep_chan -> cfs_waitq
564                     cfs_sleep_link -> cfs_waitlink
565
566           - fixed race in linux version of arch-independent socknal
567             (the ENOMEM/EAGAIN decision).
568
569           - Didn't fix problems in Darwin version of arch-independent socknal
570             (resetting socket callbacks, eager ack hack, ENOMEM/EAGAIN decision)
571
572           - removed libcfs types from non-socknal header files (only some types
573             in the header files had been changed; the .c files hadn't been
574             updated at all).