Whamcloud - gitweb
Branch b1_4
[fs/lustre-release.git] / lnet / ChangeLog
1 tbd  Sun Microsystems, Inc.
2        * version 1.6.5
3        * Support for networks:
4         socklnd   - any kernel supported by Lustre,
5         qswlnd    - Qsnet kernel modules 5.20 and later,
6         openiblnd - IbGold 1.8.2,
7         o2iblnd   - OFED 1.1 and 1.2.0, 1.2.5
8         viblnd    - Voltaire ibhost 3.4.5 and later,
9         ciblnd    - Topspin 3.2.0,
10         iiblnd    - Infiniserv 3.3 + PathBits patch,
11         gmlnd     - GM 2.1.22 and later,
12         mxlnd     - MX 1.2.1 or later,
13         ptllnd    - Portals 3.3 / UNICOS/lc 1.5.x, 2.0.x
14
15 --------------------------------------------------------------------------------
16
17 2008-01-09         Cluster File Systems, Inc. <info@clusterfs.com>
18        * version 1.4.12
19        * Support for networks:
20         socklnd   - any kernel supported by Lustre,
21         qswlnd    - Qsnet kernel modules 5.20 and later,
22         openiblnd - IbGold 1.8.2,
23         o2iblnd   - OFED 1.1 and 1.2.0, 1.2.5
24         viblnd    - Voltaire ibhost 3.4.5 and later,
25         ciblnd    - Topspin 3.2.0,
26         iiblnd    - Infiniserv 3.3 + PathBits patch,
27         gmlnd     - GM 2.1.22 and later,
28         mxlnd     - MX 1.2.1 or later,
29         ptllnd    - Portals 3.3 / UNICOS/lc 1.5.x, 2.0.x
30 Severity   : normal
31 Bugzilla   : 14387
32 Description: liblustre network error
33 Details    : liblustre clients should understand LNET_ACCEPT_PORT environment
34              variable even if they don't start lnet acceptor.
35
36 Severity   : normal
37 Bugzilla   : 14300
38 Description: Strange message from lnet (Ignoring prediction from the future)
39 Details    : Incorrect calculation of peer's last_alive value in ksocklnd
40
41 --------------------------------------------------------------------------------
42
43 2007-12-07         Cluster File Systems, Inc. <info@clusterfs.com>
44        * version 1.6.4
45        * Support for networks:
46         socklnd   - any kernel supported by Lustre,
47         qswlnd    - Qsnet kernel modules 5.20 and later,
48         openiblnd - IbGold 1.8.2,
49         o2iblnd   - OFED 1.1 and 1.2.0, 1.2.5.
50         viblnd    - Voltaire ibhost 3.4.5 and later,
51         ciblnd    - Topspin 3.2.0,
52         iiblnd    - Infiniserv 3.3 + PathBits patch,
53         gmlnd     - GM 2.1.22 and later,
54         mxlnd     - MX 1.2.1 or later,
55         ptllnd    - Portals 3.3 / UNICOS/lc 1.5.x, 2.0.x
56
57 Severity   : normal
58 Bugzilla   : 14238
59 Description: ASSERTION(me == md->md_me) failed in lnet_match_md()
60
61 Severity   : normal
62 Bugzilla   : 12494
63 Description: increase send queue size for ciblnd/openiblnd
64
65 Severity   : normal
66 Bugzilla   : 12302
67 Description: new userspace socklnd
68 Details    : Old userspace tcpnal that resided in lnet/ulnds/socklnd replaced
69              with new one - usocklnd.
70
71 Severity   : enhancement
72 Bugzilla   : 11686
73 Description: Console message flood
74 Details    : Make cdls ratelimiting more tunable by adding several tunable in
75              procfs /proc/sys/lnet/console_{min,max}_delay_centisecs and
76              /proc/sys/lnet/console_backoff.
77
78 --------------------------------------------------------------------------------
79
80 2007-09-27         Cluster File Systems, Inc. <info@clusterfs.com>
81        * version 1.6.3
82        * Support for networks:
83         socklnd   - any kernel supported by Lustre,
84         qswlnd    - Qsnet kernel modules 5.20 and later,
85         openiblnd - IbGold 1.8.2,
86         o2iblnd   - OFED 1.1 and 1.2,
87         viblnd    - Voltaire ibhost 3.4.5 and later,
88         ciblnd    - Topspin 3.2.0,
89         iiblnd    - Infiniserv 3.3 + PathBits patch,
90         gmlnd     - GM 2.1.22 and later,
91         mxlnd     - MX 1.2.1 or later,
92         ptllnd    - Portals 3.3 / UNICOS/lc 1.5.x, 2.0.x
93
94 Severity   : normal
95 Bugzilla   : 12782
96 Description: /proc/sys/lnet has non-sysctl entries
97 Details    : Updating dump_kernel/daemon_file/debug_mb to use sysctl variables
98
99 Severity   : major
100 Bugzilla   : 13236
101 Description: TOE Kernel panic by ksocklnd
102 Details    : offloaded sockets provide their own implementation of sendpage,
103              can't call tcp_sendpage() directly
104
105 Severity   : normal
106 Bugzilla   : 10778
107 Description: kibnal_shutdown() doesn't finish; lconf --cleanup hangs
108 Details    : races between lnd_shutdown and peer creation prevent 
109              lnd_shutdown from finishing.
110
111 Severity   : normal
112 Bugzilla   : 13279
113 Description: open files rlimit 1024 reached while liblustre testing
114 Details    : ulnds/socklnd must close open socket after unsuccessful
115              'say hello' attempt.
116
117 Severity   : major 
118 Bugzilla   : 13482
119 Description: build error
120 Details    : fix typos in gmlnd, ptllnd and viblnd
121
122 ------------------------------------------------------------------------------
123
124 2007-07-30  Cluster File Systems, Inc. <info@clusterfs.com>
125        * version 1.6.1
126        * Support for networks:
127         socklnd   - kernels up to 2.6.16,
128         qswlnd    - Qsnet kernel modules 5.20 and later,
129         openiblnd - IbGold 1.8.2,
130         o2iblnd   - OFED 1.1 and 1.2
131         viblnd    - Voltaire ibhost 3.4.5 and later,
132         ciblnd    - Topspin 3.2.0,
133         iiblnd    - Infiniserv 3.3 + PathBits patch,
134         gmlnd     - GM 2.1.22 and later,
135         mxlnd     - MX 1.2.1 or later,
136         ptllnd    - Portals 3.3 / UNICOS/lc 1.5.x, 2.0.x
137
138 2007-06-21  Cluster File Systems, Inc. <info@clusterfs.com>
139        * version 1.4.11
140        * Support for networks:
141         socklnd   - kernels up to 2.6.16,
142         qswlnd    - Qsnet kernel modules 5.20 and later,
143         openiblnd - IbGold 1.8.2,
144         o2iblnd   - OFED 1.1
145         viblnd    - Voltaire ibhost 3.4.5 and later,
146         ciblnd    - Topspin 3.2.0,
147         iiblnd    - Infiniserv 3.3 + PathBits patch,
148         gmlnd     - GM 2.1.22 and later,
149         mxlnd     - MX 1.2.1 or later,
150         ptllnd    - Portals 3.3 / UNICOS/lc 1.5.x, 2.0.x
151
152 Severity   : minor
153 Bugzilla   : 13288
154 Description: Initialize cpumask before use
155
156 Severity   : major
157 Bugzilla   : 12014
158 Description: ASSERTION failures when upgrading to the patchless zero-copy
159              socklnd 
160 Details    : This bug affects "rolling upgrades", causing an inconsistent
161              protocol version negotiation and subsequent assertion failure
162              during rolling upgrades after the first wave of upgrades.
163
164 Severity   : minor
165 Bugzilla   : 11223
166 Details    : Change "dropped message" CERRORs to D_NETERROR so they are
167              logged instead of creating "console chatter" when a lustre
168              timeout races with normal RPC completion.
169
170 Severity   : minor
171 Details    : lnet_clear_peer_table can wait forever if user forgets to
172              clear a lazy portal.
173
174 Severity   : minor
175 Details    : libcfs_id2str should check pid against LNET_PID_ANY.
176
177 Severity   : major
178 Bugzilla   : 10916
179 Description: added LNET self test
180 Details    : landing b_self_test
181
182 Severity   : minor
183 Frequency  : rare
184 Bugzilla   : 12227
185 Description: cfs_duration_{u,n}sec() wrongly calculate nanosecond part of
186              struct timeval.
187 Details    : do_div() macro is used incorrectly.
188
189 2007-04-23  Cluster File Systems, Inc. <info@clusterfs.com>
190
191 Severity   : normal
192 Bugzilla   : 11680
193 Description: make panic on lbug configurable
194
195 Severity   : major
196 Bugzilla   : 12316
197 Description: Add OFED1.2 support to o2iblnd
198 Details    : o2iblnd depends on OFED's modules, if out-tree OFED's modules
199              are installed (other than kernel's in-tree infiniband), there
200              could be some problem while insmod o2iblnd (mismatch CRC of 
201              ib_* symbols).
202              If extra Module.symvers is supported in kernel (i.e, 2.6.17),
203              this link provides solution:
204              https://bugs.openfabrics.org/show_bug.cgi?id=355
205              if extra Module.symvers is not supported in kernel, we will
206              have to run the script in bug 12316 to update
207              $LINUX/module.symvers before building o2iblnd.
208              More details about this are in bug 12316.
209
210 ------------------------------------------------------------------------------
211
212 2007-04-01  Cluster File Systems, Inc. <info@clusterfs.com>
213        * version 1.4.10 / 1.6.0
214        * Support for networks:
215         socklnd   - kernels up to 2.6.16,
216         qswlnd    - Qsnet kernel modules 5.20 and later,
217         openiblnd - IbGold 1.8.2,
218         o2iblnd   - OFED 1.1,
219         viblnd    - Voltaire ibhost 3.4.5 and later,
220         ciblnd    - Topspin 3.2.0,
221         iiblnd    - Infiniserv 3.3 + PathBits patch,
222         gmlnd     - GM 2.1.22 and later,
223         mxlnd     - MX 1.2.1 or later,
224         ptllnd    - Portals 3.3 / UNICOS/lc 1.5.x, 2.0.x
225         
226 Severity   : minor
227 Frequency  : rare
228 Description: Ptllnd didn't init kptllnd_data.kptl_idle_txs before it could be
229              possibly accessed in kptllnd_shutdown. Ptllnd should init 
230              kptllnd_data.kptl_ptlid2str_lock before calling kptllnd_ptlid2str.
231
232 Severity   : normal
233 Frequency  : rare
234 Description: gmlnd ignored some transmit errors when finalizing lnet messages.
235
236 Severity   : minor
237 Frequency  : rare
238 Description: ptllnd logs a piece of incorrect debug info in kptllnd_peer_handle_hello.
239
240 Severity   : minor
241 Frequency  : rare
242 Description: the_lnet.ln_finalizing was not set when the current thread is
243              about to complete messages. It only affects multi-threaded 
244              user space LNet.
245         
246 Severity   : normal
247 Frequency  : rare
248 Bugzilla   : 11472
249 Description: Changed the default kqswlnd ntxmsg=512
250         
251 Severity   : major
252 Frequency  : rare
253 Bugzilla   : 12458
254 Description: Assertion failure in kernel ptllnd caused by posting passive
255              bulk buffers before connection establishment complete.
256         
257 Severity   : major
258 Frequency  : rare
259 Bugzilla   : 12445
260 Description: A race in kernel ptllnd between deleting a peer and posting
261              new communications for it could hang communications -
262              manifesting as "Unexpectedly long timeout" messages.
263         
264 Severity   : major
265 Frequency  : rare
266 Bugzilla   : 12432
267 Description: Kernel ptllnd lock ordering issue could hang a node.
268         
269 Severity   : major
270 Frequency  : rare
271 Bugzilla   : 12016
272 Description: node crash on socket teardown race
273
274 Severity   : minor
275 Frequency  : 'lctl peer_list' issued on a mx net
276 Bugzilla   : 12237
277 Description: Enable lctl's peer_list for MXLND
278
279 Severity   : major
280 Frequency  : after Ptllnd timeouts and portals congestion
281 Bugzilla   : 11659
282 Description: Credit overflows
283 Details    : This was a bug in ptllnd connection establishment.  The fix
284              implements better peer stamps to disambiguate connection
285              establishment and ensure both peers enter the credit flow
286              state machine consistently.
287
288 Severity   : major
289 Frequency  : rare       
290 Bugzilla   : 11394
291 Description: kptllnd didn't propagate some network errors up to LNET 
292 Details    : This bug was spotted while investigating 11394.  The fix
293              ensures network errors on sends and bulk transfers are
294              propagated to LNET/lustre correctly.
295
296 Severity   : enhancement
297 Bugzilla   : 10316
298 Description: Fixed console chatter in case of -ETIMEDOUT.
299
300 Severity   : enhancement
301 Bugzilla   : 11684
302 Description: Added D_NETTRACE for recording network packet history
303              (initially only for ptllnd).  Also a separate userspace
304              ptllnd facility to gather history which should really be
305              covered by D_NETTRACE too, if only CDEBUG recorded history in
306              userspace.
307
308 Severity   : major
309 Frequency  : rare       
310 Bugzilla   : 11616
311 Description: o2iblnd handle early RDMA_CM_EVENT_DISCONNECTED.
312 Details    : If the fabric is lossy, an RDMA_CM_EVENT_DISCONNECTED
313              callback can occur before a connection has actually been
314              established.  This caused an assertion failure previously.
315
316 Severity   : enhancement
317 Bugzilla   : 11094
318 Description: Multiple instances for o2iblnd
319 Details    : Allow multiple instances of o2iblnd to enable networking over
320              multiple HCAs and routing between them.
321
322 Severity   : major
323 Bugzilla   : 11201
324 Description: lnet deadlock in router_checker
325 Details    : turned ksnd_connd_lock, ksnd_reaper_lock, and ksock_net_t:ksnd_lock
326              into BH locks to eliminate potential deadlock caused by
327              ksocknal_data_ready() preempting code holding these locks.
328
329 Severity   : major
330 Bugzilla   : 11126
331 Description: Millions of failed socklnd connection attempts cause a very slow FS
332 Details    : added a new route flag ksnr_scheduled to distinguish from
333              ksnr_connecting, so that a peer connection request is only turned
334              down for race concerns when an active connection to the same peer
335              is under progress (instead of just being scheduled).
336
337 ------------------------------------------------------------------------------
338
339 2007-02-09  Cluster File Systems, Inc. <info@clusterfs.com>
340        * version 1.4.9
341        * Support for networks:
342         socklnd   - kernels up to 2.6.16
343         qswlnd    - Qsnet kernel modules 5.20 and later
344         openiblnd - IbGold 1.8.2
345         o2iblnd   - OFED 1.1
346         viblnd    - Voltaire ibhost 3.4.5 and later
347         ciblnd    - Topspin 3.2.0
348         iiblnd    - Infiniserv 3.3 + PathBits patch
349         gmlnd     - GM 2.1.22 and later
350         mxlnd     - MX 1.2.1 or later
351         ptllnd    - Portals 3.3 / UNICOS/lc 1.5.x, 2.0.x
352        * bug fixes
353
354 Severity   : major on XT3
355 Bugzilla   : none
356 Description: libcfs overwrites /proc/sys/portals
357 Details    : libcfs created a symlink from /proc/sys/portals to
358              /proc/sys/lnet for backwards compatibility.  This is no
359              longer required and makes the Cray portals /proc variables
360              inaccessible.
361
362 Severity   : minor
363 Bugzilla   : 11312
364 Description: OFED FMR API change
365 Details    : This changes parameter usage to reflect a change in
366              ib_fmr_pool_map_phys() between OFED 1.0 and OFED 1.1.  Note
367              that FMR support is only used in experimental versions of the
368              o2iblnd - this change does not affect standard usage at all.
369
370 Severity   : enhancement
371 Bugzilla   : 11245
372 Description: new ko2iblnd module parameter: ib_mtu
373 Details    : the default IB MTU of 2048 performs badly on 23108 Tavor
374              HCAs.  You can avoid this problem by setting the MTU to 1024
375              using this module parameter.
376
377 Severity   : enhancement
378 Bugzilla   : 11118/11620
379 Description: ptllnd small request message buffer alignment fix
380 Details    : Set the PTL_MD_LOCAL_ALIGN8 option on small message receives.
381              Round up small message size on sends in case this option
382              is not supported.  11620 was a defect in the initial
383              implementation which effectively asserted all peers had to be
384              running the correct protocol version which was fixed by always
385              NAK-ing such requests and handling any misalignments they
386              introduce.
387
388 Severity   : minor
389 Frequency  : rarely
390 Description: When kib(nal|lnd)_del_peer() is called upon a peer whose
391              ibp_tx_queue is not empty, kib(nal|lnd)_destroy_peer()'s
392              'LASSERT(list_empty(&peer->ibp_tx_queue))' will fail.
393
394 Severity   : enhancement
395 Bugzilla   : 11250
396 Description: Patchless ZC(zero copy) socklnd
397 Details    : New protocol for socklnd, socklnd can support zero copy without
398              kernel patch, it's compatible with old socklnd. Checksum is 
399              moved from tunables to modparams.
400
401 Severity   : minor
402 Frequency  : rarely
403 Description: When ksocknal_del_peer() is called upon a peer whose
404              ksnp_tx_queue is not empty, ksocknal_destroy_peer()'s
405              'LASSERT(list_empty(&peer->ksnp_tx_queue))' will fail.
406
407 Severity   : normal
408 Frequency  : when ptlrpc is under heavy use and runs out of request buffer
409 Bugzilla   : 11318
410 Description: In lnet_match_blocked_msg(), md can be used without holding a
411              ref on it.
412
413 Severity   : minor
414 Frequency  : very rarely
415 Bugzilla   : 10727
416 Description: If ksocknal_lib_setup_sock() fails, a ref on peer is lost.
417              If connd connects a route which has been closed by
418              ksocknal_shutdown(), ksocknal_create_routes() may create new
419              routes which hold references on the peer, causing shutdown
420              process to wait for peer to disappear forever.
421
422 Severity   : enhancement
423 Bugzilla   : 11234
424 Description: Dump XT3 portals traces on kptllnd timeout
425 Details    : Set the kptllnd module parameter "ptltrace_on_timeout=1" to
426              dump Cray portals debug traces to a file.  The kptllnd module
427              parameter "ptltrace_basename", default "/tmp/lnet-ptltrace",
428              is the basename of the dump file.
429
430 Severity   : major
431 Frequency  : infrequent
432 Bugzilla   : 11308
433 Description: kernel ptllnd fix bug in connection re-establishment
434 Details    : Kernel ptllnd could produce protocol errors e.g. illegal
435              matchbits and/or violate the credit flow protocol when trying
436              to re-establish a connection with a peer after an error or
437              timeout. 
438
439 Severity   : enhancement
440 Bugzilla   : 10316
441 Description: Allow /proc/sys/lnet/debug to be set symbolically
442 Details    : Allow debug and subsystem debug values to be read/set by name
443              in addition to numerically, for ease of use.
444
445 Severity   : normal
446 Frequency  : only in configurations with LNET routers
447 Bugzilla   : 10316
448 Description: routes automatically marked down and recovered
449 Details    : In configurations with LNET routers if a router fails routers
450              now actively try to recover routes that are down, unless they
451              are marked down by an administrator.
452
453 ------------------------------------------------------------------------------
454
455 2006-12-09  Cluster File Systems, Inc. <info@clusterfs.com>
456
457 Severity   : critical
458 Frequency  : very rarely, in configurations with LNET routers and TCP
459 Bugzilla   : 10889
460 Description: incorrect data written to files on OSTs
461 Details    : In certain high-load conditions incorrect data may be written
462              to files on the OST when using TCP networks.
463
464 ------------------------------------------------------------------------------
465
466 2006-07-31  Cluster File Systems, Inc. <info@clusterfs.com>
467         * version 1.4.7
468         - rework CDEBUG messages rate-limiting mechanism b=10375
469         - add per-socket tunables for socklnd if the kernel is patched b=10327
470
471 ------------------------------------------------------------------------------
472
473 2006-02-15  Cluster File Systems, Inc. <info@clusterfs.com>
474         * version 1.4.6
475         - fix use of portals/lnet pid to avoid dropping RPCs b=10074
476         - iiblnd wasn't mapping all memory, resulting in comms errors b=9776
477         - quiet LNET startup LNI message for liblustre b=10128
478         - Better console error messages if 'ip2nets' can't match an IP address
479         - Fixed overflow/use-before-set bugs in linux-time.h
480         - Fixed ptllnd bug that wasn't initialising rx descriptors completely
481         - LNET teardown failed an assertion about the route table being empty
482         - Fixed a crash in LNetEQPoll(<invalid handle>)
483         - Future protocol compatibility work (b_rls146_lnetprotovrsn)
484         - improve debug message for liblustre/Catamount nodes (b=10116)
485
486 2005-10-10  Cluster File Systems, Inc. <info@clusterfs.com>
487         * Configuration change for the XT3
488              The PTLLND is now used to run Lustre over Portals on the XT3.
489              The configure option(s) --with-cray-portals are no longer
490              used.  Rather --with-portals=<path-to-portals-includes> is
491              used to enable building on the XT3.  In addition to enable
492              XT3 specific features the option --enable-cray-xt3 must be
493              used.
494
495 2005-10-10  Cluster File Systems, Inc. <info@clusterfs.com>
496         * Portals has been removed, replaced by LNET.
497            LNET is new networking infrastructure for Lustre, it includes a
498            reorganized network configuration mode (see the user
499            documentation for full details) as well as support for routing
500            between different network fabrics.  Lustre Networking Devices
501            (LNDS) for the supported network fabrics have also been created
502            for this new infrastructure.
503
504 2005-08-08  Cluster File Systems, Inc. <info@clusterfs.com>
505        * version 1.4.4
506        * bug fixes
507
508 Severity   : major
509 Frequency  : rare (large Voltaire clusters only)
510 Bugzilla   : 6993
511 Description: the default number of reserved transmit descriptors was too low
512              for some large clusters
513 Details    : As a workaround, the number was increased.  A proper fix includes
514              a run-time tunable.
515
516 2005-06-02  Cluster File Systems, Inc. <info@clusterfs.com>
517        * version 1.4.3
518        * bug fixes
519
520 Severity   : major
521 Frequency  : occasional (large-scale events, cluster reboot, network failure)
522 Bugzilla   : 6411
523 Description: too many error messages on console obscure actual problem and
524              can slow down/panic server, or cause recovery to fail repeatedly
525 Details    : enable rate-limiting of console error messages, and some messages
526              that were console errors now only go to the kernel log
527
528 Severity   : enhancement
529 Bugzilla   : 1693
530 Description: add /proc/sys/portals/catastrophe entry which will report if
531              that node has previously LBUGged
532
533 2005-04-06  Cluster File Systems, Inc. <info@clusterfs.com>
534        * bugs
535         - update gmnal to use PTL_MTU, fix module refcounting (b=5786)
536
537 2005-04-04  Cluster File Systems, Inc. <info@clusterfs.com>
538        * bugs
539         - handle error return code in kranal_check_fma_rx() (5915,6054)
540
541 2005-02-04  Cluster File Systems, Inc. <info@clusterfs.com>
542        * miscellania
543         - update vibnal (Voltaire IB NAL)
544         - update gmnal (Myrinet NAL), gmnalid
545
546 2005-02-04  Eric Barton  <eeb@bartonsoftware.com>
547
548         * Landed portals:b_port_step as follows...
549
550           - removed CFS_DECL_SPIN* 
551             just use 'spinlock_t' and initialise with spin_lock_init()
552
553           - removed CFS_DECL_MUTEX*
554             just use 'struct semaphore' and initialise with init_mutex()
555
556           - removed CFS_DECL_RWSEM*
557             just use 'struct rw_semaphore' and initialise with init_rwsem()
558
559           - renamed cfs_sleep_chan -> cfs_waitq
560                     cfs_sleep_link -> cfs_waitlink
561
562           - fixed race in linux version of arch-independent socknal
563             (the ENOMEM/EAGAIN decision).
564
565           - Didn't fix problems in Darwin version of arch-independent socknal
566             (resetting socket callbacks, eager ack hack, ENOMEM/EAGAIN decision)
567
568           - removed libcfs types from non-socknal header files (only some types
569             in the header files had been changed; the .c files hadn't been
570             updated at all).