Whamcloud - gitweb
659d267ac7978e3eb60d2f8bbda7483225bf3261
[fs/lustre-release.git] / lnet / ChangeLog
1 tbd         Cluster File Systems, Inc. <info@clusterfs.com>
2        * version 1.6.5
3        * Support for networks:
4         socklnd   - any kernel supported by Lustre,
5         qswlnd    - Qsnet kernel modules 5.20 and later,
6         openiblnd - IbGold 1.8.2,
7         o2iblnd   - OFED 1.1 and 1.2.0, 1.2.5
8         viblnd    - Voltaire ibhost 3.4.5 and later,
9         ciblnd    - Topspin 3.2.0,
10         iiblnd    - Infiniserv 3.3 + PathBits patch,
11         gmlnd     - GM 2.1.22 and later,
12         mxlnd     - MX 1.2.1 or later,
13         ptllnd    - Portals 3.3 / UNICOS/lc 1.5.x, 2.0.x
14
15 --------------------------------------------------------------------------------
16
17 2007-12-07         Cluster File Systems, Inc. <info@clusterfs.com>
18        * version 1.6.4
19        * Support for networks:
20         socklnd   - any kernel supported by Lustre,
21         qswlnd    - Qsnet kernel modules 5.20 and later,
22         openiblnd - IbGold 1.8.2,
23         o2iblnd   - OFED 1.1 and 1.2.0, 1.2.5.
24         viblnd    - Voltaire ibhost 3.4.5 and later,
25         ciblnd    - Topspin 3.2.0,
26         iiblnd    - Infiniserv 3.3 + PathBits patch,
27         gmlnd     - GM 2.1.22 and later,
28         mxlnd     - MX 1.2.1 or later,
29         ptllnd    - Portals 3.3 / UNICOS/lc 1.5.x, 2.0.x
30
31 Severity   : normal
32 Bugzilla   : 14238
33 Description: ASSERTION(me == md->md_me) failed in lnet_match_md()
34
35 Severity   : normal
36 Bugzilla   : 12494
37 Description: increase send queue size for ciblnd/openiblnd
38
39 Severity   : normal
40 Bugzilla   : 12302
41 Description: new userspace socklnd
42 Details    : Old userspace tcpnal that resided in lnet/ulnds/socklnd replaced
43              with new one - usocklnd.
44
45 Severity   : enhancement
46 Bugzilla   : 11686
47 Description: Console message flood
48 Details    : Make cdls ratelimiting more tunable by adding several tunable in
49              procfs /proc/sys/lnet/console_{min,max}_delay_centisecs and
50              /proc/sys/lnet/console_backoff.
51
52 --------------------------------------------------------------------------------
53
54 2007-09-27         Cluster File Systems, Inc. <info@clusterfs.com>
55        * version 1.6.3
56        * Support for networks:
57         socklnd   - any kernel supported by Lustre,
58         qswlnd    - Qsnet kernel modules 5.20 and later,
59         openiblnd - IbGold 1.8.2,
60         o2iblnd   - OFED 1.1 and 1.2,
61         viblnd    - Voltaire ibhost 3.4.5 and later,
62         ciblnd    - Topspin 3.2.0,
63         iiblnd    - Infiniserv 3.3 + PathBits patch,
64         gmlnd     - GM 2.1.22 and later,
65         mxlnd     - MX 1.2.1 or later,
66         ptllnd    - Portals 3.3 / UNICOS/lc 1.5.x, 2.0.x
67
68 Severity   : normal
69 Bugzilla   : 12782
70 Description: /proc/sys/lnet has non-sysctl entries
71 Details    : Updating dump_kernel/daemon_file/debug_mb to use sysctl variables
72
73 Severity   : major
74 Bugzilla   : 13236
75 Description: TOE Kernel panic by ksocklnd
76 Details    : offloaded sockets provide their own implementation of sendpage,
77              can't call tcp_sendpage() directly
78
79 Severity   : normal
80 Bugzilla   : 10778
81 Description: kibnal_shutdown() doesn't finish; lconf --cleanup hangs
82 Details    : races between lnd_shutdown and peer creation prevent 
83              lnd_shutdown from finishing.
84
85 Severity   : normal
86 Bugzilla   : 13279
87 Description: open files rlimit 1024 reached while liblustre testing
88 Details    : ulnds/socklnd must close open socket after unsuccessful
89              'say hello' attempt.
90
91 Severity   : major 
92 Bugzilla   : 13482
93 Description: build error
94 Details    : fix typos in gmlnd, ptllnd and viblnd
95
96 ------------------------------------------------------------------------------
97
98 2007-07-30  Cluster File Systems, Inc. <info@clusterfs.com>
99        * version 1.6.1
100        * Support for networks:
101         socklnd   - kernels up to 2.6.16,
102         qswlnd    - Qsnet kernel modules 5.20 and later,
103         openiblnd - IbGold 1.8.2,
104         o2iblnd   - OFED 1.1 and 1.2
105         viblnd    - Voltaire ibhost 3.4.5 and later,
106         ciblnd    - Topspin 3.2.0,
107         iiblnd    - Infiniserv 3.3 + PathBits patch,
108         gmlnd     - GM 2.1.22 and later,
109         mxlnd     - MX 1.2.1 or later,
110         ptllnd    - Portals 3.3 / UNICOS/lc 1.5.x, 2.0.x
111
112 2007-06-21  Cluster File Systems, Inc. <info@clusterfs.com>
113        * version 1.4.11
114        * Support for networks:
115         socklnd   - kernels up to 2.6.16,
116         qswlnd    - Qsnet kernel modules 5.20 and later,
117         openiblnd - IbGold 1.8.2,
118         o2iblnd   - OFED 1.1
119         viblnd    - Voltaire ibhost 3.4.5 and later,
120         ciblnd    - Topspin 3.2.0,
121         iiblnd    - Infiniserv 3.3 + PathBits patch,
122         gmlnd     - GM 2.1.22 and later,
123         mxlnd     - MX 1.2.1 or later,
124         ptllnd    - Portals 3.3 / UNICOS/lc 1.5.x, 2.0.x
125
126 Severity   : minor
127 Bugzilla   : 13288
128 Description: Initialize cpumask before use
129
130 Severity   : major
131 Bugzilla   : 12014
132 Description: ASSERTION failures when upgrading to the patchless zero-copy
133              socklnd 
134 Details    : This bug affects "rolling upgrades", causing an inconsistent
135              protocol version negotiation and subsequent assertion failure
136              during rolling upgrades after the first wave of upgrades.
137
138 Severity   : minor
139 Bugzilla   : 11223
140 Details    : Change "dropped message" CERRORs to D_NETERROR so they are
141              logged instead of creating "console chatter" when a lustre
142              timeout races with normal RPC completion.
143
144 Severity   : minor
145 Details    : lnet_clear_peer_table can wait forever if user forgets to
146              clear a lazy portal.
147
148 Severity   : minor
149 Details    : libcfs_id2str should check pid against LNET_PID_ANY.
150
151 Severity   : major
152 Bugzilla   : 10916
153 Description: added LNET self test
154 Details    : landing b_self_test
155
156 Severity   : minor
157 Frequency  : rare
158 Bugzilla   : 12227
159 Description: cfs_duration_{u,n}sec() wrongly calculate nanosecond part of
160              struct timeval.
161 Details    : do_div() macro is used incorrectly.
162
163 2007-04-23  Cluster File Systems, Inc. <info@clusterfs.com>
164
165 Severity   : normal
166 Bugzilla   : 11680
167 Description: make panic on lbug configurable
168
169 Severity   : major
170 Bugzilla   : 12316
171 Description: Add OFED1.2 support to o2iblnd
172 Details    : o2iblnd depends on OFED's modules, if out-tree OFED's modules
173              are installed (other than kernel's in-tree infiniband), there
174              could be some problem while insmod o2iblnd (mismatch CRC of 
175              ib_* symbols).
176              If extra Module.symvers is supported in kernel (i.e, 2.6.17),
177              this link provides solution:
178              https://bugs.openfabrics.org/show_bug.cgi?id=355
179              if extra Module.symvers is not supported in kernel, we will
180              have to run the script in bug 12316 to update
181              $LINUX/module.symvers before building o2iblnd.
182              More details about this are in bug 12316.
183
184 ------------------------------------------------------------------------------
185
186 2007-04-01  Cluster File Systems, Inc. <info@clusterfs.com>
187        * version 1.4.10 / 1.6.0
188        * Support for networks:
189         socklnd   - kernels up to 2.6.16,
190         qswlnd    - Qsnet kernel modules 5.20 and later,
191         openiblnd - IbGold 1.8.2,
192         o2iblnd   - OFED 1.1,
193         viblnd    - Voltaire ibhost 3.4.5 and later,
194         ciblnd    - Topspin 3.2.0,
195         iiblnd    - Infiniserv 3.3 + PathBits patch,
196         gmlnd     - GM 2.1.22 and later,
197         mxlnd     - MX 1.2.1 or later,
198         ptllnd    - Portals 3.3 / UNICOS/lc 1.5.x, 2.0.x
199         
200 Severity   : minor
201 Frequency  : rare
202 Description: Ptllnd didn't init kptllnd_data.kptl_idle_txs before it could be
203              possibly accessed in kptllnd_shutdown. Ptllnd should init 
204              kptllnd_data.kptl_ptlid2str_lock before calling kptllnd_ptlid2str.
205
206 Severity   : normal
207 Frequency  : rare
208 Description: gmlnd ignored some transmit errors when finalizing lnet messages.
209
210 Severity   : minor
211 Frequency  : rare
212 Description: ptllnd logs a piece of incorrect debug info in kptllnd_peer_handle_hello.
213
214 Severity   : minor
215 Frequency  : rare
216 Description: the_lnet.ln_finalizing was not set when the current thread is
217              about to complete messages. It only affects multi-threaded 
218              user space LNet.
219         
220 Severity   : normal
221 Frequency  : rare
222 Bugzilla   : 11472
223 Description: Changed the default kqswlnd ntxmsg=512
224         
225 Severity   : major
226 Frequency  : rare
227 Bugzilla   : 12458
228 Description: Assertion failure in kernel ptllnd caused by posting passive
229              bulk buffers before connection establishment complete.
230         
231 Severity   : major
232 Frequency  : rare
233 Bugzilla   : 12445
234 Description: A race in kernel ptllnd between deleting a peer and posting
235              new communications for it could hang communications -
236              manifesting as "Unexpectedly long timeout" messages.
237         
238 Severity   : major
239 Frequency  : rare
240 Bugzilla   : 12432
241 Description: Kernel ptllnd lock ordering issue could hang a node.
242         
243 Severity   : major
244 Frequency  : rare
245 Bugzilla   : 12016
246 Description: node crash on socket teardown race
247
248 Severity   : minor
249 Frequency  : 'lctl peer_list' issued on a mx net
250 Bugzilla   : 12237
251 Description: Enable lctl's peer_list for MXLND
252
253 Severity   : major
254 Frequency  : after Ptllnd timeouts and portals congestion
255 Bugzilla   : 11659
256 Description: Credit overflows
257 Details    : This was a bug in ptllnd connection establishment.  The fix
258              implements better peer stamps to disambiguate connection
259              establishment and ensure both peers enter the credit flow
260              state machine consistently.
261
262 Severity   : major
263 Frequency  : rare       
264 Bugzilla   : 11394
265 Description: kptllnd didn't propagate some network errors up to LNET 
266 Details    : This bug was spotted while investigating 11394.  The fix
267              ensures network errors on sends and bulk transfers are
268              propagated to LNET/lustre correctly.
269
270 Severity   : enhancement
271 Bugzilla   : 10316
272 Description: Fixed console chatter in case of -ETIMEDOUT.
273
274 Severity   : enhancement
275 Bugzilla   : 11684
276 Description: Added D_NETTRACE for recording network packet history
277              (initially only for ptllnd).  Also a separate userspace
278              ptllnd facility to gather history which should really be
279              covered by D_NETTRACE too, if only CDEBUG recorded history in
280              userspace.
281
282 Severity   : major
283 Frequency  : rare       
284 Bugzilla   : 11616
285 Description: o2iblnd handle early RDMA_CM_EVENT_DISCONNECTED.
286 Details    : If the fabric is lossy, an RDMA_CM_EVENT_DISCONNECTED
287              callback can occur before a connection has actually been
288              established.  This caused an assertion failure previously.
289
290 Severity   : enhancement
291 Bugzilla   : 11094
292 Description: Multiple instances for o2iblnd
293 Details    : Allow multiple instances of o2iblnd to enable networking over
294              multiple HCAs and routing between them.
295
296 Severity   : major
297 Bugzilla   : 11201
298 Description: lnet deadlock in router_checker
299 Details    : turned ksnd_connd_lock, ksnd_reaper_lock, and ksock_net_t:ksnd_lock
300              into BH locks to eliminate potential deadlock caused by
301              ksocknal_data_ready() preempting code holding these locks.
302
303 Severity   : major
304 Bugzilla   : 11126
305 Description: Millions of failed socklnd connection attempts cause a very slow FS
306 Details    : added a new route flag ksnr_scheduled to distinguish from
307              ksnr_connecting, so that a peer connection request is only turned
308              down for race concerns when an active connection to the same peer
309              is under progress (instead of just being scheduled).
310
311 ------------------------------------------------------------------------------
312
313 2007-02-09  Cluster File Systems, Inc. <info@clusterfs.com>
314        * version 1.4.9
315        * Support for networks:
316         socklnd   - kernels up to 2.6.16
317         qswlnd    - Qsnet kernel modules 5.20 and later
318         openiblnd - IbGold 1.8.2
319         o2iblnd   - OFED 1.1
320         viblnd    - Voltaire ibhost 3.4.5 and later
321         ciblnd    - Topspin 3.2.0
322         iiblnd    - Infiniserv 3.3 + PathBits patch
323         gmlnd     - GM 2.1.22 and later
324         mxlnd     - MX 1.2.1 or later
325         ptllnd    - Portals 3.3 / UNICOS/lc 1.5.x, 2.0.x
326        * bug fixes
327
328 Severity   : major on XT3
329 Bugzilla   : none
330 Description: libcfs overwrites /proc/sys/portals
331 Details    : libcfs created a symlink from /proc/sys/portals to
332              /proc/sys/lnet for backwards compatibility.  This is no
333              longer required and makes the Cray portals /proc variables
334              inaccessible.
335
336 Severity   : minor
337 Bugzilla   : 11312
338 Description: OFED FMR API change
339 Details    : This changes parameter usage to reflect a change in
340              ib_fmr_pool_map_phys() between OFED 1.0 and OFED 1.1.  Note
341              that FMR support is only used in experimental versions of the
342              o2iblnd - this change does not affect standard usage at all.
343
344 Severity   : enhancement
345 Bugzilla   : 11245
346 Description: new ko2iblnd module parameter: ib_mtu
347 Details    : the default IB MTU of 2048 performs badly on 23108 Tavor
348              HCAs.  You can avoid this problem by setting the MTU to 1024
349              using this module parameter.
350
351 Severity   : enhancement
352 Bugzilla   : 11118/11620
353 Description: ptllnd small request message buffer alignment fix
354 Details    : Set the PTL_MD_LOCAL_ALIGN8 option on small message receives.
355              Round up small message size on sends in case this option
356              is not supported.  11620 was a defect in the initial
357              implementation which effectively asserted all peers had to be
358              running the correct protocol version which was fixed by always
359              NAK-ing such requests and handling any misalignments they
360              introduce.
361
362 Severity   : minor
363 Frequency  : rarely
364 Description: When kib(nal|lnd)_del_peer() is called upon a peer whose
365              ibp_tx_queue is not empty, kib(nal|lnd)_destroy_peer()'s
366              'LASSERT(list_empty(&peer->ibp_tx_queue))' will fail.
367
368 Severity   : enhancement
369 Bugzilla   : 11250
370 Description: Patchless ZC(zero copy) socklnd
371 Details    : New protocol for socklnd, socklnd can support zero copy without
372              kernel patch, it's compatible with old socklnd. Checksum is 
373              moved from tunables to modparams.
374
375 Severity   : minor
376 Frequency  : rarely
377 Description: When ksocknal_del_peer() is called upon a peer whose
378              ksnp_tx_queue is not empty, ksocknal_destroy_peer()'s
379              'LASSERT(list_empty(&peer->ksnp_tx_queue))' will fail.
380
381 Severity   : normal
382 Frequency  : when ptlrpc is under heavy use and runs out of request buffer
383 Bugzilla   : 11318
384 Description: In lnet_match_blocked_msg(), md can be used without holding a
385              ref on it.
386
387 Severity   : minor
388 Frequency  : very rarely
389 Bugzilla   : 10727
390 Description: If ksocknal_lib_setup_sock() fails, a ref on peer is lost.
391              If connd connects a route which has been closed by
392              ksocknal_shutdown(), ksocknal_create_routes() may create new
393              routes which hold references on the peer, causing shutdown
394              process to wait for peer to disappear forever.
395
396 Severity   : enhancement
397 Bugzilla   : 11234
398 Description: Dump XT3 portals traces on kptllnd timeout
399 Details    : Set the kptllnd module parameter "ptltrace_on_timeout=1" to
400              dump Cray portals debug traces to a file.  The kptllnd module
401              parameter "ptltrace_basename", default "/tmp/lnet-ptltrace",
402              is the basename of the dump file.
403
404 Severity   : major
405 Frequency  : infrequent
406 Bugzilla   : 11308
407 Description: kernel ptllnd fix bug in connection re-establishment
408 Details    : Kernel ptllnd could produce protocol errors e.g. illegal
409              matchbits and/or violate the credit flow protocol when trying
410              to re-establish a connection with a peer after an error or
411              timeout. 
412
413 Severity   : enhancement
414 Bugzilla   : 10316
415 Description: Allow /proc/sys/lnet/debug to be set symbolically
416 Details    : Allow debug and subsystem debug values to be read/set by name
417              in addition to numerically, for ease of use.
418
419 Severity   : normal
420 Frequency  : only in configurations with LNET routers
421 Bugzilla   : 10316
422 Description: routes automatically marked down and recovered
423 Details    : In configurations with LNET routers if a router fails routers
424              now actively try to recover routes that are down, unless they
425              are marked down by an administrator.
426
427 ------------------------------------------------------------------------------
428
429 2006-12-09  Cluster File Systems, Inc. <info@clusterfs.com>
430
431 Severity   : critical
432 Frequency  : very rarely, in configurations with LNET routers and TCP
433 Bugzilla   : 10889
434 Description: incorrect data written to files on OSTs
435 Details    : In certain high-load conditions incorrect data may be written
436              to files on the OST when using TCP networks.
437
438 ------------------------------------------------------------------------------
439
440 2006-07-31  Cluster File Systems, Inc. <info@clusterfs.com>
441         * version 1.4.7
442         - rework CDEBUG messages rate-limiting mechanism b=10375
443         - add per-socket tunables for socklnd if the kernel is patched b=10327
444
445 ------------------------------------------------------------------------------
446
447 2006-02-15  Cluster File Systems, Inc. <info@clusterfs.com>
448         * version 1.4.6
449         - fix use of portals/lnet pid to avoid dropping RPCs b=10074
450         - iiblnd wasn't mapping all memory, resulting in comms errors b=9776
451         - quiet LNET startup LNI message for liblustre b=10128
452         - Better console error messages if 'ip2nets' can't match an IP address
453         - Fixed overflow/use-before-set bugs in linux-time.h
454         - Fixed ptllnd bug that wasn't initialising rx descriptors completely
455         - LNET teardown failed an assertion about the route table being empty
456         - Fixed a crash in LNetEQPoll(<invalid handle>)
457         - Future protocol compatibility work (b_rls146_lnetprotovrsn)
458         - improve debug message for liblustre/Catamount nodes (b=10116)
459
460 2005-10-10  Cluster File Systems, Inc. <info@clusterfs.com>
461         * Configuration change for the XT3
462              The PTLLND is now used to run Lustre over Portals on the XT3.
463              The configure option(s) --with-cray-portals are no longer
464              used.  Rather --with-portals=<path-to-portals-includes> is
465              used to enable building on the XT3.  In addition to enable
466              XT3 specific features the option --enable-cray-xt3 must be
467              used.
468
469 2005-10-10  Cluster File Systems, Inc. <info@clusterfs.com>
470         * Portals has been removed, replaced by LNET.
471            LNET is new networking infrastructure for Lustre, it includes a
472            reorganized network configuration mode (see the user
473            documentation for full details) as well as support for routing
474            between different network fabrics.  Lustre Networking Devices
475            (LNDS) for the supported network fabrics have also been created
476            for this new infrastructure.
477
478 2005-08-08  Cluster File Systems, Inc. <info@clusterfs.com>
479        * version 1.4.4
480        * bug fixes
481
482 Severity   : major
483 Frequency  : rare (large Voltaire clusters only)
484 Bugzilla   : 6993
485 Description: the default number of reserved transmit descriptors was too low
486              for some large clusters
487 Details    : As a workaround, the number was increased.  A proper fix includes
488              a run-time tunable.
489
490 2005-06-02  Cluster File Systems, Inc. <info@clusterfs.com>
491        * version 1.4.3
492        * bug fixes
493
494 Severity   : major
495 Frequency  : occasional (large-scale events, cluster reboot, network failure)
496 Bugzilla   : 6411
497 Description: too many error messages on console obscure actual problem and
498              can slow down/panic server, or cause recovery to fail repeatedly
499 Details    : enable rate-limiting of console error messages, and some messages
500              that were console errors now only go to the kernel log
501
502 Severity   : enhancement
503 Bugzilla   : 1693
504 Description: add /proc/sys/portals/catastrophe entry which will report if
505              that node has previously LBUGged
506
507 2005-04-06  Cluster File Systems, Inc. <info@clusterfs.com>
508        * bugs
509         - update gmnal to use PTL_MTU, fix module refcounting (b=5786)
510
511 2005-04-04  Cluster File Systems, Inc. <info@clusterfs.com>
512        * bugs
513         - handle error return code in kranal_check_fma_rx() (5915,6054)
514
515 2005-02-04  Cluster File Systems, Inc. <info@clusterfs.com>
516        * miscellania
517         - update vibnal (Voltaire IB NAL)
518         - update gmnal (Myrinet NAL), gmnalid
519
520 2005-02-04  Eric Barton  <eeb@bartonsoftware.com>
521
522         * Landed portals:b_port_step as follows...
523
524           - removed CFS_DECL_SPIN* 
525             just use 'spinlock_t' and initialise with spin_lock_init()
526
527           - removed CFS_DECL_MUTEX*
528             just use 'struct semaphore' and initialise with init_mutex()
529
530           - removed CFS_DECL_RWSEM*
531             just use 'struct rw_semaphore' and initialise with init_rwsem()
532
533           - renamed cfs_sleep_chan -> cfs_waitq
534                     cfs_sleep_link -> cfs_waitlink
535
536           - fixed race in linux version of arch-independent socknal
537             (the ENOMEM/EAGAIN decision).
538
539           - Didn't fix problems in Darwin version of arch-independent socknal
540             (resetting socket callbacks, eager ack hack, ENOMEM/EAGAIN decision)
541
542           - removed libcfs types from non-socknal header files (only some types
543             in the header files had been changed; the .c files hadn't been
544             updated at all).