Whamcloud - gitweb
7eb694380fd76deccfd53fd7fdd4302aba4d5ff4
[fs/lustre-release.git] / lnet / ChangeLog
1 tbd         Cluster File Systems, Inc. <info@clusterfs.com>
2        * version 1.6.5
3        * Support for networks:
4         socklnd   - any kernel supported by Lustre,
5         qswlnd    - Qsnet kernel modules 5.20 and later,
6         openiblnd - IbGold 1.8.2,
7         o2iblnd   - OFED 1.1 and 1.2.0, 1.2.5
8         viblnd    - Voltaire ibhost 3.4.5 and later,
9         ciblnd    - Topspin 3.2.0,
10         iiblnd    - Infiniserv 3.3 + PathBits patch,
11         gmlnd     - GM 2.1.22 and later,
12         mxlnd     - MX 1.2.1 or later,
13         ptllnd    - Portals 3.3 / UNICOS/lc 1.5.x, 2.0.x
14
15 --------------------------------------------------------------------------------
16
17 2007-10-26         Cluster File Systems, Inc. <info@clusterfs.com>
18        * version 1.6.4
19        * Support for networks:
20         socklnd   - any kernel supported by Lustre,
21         qswlnd    - Qsnet kernel modules 5.20 and later,
22         openiblnd - IbGold 1.8.2,
23         o2iblnd   - OFED 1.1 and 1.2.0, 1.2.5.
24         viblnd    - Voltaire ibhost 3.4.5 and later,
25         ciblnd    - Topspin 3.2.0,
26         iiblnd    - Infiniserv 3.3 + PathBits patch,
27         gmlnd     - GM 2.1.22 and later,
28         mxlnd     - MX 1.2.1 or later,
29         ptllnd    - Portals 3.3 / UNICOS/lc 1.5.x, 2.0.x
30
31 Severity   : normal
32 Bugzilla   : 12494
33 Description: increase send queue size for ciblnd/openiblnd
34
35 Severity   : normal
36 Bugzilla   : 12302
37 Description: new userspace socklnd
38 Details    : Old userspace tcpnal that resided in lnet/ulnds/socklnd replaced
39              with new one - usocklnd.
40
41 Severity   : enhancement
42 Bugzilla   : 11686
43 Description: Console message flood
44 Details    : Make cdls ratelimiting more tunable by adding several tunable in
45              procfs /proc/sys/lnet/console_{min,max}_delay_centisecs and
46              /proc/sys/lnet/console_backoff.
47
48 --------------------------------------------------------------------------------
49
50 2007-09-27         Cluster File Systems, Inc. <info@clusterfs.com>
51        * version 1.6.3
52        * Support for networks:
53         socklnd   - any kernel supported by Lustre,
54         qswlnd    - Qsnet kernel modules 5.20 and later,
55         openiblnd - IbGold 1.8.2,
56         o2iblnd   - OFED 1.1 and 1.2,
57         viblnd    - Voltaire ibhost 3.4.5 and later,
58         ciblnd    - Topspin 3.2.0,
59         iiblnd    - Infiniserv 3.3 + PathBits patch,
60         gmlnd     - GM 2.1.22 and later,
61         mxlnd     - MX 1.2.1 or later,
62         ptllnd    - Portals 3.3 / UNICOS/lc 1.5.x, 2.0.x
63
64 Severity   : normal
65 Bugzilla   : 12782
66 Description: /proc/sys/lnet has non-sysctl entries
67 Details    : Updating dump_kernel/daemon_file/debug_mb to use sysctl variables
68
69 Severity   : major
70 Bugzilla   : 13236
71 Description: TOE Kernel panic by ksocklnd
72 Details    : offloaded sockets provide their own implementation of sendpage,
73              can't call tcp_sendpage() directly
74
75 Severity   : normal
76 Bugzilla   : 10778
77 Description: kibnal_shutdown() doesn't finish; lconf --cleanup hangs
78 Details    : races between lnd_shutdown and peer creation prevent 
79              lnd_shutdown from finishing.
80
81 Severity   : normal
82 Bugzilla   : 13279
83 Description: open files rlimit 1024 reached while liblustre testing
84 Details    : ulnds/socklnd must close open socket after unsuccessful
85              'say hello' attempt.
86
87 Severity   : major 
88 Bugzilla   : 13482
89 Description: build error
90 Details    : fix typos in gmlnd, ptllnd and viblnd
91
92 ------------------------------------------------------------------------------
93
94 2007-07-30  Cluster File Systems, Inc. <info@clusterfs.com>
95        * version 1.6.1
96        * Support for networks:
97         socklnd   - kernels up to 2.6.16,
98         qswlnd    - Qsnet kernel modules 5.20 and later,
99         openiblnd - IbGold 1.8.2,
100         o2iblnd   - OFED 1.1 and 1.2
101         viblnd    - Voltaire ibhost 3.4.5 and later,
102         ciblnd    - Topspin 3.2.0,
103         iiblnd    - Infiniserv 3.3 + PathBits patch,
104         gmlnd     - GM 2.1.22 and later,
105         mxlnd     - MX 1.2.1 or later,
106         ptllnd    - Portals 3.3 / UNICOS/lc 1.5.x, 2.0.x
107
108 2007-06-21  Cluster File Systems, Inc. <info@clusterfs.com>
109        * version 1.4.11
110        * Support for networks:
111         socklnd   - kernels up to 2.6.16,
112         qswlnd    - Qsnet kernel modules 5.20 and later,
113         openiblnd - IbGold 1.8.2,
114         o2iblnd   - OFED 1.1
115         viblnd    - Voltaire ibhost 3.4.5 and later,
116         ciblnd    - Topspin 3.2.0,
117         iiblnd    - Infiniserv 3.3 + PathBits patch,
118         gmlnd     - GM 2.1.22 and later,
119         mxlnd     - MX 1.2.1 or later,
120         ptllnd    - Portals 3.3 / UNICOS/lc 1.5.x, 2.0.x
121
122 Severity   : minor
123 Bugzilla   : 13288
124 Description: Initialize cpumask before use
125
126 Severity   : major
127 Bugzilla   : 12014
128 Description: ASSERTION failures when upgrading to the patchless zero-copy
129              socklnd 
130 Details    : This bug affects "rolling upgrades", causing an inconsistent
131              protocol version negotiation and subsequent assertion failure
132              during rolling upgrades after the first wave of upgrades.
133
134 Severity   : minor
135 Bugzilla   : 11223
136 Details    : Change "dropped message" CERRORs to D_NETERROR so they are
137              logged instead of creating "console chatter" when a lustre
138              timeout races with normal RPC completion.
139
140 Severity   : minor
141 Details    : lnet_clear_peer_table can wait forever if user forgets to
142              clear a lazy portal.
143
144 Severity   : minor
145 Details    : libcfs_id2str should check pid against LNET_PID_ANY.
146
147 Severity   : major
148 Bugzilla   : 10916
149 Description: added LNET self test
150 Details    : landing b_self_test
151
152 Severity   : minor
153 Frequency  : rare
154 Bugzilla   : 12227
155 Description: cfs_duration_{u,n}sec() wrongly calculate nanosecond part of
156              struct timeval.
157 Details    : do_div() macro is used incorrectly.
158
159 2007-04-23  Cluster File Systems, Inc. <info@clusterfs.com>
160
161 Severity   : normal
162 Bugzilla   : 11680
163 Description: make panic on lbug configurable
164
165 Severity   : major
166 Bugzilla   : 12316
167 Description: Add OFED1.2 support to o2iblnd
168 Details    : o2iblnd depends on OFED's modules, if out-tree OFED's modules
169              are installed (other than kernel's in-tree infiniband), there
170              could be some problem while insmod o2iblnd (mismatch CRC of 
171              ib_* symbols).
172              If extra Module.symvers is supported in kernel (i.e, 2.6.17),
173              this link provides solution:
174              https://bugs.openfabrics.org/show_bug.cgi?id=355
175              if extra Module.symvers is not supported in kernel, we will
176              have to run the script in bug 12316 to update
177              $LINUX/module.symvers before building o2iblnd.
178              More details about this are in bug 12316.
179
180 ------------------------------------------------------------------------------
181
182 2007-04-01  Cluster File Systems, Inc. <info@clusterfs.com>
183        * version 1.4.10 / 1.6.0
184        * Support for networks:
185         socklnd   - kernels up to 2.6.16,
186         qswlnd    - Qsnet kernel modules 5.20 and later,
187         openiblnd - IbGold 1.8.2,
188         o2iblnd   - OFED 1.1,
189         viblnd    - Voltaire ibhost 3.4.5 and later,
190         ciblnd    - Topspin 3.2.0,
191         iiblnd    - Infiniserv 3.3 + PathBits patch,
192         gmlnd     - GM 2.1.22 and later,
193         mxlnd     - MX 1.2.1 or later,
194         ptllnd    - Portals 3.3 / UNICOS/lc 1.5.x, 2.0.x
195         
196 Severity   : minor
197 Frequency  : rare
198 Description: Ptllnd didn't init kptllnd_data.kptl_idle_txs before it could be
199              possibly accessed in kptllnd_shutdown. Ptllnd should init 
200              kptllnd_data.kptl_ptlid2str_lock before calling kptllnd_ptlid2str.
201
202 Severity   : normal
203 Frequency  : rare
204 Description: gmlnd ignored some transmit errors when finalizing lnet messages.
205
206 Severity   : minor
207 Frequency  : rare
208 Description: ptllnd logs a piece of incorrect debug info in kptllnd_peer_handle_hello.
209
210 Severity   : minor
211 Frequency  : rare
212 Description: the_lnet.ln_finalizing was not set when the current thread is
213              about to complete messages. It only affects multi-threaded 
214              user space LNet.
215         
216 Severity   : normal
217 Frequency  : rare
218 Bugzilla   : 11472
219 Description: Changed the default kqswlnd ntxmsg=512
220         
221 Severity   : major
222 Frequency  : rare
223 Bugzilla   : 12458
224 Description: Assertion failure in kernel ptllnd caused by posting passive
225              bulk buffers before connection establishment complete.
226         
227 Severity   : major
228 Frequency  : rare
229 Bugzilla   : 12445
230 Description: A race in kernel ptllnd between deleting a peer and posting
231              new communications for it could hang communications -
232              manifesting as "Unexpectedly long timeout" messages.
233         
234 Severity   : major
235 Frequency  : rare
236 Bugzilla   : 12432
237 Description: Kernel ptllnd lock ordering issue could hang a node.
238         
239 Severity   : major
240 Frequency  : rare
241 Bugzilla   : 12016
242 Description: node crash on socket teardown race
243
244 Severity   : minor
245 Frequency  : 'lctl peer_list' issued on a mx net
246 Bugzilla   : 12237
247 Description: Enable lctl's peer_list for MXLND
248
249 Severity   : major
250 Frequency  : after Ptllnd timeouts and portals congestion
251 Bugzilla   : 11659
252 Description: Credit overflows
253 Details    : This was a bug in ptllnd connection establishment.  The fix
254              implements better peer stamps to disambiguate connection
255              establishment and ensure both peers enter the credit flow
256              state machine consistently.
257
258 Severity   : major
259 Frequency  : rare       
260 Bugzilla   : 11394
261 Description: kptllnd didn't propagate some network errors up to LNET 
262 Details    : This bug was spotted while investigating 11394.  The fix
263              ensures network errors on sends and bulk transfers are
264              propagated to LNET/lustre correctly.
265
266 Severity   : enhancement
267 Bugzilla   : 10316
268 Description: Fixed console chatter in case of -ETIMEDOUT.
269
270 Severity   : enhancement
271 Bugzilla   : 11684
272 Description: Added D_NETTRACE for recording network packet history
273              (initially only for ptllnd).  Also a separate userspace
274              ptllnd facility to gather history which should really be
275              covered by D_NETTRACE too, if only CDEBUG recorded history in
276              userspace.
277
278 Severity   : major
279 Frequency  : rare       
280 Bugzilla   : 11616
281 Description: o2iblnd handle early RDMA_CM_EVENT_DISCONNECTED.
282 Details    : If the fabric is lossy, an RDMA_CM_EVENT_DISCONNECTED
283              callback can occur before a connection has actually been
284              established.  This caused an assertion failure previously.
285
286 Severity   : enhancement
287 Bugzilla   : 11094
288 Description: Multiple instances for o2iblnd
289 Details    : Allow multiple instances of o2iblnd to enable networking over
290              multiple HCAs and routing between them.
291
292 Severity   : major
293 Bugzilla   : 11201
294 Description: lnet deadlock in router_checker
295 Details    : turned ksnd_connd_lock, ksnd_reaper_lock, and ksock_net_t:ksnd_lock
296              into BH locks to eliminate potential deadlock caused by
297              ksocknal_data_ready() preempting code holding these locks.
298
299 Severity   : major
300 Bugzilla   : 11126
301 Description: Millions of failed socklnd connection attempts cause a very slow FS
302 Details    : added a new route flag ksnr_scheduled to distinguish from
303              ksnr_connecting, so that a peer connection request is only turned
304              down for race concerns when an active connection to the same peer
305              is under progress (instead of just being scheduled).
306
307 ------------------------------------------------------------------------------
308
309 2007-02-09  Cluster File Systems, Inc. <info@clusterfs.com>
310        * version 1.4.9
311        * Support for networks:
312         socklnd   - kernels up to 2.6.16
313         qswlnd    - Qsnet kernel modules 5.20 and later
314         openiblnd - IbGold 1.8.2
315         o2iblnd   - OFED 1.1
316         viblnd    - Voltaire ibhost 3.4.5 and later
317         ciblnd    - Topspin 3.2.0
318         iiblnd    - Infiniserv 3.3 + PathBits patch
319         gmlnd     - GM 2.1.22 and later
320         mxlnd     - MX 1.2.1 or later
321         ptllnd    - Portals 3.3 / UNICOS/lc 1.5.x, 2.0.x
322        * bug fixes
323
324 Severity   : major on XT3
325 Bugzilla   : none
326 Description: libcfs overwrites /proc/sys/portals
327 Details    : libcfs created a symlink from /proc/sys/portals to
328              /proc/sys/lnet for backwards compatibility.  This is no
329              longer required and makes the Cray portals /proc variables
330              inaccessible.
331
332 Severity   : minor
333 Bugzilla   : 11312
334 Description: OFED FMR API change
335 Details    : This changes parameter usage to reflect a change in
336              ib_fmr_pool_map_phys() between OFED 1.0 and OFED 1.1.  Note
337              that FMR support is only used in experimental versions of the
338              o2iblnd - this change does not affect standard usage at all.
339
340 Severity   : enhancement
341 Bugzilla   : 11245
342 Description: new ko2iblnd module parameter: ib_mtu
343 Details    : the default IB MTU of 2048 performs badly on 23108 Tavor
344              HCAs.  You can avoid this problem by setting the MTU to 1024
345              using this module parameter.
346
347 Severity   : enhancement
348 Bugzilla   : 11118/11620
349 Description: ptllnd small request message buffer alignment fix
350 Details    : Set the PTL_MD_LOCAL_ALIGN8 option on small message receives.
351              Round up small message size on sends in case this option
352              is not supported.  11620 was a defect in the initial
353              implementation which effectively asserted all peers had to be
354              running the correct protocol version which was fixed by always
355              NAK-ing such requests and handling any misalignments they
356              introduce.
357
358 Severity   : minor
359 Frequency  : rarely
360 Description: When kib(nal|lnd)_del_peer() is called upon a peer whose
361              ibp_tx_queue is not empty, kib(nal|lnd)_destroy_peer()'s
362              'LASSERT(list_empty(&peer->ibp_tx_queue))' will fail.
363
364 Severity   : enhancement
365 Bugzilla   : 11250
366 Description: Patchless ZC(zero copy) socklnd
367 Details    : New protocol for socklnd, socklnd can support zero copy without
368              kernel patch, it's compatible with old socklnd. Checksum is 
369              moved from tunables to modparams.
370
371 Severity   : minor
372 Frequency  : rarely
373 Description: When ksocknal_del_peer() is called upon a peer whose
374              ksnp_tx_queue is not empty, ksocknal_destroy_peer()'s
375              'LASSERT(list_empty(&peer->ksnp_tx_queue))' will fail.
376
377 Severity   : normal
378 Frequency  : when ptlrpc is under heavy use and runs out of request buffer
379 Bugzilla   : 11318
380 Description: In lnet_match_blocked_msg(), md can be used without holding a
381              ref on it.
382
383 Severity   : minor
384 Frequency  : very rarely
385 Bugzilla   : 10727
386 Description: If ksocknal_lib_setup_sock() fails, a ref on peer is lost.
387              If connd connects a route which has been closed by
388              ksocknal_shutdown(), ksocknal_create_routes() may create new
389              routes which hold references on the peer, causing shutdown
390              process to wait for peer to disappear forever.
391
392 Severity   : enhancement
393 Bugzilla   : 11234
394 Description: Dump XT3 portals traces on kptllnd timeout
395 Details    : Set the kptllnd module parameter "ptltrace_on_timeout=1" to
396              dump Cray portals debug traces to a file.  The kptllnd module
397              parameter "ptltrace_basename", default "/tmp/lnet-ptltrace",
398              is the basename of the dump file.
399
400 Severity   : major
401 Frequency  : infrequent
402 Bugzilla   : 11308
403 Description: kernel ptllnd fix bug in connection re-establishment
404 Details    : Kernel ptllnd could produce protocol errors e.g. illegal
405              matchbits and/or violate the credit flow protocol when trying
406              to re-establish a connection with a peer after an error or
407              timeout. 
408
409 Severity   : enhancement
410 Bugzilla   : 10316
411 Description: Allow /proc/sys/lnet/debug to be set symbolically
412 Details    : Allow debug and subsystem debug values to be read/set by name
413              in addition to numerically, for ease of use.
414
415 Severity   : normal
416 Frequency  : only in configurations with LNET routers
417 Bugzilla   : 10316
418 Description: routes automatically marked down and recovered
419 Details    : In configurations with LNET routers if a router fails routers
420              now actively try to recover routes that are down, unless they
421              are marked down by an administrator.
422
423 ------------------------------------------------------------------------------
424
425 2006-12-09  Cluster File Systems, Inc. <info@clusterfs.com>
426
427 Severity   : critical
428 Frequency  : very rarely, in configurations with LNET routers and TCP
429 Bugzilla   : 10889
430 Description: incorrect data written to files on OSTs
431 Details    : In certain high-load conditions incorrect data may be written
432              to files on the OST when using TCP networks.
433
434 ------------------------------------------------------------------------------
435
436 2006-07-31  Cluster File Systems, Inc. <info@clusterfs.com>
437         * version 1.4.7
438         - rework CDEBUG messages rate-limiting mechanism b=10375
439         - add per-socket tunables for socklnd if the kernel is patched b=10327
440
441 ------------------------------------------------------------------------------
442
443 2006-02-15  Cluster File Systems, Inc. <info@clusterfs.com>
444         * version 1.4.6
445         - fix use of portals/lnet pid to avoid dropping RPCs b=10074
446         - iiblnd wasn't mapping all memory, resulting in comms errors b=9776
447         - quiet LNET startup LNI message for liblustre b=10128
448         - Better console error messages if 'ip2nets' can't match an IP address
449         - Fixed overflow/use-before-set bugs in linux-time.h
450         - Fixed ptllnd bug that wasn't initialising rx descriptors completely
451         - LNET teardown failed an assertion about the route table being empty
452         - Fixed a crash in LNetEQPoll(<invalid handle>)
453         - Future protocol compatibility work (b_rls146_lnetprotovrsn)
454         - improve debug message for liblustre/Catamount nodes (b=10116)
455
456 2005-10-10  Cluster File Systems, Inc. <info@clusterfs.com>
457         * Configuration change for the XT3
458              The PTLLND is now used to run Lustre over Portals on the XT3.
459              The configure option(s) --with-cray-portals are no longer
460              used.  Rather --with-portals=<path-to-portals-includes> is
461              used to enable building on the XT3.  In addition to enable
462              XT3 specific features the option --enable-cray-xt3 must be
463              used.
464
465 2005-10-10  Cluster File Systems, Inc. <info@clusterfs.com>
466         * Portals has been removed, replaced by LNET.
467            LNET is new networking infrastructure for Lustre, it includes a
468            reorganized network configuration mode (see the user
469            documentation for full details) as well as support for routing
470            between different network fabrics.  Lustre Networking Devices
471            (LNDS) for the supported network fabrics have also been created
472            for this new infrastructure.
473
474 2005-08-08  Cluster File Systems, Inc. <info@clusterfs.com>
475        * version 1.4.4
476        * bug fixes
477
478 Severity   : major
479 Frequency  : rare (large Voltaire clusters only)
480 Bugzilla   : 6993
481 Description: the default number of reserved transmit descriptors was too low
482              for some large clusters
483 Details    : As a workaround, the number was increased.  A proper fix includes
484              a run-time tunable.
485
486 2005-06-02  Cluster File Systems, Inc. <info@clusterfs.com>
487        * version 1.4.3
488        * bug fixes
489
490 Severity   : major
491 Frequency  : occasional (large-scale events, cluster reboot, network failure)
492 Bugzilla   : 6411
493 Description: too many error messages on console obscure actual problem and
494              can slow down/panic server, or cause recovery to fail repeatedly
495 Details    : enable rate-limiting of console error messages, and some messages
496              that were console errors now only go to the kernel log
497
498 Severity   : enhancement
499 Bugzilla   : 1693
500 Description: add /proc/sys/portals/catastrophe entry which will report if
501              that node has previously LBUGged
502
503 2005-04-06  Cluster File Systems, Inc. <info@clusterfs.com>
504        * bugs
505         - update gmnal to use PTL_MTU, fix module refcounting (b=5786)
506
507 2005-04-04  Cluster File Systems, Inc. <info@clusterfs.com>
508        * bugs
509         - handle error return code in kranal_check_fma_rx() (5915,6054)
510
511 2005-02-04  Cluster File Systems, Inc. <info@clusterfs.com>
512        * miscellania
513         - update vibnal (Voltaire IB NAL)
514         - update gmnal (Myrinet NAL), gmnalid
515
516 2005-02-04  Eric Barton  <eeb@bartonsoftware.com>
517
518         * Landed portals:b_port_step as follows...
519
520           - removed CFS_DECL_SPIN* 
521             just use 'spinlock_t' and initialise with spin_lock_init()
522
523           - removed CFS_DECL_MUTEX*
524             just use 'struct semaphore' and initialise with init_mutex()
525
526           - removed CFS_DECL_RWSEM*
527             just use 'struct rw_semaphore' and initialise with init_rwsem()
528
529           - renamed cfs_sleep_chan -> cfs_waitq
530                     cfs_sleep_link -> cfs_waitlink
531
532           - fixed race in linux version of arch-independent socknal
533             (the ENOMEM/EAGAIN decision).
534
535           - Didn't fix problems in Darwin version of arch-independent socknal
536             (resetting socket callbacks, eager ack hack, ENOMEM/EAGAIN decision)
537
538           - removed libcfs types from non-socknal header files (only some types
539             in the header files had been changed; the .c files hadn't been
540             updated at all).