Whamcloud - gitweb
Branch b1_6
[fs/lustre-release.git] / lnet / ChangeLog
1 tbd         Cluster File Systems, Inc. <info@clusterfs.com>
2        * version 1.6.4
3        * Support for networks:
4         socklnd   - any kernel supported by Lustre,
5         qswlnd    - Qsnet kernel modules 5.20 and later,
6         openiblnd - IbGold 1.8.2,
7         o2iblnd   - OFED 1.1 and 1.2,
8         viblnd    - Voltaire ibhost 3.4.5 and later,
9         ciblnd    - Topspin 3.2.0,
10         iiblnd    - Infiniserv 3.3 + PathBits patch,
11         gmlnd     - GM 2.1.22 and later,
12         mxlnd     - MX 1.2.1 or later,
13         ptllnd    - Portals 3.3 / UNICOS/lc 1.5.x, 2.0.x
14
15 2007-09-27         Cluster File Systems, Inc. <info@clusterfs.com>
16        * version 1.6.3
17        * Support for networks:
18         socklnd   - any kernel supported by Lustre,
19         qswlnd    - Qsnet kernel modules 5.20 and later,
20         openiblnd - IbGold 1.8.2,
21         o2iblnd   - OFED 1.1 and 1.2,
22         viblnd    - Voltaire ibhost 3.4.5 and later,
23         ciblnd    - Topspin 3.2.0,
24         iiblnd    - Infiniserv 3.3 + PathBits patch,
25         gmlnd     - GM 2.1.22 and later,
26         mxlnd     - MX 1.2.1 or later,
27         ptllnd    - Portals 3.3 / UNICOS/lc 1.5.x, 2.0.x
28
29 Severity   : major
30 Bugzilla   : 13236
31 Description: TOE Kernel panic by ksocklnd
32 Details    : offloaded sockets provide their own implementation of sendpage,
33              can't call tcp_sendpage() directly
34
35 Severity   : normal
36 Bugzilla   : 10778
37 Description: kibnal_shutdown() doesn't finish; lconf --cleanup hangs
38 Details    : races between lnd_shutdown and peer creation prevent 
39              lnd_shutdown from finishing.
40
41 Severity   : normal
42 Bugzilla   : 13279
43 Description: open files rlimit 1024 reached while liblustre testing
44 Details    : ulnds/socklnd must close open socket after unsuccessful
45              'say hello' attempt.
46
47 ------------------------------------------------------------------------------
48
49 2007-07-30  Cluster File Systems, Inc. <info@clusterfs.com>
50        * version 1.6.1
51        * Support for networks:
52         socklnd   - kernels up to 2.6.16,
53         qswlnd    - Qsnet kernel modules 5.20 and later,
54         openiblnd - IbGold 1.8.2,
55         o2iblnd   - OFED 1.1 and 1.2
56         viblnd    - Voltaire ibhost 3.4.5 and later,
57         ciblnd    - Topspin 3.2.0,
58         iiblnd    - Infiniserv 3.3 + PathBits patch,
59         gmlnd     - GM 2.1.22 and later,
60         mxlnd     - MX 1.2.1 or later,
61         ptllnd    - Portals 3.3 / UNICOS/lc 1.5.x, 2.0.x
62
63 2007-06-21  Cluster File Systems, Inc. <info@clusterfs.com>
64        * version 1.4.11
65        * Support for networks:
66         socklnd   - kernels up to 2.6.16,
67         qswlnd    - Qsnet kernel modules 5.20 and later,
68         openiblnd - IbGold 1.8.2,
69         o2iblnd   - OFED 1.1
70         viblnd    - Voltaire ibhost 3.4.5 and later,
71         ciblnd    - Topspin 3.2.0,
72         iiblnd    - Infiniserv 3.3 + PathBits patch,
73         gmlnd     - GM 2.1.22 and later,
74         mxlnd     - MX 1.2.1 or later,
75         ptllnd    - Portals 3.3 / UNICOS/lc 1.5.x, 2.0.x
76
77 Severity   : minor
78 Bugzilla   : 13288
79 Description: Initialize cpumask before use
80
81 Severity   : major
82 Bugzilla   : 12014
83 Description: ASSERTION failures when upgrading to the patchless zero-copy
84              socklnd 
85 Details    : This bug affects "rolling upgrades", causing an inconsistent
86              protocol version negotiation and subsequent assertion failure
87              during rolling upgrades after the first wave of upgrades.
88
89 Severity   : minor
90 Bugzilla   : 11223
91 Details    : Change "dropped message" CERRORs to D_NETERROR so they are
92              logged instead of creating "console chatter" when a lustre
93              timeout races with normal RPC completion.
94
95 Severity   : minor
96 Details    : lnet_clear_peer_table can wait forever if user forgets to
97              clear a lazy portal.
98
99 Severity   : minor
100 Details    : libcfs_id2str should check pid against LNET_PID_ANY.
101
102 Severity   : major
103 Bugzilla   : 10916
104 Description: added LNET self test
105 Details    : landing b_self_test
106
107 Severity   : minor
108 Frequency  : rare
109 Bugzilla   : 12227
110 Description: cfs_duration_{u,n}sec() wrongly calculate nanosecond part of
111              struct timeval.
112 Details    : do_div() macro is used incorrectly.
113
114 2007-04-23  Cluster File Systems, Inc. <info@clusterfs.com>
115
116 Severity   : normal
117 Bugzilla   : 11680
118 Description: make panic on lbug configurable
119
120 Severity   : major
121 Bugzilla   : 12316
122 Description: Add OFED1.2 support to o2iblnd
123 Details    : o2iblnd depends on OFED's modules, if out-tree OFED's modules
124              are installed (other than kernel's in-tree infiniband), there
125              could be some problem while insmod o2iblnd (mismatch CRC of 
126              ib_* symbols).
127              If extra Module.symvers is supported in kernel (i.e, 2.6.17),
128              this link provides solution:
129              https://bugs.openfabrics.org/show_bug.cgi?id=355
130              if extra Module.symvers is not supported in kernel, we will
131              have to run the script in bug 12316 to update
132              $LINUX/module.symvers before building o2iblnd.
133              More details about this are in bug 12316.
134
135 ------------------------------------------------------------------------------
136
137 2007-04-01  Cluster File Systems, Inc. <info@clusterfs.com>
138        * version 1.4.10 / 1.6.0
139        * Support for networks:
140         socklnd   - kernels up to 2.6.16,
141         qswlnd    - Qsnet kernel modules 5.20 and later,
142         openiblnd - IbGold 1.8.2,
143         o2iblnd   - OFED 1.1,
144         viblnd    - Voltaire ibhost 3.4.5 and later,
145         ciblnd    - Topspin 3.2.0,
146         iiblnd    - Infiniserv 3.3 + PathBits patch,
147         gmlnd     - GM 2.1.22 and later,
148         mxlnd     - MX 1.2.1 or later,
149         ptllnd    - Portals 3.3 / UNICOS/lc 1.5.x, 2.0.x
150         
151 Severity   : minor
152 Frequency  : rare
153 Description: Ptllnd didn't init kptllnd_data.kptl_idle_txs before it could be
154              possibly accessed in kptllnd_shutdown. Ptllnd should init 
155              kptllnd_data.kptl_ptlid2str_lock before calling kptllnd_ptlid2str.
156
157 Severity   : normal
158 Frequency  : rare
159 Description: gmlnd ignored some transmit errors when finalizing lnet messages.
160
161 Severity   : minor
162 Frequency  : rare
163 Description: ptllnd logs a piece of incorrect debug info in kptllnd_peer_handle_hello.
164
165 Severity   : minor
166 Frequency  : rare
167 Description: the_lnet.ln_finalizing was not set when the current thread is
168              about to complete messages. It only affects multi-threaded 
169              user space LNet.
170         
171 Severity   : normal
172 Frequency  : rare
173 Bugzilla   : 11472
174 Description: Changed the default kqswlnd ntxmsg=512
175         
176 Severity   : major
177 Frequency  : rare
178 Bugzilla   : 12458
179 Description: Assertion failure in kernel ptllnd caused by posting passive
180              bulk buffers before connection establishment complete.
181         
182 Severity   : major
183 Frequency  : rare
184 Bugzilla   : 12455
185 Description: A race in kernel ptllnd between deleting a peer and posting
186              new communications for it could hang communications -
187              manifesting as "Unexpectedly long timeout" messages.
188         
189 Severity   : major
190 Frequency  : rare
191 Bugzilla   : 12432
192 Description: Kernel ptllnd lock ordering issue could hang a node.
193         
194 Severity   : major
195 Frequency  : rare
196 Bugzilla   : 12016
197 Description: node crash on socket teardown race
198
199 Severity   : minor
200 Frequency  : 'lctl peer_list' issued on a mx net
201 Bugzilla   : 12237
202 Description: Enable lctl's peer_list for MXLND
203
204 Severity   : major
205 Frequency  : after Ptllnd timeouts and portals congestion
206 Bugzilla   : 11659
207 Description: Credit overflows
208 Details    : This was a bug in ptllnd connection establishment.  The fix
209              implements better peer stamps to disambiguate connection
210              establishment and ensure both peers enter the credit flow
211              state machine consistently.
212
213 Severity   : major
214 Frequency  : rare       
215 Bugzilla   : 11394
216 Description: kptllnd didn't propagate some network errors up to LNET 
217 Details    : This bug was spotted while investigating 11394.  The fix
218              ensures network errors on sends and bulk transfers are
219              propagated to LNET/lustre correctly.
220
221 Severity   : enhancement
222 Bugzilla   : 10316
223 Description: Fixed console chatter in case of -ETIMEDOUT.
224
225 Severity   : enhancement
226 Bugzilla   : 11684
227 Description: Added D_NETTRACE for recording network packet history
228              (initially only for ptllnd).  Also a separate userspace
229              ptllnd facility to gather history which should really be
230              covered by D_NETTRACE too, if only CDEBUG recorded history in
231              userspace.
232
233 Severity   : major
234 Frequency  : rare       
235 Bugzilla   : 11616
236 Description: o2iblnd handle early RDMA_CM_EVENT_DISCONNECTED.
237 Details    : If the fabric is lossy, an RDMA_CM_EVENT_DISCONNECTED
238              callback can occur before a connection has actually been
239              established.  This caused an assertion failure previously.
240
241 Severity   : enhancement
242 Bugzilla   : 11094
243 Description: Multiple instances for o2iblnd
244 Details    : Allow multiple instances of o2iblnd to enable networking over
245              multiple HCAs and routing between them.
246
247 Severity   : major
248 Bugzilla   : 11201
249 Description: lnet deadlock in router_checker
250 Details    : turned ksnd_connd_lock, ksnd_reaper_lock, and ksock_net_t:ksnd_lock
251              into BH locks to eliminate potential deadlock caused by
252              ksocknal_data_ready() preempting code holding these locks.
253
254 Severity   : major
255 Bugzilla   : 11126
256 Description: Millions of failed socklnd connection attempts cause a very slow FS
257 Details    : added a new route flag ksnr_scheduled to distinguish from
258              ksnr_connecting, so that a peer connection request is only turned
259              down for race concerns when an active connection to the same peer
260              is under progress (instead of just being scheduled).
261
262 ------------------------------------------------------------------------------
263
264 2007-02-09  Cluster File Systems, Inc. <info@clusterfs.com>
265        * version 1.4.9
266        * Support for networks:
267         socklnd   - kernels up to 2.6.16
268         qswlnd    - Qsnet kernel modules 5.20 and later
269         openiblnd - IbGold 1.8.2
270         o2iblnd   - OFED 1.1
271         viblnd    - Voltaire ibhost 3.4.5 and later
272         ciblnd    - Topspin 3.2.0
273         iiblnd    - Infiniserv 3.3 + PathBits patch
274         gmlnd     - GM 2.1.22 and later
275         mxlnd     - MX 1.2.1 or later
276         ptllnd    - Portals 3.3 / UNICOS/lc 1.5.x, 2.0.x
277        * bug fixes
278
279 Severity   : major on XT3
280 Bugzilla   : none
281 Description: libcfs overwrites /proc/sys/portals
282 Details    : libcfs created a symlink from /proc/sys/portals to
283              /proc/sys/lnet for backwards compatibility.  This is no
284              longer required and makes the Cray portals /proc variables
285              inaccessible.
286
287 Severity   : minor
288 Bugzilla   : 11312
289 Description: OFED FMR API change
290 Details    : This changes parameter usage to reflect a change in
291              ib_fmr_pool_map_phys() between OFED 1.0 and OFED 1.1.  Note
292              that FMR support is only used in experimental versions of the
293              o2iblnd - this change does not affect standard usage at all.
294
295 Severity   : enhancement
296 Bugzilla   : 11245
297 Description: new ko2iblnd module parameter: ib_mtu
298 Details    : the default IB MTU of 2048 performs badly on 23108 Tavor
299              HCAs.  You can avoid this problem by setting the MTU to 1024
300              using this module parameter.
301
302 Severity   : enhancement
303 Bugzilla   : 11118/11620
304 Description: ptllnd small request message buffer alignment fix
305 Details    : Set the PTL_MD_LOCAL_ALIGN8 option on small message receives.
306              Round up small message size on sends in case this option
307              is not supported.  11620 was a defect in the initial
308              implementation which effectively asserted all peers had to be
309              running the correct protocol version which was fixed by always
310              NAK-ing such requests and handling any misalignments they
311              introduce.
312
313 Severity   : minor
314 Frequency  : rarely
315 Description: When kib(nal|lnd)_del_peer() is called upon a peer whose
316              ibp_tx_queue is not empty, kib(nal|lnd)_destroy_peer()'s
317              'LASSERT(list_empty(&peer->ibp_tx_queue))' will fail.
318
319 Severity   : enhancement
320 Bugzilla   : 11250
321 Description: Patchless ZC(zero copy) socklnd
322 Details    : New protocol for socklnd, socklnd can support zero copy without
323              kernel patch, it's compatible with old socklnd. Checksum is 
324              moved from tunables to modparams.
325
326 Severity   : minor
327 Frequency  : rarely
328 Description: When ksocknal_del_peer() is called upon a peer whose
329              ksnp_tx_queue is not empty, ksocknal_destroy_peer()'s
330              'LASSERT(list_empty(&peer->ksnp_tx_queue))' will fail.
331
332 Severity   : normal
333 Frequency  : when ptlrpc is under heavy use and runs out of request buffer
334 Bugzilla   : 11318
335 Description: In lnet_match_blocked_msg(), md can be used without holding a
336              ref on it.
337
338 Severity   : minor
339 Frequency  : very rarely
340 Bugzilla   : 10727
341 Description: If ksocknal_lib_setup_sock() fails, a ref on peer is lost.
342              If connd connects a route which has been closed by
343              ksocknal_shutdown(), ksocknal_create_routes() may create new
344              routes which hold references on the peer, causing shutdown
345              process to wait for peer to disappear forever.
346
347 Severity   : enhancement
348 Bugzilla   : 11234
349 Description: Dump XT3 portals traces on kptllnd timeout
350 Details    : Set the kptllnd module parameter "ptltrace_on_timeout=1" to
351              dump Cray portals debug traces to a file.  The kptllnd module
352              parameter "ptltrace_basename", default "/tmp/lnet-ptltrace",
353              is the basename of the dump file.
354
355 Severity   : major
356 Frequency  : infrequent
357 Bugzilla   : 11308
358 Description: kernel ptllnd fix bug in connection re-establishment
359 Details    : Kernel ptllnd could produce protocol errors e.g. illegal
360              matchbits and/or violate the credit flow protocol when trying
361              to re-establish a connection with a peer after an error or
362              timeout. 
363
364 Severity   : enhancement
365 Bugzilla   : 10316
366 Description: Allow /proc/sys/lnet/debug to be set symbolically
367 Details    : Allow debug and subsystem debug values to be read/set by name
368              in addition to numerically, for ease of use.
369
370 Severity   : normal
371 Frequency  : only in configurations with LNET routers
372 Bugzilla   : 10316
373 Description: routes automatically marked down and recovered
374 Details    : In configurations with LNET routers if a router fails routers
375              now actively try to recover routes that are down, unless they
376              are marked down by an administrator.
377
378 ------------------------------------------------------------------------------
379
380 2006-12-09  Cluster File Systems, Inc. <info@clusterfs.com>
381
382 Severity   : critical
383 Frequency  : very rarely, in configurations with LNET routers and TCP
384 Bugzilla   : 10889
385 Description: incorrect data written to files on OSTs
386 Details    : In certain high-load conditions incorrect data may be written
387              to files on the OST when using TCP networks.
388
389 ------------------------------------------------------------------------------
390
391 2006-07-31  Cluster File Systems, Inc. <info@clusterfs.com>
392         * version 1.4.7
393         - rework CDEBUG messages rate-limiting mechanism b=10375
394         - add per-socket tunables for socklnd if the kernel is patched b=10327
395
396 ------------------------------------------------------------------------------
397
398 2006-02-15  Cluster File Systems, Inc. <info@clusterfs.com>
399         * version 1.4.6
400         - fix use of portals/lnet pid to avoid dropping RPCs b=10074
401         - iiblnd wasn't mapping all memory, resulting in comms errors b=9776
402         - quiet LNET startup LNI message for liblustre b=10128
403         - Better console error messages if 'ip2nets' can't match an IP address
404         - Fixed overflow/use-before-set bugs in linux-time.h
405         - Fixed ptllnd bug that wasn't initialising rx descriptors completely
406         - LNET teardown failed an assertion about the route table being empty
407         - Fixed a crash in LNetEQPoll(<invalid handle>)
408         - Future protocol compatibility work (b_rls146_lnetprotovrsn)
409         - improve debug message for liblustre/Catamount nodes (b=10116)
410
411 2005-10-10  Cluster File Systems, Inc. <info@clusterfs.com>
412         * Configuration change for the XT3
413              The PTLLND is now used to run Lustre over Portals on the XT3.
414              The configure option(s) --with-cray-portals are no longer
415              used.  Rather --with-portals=<path-to-portals-includes> is
416              used to enable building on the XT3.  In addition to enable
417              XT3 specific features the option --enable-cray-xt3 must be
418              used.
419
420 2005-10-10  Cluster File Systems, Inc. <info@clusterfs.com>
421         * Portals has been removed, replaced by LNET.
422            LNET is new networking infrastructure for Lustre, it includes a
423            reorganized network configuration mode (see the user
424            documentation for full details) as well as support for routing
425            between different network fabrics.  Lustre Networking Devices
426            (LNDS) for the supported network fabrics have also been created
427            for this new infrastructure.
428
429 2005-08-08  Cluster File Systems, Inc. <info@clusterfs.com>
430        * version 1.4.4
431        * bug fixes
432
433 Severity   : major
434 Frequency  : rare (large Voltaire clusters only)
435 Bugzilla   : 6993
436 Description: the default number of reserved transmit descriptors was too low
437              for some large clusters
438 Details    : As a workaround, the number was increased.  A proper fix includes
439              a run-time tunable.
440
441 2005-06-02  Cluster File Systems, Inc. <info@clusterfs.com>
442        * version 1.4.3
443        * bug fixes
444
445 Severity   : major
446 Frequency  : occasional (large-scale events, cluster reboot, network failure)
447 Bugzilla   : 6411
448 Description: too many error messages on console obscure actual problem and
449              can slow down/panic server, or cause recovery to fail repeatedly
450 Details    : enable rate-limiting of console error messages, and some messages
451              that were console errors now only go to the kernel log
452
453 Severity   : enhancement
454 Bugzilla   : 1693
455 Description: add /proc/sys/portals/catastrophe entry which will report if
456              that node has previously LBUGged
457
458 2005-04-06  Cluster File Systems, Inc. <info@clusterfs.com>
459        * bugs
460         - update gmnal to use PTL_MTU, fix module refcounting (b=5786)
461
462 2005-04-04  Cluster File Systems, Inc. <info@clusterfs.com>
463        * bugs
464         - handle error return code in kranal_check_fma_rx() (5915,6054)
465
466 2005-02-04  Cluster File Systems, Inc. <info@clusterfs.com>
467        * miscellania
468         - update vibnal (Voltaire IB NAL)
469         - update gmnal (Myrinet NAL), gmnalid
470
471 2005-02-04  Eric Barton  <eeb@bartonsoftware.com>
472
473         * Landed portals:b_port_step as follows...
474
475           - removed CFS_DECL_SPIN* 
476             just use 'spinlock_t' and initialise with spin_lock_init()
477
478           - removed CFS_DECL_MUTEX*
479             just use 'struct semaphore' and initialise with init_mutex()
480
481           - removed CFS_DECL_RWSEM*
482             just use 'struct rw_semaphore' and initialise with init_rwsem()
483
484           - renamed cfs_sleep_chan -> cfs_waitq
485                     cfs_sleep_link -> cfs_waitlink
486
487           - fixed race in linux version of arch-independent socknal
488             (the ENOMEM/EAGAIN decision).
489
490           - Didn't fix problems in Darwin version of arch-independent socknal
491             (resetting socket callbacks, eager ack hack, ENOMEM/EAGAIN decision)
492
493           - removed libcfs types from non-socknal header files (only some types
494             in the header files had been changed; the .c files hadn't been
495             updated at all).