Whamcloud - gitweb
fd0278a541ce8c21125617eecae21ad43c4b9041
[fs/lustre-release.git] / lnet / ChangeLog
1 2007-09-27         Cluster File Systems, Inc. <info@clusterfs.com>
2        * version 1.6.3
3        * Support for networks:
4         socklnd   - any kernel supported by Lustre,
5         qswlnd    - Qsnet kernel modules 5.20 and later,
6         openiblnd - IbGold 1.8.2,
7         o2iblnd   - OFED 1.1 and 1.2,
8         viblnd    - Voltaire ibhost 3.4.5 and later,
9         ciblnd    - Topspin 3.2.0,
10         iiblnd    - Infiniserv 3.3 + PathBits patch,
11         gmlnd     - GM 2.1.22 and later,
12         mxlnd     - MX 1.2.1 or later,
13         ptllnd    - Portals 3.3 / UNICOS/lc 1.5.x, 2.0.x
14
15 Severity   : major
16 Bugzilla   : 13236
17 Description: TOE Kernel panic by ksocklnd
18 Details    : offloaded sockets provide their own implementation of sendpage,
19              can't call tcp_sendpage() directly
20
21 Severity   : normal
22 Bugzilla   : 10778
23 Description: kibnal_shutdown() doesn't finish; lconf --cleanup hangs
24 Details    : races between lnd_shutdown and peer creation prevent 
25              lnd_shutdown from finishing.
26
27 Severity   : normal
28 Bugzilla   : 13279
29 Description: open files rlimit 1024 reached while liblustre testing
30 Details    : ulnds/socklnd must close open socket after unsuccessful
31              'say hello' attempt.
32
33 ------------------------------------------------------------------------------
34
35 2007-07-30  Cluster File Systems, Inc. <info@clusterfs.com>
36        * version 1.6.1
37        * Support for networks:
38         socklnd   - kernels up to 2.6.16,
39         qswlnd    - Qsnet kernel modules 5.20 and later,
40         openiblnd - IbGold 1.8.2,
41         o2iblnd   - OFED 1.1 and 1.2
42         viblnd    - Voltaire ibhost 3.4.5 and later,
43         ciblnd    - Topspin 3.2.0,
44         iiblnd    - Infiniserv 3.3 + PathBits patch,
45         gmlnd     - GM 2.1.22 and later,
46         mxlnd     - MX 1.2.1 or later,
47         ptllnd    - Portals 3.3 / UNICOS/lc 1.5.x, 2.0.x
48
49 2007-06-21  Cluster File Systems, Inc. <info@clusterfs.com>
50        * version 1.4.11
51        * Support for networks:
52         socklnd   - kernels up to 2.6.16,
53         qswlnd    - Qsnet kernel modules 5.20 and later,
54         openiblnd - IbGold 1.8.2,
55         o2iblnd   - OFED 1.1
56         viblnd    - Voltaire ibhost 3.4.5 and later,
57         ciblnd    - Topspin 3.2.0,
58         iiblnd    - Infiniserv 3.3 + PathBits patch,
59         gmlnd     - GM 2.1.22 and later,
60         mxlnd     - MX 1.2.1 or later,
61         ptllnd    - Portals 3.3 / UNICOS/lc 1.5.x, 2.0.x
62
63 Severity   : minor
64 Bugzilla   : 13288
65 Description: Initialize cpumask before use
66
67 Severity   : major
68 Bugzilla   : 12014
69 Description: ASSERTION failures when upgrading to the patchless zero-copy
70              socklnd 
71 Details    : This bug affects "rolling upgrades", causing an inconsistent
72              protocol version negotiation and subsequent assertion failure
73              during rolling upgrades after the first wave of upgrades.
74
75 Severity   : minor
76 Bugzilla   : 11223
77 Details    : Change "dropped message" CERRORs to D_NETERROR so they are
78              logged instead of creating "console chatter" when a lustre
79              timeout races with normal RPC completion.
80
81 Severity   : minor
82 Details    : lnet_clear_peer_table can wait forever if user forgets to
83              clear a lazy portal.
84
85 Severity   : minor
86 Details    : libcfs_id2str should check pid against LNET_PID_ANY.
87
88 Severity   : major
89 Bugzilla   : 10916
90 Description: added LNET self test
91 Details    : landing b_self_test
92
93 Severity   : minor
94 Frequency  : rare
95 Bugzilla   : 12227
96 Description: cfs_duration_{u,n}sec() wrongly calculate nanosecond part of
97              struct timeval.
98 Details    : do_div() macro is used incorrectly.
99
100 2007-04-23  Cluster File Systems, Inc. <info@clusterfs.com>
101
102 Severity   : normal
103 Bugzilla   : 11680
104 Description: make panic on lbug configurable
105
106 Severity   : major
107 Bugzilla   : 12316
108 Description: Add OFED1.2 support to o2iblnd
109 Details    : o2iblnd depends on OFED's modules, if out-tree OFED's modules
110              are installed (other than kernel's in-tree infiniband), there
111              could be some problem while insmod o2iblnd (mismatch CRC of 
112              ib_* symbols).
113              If extra Module.symvers is supported in kernel (i.e, 2.6.17),
114              this link provides solution:
115              https://bugs.openfabrics.org/show_bug.cgi?id=355
116              if extra Module.symvers is not supported in kernel, we will
117              have to run the script in bug 12316 to update
118              $LINUX/module.symvers before building o2iblnd.
119              More details about this are in bug 12316.
120
121 ------------------------------------------------------------------------------
122
123 2007-04-01  Cluster File Systems, Inc. <info@clusterfs.com>
124        * version 1.4.10 / 1.6.0
125        * Support for networks:
126         socklnd   - kernels up to 2.6.16,
127         qswlnd    - Qsnet kernel modules 5.20 and later,
128         openiblnd - IbGold 1.8.2,
129         o2iblnd   - OFED 1.1,
130         viblnd    - Voltaire ibhost 3.4.5 and later,
131         ciblnd    - Topspin 3.2.0,
132         iiblnd    - Infiniserv 3.3 + PathBits patch,
133         gmlnd     - GM 2.1.22 and later,
134         mxlnd     - MX 1.2.1 or later,
135         ptllnd    - Portals 3.3 / UNICOS/lc 1.5.x, 2.0.x
136         
137 Severity   : minor
138 Frequency  : rare
139 Description: Ptllnd didn't init kptllnd_data.kptl_idle_txs before it could be
140              possibly accessed in kptllnd_shutdown. Ptllnd should init 
141              kptllnd_data.kptl_ptlid2str_lock before calling kptllnd_ptlid2str.
142
143 Severity   : normal
144 Frequency  : rare
145 Description: gmlnd ignored some transmit errors when finalizing lnet messages.
146
147 Severity   : minor
148 Frequency  : rare
149 Description: ptllnd logs a piece of incorrect debug info in kptllnd_peer_handle_hello.
150
151 Severity   : minor
152 Frequency  : rare
153 Description: the_lnet.ln_finalizing was not set when the current thread is
154              about to complete messages. It only affects multi-threaded 
155              user space LNet.
156         
157 Severity   : normal
158 Frequency  : rare
159 Bugzilla   : 11472
160 Description: Changed the default kqswlnd ntxmsg=512
161         
162 Severity   : major
163 Frequency  : rare
164 Bugzilla   : 12458
165 Description: Assertion failure in kernel ptllnd caused by posting passive
166              bulk buffers before connection establishment complete.
167         
168 Severity   : major
169 Frequency  : rare
170 Bugzilla   : 12455
171 Description: A race in kernel ptllnd between deleting a peer and posting
172              new communications for it could hang communications -
173              manifesting as "Unexpectedly long timeout" messages.
174         
175 Severity   : major
176 Frequency  : rare
177 Bugzilla   : 12432
178 Description: Kernel ptllnd lock ordering issue could hang a node.
179         
180 Severity   : major
181 Frequency  : rare
182 Bugzilla   : 12016
183 Description: node crash on socket teardown race
184
185 Severity   : minor
186 Frequency  : 'lctl peer_list' issued on a mx net
187 Bugzilla   : 12237
188 Description: Enable lctl's peer_list for MXLND
189
190 Severity   : major
191 Frequency  : after Ptllnd timeouts and portals congestion
192 Bugzilla   : 11659
193 Description: Credit overflows
194 Details    : This was a bug in ptllnd connection establishment.  The fix
195              implements better peer stamps to disambiguate connection
196              establishment and ensure both peers enter the credit flow
197              state machine consistently.
198
199 Severity   : major
200 Frequency  : rare       
201 Bugzilla   : 11394
202 Description: kptllnd didn't propagate some network errors up to LNET 
203 Details    : This bug was spotted while investigating 11394.  The fix
204              ensures network errors on sends and bulk transfers are
205              propagated to LNET/lustre correctly.
206
207 Severity   : enhancement
208 Bugzilla   : 10316
209 Description: Fixed console chatter in case of -ETIMEDOUT.
210
211 Severity   : enhancement
212 Bugzilla   : 11684
213 Description: Added D_NETTRACE for recording network packet history
214              (initially only for ptllnd).  Also a separate userspace
215              ptllnd facility to gather history which should really be
216              covered by D_NETTRACE too, if only CDEBUG recorded history in
217              userspace.
218
219 Severity   : major
220 Frequency  : rare       
221 Bugzilla   : 11616
222 Description: o2iblnd handle early RDMA_CM_EVENT_DISCONNECTED.
223 Details    : If the fabric is lossy, an RDMA_CM_EVENT_DISCONNECTED
224              callback can occur before a connection has actually been
225              established.  This caused an assertion failure previously.
226
227 Severity   : enhancement
228 Bugzilla   : 11094
229 Description: Multiple instances for o2iblnd
230 Details    : Allow multiple instances of o2iblnd to enable networking over
231              multiple HCAs and routing between them.
232
233 Severity   : major
234 Bugzilla   : 11201
235 Description: lnet deadlock in router_checker
236 Details    : turned ksnd_connd_lock, ksnd_reaper_lock, and ksock_net_t:ksnd_lock
237              into BH locks to eliminate potential deadlock caused by
238              ksocknal_data_ready() preempting code holding these locks.
239
240 Severity   : major
241 Bugzilla   : 11126
242 Description: Millions of failed socklnd connection attempts cause a very slow FS
243 Details    : added a new route flag ksnr_scheduled to distinguish from
244              ksnr_connecting, so that a peer connection request is only turned
245              down for race concerns when an active connection to the same peer
246              is under progress (instead of just being scheduled).
247
248 ------------------------------------------------------------------------------
249
250 2007-02-09  Cluster File Systems, Inc. <info@clusterfs.com>
251        * version 1.4.9
252        * Support for networks:
253         socklnd   - kernels up to 2.6.16
254         qswlnd    - Qsnet kernel modules 5.20 and later
255         openiblnd - IbGold 1.8.2
256         o2iblnd   - OFED 1.1
257         viblnd    - Voltaire ibhost 3.4.5 and later
258         ciblnd    - Topspin 3.2.0
259         iiblnd    - Infiniserv 3.3 + PathBits patch
260         gmlnd     - GM 2.1.22 and later
261         mxlnd     - MX 1.2.1 or later
262         ptllnd    - Portals 3.3 / UNICOS/lc 1.5.x, 2.0.x
263        * bug fixes
264
265 Severity   : major on XT3
266 Bugzilla   : none
267 Description: libcfs overwrites /proc/sys/portals
268 Details    : libcfs created a symlink from /proc/sys/portals to
269              /proc/sys/lnet for backwards compatibility.  This is no
270              longer required and makes the Cray portals /proc variables
271              inaccessible.
272
273 Severity   : minor
274 Bugzilla   : 11312
275 Description: OFED FMR API change
276 Details    : This changes parameter usage to reflect a change in
277              ib_fmr_pool_map_phys() between OFED 1.0 and OFED 1.1.  Note
278              that FMR support is only used in experimental versions of the
279              o2iblnd - this change does not affect standard usage at all.
280
281 Severity   : enhancement
282 Bugzilla   : 11245
283 Description: new ko2iblnd module parameter: ib_mtu
284 Details    : the default IB MTU of 2048 performs badly on 23108 Tavor
285              HCAs.  You can avoid this problem by setting the MTU to 1024
286              using this module parameter.
287
288 Severity   : enhancement
289 Bugzilla   : 11118/11620
290 Description: ptllnd small request message buffer alignment fix
291 Details    : Set the PTL_MD_LOCAL_ALIGN8 option on small message receives.
292              Round up small message size on sends in case this option
293              is not supported.  11620 was a defect in the initial
294              implementation which effectively asserted all peers had to be
295              running the correct protocol version which was fixed by always
296              NAK-ing such requests and handling any misalignments they
297              introduce.
298
299 Severity   : minor
300 Frequency  : rarely
301 Description: When kib(nal|lnd)_del_peer() is called upon a peer whose
302              ibp_tx_queue is not empty, kib(nal|lnd)_destroy_peer()'s
303              'LASSERT(list_empty(&peer->ibp_tx_queue))' will fail.
304
305 Severity   : enhancement
306 Bugzilla   : 11250
307 Description: Patchless ZC(zero copy) socklnd
308 Details    : New protocol for socklnd, socklnd can support zero copy without
309              kernel patch, it's compatible with old socklnd. Checksum is 
310              moved from tunables to modparams.
311
312 Severity   : minor
313 Frequency  : rarely
314 Description: When ksocknal_del_peer() is called upon a peer whose
315              ksnp_tx_queue is not empty, ksocknal_destroy_peer()'s
316              'LASSERT(list_empty(&peer->ksnp_tx_queue))' will fail.
317
318 Severity   : normal
319 Frequency  : when ptlrpc is under heavy use and runs out of request buffer
320 Bugzilla   : 11318
321 Description: In lnet_match_blocked_msg(), md can be used without holding a
322              ref on it.
323
324 Severity   : minor
325 Frequency  : very rarely
326 Bugzilla   : 10727
327 Description: If ksocknal_lib_setup_sock() fails, a ref on peer is lost.
328              If connd connects a route which has been closed by
329              ksocknal_shutdown(), ksocknal_create_routes() may create new
330              routes which hold references on the peer, causing shutdown
331              process to wait for peer to disappear forever.
332
333 Severity   : enhancement
334 Bugzilla   : 11234
335 Description: Dump XT3 portals traces on kptllnd timeout
336 Details    : Set the kptllnd module parameter "ptltrace_on_timeout=1" to
337              dump Cray portals debug traces to a file.  The kptllnd module
338              parameter "ptltrace_basename", default "/tmp/lnet-ptltrace",
339              is the basename of the dump file.
340
341 Severity   : major
342 Frequency  : infrequent
343 Bugzilla   : 11308
344 Description: kernel ptllnd fix bug in connection re-establishment
345 Details    : Kernel ptllnd could produce protocol errors e.g. illegal
346              matchbits and/or violate the credit flow protocol when trying
347              to re-establish a connection with a peer after an error or
348              timeout. 
349
350 Severity   : enhancement
351 Bugzilla   : 10316
352 Description: Allow /proc/sys/lnet/debug to be set symbolically
353 Details    : Allow debug and subsystem debug values to be read/set by name
354              in addition to numerically, for ease of use.
355
356 Severity   : normal
357 Frequency  : only in configurations with LNET routers
358 Bugzilla   : 10316
359 Description: routes automatically marked down and recovered
360 Details    : In configurations with LNET routers if a router fails routers
361              now actively try to recover routes that are down, unless they
362              are marked down by an administrator.
363
364 ------------------------------------------------------------------------------
365
366 2006-12-09  Cluster File Systems, Inc. <info@clusterfs.com>
367
368 Severity   : critical
369 Frequency  : very rarely, in configurations with LNET routers and TCP
370 Bugzilla   : 10889
371 Description: incorrect data written to files on OSTs
372 Details    : In certain high-load conditions incorrect data may be written
373              to files on the OST when using TCP networks.
374
375 ------------------------------------------------------------------------------
376
377 2006-07-31  Cluster File Systems, Inc. <info@clusterfs.com>
378         * version 1.4.7
379         - rework CDEBUG messages rate-limiting mechanism b=10375
380         - add per-socket tunables for socklnd if the kernel is patched b=10327
381
382 ------------------------------------------------------------------------------
383
384 2006-02-15  Cluster File Systems, Inc. <info@clusterfs.com>
385         * version 1.4.6
386         - fix use of portals/lnet pid to avoid dropping RPCs b=10074
387         - iiblnd wasn't mapping all memory, resulting in comms errors b=9776
388         - quiet LNET startup LNI message for liblustre b=10128
389         - Better console error messages if 'ip2nets' can't match an IP address
390         - Fixed overflow/use-before-set bugs in linux-time.h
391         - Fixed ptllnd bug that wasn't initialising rx descriptors completely
392         - LNET teardown failed an assertion about the route table being empty
393         - Fixed a crash in LNetEQPoll(<invalid handle>)
394         - Future protocol compatibility work (b_rls146_lnetprotovrsn)
395         - improve debug message for liblustre/Catamount nodes (b=10116)
396
397 2005-10-10  Cluster File Systems, Inc. <info@clusterfs.com>
398         * Configuration change for the XT3
399              The PTLLND is now used to run Lustre over Portals on the XT3.
400              The configure option(s) --with-cray-portals are no longer
401              used.  Rather --with-portals=<path-to-portals-includes> is
402              used to enable building on the XT3.  In addition to enable
403              XT3 specific features the option --enable-cray-xt3 must be
404              used.
405
406 2005-10-10  Cluster File Systems, Inc. <info@clusterfs.com>
407         * Portals has been removed, replaced by LNET.
408            LNET is new networking infrastructure for Lustre, it includes a
409            reorganized network configuration mode (see the user
410            documentation for full details) as well as support for routing
411            between different network fabrics.  Lustre Networking Devices
412            (LNDS) for the supported network fabrics have also been created
413            for this new infrastructure.
414
415 2005-08-08  Cluster File Systems, Inc. <info@clusterfs.com>
416        * version 1.4.4
417        * bug fixes
418
419 Severity   : major
420 Frequency  : rare (large Voltaire clusters only)
421 Bugzilla   : 6993
422 Description: the default number of reserved transmit descriptors was too low
423              for some large clusters
424 Details    : As a workaround, the number was increased.  A proper fix includes
425              a run-time tunable.
426
427 2005-06-02  Cluster File Systems, Inc. <info@clusterfs.com>
428        * version 1.4.3
429        * bug fixes
430
431 Severity   : major
432 Frequency  : occasional (large-scale events, cluster reboot, network failure)
433 Bugzilla   : 6411
434 Description: too many error messages on console obscure actual problem and
435              can slow down/panic server, or cause recovery to fail repeatedly
436 Details    : enable rate-limiting of console error messages, and some messages
437              that were console errors now only go to the kernel log
438
439 Severity   : enhancement
440 Bugzilla   : 1693
441 Description: add /proc/sys/portals/catastrophe entry which will report if
442              that node has previously LBUGged
443
444 2005-04-06  Cluster File Systems, Inc. <info@clusterfs.com>
445        * bugs
446         - update gmnal to use PTL_MTU, fix module refcounting (b=5786)
447
448 2005-04-04  Cluster File Systems, Inc. <info@clusterfs.com>
449        * bugs
450         - handle error return code in kranal_check_fma_rx() (5915,6054)
451
452 2005-02-04  Cluster File Systems, Inc. <info@clusterfs.com>
453        * miscellania
454         - update vibnal (Voltaire IB NAL)
455         - update gmnal (Myrinet NAL), gmnalid
456
457 2005-02-04  Eric Barton  <eeb@bartonsoftware.com>
458
459         * Landed portals:b_port_step as follows...
460
461           - removed CFS_DECL_SPIN* 
462             just use 'spinlock_t' and initialise with spin_lock_init()
463
464           - removed CFS_DECL_MUTEX*
465             just use 'struct semaphore' and initialise with init_mutex()
466
467           - removed CFS_DECL_RWSEM*
468             just use 'struct rw_semaphore' and initialise with init_rwsem()
469
470           - renamed cfs_sleep_chan -> cfs_waitq
471                     cfs_sleep_link -> cfs_waitlink
472
473           - fixed race in linux version of arch-independent socknal
474             (the ENOMEM/EAGAIN decision).
475
476           - Didn't fix problems in Darwin version of arch-independent socknal
477             (resetting socket callbacks, eager ack hack, ENOMEM/EAGAIN decision)
478
479           - removed libcfs types from non-socknal header files (only some types
480             in the header files had been changed; the .c files hadn't been
481             updated at all).