Whamcloud - gitweb
Branch HEAD
[fs/lustre-release.git] / lnet / ChangeLog
1 2007-08-27         Cluster File Systems, Inc. <info@clusterfs.com>
2        * version 1.6.2
3        * Support for networks:
4         socklnd   - kernels up to 2.6.16
5         qswlnd    - Qsnet kernel modules 5.20 and later
6         openiblnd - IbGold 1.8.2
7         o2iblnd   - OFED 1.1 and 1.2
8         viblnd    - Voltaire ibhost 3.4.5 and later
9         ciblnd    - Topspin 3.2.0
10         iiblnd    - Infiniserv 3.3 + PathBits patch
11         gmlnd     - GM 2.1.22 and later
12         mxlnd     - MX 1.2.1 or later
13         ptllnd    - Portals 3.3 / UNICOS/lc 1.5.x, 2.0.x
14
15 2007-07-30  Cluster File Systems, Inc. <info@clusterfs.com>
16        * version 1.4.11 / 1.6.1
17        * Support for networks:
18         socklnd   - kernels up to 2.6.16
19         qswlnd    - Qsnet kernel modules 5.20 and later
20         openiblnd - IbGold 1.8.2
21         o2iblnd   - OFED 1.1 and 1.2
22         viblnd    - Voltaire ibhost 3.4.5 and later
23         ciblnd    - Topspin 3.2.0
24         iiblnd    - Infiniserv 3.3 + PathBits patch
25         gmlnd     - GM 2.1.22 and later
26         mxlnd     - MX 1.2.1 or later
27         ptllnd    - Portals 3.3 / UNICOS/lc 1.5.x, 2.0.x
28        * bug fixes
29
30 Severity   : minor
31 Bugzilla   : 13288
32 Description: Initialize cpumask before use
33
34 Severity   : major
35 Bugzilla   : 12014
36 Description: ASSERTION failures when upgrading to the patchless zero-copy
37              socklnd 
38 Details    : This bug affects "rolling upgrades", causing an inconsistent
39              protocol version negotiation and subsequent assertion failure
40              during rolling upgrades after the first wave of upgrades.
41
42 Severity   : minor
43 Bugzilla   : 11223
44 Details    : Change "dropped message" CERRORs to D_NETERROR so they are
45              logged instead of creating "console chatter" when a lustre
46              timeout races with normal RPC completion.
47
48 Severity   : minor
49 Details    : lnet_clear_peer_table can wait forever if user forgets to
50              clear a lazy portal.
51
52 Severity   : minor
53 Details    : libcfs_id2str should check pid against LNET_PID_ANY.
54
55 Severity   : major
56 Bugzilla   : 10916
57 Description: added LNET self test
58 Details    : landing b_self_test
59
60 Severity   : minor
61 Frequency  : rare
62 Bugzilla   : 12227
63 Description: cfs_duration_{u,n}sec() wrongly calculate nanosecond part of
64              struct timeval.
65 Details    : do_div() macro is used incorrectly.
66
67 2007-04-23  Cluster File Systems, Inc. <info@clusterfs.com>
68
69 Severity   : normal
70 Bugzilla   : 11680
71 Description: make panic on lbug configurable
72
73 Severity   : major
74 Bugzilla   : 12316
75 Description: Add OFED1.2 support to o2iblnd
76 Details    : o2iblnd depends on OFED's modules, if out-tree OFED's modules
77              are installed (other than kernel's in-tree infiniband), there
78              could be some problem while insmod o2iblnd (mismatch CRC of 
79              ib_* symbols).
80              If extra Module.symvers is supported in kernel (i.e, 2.6.17),
81              this link provides solution:
82              https://bugs.openfabrics.org/show_bug.cgi?id=355
83              if extra Module.symvers is not supported in kernel, we will
84              have to run the script in bug 12316 to update
85              $LINUX/module.symvers before building o2iblnd.
86              More details about this are in bug 12316.
87
88 ------------------------------------------------------------------------------
89
90 2007-04-01  Cluster File Systems, Inc. <info@clusterfs.com>
91        * version 1.4.10 / 1.6.0
92        * Support for networks:
93         socklnd   - kernels up to 2.6.16
94         qswlnd    - Qsnet kernel modules 5.20 and later
95         openiblnd - IbGold 1.8.2
96         o2iblnd   - OFED 1.1
97         viblnd    - Voltaire ibhost 3.4.5 and later
98         ciblnd    - Topspin 3.2.0
99         iiblnd    - Infiniserv 3.3 + PathBits patch
100         gmlnd     - GM 2.1.22 and later
101         mxlnd     - MX 1.2.1 or later
102         ptllnd    - Portals 3.3 / UNICOS/lc 1.5.x, 2.0.x
103        * bug fixes
104         
105 Severity   : minor
106 Frequency  : rare
107 Description: Ptllnd didn't init kptllnd_data.kptl_idle_txs before it could be
108              possibly accessed in kptllnd_shutdown. Ptllnd should init 
109              kptllnd_data.kptl_ptlid2str_lock before calling kptllnd_ptlid2str.
110
111 Severity   : normal
112 Frequency  : rare
113 Description: gmlnd ignored some transmit errors when finalizing lnet messages.
114
115 Severity   : minor
116 Frequency  : rare
117 Description: ptllnd logs a piece of incorrect debug info in kptllnd_peer_handle_hello.
118
119 Severity   : minor
120 Frequency  : rare
121 Description: the_lnet.ln_finalizing was not set when the current thread is
122              about to complete messages. It only affects multi-threaded 
123              user space LNet.
124         
125 Severity   : normal
126 Frequency  : rare
127 Bugzilla   : 11472
128 Description: Changed the default kqswlnd ntxmsg=512
129         
130 Severity   : major
131 Frequency  : rare
132 Bugzilla   : 12458
133 Description: Assertion failure in kernel ptllnd caused by posting passive
134              bulk buffers before connection establishment complete.
135         
136 Severity   : major
137 Frequency  : rare
138 Bugzilla   : 12455
139 Description: A race in kernel ptllnd between deleting a peer and posting
140              new communications for it could hang communications -
141              manifesting as "Unexpectedly long timeout" messages.
142         
143 Severity   : major
144 Frequency  : rare
145 Bugzilla   : 12432
146 Description: Kernel ptllnd lock ordering issue could hang a node.
147         
148 Severity   : major
149 Frequency  : rare
150 Bugzilla   : 12016
151 Description: node crash on socket teardown race
152
153 Severity   : minor
154 Frequency  : 'lctl peer_list' issued on a mx net
155 Bugzilla   : 12237
156 Description: Enable lctl's peer_list for MXLND
157
158 Severity   : major
159 Frequency  : after Ptllnd timeouts and portals congestion
160 Bugzilla   : 11659
161 Description: Credit overflows
162 Details    : This was a bug in ptllnd connection establishment.  The fix
163              implements better peer stamps to disambiguate connection
164              establishment and ensure both peers enter the credit flow
165              state machine consistently.
166
167 Severity   : major
168 Frequency  : rare       
169 Bugzilla   : 11394
170 Description: kptllnd didn't propagate some network errors up to LNET 
171 Details    : This bug was spotted while investigating 11394.  The fix
172              ensures network errors on sends and bulk transfers are
173              propagated to LNET/lustre correctly.
174
175 Severity   : enhancement
176 Bugzilla   : 10316
177 Description: Fixed console chatter in case of -ETIMEDOUT.
178
179 Severity   : enhancement
180 Bugzilla   : 11684
181 Description: Added D_NETTRACE for recording network packet history
182              (initially only for ptllnd).  Also a separate userspace
183              ptllnd facility to gather history which should really be
184              covered by D_NETTRACE too, if only CDEBUG recorded history in
185              userspace.
186
187 Severity   : major
188 Frequency  : rare       
189 Bugzilla   : 11616
190 Description: o2iblnd handle early RDMA_CM_EVENT_DISCONNECTED.
191 Details    : If the fabric is lossy, an RDMA_CM_EVENT_DISCONNECTED
192              callback can occur before a connection has actually been
193              established.  This caused an assertion failure previously.
194
195 Severity   : enhancement
196 Bugzilla   : 11094
197 Description: Multiple instances for o2iblnd
198 Details    : Allow multiple instances of o2iblnd to enable networking over
199              multiple HCAs and routing between them.
200
201 Severity   : major
202 Bugzilla   : 11201
203 Description: lnet deadlock in router_checker
204 Details    : turned ksnd_connd_lock, ksnd_reaper_lock, and ksock_net_t:ksnd_lock
205              into BH locks to eliminate potential deadlock caused by
206              ksocknal_data_ready() preempting code holding these locks.
207
208 Severity   : major
209 Bugzilla   : 11126
210 Description: Millions of failed socklnd connection attempts cause a very slow FS
211 Details    : added a new route flag ksnr_scheduled to distinguish from
212              ksnr_connecting, so that a peer connection request is only turned
213              down for race concerns when an active connection to the same peer
214              is under progress (instead of just being scheduled).
215
216 ------------------------------------------------------------------------------
217
218 2007-02-09  Cluster File Systems, Inc. <info@clusterfs.com>
219        * version 1.4.9
220        * Support for networks:
221         socklnd   - kernels up to 2.6.16
222         qswlnd    - Qsnet kernel modules 5.20 and later
223         openiblnd - IbGold 1.8.2
224         o2iblnd   - OFED 1.1
225         viblnd    - Voltaire ibhost 3.4.5 and later
226         ciblnd    - Topspin 3.2.0
227         iiblnd    - Infiniserv 3.3 + PathBits patch
228         gmlnd     - GM 2.1.22 and later
229         mxlnd     - MX 1.2.1 or later
230         ptllnd    - Portals 3.3 / UNICOS/lc 1.5.x, 2.0.x
231        * bug fixes
232
233 Severity   : major on XT3
234 Bugzilla   : none
235 Description: libcfs overwrites /proc/sys/portals
236 Details    : libcfs created a symlink from /proc/sys/portals to
237              /proc/sys/lnet for backwards compatibility.  This is no
238              longer required and makes the Cray portals /proc variables
239              inaccessible.
240
241 Severity   : minor
242 Bugzilla   : 11312
243 Description: OFED FMR API change
244 Details    : This changes parameter usage to reflect a change in
245              ib_fmr_pool_map_phys() between OFED 1.0 and OFED 1.1.  Note
246              that FMR support is only used in experimental versions of the
247              o2iblnd - this change does not affect standard usage at all.
248
249 Severity   : enhancement
250 Bugzilla   : 11245
251 Description: new ko2iblnd module parameter: ib_mtu
252 Details    : the default IB MTU of 2048 performs badly on 23108 Tavor
253              HCAs.  You can avoid this problem by setting the MTU to 1024
254              using this module parameter.
255
256 Severity   : enhancement
257 Bugzilla   : 11118/11620
258 Description: ptllnd small request message buffer alignment fix
259 Details    : Set the PTL_MD_LOCAL_ALIGN8 option on small message receives.
260              Round up small message size on sends in case this option
261              is not supported.  11620 was a defect in the initial
262              implementation which effectively asserted all peers had to be
263              running the correct protocol version which was fixed by always
264              NAK-ing such requests and handling any misalignments they
265              introduce.
266
267 Severity   : minor
268 Frequency  : rarely
269 Description: When kib(nal|lnd)_del_peer() is called upon a peer whose
270              ibp_tx_queue is not empty, kib(nal|lnd)_destroy_peer()'s
271              'LASSERT(list_empty(&peer->ibp_tx_queue))' will fail.
272
273 Severity   : enhancement
274 Bugzilla   : 11250
275 Description: Patchless ZC(zero copy) socklnd
276 Details    : New protocol for socklnd, socklnd can support zero copy without
277              kernel patch, it's compatible with old socklnd. Checksum is 
278              moved from tunables to modparams.
279
280 Severity   : minor
281 Frequency  : rarely
282 Description: When ksocknal_del_peer() is called upon a peer whose
283              ksnp_tx_queue is not empty, ksocknal_destroy_peer()'s
284              'LASSERT(list_empty(&peer->ksnp_tx_queue))' will fail.
285
286 Severity   : normal
287 Frequency  : when ptlrpc is under heavy use and runs out of request buffer
288 Bugzilla   : 11318
289 Description: In lnet_match_blocked_msg(), md can be used without holding a
290              ref on it.
291
292 Severity   : minor
293 Frequency  : very rarely
294 Bugzilla   : 10727
295 Description: If ksocknal_lib_setup_sock() fails, a ref on peer is lost.
296              If connd connects a route which has been closed by
297              ksocknal_shutdown(), ksocknal_create_routes() may create new
298              routes which hold references on the peer, causing shutdown
299              process to wait for peer to disappear forever.
300
301 Severity   : enhancement
302 Bugzilla   : 11234
303 Description: Dump XT3 portals traces on kptllnd timeout
304 Details    : Set the kptllnd module parameter "ptltrace_on_timeout=1" to
305              dump Cray portals debug traces to a file.  The kptllnd module
306              parameter "ptltrace_basename", default "/tmp/lnet-ptltrace",
307              is the basename of the dump file.
308
309 Severity   : major
310 Frequency  : infrequent
311 Bugzilla   : 11308
312 Description: kernel ptllnd fix bug in connection re-establishment
313 Details    : Kernel ptllnd could produce protocol errors e.g. illegal
314              matchbits and/or violate the credit flow protocol when trying
315              to re-establish a connection with a peer after an error or
316              timeout. 
317
318 Severity   : enhancement
319 Bugzilla   : 10316
320 Description: Allow /proc/sys/lnet/debug to be set symbolically
321 Details    : Allow debug and subsystem debug values to be read/set by name
322              in addition to numerically, for ease of use.
323
324 Severity   : normal
325 Frequency  : only in configurations with LNET routers
326 Bugzilla   : 10316
327 Description: routes automatically marked down and recovered
328 Details    : In configurations with LNET routers if a router fails routers
329              now actively try to recover routes that are down, unless they
330              are marked down by an administrator.
331
332 ------------------------------------------------------------------------------
333
334 2006-12-09  Cluster File Systems, Inc. <info@clusterfs.com>
335
336 Severity   : critical
337 Frequency  : very rarely, in configurations with LNET routers and TCP
338 Bugzilla   : 10889
339 Description: incorrect data written to files on OSTs
340 Details    : In certain high-load conditions incorrect data may be written
341              to files on the OST when using TCP networks.
342
343 ------------------------------------------------------------------------------
344
345 2006-07-31  Cluster File Systems, Inc. <info@clusterfs.com>
346         * version 1.4.7
347         - rework CDEBUG messages rate-limiting mechanism b=10375
348         - add per-socket tunables for socklnd if the kernel is patched b=10327
349
350 ------------------------------------------------------------------------------
351
352 2006-02-15  Cluster File Systems, Inc. <info@clusterfs.com>
353         * version 1.4.6
354         - fix use of portals/lnet pid to avoid dropping RPCs b=10074
355         - iiblnd wasn't mapping all memory, resulting in comms errors b=9776
356         - quiet LNET startup LNI message for liblustre b=10128
357         - Better console error messages if 'ip2nets' can't match an IP address
358         - Fixed overflow/use-before-set bugs in linux-time.h
359         - Fixed ptllnd bug that wasn't initialising rx descriptors completely
360         - LNET teardown failed an assertion about the route table being empty
361         - Fixed a crash in LNetEQPoll(<invalid handle>)
362         - Future protocol compatibility work (b_rls146_lnetprotovrsn)
363         - improve debug message for liblustre/Catamount nodes (b=10116)
364
365 2005-10-10  Cluster File Systems, Inc. <info@clusterfs.com>
366         * Configuration change for the XT3
367              The PTLLND is now used to run Lustre over Portals on the XT3.
368              The configure option(s) --with-cray-portals are no longer
369              used.  Rather --with-portals=<path-to-portals-includes> is
370              used to enable building on the XT3.  In addition to enable
371              XT3 specific features the option --enable-cray-xt3 must be
372              used.
373
374 2005-10-10  Cluster File Systems, Inc. <info@clusterfs.com>
375         * Portals has been removed, replaced by LNET.
376            LNET is new networking infrastructure for Lustre, it includes a
377            reorganized network configuration mode (see the user
378            documentation for full details) as well as support for routing
379            between different network fabrics.  Lustre Networking Devices
380            (LNDS) for the supported network fabrics have also been created
381            for this new infrastructure.
382
383 2005-08-08  Cluster File Systems, Inc. <info@clusterfs.com>
384        * version 1.4.4
385        * bug fixes
386
387 Severity   : major
388 Frequency  : rare (large Voltaire clusters only)
389 Bugzilla   : 6993
390 Description: the default number of reserved transmit descriptors was too low
391              for some large clusters
392 Details    : As a workaround, the number was increased.  A proper fix includes
393              a run-time tunable.
394
395 2005-06-02  Cluster File Systems, Inc. <info@clusterfs.com>
396        * version 1.4.3
397        * bug fixes
398
399 Severity   : major
400 Frequency  : occasional (large-scale events, cluster reboot, network failure)
401 Bugzilla   : 6411
402 Description: too many error messages on console obscure actual problem and
403              can slow down/panic server, or cause recovery to fail repeatedly
404 Details    : enable rate-limiting of console error messages, and some messages
405              that were console errors now only go to the kernel log
406
407 Severity   : enhancement
408 Bugzilla   : 1693
409 Description: add /proc/sys/portals/catastrophe entry which will report if
410              that node has previously LBUGged
411
412 2005-04-06  Cluster File Systems, Inc. <info@clusterfs.com>
413        * bugs
414         - update gmnal to use PTL_MTU, fix module refcounting (b=5786)
415
416 2005-04-04  Cluster File Systems, Inc. <info@clusterfs.com>
417        * bugs
418         - handle error return code in kranal_check_fma_rx() (5915,6054)
419
420 2005-02-04  Cluster File Systems, Inc. <info@clusterfs.com>
421        * miscellania
422         - update vibnal (Voltaire IB NAL)
423         - update gmnal (Myrinet NAL), gmnalid
424
425 2005-02-04  Eric Barton  <eeb@bartonsoftware.com>
426
427         * Landed portals:b_port_step as follows...
428
429           - removed CFS_DECL_SPIN* 
430             just use 'spinlock_t' and initialise with spin_lock_init()
431
432           - removed CFS_DECL_MUTEX*
433             just use 'struct semaphore' and initialise with init_mutex()
434
435           - removed CFS_DECL_RWSEM*
436             just use 'struct rw_semaphore' and initialise with init_rwsem()
437
438           - renamed cfs_sleep_chan -> cfs_waitq
439                     cfs_sleep_link -> cfs_waitlink
440
441           - fixed race in linux version of arch-independent socknal
442             (the ENOMEM/EAGAIN decision).
443
444           - Didn't fix problems in Darwin version of arch-independent socknal
445             (resetting socket callbacks, eager ack hack, ENOMEM/EAGAIN decision)
446
447           - removed libcfs types from non-socknal header files (only some types
448             in the header files had been changed; the .c files hadn't been
449             updated at all).