Whamcloud - gitweb
5906642cf792bb5d5a2defe6807796de1775ee33
[fs/lustre-release.git] / lnet / ChangeLog
1 2007-08-27         Cluster File Systems, Inc. <info@clusterfs.com>
2        * version 1.6.2
3        * Support for networks:
4         socklnd   - kernels up to 2.6.16
5         qswlnd    - Qsnet kernel modules 5.20 and later
6         openiblnd - IbGold 1.8.2
7         o2iblnd   - OFED 1.1 and 1.2
8         viblnd    - Voltaire ibhost 3.4.5 and later
9         ciblnd    - Topspin 3.2.0
10         iiblnd    - Infiniserv 3.3 + PathBits patch
11         gmlnd     - GM 2.1.22 and later
12         mxlnd     - MX 1.2.1 or later
13         ptllnd    - Portals 3.3 / UNICOS/lc 1.5.x, 2.0.x
14
15 2007-07-30  Cluster File Systems, Inc. <info@clusterfs.com>
16        * version 1.4.11 / 1.6.1
17        * Support for networks:
18         socklnd   - kernels up to 2.6.16
19         qswlnd    - Qsnet kernel modules 5.20 and later
20         openiblnd - IbGold 1.8.2
21         o2iblnd   - OFED 1.1 and 1.2
22         viblnd    - Voltaire ibhost 3.4.5 and later
23         ciblnd    - Topspin 3.2.0
24         iiblnd    - Infiniserv 3.3 + PathBits patch
25         gmlnd     - GM 2.1.22 and later
26         mxlnd     - MX 1.2.1 or later
27         ptllnd    - Portals 3.3 / UNICOS/lc 1.5.x, 2.0.x
28        * bug fixes
29
30 Severity   : major
31 Bugzilla   : 12014
32 Description: ASSERTION failures when upgrading to the patchless zero-copy
33              socklnd 
34 Details    : This bug affects "rolling upgrades", causing an inconsistent
35              protocol version negotiation and subsequent assertion failure
36              during rolling upgrades after the first wave of upgrades.
37
38 Severity   : minor
39 Bugzilla   : 11223
40 Details    : Change "dropped message" CERRORs to D_NETERROR so they are
41              logged instead of creating "console chatter" when a lustre
42              timeout races with normal RPC completion.
43
44 Severity   : minor
45 Details    : lnet_clear_peer_table can wait forever if user forgets to
46              clear a lazy portal.
47
48 Severity   : minor
49 Details    : libcfs_id2str should check pid against LNET_PID_ANY.
50
51 Severity   : major
52 Bugzilla   : 10916
53 Description: added LNET self test
54 Details    : landing b_self_test
55
56 Severity   : minor
57 Frequency  : rare
58 Bugzilla   : 12227
59 Description: cfs_duration_{u,n}sec() wrongly calculate nanosecond part of
60              struct timeval.
61 Details    : do_div() macro is used incorrectly.
62
63 2007-04-23  Cluster File Systems, Inc. <info@clusterfs.com>
64
65 Severity   : normal
66 Bugzilla   : 11680
67 Description: make panic on lbug configurable
68
69 Severity   : major
70 Bugzilla   : 12316
71 Description: Add OFED1.2 support to o2iblnd
72 Details    : o2iblnd depends on OFED's modules, if out-tree OFED's modules
73              are installed (other than kernel's in-tree infiniband), there
74              could be some problem while insmod o2iblnd (mismatch CRC of 
75              ib_* symbols).
76              If extra Module.symvers is supported in kernel (i.e, 2.6.17),
77              this link provides solution:
78              https://bugs.openfabrics.org/show_bug.cgi?id=355
79              if extra Module.symvers is not supported in kernel, we will
80              have to run the script in bug 12316 to update
81              $LINUX/module.symvers before building o2iblnd.
82              More details about this are in bug 12316.
83
84 ------------------------------------------------------------------------------
85
86 2007-04-01  Cluster File Systems, Inc. <info@clusterfs.com>
87        * version 1.4.10 / 1.6.0
88        * Support for networks:
89         socklnd   - kernels up to 2.6.16
90         qswlnd    - Qsnet kernel modules 5.20 and later
91         openiblnd - IbGold 1.8.2
92         o2iblnd   - OFED 1.1
93         viblnd    - Voltaire ibhost 3.4.5 and later
94         ciblnd    - Topspin 3.2.0
95         iiblnd    - Infiniserv 3.3 + PathBits patch
96         gmlnd     - GM 2.1.22 and later
97         mxlnd     - MX 1.2.1 or later
98         ptllnd    - Portals 3.3 / UNICOS/lc 1.5.x, 2.0.x
99        * bug fixes
100         
101 Severity   : minor
102 Frequency  : rare
103 Description: Ptllnd didn't init kptllnd_data.kptl_idle_txs before it could be
104              possibly accessed in kptllnd_shutdown. Ptllnd should init 
105              kptllnd_data.kptl_ptlid2str_lock before calling kptllnd_ptlid2str.
106
107 Severity   : normal
108 Frequency  : rare
109 Description: gmlnd ignored some transmit errors when finalizing lnet messages.
110
111 Severity   : minor
112 Frequency  : rare
113 Description: ptllnd logs a piece of incorrect debug info in kptllnd_peer_handle_hello.
114
115 Severity   : minor
116 Frequency  : rare
117 Description: the_lnet.ln_finalizing was not set when the current thread is
118              about to complete messages. It only affects multi-threaded 
119              user space LNet.
120         
121 Severity   : normal
122 Frequency  : rare
123 Bugzilla   : 11472
124 Description: Changed the default kqswlnd ntxmsg=512
125         
126 Severity   : major
127 Frequency  : rare
128 Bugzilla   : 12458
129 Description: Assertion failure in kernel ptllnd caused by posting passive
130              bulk buffers before connection establishment complete.
131         
132 Severity   : major
133 Frequency  : rare
134 Bugzilla   : 12455
135 Description: A race in kernel ptllnd between deleting a peer and posting
136              new communications for it could hang communications -
137              manifesting as "Unexpectedly long timeout" messages.
138         
139 Severity   : major
140 Frequency  : rare
141 Bugzilla   : 12432
142 Description: Kernel ptllnd lock ordering issue could hang a node.
143         
144 Severity   : major
145 Frequency  : rare
146 Bugzilla   : 12016
147 Description: node crash on socket teardown race
148
149 Severity   : minor
150 Frequency  : 'lctl peer_list' issued on a mx net
151 Bugzilla   : 12237
152 Description: Enable lctl's peer_list for MXLND
153
154 Severity   : major
155 Frequency  : after Ptllnd timeouts and portals congestion
156 Bugzilla   : 11659
157 Description: Credit overflows
158 Details    : This was a bug in ptllnd connection establishment.  The fix
159              implements better peer stamps to disambiguate connection
160              establishment and ensure both peers enter the credit flow
161              state machine consistently.
162
163 Severity   : major
164 Frequency  : rare       
165 Bugzilla   : 11394
166 Description: kptllnd didn't propagate some network errors up to LNET 
167 Details    : This bug was spotted while investigating 11394.  The fix
168              ensures network errors on sends and bulk transfers are
169              propagated to LNET/lustre correctly.
170
171 Severity   : enhancement
172 Bugzilla   : 10316
173 Description: Fixed console chatter in case of -ETIMEDOUT.
174
175 Severity   : enhancement
176 Bugzilla   : 11684
177 Description: Added D_NETTRACE for recording network packet history
178              (initially only for ptllnd).  Also a separate userspace
179              ptllnd facility to gather history which should really be
180              covered by D_NETTRACE too, if only CDEBUG recorded history in
181              userspace.
182
183 Severity   : major
184 Frequency  : rare       
185 Bugzilla   : 11616
186 Description: o2iblnd handle early RDMA_CM_EVENT_DISCONNECTED.
187 Details    : If the fabric is lossy, an RDMA_CM_EVENT_DISCONNECTED
188              callback can occur before a connection has actually been
189              established.  This caused an assertion failure previously.
190
191 Severity   : enhancement
192 Bugzilla   : 11094
193 Description: Multiple instances for o2iblnd
194 Details    : Allow multiple instances of o2iblnd to enable networking over
195              multiple HCAs and routing between them.
196
197 Severity   : major
198 Bugzilla   : 11201
199 Description: lnet deadlock in router_checker
200 Details    : turned ksnd_connd_lock, ksnd_reaper_lock, and ksock_net_t:ksnd_lock
201              into BH locks to eliminate potential deadlock caused by
202              ksocknal_data_ready() preempting code holding these locks.
203
204 Severity   : major
205 Bugzilla   : 11126
206 Description: Millions of failed socklnd connection attempts cause a very slow FS
207 Details    : added a new route flag ksnr_scheduled to distinguish from
208              ksnr_connecting, so that a peer connection request is only turned
209              down for race concerns when an active connection to the same peer
210              is under progress (instead of just being scheduled).
211
212 ------------------------------------------------------------------------------
213
214 2007-02-09  Cluster File Systems, Inc. <info@clusterfs.com>
215        * version 1.4.9
216        * Support for networks:
217         socklnd   - kernels up to 2.6.16
218         qswlnd    - Qsnet kernel modules 5.20 and later
219         openiblnd - IbGold 1.8.2
220         o2iblnd   - OFED 1.1
221         viblnd    - Voltaire ibhost 3.4.5 and later
222         ciblnd    - Topspin 3.2.0
223         iiblnd    - Infiniserv 3.3 + PathBits patch
224         gmlnd     - GM 2.1.22 and later
225         mxlnd     - MX 1.2.1 or later
226         ptllnd    - Portals 3.3 / UNICOS/lc 1.5.x, 2.0.x
227        * bug fixes
228
229 Severity   : major on XT3
230 Bugzilla   : none
231 Description: libcfs overwrites /proc/sys/portals
232 Details    : libcfs created a symlink from /proc/sys/portals to
233              /proc/sys/lnet for backwards compatibility.  This is no
234              longer required and makes the Cray portals /proc variables
235              inaccessible.
236
237 Severity   : minor
238 Bugzilla   : 11312
239 Description: OFED FMR API change
240 Details    : This changes parameter usage to reflect a change in
241              ib_fmr_pool_map_phys() between OFED 1.0 and OFED 1.1.  Note
242              that FMR support is only used in experimental versions of the
243              o2iblnd - this change does not affect standard usage at all.
244
245 Severity   : enhancement
246 Bugzilla   : 11245
247 Description: new ko2iblnd module parameter: ib_mtu
248 Details    : the default IB MTU of 2048 performs badly on 23108 Tavor
249              HCAs.  You can avoid this problem by setting the MTU to 1024
250              using this module parameter.
251
252 Severity   : enhancement
253 Bugzilla   : 11118/11620
254 Description: ptllnd small request message buffer alignment fix
255 Details    : Set the PTL_MD_LOCAL_ALIGN8 option on small message receives.
256              Round up small message size on sends in case this option
257              is not supported.  11620 was a defect in the initial
258              implementation which effectively asserted all peers had to be
259              running the correct protocol version which was fixed by always
260              NAK-ing such requests and handling any misalignments they
261              introduce.
262
263 Severity   : minor
264 Frequency  : rarely
265 Description: When kib(nal|lnd)_del_peer() is called upon a peer whose
266              ibp_tx_queue is not empty, kib(nal|lnd)_destroy_peer()'s
267              'LASSERT(list_empty(&peer->ibp_tx_queue))' will fail.
268
269 Severity   : enhancement
270 Bugzilla   : 11250
271 Description: Patchless ZC(zero copy) socklnd
272 Details    : New protocol for socklnd, socklnd can support zero copy without
273              kernel patch, it's compatible with old socklnd. Checksum is 
274              moved from tunables to modparams.
275
276 Severity   : minor
277 Frequency  : rarely
278 Description: When ksocknal_del_peer() is called upon a peer whose
279              ksnp_tx_queue is not empty, ksocknal_destroy_peer()'s
280              'LASSERT(list_empty(&peer->ksnp_tx_queue))' will fail.
281
282 Severity   : normal
283 Frequency  : when ptlrpc is under heavy use and runs out of request buffer
284 Bugzilla   : 11318
285 Description: In lnet_match_blocked_msg(), md can be used without holding a
286              ref on it.
287
288 Severity   : minor
289 Frequency  : very rarely
290 Bugzilla   : 10727
291 Description: If ksocknal_lib_setup_sock() fails, a ref on peer is lost.
292              If connd connects a route which has been closed by
293              ksocknal_shutdown(), ksocknal_create_routes() may create new
294              routes which hold references on the peer, causing shutdown
295              process to wait for peer to disappear forever.
296
297 Severity   : enhancement
298 Bugzilla   : 11234
299 Description: Dump XT3 portals traces on kptllnd timeout
300 Details    : Set the kptllnd module parameter "ptltrace_on_timeout=1" to
301              dump Cray portals debug traces to a file.  The kptllnd module
302              parameter "ptltrace_basename", default "/tmp/lnet-ptltrace",
303              is the basename of the dump file.
304
305 Severity   : major
306 Frequency  : infrequent
307 Bugzilla   : 11308
308 Description: kernel ptllnd fix bug in connection re-establishment
309 Details    : Kernel ptllnd could produce protocol errors e.g. illegal
310              matchbits and/or violate the credit flow protocol when trying
311              to re-establish a connection with a peer after an error or
312              timeout. 
313
314 Severity   : enhancement
315 Bugzilla   : 10316
316 Description: Allow /proc/sys/lnet/debug to be set symbolically
317 Details    : Allow debug and subsystem debug values to be read/set by name
318              in addition to numerically, for ease of use.
319
320 Severity   : normal
321 Frequency  : only in configurations with LNET routers
322 Bugzilla   : 10316
323 Description: routes automatically marked down and recovered
324 Details    : In configurations with LNET routers if a router fails routers
325              now actively try to recover routes that are down, unless they
326              are marked down by an administrator.
327
328 ------------------------------------------------------------------------------
329
330 2006-12-09  Cluster File Systems, Inc. <info@clusterfs.com>
331
332 Severity   : critical
333 Frequency  : very rarely, in configurations with LNET routers and TCP
334 Bugzilla   : 10889
335 Description: incorrect data written to files on OSTs
336 Details    : In certain high-load conditions incorrect data may be written
337              to files on the OST when using TCP networks.
338
339 ------------------------------------------------------------------------------
340
341 2006-07-31  Cluster File Systems, Inc. <info@clusterfs.com>
342         * version 1.4.7
343         - rework CDEBUG messages rate-limiting mechanism b=10375
344         - add per-socket tunables for socklnd if the kernel is patched b=10327
345
346 ------------------------------------------------------------------------------
347
348 2006-02-15  Cluster File Systems, Inc. <info@clusterfs.com>
349         * version 1.4.6
350         - fix use of portals/lnet pid to avoid dropping RPCs b=10074
351         - iiblnd wasn't mapping all memory, resulting in comms errors b=9776
352         - quiet LNET startup LNI message for liblustre b=10128
353         - Better console error messages if 'ip2nets' can't match an IP address
354         - Fixed overflow/use-before-set bugs in linux-time.h
355         - Fixed ptllnd bug that wasn't initialising rx descriptors completely
356         - LNET teardown failed an assertion about the route table being empty
357         - Fixed a crash in LNetEQPoll(<invalid handle>)
358         - Future protocol compatibility work (b_rls146_lnetprotovrsn)
359         - improve debug message for liblustre/Catamount nodes (b=10116)
360
361 2005-10-10  Cluster File Systems, Inc. <info@clusterfs.com>
362         * Configuration change for the XT3
363              The PTLLND is now used to run Lustre over Portals on the XT3.
364              The configure option(s) --with-cray-portals are no longer
365              used.  Rather --with-portals=<path-to-portals-includes> is
366              used to enable building on the XT3.  In addition to enable
367              XT3 specific features the option --enable-cray-xt3 must be
368              used.
369
370 2005-10-10  Cluster File Systems, Inc. <info@clusterfs.com>
371         * Portals has been removed, replaced by LNET.
372            LNET is new networking infrastructure for Lustre, it includes a
373            reorganized network configuration mode (see the user
374            documentation for full details) as well as support for routing
375            between different network fabrics.  Lustre Networking Devices
376            (LNDS) for the supported network fabrics have also been created
377            for this new infrastructure.
378
379 2005-08-08  Cluster File Systems, Inc. <info@clusterfs.com>
380        * version 1.4.4
381        * bug fixes
382
383 Severity   : major
384 Frequency  : rare (large Voltaire clusters only)
385 Bugzilla   : 6993
386 Description: the default number of reserved transmit descriptors was too low
387              for some large clusters
388 Details    : As a workaround, the number was increased.  A proper fix includes
389              a run-time tunable.
390
391 2005-06-02  Cluster File Systems, Inc. <info@clusterfs.com>
392        * version 1.4.3
393        * bug fixes
394
395 Severity   : major
396 Frequency  : occasional (large-scale events, cluster reboot, network failure)
397 Bugzilla   : 6411
398 Description: too many error messages on console obscure actual problem and
399              can slow down/panic server, or cause recovery to fail repeatedly
400 Details    : enable rate-limiting of console error messages, and some messages
401              that were console errors now only go to the kernel log
402
403 Severity   : enhancement
404 Bugzilla   : 1693
405 Description: add /proc/sys/portals/catastrophe entry which will report if
406              that node has previously LBUGged
407
408 2005-04-06  Cluster File Systems, Inc. <info@clusterfs.com>
409        * bugs
410         - update gmnal to use PTL_MTU, fix module refcounting (b=5786)
411
412 2005-04-04  Cluster File Systems, Inc. <info@clusterfs.com>
413        * bugs
414         - handle error return code in kranal_check_fma_rx() (5915,6054)
415
416 2005-02-04  Cluster File Systems, Inc. <info@clusterfs.com>
417        * miscellania
418         - update vibnal (Voltaire IB NAL)
419         - update gmnal (Myrinet NAL), gmnalid
420
421 2005-02-04  Eric Barton  <eeb@bartonsoftware.com>
422
423         * Landed portals:b_port_step as follows...
424
425           - removed CFS_DECL_SPIN* 
426             just use 'spinlock_t' and initialise with spin_lock_init()
427
428           - removed CFS_DECL_MUTEX*
429             just use 'struct semaphore' and initialise with init_mutex()
430
431           - removed CFS_DECL_RWSEM*
432             just use 'struct rw_semaphore' and initialise with init_rwsem()
433
434           - renamed cfs_sleep_chan -> cfs_waitq
435                     cfs_sleep_link -> cfs_waitlink
436
437           - fixed race in linux version of arch-independent socknal
438             (the ENOMEM/EAGAIN decision).
439
440           - Didn't fix problems in Darwin version of arch-independent socknal
441             (resetting socket callbacks, eager ack hack, ENOMEM/EAGAIN decision)
442
443           - removed libcfs types from non-socknal header files (only some types
444             in the header files had been changed; the .c files hadn't been
445             updated at all).