Whamcloud - gitweb
- added LNET self test (landing b_self_test).
[fs/lustre-release.git] / lnet / ChangeLog
1 2006-06-22  Cluster File Systems, Inc. <info@clusterfs.com>
2        * version 1.4.11 / 1.6.1
3        * Support for networks:
4         socklnd   - kernels up to 2.6.16
5         qswlnd    - Qsnet kernel modules 5.20 and later
6         openiblnd - IbGold 1.8.2
7         o2iblnd   - OFED 1.1 and 1.2
8         viblnd    - Voltaire ibhost 3.4.5 and later
9         ciblnd    - Topspin 3.2.0
10         iiblnd    - Infiniserv 3.3 + PathBits patch
11         gmlnd     - GM 2.1.22 and later
12         mxlnd     - MX 1.2.1 or later
13         ptllnd    - Portals 3.3 / UNICOS/lc 1.5.x, 2.0.x
14        * bug fixes
15
16 Severity   : major
17 Bugzilla   : 10916
18 Description: added LNET self test
19 Details    : landing b_self_test
20
21 Severity   : minor
22 Frequency  : rare
23 Bugzilla   : 12227
24 Description: cfs_duration_{u,n}sec() wrongly calculate nanosecond part of
25              struct timeval.
26 Details    : do_div() macro is used incorrectly.
27
28 2007-04-23  Cluster File Systems, Inc. <info@clusterfs.com>
29
30 Severity   : normal
31 Bugzilla   : 11680
32 Description: make panic on lbug configurable
33
34 Severity   : major
35 Bugzilla   : 12316
36 Description: Add OFED1.2 support to o2iblnd
37 Details    : o2iblnd depends on OFED's modules, if out-tree OFED's modules
38              are installed (other than kernel's in-tree infiniband), there
39              could be some problem while insmod o2iblnd (mismatch CRC of 
40              ib_* symbols).
41              If extra Module.symvers is supported in kernel (i.e, 2.6.17),
42              this link provides solution:
43              https://bugs.openfabrics.org/show_bug.cgi?id=355
44              if extra Module.symvers is not supported in kernel, we will
45              have to run the script in bug 12316 to update
46              $LINUX/module.symvers before building o2iblnd.
47              More details about this are in bug 12316.
48
49 ------------------------------------------------------------------------------
50
51 2007-04-01  Cluster File Systems, Inc. <info@clusterfs.com>
52        * version 1.4.10 / 1.6.0
53        * Support for networks:
54         socklnd   - kernels up to 2.6.16
55         qswlnd    - Qsnet kernel modules 5.20 and later
56         openiblnd - IbGold 1.8.2
57         o2iblnd   - OFED 1.1
58         viblnd    - Voltaire ibhost 3.4.5 and later
59         ciblnd    - Topspin 3.2.0
60         iiblnd    - Infiniserv 3.3 + PathBits patch
61         gmlnd     - GM 2.1.22 and later
62         mxlnd     - MX 1.2.1 or later
63         ptllnd    - Portals 3.3 / UNICOS/lc 1.5.x, 2.0.x
64        * bug fixes
65         
66 Severity   : minor
67 Frequency  : rare
68 Description: Ptllnd didn't init kptllnd_data.kptl_idle_txs before it could be
69              possibly accessed in kptllnd_shutdown. Ptllnd should init 
70              kptllnd_data.kptl_ptlid2str_lock before calling kptllnd_ptlid2str.
71
72 Severity   : normal
73 Frequency  : rare
74 Description: gmlnd ignored some transmit errors when finalizing lnet messages.
75
76 Severity   : minor
77 Frequency  : rare
78 Description: ptllnd logs a piece of incorrect debug info in kptllnd_peer_handle_hello.
79
80 Severity   : minor
81 Frequency  : rare
82 Description: the_lnet.ln_finalizing was not set when the current thread is
83              about to complete messages. It only affects multi-threaded 
84              user space LNet.
85         
86 Severity   : normal
87 Frequency  : rare
88 Bugzilla   : 11472
89 Description: Changed the default kqswlnd ntxmsg=512
90         
91 Severity   : major
92 Frequency  : rare
93 Bugzilla   : 12458
94 Description: Assertion failure in kernel ptllnd caused by posting passive
95              bulk buffers before connection establishment complete.
96         
97 Severity   : major
98 Frequency  : rare
99 Bugzilla   : 12455
100 Description: A race in kernel ptllnd between deleting a peer and posting
101              new communications for it could hang communications -
102              manifesting as "Unexpectedly long timeout" messages.
103         
104 Severity   : major
105 Frequency  : rare
106 Bugzilla   : 12432
107 Description: Kernel ptllnd lock ordering issue could hang a node.
108         
109 Severity   : major
110 Frequency  : rare
111 Bugzilla   : 12016
112 Description: node crash on socket teardown race
113
114 Severity   : minor
115 Frequency  : 'lctl peer_list' issued on a mx net
116 Bugzilla   : 12237
117 Description: Enable lctl's peer_list for MXLND
118
119 Severity   : major
120 Frequency  : after Ptllnd timeouts and portals congestion
121 Bugzilla   : 11659
122 Description: Credit overflows
123 Details    : This was a bug in ptllnd connection establishment.  The fix
124              implements better peer stamps to disambiguate connection
125              establishment and ensure both peers enter the credit flow
126              state machine consistently.
127
128 Severity   : major
129 Frequency  : rare       
130 Bugzilla   : 11394
131 Description: kptllnd didn't propagate some network errors up to LNET 
132 Details    : This bug was spotted while investigating 11394.  The fix
133              ensures network errors on sends and bulk transfers are
134              propagated to LNET/lustre correctly.
135
136 Severity   : enhancement
137 Bugzilla   : 10316
138 Description: Fixed console chatter in case of -ETIMEDOUT.
139
140 Severity   : enhancement
141 Bugzilla   : 11684
142 Description: Added D_NETTRACE for recording network packet history
143              (initially only for ptllnd).  Also a separate userspace
144              ptllnd facility to gather history which should really be
145              covered by D_NETTRACE too, if only CDEBUG recorded history in
146              userspace.
147
148 Severity   : major
149 Frequency  : rare       
150 Bugzilla   : 11616
151 Description: o2iblnd handle early RDMA_CM_EVENT_DISCONNECTED.
152 Details    : If the fabric is lossy, an RDMA_CM_EVENT_DISCONNECTED
153              callback can occur before a connection has actually been
154              established.  This caused an assertion failure previously.
155
156 Severity   : enhancement
157 Bugzilla   : 11094
158 Description: Multiple instances for o2iblnd
159 Details    : Allow multiple instances of o2iblnd to enable networking over
160              multiple HCAs and routing between them.
161
162 Severity   : major
163 Bugzilla   : 11201
164 Description: lnet deadlock in router_checker
165 Details    : turned ksnd_connd_lock, ksnd_reaper_lock, and ksock_net_t:ksnd_lock
166              into BH locks to eliminate potential deadlock caused by
167              ksocknal_data_ready() preempting code holding these locks.
168
169 Severity   : major
170 Bugzilla   : 11126
171 Description: Millions of failed socklnd connection attempts cause a very slow FS
172 Details    : added a new route flag ksnr_scheduled to distinguish from
173              ksnr_connecting, so that a peer connection request is only turned
174              down for race concerns when an active connection to the same peer
175              is under progress (instead of just being scheduled).
176
177 ------------------------------------------------------------------------------
178
179 2007-02-09  Cluster File Systems, Inc. <info@clusterfs.com>
180        * version 1.4.9
181        * Support for networks:
182         socklnd   - kernels up to 2.6.16
183         qswlnd    - Qsnet kernel modules 5.20 and later
184         openiblnd - IbGold 1.8.2
185         o2iblnd   - OFED 1.1
186         viblnd    - Voltaire ibhost 3.4.5 and later
187         ciblnd    - Topspin 3.2.0
188         iiblnd    - Infiniserv 3.3 + PathBits patch
189         gmlnd     - GM 2.1.22 and later
190         mxlnd     - MX 1.2.1 or later
191         ptllnd    - Portals 3.3 / UNICOS/lc 1.5.x, 2.0.x
192        * bug fixes
193
194 Severity   : major on XT3
195 Bugzilla   : none
196 Description: libcfs overwrites /proc/sys/portals
197 Details    : libcfs created a symlink from /proc/sys/portals to
198              /proc/sys/lnet for backwards compatibility.  This is no
199              longer required and makes the Cray portals /proc variables
200              inaccessible.
201
202 Severity   : minor
203 Bugzilla   : 11312
204 Description: OFED FMR API change
205 Details    : This changes parameter usage to reflect a change in
206              ib_fmr_pool_map_phys() between OFED 1.0 and OFED 1.1.  Note
207              that FMR support is only used in experimental versions of the
208              o2iblnd - this change does not affect standard usage at all.
209
210 Severity   : enhancement
211 Bugzilla   : 11245
212 Description: new ko2iblnd module parameter: ib_mtu
213 Details    : the default IB MTU of 2048 performs badly on 23108 Tavor
214              HCAs.  You can avoid this problem by setting the MTU to 1024
215              using this module parameter.
216
217 Severity   : enhancement
218 Bugzilla   : 11118/11620
219 Description: ptllnd small request message buffer alignment fix
220 Details    : Set the PTL_MD_LOCAL_ALIGN8 option on small message receives.
221              Round up small message size on sends in case this option
222              is not supported.  11620 was a defect in the initial
223              implementation which effectively asserted all peers had to be
224              running the correct protocol version which was fixed by always
225              NAK-ing such requests and handling any misalignments they
226              introduce.
227
228 Severity   : minor
229 Frequency  : rarely
230 Description: When kib(nal|lnd)_del_peer() is called upon a peer whose
231              ibp_tx_queue is not empty, kib(nal|lnd)_destroy_peer()'s
232              'LASSERT(list_empty(&peer->ibp_tx_queue))' will fail.
233
234 Severity   : enhancement
235 Bugzilla   : 11250
236 Description: Patchless ZC(zero copy) socklnd
237 Details    : New protocol for socklnd, socklnd can support zero copy without
238              kernel patch, it's compatible with old socklnd. Checksum is 
239              moved from tunables to modparams.
240
241 Severity   : minor
242 Frequency  : rarely
243 Description: When ksocknal_del_peer() is called upon a peer whose
244              ksnp_tx_queue is not empty, ksocknal_destroy_peer()'s
245              'LASSERT(list_empty(&peer->ksnp_tx_queue))' will fail.
246
247 Severity   : normal
248 Frequency  : when ptlrpc is under heavy use and runs out of request buffer
249 Bugzilla   : 11318
250 Description: In lnet_match_blocked_msg(), md can be used without holding a
251              ref on it.
252
253 Severity   : minor
254 Frequency  : very rarely
255 Bugzilla   : 10727
256 Description: If ksocknal_lib_setup_sock() fails, a ref on peer is lost.
257              If connd connects a route which has been closed by
258              ksocknal_shutdown(), ksocknal_create_routes() may create new
259              routes which hold references on the peer, causing shutdown
260              process to wait for peer to disappear forever.
261
262 Severity   : enhancement
263 Bugzilla   : 11234
264 Description: Dump XT3 portals traces on kptllnd timeout
265 Details    : Set the kptllnd module parameter "ptltrace_on_timeout=1" to
266              dump Cray portals debug traces to a file.  The kptllnd module
267              parameter "ptltrace_basename", default "/tmp/lnet-ptltrace",
268              is the basename of the dump file.
269
270 Severity   : major
271 Frequency  : infrequent
272 Bugzilla   : 11308
273 Description: kernel ptllnd fix bug in connection re-establishment
274 Details    : Kernel ptllnd could produce protocol errors e.g. illegal
275              matchbits and/or violate the credit flow protocol when trying
276              to re-establish a connection with a peer after an error or
277              timeout. 
278
279 Severity   : enhancement
280 Bugzilla   : 10316
281 Description: Allow /proc/sys/lnet/debug to be set symbolically
282 Details    : Allow debug and subsystem debug values to be read/set by name
283              in addition to numerically, for ease of use.
284
285 Severity   : normal
286 Frequency  : only in configurations with LNET routers
287 Bugzilla   : 10316
288 Description: routes automatically marked down and recovered
289 Details    : In configurations with LNET routers if a router fails routers
290              now actively try to recover routes that are down, unless they
291              are marked down by an administrator.
292
293 ------------------------------------------------------------------------------
294
295 2006-12-09  Cluster File Systems, Inc. <info@clusterfs.com>
296
297 Severity   : critical
298 Frequency  : very rarely, in configurations with LNET routers and TCP
299 Bugzilla   : 10889
300 Description: incorrect data written to files on OSTs
301 Details    : In certain high-load conditions incorrect data may be written
302              to files on the OST when using TCP networks.
303
304 ------------------------------------------------------------------------------
305
306 2006-07-31  Cluster File Systems, Inc. <info@clusterfs.com>
307         * version 1.4.7
308         - rework CDEBUG messages rate-limiting mechanism b=10375
309         - add per-socket tunables for socklnd if the kernel is patched b=10327
310
311 ------------------------------------------------------------------------------
312
313 2006-02-15  Cluster File Systems, Inc. <info@clusterfs.com>
314         * version 1.4.6
315         - fix use of portals/lnet pid to avoid dropping RPCs b=10074
316         - iiblnd wasn't mapping all memory, resulting in comms errors b=9776
317         - quiet LNET startup LNI message for liblustre b=10128
318         - Better console error messages if 'ip2nets' can't match an IP address
319         - Fixed overflow/use-before-set bugs in linux-time.h
320         - Fixed ptllnd bug that wasn't initialising rx descriptors completely
321         - LNET teardown failed an assertion about the route table being empty
322         - Fixed a crash in LNetEQPoll(<invalid handle>)
323         - Future protocol compatibility work (b_rls146_lnetprotovrsn)
324         - improve debug message for liblustre/Catamount nodes (b=10116)
325
326 2005-10-10  Cluster File Systems, Inc. <info@clusterfs.com>
327         * Configuration change for the XT3
328              The PTLLND is now used to run Lustre over Portals on the XT3.
329              The configure option(s) --with-cray-portals are no longer
330              used.  Rather --with-portals=<path-to-portals-includes> is
331              used to enable building on the XT3.  In addition to enable
332              XT3 specific features the option --enable-cray-xt3 must be
333              used.
334
335 2005-10-10  Cluster File Systems, Inc. <info@clusterfs.com>
336         * Portals has been removed, replaced by LNET.
337            LNET is new networking infrastructure for Lustre, it includes a
338            reorganized network configuration mode (see the user
339            documentation for full details) as well as support for routing
340            between different network fabrics.  Lustre Networking Devices
341            (LNDS) for the supported network fabrics have also been created
342            for this new infrastructure.
343
344 2005-08-08  Cluster File Systems, Inc. <info@clusterfs.com>
345        * version 1.4.4
346        * bug fixes
347
348 Severity   : major
349 Frequency  : rare (large Voltaire clusters only)
350 Bugzilla   : 6993
351 Description: the default number of reserved transmit descriptors was too low
352              for some large clusters
353 Details    : As a workaround, the number was increased.  A proper fix includes
354              a run-time tunable.
355
356 2005-06-02  Cluster File Systems, Inc. <info@clusterfs.com>
357        * version 1.4.3
358        * bug fixes
359
360 Severity   : major
361 Frequency  : occasional (large-scale events, cluster reboot, network failure)
362 Bugzilla   : 6411
363 Description: too many error messages on console obscure actual problem and
364              can slow down/panic server, or cause recovery to fail repeatedly
365 Details    : enable rate-limiting of console error messages, and some messages
366              that were console errors now only go to the kernel log
367
368 Severity   : enhancement
369 Bugzilla   : 1693
370 Description: add /proc/sys/portals/catastrophe entry which will report if
371              that node has previously LBUGged
372
373 2005-04-06  Cluster File Systems, Inc. <info@clusterfs.com>
374        * bugs
375         - update gmnal to use PTL_MTU, fix module refcounting (b=5786)
376
377 2005-04-04  Cluster File Systems, Inc. <info@clusterfs.com>
378        * bugs
379         - handle error return code in kranal_check_fma_rx() (5915,6054)
380
381 2005-02-04  Cluster File Systems, Inc. <info@clusterfs.com>
382        * miscellania
383         - update vibnal (Voltaire IB NAL)
384         - update gmnal (Myrinet NAL), gmnalid
385
386 2005-02-04  Eric Barton  <eeb@bartonsoftware.com>
387
388         * Landed portals:b_port_step as follows...
389
390           - removed CFS_DECL_SPIN* 
391             just use 'spinlock_t' and initialise with spin_lock_init()
392
393           - removed CFS_DECL_MUTEX*
394             just use 'struct semaphore' and initialise with init_mutex()
395
396           - removed CFS_DECL_RWSEM*
397             just use 'struct rw_semaphore' and initialise with init_rwsem()
398
399           - renamed cfs_sleep_chan -> cfs_waitq
400                     cfs_sleep_link -> cfs_waitlink
401
402           - fixed race in linux version of arch-independent socknal
403             (the ENOMEM/EAGAIN decision).
404
405           - Didn't fix problems in Darwin version of arch-independent socknal
406             (resetting socket callbacks, eager ack hack, ENOMEM/EAGAIN decision)
407
408           - removed libcfs types from non-socknal header files (only some types
409             in the header files had been changed; the .c files hadn't been
410             updated at all).