Whamcloud - gitweb
b=16034,i=nic:
[fs/lustre-release.git] / lnet / ChangeLog
1 tbd  Sun Microsystems, Inc.
2         * version 1.8.1
3         * Support for networks:
4          socklnd   - any kernel supported by Lustre,
5          qswlnd    - Qsnet kernel modules 5.20 and later,
6          openiblnd - IbGold 1.8.2,
7          o2iblnd   - OFED 1.1, 1.2.0, 1.2.5, and 1.3
8          viblnd    - Voltaire ibhost 3.4.5 and later,
9          ciblnd    - Topspin 3.2.0,
10          iiblnd    - Infiniserv 3.3 + PathBits patch,
11          gmlnd     - GM 2.1.22 and later,
12          mxlnd     - MX 1.2.1 or later,
13          ptllnd    - Portals 3.3 / UNICOS/lc 1.5.x, 2.0.x
14
15 Severity   :
16 Bugzilla   :
17 Description:
18 Details    :
19
20 Severity   : normal
21 Bugzilla   : 16034
22 Description: Change ptllnd timeout and watchdog timers
23 Details    : Add ptltrace_on_nal_failed and bump ptllnd timeout to match
24              Portals wire timeout.
25
26 Severity   : normal
27 Bugzilla   : 16186
28 Description: One down Lustre FS hangs ALL mounted Lustre filesystems
29 Details    : Shared routing enhancements - peer health detection.
30
31 Severity   : enhancement
32 Bugzilla   : 14132
33 Description: acceptor.c cleanup
34 Details    : Code duplication in acceptor.c for the cases of kernel and
35              user-space removed. User-space libcfs tcpip primitives
36              uniformed to have prototypes similar to kernel ones. Minor
37              cosmetic changes in usocklnd to use cfs_socket_t as
38              representation of socket.
39
40 Severity   : minor
41 Bugzilla   : 11245
42 Description: IB path MTU mistakenly set to 1st path MTU when ib_mtu is off
43 Details    : See comment 46 in bug 11245 for details - it's indeed a bug
44              introduced by the original 11245 fix.
45
46 Severity   : minor
47 Bugzilla   : 15984
48 Description: uptllnd credit overflow fix
49 Details    : kptl_msg_t::ptlm_credits could be overflown by uptllnd since
50              it is only a __u8.
51
52 Severity   : major
53 Bugzilla   : 14634
54 Description: socklnd protocol version 3
55 Details    : With current protocol V2, connections on router can be
56              blocked and can't receive any incoming messages when there is no
57              more router buffer, so ZC-ACK can't be handled (LNet message
58              can't be finalized) and will cause deadlock on router.
59              Protocol V3 has a dedicated connection for emergency messages
60              like ZC-ACK to router, messages on this dedicated connection
61              don't need any credit so will never be blocked. Also, V3 can send
62              keepalive ping in specified period for router healthy checking.
63
64 -------------------------------------------------------------------------------
65
66 12-31-2008  Sun Microsystems, Inc.
67         * version 1.8.0
68         * Support for networks:
69          socklnd   - any kernel supported by Lustre,
70          qswlnd    - Qsnet kernel modules 5.20 and later,
71          openiblnd - IbGold 1.8.2,
72          o2iblnd   - OFED 1.1, 1.2.0, 1.2.5, and 1.3
73          viblnd    - Voltaire ibhost 3.4.5 and later,
74          ciblnd    - Topspin 3.2.0,
75          iiblnd    - Infiniserv 3.3 + PathBits patch,
76          gmlnd     - GM 2.1.22 and later,
77          mxlnd     - MX 1.2.1 or later,
78          ptllnd    - Portals 3.3 / UNICOS/lc 1.5.x, 2.0.x
79
80 Severity   : major
81 Bugzilla   : 15983
82 Description: workaround for OOM from o2iblnd
83 Details    : OFED needs allocate big chunk of memory for QP while creating
84              connection for o2iblnd, OOM can happen if no such a contiguous
85              memory chunk.
86              QP size is decided by concurrent_sends and max_fragments of
87              o2iblnd, now we permit user to specify smaller value for
88              concurrent_sends of o2iblnd(i.e: concurrent_sends=7), which
89              will decrease memory block size required by creating QP.
90
91 Severity   : major
92 Bugzilla   : 15093
93 Description: Support Zerocopy receive of Chelsio device
94 Details    : Chelsio driver can support zerocopy for iov[1] if it's
95              contiguous and large enough.
96
97 Severity   : normal
98 Bugzilla   : 13490
99 Description: fix credit flow deadlock in uptllnd
100
101 Severity   : normal
102 Bugzilla   : 16308
103 Description: finalize network operation in reasonable time
104 Details    : conf-sanity test_32a couldn't stop ost and mds because it
105              tried to access non-existent peer and tcp connect took
106              quite long before timing out.
107
108 Severity   : major
109 Bugzilla   : 16338
110 Description: Continuous recovery on 33 of 413 nodes after lustre oss failure
111 Details    : Lost reference on conn prevents peer from being destroyed, which
112              could prevent new peer creation if peer count has reached upper
113              limit.
114
115 Severity   : normal
116 Bugzilla   : 16102
117 Description: LNET Selftest results in Soft lockup on OSS CPU
118 Details    : only hits when 8 or more o2ib clients involved and a session is
119              torn down with 'lst end_session' without preceeding 'lst stop'.
120
121 Severity   : minor
122 Bugzilla   : 16321
123 Description: concurrent_sends in IB LNDs should not be changeable at run time
124 Details    : concurrent_sends in IB LNDs should not be changeable at run time
125
126 Severity   : normal
127 Bugzilla   : 15272
128 Description: ptl_send_rpc hits LASSERT when ptl_send_buf fails
129 Details    : only hits under out-of-memory situations
130
131
132 -------------------------------------------------------------------------------
133
134 2009-02-07 Sun Microsystems, Inc.
135         * version 1.6.7
136         * Support for networks:
137          socklnd   - any kernel supported by Lustre,
138          qswlnd    - Qsnet kernel modules 5.20 and later,
139          openiblnd - IbGold 1.8.2,
140          o2iblnd   - OFED 1.1, 1.2.0, 1.2.5, and 1.3
141          viblnd    - Voltaire ibhost 3.4.5 and later,
142          ciblnd    - Topspin 3.2.0,
143          iiblnd    - Infiniserv 3.3 + PathBits patch,
144          gmlnd     - GM 2.1.22 and later,
145          mxlnd     - MX 1.2.1 or later,
146          ptllnd    - Portals 3.3 / UNICOS/lc 1.5.x, 2.0.x
147 Severity   : major
148 Bugzilla   : 15983
149 Description: workaround for OOM from o2iblnd
150 Details    : OFED needs allocate big chunk of memory for QP while creating
151              connection for o2iblnd, OOM can happen if no such a contiguous
152              memory chunk.
153              QP size is decided by concurrent_sends and max_fragments of
154              o2iblnd, now we permit user to specify smaller value for
155              concurrent_sends of o2iblnd(i.e: concurrent_sends=7), which
156              will decrease memory block size required by creating QP.
157
158 Severity   : major
159 Bugzilla   : 15093
160 Description: Support Zerocopy receive of Chelsio device
161 Details    : Chelsio driver can support zerocopy for iov[1] if it's
162              contiguous and large enough.
163 Severity   : normal
164 Bugzilla   : 13490
165 Description: fix credit flow deadlock in uptllnd
166
167 Severity   : normal
168 Bugzilla   : 16308
169 Description: finalize network operation in reasonable time
170 Details    : conf-sanity test_32a couldn't stop ost and mds because it
171              tried to access non-existent peer and tcp connect took
172              quite long before timing out.
173
174 Severity   : major
175 Bugzilla   : 16338
176 Description: Continuous recovery on 33 of 413 nodes after lustre oss failure
177 Details    : Lost reference on conn prevents peer from being destroyed, which
178              could prevent new peer creation if peer count has reached upper
179              limit.
180
181 Severity   : normal
182 Bugzilla   : 16102
183 Description: LNET Selftest results in Soft lockup on OSS CPU
184 Details    : only hits when 8 or more o2ib clients involved and a session is
185              torn down with 'lst end_session' without preceeding 'lst stop'.
186
187 Severity   : minor
188 Bugzilla   : 16321
189 Description: concurrent_sends in IB LNDs should not be changeable at run time
190 Details    : concurrent_sends in IB LNDs should not be changeable at run time
191
192 -------------------------------------------------------------------------------
193
194 11-03-2008  Sun Microsystems, Inc.
195         * version 1.6.6
196         * Support for networks:
197          socklnd   - any kernel supported by Lustre,
198          qswlnd    - Qsnet kernel modules 5.20 and later,
199          openiblnd - IbGold 1.8.2,
200          o2iblnd   - OFED 1.1, 1.2.0, 1.2.5, and 1.3
201          viblnd    - Voltaire ibhost 3.4.5 and later,
202          ciblnd    - Topspin 3.2.0,
203          iiblnd    - Infiniserv 3.3 + PathBits patch,
204          gmlnd     - GM 2.1.22 and later,
205          mxlnd     - MX 1.2.1 or later,
206          ptllnd    - Portals 3.3 / UNICOS/lc 1.5.x, 2.0.x
207
208 Severity   : normal
209 Bugzilla   : 15272
210 Description: ptl_send_rpc hits LASSERT when ptl_send_buf fails
211 Details    : only hits under out-of-memory situations
212
213
214 -------------------------------------------------------------------------------
215
216
217 04-26-2008  Sun Microsystems, Inc.
218        * version 1.6.5
219        * Support for networks:
220         socklnd   - any kernel supported by Lustre,
221         qswlnd    - Qsnet kernel modules 5.20 and later,
222         openiblnd - IbGold 1.8.2,
223         o2iblnd   - OFED 1.1 and 1.2.0, 1.2.5
224         viblnd    - Voltaire ibhost 3.4.5 and later,
225         ciblnd    - Topspin 3.2.0,
226         iiblnd    - Infiniserv 3.3 + PathBits patch,
227         gmlnd     - GM 2.1.22 and later,
228         mxlnd     - MX 1.2.1 or later,
229         ptllnd    - Portals 3.3 / UNICOS/lc 1.5.x, 2.0.x
230
231 Severity   : normal
232 Bugzilla   : 14322
233 Description: excessive debug information removed
234 Details    : excessive debug information removed
235
236 Severity   : major
237 Bugzilla   : 15712
238 Description: ksocknal_create_conn() hit ASSERTION during connection race
239 Details    : ksocknal_create_conn() hit ASSERTION during connection race
240
241 Severity   : major
242 Bugzilla   : 13983
243 Description: ksocknal_send_hello() hit ASSERTION while connecting race
244 Details    : ksocknal_send_hello() hit ASSERTION while connecting race
245
246 Severity   : major
247 Bugzilla   : 14425
248 Description: o2iblnd/ptllnd credit deadlock in a routed config.
249 Details    : o2iblnd/ptllnd credit deadlock in a routed config.
250
251 Severity   : normal
252 Bugzilla   : 14956
253 Description: High load after starting lnet
254 Details    : gmlnd should sleep in rx thread in interruptible way. Otherwise,
255              uptime utility reports high load that looks confusingly.
256
257 Severity   : normal
258 Bugzilla   : 14838
259 Description: ksocklnd fails to establish connection if accept_port is high
260 Details    : PID remapping must not be done for active (outgoing) connections
261
262 --------------------------------------------------------------------------------
263
264 2008-01-11  Sun Microsystems, Inc.
265        * version 1.4.12
266        * Support for networks:
267         socklnd   - any kernel supported by Lustre,
268         qswlnd    - Qsnet kernel modules 5.20 and later,
269         openiblnd - IbGold 1.8.2,
270         o2iblnd   - OFED 1.1 and 1.2.0, 1.2.5
271         viblnd    - Voltaire ibhost 3.4.5 and later,
272         ciblnd    - Topspin 3.2.0,
273         iiblnd    - Infiniserv 3.3 + PathBits patch,
274         gmlnd     - GM 2.1.22 and later,
275         mxlnd     - MX 1.2.1 or later,
276         ptllnd    - Portals 3.3 / UNICOS/lc 1.5.x, 2.0.x
277 Severity   : normal
278 Bugzilla   : 14387
279 Description: liblustre network error
280 Details    : liblustre clients should understand LNET_ACCEPT_PORT environment
281              variable even if they don't start lnet acceptor.
282
283 Severity   : normal
284 Bugzilla   : 14300
285 Description: Strange message from lnet (Ignoring prediction from the future)
286 Details    : Incorrect calculation of peer's last_alive value in ksocklnd
287
288 --------------------------------------------------------------------------------
289
290 2007-12-07         Cluster File Systems, Inc. <info@clusterfs.com>
291        * version 1.6.4
292        * Support for networks:
293         socklnd   - any kernel supported by Lustre,
294         qswlnd    - Qsnet kernel modules 5.20 and later,
295         openiblnd - IbGold 1.8.2,
296         o2iblnd   - OFED 1.1 and 1.2.0, 1.2.5.
297         viblnd    - Voltaire ibhost 3.4.5 and later,
298         ciblnd    - Topspin 3.2.0,
299         iiblnd    - Infiniserv 3.3 + PathBits patch,
300         gmlnd     - GM 2.1.22 and later,
301         mxlnd     - MX 1.2.1 or later,
302         ptllnd    - Portals 3.3 / UNICOS/lc 1.5.x, 2.0.x
303
304 Severity   : normal
305 Bugzilla   : 14238
306 Description: ASSERTION(me == md->md_me) failed in lnet_match_md()
307
308 Severity   : normal
309 Bugzilla   : 12494
310 Description: increase send queue size for ciblnd/openiblnd
311
312 Severity   : normal
313 Bugzilla   : 12302
314 Description: new userspace socklnd
315 Details    : Old userspace tcpnal that resided in lnet/ulnds/socklnd replaced
316              with new one - usocklnd.
317
318 Severity   : enhancement
319 Bugzilla   : 11686
320 Description: Console message flood
321 Details    : Make cdls ratelimiting more tunable by adding several tunable in
322              procfs /proc/sys/lnet/console_{min,max}_delay_centisecs and
323              /proc/sys/lnet/console_backoff.
324
325 --------------------------------------------------------------------------------
326
327 2007-09-27         Cluster File Systems, Inc. <info@clusterfs.com>
328        * version 1.6.3
329        * Support for networks:
330         socklnd   - any kernel supported by Lustre,
331         qswlnd    - Qsnet kernel modules 5.20 and later,
332         openiblnd - IbGold 1.8.2,
333         o2iblnd   - OFED 1.1 and 1.2,
334         viblnd    - Voltaire ibhost 3.4.5 and later,
335         ciblnd    - Topspin 3.2.0,
336         iiblnd    - Infiniserv 3.3 + PathBits patch,
337         gmlnd     - GM 2.1.22 and later,
338         mxlnd     - MX 1.2.1 or later,
339         ptllnd    - Portals 3.3 / UNICOS/lc 1.5.x, 2.0.x
340
341 Severity   : normal
342 Bugzilla   : 12782
343 Description: /proc/sys/lnet has non-sysctl entries
344 Details    : Updating dump_kernel/daemon_file/debug_mb to use sysctl variables
345
346 Severity   : major
347 Bugzilla   : 13236
348 Description: TOE Kernel panic by ksocklnd
349 Details    : offloaded sockets provide their own implementation of sendpage,
350              can't call tcp_sendpage() directly
351
352 Severity   : normal
353 Bugzilla   : 10778
354 Description: kibnal_shutdown() doesn't finish; lconf --cleanup hangs
355 Details    : races between lnd_shutdown and peer creation prevent 
356              lnd_shutdown from finishing.
357
358 Severity   : normal
359 Bugzilla   : 13279
360 Description: open files rlimit 1024 reached while liblustre testing
361 Details    : ulnds/socklnd must close open socket after unsuccessful
362              'say hello' attempt.
363
364 Severity   : major 
365 Bugzilla   : 13482
366 Description: build error
367 Details    : fix typos in gmlnd, ptllnd and viblnd
368
369 ------------------------------------------------------------------------------
370
371 2007-07-30  Cluster File Systems, Inc. <info@clusterfs.com>
372        * version 1.6.1
373        * Support for networks:
374         socklnd   - kernels up to 2.6.16,
375         qswlnd    - Qsnet kernel modules 5.20 and later,
376         openiblnd - IbGold 1.8.2,
377         o2iblnd   - OFED 1.1 and 1.2
378         viblnd    - Voltaire ibhost 3.4.5 and later,
379         ciblnd    - Topspin 3.2.0,
380         iiblnd    - Infiniserv 3.3 + PathBits patch,
381         gmlnd     - GM 2.1.22 and later,
382         mxlnd     - MX 1.2.1 or later,
383         ptllnd    - Portals 3.3 / UNICOS/lc 1.5.x, 2.0.x
384
385 2007-06-21  Cluster File Systems, Inc. <info@clusterfs.com>
386        * version 1.4.11
387        * Support for networks:
388         socklnd   - kernels up to 2.6.16,
389         qswlnd    - Qsnet kernel modules 5.20 and later,
390         openiblnd - IbGold 1.8.2,
391         o2iblnd   - OFED 1.1
392         viblnd    - Voltaire ibhost 3.4.5 and later,
393         ciblnd    - Topspin 3.2.0,
394         iiblnd    - Infiniserv 3.3 + PathBits patch,
395         gmlnd     - GM 2.1.22 and later,
396         mxlnd     - MX 1.2.1 or later,
397         ptllnd    - Portals 3.3 / UNICOS/lc 1.5.x, 2.0.x
398
399 Severity   : minor
400 Bugzilla   : 13288
401 Description: Initialize cpumask before use
402
403 Severity   : major
404 Bugzilla   : 12014
405 Description: ASSERTION failures when upgrading to the patchless zero-copy
406              socklnd 
407 Details    : This bug affects "rolling upgrades", causing an inconsistent
408              protocol version negotiation and subsequent assertion failure
409              during rolling upgrades after the first wave of upgrades.
410
411 Severity   : minor
412 Bugzilla   : 11223
413 Details    : Change "dropped message" CERRORs to D_NETERROR so they are
414              logged instead of creating "console chatter" when a lustre
415              timeout races with normal RPC completion.
416
417 Severity   : minor
418 Details    : lnet_clear_peer_table can wait forever if user forgets to
419              clear a lazy portal.
420
421 Severity   : minor
422 Details    : libcfs_id2str should check pid against LNET_PID_ANY.
423
424 Severity   : major
425 Bugzilla   : 10916
426 Description: added LNET self test
427 Details    : landing b_self_test
428
429 Severity   : minor
430 Frequency  : rare
431 Bugzilla   : 12227
432 Description: cfs_duration_{u,n}sec() wrongly calculate nanosecond part of
433              struct timeval.
434 Details    : do_div() macro is used incorrectly.
435
436 2007-04-23  Cluster File Systems, Inc. <info@clusterfs.com>
437
438 Severity   : normal
439 Bugzilla   : 11680
440 Description: make panic on lbug configurable
441
442 Severity   : major
443 Bugzilla   : 12316
444 Description: Add OFED1.2 support to o2iblnd
445 Details    : o2iblnd depends on OFED's modules, if out-tree OFED's modules
446              are installed (other than kernel's in-tree infiniband), there
447              could be some problem while insmod o2iblnd (mismatch CRC of 
448              ib_* symbols).
449              If extra Module.symvers is supported in kernel (i.e, 2.6.17),
450              this link provides solution:
451              https://bugs.openfabrics.org/show_bug.cgi?id=355
452              if extra Module.symvers is not supported in kernel, we will
453              have to run the script in bug 12316 to update
454              $LINUX/module.symvers before building o2iblnd.
455              More details about this are in bug 12316.
456
457 ------------------------------------------------------------------------------
458
459 2007-04-01  Cluster File Systems, Inc. <info@clusterfs.com>
460        * version 1.4.10 / 1.6.0
461        * Support for networks:
462         socklnd   - kernels up to 2.6.16,
463         qswlnd    - Qsnet kernel modules 5.20 and later,
464         openiblnd - IbGold 1.8.2,
465         o2iblnd   - OFED 1.1,
466         viblnd    - Voltaire ibhost 3.4.5 and later,
467         ciblnd    - Topspin 3.2.0,
468         iiblnd    - Infiniserv 3.3 + PathBits patch,
469         gmlnd     - GM 2.1.22 and later,
470         mxlnd     - MX 1.2.1 or later,
471         ptllnd    - Portals 3.3 / UNICOS/lc 1.5.x, 2.0.x
472         
473 Severity   : minor
474 Frequency  : rare
475 Description: Ptllnd didn't init kptllnd_data.kptl_idle_txs before it could be
476              possibly accessed in kptllnd_shutdown. Ptllnd should init 
477              kptllnd_data.kptl_ptlid2str_lock before calling kptllnd_ptlid2str.
478
479 Severity   : normal
480 Frequency  : rare
481 Description: gmlnd ignored some transmit errors when finalizing lnet messages.
482
483 Severity   : minor
484 Frequency  : rare
485 Description: ptllnd logs a piece of incorrect debug info in kptllnd_peer_handle_hello.
486
487 Severity   : minor
488 Frequency  : rare
489 Description: the_lnet.ln_finalizing was not set when the current thread is
490              about to complete messages. It only affects multi-threaded 
491              user space LNet.
492         
493 Severity   : normal
494 Frequency  : rare
495 Bugzilla   : 11472
496 Description: Changed the default kqswlnd ntxmsg=512
497         
498 Severity   : major
499 Frequency  : rare
500 Bugzilla   : 12458
501 Description: Assertion failure in kernel ptllnd caused by posting passive
502              bulk buffers before connection establishment complete.
503         
504 Severity   : major
505 Frequency  : rare
506 Bugzilla   : 12445
507 Description: A race in kernel ptllnd between deleting a peer and posting
508              new communications for it could hang communications -
509              manifesting as "Unexpectedly long timeout" messages.
510         
511 Severity   : major
512 Frequency  : rare
513 Bugzilla   : 12432
514 Description: Kernel ptllnd lock ordering issue could hang a node.
515         
516 Severity   : major
517 Frequency  : rare
518 Bugzilla   : 12016
519 Description: node crash on socket teardown race
520
521 Severity   : minor
522 Frequency  : 'lctl peer_list' issued on a mx net
523 Bugzilla   : 12237
524 Description: Enable lctl's peer_list for MXLND
525
526 Severity   : major
527 Frequency  : after Ptllnd timeouts and portals congestion
528 Bugzilla   : 11659
529 Description: Credit overflows
530 Details    : This was a bug in ptllnd connection establishment.  The fix
531              implements better peer stamps to disambiguate connection
532              establishment and ensure both peers enter the credit flow
533              state machine consistently.
534
535 Severity   : major
536 Frequency  : rare       
537 Bugzilla   : 11394
538 Description: kptllnd didn't propagate some network errors up to LNET 
539 Details    : This bug was spotted while investigating 11394.  The fix
540              ensures network errors on sends and bulk transfers are
541              propagated to LNET/lustre correctly.
542
543 Severity   : enhancement
544 Bugzilla   : 10316
545 Description: Fixed console chatter in case of -ETIMEDOUT.
546
547 Severity   : enhancement
548 Bugzilla   : 11684
549 Description: Added D_NETTRACE for recording network packet history
550              (initially only for ptllnd).  Also a separate userspace
551              ptllnd facility to gather history which should really be
552              covered by D_NETTRACE too, if only CDEBUG recorded history in
553              userspace.
554
555 Severity   : major
556 Frequency  : rare       
557 Bugzilla   : 11616
558 Description: o2iblnd handle early RDMA_CM_EVENT_DISCONNECTED.
559 Details    : If the fabric is lossy, an RDMA_CM_EVENT_DISCONNECTED
560              callback can occur before a connection has actually been
561              established.  This caused an assertion failure previously.
562
563 Severity   : enhancement
564 Bugzilla   : 11094
565 Description: Multiple instances for o2iblnd
566 Details    : Allow multiple instances of o2iblnd to enable networking over
567              multiple HCAs and routing between them.
568
569 Severity   : major
570 Bugzilla   : 11201
571 Description: lnet deadlock in router_checker
572 Details    : turned ksnd_connd_lock, ksnd_reaper_lock, and ksock_net_t:ksnd_lock
573              into BH locks to eliminate potential deadlock caused by
574              ksocknal_data_ready() preempting code holding these locks.
575
576 Severity   : major
577 Bugzilla   : 11126
578 Description: Millions of failed socklnd connection attempts cause a very slow FS
579 Details    : added a new route flag ksnr_scheduled to distinguish from
580              ksnr_connecting, so that a peer connection request is only turned
581              down for race concerns when an active connection to the same peer
582              is under progress (instead of just being scheduled).
583
584 ------------------------------------------------------------------------------
585
586 2007-02-09  Cluster File Systems, Inc. <info@clusterfs.com>
587        * version 1.4.9
588        * Support for networks:
589         socklnd   - kernels up to 2.6.16
590         qswlnd    - Qsnet kernel modules 5.20 and later
591         openiblnd - IbGold 1.8.2
592         o2iblnd   - OFED 1.1
593         viblnd    - Voltaire ibhost 3.4.5 and later
594         ciblnd    - Topspin 3.2.0
595         iiblnd    - Infiniserv 3.3 + PathBits patch
596         gmlnd     - GM 2.1.22 and later
597         mxlnd     - MX 1.2.1 or later
598         ptllnd    - Portals 3.3 / UNICOS/lc 1.5.x, 2.0.x
599        * bug fixes
600
601 Severity   : major on XT3
602 Bugzilla   : none
603 Description: libcfs overwrites /proc/sys/portals
604 Details    : libcfs created a symlink from /proc/sys/portals to
605              /proc/sys/lnet for backwards compatibility.  This is no
606              longer required and makes the Cray portals /proc variables
607              inaccessible.
608
609 Severity   : minor
610 Bugzilla   : 11312
611 Description: OFED FMR API change
612 Details    : This changes parameter usage to reflect a change in
613              ib_fmr_pool_map_phys() between OFED 1.0 and OFED 1.1.  Note
614              that FMR support is only used in experimental versions of the
615              o2iblnd - this change does not affect standard usage at all.
616
617 Severity   : enhancement
618 Bugzilla   : 11245
619 Description: new ko2iblnd module parameter: ib_mtu
620 Details    : the default IB MTU of 2048 performs badly on 23108 Tavor
621              HCAs.  You can avoid this problem by setting the MTU to 1024
622              using this module parameter.
623
624 Severity   : enhancement
625 Bugzilla   : 11118/11620
626 Description: ptllnd small request message buffer alignment fix
627 Details    : Set the PTL_MD_LOCAL_ALIGN8 option on small message receives.
628              Round up small message size on sends in case this option
629              is not supported.  11620 was a defect in the initial
630              implementation which effectively asserted all peers had to be
631              running the correct protocol version which was fixed by always
632              NAK-ing such requests and handling any misalignments they
633              introduce.
634
635 Severity   : minor
636 Frequency  : rarely
637 Description: When kib(nal|lnd)_del_peer() is called upon a peer whose
638              ibp_tx_queue is not empty, kib(nal|lnd)_destroy_peer()'s
639              'LASSERT(list_empty(&peer->ibp_tx_queue))' will fail.
640
641 Severity   : enhancement
642 Bugzilla   : 11250
643 Description: Patchless ZC(zero copy) socklnd
644 Details    : New protocol for socklnd, socklnd can support zero copy without
645              kernel patch, it's compatible with old socklnd. Checksum is 
646              moved from tunables to modparams.
647
648 Severity   : minor
649 Frequency  : rarely
650 Description: When ksocknal_del_peer() is called upon a peer whose
651              ksnp_tx_queue is not empty, ksocknal_destroy_peer()'s
652              'LASSERT(list_empty(&peer->ksnp_tx_queue))' will fail.
653
654 Severity   : normal
655 Frequency  : when ptlrpc is under heavy use and runs out of request buffer
656 Bugzilla   : 11318
657 Description: In lnet_match_blocked_msg(), md can be used without holding a
658              ref on it.
659
660 Severity   : minor
661 Frequency  : very rarely
662 Bugzilla   : 10727
663 Description: If ksocknal_lib_setup_sock() fails, a ref on peer is lost.
664              If connd connects a route which has been closed by
665              ksocknal_shutdown(), ksocknal_create_routes() may create new
666              routes which hold references on the peer, causing shutdown
667              process to wait for peer to disappear forever.
668
669 Severity   : enhancement
670 Bugzilla   : 11234
671 Description: Dump XT3 portals traces on kptllnd timeout
672 Details    : Set the kptllnd module parameter "ptltrace_on_timeout=1" to
673              dump Cray portals debug traces to a file.  The kptllnd module
674              parameter "ptltrace_basename", default "/tmp/lnet-ptltrace",
675              is the basename of the dump file.
676
677 Severity   : major
678 Frequency  : infrequent
679 Bugzilla   : 11308
680 Description: kernel ptllnd fix bug in connection re-establishment
681 Details    : Kernel ptllnd could produce protocol errors e.g. illegal
682              matchbits and/or violate the credit flow protocol when trying
683              to re-establish a connection with a peer after an error or
684              timeout. 
685
686 Severity   : enhancement
687 Bugzilla   : 10316
688 Description: Allow /proc/sys/lnet/debug to be set symbolically
689 Details    : Allow debug and subsystem debug values to be read/set by name
690              in addition to numerically, for ease of use.
691
692 Severity   : normal
693 Frequency  : only in configurations with LNET routers
694 Bugzilla   : 10316
695 Description: routes automatically marked down and recovered
696 Details    : In configurations with LNET routers if a router fails routers
697              now actively try to recover routes that are down, unless they
698              are marked down by an administrator.
699
700 ------------------------------------------------------------------------------
701
702 2006-12-09  Cluster File Systems, Inc. <info@clusterfs.com>
703
704 Severity   : critical
705 Frequency  : very rarely, in configurations with LNET routers and TCP
706 Bugzilla   : 10889
707 Description: incorrect data written to files on OSTs
708 Details    : In certain high-load conditions incorrect data may be written
709              to files on the OST when using TCP networks.
710
711 ------------------------------------------------------------------------------
712
713 2006-07-31  Cluster File Systems, Inc. <info@clusterfs.com>
714         * version 1.4.7
715         - rework CDEBUG messages rate-limiting mechanism b=10375
716         - add per-socket tunables for socklnd if the kernel is patched b=10327
717
718 ------------------------------------------------------------------------------
719
720 2006-02-15  Cluster File Systems, Inc. <info@clusterfs.com>
721         * version 1.4.6
722         - fix use of portals/lnet pid to avoid dropping RPCs b=10074
723         - iiblnd wasn't mapping all memory, resulting in comms errors b=9776
724         - quiet LNET startup LNI message for liblustre b=10128
725         - Better console error messages if 'ip2nets' can't match an IP address
726         - Fixed overflow/use-before-set bugs in linux-time.h
727         - Fixed ptllnd bug that wasn't initialising rx descriptors completely
728         - LNET teardown failed an assertion about the route table being empty
729         - Fixed a crash in LNetEQPoll(<invalid handle>)
730         - Future protocol compatibility work (b_rls146_lnetprotovrsn)
731         - improve debug message for liblustre/Catamount nodes (b=10116)
732
733 2005-10-10  Cluster File Systems, Inc. <info@clusterfs.com>
734         * Configuration change for the XT3
735              The PTLLND is now used to run Lustre over Portals on the XT3.
736              The configure option(s) --with-cray-portals are no longer
737              used.  Rather --with-portals=<path-to-portals-includes> is
738              used to enable building on the XT3.  In addition to enable
739              XT3 specific features the option --enable-cray-xt3 must be
740              used.
741
742 2005-10-10  Cluster File Systems, Inc. <info@clusterfs.com>
743         * Portals has been removed, replaced by LNET.
744            LNET is new networking infrastructure for Lustre, it includes a
745            reorganized network configuration mode (see the user
746            documentation for full details) as well as support for routing
747            between different network fabrics.  Lustre Networking Devices
748            (LNDS) for the supported network fabrics have also been created
749            for this new infrastructure.
750
751 2005-08-08  Cluster File Systems, Inc. <info@clusterfs.com>
752        * version 1.4.4
753        * bug fixes
754
755 Severity   : major
756 Frequency  : rare (large Voltaire clusters only)
757 Bugzilla   : 6993
758 Description: the default number of reserved transmit descriptors was too low
759              for some large clusters
760 Details    : As a workaround, the number was increased.  A proper fix includes
761              a run-time tunable.
762
763 2005-06-02  Cluster File Systems, Inc. <info@clusterfs.com>
764        * version 1.4.3
765        * bug fixes
766
767 Severity   : major
768 Frequency  : occasional (large-scale events, cluster reboot, network failure)
769 Bugzilla   : 6411
770 Description: too many error messages on console obscure actual problem and
771              can slow down/panic server, or cause recovery to fail repeatedly
772 Details    : enable rate-limiting of console error messages, and some messages
773              that were console errors now only go to the kernel log
774
775 Severity   : enhancement
776 Bugzilla   : 1693
777 Description: add /proc/sys/portals/catastrophe entry which will report if
778              that node has previously LBUGged
779
780 2005-04-06  Cluster File Systems, Inc. <info@clusterfs.com>
781        * bugs
782         - update gmnal to use PTL_MTU, fix module refcounting (b=5786)
783
784 2005-04-04  Cluster File Systems, Inc. <info@clusterfs.com>
785        * bugs
786         - handle error return code in kranal_check_fma_rx() (5915,6054)
787
788 2005-02-04  Cluster File Systems, Inc. <info@clusterfs.com>
789        * miscellania
790         - update vibnal (Voltaire IB NAL)
791         - update gmnal (Myrinet NAL), gmnalid
792
793 2005-02-04  Eric Barton  <eeb@bartonsoftware.com>
794
795         * Landed portals:b_port_step as follows...
796
797           - removed CFS_DECL_SPIN* 
798             just use 'spinlock_t' and initialise with spin_lock_init()
799
800           - removed CFS_DECL_MUTEX*
801             just use 'struct semaphore' and initialise with init_mutex()
802
803           - removed CFS_DECL_RWSEM*
804             just use 'struct rw_semaphore' and initialise with init_rwsem()
805
806           - renamed cfs_sleep_chan -> cfs_waitq
807                     cfs_sleep_link -> cfs_waitlink
808
809           - fixed race in linux version of arch-independent socknal
810             (the ENOMEM/EAGAIN decision).
811
812           - Didn't fix problems in Darwin version of arch-independent socknal
813             (resetting socket callbacks, eager ack hack, ENOMEM/EAGAIN decision)
814
815           - removed libcfs types from non-socknal header files (only some types
816             in the header files had been changed; the .c files hadn't been
817             updated at all).