Whamcloud - gitweb
b=16186,i=liangzhen,i=maxim:
[fs/lustre-release.git] / lnet / ChangeLog
1 tbd  Sun Microsystems, Inc.
2         * version 1.8.1
3         * Support for networks:
4          socklnd   - any kernel supported by Lustre,
5          qswlnd    - Qsnet kernel modules 5.20 and later,
6          openiblnd - IbGold 1.8.2,
7          o2iblnd   - OFED 1.1, 1.2.0, 1.2.5, and 1.3
8          viblnd    - Voltaire ibhost 3.4.5 and later,
9          ciblnd    - Topspin 3.2.0,
10          iiblnd    - Infiniserv 3.3 + PathBits patch,
11          gmlnd     - GM 2.1.22 and later,
12          mxlnd     - MX 1.2.1 or later,
13          ptllnd    - Portals 3.3 / UNICOS/lc 1.5.x, 2.0.x
14
15 Severity   :
16 Bugzilla   :
17 Description:
18 Details    :
19
20 Severity   : normal
21 Bugzilla   : 16186
22 Description: One down Lustre FS hangs ALL mounted Lustre filesystems
23 Details    : Shared routing enhancements - peer health detection.
24
25 Severity   : enhancement
26 Bugzilla   : 14132
27 Description: acceptor.c cleanup
28 Details    : Code duplication in acceptor.c for the cases of kernel and
29              user-space removed. User-space libcfs tcpip primitives
30              uniformed to have prototypes similar to kernel ones. Minor
31              cosmetic changes in usocklnd to use cfs_socket_t as
32              representation of socket.
33
34 Severity   : minor
35 Bugzilla   : 11245
36 Description: IB path MTU mistakenly set to 1st path MTU when ib_mtu is off
37 Details    : See comment 46 in bug 11245 for details - it's indeed a bug
38              introduced by the original 11245 fix.
39
40 Severity   : minor
41 Bugzilla   : 15984
42 Description: uptllnd credit overflow fix
43 Details    : kptl_msg_t::ptlm_credits could be overflown by uptllnd since
44              it is only a __u8.
45
46 Severity   : major
47 Bugzilla   : 14634
48 Description: socklnd protocol version 3
49 Details    : With current protocol V2, connections on router can be
50              blocked and can't receive any incoming messages when there is no
51              more router buffer, so ZC-ACK can't be handled (LNet message
52              can't be finalized) and will cause deadlock on router.
53              Protocol V3 has a dedicated connection for emergency messages
54              like ZC-ACK to router, messages on this dedicated connection
55              don't need any credit so will never be blocked. Also, V3 can send
56              keepalive ping in specified period for router healthy checking.
57
58 -------------------------------------------------------------------------------
59
60 12-31-2008  Sun Microsystems, Inc.
61         * version 1.8.0
62         * Support for networks:
63          socklnd   - any kernel supported by Lustre,
64          qswlnd    - Qsnet kernel modules 5.20 and later,
65          openiblnd - IbGold 1.8.2,
66          o2iblnd   - OFED 1.1, 1.2.0, 1.2.5, and 1.3
67          viblnd    - Voltaire ibhost 3.4.5 and later,
68          ciblnd    - Topspin 3.2.0,
69          iiblnd    - Infiniserv 3.3 + PathBits patch,
70          gmlnd     - GM 2.1.22 and later,
71          mxlnd     - MX 1.2.1 or later,
72          ptllnd    - Portals 3.3 / UNICOS/lc 1.5.x, 2.0.x
73
74 Severity   : major
75 Bugzilla   : 15983
76 Description: workaround for OOM from o2iblnd
77 Details    : OFED needs allocate big chunk of memory for QP while creating
78              connection for o2iblnd, OOM can happen if no such a contiguous
79              memory chunk.
80              QP size is decided by concurrent_sends and max_fragments of
81              o2iblnd, now we permit user to specify smaller value for
82              concurrent_sends of o2iblnd(i.e: concurrent_sends=7), which
83              will decrease memory block size required by creating QP.
84
85 Severity   : major
86 Bugzilla   : 15093
87 Description: Support Zerocopy receive of Chelsio device
88 Details    : Chelsio driver can support zerocopy for iov[1] if it's
89              contiguous and large enough.
90
91 Severity   : normal
92 Bugzilla   : 13490
93 Description: fix credit flow deadlock in uptllnd
94
95 Severity   : normal
96 Bugzilla   : 16308
97 Description: finalize network operation in reasonable time
98 Details    : conf-sanity test_32a couldn't stop ost and mds because it
99              tried to access non-existent peer and tcp connect took
100              quite long before timing out.
101
102 Severity   : major
103 Bugzilla   : 16338
104 Description: Continuous recovery on 33 of 413 nodes after lustre oss failure
105 Details    : Lost reference on conn prevents peer from being destroyed, which
106              could prevent new peer creation if peer count has reached upper
107              limit.
108
109 Severity   : normal
110 Bugzilla   : 16102
111 Description: LNET Selftest results in Soft lockup on OSS CPU
112 Details    : only hits when 8 or more o2ib clients involved and a session is
113              torn down with 'lst end_session' without preceeding 'lst stop'.
114
115 Severity   : minor
116 Bugzilla   : 16321
117 Description: concurrent_sends in IB LNDs should not be changeable at run time
118 Details    : concurrent_sends in IB LNDs should not be changeable at run time
119
120 Severity   : normal
121 Bugzilla   : 15272
122 Description: ptl_send_rpc hits LASSERT when ptl_send_buf fails
123 Details    : only hits under out-of-memory situations
124
125
126 -------------------------------------------------------------------------------
127
128 2009-02-07 Sun Microsystems, Inc.
129         * version 1.6.7
130         * Support for networks:
131          socklnd   - any kernel supported by Lustre,
132          qswlnd    - Qsnet kernel modules 5.20 and later,
133          openiblnd - IbGold 1.8.2,
134          o2iblnd   - OFED 1.1, 1.2.0, 1.2.5, and 1.3
135          viblnd    - Voltaire ibhost 3.4.5 and later,
136          ciblnd    - Topspin 3.2.0,
137          iiblnd    - Infiniserv 3.3 + PathBits patch,
138          gmlnd     - GM 2.1.22 and later,
139          mxlnd     - MX 1.2.1 or later,
140          ptllnd    - Portals 3.3 / UNICOS/lc 1.5.x, 2.0.x
141 Severity   : major
142 Bugzilla   : 15983
143 Description: workaround for OOM from o2iblnd
144 Details    : OFED needs allocate big chunk of memory for QP while creating
145              connection for o2iblnd, OOM can happen if no such a contiguous
146              memory chunk.
147              QP size is decided by concurrent_sends and max_fragments of
148              o2iblnd, now we permit user to specify smaller value for
149              concurrent_sends of o2iblnd(i.e: concurrent_sends=7), which
150              will decrease memory block size required by creating QP.
151
152 Severity   : major
153 Bugzilla   : 15093
154 Description: Support Zerocopy receive of Chelsio device
155 Details    : Chelsio driver can support zerocopy for iov[1] if it's
156              contiguous and large enough.
157 Severity   : normal
158 Bugzilla   : 13490
159 Description: fix credit flow deadlock in uptllnd
160
161 Severity   : normal
162 Bugzilla   : 16308
163 Description: finalize network operation in reasonable time
164 Details    : conf-sanity test_32a couldn't stop ost and mds because it
165              tried to access non-existent peer and tcp connect took
166              quite long before timing out.
167
168 Severity   : major
169 Bugzilla   : 16338
170 Description: Continuous recovery on 33 of 413 nodes after lustre oss failure
171 Details    : Lost reference on conn prevents peer from being destroyed, which
172              could prevent new peer creation if peer count has reached upper
173              limit.
174
175 Severity   : normal
176 Bugzilla   : 16102
177 Description: LNET Selftest results in Soft lockup on OSS CPU
178 Details    : only hits when 8 or more o2ib clients involved and a session is
179              torn down with 'lst end_session' without preceeding 'lst stop'.
180
181 Severity   : minor
182 Bugzilla   : 16321
183 Description: concurrent_sends in IB LNDs should not be changeable at run time
184 Details    : concurrent_sends in IB LNDs should not be changeable at run time
185
186 -------------------------------------------------------------------------------
187
188 11-03-2008  Sun Microsystems, Inc.
189         * version 1.6.6
190         * Support for networks:
191          socklnd   - any kernel supported by Lustre,
192          qswlnd    - Qsnet kernel modules 5.20 and later,
193          openiblnd - IbGold 1.8.2,
194          o2iblnd   - OFED 1.1, 1.2.0, 1.2.5, and 1.3
195          viblnd    - Voltaire ibhost 3.4.5 and later,
196          ciblnd    - Topspin 3.2.0,
197          iiblnd    - Infiniserv 3.3 + PathBits patch,
198          gmlnd     - GM 2.1.22 and later,
199          mxlnd     - MX 1.2.1 or later,
200          ptllnd    - Portals 3.3 / UNICOS/lc 1.5.x, 2.0.x
201
202 Severity   : normal
203 Bugzilla   : 15272
204 Description: ptl_send_rpc hits LASSERT when ptl_send_buf fails
205 Details    : only hits under out-of-memory situations
206
207
208 -------------------------------------------------------------------------------
209
210
211 04-26-2008  Sun Microsystems, Inc.
212        * version 1.6.5
213        * Support for networks:
214         socklnd   - any kernel supported by Lustre,
215         qswlnd    - Qsnet kernel modules 5.20 and later,
216         openiblnd - IbGold 1.8.2,
217         o2iblnd   - OFED 1.1 and 1.2.0, 1.2.5
218         viblnd    - Voltaire ibhost 3.4.5 and later,
219         ciblnd    - Topspin 3.2.0,
220         iiblnd    - Infiniserv 3.3 + PathBits patch,
221         gmlnd     - GM 2.1.22 and later,
222         mxlnd     - MX 1.2.1 or later,
223         ptllnd    - Portals 3.3 / UNICOS/lc 1.5.x, 2.0.x
224
225 Severity   : normal
226 Bugzilla   : 14322
227 Description: excessive debug information removed
228 Details    : excessive debug information removed
229
230 Severity   : major
231 Bugzilla   : 15712
232 Description: ksocknal_create_conn() hit ASSERTION during connection race
233 Details    : ksocknal_create_conn() hit ASSERTION during connection race
234
235 Severity   : major
236 Bugzilla   : 13983
237 Description: ksocknal_send_hello() hit ASSERTION while connecting race
238 Details    : ksocknal_send_hello() hit ASSERTION while connecting race
239
240 Severity   : major
241 Bugzilla   : 14425
242 Description: o2iblnd/ptllnd credit deadlock in a routed config.
243 Details    : o2iblnd/ptllnd credit deadlock in a routed config.
244
245 Severity   : normal
246 Bugzilla   : 14956
247 Description: High load after starting lnet
248 Details    : gmlnd should sleep in rx thread in interruptible way. Otherwise,
249              uptime utility reports high load that looks confusingly.
250
251 Severity   : normal
252 Bugzilla   : 14838
253 Description: ksocklnd fails to establish connection if accept_port is high
254 Details    : PID remapping must not be done for active (outgoing) connections
255
256 --------------------------------------------------------------------------------
257
258 2008-01-11  Sun Microsystems, Inc.
259        * version 1.4.12
260        * Support for networks:
261         socklnd   - any kernel supported by Lustre,
262         qswlnd    - Qsnet kernel modules 5.20 and later,
263         openiblnd - IbGold 1.8.2,
264         o2iblnd   - OFED 1.1 and 1.2.0, 1.2.5
265         viblnd    - Voltaire ibhost 3.4.5 and later,
266         ciblnd    - Topspin 3.2.0,
267         iiblnd    - Infiniserv 3.3 + PathBits patch,
268         gmlnd     - GM 2.1.22 and later,
269         mxlnd     - MX 1.2.1 or later,
270         ptllnd    - Portals 3.3 / UNICOS/lc 1.5.x, 2.0.x
271 Severity   : normal
272 Bugzilla   : 14387
273 Description: liblustre network error
274 Details    : liblustre clients should understand LNET_ACCEPT_PORT environment
275              variable even if they don't start lnet acceptor.
276
277 Severity   : normal
278 Bugzilla   : 14300
279 Description: Strange message from lnet (Ignoring prediction from the future)
280 Details    : Incorrect calculation of peer's last_alive value in ksocklnd
281
282 --------------------------------------------------------------------------------
283
284 2007-12-07         Cluster File Systems, Inc. <info@clusterfs.com>
285        * version 1.6.4
286        * Support for networks:
287         socklnd   - any kernel supported by Lustre,
288         qswlnd    - Qsnet kernel modules 5.20 and later,
289         openiblnd - IbGold 1.8.2,
290         o2iblnd   - OFED 1.1 and 1.2.0, 1.2.5.
291         viblnd    - Voltaire ibhost 3.4.5 and later,
292         ciblnd    - Topspin 3.2.0,
293         iiblnd    - Infiniserv 3.3 + PathBits patch,
294         gmlnd     - GM 2.1.22 and later,
295         mxlnd     - MX 1.2.1 or later,
296         ptllnd    - Portals 3.3 / UNICOS/lc 1.5.x, 2.0.x
297
298 Severity   : normal
299 Bugzilla   : 14238
300 Description: ASSERTION(me == md->md_me) failed in lnet_match_md()
301
302 Severity   : normal
303 Bugzilla   : 12494
304 Description: increase send queue size for ciblnd/openiblnd
305
306 Severity   : normal
307 Bugzilla   : 12302
308 Description: new userspace socklnd
309 Details    : Old userspace tcpnal that resided in lnet/ulnds/socklnd replaced
310              with new one - usocklnd.
311
312 Severity   : enhancement
313 Bugzilla   : 11686
314 Description: Console message flood
315 Details    : Make cdls ratelimiting more tunable by adding several tunable in
316              procfs /proc/sys/lnet/console_{min,max}_delay_centisecs and
317              /proc/sys/lnet/console_backoff.
318
319 --------------------------------------------------------------------------------
320
321 2007-09-27         Cluster File Systems, Inc. <info@clusterfs.com>
322        * version 1.6.3
323        * Support for networks:
324         socklnd   - any kernel supported by Lustre,
325         qswlnd    - Qsnet kernel modules 5.20 and later,
326         openiblnd - IbGold 1.8.2,
327         o2iblnd   - OFED 1.1 and 1.2,
328         viblnd    - Voltaire ibhost 3.4.5 and later,
329         ciblnd    - Topspin 3.2.0,
330         iiblnd    - Infiniserv 3.3 + PathBits patch,
331         gmlnd     - GM 2.1.22 and later,
332         mxlnd     - MX 1.2.1 or later,
333         ptllnd    - Portals 3.3 / UNICOS/lc 1.5.x, 2.0.x
334
335 Severity   : normal
336 Bugzilla   : 12782
337 Description: /proc/sys/lnet has non-sysctl entries
338 Details    : Updating dump_kernel/daemon_file/debug_mb to use sysctl variables
339
340 Severity   : major
341 Bugzilla   : 13236
342 Description: TOE Kernel panic by ksocklnd
343 Details    : offloaded sockets provide their own implementation of sendpage,
344              can't call tcp_sendpage() directly
345
346 Severity   : normal
347 Bugzilla   : 10778
348 Description: kibnal_shutdown() doesn't finish; lconf --cleanup hangs
349 Details    : races between lnd_shutdown and peer creation prevent 
350              lnd_shutdown from finishing.
351
352 Severity   : normal
353 Bugzilla   : 13279
354 Description: open files rlimit 1024 reached while liblustre testing
355 Details    : ulnds/socklnd must close open socket after unsuccessful
356              'say hello' attempt.
357
358 Severity   : major 
359 Bugzilla   : 13482
360 Description: build error
361 Details    : fix typos in gmlnd, ptllnd and viblnd
362
363 ------------------------------------------------------------------------------
364
365 2007-07-30  Cluster File Systems, Inc. <info@clusterfs.com>
366        * version 1.6.1
367        * Support for networks:
368         socklnd   - kernels up to 2.6.16,
369         qswlnd    - Qsnet kernel modules 5.20 and later,
370         openiblnd - IbGold 1.8.2,
371         o2iblnd   - OFED 1.1 and 1.2
372         viblnd    - Voltaire ibhost 3.4.5 and later,
373         ciblnd    - Topspin 3.2.0,
374         iiblnd    - Infiniserv 3.3 + PathBits patch,
375         gmlnd     - GM 2.1.22 and later,
376         mxlnd     - MX 1.2.1 or later,
377         ptllnd    - Portals 3.3 / UNICOS/lc 1.5.x, 2.0.x
378
379 2007-06-21  Cluster File Systems, Inc. <info@clusterfs.com>
380        * version 1.4.11
381        * Support for networks:
382         socklnd   - kernels up to 2.6.16,
383         qswlnd    - Qsnet kernel modules 5.20 and later,
384         openiblnd - IbGold 1.8.2,
385         o2iblnd   - OFED 1.1
386         viblnd    - Voltaire ibhost 3.4.5 and later,
387         ciblnd    - Topspin 3.2.0,
388         iiblnd    - Infiniserv 3.3 + PathBits patch,
389         gmlnd     - GM 2.1.22 and later,
390         mxlnd     - MX 1.2.1 or later,
391         ptllnd    - Portals 3.3 / UNICOS/lc 1.5.x, 2.0.x
392
393 Severity   : minor
394 Bugzilla   : 13288
395 Description: Initialize cpumask before use
396
397 Severity   : major
398 Bugzilla   : 12014
399 Description: ASSERTION failures when upgrading to the patchless zero-copy
400              socklnd 
401 Details    : This bug affects "rolling upgrades", causing an inconsistent
402              protocol version negotiation and subsequent assertion failure
403              during rolling upgrades after the first wave of upgrades.
404
405 Severity   : minor
406 Bugzilla   : 11223
407 Details    : Change "dropped message" CERRORs to D_NETERROR so they are
408              logged instead of creating "console chatter" when a lustre
409              timeout races with normal RPC completion.
410
411 Severity   : minor
412 Details    : lnet_clear_peer_table can wait forever if user forgets to
413              clear a lazy portal.
414
415 Severity   : minor
416 Details    : libcfs_id2str should check pid against LNET_PID_ANY.
417
418 Severity   : major
419 Bugzilla   : 10916
420 Description: added LNET self test
421 Details    : landing b_self_test
422
423 Severity   : minor
424 Frequency  : rare
425 Bugzilla   : 12227
426 Description: cfs_duration_{u,n}sec() wrongly calculate nanosecond part of
427              struct timeval.
428 Details    : do_div() macro is used incorrectly.
429
430 2007-04-23  Cluster File Systems, Inc. <info@clusterfs.com>
431
432 Severity   : normal
433 Bugzilla   : 11680
434 Description: make panic on lbug configurable
435
436 Severity   : major
437 Bugzilla   : 12316
438 Description: Add OFED1.2 support to o2iblnd
439 Details    : o2iblnd depends on OFED's modules, if out-tree OFED's modules
440              are installed (other than kernel's in-tree infiniband), there
441              could be some problem while insmod o2iblnd (mismatch CRC of 
442              ib_* symbols).
443              If extra Module.symvers is supported in kernel (i.e, 2.6.17),
444              this link provides solution:
445              https://bugs.openfabrics.org/show_bug.cgi?id=355
446              if extra Module.symvers is not supported in kernel, we will
447              have to run the script in bug 12316 to update
448              $LINUX/module.symvers before building o2iblnd.
449              More details about this are in bug 12316.
450
451 ------------------------------------------------------------------------------
452
453 2007-04-01  Cluster File Systems, Inc. <info@clusterfs.com>
454        * version 1.4.10 / 1.6.0
455        * Support for networks:
456         socklnd   - kernels up to 2.6.16,
457         qswlnd    - Qsnet kernel modules 5.20 and later,
458         openiblnd - IbGold 1.8.2,
459         o2iblnd   - OFED 1.1,
460         viblnd    - Voltaire ibhost 3.4.5 and later,
461         ciblnd    - Topspin 3.2.0,
462         iiblnd    - Infiniserv 3.3 + PathBits patch,
463         gmlnd     - GM 2.1.22 and later,
464         mxlnd     - MX 1.2.1 or later,
465         ptllnd    - Portals 3.3 / UNICOS/lc 1.5.x, 2.0.x
466         
467 Severity   : minor
468 Frequency  : rare
469 Description: Ptllnd didn't init kptllnd_data.kptl_idle_txs before it could be
470              possibly accessed in kptllnd_shutdown. Ptllnd should init 
471              kptllnd_data.kptl_ptlid2str_lock before calling kptllnd_ptlid2str.
472
473 Severity   : normal
474 Frequency  : rare
475 Description: gmlnd ignored some transmit errors when finalizing lnet messages.
476
477 Severity   : minor
478 Frequency  : rare
479 Description: ptllnd logs a piece of incorrect debug info in kptllnd_peer_handle_hello.
480
481 Severity   : minor
482 Frequency  : rare
483 Description: the_lnet.ln_finalizing was not set when the current thread is
484              about to complete messages. It only affects multi-threaded 
485              user space LNet.
486         
487 Severity   : normal
488 Frequency  : rare
489 Bugzilla   : 11472
490 Description: Changed the default kqswlnd ntxmsg=512
491         
492 Severity   : major
493 Frequency  : rare
494 Bugzilla   : 12458
495 Description: Assertion failure in kernel ptllnd caused by posting passive
496              bulk buffers before connection establishment complete.
497         
498 Severity   : major
499 Frequency  : rare
500 Bugzilla   : 12445
501 Description: A race in kernel ptllnd between deleting a peer and posting
502              new communications for it could hang communications -
503              manifesting as "Unexpectedly long timeout" messages.
504         
505 Severity   : major
506 Frequency  : rare
507 Bugzilla   : 12432
508 Description: Kernel ptllnd lock ordering issue could hang a node.
509         
510 Severity   : major
511 Frequency  : rare
512 Bugzilla   : 12016
513 Description: node crash on socket teardown race
514
515 Severity   : minor
516 Frequency  : 'lctl peer_list' issued on a mx net
517 Bugzilla   : 12237
518 Description: Enable lctl's peer_list for MXLND
519
520 Severity   : major
521 Frequency  : after Ptllnd timeouts and portals congestion
522 Bugzilla   : 11659
523 Description: Credit overflows
524 Details    : This was a bug in ptllnd connection establishment.  The fix
525              implements better peer stamps to disambiguate connection
526              establishment and ensure both peers enter the credit flow
527              state machine consistently.
528
529 Severity   : major
530 Frequency  : rare       
531 Bugzilla   : 11394
532 Description: kptllnd didn't propagate some network errors up to LNET 
533 Details    : This bug was spotted while investigating 11394.  The fix
534              ensures network errors on sends and bulk transfers are
535              propagated to LNET/lustre correctly.
536
537 Severity   : enhancement
538 Bugzilla   : 10316
539 Description: Fixed console chatter in case of -ETIMEDOUT.
540
541 Severity   : enhancement
542 Bugzilla   : 11684
543 Description: Added D_NETTRACE for recording network packet history
544              (initially only for ptllnd).  Also a separate userspace
545              ptllnd facility to gather history which should really be
546              covered by D_NETTRACE too, if only CDEBUG recorded history in
547              userspace.
548
549 Severity   : major
550 Frequency  : rare       
551 Bugzilla   : 11616
552 Description: o2iblnd handle early RDMA_CM_EVENT_DISCONNECTED.
553 Details    : If the fabric is lossy, an RDMA_CM_EVENT_DISCONNECTED
554              callback can occur before a connection has actually been
555              established.  This caused an assertion failure previously.
556
557 Severity   : enhancement
558 Bugzilla   : 11094
559 Description: Multiple instances for o2iblnd
560 Details    : Allow multiple instances of o2iblnd to enable networking over
561              multiple HCAs and routing between them.
562
563 Severity   : major
564 Bugzilla   : 11201
565 Description: lnet deadlock in router_checker
566 Details    : turned ksnd_connd_lock, ksnd_reaper_lock, and ksock_net_t:ksnd_lock
567              into BH locks to eliminate potential deadlock caused by
568              ksocknal_data_ready() preempting code holding these locks.
569
570 Severity   : major
571 Bugzilla   : 11126
572 Description: Millions of failed socklnd connection attempts cause a very slow FS
573 Details    : added a new route flag ksnr_scheduled to distinguish from
574              ksnr_connecting, so that a peer connection request is only turned
575              down for race concerns when an active connection to the same peer
576              is under progress (instead of just being scheduled).
577
578 ------------------------------------------------------------------------------
579
580 2007-02-09  Cluster File Systems, Inc. <info@clusterfs.com>
581        * version 1.4.9
582        * Support for networks:
583         socklnd   - kernels up to 2.6.16
584         qswlnd    - Qsnet kernel modules 5.20 and later
585         openiblnd - IbGold 1.8.2
586         o2iblnd   - OFED 1.1
587         viblnd    - Voltaire ibhost 3.4.5 and later
588         ciblnd    - Topspin 3.2.0
589         iiblnd    - Infiniserv 3.3 + PathBits patch
590         gmlnd     - GM 2.1.22 and later
591         mxlnd     - MX 1.2.1 or later
592         ptllnd    - Portals 3.3 / UNICOS/lc 1.5.x, 2.0.x
593        * bug fixes
594
595 Severity   : major on XT3
596 Bugzilla   : none
597 Description: libcfs overwrites /proc/sys/portals
598 Details    : libcfs created a symlink from /proc/sys/portals to
599              /proc/sys/lnet for backwards compatibility.  This is no
600              longer required and makes the Cray portals /proc variables
601              inaccessible.
602
603 Severity   : minor
604 Bugzilla   : 11312
605 Description: OFED FMR API change
606 Details    : This changes parameter usage to reflect a change in
607              ib_fmr_pool_map_phys() between OFED 1.0 and OFED 1.1.  Note
608              that FMR support is only used in experimental versions of the
609              o2iblnd - this change does not affect standard usage at all.
610
611 Severity   : enhancement
612 Bugzilla   : 11245
613 Description: new ko2iblnd module parameter: ib_mtu
614 Details    : the default IB MTU of 2048 performs badly on 23108 Tavor
615              HCAs.  You can avoid this problem by setting the MTU to 1024
616              using this module parameter.
617
618 Severity   : enhancement
619 Bugzilla   : 11118/11620
620 Description: ptllnd small request message buffer alignment fix
621 Details    : Set the PTL_MD_LOCAL_ALIGN8 option on small message receives.
622              Round up small message size on sends in case this option
623              is not supported.  11620 was a defect in the initial
624              implementation which effectively asserted all peers had to be
625              running the correct protocol version which was fixed by always
626              NAK-ing such requests and handling any misalignments they
627              introduce.
628
629 Severity   : minor
630 Frequency  : rarely
631 Description: When kib(nal|lnd)_del_peer() is called upon a peer whose
632              ibp_tx_queue is not empty, kib(nal|lnd)_destroy_peer()'s
633              'LASSERT(list_empty(&peer->ibp_tx_queue))' will fail.
634
635 Severity   : enhancement
636 Bugzilla   : 11250
637 Description: Patchless ZC(zero copy) socklnd
638 Details    : New protocol for socklnd, socklnd can support zero copy without
639              kernel patch, it's compatible with old socklnd. Checksum is 
640              moved from tunables to modparams.
641
642 Severity   : minor
643 Frequency  : rarely
644 Description: When ksocknal_del_peer() is called upon a peer whose
645              ksnp_tx_queue is not empty, ksocknal_destroy_peer()'s
646              'LASSERT(list_empty(&peer->ksnp_tx_queue))' will fail.
647
648 Severity   : normal
649 Frequency  : when ptlrpc is under heavy use and runs out of request buffer
650 Bugzilla   : 11318
651 Description: In lnet_match_blocked_msg(), md can be used without holding a
652              ref on it.
653
654 Severity   : minor
655 Frequency  : very rarely
656 Bugzilla   : 10727
657 Description: If ksocknal_lib_setup_sock() fails, a ref on peer is lost.
658              If connd connects a route which has been closed by
659              ksocknal_shutdown(), ksocknal_create_routes() may create new
660              routes which hold references on the peer, causing shutdown
661              process to wait for peer to disappear forever.
662
663 Severity   : enhancement
664 Bugzilla   : 11234
665 Description: Dump XT3 portals traces on kptllnd timeout
666 Details    : Set the kptllnd module parameter "ptltrace_on_timeout=1" to
667              dump Cray portals debug traces to a file.  The kptllnd module
668              parameter "ptltrace_basename", default "/tmp/lnet-ptltrace",
669              is the basename of the dump file.
670
671 Severity   : major
672 Frequency  : infrequent
673 Bugzilla   : 11308
674 Description: kernel ptllnd fix bug in connection re-establishment
675 Details    : Kernel ptllnd could produce protocol errors e.g. illegal
676              matchbits and/or violate the credit flow protocol when trying
677              to re-establish a connection with a peer after an error or
678              timeout. 
679
680 Severity   : enhancement
681 Bugzilla   : 10316
682 Description: Allow /proc/sys/lnet/debug to be set symbolically
683 Details    : Allow debug and subsystem debug values to be read/set by name
684              in addition to numerically, for ease of use.
685
686 Severity   : normal
687 Frequency  : only in configurations with LNET routers
688 Bugzilla   : 10316
689 Description: routes automatically marked down and recovered
690 Details    : In configurations with LNET routers if a router fails routers
691              now actively try to recover routes that are down, unless they
692              are marked down by an administrator.
693
694 ------------------------------------------------------------------------------
695
696 2006-12-09  Cluster File Systems, Inc. <info@clusterfs.com>
697
698 Severity   : critical
699 Frequency  : very rarely, in configurations with LNET routers and TCP
700 Bugzilla   : 10889
701 Description: incorrect data written to files on OSTs
702 Details    : In certain high-load conditions incorrect data may be written
703              to files on the OST when using TCP networks.
704
705 ------------------------------------------------------------------------------
706
707 2006-07-31  Cluster File Systems, Inc. <info@clusterfs.com>
708         * version 1.4.7
709         - rework CDEBUG messages rate-limiting mechanism b=10375
710         - add per-socket tunables for socklnd if the kernel is patched b=10327
711
712 ------------------------------------------------------------------------------
713
714 2006-02-15  Cluster File Systems, Inc. <info@clusterfs.com>
715         * version 1.4.6
716         - fix use of portals/lnet pid to avoid dropping RPCs b=10074
717         - iiblnd wasn't mapping all memory, resulting in comms errors b=9776
718         - quiet LNET startup LNI message for liblustre b=10128
719         - Better console error messages if 'ip2nets' can't match an IP address
720         - Fixed overflow/use-before-set bugs in linux-time.h
721         - Fixed ptllnd bug that wasn't initialising rx descriptors completely
722         - LNET teardown failed an assertion about the route table being empty
723         - Fixed a crash in LNetEQPoll(<invalid handle>)
724         - Future protocol compatibility work (b_rls146_lnetprotovrsn)
725         - improve debug message for liblustre/Catamount nodes (b=10116)
726
727 2005-10-10  Cluster File Systems, Inc. <info@clusterfs.com>
728         * Configuration change for the XT3
729              The PTLLND is now used to run Lustre over Portals on the XT3.
730              The configure option(s) --with-cray-portals are no longer
731              used.  Rather --with-portals=<path-to-portals-includes> is
732              used to enable building on the XT3.  In addition to enable
733              XT3 specific features the option --enable-cray-xt3 must be
734              used.
735
736 2005-10-10  Cluster File Systems, Inc. <info@clusterfs.com>
737         * Portals has been removed, replaced by LNET.
738            LNET is new networking infrastructure for Lustre, it includes a
739            reorganized network configuration mode (see the user
740            documentation for full details) as well as support for routing
741            between different network fabrics.  Lustre Networking Devices
742            (LNDS) for the supported network fabrics have also been created
743            for this new infrastructure.
744
745 2005-08-08  Cluster File Systems, Inc. <info@clusterfs.com>
746        * version 1.4.4
747        * bug fixes
748
749 Severity   : major
750 Frequency  : rare (large Voltaire clusters only)
751 Bugzilla   : 6993
752 Description: the default number of reserved transmit descriptors was too low
753              for some large clusters
754 Details    : As a workaround, the number was increased.  A proper fix includes
755              a run-time tunable.
756
757 2005-06-02  Cluster File Systems, Inc. <info@clusterfs.com>
758        * version 1.4.3
759        * bug fixes
760
761 Severity   : major
762 Frequency  : occasional (large-scale events, cluster reboot, network failure)
763 Bugzilla   : 6411
764 Description: too many error messages on console obscure actual problem and
765              can slow down/panic server, or cause recovery to fail repeatedly
766 Details    : enable rate-limiting of console error messages, and some messages
767              that were console errors now only go to the kernel log
768
769 Severity   : enhancement
770 Bugzilla   : 1693
771 Description: add /proc/sys/portals/catastrophe entry which will report if
772              that node has previously LBUGged
773
774 2005-04-06  Cluster File Systems, Inc. <info@clusterfs.com>
775        * bugs
776         - update gmnal to use PTL_MTU, fix module refcounting (b=5786)
777
778 2005-04-04  Cluster File Systems, Inc. <info@clusterfs.com>
779        * bugs
780         - handle error return code in kranal_check_fma_rx() (5915,6054)
781
782 2005-02-04  Cluster File Systems, Inc. <info@clusterfs.com>
783        * miscellania
784         - update vibnal (Voltaire IB NAL)
785         - update gmnal (Myrinet NAL), gmnalid
786
787 2005-02-04  Eric Barton  <eeb@bartonsoftware.com>
788
789         * Landed portals:b_port_step as follows...
790
791           - removed CFS_DECL_SPIN* 
792             just use 'spinlock_t' and initialise with spin_lock_init()
793
794           - removed CFS_DECL_MUTEX*
795             just use 'struct semaphore' and initialise with init_mutex()
796
797           - removed CFS_DECL_RWSEM*
798             just use 'struct rw_semaphore' and initialise with init_rwsem()
799
800           - renamed cfs_sleep_chan -> cfs_waitq
801                     cfs_sleep_link -> cfs_waitlink
802
803           - fixed race in linux version of arch-independent socknal
804             (the ENOMEM/EAGAIN decision).
805
806           - Didn't fix problems in Darwin version of arch-independent socknal
807             (resetting socket callbacks, eager ack hack, ENOMEM/EAGAIN decision)
808
809           - removed libcfs types from non-socknal header files (only some types
810             in the header files had been changed; the .c files hadn't been
811             updated at all).