Whamcloud - gitweb
b=16034,i=nic:
[fs/lustre-release.git] / lnet / ChangeLog
1 tbd  Sun Microsystems, Inc.
2         * version 1.8.1
3         * Support for networks:
4          socklnd   - any kernel supported by Lustre,
5          qswlnd    - Qsnet kernel modules 5.20 and later,
6          openiblnd - IbGold 1.8.2,
7          o2iblnd   - OFED 1.1, 1.2.0, 1.2.5, and 1.3
8          viblnd    - Voltaire ibhost 3.4.5 and later,
9          ciblnd    - Topspin 3.2.0,
10          iiblnd    - Infiniserv 3.3 + PathBits patch,
11          gmlnd     - GM 2.1.22 and later,
12          mxlnd     - MX 1.2.1 or later,
13          ptllnd    - Portals 3.3 / UNICOS/lc 1.5.x, 2.0.x
14
15 Severity   :
16 Bugzilla   :
17 Description:
18 Details    :
19
20 Severity   : normal
21 Bugzilla   : 16034
22 Description: Change ptllnd timeout and watchdog timers
23 Details    : Add ptltrace_on_nal_failed and bump ptllnd timeout to match
24              Portals wire timeout.
25
26 Severity   : normal
27 Bugzilla   : 16186
28 Description: One down Lustre FS hangs ALL mounted Lustre filesystems
29 Details    : Shared routing enhancements - peer health detection.
30
31 Severity   : minor
32 Bugzilla   : 11245
33 Description: IB path MTU mistakenly set to 1st path MTU when ib_mtu is off
34 Details    : See comment 46 in bug 11245 for details - it's indeed a bug
35              introduced by the original 11245 fix.
36
37 Severity   : minor
38 Bugzilla   : 15984
39 Description: uptllnd credit overflow fix
40 Details    : kptl_msg_t::ptlm_credits could be overflown by uptllnd since
41              it is only a __u8.
42
43 Severity   : major
44 Bugzilla   : 14634
45 Description: socklnd protocol version 3 
46 Details    : With current protocol V2, connections on router can be
47              blocked and can't receive any incoming messages when there is no
48              more router buffer, so ZC-ACK can't be handled (LNet message
49              can't be finalized) and will cause deadlock on router.
50              Protocol V3 has a dedicated connection for emergency messages
51              like ZC-ACK to router, messages on this dedicated connection
52              don't need any credit so will never be blocked. Also, V3 can send
53              keepalive ping in specified period for router healthy checking.
54
55 ------------------------------------------------------------------------------- 
56 12-31-2008  Sun Microsystems, Inc.
57         * version 1.8.0
58         * Support for networks:
59          socklnd   - any kernel supported by Lustre,
60          qswlnd    - Qsnet kernel modules 5.20 and later,
61          openiblnd - IbGold 1.8.2,
62          o2iblnd   - OFED 1.1, 1.2.0, 1.2.5, and 1.3
63          viblnd    - Voltaire ibhost 3.4.5 and later,
64          ciblnd    - Topspin 3.2.0,
65          iiblnd    - Infiniserv 3.3 + PathBits patch,
66          gmlnd     - GM 2.1.22 and later,
67          mxlnd     - MX 1.2.1 or later,
68          ptllnd    - Portals 3.3 / UNICOS/lc 1.5.x, 2.0.x
69
70 Severity   : 
71 Bugzilla   : 
72 Description: 
73 Details    : 
74
75 Severity   : major
76 Bugzilla   : 15983
77 Description: workaround for OOM from o2iblnd
78 Details    : OFED needs allocate big chunk of memory for QP while creating
79              connection for o2iblnd, OOM can happen if no such a contiguous
80              memory chunk.
81              QP size is decided by concurrent_sends and max_fragments of
82              o2iblnd, now we permit user to specify smaller value for
83              concurrent_sends of o2iblnd(i.e: concurrent_sends=7), which
84              will decrease memory block size required by creating QP.
85
86 Severity   : major
87 Bugzilla   : 15093
88 Description: Support Zerocopy receive of Chelsio device
89 Details    : Chelsio driver can support zerocopy for iov[1] if it's
90              contiguous and large enough.
91
92 Severity   : normal
93 Bugzilla   : 13490
94 Description: fix credit flow deadlock in uptllnd
95
96 Severity   : normal
97 Bugzilla   : 16308
98 Description: finalize network operation in reasonable time
99 Details    : conf-sanity test_32a couldn't stop ost and mds because it
100              tried to access non-existent peer and tcp connect took
101              quite long before timing out.
102
103 Severity   : major
104 Bugzilla   : 16338
105 Description: Continuous recovery on 33 of 413 nodes after lustre oss failure
106 Details    : Lost reference on conn prevents peer from being destroyed, which
107              could prevent new peer creation if peer count has reached upper
108              limit.
109
110 Severity   : normal
111 Bugzilla   : 16102
112 Description: LNET Selftest results in Soft lockup on OSS CPU
113 Details    : only hits when 8 or more o2ib clients involved and a session is
114              torn down with 'lst end_session' without preceeding 'lst stop'.
115
116 Severity   : minor
117 Bugzilla   : 16321
118 Description: concurrent_sends in IB LNDs should not be changeable at run time
119 Details    : concurrent_sends in IB LNDs should not be changeable at run time
120
121 Severity   : normal
122 Bugzilla   : 15272
123 Description: ptl_send_rpc hits LASSERT when ptl_send_buf fails
124 Details    : only hits under out-of-memory situations
125
126
127 -------------------------------------------------------------------------------
128
129 2009-02-07 Sun Microsystems, Inc.
130         * version 1.6.7
131         * Support for networks:
132          socklnd   - any kernel supported by Lustre,
133          qswlnd    - Qsnet kernel modules 5.20 and later,
134          openiblnd - IbGold 1.8.2,
135          o2iblnd   - OFED 1.1, 1.2.0, 1.2.5, and 1.3
136          viblnd    - Voltaire ibhost 3.4.5 and later,
137          ciblnd    - Topspin 3.2.0,
138          iiblnd    - Infiniserv 3.3 + PathBits patch,
139          gmlnd     - GM 2.1.22 and later,
140          mxlnd     - MX 1.2.1 or later,
141          ptllnd    - Portals 3.3 / UNICOS/lc 1.5.x, 2.0.x
142
143 Severity   : major
144 Bugzilla   : 15983
145 Description: workaround for OOM from o2iblnd
146 Details    : OFED needs allocate big chunk of memory for QP while creating
147              connection for o2iblnd, OOM can happen if no such a contiguous
148              memory chunk.
149              QP size is decided by concurrent_sends and max_fragments of
150              o2iblnd, now we permit user to specify smaller value for
151              concurrent_sends of o2iblnd(i.e: concurrent_sends=7), which
152              will decrease memory block size required by creating QP.
153
154 Severity   : major
155 Bugzilla   : 15093
156 Description: Support Zerocopy receive of Chelsio device
157 Details    : Chelsio driver can support zerocopy for iov[1] if it's
158              contiguous and large enough.
159
160 Severity   : normal
161 Bugzilla   : 13490
162 Description: fix credit flow deadlock in uptllnd
163
164 Severity   : normal
165 Bugzilla   : 16308
166 Description: finalize network operation in reasonable time
167 Details    : conf-sanity test_32a couldn't stop ost and mds because it
168              tried to access non-existent peer and tcp connect took
169              quite long before timing out.
170
171 Severity   : major
172 Bugzilla   : 16338
173 Description: Continuous recovery on 33 of 413 nodes after lustre oss failure
174 Details    : Lost reference on conn prevents peer from being destroyed, which
175              could prevent new peer creation if peer count has reached upper
176              limit.
177
178 Severity   : normal
179 Bugzilla   : 16102
180 Description: LNET Selftest results in Soft lockup on OSS CPU
181 Details    : only hits when 8 or more o2ib clients involved and a session is
182              torn down with 'lst end_session' without preceeding 'lst stop'.
183
184 Severity   : minor
185 Bugzilla   : 16321
186 Description: concurrent_sends in IB LNDs should not be changeable at run time
187 Details    : concurrent_sends in IB LNDs should not be changeable at run time
188
189 -------------------------------------------------------------------------------
190
191 11-03-2008  Sun Microsystems, Inc.
192         * version 1.6.6
193         * Support for networks:
194          socklnd   - any kernel supported by Lustre,
195          qswlnd    - Qsnet kernel modules 5.20 and later,
196          openiblnd - IbGold 1.8.2,
197          o2iblnd   - OFED 1.1, 1.2.0, 1.2.5, and 1.3
198          viblnd    - Voltaire ibhost 3.4.5 and later,
199          ciblnd    - Topspin 3.2.0,
200          iiblnd    - Infiniserv 3.3 + PathBits patch,
201          gmlnd     - GM 2.1.22 and later,
202          mxlnd     - MX 1.2.1 or later,
203          ptllnd    - Portals 3.3 / UNICOS/lc 1.5.x, 2.0.x
204
205 Severity   : normal
206 Bugzilla   : 15272
207 Description: ptl_send_rpc hits LASSERT when ptl_send_buf fails
208 Details    : only hits under out-of-memory situations
209
210 -------------------------------------------------------------------------------
211
212
213 04-26-2008  Sun Microsystems, Inc.
214        * version 1.6.5
215        * Support for networks:
216         socklnd   - any kernel supported by Lustre,
217         qswlnd    - Qsnet kernel modules 5.20 and later,
218         openiblnd - IbGold 1.8.2,
219         o2iblnd   - OFED 1.1 and 1.2.0, 1.2.5
220         viblnd    - Voltaire ibhost 3.4.5 and later,
221         ciblnd    - Topspin 3.2.0,
222         iiblnd    - Infiniserv 3.3 + PathBits patch,
223         gmlnd     - GM 2.1.22 and later,
224         mxlnd     - MX 1.2.1 or later,
225         ptllnd    - Portals 3.3 / UNICOS/lc 1.5.x, 2.0.x
226
227 Severity   : normal
228 Bugzilla   : 14322
229 Description: excessive debug information removed
230 Details    : excessive debug information removed
231
232 Severity   : major
233 Bugzilla   : 15712
234 Description: ksocknal_create_conn() hit ASSERTION during connection race
235 Details    : ksocknal_create_conn() hit ASSERTION during connection race
236
237 Severity   : major
238 Bugzilla   : 13983
239 Description: ksocknal_send_hello() hit ASSERTION while connecting race
240 Details    : ksocknal_send_hello() hit ASSERTION while connecting race
241
242 Severity   : major
243 Bugzilla   : 14425
244 Description: o2iblnd/ptllnd credit deadlock in a routed config.
245 Details    : o2iblnd/ptllnd credit deadlock in a routed config.
246
247 Severity   : normal
248 Bugzilla   : 14956
249 Description: High load after starting lnet
250 Details    : gmlnd should sleep in rx thread in interruptible way. Otherwise,
251              uptime utility reports high load that looks confusingly.
252
253 Severity   : normal
254 Bugzilla   : 14838
255 Description: ksocklnd fails to establish connection if accept_port is high
256 Details    : PID remapping must not be done for active (outgoing) connections
257
258 --------------------------------------------------------------------------------
259
260 2008-01-11  Sun Microsystems, Inc.
261        * version 1.4.12
262        * Support for networks:
263         socklnd   - any kernel supported by Lustre,
264         qswlnd    - Qsnet kernel modules 5.20 and later,
265         openiblnd - IbGold 1.8.2,
266         o2iblnd   - OFED 1.1 and 1.2.0, 1.2.5
267         viblnd    - Voltaire ibhost 3.4.5 and later,
268         ciblnd    - Topspin 3.2.0,
269         iiblnd    - Infiniserv 3.3 + PathBits patch,
270         gmlnd     - GM 2.1.22 and later,
271         mxlnd     - MX 1.2.1 or later,
272         ptllnd    - Portals 3.3 / UNICOS/lc 1.5.x, 2.0.x
273 Severity   : normal
274 Bugzilla   : 14387
275 Description: liblustre network error
276 Details    : liblustre clients should understand LNET_ACCEPT_PORT environment
277              variable even if they don't start lnet acceptor.
278
279 Severity   : normal
280 Bugzilla   : 14300
281 Description: Strange message from lnet (Ignoring prediction from the future)
282 Details    : Incorrect calculation of peer's last_alive value in ksocklnd
283
284 --------------------------------------------------------------------------------
285
286 2007-12-07         Cluster File Systems, Inc. <info@clusterfs.com>
287        * version 1.6.4
288        * Support for networks:
289         socklnd   - any kernel supported by Lustre,
290         qswlnd    - Qsnet kernel modules 5.20 and later,
291         openiblnd - IbGold 1.8.2,
292         o2iblnd   - OFED 1.1 and 1.2.0, 1.2.5.
293         viblnd    - Voltaire ibhost 3.4.5 and later,
294         ciblnd    - Topspin 3.2.0,
295         iiblnd    - Infiniserv 3.3 + PathBits patch,
296         gmlnd     - GM 2.1.22 and later,
297         mxlnd     - MX 1.2.1 or later,
298         ptllnd    - Portals 3.3 / UNICOS/lc 1.5.x, 2.0.x
299
300 Severity   : normal
301 Bugzilla   : 14238
302 Description: ASSERTION(me == md->md_me) failed in lnet_match_md()
303
304 Severity   : normal
305 Bugzilla   : 12494
306 Description: increase send queue size for ciblnd/openiblnd
307
308 Severity   : normal
309 Bugzilla   : 12302
310 Description: new userspace socklnd
311 Details    : Old userspace tcpnal that resided in lnet/ulnds/socklnd replaced
312              with new one - usocklnd.
313
314 Severity   : enhancement
315 Bugzilla   : 11686
316 Description: Console message flood
317 Details    : Make cdls ratelimiting more tunable by adding several tunable in
318              procfs /proc/sys/lnet/console_{min,max}_delay_centisecs and
319              /proc/sys/lnet/console_backoff.
320
321 --------------------------------------------------------------------------------
322
323 2007-09-27         Cluster File Systems, Inc. <info@clusterfs.com>
324        * version 1.6.3
325        * Support for networks:
326         socklnd   - any kernel supported by Lustre,
327         qswlnd    - Qsnet kernel modules 5.20 and later,
328         openiblnd - IbGold 1.8.2,
329         o2iblnd   - OFED 1.1 and 1.2,
330         viblnd    - Voltaire ibhost 3.4.5 and later,
331         ciblnd    - Topspin 3.2.0,
332         iiblnd    - Infiniserv 3.3 + PathBits patch,
333         gmlnd     - GM 2.1.22 and later,
334         mxlnd     - MX 1.2.1 or later,
335         ptllnd    - Portals 3.3 / UNICOS/lc 1.5.x, 2.0.x
336
337 Severity   : normal
338 Bugzilla   : 12782
339 Description: /proc/sys/lnet has non-sysctl entries
340 Details    : Updating dump_kernel/daemon_file/debug_mb to use sysctl variables
341
342 Severity   : major
343 Bugzilla   : 13236
344 Description: TOE Kernel panic by ksocklnd
345 Details    : offloaded sockets provide their own implementation of sendpage,
346              can't call tcp_sendpage() directly
347
348 Severity   : normal
349 Bugzilla   : 10778
350 Description: kibnal_shutdown() doesn't finish; lconf --cleanup hangs
351 Details    : races between lnd_shutdown and peer creation prevent 
352              lnd_shutdown from finishing.
353
354 Severity   : normal
355 Bugzilla   : 13279
356 Description: open files rlimit 1024 reached while liblustre testing
357 Details    : ulnds/socklnd must close open socket after unsuccessful
358              'say hello' attempt.
359
360 Severity   : major 
361 Bugzilla   : 13482
362 Description: build error
363 Details    : fix typos in gmlnd, ptllnd and viblnd
364
365 ------------------------------------------------------------------------------
366
367 2007-07-30  Cluster File Systems, Inc. <info@clusterfs.com>
368        * version 1.6.1
369        * Support for networks:
370         socklnd   - kernels up to 2.6.16,
371         qswlnd    - Qsnet kernel modules 5.20 and later,
372         openiblnd - IbGold 1.8.2,
373         o2iblnd   - OFED 1.1 and 1.2
374         viblnd    - Voltaire ibhost 3.4.5 and later,
375         ciblnd    - Topspin 3.2.0,
376         iiblnd    - Infiniserv 3.3 + PathBits patch,
377         gmlnd     - GM 2.1.22 and later,
378         mxlnd     - MX 1.2.1 or later,
379         ptllnd    - Portals 3.3 / UNICOS/lc 1.5.x, 2.0.x
380
381 2007-06-21  Cluster File Systems, Inc. <info@clusterfs.com>
382        * version 1.4.11
383        * Support for networks:
384         socklnd   - kernels up to 2.6.16,
385         qswlnd    - Qsnet kernel modules 5.20 and later,
386         openiblnd - IbGold 1.8.2,
387         o2iblnd   - OFED 1.1
388         viblnd    - Voltaire ibhost 3.4.5 and later,
389         ciblnd    - Topspin 3.2.0,
390         iiblnd    - Infiniserv 3.3 + PathBits patch,
391         gmlnd     - GM 2.1.22 and later,
392         mxlnd     - MX 1.2.1 or later,
393         ptllnd    - Portals 3.3 / UNICOS/lc 1.5.x, 2.0.x
394
395 Severity   : minor
396 Bugzilla   : 13288
397 Description: Initialize cpumask before use
398
399 Severity   : major
400 Bugzilla   : 12014
401 Description: ASSERTION failures when upgrading to the patchless zero-copy
402              socklnd 
403 Details    : This bug affects "rolling upgrades", causing an inconsistent
404              protocol version negotiation and subsequent assertion failure
405              during rolling upgrades after the first wave of upgrades.
406
407 Severity   : minor
408 Bugzilla   : 11223
409 Details    : Change "dropped message" CERRORs to D_NETERROR so they are
410              logged instead of creating "console chatter" when a lustre
411              timeout races with normal RPC completion.
412
413 Severity   : minor
414 Details    : lnet_clear_peer_table can wait forever if user forgets to
415              clear a lazy portal.
416
417 Severity   : minor
418 Details    : libcfs_id2str should check pid against LNET_PID_ANY.
419
420 Severity   : major
421 Bugzilla   : 10916
422 Description: added LNET self test
423 Details    : landing b_self_test
424
425 Severity   : minor
426 Frequency  : rare
427 Bugzilla   : 12227
428 Description: cfs_duration_{u,n}sec() wrongly calculate nanosecond part of
429              struct timeval.
430 Details    : do_div() macro is used incorrectly.
431
432 2007-04-23  Cluster File Systems, Inc. <info@clusterfs.com>
433
434 Severity   : normal
435 Bugzilla   : 11680
436 Description: make panic on lbug configurable
437
438 Severity   : major
439 Bugzilla   : 12316
440 Description: Add OFED1.2 support to o2iblnd
441 Details    : o2iblnd depends on OFED's modules, if out-tree OFED's modules
442              are installed (other than kernel's in-tree infiniband), there
443              could be some problem while insmod o2iblnd (mismatch CRC of 
444              ib_* symbols).
445              If extra Module.symvers is supported in kernel (i.e, 2.6.17),
446              this link provides solution:
447              https://bugs.openfabrics.org/show_bug.cgi?id=355
448              if extra Module.symvers is not supported in kernel, we will
449              have to run the script in bug 12316 to update
450              $LINUX/module.symvers before building o2iblnd.
451              More details about this are in bug 12316.
452
453 ------------------------------------------------------------------------------
454
455 2007-04-01  Cluster File Systems, Inc. <info@clusterfs.com>
456        * version 1.4.10 / 1.6.0
457        * Support for networks:
458         socklnd   - kernels up to 2.6.16,
459         qswlnd    - Qsnet kernel modules 5.20 and later,
460         openiblnd - IbGold 1.8.2,
461         o2iblnd   - OFED 1.1,
462         viblnd    - Voltaire ibhost 3.4.5 and later,
463         ciblnd    - Topspin 3.2.0,
464         iiblnd    - Infiniserv 3.3 + PathBits patch,
465         gmlnd     - GM 2.1.22 and later,
466         mxlnd     - MX 1.2.1 or later,
467         ptllnd    - Portals 3.3 / UNICOS/lc 1.5.x, 2.0.x
468         
469 Severity   : minor
470 Frequency  : rare
471 Description: Ptllnd didn't init kptllnd_data.kptl_idle_txs before it could be
472              possibly accessed in kptllnd_shutdown. Ptllnd should init 
473              kptllnd_data.kptl_ptlid2str_lock before calling kptllnd_ptlid2str.
474
475 Severity   : normal
476 Frequency  : rare
477 Description: gmlnd ignored some transmit errors when finalizing lnet messages.
478
479 Severity   : minor
480 Frequency  : rare
481 Description: ptllnd logs a piece of incorrect debug info in kptllnd_peer_handle_hello.
482
483 Severity   : minor
484 Frequency  : rare
485 Description: the_lnet.ln_finalizing was not set when the current thread is
486              about to complete messages. It only affects multi-threaded 
487              user space LNet.
488         
489 Severity   : normal
490 Frequency  : rare
491 Bugzilla   : 11472
492 Description: Changed the default kqswlnd ntxmsg=512
493         
494 Severity   : major
495 Frequency  : rare
496 Bugzilla   : 12458
497 Description: Assertion failure in kernel ptllnd caused by posting passive
498              bulk buffers before connection establishment complete.
499         
500 Severity   : major
501 Frequency  : rare
502 Bugzilla   : 12445
503 Description: A race in kernel ptllnd between deleting a peer and posting
504              new communications for it could hang communications -
505              manifesting as "Unexpectedly long timeout" messages.
506         
507 Severity   : major
508 Frequency  : rare
509 Bugzilla   : 12432
510 Description: Kernel ptllnd lock ordering issue could hang a node.
511         
512 Severity   : major
513 Frequency  : rare
514 Bugzilla   : 12016
515 Description: node crash on socket teardown race
516
517 Severity   : minor
518 Frequency  : 'lctl peer_list' issued on a mx net
519 Bugzilla   : 12237
520 Description: Enable lctl's peer_list for MXLND
521
522 Severity   : major
523 Frequency  : after Ptllnd timeouts and portals congestion
524 Bugzilla   : 11659
525 Description: Credit overflows
526 Details    : This was a bug in ptllnd connection establishment.  The fix
527              implements better peer stamps to disambiguate connection
528              establishment and ensure both peers enter the credit flow
529              state machine consistently.
530
531 Severity   : major
532 Frequency  : rare       
533 Bugzilla   : 11394
534 Description: kptllnd didn't propagate some network errors up to LNET 
535 Details    : This bug was spotted while investigating 11394.  The fix
536              ensures network errors on sends and bulk transfers are
537              propagated to LNET/lustre correctly.
538
539 Severity   : enhancement
540 Bugzilla   : 10316
541 Description: Fixed console chatter in case of -ETIMEDOUT.
542
543 Severity   : enhancement
544 Bugzilla   : 11684
545 Description: Added D_NETTRACE for recording network packet history
546              (initially only for ptllnd).  Also a separate userspace
547              ptllnd facility to gather history which should really be
548              covered by D_NETTRACE too, if only CDEBUG recorded history in
549              userspace.
550
551 Severity   : major
552 Frequency  : rare       
553 Bugzilla   : 11616
554 Description: o2iblnd handle early RDMA_CM_EVENT_DISCONNECTED.
555 Details    : If the fabric is lossy, an RDMA_CM_EVENT_DISCONNECTED
556              callback can occur before a connection has actually been
557              established.  This caused an assertion failure previously.
558
559 Severity   : enhancement
560 Bugzilla   : 11094
561 Description: Multiple instances for o2iblnd
562 Details    : Allow multiple instances of o2iblnd to enable networking over
563              multiple HCAs and routing between them.
564
565 Severity   : major
566 Bugzilla   : 11201
567 Description: lnet deadlock in router_checker
568 Details    : turned ksnd_connd_lock, ksnd_reaper_lock, and ksock_net_t:ksnd_lock
569              into BH locks to eliminate potential deadlock caused by
570              ksocknal_data_ready() preempting code holding these locks.
571
572 Severity   : major
573 Bugzilla   : 11126
574 Description: Millions of failed socklnd connection attempts cause a very slow FS
575 Details    : added a new route flag ksnr_scheduled to distinguish from
576              ksnr_connecting, so that a peer connection request is only turned
577              down for race concerns when an active connection to the same peer
578              is under progress (instead of just being scheduled).
579
580 ------------------------------------------------------------------------------
581
582 2007-02-09  Cluster File Systems, Inc. <info@clusterfs.com>
583        * version 1.4.9
584        * Support for networks:
585         socklnd   - kernels up to 2.6.16
586         qswlnd    - Qsnet kernel modules 5.20 and later
587         openiblnd - IbGold 1.8.2
588         o2iblnd   - OFED 1.1
589         viblnd    - Voltaire ibhost 3.4.5 and later
590         ciblnd    - Topspin 3.2.0
591         iiblnd    - Infiniserv 3.3 + PathBits patch
592         gmlnd     - GM 2.1.22 and later
593         mxlnd     - MX 1.2.1 or later
594         ptllnd    - Portals 3.3 / UNICOS/lc 1.5.x, 2.0.x
595        * bug fixes
596
597 Severity   : major on XT3
598 Bugzilla   : none
599 Description: libcfs overwrites /proc/sys/portals
600 Details    : libcfs created a symlink from /proc/sys/portals to
601              /proc/sys/lnet for backwards compatibility.  This is no
602              longer required and makes the Cray portals /proc variables
603              inaccessible.
604
605 Severity   : minor
606 Bugzilla   : 11312
607 Description: OFED FMR API change
608 Details    : This changes parameter usage to reflect a change in
609              ib_fmr_pool_map_phys() between OFED 1.0 and OFED 1.1.  Note
610              that FMR support is only used in experimental versions of the
611              o2iblnd - this change does not affect standard usage at all.
612
613 Severity   : enhancement
614 Bugzilla   : 11245
615 Description: new ko2iblnd module parameter: ib_mtu
616 Details    : the default IB MTU of 2048 performs badly on 23108 Tavor
617              HCAs.  You can avoid this problem by setting the MTU to 1024
618              using this module parameter.
619
620 Severity   : enhancement
621 Bugzilla   : 11118/11620
622 Description: ptllnd small request message buffer alignment fix
623 Details    : Set the PTL_MD_LOCAL_ALIGN8 option on small message receives.
624              Round up small message size on sends in case this option
625              is not supported.  11620 was a defect in the initial
626              implementation which effectively asserted all peers had to be
627              running the correct protocol version which was fixed by always
628              NAK-ing such requests and handling any misalignments they
629              introduce.
630
631 Severity   : minor
632 Frequency  : rarely
633 Description: When kib(nal|lnd)_del_peer() is called upon a peer whose
634              ibp_tx_queue is not empty, kib(nal|lnd)_destroy_peer()'s
635              'LASSERT(list_empty(&peer->ibp_tx_queue))' will fail.
636
637 Severity   : enhancement
638 Bugzilla   : 11250
639 Description: Patchless ZC(zero copy) socklnd
640 Details    : New protocol for socklnd, socklnd can support zero copy without
641              kernel patch, it's compatible with old socklnd. Checksum is 
642              moved from tunables to modparams.
643
644 Severity   : minor
645 Frequency  : rarely
646 Description: When ksocknal_del_peer() is called upon a peer whose
647              ksnp_tx_queue is not empty, ksocknal_destroy_peer()'s
648              'LASSERT(list_empty(&peer->ksnp_tx_queue))' will fail.
649
650 Severity   : normal
651 Frequency  : when ptlrpc is under heavy use and runs out of request buffer
652 Bugzilla   : 11318
653 Description: In lnet_match_blocked_msg(), md can be used without holding a
654              ref on it.
655
656 Severity   : minor
657 Frequency  : very rarely
658 Bugzilla   : 10727
659 Description: If ksocknal_lib_setup_sock() fails, a ref on peer is lost.
660              If connd connects a route which has been closed by
661              ksocknal_shutdown(), ksocknal_create_routes() may create new
662              routes which hold references on the peer, causing shutdown
663              process to wait for peer to disappear forever.
664
665 Severity   : enhancement
666 Bugzilla   : 11234
667 Description: Dump XT3 portals traces on kptllnd timeout
668 Details    : Set the kptllnd module parameter "ptltrace_on_timeout=1" to
669              dump Cray portals debug traces to a file.  The kptllnd module
670              parameter "ptltrace_basename", default "/tmp/lnet-ptltrace",
671              is the basename of the dump file.
672
673 Severity   : major
674 Frequency  : infrequent
675 Bugzilla   : 11308
676 Description: kernel ptllnd fix bug in connection re-establishment
677 Details    : Kernel ptllnd could produce protocol errors e.g. illegal
678              matchbits and/or violate the credit flow protocol when trying
679              to re-establish a connection with a peer after an error or
680              timeout. 
681
682 Severity   : enhancement
683 Bugzilla   : 10316
684 Description: Allow /proc/sys/lnet/debug to be set symbolically
685 Details    : Allow debug and subsystem debug values to be read/set by name
686              in addition to numerically, for ease of use.
687
688 Severity   : normal
689 Frequency  : only in configurations with LNET routers
690 Bugzilla   : 10316
691 Description: routes automatically marked down and recovered
692 Details    : In configurations with LNET routers if a router fails routers
693              now actively try to recover routes that are down, unless they
694              are marked down by an administrator.
695
696 ------------------------------------------------------------------------------
697
698 2006-12-09  Cluster File Systems, Inc. <info@clusterfs.com>
699
700 Severity   : critical
701 Frequency  : very rarely, in configurations with LNET routers and TCP
702 Bugzilla   : 10889
703 Description: incorrect data written to files on OSTs
704 Details    : In certain high-load conditions incorrect data may be written
705              to files on the OST when using TCP networks.
706
707 ------------------------------------------------------------------------------
708
709 2006-07-31  Cluster File Systems, Inc. <info@clusterfs.com>
710         * version 1.4.7
711         - rework CDEBUG messages rate-limiting mechanism b=10375
712         - add per-socket tunables for socklnd if the kernel is patched b=10327
713
714 ------------------------------------------------------------------------------
715
716 2006-02-15  Cluster File Systems, Inc. <info@clusterfs.com>
717         * version 1.4.6
718         - fix use of portals/lnet pid to avoid dropping RPCs b=10074
719         - iiblnd wasn't mapping all memory, resulting in comms errors b=9776
720         - quiet LNET startup LNI message for liblustre b=10128
721         - Better console error messages if 'ip2nets' can't match an IP address
722         - Fixed overflow/use-before-set bugs in linux-time.h
723         - Fixed ptllnd bug that wasn't initialising rx descriptors completely
724         - LNET teardown failed an assertion about the route table being empty
725         - Fixed a crash in LNetEQPoll(<invalid handle>)
726         - Future protocol compatibility work (b_rls146_lnetprotovrsn)
727         - improve debug message for liblustre/Catamount nodes (b=10116)
728
729 2005-10-10  Cluster File Systems, Inc. <info@clusterfs.com>
730         * Configuration change for the XT3
731              The PTLLND is now used to run Lustre over Portals on the XT3.
732              The configure option(s) --with-cray-portals are no longer
733              used.  Rather --with-portals=<path-to-portals-includes> is
734              used to enable building on the XT3.  In addition to enable
735              XT3 specific features the option --enable-cray-xt3 must be
736              used.
737
738 2005-10-10  Cluster File Systems, Inc. <info@clusterfs.com>
739         * Portals has been removed, replaced by LNET.
740            LNET is new networking infrastructure for Lustre, it includes a
741            reorganized network configuration mode (see the user
742            documentation for full details) as well as support for routing
743            between different network fabrics.  Lustre Networking Devices
744            (LNDS) for the supported network fabrics have also been created
745            for this new infrastructure.
746
747 2005-08-08  Cluster File Systems, Inc. <info@clusterfs.com>
748        * version 1.4.4
749        * bug fixes
750
751 Severity   : major
752 Frequency  : rare (large Voltaire clusters only)
753 Bugzilla   : 6993
754 Description: the default number of reserved transmit descriptors was too low
755              for some large clusters
756 Details    : As a workaround, the number was increased.  A proper fix includes
757              a run-time tunable.
758
759 2005-06-02  Cluster File Systems, Inc. <info@clusterfs.com>
760        * version 1.4.3
761        * bug fixes
762
763 Severity   : major
764 Frequency  : occasional (large-scale events, cluster reboot, network failure)
765 Bugzilla   : 6411
766 Description: too many error messages on console obscure actual problem and
767              can slow down/panic server, or cause recovery to fail repeatedly
768 Details    : enable rate-limiting of console error messages, and some messages
769              that were console errors now only go to the kernel log
770
771 Severity   : enhancement
772 Bugzilla   : 1693
773 Description: add /proc/sys/portals/catastrophe entry which will report if
774              that node has previously LBUGged
775
776 2005-04-06  Cluster File Systems, Inc. <info@clusterfs.com>
777        * bugs
778         - update gmnal to use PTL_MTU, fix module refcounting (b=5786)
779
780 2005-04-04  Cluster File Systems, Inc. <info@clusterfs.com>
781        * bugs
782         - handle error return code in kranal_check_fma_rx() (5915,6054)
783
784 2005-02-04  Cluster File Systems, Inc. <info@clusterfs.com>
785        * miscellania
786         - update vibnal (Voltaire IB NAL)
787         - update gmnal (Myrinet NAL), gmnalid
788
789 2005-02-04  Eric Barton  <eeb@bartonsoftware.com>
790
791         * Landed portals:b_port_step as follows...
792
793           - removed CFS_DECL_SPIN* 
794             just use 'spinlock_t' and initialise with spin_lock_init()
795
796           - removed CFS_DECL_MUTEX*
797             just use 'struct semaphore' and initialise with init_mutex()
798
799           - removed CFS_DECL_RWSEM*
800             just use 'struct rw_semaphore' and initialise with init_rwsem()
801
802           - renamed cfs_sleep_chan -> cfs_waitq
803                     cfs_sleep_link -> cfs_waitlink
804
805           - fixed race in linux version of arch-independent socknal
806             (the ENOMEM/EAGAIN decision).
807
808           - Didn't fix problems in Darwin version of arch-independent socknal
809             (resetting socket callbacks, eager ack hack, ENOMEM/EAGAIN decision)
810
811           - removed libcfs types from non-socknal header files (only some types
812             in the header files had been changed; the .c files hadn't been
813             updated at all).