Whamcloud - gitweb
LU-709 build: remove old BGL support option
[fs/lustre-release.git] / lnet / ChangeLog
1 TBD       Whamcloud, Inc.
2         * version 2.2.0
3         * Support for networks:
4          socklnd   - any kernel supported by Lustre,
5          o2iblnd   - OFED 1.1, 1.2.0, 1.2.5, 1.3, and 1.4.1
6          mxlnd     - MX 1.2.10 or later
7          ptllnd    - Portals 3.3 / UNICOS/lc 1.5.x, 2.0.x
8
9 -------------------------------------------------------------------------------
10
11 09-30-2011 Whamcloud, Inc.
12         * version 2.1.0
13         * Support for networks:
14          socklnd   - any kernel supported by Lustre,
15          o2iblnd   - OFED 1.1, 1.2.0, 1.2.5, 1.3, and 1.4.1
16         * Available but unsupported:
17          mxlnd     - MX 1.2.10 or later
18          ptllnd    - Portals 3.3 / UNICOS/lc 1.5.x, 2.0.x
19
20 -------------------------------------------------------------------------------
21
22 2010-07-15  Oracle, Inc.
23         * version 2.0.0
24         * Support for networks:
25          socklnd   - any kernel supported by Lustre,
26          qswlnd    - Qsnet kernel modules 5.20 and later,
27          openiblnd - IbGold 1.8.2,
28          o2iblnd   - OFED 1.1, 1.2.0, 1.2.5, 1.3, and 1.4.1
29          viblnd    - Voltaire ibhost 3.4.5 and later,
30          ciblnd    - Topspin 3.2.0,
31          iiblnd    - Infiniserv 3.3 + PathBits patch,
32          gmlnd     - GM 2.1.22 and later,
33          mxlnd     - MX 1.2.10 or later,
34          ptllnd    - Portals 3.3 / UNICOS/lc 1.5.x, 2.0.x
35
36 Severity   : minor
37 Bugzilla   : 21459
38 Description: should update lp_alive for non-router peers
39
40 Severity   : enhancement
41 Bugzilla   : 15332
42 Description: LNet router shuffler.
43
44 Severity   : enhancement
45 Bugzilla   : 15332
46 Description: LNet fine grain routing support.
47
48 Severity   : normal
49 Bugzilla   : 20171
50 Description: router checker stops working when system wall clock goes backward
51 Details    : use monotonic timing source instead of system wall clock time.
52
53 Severity   : enhancement
54 Bugzilla   : 18460
55 Description: avoid asymmetrical router failures
56
57 Severity   : enhancement
58 Bugzilla   : 19735
59 Description: multiple-instance support for kptllnd
60
61 Severity   : normal
62 Bugzilla   : 20897
63 Description: ksocknal_close_conn_locked connection race
64 Details    : A race was possible when ksocknal_create_conn calls
65              ksocknal_close_conn_locked for already closed conn.
66
67 Severity   : normal
68 Bugzilla   : 18102
69 Description: router_proc.c is rewritten to use sysctl-interface for parameters
70              residing in /proc/sys/lnet
71
72 Severity   : enhancement
73 Bugzilla   : 13065
74 Description: port router pinger to userspace
75
76 Severity   : normal
77 Bugzilla   : 17546
78 Description: kptllnd HELLO protocol deadlock
79 Details    : kptllnd HELLO protocol doesn't run to completion in finite time
80
81 Severity   : normal
82 Bugzilla   : 18075
83 Description: LNet selftest fixes and enhancements
84
85 Severity   : enhancement
86 Bugzilla   : 19156
87 Description: allow a test node to be a member of multiple test groups
88
89 Severity   : enhancement
90 Bugzilla   : 18654
91 Description: MXLND: eliminate hosts file, use arp for peer nic_id resolution
92 Details    : an update from the upstream developer Scott Atchley.
93
94 Severity   : enhancement
95 Bugzilla   : 15332
96 Description: add a new LND optiion to control peer buffer credits on routers
97
98 Severity   : normal
99 Bugzilla   : 18844
100 Description: Fixing deadlock in usocklnd
101 Details    : A deadlock was possible in usocklnd due to race condition while
102              tearing connection down. The problem resulted from erroneous
103              assumption that lnet_finalize() could have been called holding
104              some lnd-level locks.
105
106 Severity   : major
107 Bugzilla   : 13621, 15983
108 Description: Protocol V2 of o2iblnd
109 Details    : o2iblnd V2 has several new features:
110              . map-on-demand: map-on-demand is disabled by default, it can
111                be enabled by using modparam "map_on_demand=@value@", @value@
112                should >= 0 and < 256, 0 will disable map-on-demand, any other
113                valid value will enable map-on-demand. 
114                Oi2blnd will create FMR or physical MR for RDMA if fragments of
115                RD > @value@.
116                Enable map-on-demand will take less memory for new connection,
117                but a little more CPU for RDMA.
118              . iWARP : to support iWARP, please enable map-on-demand, 32 and 64
119                are recommanded value. iWARP will probably fail for value >=128.
120              . OOB NOOP message: to resolve deadlock on router.
121              . tunable peer_credits_hiw: (high water to return credits),
122                default value of peer_credits_hiw equals to (peer_credits -1),
123                user can change it between peer_credits/2 and (peer_credits - 1).
124                Lower value is recommended for high latency network.
125              . tunable message queue size: it always equals to peer_credits,
126                higher value is recommended for high latency network.
127              . It's compatible with earlier version of o2iblnd
128
129 Severity   : normal
130 Bugzilla   : 18414
131 Description: Fixing 'running out of ports' issue
132 Details    : Add a delay before next reconnect attempt in ksocklnd in
133              the case of lost race. Limit the frequency of query-requests
134              in lnet. Improved handling of 'dead peer' notifications in
135              lnet.
136
137 Severity   : normal
138 Bugzilla   : 16034
139 Description: Change ptllnd timeout and watchdog timers
140 Details    : Add ptltrace_on_nal_failed and bump ptllnd timeout to match
141              Portals wire timeout.
142
143 Severity   : normal
144 Bugzilla   : 16186
145 Description: One down Lustre FS hangs ALL mounted Lustre filesystems
146 Details    : Shared routing enhancements - peer health detection.
147
148 Severity   : enhancement
149 Bugzilla   : 14132
150 Description: acceptor.c cleanup
151 Details    : Code duplication in acceptor.c for the cases of kernel and
152              user-space removed. User-space libcfs tcpip primitives
153              uniformed to have prototypes similar to kernel ones. Minor
154              cosmetic changes in usocklnd to use cfs_socket_t as
155              representation of socket.
156
157 Severity   : minor
158 Bugzilla   : 11245
159 Description: IB path MTU mistakenly set to 1st path MTU when ib_mtu is off
160 Details    : See comment 46 in bug 11245 for details - it's indeed a bug
161              introduced by the original 11245 fix.
162
163 Severity   : minor
164 Bugzilla   : 15984
165 Description: uptllnd credit overflow fix
166 Details    : kptl_msg_t::ptlm_credits could be overflown by uptllnd since
167              it is only a __u8.
168
169 Severity   : major
170 Bugzilla   : 14634
171 Description: socklnd protocol version 3
172 Details    : With current protocol V2, connections on router can be
173              blocked and can't receive any incoming messages when there is no
174              more router buffer, so ZC-ACK can't be handled (LNet message
175              can't be finalized) and will cause deadlock on router.
176              Protocol V3 has a dedicated connection for emergency messages
177              like ZC-ACK to router, messages on this dedicated connection
178              don't need any credit so will never be blocked. Also, V3 can send
179              keepalive ping in specified period for router healthy checking.
180
181 -------------------------------------------------------------------------------
182
183 12-31-2008  Sun Microsystems, Inc.
184         * version 1.8.0
185         * Support for networks:
186          socklnd   - any kernel supported by Lustre,
187          qswlnd    - Qsnet kernel modules 5.20 and later,
188          openiblnd - IbGold 1.8.2,
189          o2iblnd   - OFED 1.1, 1.2.0, 1.2.5, and 1.3
190          viblnd    - Voltaire ibhost 3.4.5 and later,
191          ciblnd    - Topspin 3.2.0,
192          iiblnd    - Infiniserv 3.3 + PathBits patch,
193          gmlnd     - GM 2.1.22 and later,
194          mxlnd     - MX 1.2.1 or later,
195          ptllnd    - Portals 3.3 / UNICOS/lc 1.5.x, 2.0.x
196
197 Severity   : major
198 Bugzilla   : 15983
199 Description: workaround for OOM from o2iblnd
200 Details    : OFED needs allocate big chunk of memory for QP while creating
201              connection for o2iblnd, OOM can happen if no such a contiguous
202              memory chunk.
203              QP size is decided by concurrent_sends and max_fragments of
204              o2iblnd, now we permit user to specify smaller value for
205              concurrent_sends of o2iblnd(i.e: concurrent_sends=7), which
206              will decrease memory block size required by creating QP.
207
208 Severity   : major
209 Bugzilla   : 15093
210 Description: Support Zerocopy receive of Chelsio device
211 Details    : Chelsio driver can support zerocopy for iov[1] if it's
212              contiguous and large enough.
213
214 Severity   : normal
215 Bugzilla   : 13490
216 Description: fix credit flow deadlock in uptllnd
217
218 Severity   : normal
219 Bugzilla   : 16308
220 Description: finalize network operation in reasonable time
221 Details    : conf-sanity test_32a couldn't stop ost and mds because it
222              tried to access non-existent peer and tcp connect took
223              quite long before timing out.
224
225 Severity   : major
226 Bugzilla   : 16338
227 Description: Continuous recovery on 33 of 413 nodes after lustre oss failure
228 Details    : Lost reference on conn prevents peer from being destroyed, which
229              could prevent new peer creation if peer count has reached upper
230              limit.
231
232 Severity   : normal
233 Bugzilla   : 16102
234 Description: LNET Selftest results in Soft lockup on OSS CPU
235 Details    : only hits when 8 or more o2ib clients involved and a session is
236              torn down with 'lst end_session' without preceeding 'lst stop'.
237
238 Severity   : minor
239 Bugzilla   : 16321
240 Description: concurrent_sends in IB LNDs should not be changeable at run time
241 Details    : concurrent_sends in IB LNDs should not be changeable at run time
242
243 Severity   : normal
244 Bugzilla   : 15272
245 Description: ptl_send_rpc hits LASSERT when ptl_send_buf fails
246 Details    : only hits under out-of-memory situations
247
248
249 -------------------------------------------------------------------------------
250
251 2009-02-07 Sun Microsystems, Inc.
252         * version 1.6.7
253         * Support for networks:
254          socklnd   - any kernel supported by Lustre,
255          qswlnd    - Qsnet kernel modules 5.20 and later,
256          openiblnd - IbGold 1.8.2,
257          o2iblnd   - OFED 1.1, 1.2.0, 1.2.5, and 1.3
258          viblnd    - Voltaire ibhost 3.4.5 and later,
259          ciblnd    - Topspin 3.2.0,
260          iiblnd    - Infiniserv 3.3 + PathBits patch,
261          gmlnd     - GM 2.1.22 and later,
262          mxlnd     - MX 1.2.1 or later,
263          ptllnd    - Portals 3.3 / UNICOS/lc 1.5.x, 2.0.x
264 Severity   : major
265 Bugzilla   : 15983
266 Description: workaround for OOM from o2iblnd
267 Details    : OFED needs allocate big chunk of memory for QP while creating
268              connection for o2iblnd, OOM can happen if no such a contiguous
269              memory chunk.
270              QP size is decided by concurrent_sends and max_fragments of
271              o2iblnd, now we permit user to specify smaller value for
272              concurrent_sends of o2iblnd(i.e: concurrent_sends=7), which
273              will decrease memory block size required by creating QP.
274
275 Severity   : major
276 Bugzilla   : 15093
277 Description: Support Zerocopy receive of Chelsio device
278 Details    : Chelsio driver can support zerocopy for iov[1] if it's
279              contiguous and large enough.
280 Severity   : normal
281 Bugzilla   : 13490
282 Description: fix credit flow deadlock in uptllnd
283
284 Severity   : normal
285 Bugzilla   : 16308
286 Description: finalize network operation in reasonable time
287 Details    : conf-sanity test_32a couldn't stop ost and mds because it
288              tried to access non-existent peer and tcp connect took
289              quite long before timing out.
290
291 Severity   : major
292 Bugzilla   : 16338
293 Description: Continuous recovery on 33 of 413 nodes after lustre oss failure
294 Details    : Lost reference on conn prevents peer from being destroyed, which
295              could prevent new peer creation if peer count has reached upper
296              limit.
297
298 Severity   : normal
299 Bugzilla   : 16102
300 Description: LNET Selftest results in Soft lockup on OSS CPU
301 Details    : only hits when 8 or more o2ib clients involved and a session is
302              torn down with 'lst end_session' without preceeding 'lst stop'.
303
304 Severity   : minor
305 Bugzilla   : 16321
306 Description: concurrent_sends in IB LNDs should not be changeable at run time
307 Details    : concurrent_sends in IB LNDs should not be changeable at run time
308
309 -------------------------------------------------------------------------------
310
311 11-03-2008  Sun Microsystems, Inc.
312         * version 1.6.6
313         * Support for networks:
314          socklnd   - any kernel supported by Lustre,
315          qswlnd    - Qsnet kernel modules 5.20 and later,
316          openiblnd - IbGold 1.8.2,
317          o2iblnd   - OFED 1.1, 1.2.0, 1.2.5, and 1.3
318          viblnd    - Voltaire ibhost 3.4.5 and later,
319          ciblnd    - Topspin 3.2.0,
320          iiblnd    - Infiniserv 3.3 + PathBits patch,
321          gmlnd     - GM 2.1.22 and later,
322          mxlnd     - MX 1.2.1 or later,
323          ptllnd    - Portals 3.3 / UNICOS/lc 1.5.x, 2.0.x
324
325 Severity   : normal
326 Bugzilla   : 15272
327 Description: ptl_send_rpc hits LASSERT when ptl_send_buf fails
328 Details    : only hits under out-of-memory situations
329
330 -------------------------------------------------------------------------------
331
332 04-26-2008  Sun Microsystems, Inc.
333        * version 1.6.5
334        * Support for networks:
335         socklnd   - any kernel supported by Lustre,
336         qswlnd    - Qsnet kernel modules 5.20 and later,
337         openiblnd - IbGold 1.8.2,
338         o2iblnd   - OFED 1.1 and 1.2.0, 1.2.5
339         viblnd    - Voltaire ibhost 3.4.5 and later,
340         ciblnd    - Topspin 3.2.0,
341         iiblnd    - Infiniserv 3.3 + PathBits patch,
342         gmlnd     - GM 2.1.22 and later,
343         mxlnd     - MX 1.2.1 or later,
344         ptllnd    - Portals 3.3 / UNICOS/lc 1.5.x, 2.0.x
345
346 Severity   : normal
347 Bugzilla   : 14322
348 Description: excessive debug information removed
349 Details    : excessive debug information removed
350
351 Severity   : major
352 Bugzilla   : 15712
353 Description: ksocknal_create_conn() hit ASSERTION during connection race
354 Details    : ksocknal_create_conn() hit ASSERTION during connection race
355
356 Severity   : major
357 Bugzilla   : 13983
358 Description: ksocknal_send_hello() hit ASSERTION while connecting race
359 Details    : ksocknal_send_hello() hit ASSERTION while connecting race
360
361 Severity   : major
362 Bugzilla   : 14425
363 Description: o2iblnd/ptllnd credit deadlock in a routed config.
364 Details    : o2iblnd/ptllnd credit deadlock in a routed config.
365
366 Severity   : normal
367 Bugzilla   : 14956
368 Description: High load after starting lnet
369 Details    : gmlnd should sleep in rx thread in interruptible way. Otherwise,
370              uptime utility reports high load that looks confusingly.
371
372 Severity   : normal
373 Bugzilla   : 14838
374 Description: ksocklnd fails to establish connection if accept_port is high
375 Details    : PID remapping must not be done for active (outgoing) connections
376
377
378 --------------------------------------------------------------------------------
379
380 2008-01-11  Sun Microsystems, Inc.
381        * version 1.4.12
382        * Support for networks:
383         socklnd   - any kernel supported by Lustre,
384         qswlnd    - Qsnet kernel modules 5.20 and later,
385         openiblnd - IbGold 1.8.2,
386         o2iblnd   - OFED 1.1 and 1.2.0, 1.2.5
387         viblnd    - Voltaire ibhost 3.4.5 and later,
388         ciblnd    - Topspin 3.2.0,
389         iiblnd    - Infiniserv 3.3 + PathBits patch,
390         gmlnd     - GM 2.1.22 and later,
391         mxlnd     - MX 1.2.1 or later,
392         ptllnd    - Portals 3.3 / UNICOS/lc 1.5.x, 2.0.x
393
394 Severity   : normal
395 Bugzilla   : 14387
396 Description: liblustre network error
397 Details    : liblustre clients should understand LNET_ACCEPT_PORT environment
398              variable even if they don't start lnet acceptor.
399
400 Severity   : normal
401 Bugzilla   : 14300
402 Description: Strange message from lnet (Ignoring prediction from the future)
403 Details    : Incorrect calculation of peer's last_alive value in ksocklnd
404
405 --------------------------------------------------------------------------------
406
407 2007-12-07         Cluster File Systems, Inc. <info@clusterfs.com>
408        * version 1.6.4
409        * Support for networks:
410         socklnd   - any kernel supported by Lustre,
411         qswlnd    - Qsnet kernel modules 5.20 and later,
412         openiblnd - IbGold 1.8.2,
413         o2iblnd   - OFED 1.1 and 1.2.0, 1.2.5.
414         viblnd    - Voltaire ibhost 3.4.5 and later,
415         ciblnd    - Topspin 3.2.0,
416         iiblnd    - Infiniserv 3.3 + PathBits patch,
417         gmlnd     - GM 2.1.22 and later,
418         mxlnd     - MX 1.2.1 or later,
419         ptllnd    - Portals 3.3 / UNICOS/lc 1.5.x, 2.0.x
420
421 Severity   : normal
422 Bugzilla   : 14238
423 Description: ASSERTION(me == md->md_me) failed in lnet_match_md()
424
425 Severity   : normal
426 Bugzilla   : 12494
427 Description: increase send queue size for ciblnd/openiblnd
428
429 Severity   : normal
430 Bugzilla   : 12302
431 Description: new userspace socklnd
432 Details    : Old userspace tcpnal that resided in lnet/ulnds/socklnd replaced
433              with new one - usocklnd.
434
435 Severity   : enhancement
436 Bugzilla   : 11686
437 Description: Console message flood
438 Details    : Make cdls ratelimiting more tunable by adding several tunable in
439              procfs /proc/sys/lnet/console_{min,max}_delay_centisecs and
440              /proc/sys/lnet/console_backoff.
441
442 --------------------------------------------------------------------------------
443
444 2007-09-27         Cluster File Systems, Inc. <info@clusterfs.com>
445        * version 1.6.3
446        * Support for networks:
447         socklnd   - any kernel supported by Lustre,
448         qswlnd    - Qsnet kernel modules 5.20 and later,
449         openiblnd - IbGold 1.8.2,
450         o2iblnd   - OFED 1.1 and 1.2,
451         viblnd    - Voltaire ibhost 3.4.5 and later,
452         ciblnd    - Topspin 3.2.0,
453         iiblnd    - Infiniserv 3.3 + PathBits patch,
454         gmlnd     - GM 2.1.22 and later,
455         mxlnd     - MX 1.2.1 or later,
456         ptllnd    - Portals 3.3 / UNICOS/lc 1.5.x, 2.0.x
457
458 Severity   : normal
459 Bugzilla   : 12782
460 Description: /proc/sys/lnet has non-sysctl entries
461 Details    : Updating dump_kernel/daemon_file/debug_mb to use sysctl variables
462
463 Severity   : major
464 Bugzilla   : 13236
465 Description: TOE Kernel panic by ksocklnd
466 Details    : offloaded sockets provide their own implementation of sendpage,
467              can't call tcp_sendpage() directly
468
469 Severity   : normal
470 Bugzilla   : 10778
471 Description: kibnal_shutdown() doesn't finish; lconf --cleanup hangs
472 Details    : races between lnd_shutdown and peer creation prevent 
473              lnd_shutdown from finishing.
474
475 Severity   : normal
476 Bugzilla   : 13279
477 Description: open files rlimit 1024 reached while liblustre testing
478 Details    : ulnds/socklnd must close open socket after unsuccessful
479              'say hello' attempt.
480
481 Severity   : major 
482 Bugzilla   : 13482
483 Description: build error
484 Details    : fix typos in gmlnd, ptllnd and viblnd
485
486 --------------------------------------------------------------------------------
487
488 2007-07-30  Cluster File Systems, Inc. <info@clusterfs.com>
489        * version 1.6.1
490        * Support for networks:
491         socklnd   - kernels up to 2.6.16,
492         qswlnd    - Qsnet kernel modules 5.20 and later,
493         openiblnd - IbGold 1.8.2,
494         o2iblnd   - OFED 1.1 and 1.2
495         viblnd    - Voltaire ibhost 3.4.5 and later,
496         ciblnd    - Topspin 3.2.0,
497         iiblnd    - Infiniserv 3.3 + PathBits patch,
498         gmlnd     - GM 2.1.22 and later,
499         mxlnd     - MX 1.2.1 or later,
500         ptllnd    - Portals 3.3 / UNICOS/lc 1.5.x, 2.0.x
501
502 --------------------------------------------------------------------------------
503
504 2007-06-21  Cluster File Systems, Inc. <info@clusterfs.com>
505        * version 1.4.11
506        * Support for networks:
507         socklnd   - kernels up to 2.6.16,
508         qswlnd    - Qsnet kernel modules 5.20 and later,
509         openiblnd - IbGold 1.8.2,
510         o2iblnd   - OFED 1.1
511         viblnd    - Voltaire ibhost 3.4.5 and later,
512         ciblnd    - Topspin 3.2.0,
513         iiblnd    - Infiniserv 3.3 + PathBits patch,
514         gmlnd     - GM 2.1.22 and later,
515         mxlnd     - MX 1.2.1 or later,
516         ptllnd    - Portals 3.3 / UNICOS/lc 1.5.x, 2.0.x
517
518 Severity   : minor
519 Bugzilla   : 13288
520 Description: Initialize cpumask before use
521
522 Severity   : major
523 Bugzilla   : 12014
524 Description: ASSERTION failures when upgrading to the patchless zero-copy
525              socklnd 
526 Details    : This bug affects "rolling upgrades", causing an inconsistent
527              protocol version negotiation and subsequent assertion failure
528              during rolling upgrades after the first wave of upgrades.
529
530 Severity   : minor
531 Bugzilla   : 11223
532 Details    : Change "dropped message" CERRORs to D_NETERROR so they are
533              logged instead of creating "console chatter" when a lustre
534              timeout races with normal RPC completion.
535
536 Severity   : minor
537 Details    : lnet_clear_peer_table can wait forever if user forgets to
538              clear a lazy portal.
539
540 Severity   : minor
541 Details    : libcfs_id2str should check pid against LNET_PID_ANY.
542
543 Severity   : major
544 Bugzilla   : 10916
545 Description: added LNET self test
546 Details    : landing b_self_test
547
548 Severity   : minor
549 Frequency  : rare
550 Bugzilla   : 12227
551 Description: cfs_duration_{u,n}sec() wrongly calculate nanosecond part of
552              struct timeval.
553 Details    : do_div() macro is used incorrectly.
554
555 2007-04-23  Cluster File Systems, Inc. <info@clusterfs.com>
556
557 Severity   : normal
558 Bugzilla   : 11680
559 Description: make panic on lbug configurable
560
561 Severity   : major
562 Bugzilla   : 12316
563 Description: Add OFED1.2 support to o2iblnd
564 Details    : o2iblnd depends on OFED's modules, if out-tree OFED's modules
565              are installed (other than kernel's in-tree infiniband), there
566              could be some problem while insmod o2iblnd (mismatch CRC of 
567              ib_* symbols).
568              If extra Module.symvers is supported in kernel (i.e, 2.6.17),
569              this link provides solution:
570              https://bugs.openfabrics.org/show_bug.cgi?id=355
571              if extra Module.symvers is not supported in kernel, we will
572              have to run the script in bug 12316 to update
573              $LINUX/module.symvers before building o2iblnd.
574              More details about this are in bug 12316.
575
576 ------------------------------------------------------------------------------
577
578 2007-04-01  Cluster File Systems, Inc. <info@clusterfs.com>
579        * version 1.4.10 / 1.6.0
580        * Support for networks:
581         socklnd   - kernels up to 2.6.16,
582         qswlnd    - Qsnet kernel modules 5.20 and later,
583         openiblnd - IbGold 1.8.2,
584         o2iblnd   - OFED 1.1,
585         viblnd    - Voltaire ibhost 3.4.5 and later,
586         ciblnd    - Topspin 3.2.0,
587         iiblnd    - Infiniserv 3.3 + PathBits patch,
588         gmlnd     - GM 2.1.22 and later,
589         mxlnd     - MX 1.2.1 or later,
590         ptllnd    - Portals 3.3 / UNICOS/lc 1.5.x, 2.0.x
591         
592 Severity   : minor
593 Frequency  : rare
594 Description: Ptllnd didn't init kptllnd_data.kptl_idle_txs before it could be
595              possibly accessed in kptllnd_shutdown. Ptllnd should init 
596              kptllnd_data.kptl_ptlid2str_lock before calling kptllnd_ptlid2str.
597
598 Severity   : normal
599 Frequency  : rare
600 Description: gmlnd ignored some transmit errors when finalizing lnet messages.
601
602 Severity   : minor
603 Frequency  : rare
604 Description: ptllnd logs a piece of incorrect debug info in kptllnd_peer_handle_hello.
605
606 Severity   : minor
607 Frequency  : rare
608 Description: the_lnet.ln_finalizing was not set when the current thread is
609              about to complete messages. It only affects multi-threaded 
610              user space LNet.
611         
612 Severity   : normal
613 Frequency  : rare
614 Bugzilla   : 11472
615 Description: Changed the default kqswlnd ntxmsg=512
616         
617 Severity   : major
618 Frequency  : rare
619 Bugzilla   : 12458
620 Description: Assertion failure in kernel ptllnd caused by posting passive
621              bulk buffers before connection establishment complete.
622         
623 Severity   : major
624 Frequency  : rare
625 Bugzilla   : 12445
626 Description: A race in kernel ptllnd between deleting a peer and posting
627              new communications for it could hang communications -
628              manifesting as "Unexpectedly long timeout" messages.
629         
630 Severity   : major
631 Frequency  : rare
632 Bugzilla   : 12432
633 Description: Kernel ptllnd lock ordering issue could hang a node.
634         
635 Severity   : major
636 Frequency  : rare
637 Bugzilla   : 12016
638 Description: node crash on socket teardown race
639
640 Severity   : minor
641 Frequency  : 'lctl peer_list' issued on a mx net
642 Bugzilla   : 12237
643 Description: Enable lctl's peer_list for MXLND
644
645 Severity   : major
646 Frequency  : after Ptllnd timeouts and portals congestion
647 Bugzilla   : 11659
648 Description: Credit overflows
649 Details    : This was a bug in ptllnd connection establishment.  The fix
650              implements better peer stamps to disambiguate connection
651              establishment and ensure both peers enter the credit flow
652              state machine consistently.
653
654 Severity   : major
655 Frequency  : rare       
656 Bugzilla   : 11394
657 Description: kptllnd didn't propagate some network errors up to LNET 
658 Details    : This bug was spotted while investigating 11394.  The fix
659              ensures network errors on sends and bulk transfers are
660              propagated to LNET/lustre correctly.
661
662 Severity   : enhancement
663 Bugzilla   : 10316
664 Description: Fixed console chatter in case of -ETIMEDOUT.
665
666 Severity   : enhancement
667 Bugzilla   : 11684
668 Description: Added D_NETTRACE for recording network packet history
669              (initially only for ptllnd).  Also a separate userspace
670              ptllnd facility to gather history which should really be
671              covered by D_NETTRACE too, if only CDEBUG recorded history in
672              userspace.
673
674 Severity   : major
675 Frequency  : rare       
676 Bugzilla   : 11616
677 Description: o2iblnd handle early RDMA_CM_EVENT_DISCONNECTED.
678 Details    : If the fabric is lossy, an RDMA_CM_EVENT_DISCONNECTED
679              callback can occur before a connection has actually been
680              established.  This caused an assertion failure previously.
681
682 Severity   : enhancement
683 Bugzilla   : 11094
684 Description: Multiple instances for o2iblnd
685 Details    : Allow multiple instances of o2iblnd to enable networking over
686              multiple HCAs and routing between them.
687
688 Severity   : major
689 Bugzilla   : 11201
690 Description: lnet deadlock in router_checker
691 Details    : turned ksnd_connd_lock, ksnd_reaper_lock, and ksock_net_t:ksnd_lock
692              into BH locks to eliminate potential deadlock caused by
693              ksocknal_data_ready() preempting code holding these locks.
694
695 Severity   : major
696 Bugzilla   : 11126
697 Description: Millions of failed socklnd connection attempts cause a very slow FS
698 Details    : added a new route flag ksnr_scheduled to distinguish from
699              ksnr_connecting, so that a peer connection request is only turned
700              down for race concerns when an active connection to the same peer
701              is under progress (instead of just being scheduled).
702
703 ------------------------------------------------------------------------------
704
705 2007-02-09  Cluster File Systems, Inc. <info@clusterfs.com>
706        * version 1.4.9
707        * Support for networks:
708         socklnd   - kernels up to 2.6.16
709         qswlnd    - Qsnet kernel modules 5.20 and later
710         openiblnd - IbGold 1.8.2
711         o2iblnd   - OFED 1.1
712         viblnd    - Voltaire ibhost 3.4.5 and later
713         ciblnd    - Topspin 3.2.0
714         iiblnd    - Infiniserv 3.3 + PathBits patch
715         gmlnd     - GM 2.1.22 and later
716         mxlnd     - MX 1.2.1 or later
717         ptllnd    - Portals 3.3 / UNICOS/lc 1.5.x, 2.0.x
718        * bug fixes
719
720 Severity   : major on XT3
721 Bugzilla   : none
722 Description: libcfs overwrites /proc/sys/portals
723 Details    : libcfs created a symlink from /proc/sys/portals to
724              /proc/sys/lnet for backwards compatibility.  This is no
725              longer required and makes the Cray portals /proc variables
726              inaccessible.
727
728 Severity   : minor
729 Bugzilla   : 11312
730 Description: OFED FMR API change
731 Details    : This changes parameter usage to reflect a change in
732              ib_fmr_pool_map_phys() between OFED 1.0 and OFED 1.1.  Note
733              that FMR support is only used in experimental versions of the
734              o2iblnd - this change does not affect standard usage at all.
735
736 Severity   : enhancement
737 Bugzilla   : 11245
738 Description: new ko2iblnd module parameter: ib_mtu
739 Details    : the default IB MTU of 2048 performs badly on 23108 Tavor
740              HCAs.  You can avoid this problem by setting the MTU to 1024
741              using this module parameter.
742
743 Severity   : enhancement
744 Bugzilla   : 11118/11620
745 Description: ptllnd small request message buffer alignment fix
746 Details    : Set the PTL_MD_LOCAL_ALIGN8 option on small message receives.
747              Round up small message size on sends in case this option
748              is not supported.  11620 was a defect in the initial
749              implementation which effectively asserted all peers had to be
750              running the correct protocol version which was fixed by always
751              NAK-ing such requests and handling any misalignments they
752              introduce.
753
754 Severity   : minor
755 Frequency  : rarely
756 Description: When kib(nal|lnd)_del_peer() is called upon a peer whose
757              ibp_tx_queue is not empty, kib(nal|lnd)_destroy_peer()'s
758              'LASSERT(list_empty(&peer->ibp_tx_queue))' will fail.
759
760 Severity   : enhancement
761 Bugzilla   : 11250
762 Description: Patchless ZC(zero copy) socklnd
763 Details    : New protocol for socklnd, socklnd can support zero copy without
764              kernel patch, it's compatible with old socklnd. Checksum is 
765              moved from tunables to modparams.
766
767 Severity   : minor
768 Frequency  : rarely
769 Description: When ksocknal_del_peer() is called upon a peer whose
770              ksnp_tx_queue is not empty, ksocknal_destroy_peer()'s
771              'LASSERT(list_empty(&peer->ksnp_tx_queue))' will fail.
772
773 Severity   : normal
774 Frequency  : when ptlrpc is under heavy use and runs out of request buffer
775 Bugzilla   : 11318
776 Description: In lnet_match_blocked_msg(), md can be used without holding a
777              ref on it.
778
779 Severity   : minor
780 Frequency  : very rarely
781 Bugzilla   : 10727
782 Description: If ksocknal_lib_setup_sock() fails, a ref on peer is lost.
783              If connd connects a route which has been closed by
784              ksocknal_shutdown(), ksocknal_create_routes() may create new
785              routes which hold references on the peer, causing shutdown
786              process to wait for peer to disappear forever.
787
788 Severity   : enhancement
789 Bugzilla   : 11234
790 Description: Dump XT3 portals traces on kptllnd timeout
791 Details    : Set the kptllnd module parameter "ptltrace_on_timeout=1" to
792              dump Cray portals debug traces to a file.  The kptllnd module
793              parameter "ptltrace_basename", default "/tmp/lnet-ptltrace",
794              is the basename of the dump file.
795
796 Severity   : major
797 Frequency  : infrequent
798 Bugzilla   : 11308
799 Description: kernel ptllnd fix bug in connection re-establishment
800 Details    : Kernel ptllnd could produce protocol errors e.g. illegal
801              matchbits and/or violate the credit flow protocol when trying
802              to re-establish a connection with a peer after an error or
803              timeout. 
804
805 Severity   : enhancement
806 Bugzilla   : 10316
807 Description: Allow /proc/sys/lnet/debug to be set symbolically
808 Details    : Allow debug and subsystem debug values to be read/set by name
809              in addition to numerically, for ease of use.
810
811 Severity   : normal
812 Frequency  : only in configurations with LNET routers
813 Bugzilla   : 10316
814 Description: routes automatically marked down and recovered
815 Details    : In configurations with LNET routers if a router fails routers
816              now actively try to recover routes that are down, unless they
817              are marked down by an administrator.
818
819 ------------------------------------------------------------------------------
820
821 2006-12-09  Cluster File Systems, Inc. <info@clusterfs.com>
822
823 Severity   : critical
824 Frequency  : very rarely, in configurations with LNET routers and TCP
825 Bugzilla   : 10889
826 Description: incorrect data written to files on OSTs
827 Details    : In certain high-load conditions incorrect data may be written
828              to files on the OST when using TCP networks.
829
830 ------------------------------------------------------------------------------
831
832 2006-07-31  Cluster File Systems, Inc. <info@clusterfs.com>
833         * version 1.4.7
834         - rework CDEBUG messages rate-limiting mechanism b=10375
835         - add per-socket tunables for socklnd if the kernel is patched b=10327
836
837 ------------------------------------------------------------------------------
838
839 2006-02-15  Cluster File Systems, Inc. <info@clusterfs.com>
840         * version 1.4.6
841         - fix use of portals/lnet pid to avoid dropping RPCs b=10074
842         - iiblnd wasn't mapping all memory, resulting in comms errors b=9776
843         - quiet LNET startup LNI message for liblustre b=10128
844         - Better console error messages if 'ip2nets' can't match an IP address
845         - Fixed overflow/use-before-set bugs in linux-time.h
846         - Fixed ptllnd bug that wasn't initialising rx descriptors completely
847         - LNET teardown failed an assertion about the route table being empty
848         - Fixed a crash in LNetEQPoll(<invalid handle>)
849         - Future protocol compatibility work (b_rls146_lnetprotovrsn)
850         - improve debug message for liblustre/Catamount nodes (b=10116)
851
852 2005-10-10  Cluster File Systems, Inc. <info@clusterfs.com>
853         * Configuration change for the XT3
854              The PTLLND is now used to run Lustre over Portals on the XT3.
855              The configure option(s) --with-cray-portals are no longer
856              used.  Rather --with-portals=<path-to-portals-includes> is
857              used to enable building on the XT3.  In addition to enable
858              XT3 specific features the option --enable-cray-xt3 must be
859              used.
860
861 2005-10-10  Cluster File Systems, Inc. <info@clusterfs.com>
862         * Portals has been removed, replaced by LNET.
863            LNET is new networking infrastructure for Lustre, it includes a
864            reorganized network configuration mode (see the user
865            documentation for full details) as well as support for routing
866            between different network fabrics.  Lustre Networking Devices
867            (LNDS) for the supported network fabrics have also been created
868            for this new infrastructure.
869
870 2005-08-08  Cluster File Systems, Inc. <info@clusterfs.com>
871        * version 1.4.4
872        * bug fixes
873
874 Severity   : major
875 Frequency  : rare (large Voltaire clusters only)
876 Bugzilla   : 6993
877 Description: the default number of reserved transmit descriptors was too low
878              for some large clusters
879 Details    : As a workaround, the number was increased.  A proper fix includes
880              a run-time tunable.
881
882 2005-06-02  Cluster File Systems, Inc. <info@clusterfs.com>
883        * version 1.4.3
884        * bug fixes
885
886 Severity   : major
887 Frequency  : occasional (large-scale events, cluster reboot, network failure)
888 Bugzilla   : 6411
889 Description: too many error messages on console obscure actual problem and
890              can slow down/panic server, or cause recovery to fail repeatedly
891 Details    : enable rate-limiting of console error messages, and some messages
892              that were console errors now only go to the kernel log
893
894 Severity   : enhancement
895 Bugzilla   : 1693
896 Description: add /proc/sys/portals/catastrophe entry which will report if
897              that node has previously LBUGged
898
899 2005-04-06  Cluster File Systems, Inc. <info@clusterfs.com>
900        * bugs
901         - update gmnal to use PTL_MTU, fix module refcounting (b=5786)
902
903 2005-04-04  Cluster File Systems, Inc. <info@clusterfs.com>
904        * bugs
905         - handle error return code in kranal_check_fma_rx() (5915,6054)
906
907 2005-02-04  Cluster File Systems, Inc. <info@clusterfs.com>
908        * miscellania
909         - update vibnal (Voltaire IB NAL)
910         - update gmnal (Myrinet NAL), gmnalid
911
912 2005-02-04  Eric Barton  <eeb@bartonsoftware.com>
913
914         * Landed portals:b_port_step as follows...
915
916           - removed CFS_DECL_SPIN* 
917             just use 'spinlock_t' and initialise with spin_lock_init()
918
919           - removed CFS_DECL_MUTEX*
920             just use 'struct semaphore' and initialise with init_mutex()
921
922           - removed CFS_DECL_RWSEM*
923             just use 'struct rw_semaphore' and initialise with init_rwsem()
924
925           - renamed cfs_sleep_chan -> cfs_waitq
926                     cfs_sleep_link -> cfs_waitlink
927
928           - fixed race in linux version of arch-independent socknal
929             (the ENOMEM/EAGAIN decision).
930
931           - Didn't fix problems in Darwin version of arch-independent socknal
932             (resetting socket callbacks, eager ack hack, ENOMEM/EAGAIN decision)
933
934           - removed libcfs types from non-socknal header files (only some types
935             in the header files had been changed; the .c files hadn't been
936             updated at all).