Whamcloud - gitweb
b=16774 cancel unused osc locks before replay.
[fs/lustre-release.git] / lnet / ChangeLog
1 TBD Oracle, Inc.
2         * version 2.1.0
3         * Support for networks:
4          socklnd   - any kernel supported by Lustre,
5          qswlnd    - Qsnet kernel modules 5.20 and later,
6          openiblnd - IbGold 1.8.2,
7          o2iblnd   - OFED 1.1, 1.2.0, 1.2.5, 1.3, and 1.4.1
8          viblnd    - Voltaire ibhost 3.4.5 and later,
9          ciblnd    - Topspin 3.2.0,
10          iiblnd    - Infiniserv 3.3 + PathBits patch,
11          gmlnd     - GM 2.1.22 and later,
12          mxlnd     - MX 1.2.10 or later,
13          ptllnd    - Portals 3.3 / UNICOS/lc 1.5.x, 2.0.x
14
15 -------------------------------------------------------------------------------
16
17 2010-07-15  Sun Microsystems, Inc.
18         * version 2.0.0
19         * Support for networks:
20          socklnd   - any kernel supported by Lustre,
21          qswlnd    - Qsnet kernel modules 5.20 and later,
22          openiblnd - IbGold 1.8.2,
23          o2iblnd   - OFED 1.1, 1.2.0, 1.2.5, 1.3, and 1.4.1
24          viblnd    - Voltaire ibhost 3.4.5 and later,
25          ciblnd    - Topspin 3.2.0,
26          iiblnd    - Infiniserv 3.3 + PathBits patch,
27          gmlnd     - GM 2.1.22 and later,
28          mxlnd     - MX 1.2.10 or later,
29          ptllnd    - Portals 3.3 / UNICOS/lc 1.5.x, 2.0.x
30
31 Severity   : minor
32 Bugzilla   : 21459
33 Description: should update lp_alive for non-router peers
34
35 Severity   : enhancement
36 Bugzilla   : 15332
37 Description: LNet router shuffler.
38
39 Severity   : enhancement
40 Bugzilla   : 15332
41 Description: LNet fine grain routing support.
42
43 Severity   : normal
44 Bugzilla   : 20171
45 Description: router checker stops working when system wall clock goes backward
46 Details    : use monotonic timing source instead of system wall clock time.
47
48 Severity   : enhancement
49 Bugzilla   : 18460
50 Description: avoid asymmetrical router failures
51
52 Severity   : enhancement
53 Bugzilla   : 19735
54 Description: multiple-instance support for kptllnd
55
56 Severity   : normal
57 Bugzilla   : 20897
58 Description: ksocknal_close_conn_locked connection race
59 Details    : A race was possible when ksocknal_create_conn calls
60              ksocknal_close_conn_locked for already closed conn.
61
62 Severity   : normal
63 Bugzilla   : 18102
64 Description: router_proc.c is rewritten to use sysctl-interface for parameters
65              residing in /proc/sys/lnet
66
67 Severity   : enhancement
68 Bugzilla   : 13065
69 Description: port router pinger to userspace
70
71 Severity   : normal
72 Bugzilla   : 17546
73 Description: kptllnd HELLO protocol deadlock
74 Details    : kptllnd HELLO protocol doesn't run to completion in finite time
75
76 Severity   : normal
77 Bugzilla   : 18075
78 Description: LNet selftest fixes and enhancements
79
80 Severity   : enhancement
81 Bugzilla   : 19156
82 Description: allow a test node to be a member of multiple test groups
83
84 Severity   : enhancement
85 Bugzilla   : 18654
86 Description: MXLND: eliminate hosts file, use arp for peer nic_id resolution
87 Details    : an update from the upstream developer Scott Atchley.
88
89 Severity   : enhancement
90 Bugzilla   : 15332
91 Description: add a new LND optiion to control peer buffer credits on routers
92
93 Severity   : normal
94 Bugzilla   : 18844
95 Description: Fixing deadlock in usocklnd
96 Details    : A deadlock was possible in usocklnd due to race condition while
97              tearing connection down. The problem resulted from erroneous
98              assumption that lnet_finalize() could have been called holding
99              some lnd-level locks.
100
101 Severity   : major
102 Bugzilla   : 13621, 15983
103 Description: Protocol V2 of o2iblnd
104 Details    : o2iblnd V2 has several new features:
105              . map-on-demand: map-on-demand is disabled by default, it can
106                be enabled by using modparam "map_on_demand=@value@", @value@
107                should >= 0 and < 256, 0 will disable map-on-demand, any other
108                valid value will enable map-on-demand. 
109                Oi2blnd will create FMR or physical MR for RDMA if fragments of
110                RD > @value@.
111                Enable map-on-demand will take less memory for new connection,
112                but a little more CPU for RDMA.
113              . iWARP : to support iWARP, please enable map-on-demand, 32 and 64
114                are recommanded value. iWARP will probably fail for value >=128.
115              . OOB NOOP message: to resolve deadlock on router.
116              . tunable peer_credits_hiw: (high water to return credits),
117                default value of peer_credits_hiw equals to (peer_credits -1),
118                user can change it between peer_credits/2 and (peer_credits - 1).
119                Lower value is recommended for high latency network.
120              . tunable message queue size: it always equals to peer_credits,
121                higher value is recommended for high latency network.
122              . It's compatible with earlier version of o2iblnd
123
124 Severity   : normal
125 Bugzilla   : 18414
126 Description: Fixing 'running out of ports' issue
127 Details    : Add a delay before next reconnect attempt in ksocklnd in
128              the case of lost race. Limit the frequency of query-requests
129              in lnet. Improved handling of 'dead peer' notifications in
130              lnet.
131
132 Severity   : normal
133 Bugzilla   : 16034
134 Description: Change ptllnd timeout and watchdog timers
135 Details    : Add ptltrace_on_nal_failed and bump ptllnd timeout to match
136              Portals wire timeout.
137
138 Severity   : normal
139 Bugzilla   : 16186
140 Description: One down Lustre FS hangs ALL mounted Lustre filesystems
141 Details    : Shared routing enhancements - peer health detection.
142
143 Severity   : enhancement
144 Bugzilla   : 14132
145 Description: acceptor.c cleanup
146 Details    : Code duplication in acceptor.c for the cases of kernel and
147              user-space removed. User-space libcfs tcpip primitives
148              uniformed to have prototypes similar to kernel ones. Minor
149              cosmetic changes in usocklnd to use cfs_socket_t as
150              representation of socket.
151
152 Severity   : minor
153 Bugzilla   : 11245
154 Description: IB path MTU mistakenly set to 1st path MTU when ib_mtu is off
155 Details    : See comment 46 in bug 11245 for details - it's indeed a bug
156              introduced by the original 11245 fix.
157
158 Severity   : minor
159 Bugzilla   : 15984
160 Description: uptllnd credit overflow fix
161 Details    : kptl_msg_t::ptlm_credits could be overflown by uptllnd since
162              it is only a __u8.
163
164 Severity   : major
165 Bugzilla   : 14634
166 Description: socklnd protocol version 3
167 Details    : With current protocol V2, connections on router can be
168              blocked and can't receive any incoming messages when there is no
169              more router buffer, so ZC-ACK can't be handled (LNet message
170              can't be finalized) and will cause deadlock on router.
171              Protocol V3 has a dedicated connection for emergency messages
172              like ZC-ACK to router, messages on this dedicated connection
173              don't need any credit so will never be blocked. Also, V3 can send
174              keepalive ping in specified period for router healthy checking.
175
176 -------------------------------------------------------------------------------
177
178 12-31-2008  Sun Microsystems, Inc.
179         * version 1.8.0
180         * Support for networks:
181          socklnd   - any kernel supported by Lustre,
182          qswlnd    - Qsnet kernel modules 5.20 and later,
183          openiblnd - IbGold 1.8.2,
184          o2iblnd   - OFED 1.1, 1.2.0, 1.2.5, and 1.3
185          viblnd    - Voltaire ibhost 3.4.5 and later,
186          ciblnd    - Topspin 3.2.0,
187          iiblnd    - Infiniserv 3.3 + PathBits patch,
188          gmlnd     - GM 2.1.22 and later,
189          mxlnd     - MX 1.2.1 or later,
190          ptllnd    - Portals 3.3 / UNICOS/lc 1.5.x, 2.0.x
191
192 Severity   : major
193 Bugzilla   : 15983
194 Description: workaround for OOM from o2iblnd
195 Details    : OFED needs allocate big chunk of memory for QP while creating
196              connection for o2iblnd, OOM can happen if no such a contiguous
197              memory chunk.
198              QP size is decided by concurrent_sends and max_fragments of
199              o2iblnd, now we permit user to specify smaller value for
200              concurrent_sends of o2iblnd(i.e: concurrent_sends=7), which
201              will decrease memory block size required by creating QP.
202
203 Severity   : major
204 Bugzilla   : 15093
205 Description: Support Zerocopy receive of Chelsio device
206 Details    : Chelsio driver can support zerocopy for iov[1] if it's
207              contiguous and large enough.
208
209 Severity   : normal
210 Bugzilla   : 13490
211 Description: fix credit flow deadlock in uptllnd
212
213 Severity   : normal
214 Bugzilla   : 16308
215 Description: finalize network operation in reasonable time
216 Details    : conf-sanity test_32a couldn't stop ost and mds because it
217              tried to access non-existent peer and tcp connect took
218              quite long before timing out.
219
220 Severity   : major
221 Bugzilla   : 16338
222 Description: Continuous recovery on 33 of 413 nodes after lustre oss failure
223 Details    : Lost reference on conn prevents peer from being destroyed, which
224              could prevent new peer creation if peer count has reached upper
225              limit.
226
227 Severity   : normal
228 Bugzilla   : 16102
229 Description: LNET Selftest results in Soft lockup on OSS CPU
230 Details    : only hits when 8 or more o2ib clients involved and a session is
231              torn down with 'lst end_session' without preceeding 'lst stop'.
232
233 Severity   : minor
234 Bugzilla   : 16321
235 Description: concurrent_sends in IB LNDs should not be changeable at run time
236 Details    : concurrent_sends in IB LNDs should not be changeable at run time
237
238 Severity   : normal
239 Bugzilla   : 15272
240 Description: ptl_send_rpc hits LASSERT when ptl_send_buf fails
241 Details    : only hits under out-of-memory situations
242
243
244 -------------------------------------------------------------------------------
245
246 2009-02-07 Sun Microsystems, Inc.
247         * version 1.6.7
248         * Support for networks:
249          socklnd   - any kernel supported by Lustre,
250          qswlnd    - Qsnet kernel modules 5.20 and later,
251          openiblnd - IbGold 1.8.2,
252          o2iblnd   - OFED 1.1, 1.2.0, 1.2.5, and 1.3
253          viblnd    - Voltaire ibhost 3.4.5 and later,
254          ciblnd    - Topspin 3.2.0,
255          iiblnd    - Infiniserv 3.3 + PathBits patch,
256          gmlnd     - GM 2.1.22 and later,
257          mxlnd     - MX 1.2.1 or later,
258          ptllnd    - Portals 3.3 / UNICOS/lc 1.5.x, 2.0.x
259 Severity   : major
260 Bugzilla   : 15983
261 Description: workaround for OOM from o2iblnd
262 Details    : OFED needs allocate big chunk of memory for QP while creating
263              connection for o2iblnd, OOM can happen if no such a contiguous
264              memory chunk.
265              QP size is decided by concurrent_sends and max_fragments of
266              o2iblnd, now we permit user to specify smaller value for
267              concurrent_sends of o2iblnd(i.e: concurrent_sends=7), which
268              will decrease memory block size required by creating QP.
269
270 Severity   : major
271 Bugzilla   : 15093
272 Description: Support Zerocopy receive of Chelsio device
273 Details    : Chelsio driver can support zerocopy for iov[1] if it's
274              contiguous and large enough.
275 Severity   : normal
276 Bugzilla   : 13490
277 Description: fix credit flow deadlock in uptllnd
278
279 Severity   : normal
280 Bugzilla   : 16308
281 Description: finalize network operation in reasonable time
282 Details    : conf-sanity test_32a couldn't stop ost and mds because it
283              tried to access non-existent peer and tcp connect took
284              quite long before timing out.
285
286 Severity   : major
287 Bugzilla   : 16338
288 Description: Continuous recovery on 33 of 413 nodes after lustre oss failure
289 Details    : Lost reference on conn prevents peer from being destroyed, which
290              could prevent new peer creation if peer count has reached upper
291              limit.
292
293 Severity   : normal
294 Bugzilla   : 16102
295 Description: LNET Selftest results in Soft lockup on OSS CPU
296 Details    : only hits when 8 or more o2ib clients involved and a session is
297              torn down with 'lst end_session' without preceeding 'lst stop'.
298
299 Severity   : minor
300 Bugzilla   : 16321
301 Description: concurrent_sends in IB LNDs should not be changeable at run time
302 Details    : concurrent_sends in IB LNDs should not be changeable at run time
303
304 -------------------------------------------------------------------------------
305
306 11-03-2008  Sun Microsystems, Inc.
307         * version 1.6.6
308         * Support for networks:
309          socklnd   - any kernel supported by Lustre,
310          qswlnd    - Qsnet kernel modules 5.20 and later,
311          openiblnd - IbGold 1.8.2,
312          o2iblnd   - OFED 1.1, 1.2.0, 1.2.5, and 1.3
313          viblnd    - Voltaire ibhost 3.4.5 and later,
314          ciblnd    - Topspin 3.2.0,
315          iiblnd    - Infiniserv 3.3 + PathBits patch,
316          gmlnd     - GM 2.1.22 and later,
317          mxlnd     - MX 1.2.1 or later,
318          ptllnd    - Portals 3.3 / UNICOS/lc 1.5.x, 2.0.x
319
320 Severity   : normal
321 Bugzilla   : 15272
322 Description: ptl_send_rpc hits LASSERT when ptl_send_buf fails
323 Details    : only hits under out-of-memory situations
324
325 -------------------------------------------------------------------------------
326
327 04-26-2008  Sun Microsystems, Inc.
328        * version 1.6.5
329        * Support for networks:
330         socklnd   - any kernel supported by Lustre,
331         qswlnd    - Qsnet kernel modules 5.20 and later,
332         openiblnd - IbGold 1.8.2,
333         o2iblnd   - OFED 1.1 and 1.2.0, 1.2.5
334         viblnd    - Voltaire ibhost 3.4.5 and later,
335         ciblnd    - Topspin 3.2.0,
336         iiblnd    - Infiniserv 3.3 + PathBits patch,
337         gmlnd     - GM 2.1.22 and later,
338         mxlnd     - MX 1.2.1 or later,
339         ptllnd    - Portals 3.3 / UNICOS/lc 1.5.x, 2.0.x
340
341 Severity   : normal
342 Bugzilla   : 14322
343 Description: excessive debug information removed
344 Details    : excessive debug information removed
345
346 Severity   : major
347 Bugzilla   : 15712
348 Description: ksocknal_create_conn() hit ASSERTION during connection race
349 Details    : ksocknal_create_conn() hit ASSERTION during connection race
350
351 Severity   : major
352 Bugzilla   : 13983
353 Description: ksocknal_send_hello() hit ASSERTION while connecting race
354 Details    : ksocknal_send_hello() hit ASSERTION while connecting race
355
356 Severity   : major
357 Bugzilla   : 14425
358 Description: o2iblnd/ptllnd credit deadlock in a routed config.
359 Details    : o2iblnd/ptllnd credit deadlock in a routed config.
360
361 Severity   : normal
362 Bugzilla   : 14956
363 Description: High load after starting lnet
364 Details    : gmlnd should sleep in rx thread in interruptible way. Otherwise,
365              uptime utility reports high load that looks confusingly.
366
367 Severity   : normal
368 Bugzilla   : 14838
369 Description: ksocklnd fails to establish connection if accept_port is high
370 Details    : PID remapping must not be done for active (outgoing) connections
371
372
373 --------------------------------------------------------------------------------
374
375 2008-01-11  Sun Microsystems, Inc.
376        * version 1.4.12
377        * Support for networks:
378         socklnd   - any kernel supported by Lustre,
379         qswlnd    - Qsnet kernel modules 5.20 and later,
380         openiblnd - IbGold 1.8.2,
381         o2iblnd   - OFED 1.1 and 1.2.0, 1.2.5
382         viblnd    - Voltaire ibhost 3.4.5 and later,
383         ciblnd    - Topspin 3.2.0,
384         iiblnd    - Infiniserv 3.3 + PathBits patch,
385         gmlnd     - GM 2.1.22 and later,
386         mxlnd     - MX 1.2.1 or later,
387         ptllnd    - Portals 3.3 / UNICOS/lc 1.5.x, 2.0.x
388
389 Severity   : normal
390 Bugzilla   : 14387
391 Description: liblustre network error
392 Details    : liblustre clients should understand LNET_ACCEPT_PORT environment
393              variable even if they don't start lnet acceptor.
394
395 Severity   : normal
396 Bugzilla   : 14300
397 Description: Strange message from lnet (Ignoring prediction from the future)
398 Details    : Incorrect calculation of peer's last_alive value in ksocklnd
399
400 --------------------------------------------------------------------------------
401
402 2007-12-07         Cluster File Systems, Inc. <info@clusterfs.com>
403        * version 1.6.4
404        * Support for networks:
405         socklnd   - any kernel supported by Lustre,
406         qswlnd    - Qsnet kernel modules 5.20 and later,
407         openiblnd - IbGold 1.8.2,
408         o2iblnd   - OFED 1.1 and 1.2.0, 1.2.5.
409         viblnd    - Voltaire ibhost 3.4.5 and later,
410         ciblnd    - Topspin 3.2.0,
411         iiblnd    - Infiniserv 3.3 + PathBits patch,
412         gmlnd     - GM 2.1.22 and later,
413         mxlnd     - MX 1.2.1 or later,
414         ptllnd    - Portals 3.3 / UNICOS/lc 1.5.x, 2.0.x
415
416 Severity   : normal
417 Bugzilla   : 14238
418 Description: ASSERTION(me == md->md_me) failed in lnet_match_md()
419
420 Severity   : normal
421 Bugzilla   : 12494
422 Description: increase send queue size for ciblnd/openiblnd
423
424 Severity   : normal
425 Bugzilla   : 12302
426 Description: new userspace socklnd
427 Details    : Old userspace tcpnal that resided in lnet/ulnds/socklnd replaced
428              with new one - usocklnd.
429
430 Severity   : enhancement
431 Bugzilla   : 11686
432 Description: Console message flood
433 Details    : Make cdls ratelimiting more tunable by adding several tunable in
434              procfs /proc/sys/lnet/console_{min,max}_delay_centisecs and
435              /proc/sys/lnet/console_backoff.
436
437 --------------------------------------------------------------------------------
438
439 2007-09-27         Cluster File Systems, Inc. <info@clusterfs.com>
440        * version 1.6.3
441        * Support for networks:
442         socklnd   - any kernel supported by Lustre,
443         qswlnd    - Qsnet kernel modules 5.20 and later,
444         openiblnd - IbGold 1.8.2,
445         o2iblnd   - OFED 1.1 and 1.2,
446         viblnd    - Voltaire ibhost 3.4.5 and later,
447         ciblnd    - Topspin 3.2.0,
448         iiblnd    - Infiniserv 3.3 + PathBits patch,
449         gmlnd     - GM 2.1.22 and later,
450         mxlnd     - MX 1.2.1 or later,
451         ptllnd    - Portals 3.3 / UNICOS/lc 1.5.x, 2.0.x
452
453 Severity   : normal
454 Bugzilla   : 12782
455 Description: /proc/sys/lnet has non-sysctl entries
456 Details    : Updating dump_kernel/daemon_file/debug_mb to use sysctl variables
457
458 Severity   : major
459 Bugzilla   : 13236
460 Description: TOE Kernel panic by ksocklnd
461 Details    : offloaded sockets provide their own implementation of sendpage,
462              can't call tcp_sendpage() directly
463
464 Severity   : normal
465 Bugzilla   : 10778
466 Description: kibnal_shutdown() doesn't finish; lconf --cleanup hangs
467 Details    : races between lnd_shutdown and peer creation prevent 
468              lnd_shutdown from finishing.
469
470 Severity   : normal
471 Bugzilla   : 13279
472 Description: open files rlimit 1024 reached while liblustre testing
473 Details    : ulnds/socklnd must close open socket after unsuccessful
474              'say hello' attempt.
475
476 Severity   : major 
477 Bugzilla   : 13482
478 Description: build error
479 Details    : fix typos in gmlnd, ptllnd and viblnd
480
481 --------------------------------------------------------------------------------
482
483 2007-07-30  Cluster File Systems, Inc. <info@clusterfs.com>
484        * version 1.6.1
485        * Support for networks:
486         socklnd   - kernels up to 2.6.16,
487         qswlnd    - Qsnet kernel modules 5.20 and later,
488         openiblnd - IbGold 1.8.2,
489         o2iblnd   - OFED 1.1 and 1.2
490         viblnd    - Voltaire ibhost 3.4.5 and later,
491         ciblnd    - Topspin 3.2.0,
492         iiblnd    - Infiniserv 3.3 + PathBits patch,
493         gmlnd     - GM 2.1.22 and later,
494         mxlnd     - MX 1.2.1 or later,
495         ptllnd    - Portals 3.3 / UNICOS/lc 1.5.x, 2.0.x
496
497 --------------------------------------------------------------------------------
498
499 2007-06-21  Cluster File Systems, Inc. <info@clusterfs.com>
500        * version 1.4.11
501        * Support for networks:
502         socklnd   - kernels up to 2.6.16,
503         qswlnd    - Qsnet kernel modules 5.20 and later,
504         openiblnd - IbGold 1.8.2,
505         o2iblnd   - OFED 1.1
506         viblnd    - Voltaire ibhost 3.4.5 and later,
507         ciblnd    - Topspin 3.2.0,
508         iiblnd    - Infiniserv 3.3 + PathBits patch,
509         gmlnd     - GM 2.1.22 and later,
510         mxlnd     - MX 1.2.1 or later,
511         ptllnd    - Portals 3.3 / UNICOS/lc 1.5.x, 2.0.x
512
513 Severity   : minor
514 Bugzilla   : 13288
515 Description: Initialize cpumask before use
516
517 Severity   : major
518 Bugzilla   : 12014
519 Description: ASSERTION failures when upgrading to the patchless zero-copy
520              socklnd 
521 Details    : This bug affects "rolling upgrades", causing an inconsistent
522              protocol version negotiation and subsequent assertion failure
523              during rolling upgrades after the first wave of upgrades.
524
525 Severity   : minor
526 Bugzilla   : 11223
527 Details    : Change "dropped message" CERRORs to D_NETERROR so they are
528              logged instead of creating "console chatter" when a lustre
529              timeout races with normal RPC completion.
530
531 Severity   : minor
532 Details    : lnet_clear_peer_table can wait forever if user forgets to
533              clear a lazy portal.
534
535 Severity   : minor
536 Details    : libcfs_id2str should check pid against LNET_PID_ANY.
537
538 Severity   : major
539 Bugzilla   : 10916
540 Description: added LNET self test
541 Details    : landing b_self_test
542
543 Severity   : minor
544 Frequency  : rare
545 Bugzilla   : 12227
546 Description: cfs_duration_{u,n}sec() wrongly calculate nanosecond part of
547              struct timeval.
548 Details    : do_div() macro is used incorrectly.
549
550 2007-04-23  Cluster File Systems, Inc. <info@clusterfs.com>
551
552 Severity   : normal
553 Bugzilla   : 11680
554 Description: make panic on lbug configurable
555
556 Severity   : major
557 Bugzilla   : 12316
558 Description: Add OFED1.2 support to o2iblnd
559 Details    : o2iblnd depends on OFED's modules, if out-tree OFED's modules
560              are installed (other than kernel's in-tree infiniband), there
561              could be some problem while insmod o2iblnd (mismatch CRC of 
562              ib_* symbols).
563              If extra Module.symvers is supported in kernel (i.e, 2.6.17),
564              this link provides solution:
565              https://bugs.openfabrics.org/show_bug.cgi?id=355
566              if extra Module.symvers is not supported in kernel, we will
567              have to run the script in bug 12316 to update
568              $LINUX/module.symvers before building o2iblnd.
569              More details about this are in bug 12316.
570
571 ------------------------------------------------------------------------------
572
573 2007-04-01  Cluster File Systems, Inc. <info@clusterfs.com>
574        * version 1.4.10 / 1.6.0
575        * Support for networks:
576         socklnd   - kernels up to 2.6.16,
577         qswlnd    - Qsnet kernel modules 5.20 and later,
578         openiblnd - IbGold 1.8.2,
579         o2iblnd   - OFED 1.1,
580         viblnd    - Voltaire ibhost 3.4.5 and later,
581         ciblnd    - Topspin 3.2.0,
582         iiblnd    - Infiniserv 3.3 + PathBits patch,
583         gmlnd     - GM 2.1.22 and later,
584         mxlnd     - MX 1.2.1 or later,
585         ptllnd    - Portals 3.3 / UNICOS/lc 1.5.x, 2.0.x
586         
587 Severity   : minor
588 Frequency  : rare
589 Description: Ptllnd didn't init kptllnd_data.kptl_idle_txs before it could be
590              possibly accessed in kptllnd_shutdown. Ptllnd should init 
591              kptllnd_data.kptl_ptlid2str_lock before calling kptllnd_ptlid2str.
592
593 Severity   : normal
594 Frequency  : rare
595 Description: gmlnd ignored some transmit errors when finalizing lnet messages.
596
597 Severity   : minor
598 Frequency  : rare
599 Description: ptllnd logs a piece of incorrect debug info in kptllnd_peer_handle_hello.
600
601 Severity   : minor
602 Frequency  : rare
603 Description: the_lnet.ln_finalizing was not set when the current thread is
604              about to complete messages. It only affects multi-threaded 
605              user space LNet.
606         
607 Severity   : normal
608 Frequency  : rare
609 Bugzilla   : 11472
610 Description: Changed the default kqswlnd ntxmsg=512
611         
612 Severity   : major
613 Frequency  : rare
614 Bugzilla   : 12458
615 Description: Assertion failure in kernel ptllnd caused by posting passive
616              bulk buffers before connection establishment complete.
617         
618 Severity   : major
619 Frequency  : rare
620 Bugzilla   : 12445
621 Description: A race in kernel ptllnd between deleting a peer and posting
622              new communications for it could hang communications -
623              manifesting as "Unexpectedly long timeout" messages.
624         
625 Severity   : major
626 Frequency  : rare
627 Bugzilla   : 12432
628 Description: Kernel ptllnd lock ordering issue could hang a node.
629         
630 Severity   : major
631 Frequency  : rare
632 Bugzilla   : 12016
633 Description: node crash on socket teardown race
634
635 Severity   : minor
636 Frequency  : 'lctl peer_list' issued on a mx net
637 Bugzilla   : 12237
638 Description: Enable lctl's peer_list for MXLND
639
640 Severity   : major
641 Frequency  : after Ptllnd timeouts and portals congestion
642 Bugzilla   : 11659
643 Description: Credit overflows
644 Details    : This was a bug in ptllnd connection establishment.  The fix
645              implements better peer stamps to disambiguate connection
646              establishment and ensure both peers enter the credit flow
647              state machine consistently.
648
649 Severity   : major
650 Frequency  : rare       
651 Bugzilla   : 11394
652 Description: kptllnd didn't propagate some network errors up to LNET 
653 Details    : This bug was spotted while investigating 11394.  The fix
654              ensures network errors on sends and bulk transfers are
655              propagated to LNET/lustre correctly.
656
657 Severity   : enhancement
658 Bugzilla   : 10316
659 Description: Fixed console chatter in case of -ETIMEDOUT.
660
661 Severity   : enhancement
662 Bugzilla   : 11684
663 Description: Added D_NETTRACE for recording network packet history
664              (initially only for ptllnd).  Also a separate userspace
665              ptllnd facility to gather history which should really be
666              covered by D_NETTRACE too, if only CDEBUG recorded history in
667              userspace.
668
669 Severity   : major
670 Frequency  : rare       
671 Bugzilla   : 11616
672 Description: o2iblnd handle early RDMA_CM_EVENT_DISCONNECTED.
673 Details    : If the fabric is lossy, an RDMA_CM_EVENT_DISCONNECTED
674              callback can occur before a connection has actually been
675              established.  This caused an assertion failure previously.
676
677 Severity   : enhancement
678 Bugzilla   : 11094
679 Description: Multiple instances for o2iblnd
680 Details    : Allow multiple instances of o2iblnd to enable networking over
681              multiple HCAs and routing between them.
682
683 Severity   : major
684 Bugzilla   : 11201
685 Description: lnet deadlock in router_checker
686 Details    : turned ksnd_connd_lock, ksnd_reaper_lock, and ksock_net_t:ksnd_lock
687              into BH locks to eliminate potential deadlock caused by
688              ksocknal_data_ready() preempting code holding these locks.
689
690 Severity   : major
691 Bugzilla   : 11126
692 Description: Millions of failed socklnd connection attempts cause a very slow FS
693 Details    : added a new route flag ksnr_scheduled to distinguish from
694              ksnr_connecting, so that a peer connection request is only turned
695              down for race concerns when an active connection to the same peer
696              is under progress (instead of just being scheduled).
697
698 ------------------------------------------------------------------------------
699
700 2007-02-09  Cluster File Systems, Inc. <info@clusterfs.com>
701        * version 1.4.9
702        * Support for networks:
703         socklnd   - kernels up to 2.6.16
704         qswlnd    - Qsnet kernel modules 5.20 and later
705         openiblnd - IbGold 1.8.2
706         o2iblnd   - OFED 1.1
707         viblnd    - Voltaire ibhost 3.4.5 and later
708         ciblnd    - Topspin 3.2.0
709         iiblnd    - Infiniserv 3.3 + PathBits patch
710         gmlnd     - GM 2.1.22 and later
711         mxlnd     - MX 1.2.1 or later
712         ptllnd    - Portals 3.3 / UNICOS/lc 1.5.x, 2.0.x
713        * bug fixes
714
715 Severity   : major on XT3
716 Bugzilla   : none
717 Description: libcfs overwrites /proc/sys/portals
718 Details    : libcfs created a symlink from /proc/sys/portals to
719              /proc/sys/lnet for backwards compatibility.  This is no
720              longer required and makes the Cray portals /proc variables
721              inaccessible.
722
723 Severity   : minor
724 Bugzilla   : 11312
725 Description: OFED FMR API change
726 Details    : This changes parameter usage to reflect a change in
727              ib_fmr_pool_map_phys() between OFED 1.0 and OFED 1.1.  Note
728              that FMR support is only used in experimental versions of the
729              o2iblnd - this change does not affect standard usage at all.
730
731 Severity   : enhancement
732 Bugzilla   : 11245
733 Description: new ko2iblnd module parameter: ib_mtu
734 Details    : the default IB MTU of 2048 performs badly on 23108 Tavor
735              HCAs.  You can avoid this problem by setting the MTU to 1024
736              using this module parameter.
737
738 Severity   : enhancement
739 Bugzilla   : 11118/11620
740 Description: ptllnd small request message buffer alignment fix
741 Details    : Set the PTL_MD_LOCAL_ALIGN8 option on small message receives.
742              Round up small message size on sends in case this option
743              is not supported.  11620 was a defect in the initial
744              implementation which effectively asserted all peers had to be
745              running the correct protocol version which was fixed by always
746              NAK-ing such requests and handling any misalignments they
747              introduce.
748
749 Severity   : minor
750 Frequency  : rarely
751 Description: When kib(nal|lnd)_del_peer() is called upon a peer whose
752              ibp_tx_queue is not empty, kib(nal|lnd)_destroy_peer()'s
753              'LASSERT(list_empty(&peer->ibp_tx_queue))' will fail.
754
755 Severity   : enhancement
756 Bugzilla   : 11250
757 Description: Patchless ZC(zero copy) socklnd
758 Details    : New protocol for socklnd, socklnd can support zero copy without
759              kernel patch, it's compatible with old socklnd. Checksum is 
760              moved from tunables to modparams.
761
762 Severity   : minor
763 Frequency  : rarely
764 Description: When ksocknal_del_peer() is called upon a peer whose
765              ksnp_tx_queue is not empty, ksocknal_destroy_peer()'s
766              'LASSERT(list_empty(&peer->ksnp_tx_queue))' will fail.
767
768 Severity   : normal
769 Frequency  : when ptlrpc is under heavy use and runs out of request buffer
770 Bugzilla   : 11318
771 Description: In lnet_match_blocked_msg(), md can be used without holding a
772              ref on it.
773
774 Severity   : minor
775 Frequency  : very rarely
776 Bugzilla   : 10727
777 Description: If ksocknal_lib_setup_sock() fails, a ref on peer is lost.
778              If connd connects a route which has been closed by
779              ksocknal_shutdown(), ksocknal_create_routes() may create new
780              routes which hold references on the peer, causing shutdown
781              process to wait for peer to disappear forever.
782
783 Severity   : enhancement
784 Bugzilla   : 11234
785 Description: Dump XT3 portals traces on kptllnd timeout
786 Details    : Set the kptllnd module parameter "ptltrace_on_timeout=1" to
787              dump Cray portals debug traces to a file.  The kptllnd module
788              parameter "ptltrace_basename", default "/tmp/lnet-ptltrace",
789              is the basename of the dump file.
790
791 Severity   : major
792 Frequency  : infrequent
793 Bugzilla   : 11308
794 Description: kernel ptllnd fix bug in connection re-establishment
795 Details    : Kernel ptllnd could produce protocol errors e.g. illegal
796              matchbits and/or violate the credit flow protocol when trying
797              to re-establish a connection with a peer after an error or
798              timeout. 
799
800 Severity   : enhancement
801 Bugzilla   : 10316
802 Description: Allow /proc/sys/lnet/debug to be set symbolically
803 Details    : Allow debug and subsystem debug values to be read/set by name
804              in addition to numerically, for ease of use.
805
806 Severity   : normal
807 Frequency  : only in configurations with LNET routers
808 Bugzilla   : 10316
809 Description: routes automatically marked down and recovered
810 Details    : In configurations with LNET routers if a router fails routers
811              now actively try to recover routes that are down, unless they
812              are marked down by an administrator.
813
814 ------------------------------------------------------------------------------
815
816 2006-12-09  Cluster File Systems, Inc. <info@clusterfs.com>
817
818 Severity   : critical
819 Frequency  : very rarely, in configurations with LNET routers and TCP
820 Bugzilla   : 10889
821 Description: incorrect data written to files on OSTs
822 Details    : In certain high-load conditions incorrect data may be written
823              to files on the OST when using TCP networks.
824
825 ------------------------------------------------------------------------------
826
827 2006-07-31  Cluster File Systems, Inc. <info@clusterfs.com>
828         * version 1.4.7
829         - rework CDEBUG messages rate-limiting mechanism b=10375
830         - add per-socket tunables for socklnd if the kernel is patched b=10327
831
832 ------------------------------------------------------------------------------
833
834 2006-02-15  Cluster File Systems, Inc. <info@clusterfs.com>
835         * version 1.4.6
836         - fix use of portals/lnet pid to avoid dropping RPCs b=10074
837         - iiblnd wasn't mapping all memory, resulting in comms errors b=9776
838         - quiet LNET startup LNI message for liblustre b=10128
839         - Better console error messages if 'ip2nets' can't match an IP address
840         - Fixed overflow/use-before-set bugs in linux-time.h
841         - Fixed ptllnd bug that wasn't initialising rx descriptors completely
842         - LNET teardown failed an assertion about the route table being empty
843         - Fixed a crash in LNetEQPoll(<invalid handle>)
844         - Future protocol compatibility work (b_rls146_lnetprotovrsn)
845         - improve debug message for liblustre/Catamount nodes (b=10116)
846
847 2005-10-10  Cluster File Systems, Inc. <info@clusterfs.com>
848         * Configuration change for the XT3
849              The PTLLND is now used to run Lustre over Portals on the XT3.
850              The configure option(s) --with-cray-portals are no longer
851              used.  Rather --with-portals=<path-to-portals-includes> is
852              used to enable building on the XT3.  In addition to enable
853              XT3 specific features the option --enable-cray-xt3 must be
854              used.
855
856 2005-10-10  Cluster File Systems, Inc. <info@clusterfs.com>
857         * Portals has been removed, replaced by LNET.
858            LNET is new networking infrastructure for Lustre, it includes a
859            reorganized network configuration mode (see the user
860            documentation for full details) as well as support for routing
861            between different network fabrics.  Lustre Networking Devices
862            (LNDS) for the supported network fabrics have also been created
863            for this new infrastructure.
864
865 2005-08-08  Cluster File Systems, Inc. <info@clusterfs.com>
866        * version 1.4.4
867        * bug fixes
868
869 Severity   : major
870 Frequency  : rare (large Voltaire clusters only)
871 Bugzilla   : 6993
872 Description: the default number of reserved transmit descriptors was too low
873              for some large clusters
874 Details    : As a workaround, the number was increased.  A proper fix includes
875              a run-time tunable.
876
877 2005-06-02  Cluster File Systems, Inc. <info@clusterfs.com>
878        * version 1.4.3
879        * bug fixes
880
881 Severity   : major
882 Frequency  : occasional (large-scale events, cluster reboot, network failure)
883 Bugzilla   : 6411
884 Description: too many error messages on console obscure actual problem and
885              can slow down/panic server, or cause recovery to fail repeatedly
886 Details    : enable rate-limiting of console error messages, and some messages
887              that were console errors now only go to the kernel log
888
889 Severity   : enhancement
890 Bugzilla   : 1693
891 Description: add /proc/sys/portals/catastrophe entry which will report if
892              that node has previously LBUGged
893
894 2005-04-06  Cluster File Systems, Inc. <info@clusterfs.com>
895        * bugs
896         - update gmnal to use PTL_MTU, fix module refcounting (b=5786)
897
898 2005-04-04  Cluster File Systems, Inc. <info@clusterfs.com>
899        * bugs
900         - handle error return code in kranal_check_fma_rx() (5915,6054)
901
902 2005-02-04  Cluster File Systems, Inc. <info@clusterfs.com>
903        * miscellania
904         - update vibnal (Voltaire IB NAL)
905         - update gmnal (Myrinet NAL), gmnalid
906
907 2005-02-04  Eric Barton  <eeb@bartonsoftware.com>
908
909         * Landed portals:b_port_step as follows...
910
911           - removed CFS_DECL_SPIN* 
912             just use 'spinlock_t' and initialise with spin_lock_init()
913
914           - removed CFS_DECL_MUTEX*
915             just use 'struct semaphore' and initialise with init_mutex()
916
917           - removed CFS_DECL_RWSEM*
918             just use 'struct rw_semaphore' and initialise with init_rwsem()
919
920           - renamed cfs_sleep_chan -> cfs_waitq
921                     cfs_sleep_link -> cfs_waitlink
922
923           - fixed race in linux version of arch-independent socknal
924             (the ENOMEM/EAGAIN decision).
925
926           - Didn't fix problems in Darwin version of arch-independent socknal
927             (resetting socket callbacks, eager ack hack, ENOMEM/EAGAIN decision)
928
929           - removed libcfs types from non-socknal header files (only some types
930             in the header files had been changed; the .c files hadn't been
931             updated at all).