Whamcloud - gitweb
b=18102
[fs/lustre-release.git] / lnet / ChangeLog
1 tbd  Sun Microsystems, Inc.
2         * version 2.0.0
3         * Support for networks:
4          socklnd   - any kernel supported by Lustre,
5          qswlnd    - Qsnet kernel modules 5.20 and later,
6          openiblnd - IbGold 1.8.2,
7          o2iblnd   - OFED 1.1, 1.2.0, 1.2.5, 1.3, and 1.4.1
8          viblnd    - Voltaire ibhost 3.4.5 and later,
9          ciblnd    - Topspin 3.2.0,
10          iiblnd    - Infiniserv 3.3 + PathBits patch,
11          gmlnd     - GM 2.1.22 and later,
12          mxlnd     - MX 1.2.1 or later,
13          ptllnd    - Portals 3.3 / UNICOS/lc 1.5.x, 2.0.x
14
15 Severity   : 
16 Bugzilla   : 
17 Description: 
18 Details    : 
19
20 Severity   : normal
21 Bugzilla   : 18102
22 Description: router_proc.c is rewritten to use sysctl-interface for parameters
23              residing in /proc/sys/lnet
24
25 Severity   : enhancement
26 Bugzilla   : 13065
27 Description: port router pinger to userspace
28
29 Severity   : normal
30 Bugzilla   : 17546
31 Description: kptllnd HELLO protocol deadlock
32 Details    : kptllnd HELLO protocol doesn't run to completion in finite time
33
34 Severity   : normal
35 Bugzilla   : 18075
36 Description: LNet selftest fixes and enhancements
37
38 Severity   : enhancement
39 Bugzilla   : 19156
40 Description: allow a test node to be a member of multiple test groups
41
42 Severity   : enhancement
43 Bugzilla   : 18654
44 Description: MXLND: eliminate hosts file, use arp for peer nic_id resolution
45 Details    : an update from the upstream developer Scott Atchley.
46
47 Severity   : enhancement
48 Bugzilla   : 15332
49 Description: add a new LND optiion to control peer buffer credits on routers
50
51 Severity   : normal
52 Bugzilla   : 18844
53 Description: Fixing deadlock in usocklnd
54 Details    : A deadlock was possible in usocklnd due to race condition while
55              tearing connection down. The problem resulted from erroneous
56              assumption that lnet_finalize() could have been called holding
57              some lnd-level locks.
58
59 Severity   : major
60 Bugzilla   : 13621, 15983
61 Description: Protocol V2 of o2iblnd
62 Details    : o2iblnd V2 has several new features:
63              . map-on-demand: map-on-demand is disabled by default, it can
64                be enabled by using modparam "map_on_demand=@value@", @value@
65                should >= 0 and < 256, 0 will disable map-on-demand, any other
66                valid value will enable map-on-demand. 
67                Oi2blnd will create FMR or physical MR for RDMA if fragments of
68                RD > @value@.
69                Enable map-on-demand will take less memory for new connection,
70                but a little more CPU for RDMA.
71              . iWARP : to support iWARP, please enable map-on-demand, 32 and 64
72                are recommanded value. iWARP will probably fail for value >=128.
73              . OOB NOOP message: to resolve deadlock on router.
74              . tunable peer_credits_hiw: (high water to return credits),
75                default value of peer_credits_hiw equals to (peer_credits -1),
76                user can change it between peer_credits/2 and (peer_credits - 1).
77                Lower value is recommended for high latency network.
78              . tunable message queue size: it always equals to peer_credits,
79                higher value is recommended for high latency network.
80              . It's compatible with earlier version of o2iblnd
81
82 Severity   : normal
83 Bugzilla   : 18414
84 Description: Fixing 'running out of ports' issue
85 Details    : Add a delay before next reconnect attempt in ksocklnd in
86              the case of lost race. Limit the frequency of query-requests
87              in lnet. Improved handling of 'dead peer' notifications in
88              lnet.
89
90 Severity   : normal
91 Bugzilla   : 16034
92 Description: Change ptllnd timeout and watchdog timers
93 Details    : Add ptltrace_on_nal_failed and bump ptllnd timeout to match
94              Portals wire timeout.
95
96 Severity   : normal
97 Bugzilla   : 16186
98 Description: One down Lustre FS hangs ALL mounted Lustre filesystems
99 Details    : Shared routing enhancements - peer health detection.
100
101 Severity   : enhancement
102 Bugzilla   : 14132
103 Description: acceptor.c cleanup
104 Details    : Code duplication in acceptor.c for the cases of kernel and
105              user-space removed. User-space libcfs tcpip primitives
106              uniformed to have prototypes similar to kernel ones. Minor
107              cosmetic changes in usocklnd to use cfs_socket_t as
108              representation of socket.
109
110 Severity   : minor
111 Bugzilla   : 11245
112 Description: IB path MTU mistakenly set to 1st path MTU when ib_mtu is off
113 Details    : See comment 46 in bug 11245 for details - it's indeed a bug
114              introduced by the original 11245 fix.
115
116 Severity   : minor
117 Bugzilla   : 15984
118 Description: uptllnd credit overflow fix
119 Details    : kptl_msg_t::ptlm_credits could be overflown by uptllnd since
120              it is only a __u8.
121
122 Severity   : major
123 Bugzilla   : 14634
124 Description: socklnd protocol version 3
125 Details    : With current protocol V2, connections on router can be
126              blocked and can't receive any incoming messages when there is no
127              more router buffer, so ZC-ACK can't be handled (LNet message
128              can't be finalized) and will cause deadlock on router.
129              Protocol V3 has a dedicated connection for emergency messages
130              like ZC-ACK to router, messages on this dedicated connection
131              don't need any credit so will never be blocked. Also, V3 can send
132              keepalive ping in specified period for router healthy checking.
133
134 -------------------------------------------------------------------------------
135
136 12-31-2008  Sun Microsystems, Inc.
137         * version 1.8.0
138         * Support for networks:
139          socklnd   - any kernel supported by Lustre,
140          qswlnd    - Qsnet kernel modules 5.20 and later,
141          openiblnd - IbGold 1.8.2,
142          o2iblnd   - OFED 1.1, 1.2.0, 1.2.5, and 1.3
143          viblnd    - Voltaire ibhost 3.4.5 and later,
144          ciblnd    - Topspin 3.2.0,
145          iiblnd    - Infiniserv 3.3 + PathBits patch,
146          gmlnd     - GM 2.1.22 and later,
147          mxlnd     - MX 1.2.1 or later,
148          ptllnd    - Portals 3.3 / UNICOS/lc 1.5.x, 2.0.x
149
150 Severity   : major
151 Bugzilla   : 15983
152 Description: workaround for OOM from o2iblnd
153 Details    : OFED needs allocate big chunk of memory for QP while creating
154              connection for o2iblnd, OOM can happen if no such a contiguous
155              memory chunk.
156              QP size is decided by concurrent_sends and max_fragments of
157              o2iblnd, now we permit user to specify smaller value for
158              concurrent_sends of o2iblnd(i.e: concurrent_sends=7), which
159              will decrease memory block size required by creating QP.
160
161 Severity   : major
162 Bugzilla   : 15093
163 Description: Support Zerocopy receive of Chelsio device
164 Details    : Chelsio driver can support zerocopy for iov[1] if it's
165              contiguous and large enough.
166
167 Severity   : normal
168 Bugzilla   : 13490
169 Description: fix credit flow deadlock in uptllnd
170
171 Severity   : normal
172 Bugzilla   : 16308
173 Description: finalize network operation in reasonable time
174 Details    : conf-sanity test_32a couldn't stop ost and mds because it
175              tried to access non-existent peer and tcp connect took
176              quite long before timing out.
177
178 Severity   : major
179 Bugzilla   : 16338
180 Description: Continuous recovery on 33 of 413 nodes after lustre oss failure
181 Details    : Lost reference on conn prevents peer from being destroyed, which
182              could prevent new peer creation if peer count has reached upper
183              limit.
184
185 Severity   : normal
186 Bugzilla   : 16102
187 Description: LNET Selftest results in Soft lockup on OSS CPU
188 Details    : only hits when 8 or more o2ib clients involved and a session is
189              torn down with 'lst end_session' without preceeding 'lst stop'.
190
191 Severity   : minor
192 Bugzilla   : 16321
193 Description: concurrent_sends in IB LNDs should not be changeable at run time
194 Details    : concurrent_sends in IB LNDs should not be changeable at run time
195
196 Severity   : normal
197 Bugzilla   : 15272
198 Description: ptl_send_rpc hits LASSERT when ptl_send_buf fails
199 Details    : only hits under out-of-memory situations
200
201
202 -------------------------------------------------------------------------------
203
204 2009-02-07 Sun Microsystems, Inc.
205         * version 1.6.7
206         * Support for networks:
207          socklnd   - any kernel supported by Lustre,
208          qswlnd    - Qsnet kernel modules 5.20 and later,
209          openiblnd - IbGold 1.8.2,
210          o2iblnd   - OFED 1.1, 1.2.0, 1.2.5, and 1.3
211          viblnd    - Voltaire ibhost 3.4.5 and later,
212          ciblnd    - Topspin 3.2.0,
213          iiblnd    - Infiniserv 3.3 + PathBits patch,
214          gmlnd     - GM 2.1.22 and later,
215          mxlnd     - MX 1.2.1 or later,
216          ptllnd    - Portals 3.3 / UNICOS/lc 1.5.x, 2.0.x
217 Severity   : major
218 Bugzilla   : 15983
219 Description: workaround for OOM from o2iblnd
220 Details    : OFED needs allocate big chunk of memory for QP while creating
221              connection for o2iblnd, OOM can happen if no such a contiguous
222              memory chunk.
223              QP size is decided by concurrent_sends and max_fragments of
224              o2iblnd, now we permit user to specify smaller value for
225              concurrent_sends of o2iblnd(i.e: concurrent_sends=7), which
226              will decrease memory block size required by creating QP.
227
228 Severity   : major
229 Bugzilla   : 15093
230 Description: Support Zerocopy receive of Chelsio device
231 Details    : Chelsio driver can support zerocopy for iov[1] if it's
232              contiguous and large enough.
233 Severity   : normal
234 Bugzilla   : 13490
235 Description: fix credit flow deadlock in uptllnd
236
237 Severity   : normal
238 Bugzilla   : 16308
239 Description: finalize network operation in reasonable time
240 Details    : conf-sanity test_32a couldn't stop ost and mds because it
241              tried to access non-existent peer and tcp connect took
242              quite long before timing out.
243
244 Severity   : major
245 Bugzilla   : 16338
246 Description: Continuous recovery on 33 of 413 nodes after lustre oss failure
247 Details    : Lost reference on conn prevents peer from being destroyed, which
248              could prevent new peer creation if peer count has reached upper
249              limit.
250
251 Severity   : normal
252 Bugzilla   : 16102
253 Description: LNET Selftest results in Soft lockup on OSS CPU
254 Details    : only hits when 8 or more o2ib clients involved and a session is
255              torn down with 'lst end_session' without preceeding 'lst stop'.
256
257 Severity   : minor
258 Bugzilla   : 16321
259 Description: concurrent_sends in IB LNDs should not be changeable at run time
260 Details    : concurrent_sends in IB LNDs should not be changeable at run time
261
262 -------------------------------------------------------------------------------
263
264 11-03-2008  Sun Microsystems, Inc.
265         * version 1.6.6
266         * Support for networks:
267          socklnd   - any kernel supported by Lustre,
268          qswlnd    - Qsnet kernel modules 5.20 and later,
269          openiblnd - IbGold 1.8.2,
270          o2iblnd   - OFED 1.1, 1.2.0, 1.2.5, and 1.3
271          viblnd    - Voltaire ibhost 3.4.5 and later,
272          ciblnd    - Topspin 3.2.0,
273          iiblnd    - Infiniserv 3.3 + PathBits patch,
274          gmlnd     - GM 2.1.22 and later,
275          mxlnd     - MX 1.2.1 or later,
276          ptllnd    - Portals 3.3 / UNICOS/lc 1.5.x, 2.0.x
277
278 Severity   : normal
279 Bugzilla   : 15272
280 Description: ptl_send_rpc hits LASSERT when ptl_send_buf fails
281 Details    : only hits under out-of-memory situations
282
283 -------------------------------------------------------------------------------
284
285 04-26-2008  Sun Microsystems, Inc.
286        * version 1.6.5
287        * Support for networks:
288         socklnd   - any kernel supported by Lustre,
289         qswlnd    - Qsnet kernel modules 5.20 and later,
290         openiblnd - IbGold 1.8.2,
291         o2iblnd   - OFED 1.1 and 1.2.0, 1.2.5
292         viblnd    - Voltaire ibhost 3.4.5 and later,
293         ciblnd    - Topspin 3.2.0,
294         iiblnd    - Infiniserv 3.3 + PathBits patch,
295         gmlnd     - GM 2.1.22 and later,
296         mxlnd     - MX 1.2.1 or later,
297         ptllnd    - Portals 3.3 / UNICOS/lc 1.5.x, 2.0.x
298
299 Severity   : normal
300 Bugzilla   : 14322
301 Description: excessive debug information removed
302 Details    : excessive debug information removed
303
304 Severity   : major
305 Bugzilla   : 15712
306 Description: ksocknal_create_conn() hit ASSERTION during connection race
307 Details    : ksocknal_create_conn() hit ASSERTION during connection race
308
309 Severity   : major
310 Bugzilla   : 13983
311 Description: ksocknal_send_hello() hit ASSERTION while connecting race
312 Details    : ksocknal_send_hello() hit ASSERTION while connecting race
313
314 Severity   : major
315 Bugzilla   : 14425
316 Description: o2iblnd/ptllnd credit deadlock in a routed config.
317 Details    : o2iblnd/ptllnd credit deadlock in a routed config.
318
319 Severity   : normal
320 Bugzilla   : 14956
321 Description: High load after starting lnet
322 Details    : gmlnd should sleep in rx thread in interruptible way. Otherwise,
323              uptime utility reports high load that looks confusingly.
324
325 Severity   : normal
326 Bugzilla   : 14838
327 Description: ksocklnd fails to establish connection if accept_port is high
328 Details    : PID remapping must not be done for active (outgoing) connections
329
330
331 --------------------------------------------------------------------------------
332
333 2008-01-11  Sun Microsystems, Inc.
334        * version 1.4.12
335        * Support for networks:
336         socklnd   - any kernel supported by Lustre,
337         qswlnd    - Qsnet kernel modules 5.20 and later,
338         openiblnd - IbGold 1.8.2,
339         o2iblnd   - OFED 1.1 and 1.2.0, 1.2.5
340         viblnd    - Voltaire ibhost 3.4.5 and later,
341         ciblnd    - Topspin 3.2.0,
342         iiblnd    - Infiniserv 3.3 + PathBits patch,
343         gmlnd     - GM 2.1.22 and later,
344         mxlnd     - MX 1.2.1 or later,
345         ptllnd    - Portals 3.3 / UNICOS/lc 1.5.x, 2.0.x
346
347 Severity   : normal
348 Bugzilla   : 14387
349 Description: liblustre network error
350 Details    : liblustre clients should understand LNET_ACCEPT_PORT environment
351              variable even if they don't start lnet acceptor.
352
353 Severity   : normal
354 Bugzilla   : 14300
355 Description: Strange message from lnet (Ignoring prediction from the future)
356 Details    : Incorrect calculation of peer's last_alive value in ksocklnd
357
358 --------------------------------------------------------------------------------
359
360 2007-12-07         Cluster File Systems, Inc. <info@clusterfs.com>
361        * version 1.6.4
362        * Support for networks:
363         socklnd   - any kernel supported by Lustre,
364         qswlnd    - Qsnet kernel modules 5.20 and later,
365         openiblnd - IbGold 1.8.2,
366         o2iblnd   - OFED 1.1 and 1.2.0, 1.2.5.
367         viblnd    - Voltaire ibhost 3.4.5 and later,
368         ciblnd    - Topspin 3.2.0,
369         iiblnd    - Infiniserv 3.3 + PathBits patch,
370         gmlnd     - GM 2.1.22 and later,
371         mxlnd     - MX 1.2.1 or later,
372         ptllnd    - Portals 3.3 / UNICOS/lc 1.5.x, 2.0.x
373
374 Severity   : normal
375 Bugzilla   : 14238
376 Description: ASSERTION(me == md->md_me) failed in lnet_match_md()
377
378 Severity   : normal
379 Bugzilla   : 12494
380 Description: increase send queue size for ciblnd/openiblnd
381
382 Severity   : normal
383 Bugzilla   : 12302
384 Description: new userspace socklnd
385 Details    : Old userspace tcpnal that resided in lnet/ulnds/socklnd replaced
386              with new one - usocklnd.
387
388 Severity   : enhancement
389 Bugzilla   : 11686
390 Description: Console message flood
391 Details    : Make cdls ratelimiting more tunable by adding several tunable in
392              procfs /proc/sys/lnet/console_{min,max}_delay_centisecs and
393              /proc/sys/lnet/console_backoff.
394
395 --------------------------------------------------------------------------------
396
397 2007-09-27         Cluster File Systems, Inc. <info@clusterfs.com>
398        * version 1.6.3
399        * Support for networks:
400         socklnd   - any kernel supported by Lustre,
401         qswlnd    - Qsnet kernel modules 5.20 and later,
402         openiblnd - IbGold 1.8.2,
403         o2iblnd   - OFED 1.1 and 1.2,
404         viblnd    - Voltaire ibhost 3.4.5 and later,
405         ciblnd    - Topspin 3.2.0,
406         iiblnd    - Infiniserv 3.3 + PathBits patch,
407         gmlnd     - GM 2.1.22 and later,
408         mxlnd     - MX 1.2.1 or later,
409         ptllnd    - Portals 3.3 / UNICOS/lc 1.5.x, 2.0.x
410
411 Severity   : normal
412 Bugzilla   : 12782
413 Description: /proc/sys/lnet has non-sysctl entries
414 Details    : Updating dump_kernel/daemon_file/debug_mb to use sysctl variables
415
416 Severity   : major
417 Bugzilla   : 13236
418 Description: TOE Kernel panic by ksocklnd
419 Details    : offloaded sockets provide their own implementation of sendpage,
420              can't call tcp_sendpage() directly
421
422 Severity   : normal
423 Bugzilla   : 10778
424 Description: kibnal_shutdown() doesn't finish; lconf --cleanup hangs
425 Details    : races between lnd_shutdown and peer creation prevent 
426              lnd_shutdown from finishing.
427
428 Severity   : normal
429 Bugzilla   : 13279
430 Description: open files rlimit 1024 reached while liblustre testing
431 Details    : ulnds/socklnd must close open socket after unsuccessful
432              'say hello' attempt.
433
434 Severity   : major 
435 Bugzilla   : 13482
436 Description: build error
437 Details    : fix typos in gmlnd, ptllnd and viblnd
438
439 --------------------------------------------------------------------------------
440
441 2007-07-30  Cluster File Systems, Inc. <info@clusterfs.com>
442        * version 1.6.1
443        * Support for networks:
444         socklnd   - kernels up to 2.6.16,
445         qswlnd    - Qsnet kernel modules 5.20 and later,
446         openiblnd - IbGold 1.8.2,
447         o2iblnd   - OFED 1.1 and 1.2
448         viblnd    - Voltaire ibhost 3.4.5 and later,
449         ciblnd    - Topspin 3.2.0,
450         iiblnd    - Infiniserv 3.3 + PathBits patch,
451         gmlnd     - GM 2.1.22 and later,
452         mxlnd     - MX 1.2.1 or later,
453         ptllnd    - Portals 3.3 / UNICOS/lc 1.5.x, 2.0.x
454
455 --------------------------------------------------------------------------------
456
457 2007-06-21  Cluster File Systems, Inc. <info@clusterfs.com>
458        * version 1.4.11
459        * Support for networks:
460         socklnd   - kernels up to 2.6.16,
461         qswlnd    - Qsnet kernel modules 5.20 and later,
462         openiblnd - IbGold 1.8.2,
463         o2iblnd   - OFED 1.1
464         viblnd    - Voltaire ibhost 3.4.5 and later,
465         ciblnd    - Topspin 3.2.0,
466         iiblnd    - Infiniserv 3.3 + PathBits patch,
467         gmlnd     - GM 2.1.22 and later,
468         mxlnd     - MX 1.2.1 or later,
469         ptllnd    - Portals 3.3 / UNICOS/lc 1.5.x, 2.0.x
470
471 Severity   : minor
472 Bugzilla   : 13288
473 Description: Initialize cpumask before use
474
475 Severity   : major
476 Bugzilla   : 12014
477 Description: ASSERTION failures when upgrading to the patchless zero-copy
478              socklnd 
479 Details    : This bug affects "rolling upgrades", causing an inconsistent
480              protocol version negotiation and subsequent assertion failure
481              during rolling upgrades after the first wave of upgrades.
482
483 Severity   : minor
484 Bugzilla   : 11223
485 Details    : Change "dropped message" CERRORs to D_NETERROR so they are
486              logged instead of creating "console chatter" when a lustre
487              timeout races with normal RPC completion.
488
489 Severity   : minor
490 Details    : lnet_clear_peer_table can wait forever if user forgets to
491              clear a lazy portal.
492
493 Severity   : minor
494 Details    : libcfs_id2str should check pid against LNET_PID_ANY.
495
496 Severity   : major
497 Bugzilla   : 10916
498 Description: added LNET self test
499 Details    : landing b_self_test
500
501 Severity   : minor
502 Frequency  : rare
503 Bugzilla   : 12227
504 Description: cfs_duration_{u,n}sec() wrongly calculate nanosecond part of
505              struct timeval.
506 Details    : do_div() macro is used incorrectly.
507
508 2007-04-23  Cluster File Systems, Inc. <info@clusterfs.com>
509
510 Severity   : normal
511 Bugzilla   : 11680
512 Description: make panic on lbug configurable
513
514 Severity   : major
515 Bugzilla   : 12316
516 Description: Add OFED1.2 support to o2iblnd
517 Details    : o2iblnd depends on OFED's modules, if out-tree OFED's modules
518              are installed (other than kernel's in-tree infiniband), there
519              could be some problem while insmod o2iblnd (mismatch CRC of 
520              ib_* symbols).
521              If extra Module.symvers is supported in kernel (i.e, 2.6.17),
522              this link provides solution:
523              https://bugs.openfabrics.org/show_bug.cgi?id=355
524              if extra Module.symvers is not supported in kernel, we will
525              have to run the script in bug 12316 to update
526              $LINUX/module.symvers before building o2iblnd.
527              More details about this are in bug 12316.
528
529 ------------------------------------------------------------------------------
530
531 2007-04-01  Cluster File Systems, Inc. <info@clusterfs.com>
532        * version 1.4.10 / 1.6.0
533        * Support for networks:
534         socklnd   - kernels up to 2.6.16,
535         qswlnd    - Qsnet kernel modules 5.20 and later,
536         openiblnd - IbGold 1.8.2,
537         o2iblnd   - OFED 1.1,
538         viblnd    - Voltaire ibhost 3.4.5 and later,
539         ciblnd    - Topspin 3.2.0,
540         iiblnd    - Infiniserv 3.3 + PathBits patch,
541         gmlnd     - GM 2.1.22 and later,
542         mxlnd     - MX 1.2.1 or later,
543         ptllnd    - Portals 3.3 / UNICOS/lc 1.5.x, 2.0.x
544         
545 Severity   : minor
546 Frequency  : rare
547 Description: Ptllnd didn't init kptllnd_data.kptl_idle_txs before it could be
548              possibly accessed in kptllnd_shutdown. Ptllnd should init 
549              kptllnd_data.kptl_ptlid2str_lock before calling kptllnd_ptlid2str.
550
551 Severity   : normal
552 Frequency  : rare
553 Description: gmlnd ignored some transmit errors when finalizing lnet messages.
554
555 Severity   : minor
556 Frequency  : rare
557 Description: ptllnd logs a piece of incorrect debug info in kptllnd_peer_handle_hello.
558
559 Severity   : minor
560 Frequency  : rare
561 Description: the_lnet.ln_finalizing was not set when the current thread is
562              about to complete messages. It only affects multi-threaded 
563              user space LNet.
564         
565 Severity   : normal
566 Frequency  : rare
567 Bugzilla   : 11472
568 Description: Changed the default kqswlnd ntxmsg=512
569         
570 Severity   : major
571 Frequency  : rare
572 Bugzilla   : 12458
573 Description: Assertion failure in kernel ptllnd caused by posting passive
574              bulk buffers before connection establishment complete.
575         
576 Severity   : major
577 Frequency  : rare
578 Bugzilla   : 12445
579 Description: A race in kernel ptllnd between deleting a peer and posting
580              new communications for it could hang communications -
581              manifesting as "Unexpectedly long timeout" messages.
582         
583 Severity   : major
584 Frequency  : rare
585 Bugzilla   : 12432
586 Description: Kernel ptllnd lock ordering issue could hang a node.
587         
588 Severity   : major
589 Frequency  : rare
590 Bugzilla   : 12016
591 Description: node crash on socket teardown race
592
593 Severity   : minor
594 Frequency  : 'lctl peer_list' issued on a mx net
595 Bugzilla   : 12237
596 Description: Enable lctl's peer_list for MXLND
597
598 Severity   : major
599 Frequency  : after Ptllnd timeouts and portals congestion
600 Bugzilla   : 11659
601 Description: Credit overflows
602 Details    : This was a bug in ptllnd connection establishment.  The fix
603              implements better peer stamps to disambiguate connection
604              establishment and ensure both peers enter the credit flow
605              state machine consistently.
606
607 Severity   : major
608 Frequency  : rare       
609 Bugzilla   : 11394
610 Description: kptllnd didn't propagate some network errors up to LNET 
611 Details    : This bug was spotted while investigating 11394.  The fix
612              ensures network errors on sends and bulk transfers are
613              propagated to LNET/lustre correctly.
614
615 Severity   : enhancement
616 Bugzilla   : 10316
617 Description: Fixed console chatter in case of -ETIMEDOUT.
618
619 Severity   : enhancement
620 Bugzilla   : 11684
621 Description: Added D_NETTRACE for recording network packet history
622              (initially only for ptllnd).  Also a separate userspace
623              ptllnd facility to gather history which should really be
624              covered by D_NETTRACE too, if only CDEBUG recorded history in
625              userspace.
626
627 Severity   : major
628 Frequency  : rare       
629 Bugzilla   : 11616
630 Description: o2iblnd handle early RDMA_CM_EVENT_DISCONNECTED.
631 Details    : If the fabric is lossy, an RDMA_CM_EVENT_DISCONNECTED
632              callback can occur before a connection has actually been
633              established.  This caused an assertion failure previously.
634
635 Severity   : enhancement
636 Bugzilla   : 11094
637 Description: Multiple instances for o2iblnd
638 Details    : Allow multiple instances of o2iblnd to enable networking over
639              multiple HCAs and routing between them.
640
641 Severity   : major
642 Bugzilla   : 11201
643 Description: lnet deadlock in router_checker
644 Details    : turned ksnd_connd_lock, ksnd_reaper_lock, and ksock_net_t:ksnd_lock
645              into BH locks to eliminate potential deadlock caused by
646              ksocknal_data_ready() preempting code holding these locks.
647
648 Severity   : major
649 Bugzilla   : 11126
650 Description: Millions of failed socklnd connection attempts cause a very slow FS
651 Details    : added a new route flag ksnr_scheduled to distinguish from
652              ksnr_connecting, so that a peer connection request is only turned
653              down for race concerns when an active connection to the same peer
654              is under progress (instead of just being scheduled).
655
656 ------------------------------------------------------------------------------
657
658 2007-02-09  Cluster File Systems, Inc. <info@clusterfs.com>
659        * version 1.4.9
660        * Support for networks:
661         socklnd   - kernels up to 2.6.16
662         qswlnd    - Qsnet kernel modules 5.20 and later
663         openiblnd - IbGold 1.8.2
664         o2iblnd   - OFED 1.1
665         viblnd    - Voltaire ibhost 3.4.5 and later
666         ciblnd    - Topspin 3.2.0
667         iiblnd    - Infiniserv 3.3 + PathBits patch
668         gmlnd     - GM 2.1.22 and later
669         mxlnd     - MX 1.2.1 or later
670         ptllnd    - Portals 3.3 / UNICOS/lc 1.5.x, 2.0.x
671        * bug fixes
672
673 Severity   : major on XT3
674 Bugzilla   : none
675 Description: libcfs overwrites /proc/sys/portals
676 Details    : libcfs created a symlink from /proc/sys/portals to
677              /proc/sys/lnet for backwards compatibility.  This is no
678              longer required and makes the Cray portals /proc variables
679              inaccessible.
680
681 Severity   : minor
682 Bugzilla   : 11312
683 Description: OFED FMR API change
684 Details    : This changes parameter usage to reflect a change in
685              ib_fmr_pool_map_phys() between OFED 1.0 and OFED 1.1.  Note
686              that FMR support is only used in experimental versions of the
687              o2iblnd - this change does not affect standard usage at all.
688
689 Severity   : enhancement
690 Bugzilla   : 11245
691 Description: new ko2iblnd module parameter: ib_mtu
692 Details    : the default IB MTU of 2048 performs badly on 23108 Tavor
693              HCAs.  You can avoid this problem by setting the MTU to 1024
694              using this module parameter.
695
696 Severity   : enhancement
697 Bugzilla   : 11118/11620
698 Description: ptllnd small request message buffer alignment fix
699 Details    : Set the PTL_MD_LOCAL_ALIGN8 option on small message receives.
700              Round up small message size on sends in case this option
701              is not supported.  11620 was a defect in the initial
702              implementation which effectively asserted all peers had to be
703              running the correct protocol version which was fixed by always
704              NAK-ing such requests and handling any misalignments they
705              introduce.
706
707 Severity   : minor
708 Frequency  : rarely
709 Description: When kib(nal|lnd)_del_peer() is called upon a peer whose
710              ibp_tx_queue is not empty, kib(nal|lnd)_destroy_peer()'s
711              'LASSERT(list_empty(&peer->ibp_tx_queue))' will fail.
712
713 Severity   : enhancement
714 Bugzilla   : 11250
715 Description: Patchless ZC(zero copy) socklnd
716 Details    : New protocol for socklnd, socklnd can support zero copy without
717              kernel patch, it's compatible with old socklnd. Checksum is 
718              moved from tunables to modparams.
719
720 Severity   : minor
721 Frequency  : rarely
722 Description: When ksocknal_del_peer() is called upon a peer whose
723              ksnp_tx_queue is not empty, ksocknal_destroy_peer()'s
724              'LASSERT(list_empty(&peer->ksnp_tx_queue))' will fail.
725
726 Severity   : normal
727 Frequency  : when ptlrpc is under heavy use and runs out of request buffer
728 Bugzilla   : 11318
729 Description: In lnet_match_blocked_msg(), md can be used without holding a
730              ref on it.
731
732 Severity   : minor
733 Frequency  : very rarely
734 Bugzilla   : 10727
735 Description: If ksocknal_lib_setup_sock() fails, a ref on peer is lost.
736              If connd connects a route which has been closed by
737              ksocknal_shutdown(), ksocknal_create_routes() may create new
738              routes which hold references on the peer, causing shutdown
739              process to wait for peer to disappear forever.
740
741 Severity   : enhancement
742 Bugzilla   : 11234
743 Description: Dump XT3 portals traces on kptllnd timeout
744 Details    : Set the kptllnd module parameter "ptltrace_on_timeout=1" to
745              dump Cray portals debug traces to a file.  The kptllnd module
746              parameter "ptltrace_basename", default "/tmp/lnet-ptltrace",
747              is the basename of the dump file.
748
749 Severity   : major
750 Frequency  : infrequent
751 Bugzilla   : 11308
752 Description: kernel ptllnd fix bug in connection re-establishment
753 Details    : Kernel ptllnd could produce protocol errors e.g. illegal
754              matchbits and/or violate the credit flow protocol when trying
755              to re-establish a connection with a peer after an error or
756              timeout. 
757
758 Severity   : enhancement
759 Bugzilla   : 10316
760 Description: Allow /proc/sys/lnet/debug to be set symbolically
761 Details    : Allow debug and subsystem debug values to be read/set by name
762              in addition to numerically, for ease of use.
763
764 Severity   : normal
765 Frequency  : only in configurations with LNET routers
766 Bugzilla   : 10316
767 Description: routes automatically marked down and recovered
768 Details    : In configurations with LNET routers if a router fails routers
769              now actively try to recover routes that are down, unless they
770              are marked down by an administrator.
771
772 ------------------------------------------------------------------------------
773
774 2006-12-09  Cluster File Systems, Inc. <info@clusterfs.com>
775
776 Severity   : critical
777 Frequency  : very rarely, in configurations with LNET routers and TCP
778 Bugzilla   : 10889
779 Description: incorrect data written to files on OSTs
780 Details    : In certain high-load conditions incorrect data may be written
781              to files on the OST when using TCP networks.
782
783 ------------------------------------------------------------------------------
784
785 2006-07-31  Cluster File Systems, Inc. <info@clusterfs.com>
786         * version 1.4.7
787         - rework CDEBUG messages rate-limiting mechanism b=10375
788         - add per-socket tunables for socklnd if the kernel is patched b=10327
789
790 ------------------------------------------------------------------------------
791
792 2006-02-15  Cluster File Systems, Inc. <info@clusterfs.com>
793         * version 1.4.6
794         - fix use of portals/lnet pid to avoid dropping RPCs b=10074
795         - iiblnd wasn't mapping all memory, resulting in comms errors b=9776
796         - quiet LNET startup LNI message for liblustre b=10128
797         - Better console error messages if 'ip2nets' can't match an IP address
798         - Fixed overflow/use-before-set bugs in linux-time.h
799         - Fixed ptllnd bug that wasn't initialising rx descriptors completely
800         - LNET teardown failed an assertion about the route table being empty
801         - Fixed a crash in LNetEQPoll(<invalid handle>)
802         - Future protocol compatibility work (b_rls146_lnetprotovrsn)
803         - improve debug message for liblustre/Catamount nodes (b=10116)
804
805 2005-10-10  Cluster File Systems, Inc. <info@clusterfs.com>
806         * Configuration change for the XT3
807              The PTLLND is now used to run Lustre over Portals on the XT3.
808              The configure option(s) --with-cray-portals are no longer
809              used.  Rather --with-portals=<path-to-portals-includes> is
810              used to enable building on the XT3.  In addition to enable
811              XT3 specific features the option --enable-cray-xt3 must be
812              used.
813
814 2005-10-10  Cluster File Systems, Inc. <info@clusterfs.com>
815         * Portals has been removed, replaced by LNET.
816            LNET is new networking infrastructure for Lustre, it includes a
817            reorganized network configuration mode (see the user
818            documentation for full details) as well as support for routing
819            between different network fabrics.  Lustre Networking Devices
820            (LNDS) for the supported network fabrics have also been created
821            for this new infrastructure.
822
823 2005-08-08  Cluster File Systems, Inc. <info@clusterfs.com>
824        * version 1.4.4
825        * bug fixes
826
827 Severity   : major
828 Frequency  : rare (large Voltaire clusters only)
829 Bugzilla   : 6993
830 Description: the default number of reserved transmit descriptors was too low
831              for some large clusters
832 Details    : As a workaround, the number was increased.  A proper fix includes
833              a run-time tunable.
834
835 2005-06-02  Cluster File Systems, Inc. <info@clusterfs.com>
836        * version 1.4.3
837        * bug fixes
838
839 Severity   : major
840 Frequency  : occasional (large-scale events, cluster reboot, network failure)
841 Bugzilla   : 6411
842 Description: too many error messages on console obscure actual problem and
843              can slow down/panic server, or cause recovery to fail repeatedly
844 Details    : enable rate-limiting of console error messages, and some messages
845              that were console errors now only go to the kernel log
846
847 Severity   : enhancement
848 Bugzilla   : 1693
849 Description: add /proc/sys/portals/catastrophe entry which will report if
850              that node has previously LBUGged
851
852 2005-04-06  Cluster File Systems, Inc. <info@clusterfs.com>
853        * bugs
854         - update gmnal to use PTL_MTU, fix module refcounting (b=5786)
855
856 2005-04-04  Cluster File Systems, Inc. <info@clusterfs.com>
857        * bugs
858         - handle error return code in kranal_check_fma_rx() (5915,6054)
859
860 2005-02-04  Cluster File Systems, Inc. <info@clusterfs.com>
861        * miscellania
862         - update vibnal (Voltaire IB NAL)
863         - update gmnal (Myrinet NAL), gmnalid
864
865 2005-02-04  Eric Barton  <eeb@bartonsoftware.com>
866
867         * Landed portals:b_port_step as follows...
868
869           - removed CFS_DECL_SPIN* 
870             just use 'spinlock_t' and initialise with spin_lock_init()
871
872           - removed CFS_DECL_MUTEX*
873             just use 'struct semaphore' and initialise with init_mutex()
874
875           - removed CFS_DECL_RWSEM*
876             just use 'struct rw_semaphore' and initialise with init_rwsem()
877
878           - renamed cfs_sleep_chan -> cfs_waitq
879                     cfs_sleep_link -> cfs_waitlink
880
881           - fixed race in linux version of arch-independent socknal
882             (the ENOMEM/EAGAIN decision).
883
884           - Didn't fix problems in Darwin version of arch-independent socknal
885             (resetting socket callbacks, eager ack hack, ENOMEM/EAGAIN decision)
886
887           - removed libcfs types from non-socknal header files (only some types
888             in the header files had been changed; the .c files hadn't been
889             updated at all).