Whamcloud - gitweb
i=liang,b=19156:
[fs/lustre-release.git] / lnet / ChangeLog
1 tbd  Sun Microsystems, Inc.
2         * version 2.0.0
3         * Support for networks:
4          socklnd   - any kernel supported by Lustre,
5          qswlnd    - Qsnet kernel modules 5.20 and later,
6          openiblnd - IbGold 1.8.2,
7          o2iblnd   - OFED 1.1, 1.2.0, 1.2.5, 1.3, and 1.4.1
8          viblnd    - Voltaire ibhost 3.4.5 and later,
9          ciblnd    - Topspin 3.2.0,
10          iiblnd    - Infiniserv 3.3 + PathBits patch,
11          gmlnd     - GM 2.1.22 and later,
12          mxlnd     - MX 1.2.1 or later,
13          ptllnd    - Portals 3.3 / UNICOS/lc 1.5.x, 2.0.x
14
15 Severity   : 
16 Bugzilla   : 
17 Description: 
18 Details    : 
19
20 Severity   : enhancement
21 Bugzilla   : 19156
22 Description: allow a test node to be a member of multiple test groups
23
24 Severity   : enhancement
25 Bugzilla   : 18654
26 Description: MXLND: eliminate hosts file, use arp for peer nic_id resolution
27 Details    : an update from the upstream developer Scott Atchley.
28
29 Severity   : enhancement
30 Bugzilla   : 15332
31 Description: add a new LND optiion to control peer buffer credits on routers
32
33 Severity   : normal
34 Bugzilla   : 18844
35 Description: Fixing deadlock in usocklnd
36 Details    : A deadlock was possible in usocklnd due to race condition while
37              tearing connection down. The problem resulted from erroneous
38              assumption that lnet_finalize() could have been called holding
39              some lnd-level locks.
40
41 Severity   : major
42 Bugzilla   : 13621, 15983
43 Description: Protocol V2 of o2iblnd
44 Details    : o2iblnd V2 has several new features:
45              . map-on-demand: map-on-demand is disabled by default, it can
46                be enabled by using modparam "map_on_demand=@value@", @value@
47                should >= 0 and < 256, 0 will disable map-on-demand, any other
48                valid value will enable map-on-demand. 
49                Oi2blnd will create FMR or physical MR for RDMA if fragments of
50                RD > @value@.
51                Enable map-on-demand will take less memory for new connection,
52                but a little more CPU for RDMA.
53              . iWARP : to support iWARP, please enable map-on-demand, 32 and 64
54                are recommanded value. iWARP will probably fail for value >=128.
55              . OOB NOOP message: to resolve deadlock on router.
56              . tunable peer_credits_hiw: (high water to return credits),
57                default value of peer_credits_hiw equals to (peer_credits -1),
58                user can change it between peer_credits/2 and (peer_credits - 1).
59                Lower value is recommended for high latency network.
60              . tunable message queue size: it always equals to peer_credits,
61                higher value is recommended for high latency network.
62              . It's compatible with earlier version of o2iblnd
63
64 Severity   : normal
65 Bugzilla   : 18414
66 Description: Fixing 'running out of ports' issue
67 Details    : Add a delay before next reconnect attempt in ksocklnd in
68              the case of lost race. Limit the frequency of query-requests
69              in lnet. Improved handling of 'dead peer' notifications in
70              lnet.
71
72 Severity   : normal
73 Bugzilla   : 16034
74 Description: Change ptllnd timeout and watchdog timers
75 Details    : Add ptltrace_on_nal_failed and bump ptllnd timeout to match
76              Portals wire timeout.
77
78 Severity   : normal
79 Bugzilla   : 16186
80 Description: One down Lustre FS hangs ALL mounted Lustre filesystems
81 Details    : Shared routing enhancements - peer health detection.
82
83 Severity   : enhancement
84 Bugzilla   : 14132
85 Description: acceptor.c cleanup
86 Details    : Code duplication in acceptor.c for the cases of kernel and
87              user-space removed. User-space libcfs tcpip primitives
88              uniformed to have prototypes similar to kernel ones. Minor
89              cosmetic changes in usocklnd to use cfs_socket_t as
90              representation of socket.
91
92 Severity   : minor
93 Bugzilla   : 11245
94 Description: IB path MTU mistakenly set to 1st path MTU when ib_mtu is off
95 Details    : See comment 46 in bug 11245 for details - it's indeed a bug
96              introduced by the original 11245 fix.
97
98 Severity   : minor
99 Bugzilla   : 15984
100 Description: uptllnd credit overflow fix
101 Details    : kptl_msg_t::ptlm_credits could be overflown by uptllnd since
102              it is only a __u8.
103
104 Severity   : major
105 Bugzilla   : 14634
106 Description: socklnd protocol version 3
107 Details    : With current protocol V2, connections on router can be
108              blocked and can't receive any incoming messages when there is no
109              more router buffer, so ZC-ACK can't be handled (LNet message
110              can't be finalized) and will cause deadlock on router.
111              Protocol V3 has a dedicated connection for emergency messages
112              like ZC-ACK to router, messages on this dedicated connection
113              don't need any credit so will never be blocked. Also, V3 can send
114              keepalive ping in specified period for router healthy checking.
115
116 -------------------------------------------------------------------------------
117
118 12-31-2008  Sun Microsystems, Inc.
119         * version 1.8.0
120         * Support for networks:
121          socklnd   - any kernel supported by Lustre,
122          qswlnd    - Qsnet kernel modules 5.20 and later,
123          openiblnd - IbGold 1.8.2,
124          o2iblnd   - OFED 1.1, 1.2.0, 1.2.5, and 1.3
125          viblnd    - Voltaire ibhost 3.4.5 and later,
126          ciblnd    - Topspin 3.2.0,
127          iiblnd    - Infiniserv 3.3 + PathBits patch,
128          gmlnd     - GM 2.1.22 and later,
129          mxlnd     - MX 1.2.1 or later,
130          ptllnd    - Portals 3.3 / UNICOS/lc 1.5.x, 2.0.x
131
132 Severity   : major
133 Bugzilla   : 15983
134 Description: workaround for OOM from o2iblnd
135 Details    : OFED needs allocate big chunk of memory for QP while creating
136              connection for o2iblnd, OOM can happen if no such a contiguous
137              memory chunk.
138              QP size is decided by concurrent_sends and max_fragments of
139              o2iblnd, now we permit user to specify smaller value for
140              concurrent_sends of o2iblnd(i.e: concurrent_sends=7), which
141              will decrease memory block size required by creating QP.
142
143 Severity   : major
144 Bugzilla   : 15093
145 Description: Support Zerocopy receive of Chelsio device
146 Details    : Chelsio driver can support zerocopy for iov[1] if it's
147              contiguous and large enough.
148
149 Severity   : normal
150 Bugzilla   : 13490
151 Description: fix credit flow deadlock in uptllnd
152
153 Severity   : normal
154 Bugzilla   : 16308
155 Description: finalize network operation in reasonable time
156 Details    : conf-sanity test_32a couldn't stop ost and mds because it
157              tried to access non-existent peer and tcp connect took
158              quite long before timing out.
159
160 Severity   : major
161 Bugzilla   : 16338
162 Description: Continuous recovery on 33 of 413 nodes after lustre oss failure
163 Details    : Lost reference on conn prevents peer from being destroyed, which
164              could prevent new peer creation if peer count has reached upper
165              limit.
166
167 Severity   : normal
168 Bugzilla   : 16102
169 Description: LNET Selftest results in Soft lockup on OSS CPU
170 Details    : only hits when 8 or more o2ib clients involved and a session is
171              torn down with 'lst end_session' without preceeding 'lst stop'.
172
173 Severity   : minor
174 Bugzilla   : 16321
175 Description: concurrent_sends in IB LNDs should not be changeable at run time
176 Details    : concurrent_sends in IB LNDs should not be changeable at run time
177
178 Severity   : normal
179 Bugzilla   : 15272
180 Description: ptl_send_rpc hits LASSERT when ptl_send_buf fails
181 Details    : only hits under out-of-memory situations
182
183
184 -------------------------------------------------------------------------------
185
186 2009-02-07 Sun Microsystems, Inc.
187         * version 1.6.7
188         * Support for networks:
189          socklnd   - any kernel supported by Lustre,
190          qswlnd    - Qsnet kernel modules 5.20 and later,
191          openiblnd - IbGold 1.8.2,
192          o2iblnd   - OFED 1.1, 1.2.0, 1.2.5, and 1.3
193          viblnd    - Voltaire ibhost 3.4.5 and later,
194          ciblnd    - Topspin 3.2.0,
195          iiblnd    - Infiniserv 3.3 + PathBits patch,
196          gmlnd     - GM 2.1.22 and later,
197          mxlnd     - MX 1.2.1 or later,
198          ptllnd    - Portals 3.3 / UNICOS/lc 1.5.x, 2.0.x
199 Severity   : major
200 Bugzilla   : 15983
201 Description: workaround for OOM from o2iblnd
202 Details    : OFED needs allocate big chunk of memory for QP while creating
203              connection for o2iblnd, OOM can happen if no such a contiguous
204              memory chunk.
205              QP size is decided by concurrent_sends and max_fragments of
206              o2iblnd, now we permit user to specify smaller value for
207              concurrent_sends of o2iblnd(i.e: concurrent_sends=7), which
208              will decrease memory block size required by creating QP.
209
210 Severity   : major
211 Bugzilla   : 15093
212 Description: Support Zerocopy receive of Chelsio device
213 Details    : Chelsio driver can support zerocopy for iov[1] if it's
214              contiguous and large enough.
215 Severity   : normal
216 Bugzilla   : 13490
217 Description: fix credit flow deadlock in uptllnd
218
219 Severity   : normal
220 Bugzilla   : 16308
221 Description: finalize network operation in reasonable time
222 Details    : conf-sanity test_32a couldn't stop ost and mds because it
223              tried to access non-existent peer and tcp connect took
224              quite long before timing out.
225
226 Severity   : major
227 Bugzilla   : 16338
228 Description: Continuous recovery on 33 of 413 nodes after lustre oss failure
229 Details    : Lost reference on conn prevents peer from being destroyed, which
230              could prevent new peer creation if peer count has reached upper
231              limit.
232
233 Severity   : normal
234 Bugzilla   : 16102
235 Description: LNET Selftest results in Soft lockup on OSS CPU
236 Details    : only hits when 8 or more o2ib clients involved and a session is
237              torn down with 'lst end_session' without preceeding 'lst stop'.
238
239 Severity   : minor
240 Bugzilla   : 16321
241 Description: concurrent_sends in IB LNDs should not be changeable at run time
242 Details    : concurrent_sends in IB LNDs should not be changeable at run time
243
244 -------------------------------------------------------------------------------
245
246 11-03-2008  Sun Microsystems, Inc.
247         * version 1.6.6
248         * Support for networks:
249          socklnd   - any kernel supported by Lustre,
250          qswlnd    - Qsnet kernel modules 5.20 and later,
251          openiblnd - IbGold 1.8.2,
252          o2iblnd   - OFED 1.1, 1.2.0, 1.2.5, and 1.3
253          viblnd    - Voltaire ibhost 3.4.5 and later,
254          ciblnd    - Topspin 3.2.0,
255          iiblnd    - Infiniserv 3.3 + PathBits patch,
256          gmlnd     - GM 2.1.22 and later,
257          mxlnd     - MX 1.2.1 or later,
258          ptllnd    - Portals 3.3 / UNICOS/lc 1.5.x, 2.0.x
259
260 Severity   : normal
261 Bugzilla   : 15272
262 Description: ptl_send_rpc hits LASSERT when ptl_send_buf fails
263 Details    : only hits under out-of-memory situations
264
265 -------------------------------------------------------------------------------
266
267 04-26-2008  Sun Microsystems, Inc.
268        * version 1.6.5
269        * Support for networks:
270         socklnd   - any kernel supported by Lustre,
271         qswlnd    - Qsnet kernel modules 5.20 and later,
272         openiblnd - IbGold 1.8.2,
273         o2iblnd   - OFED 1.1 and 1.2.0, 1.2.5
274         viblnd    - Voltaire ibhost 3.4.5 and later,
275         ciblnd    - Topspin 3.2.0,
276         iiblnd    - Infiniserv 3.3 + PathBits patch,
277         gmlnd     - GM 2.1.22 and later,
278         mxlnd     - MX 1.2.1 or later,
279         ptllnd    - Portals 3.3 / UNICOS/lc 1.5.x, 2.0.x
280
281 Severity   : normal
282 Bugzilla   : 14322
283 Description: excessive debug information removed
284 Details    : excessive debug information removed
285
286 Severity   : major
287 Bugzilla   : 15712
288 Description: ksocknal_create_conn() hit ASSERTION during connection race
289 Details    : ksocknal_create_conn() hit ASSERTION during connection race
290
291 Severity   : major
292 Bugzilla   : 13983
293 Description: ksocknal_send_hello() hit ASSERTION while connecting race
294 Details    : ksocknal_send_hello() hit ASSERTION while connecting race
295
296 Severity   : major
297 Bugzilla   : 14425
298 Description: o2iblnd/ptllnd credit deadlock in a routed config.
299 Details    : o2iblnd/ptllnd credit deadlock in a routed config.
300
301 Severity   : normal
302 Bugzilla   : 14956
303 Description: High load after starting lnet
304 Details    : gmlnd should sleep in rx thread in interruptible way. Otherwise,
305              uptime utility reports high load that looks confusingly.
306
307 Severity   : normal
308 Bugzilla   : 14838
309 Description: ksocklnd fails to establish connection if accept_port is high
310 Details    : PID remapping must not be done for active (outgoing) connections
311
312
313 --------------------------------------------------------------------------------
314
315 2008-01-11  Sun Microsystems, Inc.
316        * version 1.4.12
317        * Support for networks:
318         socklnd   - any kernel supported by Lustre,
319         qswlnd    - Qsnet kernel modules 5.20 and later,
320         openiblnd - IbGold 1.8.2,
321         o2iblnd   - OFED 1.1 and 1.2.0, 1.2.5
322         viblnd    - Voltaire ibhost 3.4.5 and later,
323         ciblnd    - Topspin 3.2.0,
324         iiblnd    - Infiniserv 3.3 + PathBits patch,
325         gmlnd     - GM 2.1.22 and later,
326         mxlnd     - MX 1.2.1 or later,
327         ptllnd    - Portals 3.3 / UNICOS/lc 1.5.x, 2.0.x
328
329 Severity   : normal
330 Bugzilla   : 14387
331 Description: liblustre network error
332 Details    : liblustre clients should understand LNET_ACCEPT_PORT environment
333              variable even if they don't start lnet acceptor.
334
335 Severity   : normal
336 Bugzilla   : 14300
337 Description: Strange message from lnet (Ignoring prediction from the future)
338 Details    : Incorrect calculation of peer's last_alive value in ksocklnd
339
340 --------------------------------------------------------------------------------
341
342 2007-12-07         Cluster File Systems, Inc. <info@clusterfs.com>
343        * version 1.6.4
344        * Support for networks:
345         socklnd   - any kernel supported by Lustre,
346         qswlnd    - Qsnet kernel modules 5.20 and later,
347         openiblnd - IbGold 1.8.2,
348         o2iblnd   - OFED 1.1 and 1.2.0, 1.2.5.
349         viblnd    - Voltaire ibhost 3.4.5 and later,
350         ciblnd    - Topspin 3.2.0,
351         iiblnd    - Infiniserv 3.3 + PathBits patch,
352         gmlnd     - GM 2.1.22 and later,
353         mxlnd     - MX 1.2.1 or later,
354         ptllnd    - Portals 3.3 / UNICOS/lc 1.5.x, 2.0.x
355
356 Severity   : normal
357 Bugzilla   : 14238
358 Description: ASSERTION(me == md->md_me) failed in lnet_match_md()
359
360 Severity   : normal
361 Bugzilla   : 12494
362 Description: increase send queue size for ciblnd/openiblnd
363
364 Severity   : normal
365 Bugzilla   : 12302
366 Description: new userspace socklnd
367 Details    : Old userspace tcpnal that resided in lnet/ulnds/socklnd replaced
368              with new one - usocklnd.
369
370 Severity   : enhancement
371 Bugzilla   : 11686
372 Description: Console message flood
373 Details    : Make cdls ratelimiting more tunable by adding several tunable in
374              procfs /proc/sys/lnet/console_{min,max}_delay_centisecs and
375              /proc/sys/lnet/console_backoff.
376
377 --------------------------------------------------------------------------------
378
379 2007-09-27         Cluster File Systems, Inc. <info@clusterfs.com>
380        * version 1.6.3
381        * Support for networks:
382         socklnd   - any kernel supported by Lustre,
383         qswlnd    - Qsnet kernel modules 5.20 and later,
384         openiblnd - IbGold 1.8.2,
385         o2iblnd   - OFED 1.1 and 1.2,
386         viblnd    - Voltaire ibhost 3.4.5 and later,
387         ciblnd    - Topspin 3.2.0,
388         iiblnd    - Infiniserv 3.3 + PathBits patch,
389         gmlnd     - GM 2.1.22 and later,
390         mxlnd     - MX 1.2.1 or later,
391         ptllnd    - Portals 3.3 / UNICOS/lc 1.5.x, 2.0.x
392
393 Severity   : normal
394 Bugzilla   : 12782
395 Description: /proc/sys/lnet has non-sysctl entries
396 Details    : Updating dump_kernel/daemon_file/debug_mb to use sysctl variables
397
398 Severity   : major
399 Bugzilla   : 13236
400 Description: TOE Kernel panic by ksocklnd
401 Details    : offloaded sockets provide their own implementation of sendpage,
402              can't call tcp_sendpage() directly
403
404 Severity   : normal
405 Bugzilla   : 10778
406 Description: kibnal_shutdown() doesn't finish; lconf --cleanup hangs
407 Details    : races between lnd_shutdown and peer creation prevent 
408              lnd_shutdown from finishing.
409
410 Severity   : normal
411 Bugzilla   : 13279
412 Description: open files rlimit 1024 reached while liblustre testing
413 Details    : ulnds/socklnd must close open socket after unsuccessful
414              'say hello' attempt.
415
416 Severity   : major 
417 Bugzilla   : 13482
418 Description: build error
419 Details    : fix typos in gmlnd, ptllnd and viblnd
420
421 --------------------------------------------------------------------------------
422
423 2007-07-30  Cluster File Systems, Inc. <info@clusterfs.com>
424        * version 1.6.1
425        * Support for networks:
426         socklnd   - kernels up to 2.6.16,
427         qswlnd    - Qsnet kernel modules 5.20 and later,
428         openiblnd - IbGold 1.8.2,
429         o2iblnd   - OFED 1.1 and 1.2
430         viblnd    - Voltaire ibhost 3.4.5 and later,
431         ciblnd    - Topspin 3.2.0,
432         iiblnd    - Infiniserv 3.3 + PathBits patch,
433         gmlnd     - GM 2.1.22 and later,
434         mxlnd     - MX 1.2.1 or later,
435         ptllnd    - Portals 3.3 / UNICOS/lc 1.5.x, 2.0.x
436
437 --------------------------------------------------------------------------------
438
439 2007-06-21  Cluster File Systems, Inc. <info@clusterfs.com>
440        * version 1.4.11
441        * Support for networks:
442         socklnd   - kernels up to 2.6.16,
443         qswlnd    - Qsnet kernel modules 5.20 and later,
444         openiblnd - IbGold 1.8.2,
445         o2iblnd   - OFED 1.1
446         viblnd    - Voltaire ibhost 3.4.5 and later,
447         ciblnd    - Topspin 3.2.0,
448         iiblnd    - Infiniserv 3.3 + PathBits patch,
449         gmlnd     - GM 2.1.22 and later,
450         mxlnd     - MX 1.2.1 or later,
451         ptllnd    - Portals 3.3 / UNICOS/lc 1.5.x, 2.0.x
452
453 Severity   : minor
454 Bugzilla   : 13288
455 Description: Initialize cpumask before use
456
457 Severity   : major
458 Bugzilla   : 12014
459 Description: ASSERTION failures when upgrading to the patchless zero-copy
460              socklnd 
461 Details    : This bug affects "rolling upgrades", causing an inconsistent
462              protocol version negotiation and subsequent assertion failure
463              during rolling upgrades after the first wave of upgrades.
464
465 Severity   : minor
466 Bugzilla   : 11223
467 Details    : Change "dropped message" CERRORs to D_NETERROR so they are
468              logged instead of creating "console chatter" when a lustre
469              timeout races with normal RPC completion.
470
471 Severity   : minor
472 Details    : lnet_clear_peer_table can wait forever if user forgets to
473              clear a lazy portal.
474
475 Severity   : minor
476 Details    : libcfs_id2str should check pid against LNET_PID_ANY.
477
478 Severity   : major
479 Bugzilla   : 10916
480 Description: added LNET self test
481 Details    : landing b_self_test
482
483 Severity   : minor
484 Frequency  : rare
485 Bugzilla   : 12227
486 Description: cfs_duration_{u,n}sec() wrongly calculate nanosecond part of
487              struct timeval.
488 Details    : do_div() macro is used incorrectly.
489
490 2007-04-23  Cluster File Systems, Inc. <info@clusterfs.com>
491
492 Severity   : normal
493 Bugzilla   : 11680
494 Description: make panic on lbug configurable
495
496 Severity   : major
497 Bugzilla   : 12316
498 Description: Add OFED1.2 support to o2iblnd
499 Details    : o2iblnd depends on OFED's modules, if out-tree OFED's modules
500              are installed (other than kernel's in-tree infiniband), there
501              could be some problem while insmod o2iblnd (mismatch CRC of 
502              ib_* symbols).
503              If extra Module.symvers is supported in kernel (i.e, 2.6.17),
504              this link provides solution:
505              https://bugs.openfabrics.org/show_bug.cgi?id=355
506              if extra Module.symvers is not supported in kernel, we will
507              have to run the script in bug 12316 to update
508              $LINUX/module.symvers before building o2iblnd.
509              More details about this are in bug 12316.
510
511 ------------------------------------------------------------------------------
512
513 2007-04-01  Cluster File Systems, Inc. <info@clusterfs.com>
514        * version 1.4.10 / 1.6.0
515        * Support for networks:
516         socklnd   - kernels up to 2.6.16,
517         qswlnd    - Qsnet kernel modules 5.20 and later,
518         openiblnd - IbGold 1.8.2,
519         o2iblnd   - OFED 1.1,
520         viblnd    - Voltaire ibhost 3.4.5 and later,
521         ciblnd    - Topspin 3.2.0,
522         iiblnd    - Infiniserv 3.3 + PathBits patch,
523         gmlnd     - GM 2.1.22 and later,
524         mxlnd     - MX 1.2.1 or later,
525         ptllnd    - Portals 3.3 / UNICOS/lc 1.5.x, 2.0.x
526         
527 Severity   : minor
528 Frequency  : rare
529 Description: Ptllnd didn't init kptllnd_data.kptl_idle_txs before it could be
530              possibly accessed in kptllnd_shutdown. Ptllnd should init 
531              kptllnd_data.kptl_ptlid2str_lock before calling kptllnd_ptlid2str.
532
533 Severity   : normal
534 Frequency  : rare
535 Description: gmlnd ignored some transmit errors when finalizing lnet messages.
536
537 Severity   : minor
538 Frequency  : rare
539 Description: ptllnd logs a piece of incorrect debug info in kptllnd_peer_handle_hello.
540
541 Severity   : minor
542 Frequency  : rare
543 Description: the_lnet.ln_finalizing was not set when the current thread is
544              about to complete messages. It only affects multi-threaded 
545              user space LNet.
546         
547 Severity   : normal
548 Frequency  : rare
549 Bugzilla   : 11472
550 Description: Changed the default kqswlnd ntxmsg=512
551         
552 Severity   : major
553 Frequency  : rare
554 Bugzilla   : 12458
555 Description: Assertion failure in kernel ptllnd caused by posting passive
556              bulk buffers before connection establishment complete.
557         
558 Severity   : major
559 Frequency  : rare
560 Bugzilla   : 12445
561 Description: A race in kernel ptllnd between deleting a peer and posting
562              new communications for it could hang communications -
563              manifesting as "Unexpectedly long timeout" messages.
564         
565 Severity   : major
566 Frequency  : rare
567 Bugzilla   : 12432
568 Description: Kernel ptllnd lock ordering issue could hang a node.
569         
570 Severity   : major
571 Frequency  : rare
572 Bugzilla   : 12016
573 Description: node crash on socket teardown race
574
575 Severity   : minor
576 Frequency  : 'lctl peer_list' issued on a mx net
577 Bugzilla   : 12237
578 Description: Enable lctl's peer_list for MXLND
579
580 Severity   : major
581 Frequency  : after Ptllnd timeouts and portals congestion
582 Bugzilla   : 11659
583 Description: Credit overflows
584 Details    : This was a bug in ptllnd connection establishment.  The fix
585              implements better peer stamps to disambiguate connection
586              establishment and ensure both peers enter the credit flow
587              state machine consistently.
588
589 Severity   : major
590 Frequency  : rare       
591 Bugzilla   : 11394
592 Description: kptllnd didn't propagate some network errors up to LNET 
593 Details    : This bug was spotted while investigating 11394.  The fix
594              ensures network errors on sends and bulk transfers are
595              propagated to LNET/lustre correctly.
596
597 Severity   : enhancement
598 Bugzilla   : 10316
599 Description: Fixed console chatter in case of -ETIMEDOUT.
600
601 Severity   : enhancement
602 Bugzilla   : 11684
603 Description: Added D_NETTRACE for recording network packet history
604              (initially only for ptllnd).  Also a separate userspace
605              ptllnd facility to gather history which should really be
606              covered by D_NETTRACE too, if only CDEBUG recorded history in
607              userspace.
608
609 Severity   : major
610 Frequency  : rare       
611 Bugzilla   : 11616
612 Description: o2iblnd handle early RDMA_CM_EVENT_DISCONNECTED.
613 Details    : If the fabric is lossy, an RDMA_CM_EVENT_DISCONNECTED
614              callback can occur before a connection has actually been
615              established.  This caused an assertion failure previously.
616
617 Severity   : enhancement
618 Bugzilla   : 11094
619 Description: Multiple instances for o2iblnd
620 Details    : Allow multiple instances of o2iblnd to enable networking over
621              multiple HCAs and routing between them.
622
623 Severity   : major
624 Bugzilla   : 11201
625 Description: lnet deadlock in router_checker
626 Details    : turned ksnd_connd_lock, ksnd_reaper_lock, and ksock_net_t:ksnd_lock
627              into BH locks to eliminate potential deadlock caused by
628              ksocknal_data_ready() preempting code holding these locks.
629
630 Severity   : major
631 Bugzilla   : 11126
632 Description: Millions of failed socklnd connection attempts cause a very slow FS
633 Details    : added a new route flag ksnr_scheduled to distinguish from
634              ksnr_connecting, so that a peer connection request is only turned
635              down for race concerns when an active connection to the same peer
636              is under progress (instead of just being scheduled).
637
638 ------------------------------------------------------------------------------
639
640 2007-02-09  Cluster File Systems, Inc. <info@clusterfs.com>
641        * version 1.4.9
642        * Support for networks:
643         socklnd   - kernels up to 2.6.16
644         qswlnd    - Qsnet kernel modules 5.20 and later
645         openiblnd - IbGold 1.8.2
646         o2iblnd   - OFED 1.1
647         viblnd    - Voltaire ibhost 3.4.5 and later
648         ciblnd    - Topspin 3.2.0
649         iiblnd    - Infiniserv 3.3 + PathBits patch
650         gmlnd     - GM 2.1.22 and later
651         mxlnd     - MX 1.2.1 or later
652         ptllnd    - Portals 3.3 / UNICOS/lc 1.5.x, 2.0.x
653        * bug fixes
654
655 Severity   : major on XT3
656 Bugzilla   : none
657 Description: libcfs overwrites /proc/sys/portals
658 Details    : libcfs created a symlink from /proc/sys/portals to
659              /proc/sys/lnet for backwards compatibility.  This is no
660              longer required and makes the Cray portals /proc variables
661              inaccessible.
662
663 Severity   : minor
664 Bugzilla   : 11312
665 Description: OFED FMR API change
666 Details    : This changes parameter usage to reflect a change in
667              ib_fmr_pool_map_phys() between OFED 1.0 and OFED 1.1.  Note
668              that FMR support is only used in experimental versions of the
669              o2iblnd - this change does not affect standard usage at all.
670
671 Severity   : enhancement
672 Bugzilla   : 11245
673 Description: new ko2iblnd module parameter: ib_mtu
674 Details    : the default IB MTU of 2048 performs badly on 23108 Tavor
675              HCAs.  You can avoid this problem by setting the MTU to 1024
676              using this module parameter.
677
678 Severity   : enhancement
679 Bugzilla   : 11118/11620
680 Description: ptllnd small request message buffer alignment fix
681 Details    : Set the PTL_MD_LOCAL_ALIGN8 option on small message receives.
682              Round up small message size on sends in case this option
683              is not supported.  11620 was a defect in the initial
684              implementation which effectively asserted all peers had to be
685              running the correct protocol version which was fixed by always
686              NAK-ing such requests and handling any misalignments they
687              introduce.
688
689 Severity   : minor
690 Frequency  : rarely
691 Description: When kib(nal|lnd)_del_peer() is called upon a peer whose
692              ibp_tx_queue is not empty, kib(nal|lnd)_destroy_peer()'s
693              'LASSERT(list_empty(&peer->ibp_tx_queue))' will fail.
694
695 Severity   : enhancement
696 Bugzilla   : 11250
697 Description: Patchless ZC(zero copy) socklnd
698 Details    : New protocol for socklnd, socklnd can support zero copy without
699              kernel patch, it's compatible with old socklnd. Checksum is 
700              moved from tunables to modparams.
701
702 Severity   : minor
703 Frequency  : rarely
704 Description: When ksocknal_del_peer() is called upon a peer whose
705              ksnp_tx_queue is not empty, ksocknal_destroy_peer()'s
706              'LASSERT(list_empty(&peer->ksnp_tx_queue))' will fail.
707
708 Severity   : normal
709 Frequency  : when ptlrpc is under heavy use and runs out of request buffer
710 Bugzilla   : 11318
711 Description: In lnet_match_blocked_msg(), md can be used without holding a
712              ref on it.
713
714 Severity   : minor
715 Frequency  : very rarely
716 Bugzilla   : 10727
717 Description: If ksocknal_lib_setup_sock() fails, a ref on peer is lost.
718              If connd connects a route which has been closed by
719              ksocknal_shutdown(), ksocknal_create_routes() may create new
720              routes which hold references on the peer, causing shutdown
721              process to wait for peer to disappear forever.
722
723 Severity   : enhancement
724 Bugzilla   : 11234
725 Description: Dump XT3 portals traces on kptllnd timeout
726 Details    : Set the kptllnd module parameter "ptltrace_on_timeout=1" to
727              dump Cray portals debug traces to a file.  The kptllnd module
728              parameter "ptltrace_basename", default "/tmp/lnet-ptltrace",
729              is the basename of the dump file.
730
731 Severity   : major
732 Frequency  : infrequent
733 Bugzilla   : 11308
734 Description: kernel ptllnd fix bug in connection re-establishment
735 Details    : Kernel ptllnd could produce protocol errors e.g. illegal
736              matchbits and/or violate the credit flow protocol when trying
737              to re-establish a connection with a peer after an error or
738              timeout. 
739
740 Severity   : enhancement
741 Bugzilla   : 10316
742 Description: Allow /proc/sys/lnet/debug to be set symbolically
743 Details    : Allow debug and subsystem debug values to be read/set by name
744              in addition to numerically, for ease of use.
745
746 Severity   : normal
747 Frequency  : only in configurations with LNET routers
748 Bugzilla   : 10316
749 Description: routes automatically marked down and recovered
750 Details    : In configurations with LNET routers if a router fails routers
751              now actively try to recover routes that are down, unless they
752              are marked down by an administrator.
753
754 ------------------------------------------------------------------------------
755
756 2006-12-09  Cluster File Systems, Inc. <info@clusterfs.com>
757
758 Severity   : critical
759 Frequency  : very rarely, in configurations with LNET routers and TCP
760 Bugzilla   : 10889
761 Description: incorrect data written to files on OSTs
762 Details    : In certain high-load conditions incorrect data may be written
763              to files on the OST when using TCP networks.
764
765 ------------------------------------------------------------------------------
766
767 2006-07-31  Cluster File Systems, Inc. <info@clusterfs.com>
768         * version 1.4.7
769         - rework CDEBUG messages rate-limiting mechanism b=10375
770         - add per-socket tunables for socklnd if the kernel is patched b=10327
771
772 ------------------------------------------------------------------------------
773
774 2006-02-15  Cluster File Systems, Inc. <info@clusterfs.com>
775         * version 1.4.6
776         - fix use of portals/lnet pid to avoid dropping RPCs b=10074
777         - iiblnd wasn't mapping all memory, resulting in comms errors b=9776
778         - quiet LNET startup LNI message for liblustre b=10128
779         - Better console error messages if 'ip2nets' can't match an IP address
780         - Fixed overflow/use-before-set bugs in linux-time.h
781         - Fixed ptllnd bug that wasn't initialising rx descriptors completely
782         - LNET teardown failed an assertion about the route table being empty
783         - Fixed a crash in LNetEQPoll(<invalid handle>)
784         - Future protocol compatibility work (b_rls146_lnetprotovrsn)
785         - improve debug message for liblustre/Catamount nodes (b=10116)
786
787 2005-10-10  Cluster File Systems, Inc. <info@clusterfs.com>
788         * Configuration change for the XT3
789              The PTLLND is now used to run Lustre over Portals on the XT3.
790              The configure option(s) --with-cray-portals are no longer
791              used.  Rather --with-portals=<path-to-portals-includes> is
792              used to enable building on the XT3.  In addition to enable
793              XT3 specific features the option --enable-cray-xt3 must be
794              used.
795
796 2005-10-10  Cluster File Systems, Inc. <info@clusterfs.com>
797         * Portals has been removed, replaced by LNET.
798            LNET is new networking infrastructure for Lustre, it includes a
799            reorganized network configuration mode (see the user
800            documentation for full details) as well as support for routing
801            between different network fabrics.  Lustre Networking Devices
802            (LNDS) for the supported network fabrics have also been created
803            for this new infrastructure.
804
805 2005-08-08  Cluster File Systems, Inc. <info@clusterfs.com>
806        * version 1.4.4
807        * bug fixes
808
809 Severity   : major
810 Frequency  : rare (large Voltaire clusters only)
811 Bugzilla   : 6993
812 Description: the default number of reserved transmit descriptors was too low
813              for some large clusters
814 Details    : As a workaround, the number was increased.  A proper fix includes
815              a run-time tunable.
816
817 2005-06-02  Cluster File Systems, Inc. <info@clusterfs.com>
818        * version 1.4.3
819        * bug fixes
820
821 Severity   : major
822 Frequency  : occasional (large-scale events, cluster reboot, network failure)
823 Bugzilla   : 6411
824 Description: too many error messages on console obscure actual problem and
825              can slow down/panic server, or cause recovery to fail repeatedly
826 Details    : enable rate-limiting of console error messages, and some messages
827              that were console errors now only go to the kernel log
828
829 Severity   : enhancement
830 Bugzilla   : 1693
831 Description: add /proc/sys/portals/catastrophe entry which will report if
832              that node has previously LBUGged
833
834 2005-04-06  Cluster File Systems, Inc. <info@clusterfs.com>
835        * bugs
836         - update gmnal to use PTL_MTU, fix module refcounting (b=5786)
837
838 2005-04-04  Cluster File Systems, Inc. <info@clusterfs.com>
839        * bugs
840         - handle error return code in kranal_check_fma_rx() (5915,6054)
841
842 2005-02-04  Cluster File Systems, Inc. <info@clusterfs.com>
843        * miscellania
844         - update vibnal (Voltaire IB NAL)
845         - update gmnal (Myrinet NAL), gmnalid
846
847 2005-02-04  Eric Barton  <eeb@bartonsoftware.com>
848
849         * Landed portals:b_port_step as follows...
850
851           - removed CFS_DECL_SPIN* 
852             just use 'spinlock_t' and initialise with spin_lock_init()
853
854           - removed CFS_DECL_MUTEX*
855             just use 'struct semaphore' and initialise with init_mutex()
856
857           - removed CFS_DECL_RWSEM*
858             just use 'struct rw_semaphore' and initialise with init_rwsem()
859
860           - renamed cfs_sleep_chan -> cfs_waitq
861                     cfs_sleep_link -> cfs_waitlink
862
863           - fixed race in linux version of arch-independent socknal
864             (the ENOMEM/EAGAIN decision).
865
866           - Didn't fix problems in Darwin version of arch-independent socknal
867             (resetting socket callbacks, eager ack hack, ENOMEM/EAGAIN decision)
868
869           - removed libcfs types from non-socknal header files (only some types
870             in the header files had been changed; the .c files hadn't been
871             updated at all).