Whamcloud - gitweb
8f7a42d6a3e321304f8d35f91ee950da3fc545c2
[fs/lustre-release.git] / lnet / ChangeLog
1 tbd  Sun Microsystems, Inc.
2         * version 2.0.0
3         * Support for networks:
4          socklnd   - any kernel supported by Lustre,
5          qswlnd    - Qsnet kernel modules 5.20 and later,
6          openiblnd - IbGold 1.8.2,
7          o2iblnd   - OFED 1.1, 1.2.0, 1.2.5, 1.3, and 1.4.1
8          viblnd    - Voltaire ibhost 3.4.5 and later,
9          ciblnd    - Topspin 3.2.0,
10          iiblnd    - Infiniserv 3.3 + PathBits patch,
11          gmlnd     - GM 2.1.22 and later,
12          mxlnd     - MX 1.2.1 or later,
13          ptllnd    - Portals 3.3 / UNICOS/lc 1.5.x, 2.0.x
14
15 Severity   : 
16 Bugzilla   : 
17 Description: 
18 Details    : 
19
20 Severity   : normal
21 Bugzilla   : 20171
22 Description: router checker stops working when system wall clock goes backward
23 Details    : use monotonic timing source instead of system wall clock time.
24
25 Severity   : enhancement
26 Bugzilla   : 18460
27 Description: avoid asymmetrical router failures
28
29 Severity   : enhancement
30 Bugzilla   : 19735
31 Description: multiple-instance support for kptllnd
32
33 Severity   : normal
34 Bugzilla   : 20897
35 Description: ksocknal_close_conn_locked connection race
36 Details    : A race was possible when ksocknal_create_conn calls
37              ksocknal_close_conn_locked for already closed conn.
38
39 Severity   : normal
40 Bugzilla   : 18102
41 Description: router_proc.c is rewritten to use sysctl-interface for parameters
42              residing in /proc/sys/lnet
43
44 Severity   : enhancement
45 Bugzilla   : 13065
46 Description: port router pinger to userspace
47
48 Severity   : normal
49 Bugzilla   : 17546
50 Description: kptllnd HELLO protocol deadlock
51 Details    : kptllnd HELLO protocol doesn't run to completion in finite time
52
53 Severity   : normal
54 Bugzilla   : 18075
55 Description: LNet selftest fixes and enhancements
56
57 Severity   : enhancement
58 Bugzilla   : 19156
59 Description: allow a test node to be a member of multiple test groups
60
61 Severity   : enhancement
62 Bugzilla   : 18654
63 Description: MXLND: eliminate hosts file, use arp for peer nic_id resolution
64 Details    : an update from the upstream developer Scott Atchley.
65
66 Severity   : enhancement
67 Bugzilla   : 15332
68 Description: add a new LND optiion to control peer buffer credits on routers
69
70 Severity   : normal
71 Bugzilla   : 18844
72 Description: Fixing deadlock in usocklnd
73 Details    : A deadlock was possible in usocklnd due to race condition while
74              tearing connection down. The problem resulted from erroneous
75              assumption that lnet_finalize() could have been called holding
76              some lnd-level locks.
77
78 Severity   : major
79 Bugzilla   : 13621, 15983
80 Description: Protocol V2 of o2iblnd
81 Details    : o2iblnd V2 has several new features:
82              . map-on-demand: map-on-demand is disabled by default, it can
83                be enabled by using modparam "map_on_demand=@value@", @value@
84                should >= 0 and < 256, 0 will disable map-on-demand, any other
85                valid value will enable map-on-demand. 
86                Oi2blnd will create FMR or physical MR for RDMA if fragments of
87                RD > @value@.
88                Enable map-on-demand will take less memory for new connection,
89                but a little more CPU for RDMA.
90              . iWARP : to support iWARP, please enable map-on-demand, 32 and 64
91                are recommanded value. iWARP will probably fail for value >=128.
92              . OOB NOOP message: to resolve deadlock on router.
93              . tunable peer_credits_hiw: (high water to return credits),
94                default value of peer_credits_hiw equals to (peer_credits -1),
95                user can change it between peer_credits/2 and (peer_credits - 1).
96                Lower value is recommended for high latency network.
97              . tunable message queue size: it always equals to peer_credits,
98                higher value is recommended for high latency network.
99              . It's compatible with earlier version of o2iblnd
100
101 Severity   : normal
102 Bugzilla   : 18414
103 Description: Fixing 'running out of ports' issue
104 Details    : Add a delay before next reconnect attempt in ksocklnd in
105              the case of lost race. Limit the frequency of query-requests
106              in lnet. Improved handling of 'dead peer' notifications in
107              lnet.
108
109 Severity   : normal
110 Bugzilla   : 16034
111 Description: Change ptllnd timeout and watchdog timers
112 Details    : Add ptltrace_on_nal_failed and bump ptllnd timeout to match
113              Portals wire timeout.
114
115 Severity   : normal
116 Bugzilla   : 16186
117 Description: One down Lustre FS hangs ALL mounted Lustre filesystems
118 Details    : Shared routing enhancements - peer health detection.
119
120 Severity   : enhancement
121 Bugzilla   : 14132
122 Description: acceptor.c cleanup
123 Details    : Code duplication in acceptor.c for the cases of kernel and
124              user-space removed. User-space libcfs tcpip primitives
125              uniformed to have prototypes similar to kernel ones. Minor
126              cosmetic changes in usocklnd to use cfs_socket_t as
127              representation of socket.
128
129 Severity   : minor
130 Bugzilla   : 11245
131 Description: IB path MTU mistakenly set to 1st path MTU when ib_mtu is off
132 Details    : See comment 46 in bug 11245 for details - it's indeed a bug
133              introduced by the original 11245 fix.
134
135 Severity   : minor
136 Bugzilla   : 15984
137 Description: uptllnd credit overflow fix
138 Details    : kptl_msg_t::ptlm_credits could be overflown by uptllnd since
139              it is only a __u8.
140
141 Severity   : major
142 Bugzilla   : 14634
143 Description: socklnd protocol version 3
144 Details    : With current protocol V2, connections on router can be
145              blocked and can't receive any incoming messages when there is no
146              more router buffer, so ZC-ACK can't be handled (LNet message
147              can't be finalized) and will cause deadlock on router.
148              Protocol V3 has a dedicated connection for emergency messages
149              like ZC-ACK to router, messages on this dedicated connection
150              don't need any credit so will never be blocked. Also, V3 can send
151              keepalive ping in specified period for router healthy checking.
152
153 -------------------------------------------------------------------------------
154
155 12-31-2008  Sun Microsystems, Inc.
156         * version 1.8.0
157         * Support for networks:
158          socklnd   - any kernel supported by Lustre,
159          qswlnd    - Qsnet kernel modules 5.20 and later,
160          openiblnd - IbGold 1.8.2,
161          o2iblnd   - OFED 1.1, 1.2.0, 1.2.5, and 1.3
162          viblnd    - Voltaire ibhost 3.4.5 and later,
163          ciblnd    - Topspin 3.2.0,
164          iiblnd    - Infiniserv 3.3 + PathBits patch,
165          gmlnd     - GM 2.1.22 and later,
166          mxlnd     - MX 1.2.1 or later,
167          ptllnd    - Portals 3.3 / UNICOS/lc 1.5.x, 2.0.x
168
169 Severity   : major
170 Bugzilla   : 15983
171 Description: workaround for OOM from o2iblnd
172 Details    : OFED needs allocate big chunk of memory for QP while creating
173              connection for o2iblnd, OOM can happen if no such a contiguous
174              memory chunk.
175              QP size is decided by concurrent_sends and max_fragments of
176              o2iblnd, now we permit user to specify smaller value for
177              concurrent_sends of o2iblnd(i.e: concurrent_sends=7), which
178              will decrease memory block size required by creating QP.
179
180 Severity   : major
181 Bugzilla   : 15093
182 Description: Support Zerocopy receive of Chelsio device
183 Details    : Chelsio driver can support zerocopy for iov[1] if it's
184              contiguous and large enough.
185
186 Severity   : normal
187 Bugzilla   : 13490
188 Description: fix credit flow deadlock in uptllnd
189
190 Severity   : normal
191 Bugzilla   : 16308
192 Description: finalize network operation in reasonable time
193 Details    : conf-sanity test_32a couldn't stop ost and mds because it
194              tried to access non-existent peer and tcp connect took
195              quite long before timing out.
196
197 Severity   : major
198 Bugzilla   : 16338
199 Description: Continuous recovery on 33 of 413 nodes after lustre oss failure
200 Details    : Lost reference on conn prevents peer from being destroyed, which
201              could prevent new peer creation if peer count has reached upper
202              limit.
203
204 Severity   : normal
205 Bugzilla   : 16102
206 Description: LNET Selftest results in Soft lockup on OSS CPU
207 Details    : only hits when 8 or more o2ib clients involved and a session is
208              torn down with 'lst end_session' without preceeding 'lst stop'.
209
210 Severity   : minor
211 Bugzilla   : 16321
212 Description: concurrent_sends in IB LNDs should not be changeable at run time
213 Details    : concurrent_sends in IB LNDs should not be changeable at run time
214
215 Severity   : normal
216 Bugzilla   : 15272
217 Description: ptl_send_rpc hits LASSERT when ptl_send_buf fails
218 Details    : only hits under out-of-memory situations
219
220
221 -------------------------------------------------------------------------------
222
223 2009-02-07 Sun Microsystems, Inc.
224         * version 1.6.7
225         * Support for networks:
226          socklnd   - any kernel supported by Lustre,
227          qswlnd    - Qsnet kernel modules 5.20 and later,
228          openiblnd - IbGold 1.8.2,
229          o2iblnd   - OFED 1.1, 1.2.0, 1.2.5, and 1.3
230          viblnd    - Voltaire ibhost 3.4.5 and later,
231          ciblnd    - Topspin 3.2.0,
232          iiblnd    - Infiniserv 3.3 + PathBits patch,
233          gmlnd     - GM 2.1.22 and later,
234          mxlnd     - MX 1.2.1 or later,
235          ptllnd    - Portals 3.3 / UNICOS/lc 1.5.x, 2.0.x
236 Severity   : major
237 Bugzilla   : 15983
238 Description: workaround for OOM from o2iblnd
239 Details    : OFED needs allocate big chunk of memory for QP while creating
240              connection for o2iblnd, OOM can happen if no such a contiguous
241              memory chunk.
242              QP size is decided by concurrent_sends and max_fragments of
243              o2iblnd, now we permit user to specify smaller value for
244              concurrent_sends of o2iblnd(i.e: concurrent_sends=7), which
245              will decrease memory block size required by creating QP.
246
247 Severity   : major
248 Bugzilla   : 15093
249 Description: Support Zerocopy receive of Chelsio device
250 Details    : Chelsio driver can support zerocopy for iov[1] if it's
251              contiguous and large enough.
252 Severity   : normal
253 Bugzilla   : 13490
254 Description: fix credit flow deadlock in uptllnd
255
256 Severity   : normal
257 Bugzilla   : 16308
258 Description: finalize network operation in reasonable time
259 Details    : conf-sanity test_32a couldn't stop ost and mds because it
260              tried to access non-existent peer and tcp connect took
261              quite long before timing out.
262
263 Severity   : major
264 Bugzilla   : 16338
265 Description: Continuous recovery on 33 of 413 nodes after lustre oss failure
266 Details    : Lost reference on conn prevents peer from being destroyed, which
267              could prevent new peer creation if peer count has reached upper
268              limit.
269
270 Severity   : normal
271 Bugzilla   : 16102
272 Description: LNET Selftest results in Soft lockup on OSS CPU
273 Details    : only hits when 8 or more o2ib clients involved and a session is
274              torn down with 'lst end_session' without preceeding 'lst stop'.
275
276 Severity   : minor
277 Bugzilla   : 16321
278 Description: concurrent_sends in IB LNDs should not be changeable at run time
279 Details    : concurrent_sends in IB LNDs should not be changeable at run time
280
281 -------------------------------------------------------------------------------
282
283 11-03-2008  Sun Microsystems, Inc.
284         * version 1.6.6
285         * Support for networks:
286          socklnd   - any kernel supported by Lustre,
287          qswlnd    - Qsnet kernel modules 5.20 and later,
288          openiblnd - IbGold 1.8.2,
289          o2iblnd   - OFED 1.1, 1.2.0, 1.2.5, and 1.3
290          viblnd    - Voltaire ibhost 3.4.5 and later,
291          ciblnd    - Topspin 3.2.0,
292          iiblnd    - Infiniserv 3.3 + PathBits patch,
293          gmlnd     - GM 2.1.22 and later,
294          mxlnd     - MX 1.2.1 or later,
295          ptllnd    - Portals 3.3 / UNICOS/lc 1.5.x, 2.0.x
296
297 Severity   : normal
298 Bugzilla   : 15272
299 Description: ptl_send_rpc hits LASSERT when ptl_send_buf fails
300 Details    : only hits under out-of-memory situations
301
302 -------------------------------------------------------------------------------
303
304 04-26-2008  Sun Microsystems, Inc.
305        * version 1.6.5
306        * Support for networks:
307         socklnd   - any kernel supported by Lustre,
308         qswlnd    - Qsnet kernel modules 5.20 and later,
309         openiblnd - IbGold 1.8.2,
310         o2iblnd   - OFED 1.1 and 1.2.0, 1.2.5
311         viblnd    - Voltaire ibhost 3.4.5 and later,
312         ciblnd    - Topspin 3.2.0,
313         iiblnd    - Infiniserv 3.3 + PathBits patch,
314         gmlnd     - GM 2.1.22 and later,
315         mxlnd     - MX 1.2.1 or later,
316         ptllnd    - Portals 3.3 / UNICOS/lc 1.5.x, 2.0.x
317
318 Severity   : normal
319 Bugzilla   : 14322
320 Description: excessive debug information removed
321 Details    : excessive debug information removed
322
323 Severity   : major
324 Bugzilla   : 15712
325 Description: ksocknal_create_conn() hit ASSERTION during connection race
326 Details    : ksocknal_create_conn() hit ASSERTION during connection race
327
328 Severity   : major
329 Bugzilla   : 13983
330 Description: ksocknal_send_hello() hit ASSERTION while connecting race
331 Details    : ksocknal_send_hello() hit ASSERTION while connecting race
332
333 Severity   : major
334 Bugzilla   : 14425
335 Description: o2iblnd/ptllnd credit deadlock in a routed config.
336 Details    : o2iblnd/ptllnd credit deadlock in a routed config.
337
338 Severity   : normal
339 Bugzilla   : 14956
340 Description: High load after starting lnet
341 Details    : gmlnd should sleep in rx thread in interruptible way. Otherwise,
342              uptime utility reports high load that looks confusingly.
343
344 Severity   : normal
345 Bugzilla   : 14838
346 Description: ksocklnd fails to establish connection if accept_port is high
347 Details    : PID remapping must not be done for active (outgoing) connections
348
349
350 --------------------------------------------------------------------------------
351
352 2008-01-11  Sun Microsystems, Inc.
353        * version 1.4.12
354        * Support for networks:
355         socklnd   - any kernel supported by Lustre,
356         qswlnd    - Qsnet kernel modules 5.20 and later,
357         openiblnd - IbGold 1.8.2,
358         o2iblnd   - OFED 1.1 and 1.2.0, 1.2.5
359         viblnd    - Voltaire ibhost 3.4.5 and later,
360         ciblnd    - Topspin 3.2.0,
361         iiblnd    - Infiniserv 3.3 + PathBits patch,
362         gmlnd     - GM 2.1.22 and later,
363         mxlnd     - MX 1.2.1 or later,
364         ptllnd    - Portals 3.3 / UNICOS/lc 1.5.x, 2.0.x
365
366 Severity   : normal
367 Bugzilla   : 14387
368 Description: liblustre network error
369 Details    : liblustre clients should understand LNET_ACCEPT_PORT environment
370              variable even if they don't start lnet acceptor.
371
372 Severity   : normal
373 Bugzilla   : 14300
374 Description: Strange message from lnet (Ignoring prediction from the future)
375 Details    : Incorrect calculation of peer's last_alive value in ksocklnd
376
377 --------------------------------------------------------------------------------
378
379 2007-12-07         Cluster File Systems, Inc. <info@clusterfs.com>
380        * version 1.6.4
381        * Support for networks:
382         socklnd   - any kernel supported by Lustre,
383         qswlnd    - Qsnet kernel modules 5.20 and later,
384         openiblnd - IbGold 1.8.2,
385         o2iblnd   - OFED 1.1 and 1.2.0, 1.2.5.
386         viblnd    - Voltaire ibhost 3.4.5 and later,
387         ciblnd    - Topspin 3.2.0,
388         iiblnd    - Infiniserv 3.3 + PathBits patch,
389         gmlnd     - GM 2.1.22 and later,
390         mxlnd     - MX 1.2.1 or later,
391         ptllnd    - Portals 3.3 / UNICOS/lc 1.5.x, 2.0.x
392
393 Severity   : normal
394 Bugzilla   : 14238
395 Description: ASSERTION(me == md->md_me) failed in lnet_match_md()
396
397 Severity   : normal
398 Bugzilla   : 12494
399 Description: increase send queue size for ciblnd/openiblnd
400
401 Severity   : normal
402 Bugzilla   : 12302
403 Description: new userspace socklnd
404 Details    : Old userspace tcpnal that resided in lnet/ulnds/socklnd replaced
405              with new one - usocklnd.
406
407 Severity   : enhancement
408 Bugzilla   : 11686
409 Description: Console message flood
410 Details    : Make cdls ratelimiting more tunable by adding several tunable in
411              procfs /proc/sys/lnet/console_{min,max}_delay_centisecs and
412              /proc/sys/lnet/console_backoff.
413
414 --------------------------------------------------------------------------------
415
416 2007-09-27         Cluster File Systems, Inc. <info@clusterfs.com>
417        * version 1.6.3
418        * Support for networks:
419         socklnd   - any kernel supported by Lustre,
420         qswlnd    - Qsnet kernel modules 5.20 and later,
421         openiblnd - IbGold 1.8.2,
422         o2iblnd   - OFED 1.1 and 1.2,
423         viblnd    - Voltaire ibhost 3.4.5 and later,
424         ciblnd    - Topspin 3.2.0,
425         iiblnd    - Infiniserv 3.3 + PathBits patch,
426         gmlnd     - GM 2.1.22 and later,
427         mxlnd     - MX 1.2.1 or later,
428         ptllnd    - Portals 3.3 / UNICOS/lc 1.5.x, 2.0.x
429
430 Severity   : normal
431 Bugzilla   : 12782
432 Description: /proc/sys/lnet has non-sysctl entries
433 Details    : Updating dump_kernel/daemon_file/debug_mb to use sysctl variables
434
435 Severity   : major
436 Bugzilla   : 13236
437 Description: TOE Kernel panic by ksocklnd
438 Details    : offloaded sockets provide their own implementation of sendpage,
439              can't call tcp_sendpage() directly
440
441 Severity   : normal
442 Bugzilla   : 10778
443 Description: kibnal_shutdown() doesn't finish; lconf --cleanup hangs
444 Details    : races between lnd_shutdown and peer creation prevent 
445              lnd_shutdown from finishing.
446
447 Severity   : normal
448 Bugzilla   : 13279
449 Description: open files rlimit 1024 reached while liblustre testing
450 Details    : ulnds/socklnd must close open socket after unsuccessful
451              'say hello' attempt.
452
453 Severity   : major 
454 Bugzilla   : 13482
455 Description: build error
456 Details    : fix typos in gmlnd, ptllnd and viblnd
457
458 --------------------------------------------------------------------------------
459
460 2007-07-30  Cluster File Systems, Inc. <info@clusterfs.com>
461        * version 1.6.1
462        * Support for networks:
463         socklnd   - kernels up to 2.6.16,
464         qswlnd    - Qsnet kernel modules 5.20 and later,
465         openiblnd - IbGold 1.8.2,
466         o2iblnd   - OFED 1.1 and 1.2
467         viblnd    - Voltaire ibhost 3.4.5 and later,
468         ciblnd    - Topspin 3.2.0,
469         iiblnd    - Infiniserv 3.3 + PathBits patch,
470         gmlnd     - GM 2.1.22 and later,
471         mxlnd     - MX 1.2.1 or later,
472         ptllnd    - Portals 3.3 / UNICOS/lc 1.5.x, 2.0.x
473
474 --------------------------------------------------------------------------------
475
476 2007-06-21  Cluster File Systems, Inc. <info@clusterfs.com>
477        * version 1.4.11
478        * Support for networks:
479         socklnd   - kernels up to 2.6.16,
480         qswlnd    - Qsnet kernel modules 5.20 and later,
481         openiblnd - IbGold 1.8.2,
482         o2iblnd   - OFED 1.1
483         viblnd    - Voltaire ibhost 3.4.5 and later,
484         ciblnd    - Topspin 3.2.0,
485         iiblnd    - Infiniserv 3.3 + PathBits patch,
486         gmlnd     - GM 2.1.22 and later,
487         mxlnd     - MX 1.2.1 or later,
488         ptllnd    - Portals 3.3 / UNICOS/lc 1.5.x, 2.0.x
489
490 Severity   : minor
491 Bugzilla   : 13288
492 Description: Initialize cpumask before use
493
494 Severity   : major
495 Bugzilla   : 12014
496 Description: ASSERTION failures when upgrading to the patchless zero-copy
497              socklnd 
498 Details    : This bug affects "rolling upgrades", causing an inconsistent
499              protocol version negotiation and subsequent assertion failure
500              during rolling upgrades after the first wave of upgrades.
501
502 Severity   : minor
503 Bugzilla   : 11223
504 Details    : Change "dropped message" CERRORs to D_NETERROR so they are
505              logged instead of creating "console chatter" when a lustre
506              timeout races with normal RPC completion.
507
508 Severity   : minor
509 Details    : lnet_clear_peer_table can wait forever if user forgets to
510              clear a lazy portal.
511
512 Severity   : minor
513 Details    : libcfs_id2str should check pid against LNET_PID_ANY.
514
515 Severity   : major
516 Bugzilla   : 10916
517 Description: added LNET self test
518 Details    : landing b_self_test
519
520 Severity   : minor
521 Frequency  : rare
522 Bugzilla   : 12227
523 Description: cfs_duration_{u,n}sec() wrongly calculate nanosecond part of
524              struct timeval.
525 Details    : do_div() macro is used incorrectly.
526
527 2007-04-23  Cluster File Systems, Inc. <info@clusterfs.com>
528
529 Severity   : normal
530 Bugzilla   : 11680
531 Description: make panic on lbug configurable
532
533 Severity   : major
534 Bugzilla   : 12316
535 Description: Add OFED1.2 support to o2iblnd
536 Details    : o2iblnd depends on OFED's modules, if out-tree OFED's modules
537              are installed (other than kernel's in-tree infiniband), there
538              could be some problem while insmod o2iblnd (mismatch CRC of 
539              ib_* symbols).
540              If extra Module.symvers is supported in kernel (i.e, 2.6.17),
541              this link provides solution:
542              https://bugs.openfabrics.org/show_bug.cgi?id=355
543              if extra Module.symvers is not supported in kernel, we will
544              have to run the script in bug 12316 to update
545              $LINUX/module.symvers before building o2iblnd.
546              More details about this are in bug 12316.
547
548 ------------------------------------------------------------------------------
549
550 2007-04-01  Cluster File Systems, Inc. <info@clusterfs.com>
551        * version 1.4.10 / 1.6.0
552        * Support for networks:
553         socklnd   - kernels up to 2.6.16,
554         qswlnd    - Qsnet kernel modules 5.20 and later,
555         openiblnd - IbGold 1.8.2,
556         o2iblnd   - OFED 1.1,
557         viblnd    - Voltaire ibhost 3.4.5 and later,
558         ciblnd    - Topspin 3.2.0,
559         iiblnd    - Infiniserv 3.3 + PathBits patch,
560         gmlnd     - GM 2.1.22 and later,
561         mxlnd     - MX 1.2.1 or later,
562         ptllnd    - Portals 3.3 / UNICOS/lc 1.5.x, 2.0.x
563         
564 Severity   : minor
565 Frequency  : rare
566 Description: Ptllnd didn't init kptllnd_data.kptl_idle_txs before it could be
567              possibly accessed in kptllnd_shutdown. Ptllnd should init 
568              kptllnd_data.kptl_ptlid2str_lock before calling kptllnd_ptlid2str.
569
570 Severity   : normal
571 Frequency  : rare
572 Description: gmlnd ignored some transmit errors when finalizing lnet messages.
573
574 Severity   : minor
575 Frequency  : rare
576 Description: ptllnd logs a piece of incorrect debug info in kptllnd_peer_handle_hello.
577
578 Severity   : minor
579 Frequency  : rare
580 Description: the_lnet.ln_finalizing was not set when the current thread is
581              about to complete messages. It only affects multi-threaded 
582              user space LNet.
583         
584 Severity   : normal
585 Frequency  : rare
586 Bugzilla   : 11472
587 Description: Changed the default kqswlnd ntxmsg=512
588         
589 Severity   : major
590 Frequency  : rare
591 Bugzilla   : 12458
592 Description: Assertion failure in kernel ptllnd caused by posting passive
593              bulk buffers before connection establishment complete.
594         
595 Severity   : major
596 Frequency  : rare
597 Bugzilla   : 12445
598 Description: A race in kernel ptllnd between deleting a peer and posting
599              new communications for it could hang communications -
600              manifesting as "Unexpectedly long timeout" messages.
601         
602 Severity   : major
603 Frequency  : rare
604 Bugzilla   : 12432
605 Description: Kernel ptllnd lock ordering issue could hang a node.
606         
607 Severity   : major
608 Frequency  : rare
609 Bugzilla   : 12016
610 Description: node crash on socket teardown race
611
612 Severity   : minor
613 Frequency  : 'lctl peer_list' issued on a mx net
614 Bugzilla   : 12237
615 Description: Enable lctl's peer_list for MXLND
616
617 Severity   : major
618 Frequency  : after Ptllnd timeouts and portals congestion
619 Bugzilla   : 11659
620 Description: Credit overflows
621 Details    : This was a bug in ptllnd connection establishment.  The fix
622              implements better peer stamps to disambiguate connection
623              establishment and ensure both peers enter the credit flow
624              state machine consistently.
625
626 Severity   : major
627 Frequency  : rare       
628 Bugzilla   : 11394
629 Description: kptllnd didn't propagate some network errors up to LNET 
630 Details    : This bug was spotted while investigating 11394.  The fix
631              ensures network errors on sends and bulk transfers are
632              propagated to LNET/lustre correctly.
633
634 Severity   : enhancement
635 Bugzilla   : 10316
636 Description: Fixed console chatter in case of -ETIMEDOUT.
637
638 Severity   : enhancement
639 Bugzilla   : 11684
640 Description: Added D_NETTRACE for recording network packet history
641              (initially only for ptllnd).  Also a separate userspace
642              ptllnd facility to gather history which should really be
643              covered by D_NETTRACE too, if only CDEBUG recorded history in
644              userspace.
645
646 Severity   : major
647 Frequency  : rare       
648 Bugzilla   : 11616
649 Description: o2iblnd handle early RDMA_CM_EVENT_DISCONNECTED.
650 Details    : If the fabric is lossy, an RDMA_CM_EVENT_DISCONNECTED
651              callback can occur before a connection has actually been
652              established.  This caused an assertion failure previously.
653
654 Severity   : enhancement
655 Bugzilla   : 11094
656 Description: Multiple instances for o2iblnd
657 Details    : Allow multiple instances of o2iblnd to enable networking over
658              multiple HCAs and routing between them.
659
660 Severity   : major
661 Bugzilla   : 11201
662 Description: lnet deadlock in router_checker
663 Details    : turned ksnd_connd_lock, ksnd_reaper_lock, and ksock_net_t:ksnd_lock
664              into BH locks to eliminate potential deadlock caused by
665              ksocknal_data_ready() preempting code holding these locks.
666
667 Severity   : major
668 Bugzilla   : 11126
669 Description: Millions of failed socklnd connection attempts cause a very slow FS
670 Details    : added a new route flag ksnr_scheduled to distinguish from
671              ksnr_connecting, so that a peer connection request is only turned
672              down for race concerns when an active connection to the same peer
673              is under progress (instead of just being scheduled).
674
675 ------------------------------------------------------------------------------
676
677 2007-02-09  Cluster File Systems, Inc. <info@clusterfs.com>
678        * version 1.4.9
679        * Support for networks:
680         socklnd   - kernels up to 2.6.16
681         qswlnd    - Qsnet kernel modules 5.20 and later
682         openiblnd - IbGold 1.8.2
683         o2iblnd   - OFED 1.1
684         viblnd    - Voltaire ibhost 3.4.5 and later
685         ciblnd    - Topspin 3.2.0
686         iiblnd    - Infiniserv 3.3 + PathBits patch
687         gmlnd     - GM 2.1.22 and later
688         mxlnd     - MX 1.2.1 or later
689         ptllnd    - Portals 3.3 / UNICOS/lc 1.5.x, 2.0.x
690        * bug fixes
691
692 Severity   : major on XT3
693 Bugzilla   : none
694 Description: libcfs overwrites /proc/sys/portals
695 Details    : libcfs created a symlink from /proc/sys/portals to
696              /proc/sys/lnet for backwards compatibility.  This is no
697              longer required and makes the Cray portals /proc variables
698              inaccessible.
699
700 Severity   : minor
701 Bugzilla   : 11312
702 Description: OFED FMR API change
703 Details    : This changes parameter usage to reflect a change in
704              ib_fmr_pool_map_phys() between OFED 1.0 and OFED 1.1.  Note
705              that FMR support is only used in experimental versions of the
706              o2iblnd - this change does not affect standard usage at all.
707
708 Severity   : enhancement
709 Bugzilla   : 11245
710 Description: new ko2iblnd module parameter: ib_mtu
711 Details    : the default IB MTU of 2048 performs badly on 23108 Tavor
712              HCAs.  You can avoid this problem by setting the MTU to 1024
713              using this module parameter.
714
715 Severity   : enhancement
716 Bugzilla   : 11118/11620
717 Description: ptllnd small request message buffer alignment fix
718 Details    : Set the PTL_MD_LOCAL_ALIGN8 option on small message receives.
719              Round up small message size on sends in case this option
720              is not supported.  11620 was a defect in the initial
721              implementation which effectively asserted all peers had to be
722              running the correct protocol version which was fixed by always
723              NAK-ing such requests and handling any misalignments they
724              introduce.
725
726 Severity   : minor
727 Frequency  : rarely
728 Description: When kib(nal|lnd)_del_peer() is called upon a peer whose
729              ibp_tx_queue is not empty, kib(nal|lnd)_destroy_peer()'s
730              'LASSERT(list_empty(&peer->ibp_tx_queue))' will fail.
731
732 Severity   : enhancement
733 Bugzilla   : 11250
734 Description: Patchless ZC(zero copy) socklnd
735 Details    : New protocol for socklnd, socklnd can support zero copy without
736              kernel patch, it's compatible with old socklnd. Checksum is 
737              moved from tunables to modparams.
738
739 Severity   : minor
740 Frequency  : rarely
741 Description: When ksocknal_del_peer() is called upon a peer whose
742              ksnp_tx_queue is not empty, ksocknal_destroy_peer()'s
743              'LASSERT(list_empty(&peer->ksnp_tx_queue))' will fail.
744
745 Severity   : normal
746 Frequency  : when ptlrpc is under heavy use and runs out of request buffer
747 Bugzilla   : 11318
748 Description: In lnet_match_blocked_msg(), md can be used without holding a
749              ref on it.
750
751 Severity   : minor
752 Frequency  : very rarely
753 Bugzilla   : 10727
754 Description: If ksocknal_lib_setup_sock() fails, a ref on peer is lost.
755              If connd connects a route which has been closed by
756              ksocknal_shutdown(), ksocknal_create_routes() may create new
757              routes which hold references on the peer, causing shutdown
758              process to wait for peer to disappear forever.
759
760 Severity   : enhancement
761 Bugzilla   : 11234
762 Description: Dump XT3 portals traces on kptllnd timeout
763 Details    : Set the kptllnd module parameter "ptltrace_on_timeout=1" to
764              dump Cray portals debug traces to a file.  The kptllnd module
765              parameter "ptltrace_basename", default "/tmp/lnet-ptltrace",
766              is the basename of the dump file.
767
768 Severity   : major
769 Frequency  : infrequent
770 Bugzilla   : 11308
771 Description: kernel ptllnd fix bug in connection re-establishment
772 Details    : Kernel ptllnd could produce protocol errors e.g. illegal
773              matchbits and/or violate the credit flow protocol when trying
774              to re-establish a connection with a peer after an error or
775              timeout. 
776
777 Severity   : enhancement
778 Bugzilla   : 10316
779 Description: Allow /proc/sys/lnet/debug to be set symbolically
780 Details    : Allow debug and subsystem debug values to be read/set by name
781              in addition to numerically, for ease of use.
782
783 Severity   : normal
784 Frequency  : only in configurations with LNET routers
785 Bugzilla   : 10316
786 Description: routes automatically marked down and recovered
787 Details    : In configurations with LNET routers if a router fails routers
788              now actively try to recover routes that are down, unless they
789              are marked down by an administrator.
790
791 ------------------------------------------------------------------------------
792
793 2006-12-09  Cluster File Systems, Inc. <info@clusterfs.com>
794
795 Severity   : critical
796 Frequency  : very rarely, in configurations with LNET routers and TCP
797 Bugzilla   : 10889
798 Description: incorrect data written to files on OSTs
799 Details    : In certain high-load conditions incorrect data may be written
800              to files on the OST when using TCP networks.
801
802 ------------------------------------------------------------------------------
803
804 2006-07-31  Cluster File Systems, Inc. <info@clusterfs.com>
805         * version 1.4.7
806         - rework CDEBUG messages rate-limiting mechanism b=10375
807         - add per-socket tunables for socklnd if the kernel is patched b=10327
808
809 ------------------------------------------------------------------------------
810
811 2006-02-15  Cluster File Systems, Inc. <info@clusterfs.com>
812         * version 1.4.6
813         - fix use of portals/lnet pid to avoid dropping RPCs b=10074
814         - iiblnd wasn't mapping all memory, resulting in comms errors b=9776
815         - quiet LNET startup LNI message for liblustre b=10128
816         - Better console error messages if 'ip2nets' can't match an IP address
817         - Fixed overflow/use-before-set bugs in linux-time.h
818         - Fixed ptllnd bug that wasn't initialising rx descriptors completely
819         - LNET teardown failed an assertion about the route table being empty
820         - Fixed a crash in LNetEQPoll(<invalid handle>)
821         - Future protocol compatibility work (b_rls146_lnetprotovrsn)
822         - improve debug message for liblustre/Catamount nodes (b=10116)
823
824 2005-10-10  Cluster File Systems, Inc. <info@clusterfs.com>
825         * Configuration change for the XT3
826              The PTLLND is now used to run Lustre over Portals on the XT3.
827              The configure option(s) --with-cray-portals are no longer
828              used.  Rather --with-portals=<path-to-portals-includes> is
829              used to enable building on the XT3.  In addition to enable
830              XT3 specific features the option --enable-cray-xt3 must be
831              used.
832
833 2005-10-10  Cluster File Systems, Inc. <info@clusterfs.com>
834         * Portals has been removed, replaced by LNET.
835            LNET is new networking infrastructure for Lustre, it includes a
836            reorganized network configuration mode (see the user
837            documentation for full details) as well as support for routing
838            between different network fabrics.  Lustre Networking Devices
839            (LNDS) for the supported network fabrics have also been created
840            for this new infrastructure.
841
842 2005-08-08  Cluster File Systems, Inc. <info@clusterfs.com>
843        * version 1.4.4
844        * bug fixes
845
846 Severity   : major
847 Frequency  : rare (large Voltaire clusters only)
848 Bugzilla   : 6993
849 Description: the default number of reserved transmit descriptors was too low
850              for some large clusters
851 Details    : As a workaround, the number was increased.  A proper fix includes
852              a run-time tunable.
853
854 2005-06-02  Cluster File Systems, Inc. <info@clusterfs.com>
855        * version 1.4.3
856        * bug fixes
857
858 Severity   : major
859 Frequency  : occasional (large-scale events, cluster reboot, network failure)
860 Bugzilla   : 6411
861 Description: too many error messages on console obscure actual problem and
862              can slow down/panic server, or cause recovery to fail repeatedly
863 Details    : enable rate-limiting of console error messages, and some messages
864              that were console errors now only go to the kernel log
865
866 Severity   : enhancement
867 Bugzilla   : 1693
868 Description: add /proc/sys/portals/catastrophe entry which will report if
869              that node has previously LBUGged
870
871 2005-04-06  Cluster File Systems, Inc. <info@clusterfs.com>
872        * bugs
873         - update gmnal to use PTL_MTU, fix module refcounting (b=5786)
874
875 2005-04-04  Cluster File Systems, Inc. <info@clusterfs.com>
876        * bugs
877         - handle error return code in kranal_check_fma_rx() (5915,6054)
878
879 2005-02-04  Cluster File Systems, Inc. <info@clusterfs.com>
880        * miscellania
881         - update vibnal (Voltaire IB NAL)
882         - update gmnal (Myrinet NAL), gmnalid
883
884 2005-02-04  Eric Barton  <eeb@bartonsoftware.com>
885
886         * Landed portals:b_port_step as follows...
887
888           - removed CFS_DECL_SPIN* 
889             just use 'spinlock_t' and initialise with spin_lock_init()
890
891           - removed CFS_DECL_MUTEX*
892             just use 'struct semaphore' and initialise with init_mutex()
893
894           - removed CFS_DECL_RWSEM*
895             just use 'struct rw_semaphore' and initialise with init_rwsem()
896
897           - renamed cfs_sleep_chan -> cfs_waitq
898                     cfs_sleep_link -> cfs_waitlink
899
900           - fixed race in linux version of arch-independent socknal
901             (the ENOMEM/EAGAIN decision).
902
903           - Didn't fix problems in Darwin version of arch-independent socknal
904             (resetting socket callbacks, eager ack hack, ENOMEM/EAGAIN decision)
905
906           - removed libcfs types from non-socknal header files (only some types
907             in the header files had been changed; the .c files hadn't been
908             updated at all).