Whamcloud - gitweb
Branch HEAD
[fs/lustre-release.git] / lnet / ChangeLog
1 tbd  Sun Microsystems, Inc.
2         * version 2.0.0
3         * Support for networks:
4          socklnd   - any kernel supported by Lustre,
5          qswlnd    - Qsnet kernel modules 5.20 and later,
6          openiblnd - IbGold 1.8.2,
7          o2iblnd   - OFED 1.1, 1.2.0, 1.2.5, 1.3, and 1.4.1
8          viblnd    - Voltaire ibhost 3.4.5 and later,
9          ciblnd    - Topspin 3.2.0,
10          iiblnd    - Infiniserv 3.3 + PathBits patch,
11          gmlnd     - GM 2.1.22 and later,
12          mxlnd     - MX 1.2.1 or later,
13          ptllnd    - Portals 3.3 / UNICOS/lc 1.5.x, 2.0.x
14
15 Severity   : 
16 Bugzilla   : 
17 Description: 
18 Details    : 
19
20 Severity   : normal
21 Bugzilla   : 17546
22 Description: kptllnd HELLO protocol deadlock
23 Details    : kptllnd HELLO protocol doesn't run to completion in finite time
24
25 Severity   : normal
26 Bugzilla   : 18075
27 Description: LNet selftest fixes and enhancements
28
29 Severity   : enhancement
30 Bugzilla   : 19156
31 Description: allow a test node to be a member of multiple test groups
32
33 Severity   : enhancement
34 Bugzilla   : 18654
35 Description: MXLND: eliminate hosts file, use arp for peer nic_id resolution
36 Details    : an update from the upstream developer Scott Atchley.
37
38 Severity   : enhancement
39 Bugzilla   : 15332
40 Description: add a new LND optiion to control peer buffer credits on routers
41
42 Severity   : normal
43 Bugzilla   : 18844
44 Description: Fixing deadlock in usocklnd
45 Details    : A deadlock was possible in usocklnd due to race condition while
46              tearing connection down. The problem resulted from erroneous
47              assumption that lnet_finalize() could have been called holding
48              some lnd-level locks.
49
50 Severity   : major
51 Bugzilla   : 13621, 15983
52 Description: Protocol V2 of o2iblnd
53 Details    : o2iblnd V2 has several new features:
54              . map-on-demand: map-on-demand is disabled by default, it can
55                be enabled by using modparam "map_on_demand=@value@", @value@
56                should >= 0 and < 256, 0 will disable map-on-demand, any other
57                valid value will enable map-on-demand. 
58                Oi2blnd will create FMR or physical MR for RDMA if fragments of
59                RD > @value@.
60                Enable map-on-demand will take less memory for new connection,
61                but a little more CPU for RDMA.
62              . iWARP : to support iWARP, please enable map-on-demand, 32 and 64
63                are recommanded value. iWARP will probably fail for value >=128.
64              . OOB NOOP message: to resolve deadlock on router.
65              . tunable peer_credits_hiw: (high water to return credits),
66                default value of peer_credits_hiw equals to (peer_credits -1),
67                user can change it between peer_credits/2 and (peer_credits - 1).
68                Lower value is recommended for high latency network.
69              . tunable message queue size: it always equals to peer_credits,
70                higher value is recommended for high latency network.
71              . It's compatible with earlier version of o2iblnd
72
73 Severity   : normal
74 Bugzilla   : 18414
75 Description: Fixing 'running out of ports' issue
76 Details    : Add a delay before next reconnect attempt in ksocklnd in
77              the case of lost race. Limit the frequency of query-requests
78              in lnet. Improved handling of 'dead peer' notifications in
79              lnet.
80
81 Severity   : normal
82 Bugzilla   : 16034
83 Description: Change ptllnd timeout and watchdog timers
84 Details    : Add ptltrace_on_nal_failed and bump ptllnd timeout to match
85              Portals wire timeout.
86
87 Severity   : normal
88 Bugzilla   : 16186
89 Description: One down Lustre FS hangs ALL mounted Lustre filesystems
90 Details    : Shared routing enhancements - peer health detection.
91
92 Severity   : enhancement
93 Bugzilla   : 14132
94 Description: acceptor.c cleanup
95 Details    : Code duplication in acceptor.c for the cases of kernel and
96              user-space removed. User-space libcfs tcpip primitives
97              uniformed to have prototypes similar to kernel ones. Minor
98              cosmetic changes in usocklnd to use cfs_socket_t as
99              representation of socket.
100
101 Severity   : minor
102 Bugzilla   : 11245
103 Description: IB path MTU mistakenly set to 1st path MTU when ib_mtu is off
104 Details    : See comment 46 in bug 11245 for details - it's indeed a bug
105              introduced by the original 11245 fix.
106
107 Severity   : minor
108 Bugzilla   : 15984
109 Description: uptllnd credit overflow fix
110 Details    : kptl_msg_t::ptlm_credits could be overflown by uptllnd since
111              it is only a __u8.
112
113 Severity   : major
114 Bugzilla   : 14634
115 Description: socklnd protocol version 3
116 Details    : With current protocol V2, connections on router can be
117              blocked and can't receive any incoming messages when there is no
118              more router buffer, so ZC-ACK can't be handled (LNet message
119              can't be finalized) and will cause deadlock on router.
120              Protocol V3 has a dedicated connection for emergency messages
121              like ZC-ACK to router, messages on this dedicated connection
122              don't need any credit so will never be blocked. Also, V3 can send
123              keepalive ping in specified period for router healthy checking.
124
125 -------------------------------------------------------------------------------
126
127 12-31-2008  Sun Microsystems, Inc.
128         * version 1.8.0
129         * Support for networks:
130          socklnd   - any kernel supported by Lustre,
131          qswlnd    - Qsnet kernel modules 5.20 and later,
132          openiblnd - IbGold 1.8.2,
133          o2iblnd   - OFED 1.1, 1.2.0, 1.2.5, and 1.3
134          viblnd    - Voltaire ibhost 3.4.5 and later,
135          ciblnd    - Topspin 3.2.0,
136          iiblnd    - Infiniserv 3.3 + PathBits patch,
137          gmlnd     - GM 2.1.22 and later,
138          mxlnd     - MX 1.2.1 or later,
139          ptllnd    - Portals 3.3 / UNICOS/lc 1.5.x, 2.0.x
140
141 Severity   : major
142 Bugzilla   : 15983
143 Description: workaround for OOM from o2iblnd
144 Details    : OFED needs allocate big chunk of memory for QP while creating
145              connection for o2iblnd, OOM can happen if no such a contiguous
146              memory chunk.
147              QP size is decided by concurrent_sends and max_fragments of
148              o2iblnd, now we permit user to specify smaller value for
149              concurrent_sends of o2iblnd(i.e: concurrent_sends=7), which
150              will decrease memory block size required by creating QP.
151
152 Severity   : major
153 Bugzilla   : 15093
154 Description: Support Zerocopy receive of Chelsio device
155 Details    : Chelsio driver can support zerocopy for iov[1] if it's
156              contiguous and large enough.
157
158 Severity   : normal
159 Bugzilla   : 13490
160 Description: fix credit flow deadlock in uptllnd
161
162 Severity   : normal
163 Bugzilla   : 16308
164 Description: finalize network operation in reasonable time
165 Details    : conf-sanity test_32a couldn't stop ost and mds because it
166              tried to access non-existent peer and tcp connect took
167              quite long before timing out.
168
169 Severity   : major
170 Bugzilla   : 16338
171 Description: Continuous recovery on 33 of 413 nodes after lustre oss failure
172 Details    : Lost reference on conn prevents peer from being destroyed, which
173              could prevent new peer creation if peer count has reached upper
174              limit.
175
176 Severity   : normal
177 Bugzilla   : 16102
178 Description: LNET Selftest results in Soft lockup on OSS CPU
179 Details    : only hits when 8 or more o2ib clients involved and a session is
180              torn down with 'lst end_session' without preceeding 'lst stop'.
181
182 Severity   : minor
183 Bugzilla   : 16321
184 Description: concurrent_sends in IB LNDs should not be changeable at run time
185 Details    : concurrent_sends in IB LNDs should not be changeable at run time
186
187 Severity   : normal
188 Bugzilla   : 15272
189 Description: ptl_send_rpc hits LASSERT when ptl_send_buf fails
190 Details    : only hits under out-of-memory situations
191
192
193 -------------------------------------------------------------------------------
194
195 2009-02-07 Sun Microsystems, Inc.
196         * version 1.6.7
197         * Support for networks:
198          socklnd   - any kernel supported by Lustre,
199          qswlnd    - Qsnet kernel modules 5.20 and later,
200          openiblnd - IbGold 1.8.2,
201          o2iblnd   - OFED 1.1, 1.2.0, 1.2.5, and 1.3
202          viblnd    - Voltaire ibhost 3.4.5 and later,
203          ciblnd    - Topspin 3.2.0,
204          iiblnd    - Infiniserv 3.3 + PathBits patch,
205          gmlnd     - GM 2.1.22 and later,
206          mxlnd     - MX 1.2.1 or later,
207          ptllnd    - Portals 3.3 / UNICOS/lc 1.5.x, 2.0.x
208 Severity   : major
209 Bugzilla   : 15983
210 Description: workaround for OOM from o2iblnd
211 Details    : OFED needs allocate big chunk of memory for QP while creating
212              connection for o2iblnd, OOM can happen if no such a contiguous
213              memory chunk.
214              QP size is decided by concurrent_sends and max_fragments of
215              o2iblnd, now we permit user to specify smaller value for
216              concurrent_sends of o2iblnd(i.e: concurrent_sends=7), which
217              will decrease memory block size required by creating QP.
218
219 Severity   : major
220 Bugzilla   : 15093
221 Description: Support Zerocopy receive of Chelsio device
222 Details    : Chelsio driver can support zerocopy for iov[1] if it's
223              contiguous and large enough.
224 Severity   : normal
225 Bugzilla   : 13490
226 Description: fix credit flow deadlock in uptllnd
227
228 Severity   : normal
229 Bugzilla   : 16308
230 Description: finalize network operation in reasonable time
231 Details    : conf-sanity test_32a couldn't stop ost and mds because it
232              tried to access non-existent peer and tcp connect took
233              quite long before timing out.
234
235 Severity   : major
236 Bugzilla   : 16338
237 Description: Continuous recovery on 33 of 413 nodes after lustre oss failure
238 Details    : Lost reference on conn prevents peer from being destroyed, which
239              could prevent new peer creation if peer count has reached upper
240              limit.
241
242 Severity   : normal
243 Bugzilla   : 16102
244 Description: LNET Selftest results in Soft lockup on OSS CPU
245 Details    : only hits when 8 or more o2ib clients involved and a session is
246              torn down with 'lst end_session' without preceeding 'lst stop'.
247
248 Severity   : minor
249 Bugzilla   : 16321
250 Description: concurrent_sends in IB LNDs should not be changeable at run time
251 Details    : concurrent_sends in IB LNDs should not be changeable at run time
252
253 -------------------------------------------------------------------------------
254
255 11-03-2008  Sun Microsystems, Inc.
256         * version 1.6.6
257         * Support for networks:
258          socklnd   - any kernel supported by Lustre,
259          qswlnd    - Qsnet kernel modules 5.20 and later,
260          openiblnd - IbGold 1.8.2,
261          o2iblnd   - OFED 1.1, 1.2.0, 1.2.5, and 1.3
262          viblnd    - Voltaire ibhost 3.4.5 and later,
263          ciblnd    - Topspin 3.2.0,
264          iiblnd    - Infiniserv 3.3 + PathBits patch,
265          gmlnd     - GM 2.1.22 and later,
266          mxlnd     - MX 1.2.1 or later,
267          ptllnd    - Portals 3.3 / UNICOS/lc 1.5.x, 2.0.x
268
269 Severity   : normal
270 Bugzilla   : 15272
271 Description: ptl_send_rpc hits LASSERT when ptl_send_buf fails
272 Details    : only hits under out-of-memory situations
273
274 -------------------------------------------------------------------------------
275
276 04-26-2008  Sun Microsystems, Inc.
277        * version 1.6.5
278        * Support for networks:
279         socklnd   - any kernel supported by Lustre,
280         qswlnd    - Qsnet kernel modules 5.20 and later,
281         openiblnd - IbGold 1.8.2,
282         o2iblnd   - OFED 1.1 and 1.2.0, 1.2.5
283         viblnd    - Voltaire ibhost 3.4.5 and later,
284         ciblnd    - Topspin 3.2.0,
285         iiblnd    - Infiniserv 3.3 + PathBits patch,
286         gmlnd     - GM 2.1.22 and later,
287         mxlnd     - MX 1.2.1 or later,
288         ptllnd    - Portals 3.3 / UNICOS/lc 1.5.x, 2.0.x
289
290 Severity   : normal
291 Bugzilla   : 14322
292 Description: excessive debug information removed
293 Details    : excessive debug information removed
294
295 Severity   : major
296 Bugzilla   : 15712
297 Description: ksocknal_create_conn() hit ASSERTION during connection race
298 Details    : ksocknal_create_conn() hit ASSERTION during connection race
299
300 Severity   : major
301 Bugzilla   : 13983
302 Description: ksocknal_send_hello() hit ASSERTION while connecting race
303 Details    : ksocknal_send_hello() hit ASSERTION while connecting race
304
305 Severity   : major
306 Bugzilla   : 14425
307 Description: o2iblnd/ptllnd credit deadlock in a routed config.
308 Details    : o2iblnd/ptllnd credit deadlock in a routed config.
309
310 Severity   : normal
311 Bugzilla   : 14956
312 Description: High load after starting lnet
313 Details    : gmlnd should sleep in rx thread in interruptible way. Otherwise,
314              uptime utility reports high load that looks confusingly.
315
316 Severity   : normal
317 Bugzilla   : 14838
318 Description: ksocklnd fails to establish connection if accept_port is high
319 Details    : PID remapping must not be done for active (outgoing) connections
320
321
322 --------------------------------------------------------------------------------
323
324 2008-01-11  Sun Microsystems, Inc.
325        * version 1.4.12
326        * Support for networks:
327         socklnd   - any kernel supported by Lustre,
328         qswlnd    - Qsnet kernel modules 5.20 and later,
329         openiblnd - IbGold 1.8.2,
330         o2iblnd   - OFED 1.1 and 1.2.0, 1.2.5
331         viblnd    - Voltaire ibhost 3.4.5 and later,
332         ciblnd    - Topspin 3.2.0,
333         iiblnd    - Infiniserv 3.3 + PathBits patch,
334         gmlnd     - GM 2.1.22 and later,
335         mxlnd     - MX 1.2.1 or later,
336         ptllnd    - Portals 3.3 / UNICOS/lc 1.5.x, 2.0.x
337
338 Severity   : normal
339 Bugzilla   : 14387
340 Description: liblustre network error
341 Details    : liblustre clients should understand LNET_ACCEPT_PORT environment
342              variable even if they don't start lnet acceptor.
343
344 Severity   : normal
345 Bugzilla   : 14300
346 Description: Strange message from lnet (Ignoring prediction from the future)
347 Details    : Incorrect calculation of peer's last_alive value in ksocklnd
348
349 --------------------------------------------------------------------------------
350
351 2007-12-07         Cluster File Systems, Inc. <info@clusterfs.com>
352        * version 1.6.4
353        * Support for networks:
354         socklnd   - any kernel supported by Lustre,
355         qswlnd    - Qsnet kernel modules 5.20 and later,
356         openiblnd - IbGold 1.8.2,
357         o2iblnd   - OFED 1.1 and 1.2.0, 1.2.5.
358         viblnd    - Voltaire ibhost 3.4.5 and later,
359         ciblnd    - Topspin 3.2.0,
360         iiblnd    - Infiniserv 3.3 + PathBits patch,
361         gmlnd     - GM 2.1.22 and later,
362         mxlnd     - MX 1.2.1 or later,
363         ptllnd    - Portals 3.3 / UNICOS/lc 1.5.x, 2.0.x
364
365 Severity   : normal
366 Bugzilla   : 14238
367 Description: ASSERTION(me == md->md_me) failed in lnet_match_md()
368
369 Severity   : normal
370 Bugzilla   : 12494
371 Description: increase send queue size for ciblnd/openiblnd
372
373 Severity   : normal
374 Bugzilla   : 12302
375 Description: new userspace socklnd
376 Details    : Old userspace tcpnal that resided in lnet/ulnds/socklnd replaced
377              with new one - usocklnd.
378
379 Severity   : enhancement
380 Bugzilla   : 11686
381 Description: Console message flood
382 Details    : Make cdls ratelimiting more tunable by adding several tunable in
383              procfs /proc/sys/lnet/console_{min,max}_delay_centisecs and
384              /proc/sys/lnet/console_backoff.
385
386 --------------------------------------------------------------------------------
387
388 2007-09-27         Cluster File Systems, Inc. <info@clusterfs.com>
389        * version 1.6.3
390        * Support for networks:
391         socklnd   - any kernel supported by Lustre,
392         qswlnd    - Qsnet kernel modules 5.20 and later,
393         openiblnd - IbGold 1.8.2,
394         o2iblnd   - OFED 1.1 and 1.2,
395         viblnd    - Voltaire ibhost 3.4.5 and later,
396         ciblnd    - Topspin 3.2.0,
397         iiblnd    - Infiniserv 3.3 + PathBits patch,
398         gmlnd     - GM 2.1.22 and later,
399         mxlnd     - MX 1.2.1 or later,
400         ptllnd    - Portals 3.3 / UNICOS/lc 1.5.x, 2.0.x
401
402 Severity   : normal
403 Bugzilla   : 12782
404 Description: /proc/sys/lnet has non-sysctl entries
405 Details    : Updating dump_kernel/daemon_file/debug_mb to use sysctl variables
406
407 Severity   : major
408 Bugzilla   : 13236
409 Description: TOE Kernel panic by ksocklnd
410 Details    : offloaded sockets provide their own implementation of sendpage,
411              can't call tcp_sendpage() directly
412
413 Severity   : normal
414 Bugzilla   : 10778
415 Description: kibnal_shutdown() doesn't finish; lconf --cleanup hangs
416 Details    : races between lnd_shutdown and peer creation prevent 
417              lnd_shutdown from finishing.
418
419 Severity   : normal
420 Bugzilla   : 13279
421 Description: open files rlimit 1024 reached while liblustre testing
422 Details    : ulnds/socklnd must close open socket after unsuccessful
423              'say hello' attempt.
424
425 Severity   : major 
426 Bugzilla   : 13482
427 Description: build error
428 Details    : fix typos in gmlnd, ptllnd and viblnd
429
430 --------------------------------------------------------------------------------
431
432 2007-07-30  Cluster File Systems, Inc. <info@clusterfs.com>
433        * version 1.6.1
434        * Support for networks:
435         socklnd   - kernels up to 2.6.16,
436         qswlnd    - Qsnet kernel modules 5.20 and later,
437         openiblnd - IbGold 1.8.2,
438         o2iblnd   - OFED 1.1 and 1.2
439         viblnd    - Voltaire ibhost 3.4.5 and later,
440         ciblnd    - Topspin 3.2.0,
441         iiblnd    - Infiniserv 3.3 + PathBits patch,
442         gmlnd     - GM 2.1.22 and later,
443         mxlnd     - MX 1.2.1 or later,
444         ptllnd    - Portals 3.3 / UNICOS/lc 1.5.x, 2.0.x
445
446 --------------------------------------------------------------------------------
447
448 2007-06-21  Cluster File Systems, Inc. <info@clusterfs.com>
449        * version 1.4.11
450        * Support for networks:
451         socklnd   - kernels up to 2.6.16,
452         qswlnd    - Qsnet kernel modules 5.20 and later,
453         openiblnd - IbGold 1.8.2,
454         o2iblnd   - OFED 1.1
455         viblnd    - Voltaire ibhost 3.4.5 and later,
456         ciblnd    - Topspin 3.2.0,
457         iiblnd    - Infiniserv 3.3 + PathBits patch,
458         gmlnd     - GM 2.1.22 and later,
459         mxlnd     - MX 1.2.1 or later,
460         ptllnd    - Portals 3.3 / UNICOS/lc 1.5.x, 2.0.x
461
462 Severity   : minor
463 Bugzilla   : 13288
464 Description: Initialize cpumask before use
465
466 Severity   : major
467 Bugzilla   : 12014
468 Description: ASSERTION failures when upgrading to the patchless zero-copy
469              socklnd 
470 Details    : This bug affects "rolling upgrades", causing an inconsistent
471              protocol version negotiation and subsequent assertion failure
472              during rolling upgrades after the first wave of upgrades.
473
474 Severity   : minor
475 Bugzilla   : 11223
476 Details    : Change "dropped message" CERRORs to D_NETERROR so they are
477              logged instead of creating "console chatter" when a lustre
478              timeout races with normal RPC completion.
479
480 Severity   : minor
481 Details    : lnet_clear_peer_table can wait forever if user forgets to
482              clear a lazy portal.
483
484 Severity   : minor
485 Details    : libcfs_id2str should check pid against LNET_PID_ANY.
486
487 Severity   : major
488 Bugzilla   : 10916
489 Description: added LNET self test
490 Details    : landing b_self_test
491
492 Severity   : minor
493 Frequency  : rare
494 Bugzilla   : 12227
495 Description: cfs_duration_{u,n}sec() wrongly calculate nanosecond part of
496              struct timeval.
497 Details    : do_div() macro is used incorrectly.
498
499 2007-04-23  Cluster File Systems, Inc. <info@clusterfs.com>
500
501 Severity   : normal
502 Bugzilla   : 11680
503 Description: make panic on lbug configurable
504
505 Severity   : major
506 Bugzilla   : 12316
507 Description: Add OFED1.2 support to o2iblnd
508 Details    : o2iblnd depends on OFED's modules, if out-tree OFED's modules
509              are installed (other than kernel's in-tree infiniband), there
510              could be some problem while insmod o2iblnd (mismatch CRC of 
511              ib_* symbols).
512              If extra Module.symvers is supported in kernel (i.e, 2.6.17),
513              this link provides solution:
514              https://bugs.openfabrics.org/show_bug.cgi?id=355
515              if extra Module.symvers is not supported in kernel, we will
516              have to run the script in bug 12316 to update
517              $LINUX/module.symvers before building o2iblnd.
518              More details about this are in bug 12316.
519
520 ------------------------------------------------------------------------------
521
522 2007-04-01  Cluster File Systems, Inc. <info@clusterfs.com>
523        * version 1.4.10 / 1.6.0
524        * Support for networks:
525         socklnd   - kernels up to 2.6.16,
526         qswlnd    - Qsnet kernel modules 5.20 and later,
527         openiblnd - IbGold 1.8.2,
528         o2iblnd   - OFED 1.1,
529         viblnd    - Voltaire ibhost 3.4.5 and later,
530         ciblnd    - Topspin 3.2.0,
531         iiblnd    - Infiniserv 3.3 + PathBits patch,
532         gmlnd     - GM 2.1.22 and later,
533         mxlnd     - MX 1.2.1 or later,
534         ptllnd    - Portals 3.3 / UNICOS/lc 1.5.x, 2.0.x
535         
536 Severity   : minor
537 Frequency  : rare
538 Description: Ptllnd didn't init kptllnd_data.kptl_idle_txs before it could be
539              possibly accessed in kptllnd_shutdown. Ptllnd should init 
540              kptllnd_data.kptl_ptlid2str_lock before calling kptllnd_ptlid2str.
541
542 Severity   : normal
543 Frequency  : rare
544 Description: gmlnd ignored some transmit errors when finalizing lnet messages.
545
546 Severity   : minor
547 Frequency  : rare
548 Description: ptllnd logs a piece of incorrect debug info in kptllnd_peer_handle_hello.
549
550 Severity   : minor
551 Frequency  : rare
552 Description: the_lnet.ln_finalizing was not set when the current thread is
553              about to complete messages. It only affects multi-threaded 
554              user space LNet.
555         
556 Severity   : normal
557 Frequency  : rare
558 Bugzilla   : 11472
559 Description: Changed the default kqswlnd ntxmsg=512
560         
561 Severity   : major
562 Frequency  : rare
563 Bugzilla   : 12458
564 Description: Assertion failure in kernel ptllnd caused by posting passive
565              bulk buffers before connection establishment complete.
566         
567 Severity   : major
568 Frequency  : rare
569 Bugzilla   : 12445
570 Description: A race in kernel ptllnd between deleting a peer and posting
571              new communications for it could hang communications -
572              manifesting as "Unexpectedly long timeout" messages.
573         
574 Severity   : major
575 Frequency  : rare
576 Bugzilla   : 12432
577 Description: Kernel ptllnd lock ordering issue could hang a node.
578         
579 Severity   : major
580 Frequency  : rare
581 Bugzilla   : 12016
582 Description: node crash on socket teardown race
583
584 Severity   : minor
585 Frequency  : 'lctl peer_list' issued on a mx net
586 Bugzilla   : 12237
587 Description: Enable lctl's peer_list for MXLND
588
589 Severity   : major
590 Frequency  : after Ptllnd timeouts and portals congestion
591 Bugzilla   : 11659
592 Description: Credit overflows
593 Details    : This was a bug in ptllnd connection establishment.  The fix
594              implements better peer stamps to disambiguate connection
595              establishment and ensure both peers enter the credit flow
596              state machine consistently.
597
598 Severity   : major
599 Frequency  : rare       
600 Bugzilla   : 11394
601 Description: kptllnd didn't propagate some network errors up to LNET 
602 Details    : This bug was spotted while investigating 11394.  The fix
603              ensures network errors on sends and bulk transfers are
604              propagated to LNET/lustre correctly.
605
606 Severity   : enhancement
607 Bugzilla   : 10316
608 Description: Fixed console chatter in case of -ETIMEDOUT.
609
610 Severity   : enhancement
611 Bugzilla   : 11684
612 Description: Added D_NETTRACE for recording network packet history
613              (initially only for ptllnd).  Also a separate userspace
614              ptllnd facility to gather history which should really be
615              covered by D_NETTRACE too, if only CDEBUG recorded history in
616              userspace.
617
618 Severity   : major
619 Frequency  : rare       
620 Bugzilla   : 11616
621 Description: o2iblnd handle early RDMA_CM_EVENT_DISCONNECTED.
622 Details    : If the fabric is lossy, an RDMA_CM_EVENT_DISCONNECTED
623              callback can occur before a connection has actually been
624              established.  This caused an assertion failure previously.
625
626 Severity   : enhancement
627 Bugzilla   : 11094
628 Description: Multiple instances for o2iblnd
629 Details    : Allow multiple instances of o2iblnd to enable networking over
630              multiple HCAs and routing between them.
631
632 Severity   : major
633 Bugzilla   : 11201
634 Description: lnet deadlock in router_checker
635 Details    : turned ksnd_connd_lock, ksnd_reaper_lock, and ksock_net_t:ksnd_lock
636              into BH locks to eliminate potential deadlock caused by
637              ksocknal_data_ready() preempting code holding these locks.
638
639 Severity   : major
640 Bugzilla   : 11126
641 Description: Millions of failed socklnd connection attempts cause a very slow FS
642 Details    : added a new route flag ksnr_scheduled to distinguish from
643              ksnr_connecting, so that a peer connection request is only turned
644              down for race concerns when an active connection to the same peer
645              is under progress (instead of just being scheduled).
646
647 ------------------------------------------------------------------------------
648
649 2007-02-09  Cluster File Systems, Inc. <info@clusterfs.com>
650        * version 1.4.9
651        * Support for networks:
652         socklnd   - kernels up to 2.6.16
653         qswlnd    - Qsnet kernel modules 5.20 and later
654         openiblnd - IbGold 1.8.2
655         o2iblnd   - OFED 1.1
656         viblnd    - Voltaire ibhost 3.4.5 and later
657         ciblnd    - Topspin 3.2.0
658         iiblnd    - Infiniserv 3.3 + PathBits patch
659         gmlnd     - GM 2.1.22 and later
660         mxlnd     - MX 1.2.1 or later
661         ptllnd    - Portals 3.3 / UNICOS/lc 1.5.x, 2.0.x
662        * bug fixes
663
664 Severity   : major on XT3
665 Bugzilla   : none
666 Description: libcfs overwrites /proc/sys/portals
667 Details    : libcfs created a symlink from /proc/sys/portals to
668              /proc/sys/lnet for backwards compatibility.  This is no
669              longer required and makes the Cray portals /proc variables
670              inaccessible.
671
672 Severity   : minor
673 Bugzilla   : 11312
674 Description: OFED FMR API change
675 Details    : This changes parameter usage to reflect a change in
676              ib_fmr_pool_map_phys() between OFED 1.0 and OFED 1.1.  Note
677              that FMR support is only used in experimental versions of the
678              o2iblnd - this change does not affect standard usage at all.
679
680 Severity   : enhancement
681 Bugzilla   : 11245
682 Description: new ko2iblnd module parameter: ib_mtu
683 Details    : the default IB MTU of 2048 performs badly on 23108 Tavor
684              HCAs.  You can avoid this problem by setting the MTU to 1024
685              using this module parameter.
686
687 Severity   : enhancement
688 Bugzilla   : 11118/11620
689 Description: ptllnd small request message buffer alignment fix
690 Details    : Set the PTL_MD_LOCAL_ALIGN8 option on small message receives.
691              Round up small message size on sends in case this option
692              is not supported.  11620 was a defect in the initial
693              implementation which effectively asserted all peers had to be
694              running the correct protocol version which was fixed by always
695              NAK-ing such requests and handling any misalignments they
696              introduce.
697
698 Severity   : minor
699 Frequency  : rarely
700 Description: When kib(nal|lnd)_del_peer() is called upon a peer whose
701              ibp_tx_queue is not empty, kib(nal|lnd)_destroy_peer()'s
702              'LASSERT(list_empty(&peer->ibp_tx_queue))' will fail.
703
704 Severity   : enhancement
705 Bugzilla   : 11250
706 Description: Patchless ZC(zero copy) socklnd
707 Details    : New protocol for socklnd, socklnd can support zero copy without
708              kernel patch, it's compatible with old socklnd. Checksum is 
709              moved from tunables to modparams.
710
711 Severity   : minor
712 Frequency  : rarely
713 Description: When ksocknal_del_peer() is called upon a peer whose
714              ksnp_tx_queue is not empty, ksocknal_destroy_peer()'s
715              'LASSERT(list_empty(&peer->ksnp_tx_queue))' will fail.
716
717 Severity   : normal
718 Frequency  : when ptlrpc is under heavy use and runs out of request buffer
719 Bugzilla   : 11318
720 Description: In lnet_match_blocked_msg(), md can be used without holding a
721              ref on it.
722
723 Severity   : minor
724 Frequency  : very rarely
725 Bugzilla   : 10727
726 Description: If ksocknal_lib_setup_sock() fails, a ref on peer is lost.
727              If connd connects a route which has been closed by
728              ksocknal_shutdown(), ksocknal_create_routes() may create new
729              routes which hold references on the peer, causing shutdown
730              process to wait for peer to disappear forever.
731
732 Severity   : enhancement
733 Bugzilla   : 11234
734 Description: Dump XT3 portals traces on kptllnd timeout
735 Details    : Set the kptllnd module parameter "ptltrace_on_timeout=1" to
736              dump Cray portals debug traces to a file.  The kptllnd module
737              parameter "ptltrace_basename", default "/tmp/lnet-ptltrace",
738              is the basename of the dump file.
739
740 Severity   : major
741 Frequency  : infrequent
742 Bugzilla   : 11308
743 Description: kernel ptllnd fix bug in connection re-establishment
744 Details    : Kernel ptllnd could produce protocol errors e.g. illegal
745              matchbits and/or violate the credit flow protocol when trying
746              to re-establish a connection with a peer after an error or
747              timeout. 
748
749 Severity   : enhancement
750 Bugzilla   : 10316
751 Description: Allow /proc/sys/lnet/debug to be set symbolically
752 Details    : Allow debug and subsystem debug values to be read/set by name
753              in addition to numerically, for ease of use.
754
755 Severity   : normal
756 Frequency  : only in configurations with LNET routers
757 Bugzilla   : 10316
758 Description: routes automatically marked down and recovered
759 Details    : In configurations with LNET routers if a router fails routers
760              now actively try to recover routes that are down, unless they
761              are marked down by an administrator.
762
763 ------------------------------------------------------------------------------
764
765 2006-12-09  Cluster File Systems, Inc. <info@clusterfs.com>
766
767 Severity   : critical
768 Frequency  : very rarely, in configurations with LNET routers and TCP
769 Bugzilla   : 10889
770 Description: incorrect data written to files on OSTs
771 Details    : In certain high-load conditions incorrect data may be written
772              to files on the OST when using TCP networks.
773
774 ------------------------------------------------------------------------------
775
776 2006-07-31  Cluster File Systems, Inc. <info@clusterfs.com>
777         * version 1.4.7
778         - rework CDEBUG messages rate-limiting mechanism b=10375
779         - add per-socket tunables for socklnd if the kernel is patched b=10327
780
781 ------------------------------------------------------------------------------
782
783 2006-02-15  Cluster File Systems, Inc. <info@clusterfs.com>
784         * version 1.4.6
785         - fix use of portals/lnet pid to avoid dropping RPCs b=10074
786         - iiblnd wasn't mapping all memory, resulting in comms errors b=9776
787         - quiet LNET startup LNI message for liblustre b=10128
788         - Better console error messages if 'ip2nets' can't match an IP address
789         - Fixed overflow/use-before-set bugs in linux-time.h
790         - Fixed ptllnd bug that wasn't initialising rx descriptors completely
791         - LNET teardown failed an assertion about the route table being empty
792         - Fixed a crash in LNetEQPoll(<invalid handle>)
793         - Future protocol compatibility work (b_rls146_lnetprotovrsn)
794         - improve debug message for liblustre/Catamount nodes (b=10116)
795
796 2005-10-10  Cluster File Systems, Inc. <info@clusterfs.com>
797         * Configuration change for the XT3
798              The PTLLND is now used to run Lustre over Portals on the XT3.
799              The configure option(s) --with-cray-portals are no longer
800              used.  Rather --with-portals=<path-to-portals-includes> is
801              used to enable building on the XT3.  In addition to enable
802              XT3 specific features the option --enable-cray-xt3 must be
803              used.
804
805 2005-10-10  Cluster File Systems, Inc. <info@clusterfs.com>
806         * Portals has been removed, replaced by LNET.
807            LNET is new networking infrastructure for Lustre, it includes a
808            reorganized network configuration mode (see the user
809            documentation for full details) as well as support for routing
810            between different network fabrics.  Lustre Networking Devices
811            (LNDS) for the supported network fabrics have also been created
812            for this new infrastructure.
813
814 2005-08-08  Cluster File Systems, Inc. <info@clusterfs.com>
815        * version 1.4.4
816        * bug fixes
817
818 Severity   : major
819 Frequency  : rare (large Voltaire clusters only)
820 Bugzilla   : 6993
821 Description: the default number of reserved transmit descriptors was too low
822              for some large clusters
823 Details    : As a workaround, the number was increased.  A proper fix includes
824              a run-time tunable.
825
826 2005-06-02  Cluster File Systems, Inc. <info@clusterfs.com>
827        * version 1.4.3
828        * bug fixes
829
830 Severity   : major
831 Frequency  : occasional (large-scale events, cluster reboot, network failure)
832 Bugzilla   : 6411
833 Description: too many error messages on console obscure actual problem and
834              can slow down/panic server, or cause recovery to fail repeatedly
835 Details    : enable rate-limiting of console error messages, and some messages
836              that were console errors now only go to the kernel log
837
838 Severity   : enhancement
839 Bugzilla   : 1693
840 Description: add /proc/sys/portals/catastrophe entry which will report if
841              that node has previously LBUGged
842
843 2005-04-06  Cluster File Systems, Inc. <info@clusterfs.com>
844        * bugs
845         - update gmnal to use PTL_MTU, fix module refcounting (b=5786)
846
847 2005-04-04  Cluster File Systems, Inc. <info@clusterfs.com>
848        * bugs
849         - handle error return code in kranal_check_fma_rx() (5915,6054)
850
851 2005-02-04  Cluster File Systems, Inc. <info@clusterfs.com>
852        * miscellania
853         - update vibnal (Voltaire IB NAL)
854         - update gmnal (Myrinet NAL), gmnalid
855
856 2005-02-04  Eric Barton  <eeb@bartonsoftware.com>
857
858         * Landed portals:b_port_step as follows...
859
860           - removed CFS_DECL_SPIN* 
861             just use 'spinlock_t' and initialise with spin_lock_init()
862
863           - removed CFS_DECL_MUTEX*
864             just use 'struct semaphore' and initialise with init_mutex()
865
866           - removed CFS_DECL_RWSEM*
867             just use 'struct rw_semaphore' and initialise with init_rwsem()
868
869           - renamed cfs_sleep_chan -> cfs_waitq
870                     cfs_sleep_link -> cfs_waitlink
871
872           - fixed race in linux version of arch-independent socknal
873             (the ENOMEM/EAGAIN decision).
874
875           - Didn't fix problems in Darwin version of arch-independent socknal
876             (resetting socket callbacks, eager ack hack, ENOMEM/EAGAIN decision)
877
878           - removed libcfs types from non-socknal header files (only some types
879             in the header files had been changed; the .c files hadn't been
880             updated at all).