Whamcloud - gitweb
With 1.6 heading towards maintenance mode, use a dedicated branch of the
[fs/lustre-release.git] / lnet / ChangeLog
1 tbd  Sun Microsystems, Inc.
2         * version 2.0.0
3         * Support for networks:
4          socklnd   - any kernel supported by Lustre,
5          qswlnd    - Qsnet kernel modules 5.20 and later,
6          openiblnd - IbGold 1.8.2,
7          o2iblnd   - OFED 1.1, 1.2.0, 1.2.5, and 1.3
8          viblnd    - Voltaire ibhost 3.4.5 and later,
9          ciblnd    - Topspin 3.2.0,
10          iiblnd    - Infiniserv 3.3 + PathBits patch,
11          gmlnd     - GM 2.1.22 and later,
12          mxlnd     - MX 1.2.1 or later,
13          ptllnd    - Portals 3.3 / UNICOS/lc 1.5.x, 2.0.x
14
15 Severity   : 
16 Bugzilla   : 
17 Description: 
18 Details    : 
19
20 Severity   : enhancement
21 Bugzilla   : 15332
22 Description: add a new LND optiion to control peer buffer credits on routers
23
24 Severity   : normal
25 Bugzilla   : 18844
26 Description: Fixing deadlock in usocklnd
27 Details    : A deadlock was possible in usocklnd due to race condition while
28              tearing connection down. The problem resulted from erroneous
29              assumption that lnet_finalize() could have been called holding
30              some lnd-level locks.
31
32 Severity   : major
33 Bugzilla   : 13621, 15983
34 Description: Protocol V2 of o2iblnd
35 Details    : o2iblnd V2 has several new features:
36              . map-on-demand: map-on-demand is disabled by default, it can
37                be enabled by using modparam "map_on_demand=@value@", @value@
38                should >= 0 and < 256, 0 will disable map-on-demand, any other
39                valid value will enable map-on-demand. 
40                Oi2blnd will create FMR or physical MR for RDMA if fragments of
41                RD > @value@.
42                Enable map-on-demand will take less memory for new connection,
43                but a little more CPU for RDMA.
44              . iWARP : to support iWARP, please enable map-on-demand, 32 and 64
45                are recommanded value. iWARP will probably fail for value >=128.
46              . OOB NOOP message: to resolve deadlock on router.
47              . tunable peer_credits_hiw: (high water to return credits),
48                default value of peer_credits_hiw equals to (peer_credits -1),
49                user can change it between peer_credits/2 and (peer_credits - 1).
50                Lower value is recommended for high latency network.
51              . tunable message queue size: it always equals to peer_credits,
52                higher value is recommended for high latency network.
53              . It's compatible with earlier version of o2iblnd
54
55 Severity   : normal
56 Bugzilla   : 18414
57 Description: Fixing 'running out of ports' issue
58 Details    : Add a delay before next reconnect attempt in ksocklnd in
59              the case of lost race. Limit the frequency of query-requests
60              in lnet. Improved handling of 'dead peer' notifications in
61              lnet.
62
63 Severity   : normal
64 Bugzilla   : 16034
65 Description: Change ptllnd timeout and watchdog timers
66 Details    : Add ptltrace_on_nal_failed and bump ptllnd timeout to match
67              Portals wire timeout.
68
69 Severity   : normal
70 Bugzilla   : 16186
71 Description: One down Lustre FS hangs ALL mounted Lustre filesystems
72 Details    : Shared routing enhancements - peer health detection.
73
74 Severity   : enhancement
75 Bugzilla   : 14132
76 Description: acceptor.c cleanup
77 Details    : Code duplication in acceptor.c for the cases of kernel and
78              user-space removed. User-space libcfs tcpip primitives
79              uniformed to have prototypes similar to kernel ones. Minor
80              cosmetic changes in usocklnd to use cfs_socket_t as
81              representation of socket.
82
83 Severity   : minor
84 Bugzilla   : 11245
85 Description: IB path MTU mistakenly set to 1st path MTU when ib_mtu is off
86 Details    : See comment 46 in bug 11245 for details - it's indeed a bug
87              introduced by the original 11245 fix.
88
89 Severity   : minor
90 Bugzilla   : 15984
91 Description: uptllnd credit overflow fix
92 Details    : kptl_msg_t::ptlm_credits could be overflown by uptllnd since
93              it is only a __u8.
94
95 Severity   : major
96 Bugzilla   : 14634
97 Description: socklnd protocol version 3
98 Details    : With current protocol V2, connections on router can be
99              blocked and can't receive any incoming messages when there is no
100              more router buffer, so ZC-ACK can't be handled (LNet message
101              can't be finalized) and will cause deadlock on router.
102              Protocol V3 has a dedicated connection for emergency messages
103              like ZC-ACK to router, messages on this dedicated connection
104              don't need any credit so will never be blocked. Also, V3 can send
105              keepalive ping in specified period for router healthy checking.
106
107 -------------------------------------------------------------------------------
108
109 12-31-2008  Sun Microsystems, Inc.
110         * version 1.8.0
111         * Support for networks:
112          socklnd   - any kernel supported by Lustre,
113          qswlnd    - Qsnet kernel modules 5.20 and later,
114          openiblnd - IbGold 1.8.2,
115          o2iblnd   - OFED 1.1, 1.2.0, 1.2.5, and 1.3
116          viblnd    - Voltaire ibhost 3.4.5 and later,
117          ciblnd    - Topspin 3.2.0,
118          iiblnd    - Infiniserv 3.3 + PathBits patch,
119          gmlnd     - GM 2.1.22 and later,
120          mxlnd     - MX 1.2.1 or later,
121          ptllnd    - Portals 3.3 / UNICOS/lc 1.5.x, 2.0.x
122
123 Severity   : major
124 Bugzilla   : 15983
125 Description: workaround for OOM from o2iblnd
126 Details    : OFED needs allocate big chunk of memory for QP while creating
127              connection for o2iblnd, OOM can happen if no such a contiguous
128              memory chunk.
129              QP size is decided by concurrent_sends and max_fragments of
130              o2iblnd, now we permit user to specify smaller value for
131              concurrent_sends of o2iblnd(i.e: concurrent_sends=7), which
132              will decrease memory block size required by creating QP.
133
134 Severity   : major
135 Bugzilla   : 15093
136 Description: Support Zerocopy receive of Chelsio device
137 Details    : Chelsio driver can support zerocopy for iov[1] if it's
138              contiguous and large enough.
139
140 Severity   : normal
141 Bugzilla   : 13490
142 Description: fix credit flow deadlock in uptllnd
143
144 Severity   : normal
145 Bugzilla   : 16308
146 Description: finalize network operation in reasonable time
147 Details    : conf-sanity test_32a couldn't stop ost and mds because it
148              tried to access non-existent peer and tcp connect took
149              quite long before timing out.
150
151 Severity   : major
152 Bugzilla   : 16338
153 Description: Continuous recovery on 33 of 413 nodes after lustre oss failure
154 Details    : Lost reference on conn prevents peer from being destroyed, which
155              could prevent new peer creation if peer count has reached upper
156              limit.
157
158 Severity   : normal
159 Bugzilla   : 16102
160 Description: LNET Selftest results in Soft lockup on OSS CPU
161 Details    : only hits when 8 or more o2ib clients involved and a session is
162              torn down with 'lst end_session' without preceeding 'lst stop'.
163
164 Severity   : minor
165 Bugzilla   : 16321
166 Description: concurrent_sends in IB LNDs should not be changeable at run time
167 Details    : concurrent_sends in IB LNDs should not be changeable at run time
168
169 Severity   : normal
170 Bugzilla   : 15272
171 Description: ptl_send_rpc hits LASSERT when ptl_send_buf fails
172 Details    : only hits under out-of-memory situations
173
174
175 -------------------------------------------------------------------------------
176
177 2009-02-07 Sun Microsystems, Inc.
178         * version 1.6.7
179         * Support for networks:
180          socklnd   - any kernel supported by Lustre,
181          qswlnd    - Qsnet kernel modules 5.20 and later,
182          openiblnd - IbGold 1.8.2,
183          o2iblnd   - OFED 1.1, 1.2.0, 1.2.5, and 1.3
184          viblnd    - Voltaire ibhost 3.4.5 and later,
185          ciblnd    - Topspin 3.2.0,
186          iiblnd    - Infiniserv 3.3 + PathBits patch,
187          gmlnd     - GM 2.1.22 and later,
188          mxlnd     - MX 1.2.1 or later,
189          ptllnd    - Portals 3.3 / UNICOS/lc 1.5.x, 2.0.x
190 Severity   : major
191 Bugzilla   : 15983
192 Description: workaround for OOM from o2iblnd
193 Details    : OFED needs allocate big chunk of memory for QP while creating
194              connection for o2iblnd, OOM can happen if no such a contiguous
195              memory chunk.
196              QP size is decided by concurrent_sends and max_fragments of
197              o2iblnd, now we permit user to specify smaller value for
198              concurrent_sends of o2iblnd(i.e: concurrent_sends=7), which
199              will decrease memory block size required by creating QP.
200
201 Severity   : major
202 Bugzilla   : 15093
203 Description: Support Zerocopy receive of Chelsio device
204 Details    : Chelsio driver can support zerocopy for iov[1] if it's
205              contiguous and large enough.
206 Severity   : normal
207 Bugzilla   : 13490
208 Description: fix credit flow deadlock in uptllnd
209
210 Severity   : normal
211 Bugzilla   : 16308
212 Description: finalize network operation in reasonable time
213 Details    : conf-sanity test_32a couldn't stop ost and mds because it
214              tried to access non-existent peer and tcp connect took
215              quite long before timing out.
216
217 Severity   : major
218 Bugzilla   : 16338
219 Description: Continuous recovery on 33 of 413 nodes after lustre oss failure
220 Details    : Lost reference on conn prevents peer from being destroyed, which
221              could prevent new peer creation if peer count has reached upper
222              limit.
223
224 Severity   : normal
225 Bugzilla   : 16102
226 Description: LNET Selftest results in Soft lockup on OSS CPU
227 Details    : only hits when 8 or more o2ib clients involved and a session is
228              torn down with 'lst end_session' without preceeding 'lst stop'.
229
230 Severity   : minor
231 Bugzilla   : 16321
232 Description: concurrent_sends in IB LNDs should not be changeable at run time
233 Details    : concurrent_sends in IB LNDs should not be changeable at run time
234
235 -------------------------------------------------------------------------------
236
237 11-03-2008  Sun Microsystems, Inc.
238         * version 1.6.6
239         * Support for networks:
240          socklnd   - any kernel supported by Lustre,
241          qswlnd    - Qsnet kernel modules 5.20 and later,
242          openiblnd - IbGold 1.8.2,
243          o2iblnd   - OFED 1.1, 1.2.0, 1.2.5, and 1.3
244          viblnd    - Voltaire ibhost 3.4.5 and later,
245          ciblnd    - Topspin 3.2.0,
246          iiblnd    - Infiniserv 3.3 + PathBits patch,
247          gmlnd     - GM 2.1.22 and later,
248          mxlnd     - MX 1.2.1 or later,
249          ptllnd    - Portals 3.3 / UNICOS/lc 1.5.x, 2.0.x
250
251 Severity   : normal
252 Bugzilla   : 15272
253 Description: ptl_send_rpc hits LASSERT when ptl_send_buf fails
254 Details    : only hits under out-of-memory situations
255
256 -------------------------------------------------------------------------------
257
258 04-26-2008  Sun Microsystems, Inc.
259        * version 1.6.5
260        * Support for networks:
261         socklnd   - any kernel supported by Lustre,
262         qswlnd    - Qsnet kernel modules 5.20 and later,
263         openiblnd - IbGold 1.8.2,
264         o2iblnd   - OFED 1.1 and 1.2.0, 1.2.5
265         viblnd    - Voltaire ibhost 3.4.5 and later,
266         ciblnd    - Topspin 3.2.0,
267         iiblnd    - Infiniserv 3.3 + PathBits patch,
268         gmlnd     - GM 2.1.22 and later,
269         mxlnd     - MX 1.2.1 or later,
270         ptllnd    - Portals 3.3 / UNICOS/lc 1.5.x, 2.0.x
271
272 Severity   : normal
273 Bugzilla   : 14322
274 Description: excessive debug information removed
275 Details    : excessive debug information removed
276
277 Severity   : major
278 Bugzilla   : 15712
279 Description: ksocknal_create_conn() hit ASSERTION during connection race
280 Details    : ksocknal_create_conn() hit ASSERTION during connection race
281
282 Severity   : major
283 Bugzilla   : 13983
284 Description: ksocknal_send_hello() hit ASSERTION while connecting race
285 Details    : ksocknal_send_hello() hit ASSERTION while connecting race
286
287 Severity   : major
288 Bugzilla   : 14425
289 Description: o2iblnd/ptllnd credit deadlock in a routed config.
290 Details    : o2iblnd/ptllnd credit deadlock in a routed config.
291
292 Severity   : normal
293 Bugzilla   : 14956
294 Description: High load after starting lnet
295 Details    : gmlnd should sleep in rx thread in interruptible way. Otherwise,
296              uptime utility reports high load that looks confusingly.
297
298 Severity   : normal
299 Bugzilla   : 14838
300 Description: ksocklnd fails to establish connection if accept_port is high
301 Details    : PID remapping must not be done for active (outgoing) connections
302
303
304 --------------------------------------------------------------------------------
305
306 2008-01-11  Sun Microsystems, Inc.
307        * version 1.4.12
308        * Support for networks:
309         socklnd   - any kernel supported by Lustre,
310         qswlnd    - Qsnet kernel modules 5.20 and later,
311         openiblnd - IbGold 1.8.2,
312         o2iblnd   - OFED 1.1 and 1.2.0, 1.2.5
313         viblnd    - Voltaire ibhost 3.4.5 and later,
314         ciblnd    - Topspin 3.2.0,
315         iiblnd    - Infiniserv 3.3 + PathBits patch,
316         gmlnd     - GM 2.1.22 and later,
317         mxlnd     - MX 1.2.1 or later,
318         ptllnd    - Portals 3.3 / UNICOS/lc 1.5.x, 2.0.x
319
320 Severity   : normal
321 Bugzilla   : 14387
322 Description: liblustre network error
323 Details    : liblustre clients should understand LNET_ACCEPT_PORT environment
324              variable even if they don't start lnet acceptor.
325
326 Severity   : normal
327 Bugzilla   : 14300
328 Description: Strange message from lnet (Ignoring prediction from the future)
329 Details    : Incorrect calculation of peer's last_alive value in ksocklnd
330
331 --------------------------------------------------------------------------------
332
333 2007-12-07         Cluster File Systems, Inc. <info@clusterfs.com>
334        * version 1.6.4
335        * Support for networks:
336         socklnd   - any kernel supported by Lustre,
337         qswlnd    - Qsnet kernel modules 5.20 and later,
338         openiblnd - IbGold 1.8.2,
339         o2iblnd   - OFED 1.1 and 1.2.0, 1.2.5.
340         viblnd    - Voltaire ibhost 3.4.5 and later,
341         ciblnd    - Topspin 3.2.0,
342         iiblnd    - Infiniserv 3.3 + PathBits patch,
343         gmlnd     - GM 2.1.22 and later,
344         mxlnd     - MX 1.2.1 or later,
345         ptllnd    - Portals 3.3 / UNICOS/lc 1.5.x, 2.0.x
346
347 Severity   : normal
348 Bugzilla   : 14238
349 Description: ASSERTION(me == md->md_me) failed in lnet_match_md()
350
351 Severity   : normal
352 Bugzilla   : 12494
353 Description: increase send queue size for ciblnd/openiblnd
354
355 Severity   : normal
356 Bugzilla   : 12302
357 Description: new userspace socklnd
358 Details    : Old userspace tcpnal that resided in lnet/ulnds/socklnd replaced
359              with new one - usocklnd.
360
361 Severity   : enhancement
362 Bugzilla   : 11686
363 Description: Console message flood
364 Details    : Make cdls ratelimiting more tunable by adding several tunable in
365              procfs /proc/sys/lnet/console_{min,max}_delay_centisecs and
366              /proc/sys/lnet/console_backoff.
367
368 --------------------------------------------------------------------------------
369
370 2007-09-27         Cluster File Systems, Inc. <info@clusterfs.com>
371        * version 1.6.3
372        * Support for networks:
373         socklnd   - any kernel supported by Lustre,
374         qswlnd    - Qsnet kernel modules 5.20 and later,
375         openiblnd - IbGold 1.8.2,
376         o2iblnd   - OFED 1.1 and 1.2,
377         viblnd    - Voltaire ibhost 3.4.5 and later,
378         ciblnd    - Topspin 3.2.0,
379         iiblnd    - Infiniserv 3.3 + PathBits patch,
380         gmlnd     - GM 2.1.22 and later,
381         mxlnd     - MX 1.2.1 or later,
382         ptllnd    - Portals 3.3 / UNICOS/lc 1.5.x, 2.0.x
383
384 Severity   : normal
385 Bugzilla   : 12782
386 Description: /proc/sys/lnet has non-sysctl entries
387 Details    : Updating dump_kernel/daemon_file/debug_mb to use sysctl variables
388
389 Severity   : major
390 Bugzilla   : 13236
391 Description: TOE Kernel panic by ksocklnd
392 Details    : offloaded sockets provide their own implementation of sendpage,
393              can't call tcp_sendpage() directly
394
395 Severity   : normal
396 Bugzilla   : 10778
397 Description: kibnal_shutdown() doesn't finish; lconf --cleanup hangs
398 Details    : races between lnd_shutdown and peer creation prevent 
399              lnd_shutdown from finishing.
400
401 Severity   : normal
402 Bugzilla   : 13279
403 Description: open files rlimit 1024 reached while liblustre testing
404 Details    : ulnds/socklnd must close open socket after unsuccessful
405              'say hello' attempt.
406
407 Severity   : major 
408 Bugzilla   : 13482
409 Description: build error
410 Details    : fix typos in gmlnd, ptllnd and viblnd
411
412 --------------------------------------------------------------------------------
413
414 2007-07-30  Cluster File Systems, Inc. <info@clusterfs.com>
415        * version 1.6.1
416        * Support for networks:
417         socklnd   - kernels up to 2.6.16,
418         qswlnd    - Qsnet kernel modules 5.20 and later,
419         openiblnd - IbGold 1.8.2,
420         o2iblnd   - OFED 1.1 and 1.2
421         viblnd    - Voltaire ibhost 3.4.5 and later,
422         ciblnd    - Topspin 3.2.0,
423         iiblnd    - Infiniserv 3.3 + PathBits patch,
424         gmlnd     - GM 2.1.22 and later,
425         mxlnd     - MX 1.2.1 or later,
426         ptllnd    - Portals 3.3 / UNICOS/lc 1.5.x, 2.0.x
427
428 --------------------------------------------------------------------------------
429
430 2007-06-21  Cluster File Systems, Inc. <info@clusterfs.com>
431        * version 1.4.11
432        * Support for networks:
433         socklnd   - kernels up to 2.6.16,
434         qswlnd    - Qsnet kernel modules 5.20 and later,
435         openiblnd - IbGold 1.8.2,
436         o2iblnd   - OFED 1.1
437         viblnd    - Voltaire ibhost 3.4.5 and later,
438         ciblnd    - Topspin 3.2.0,
439         iiblnd    - Infiniserv 3.3 + PathBits patch,
440         gmlnd     - GM 2.1.22 and later,
441         mxlnd     - MX 1.2.1 or later,
442         ptllnd    - Portals 3.3 / UNICOS/lc 1.5.x, 2.0.x
443
444 Severity   : minor
445 Bugzilla   : 13288
446 Description: Initialize cpumask before use
447
448 Severity   : major
449 Bugzilla   : 12014
450 Description: ASSERTION failures when upgrading to the patchless zero-copy
451              socklnd 
452 Details    : This bug affects "rolling upgrades", causing an inconsistent
453              protocol version negotiation and subsequent assertion failure
454              during rolling upgrades after the first wave of upgrades.
455
456 Severity   : minor
457 Bugzilla   : 11223
458 Details    : Change "dropped message" CERRORs to D_NETERROR so they are
459              logged instead of creating "console chatter" when a lustre
460              timeout races with normal RPC completion.
461
462 Severity   : minor
463 Details    : lnet_clear_peer_table can wait forever if user forgets to
464              clear a lazy portal.
465
466 Severity   : minor
467 Details    : libcfs_id2str should check pid against LNET_PID_ANY.
468
469 Severity   : major
470 Bugzilla   : 10916
471 Description: added LNET self test
472 Details    : landing b_self_test
473
474 Severity   : minor
475 Frequency  : rare
476 Bugzilla   : 12227
477 Description: cfs_duration_{u,n}sec() wrongly calculate nanosecond part of
478              struct timeval.
479 Details    : do_div() macro is used incorrectly.
480
481 2007-04-23  Cluster File Systems, Inc. <info@clusterfs.com>
482
483 Severity   : normal
484 Bugzilla   : 11680
485 Description: make panic on lbug configurable
486
487 Severity   : major
488 Bugzilla   : 12316
489 Description: Add OFED1.2 support to o2iblnd
490 Details    : o2iblnd depends on OFED's modules, if out-tree OFED's modules
491              are installed (other than kernel's in-tree infiniband), there
492              could be some problem while insmod o2iblnd (mismatch CRC of 
493              ib_* symbols).
494              If extra Module.symvers is supported in kernel (i.e, 2.6.17),
495              this link provides solution:
496              https://bugs.openfabrics.org/show_bug.cgi?id=355
497              if extra Module.symvers is not supported in kernel, we will
498              have to run the script in bug 12316 to update
499              $LINUX/module.symvers before building o2iblnd.
500              More details about this are in bug 12316.
501
502 ------------------------------------------------------------------------------
503
504 2007-04-01  Cluster File Systems, Inc. <info@clusterfs.com>
505        * version 1.4.10 / 1.6.0
506        * Support for networks:
507         socklnd   - kernels up to 2.6.16,
508         qswlnd    - Qsnet kernel modules 5.20 and later,
509         openiblnd - IbGold 1.8.2,
510         o2iblnd   - OFED 1.1,
511         viblnd    - Voltaire ibhost 3.4.5 and later,
512         ciblnd    - Topspin 3.2.0,
513         iiblnd    - Infiniserv 3.3 + PathBits patch,
514         gmlnd     - GM 2.1.22 and later,
515         mxlnd     - MX 1.2.1 or later,
516         ptllnd    - Portals 3.3 / UNICOS/lc 1.5.x, 2.0.x
517         
518 Severity   : minor
519 Frequency  : rare
520 Description: Ptllnd didn't init kptllnd_data.kptl_idle_txs before it could be
521              possibly accessed in kptllnd_shutdown. Ptllnd should init 
522              kptllnd_data.kptl_ptlid2str_lock before calling kptllnd_ptlid2str.
523
524 Severity   : normal
525 Frequency  : rare
526 Description: gmlnd ignored some transmit errors when finalizing lnet messages.
527
528 Severity   : minor
529 Frequency  : rare
530 Description: ptllnd logs a piece of incorrect debug info in kptllnd_peer_handle_hello.
531
532 Severity   : minor
533 Frequency  : rare
534 Description: the_lnet.ln_finalizing was not set when the current thread is
535              about to complete messages. It only affects multi-threaded 
536              user space LNet.
537         
538 Severity   : normal
539 Frequency  : rare
540 Bugzilla   : 11472
541 Description: Changed the default kqswlnd ntxmsg=512
542         
543 Severity   : major
544 Frequency  : rare
545 Bugzilla   : 12458
546 Description: Assertion failure in kernel ptllnd caused by posting passive
547              bulk buffers before connection establishment complete.
548         
549 Severity   : major
550 Frequency  : rare
551 Bugzilla   : 12445
552 Description: A race in kernel ptllnd between deleting a peer and posting
553              new communications for it could hang communications -
554              manifesting as "Unexpectedly long timeout" messages.
555         
556 Severity   : major
557 Frequency  : rare
558 Bugzilla   : 12432
559 Description: Kernel ptllnd lock ordering issue could hang a node.
560         
561 Severity   : major
562 Frequency  : rare
563 Bugzilla   : 12016
564 Description: node crash on socket teardown race
565
566 Severity   : minor
567 Frequency  : 'lctl peer_list' issued on a mx net
568 Bugzilla   : 12237
569 Description: Enable lctl's peer_list for MXLND
570
571 Severity   : major
572 Frequency  : after Ptllnd timeouts and portals congestion
573 Bugzilla   : 11659
574 Description: Credit overflows
575 Details    : This was a bug in ptllnd connection establishment.  The fix
576              implements better peer stamps to disambiguate connection
577              establishment and ensure both peers enter the credit flow
578              state machine consistently.
579
580 Severity   : major
581 Frequency  : rare       
582 Bugzilla   : 11394
583 Description: kptllnd didn't propagate some network errors up to LNET 
584 Details    : This bug was spotted while investigating 11394.  The fix
585              ensures network errors on sends and bulk transfers are
586              propagated to LNET/lustre correctly.
587
588 Severity   : enhancement
589 Bugzilla   : 10316
590 Description: Fixed console chatter in case of -ETIMEDOUT.
591
592 Severity   : enhancement
593 Bugzilla   : 11684
594 Description: Added D_NETTRACE for recording network packet history
595              (initially only for ptllnd).  Also a separate userspace
596              ptllnd facility to gather history which should really be
597              covered by D_NETTRACE too, if only CDEBUG recorded history in
598              userspace.
599
600 Severity   : major
601 Frequency  : rare       
602 Bugzilla   : 11616
603 Description: o2iblnd handle early RDMA_CM_EVENT_DISCONNECTED.
604 Details    : If the fabric is lossy, an RDMA_CM_EVENT_DISCONNECTED
605              callback can occur before a connection has actually been
606              established.  This caused an assertion failure previously.
607
608 Severity   : enhancement
609 Bugzilla   : 11094
610 Description: Multiple instances for o2iblnd
611 Details    : Allow multiple instances of o2iblnd to enable networking over
612              multiple HCAs and routing between them.
613
614 Severity   : major
615 Bugzilla   : 11201
616 Description: lnet deadlock in router_checker
617 Details    : turned ksnd_connd_lock, ksnd_reaper_lock, and ksock_net_t:ksnd_lock
618              into BH locks to eliminate potential deadlock caused by
619              ksocknal_data_ready() preempting code holding these locks.
620
621 Severity   : major
622 Bugzilla   : 11126
623 Description: Millions of failed socklnd connection attempts cause a very slow FS
624 Details    : added a new route flag ksnr_scheduled to distinguish from
625              ksnr_connecting, so that a peer connection request is only turned
626              down for race concerns when an active connection to the same peer
627              is under progress (instead of just being scheduled).
628
629 ------------------------------------------------------------------------------
630
631 2007-02-09  Cluster File Systems, Inc. <info@clusterfs.com>
632        * version 1.4.9
633        * Support for networks:
634         socklnd   - kernels up to 2.6.16
635         qswlnd    - Qsnet kernel modules 5.20 and later
636         openiblnd - IbGold 1.8.2
637         o2iblnd   - OFED 1.1
638         viblnd    - Voltaire ibhost 3.4.5 and later
639         ciblnd    - Topspin 3.2.0
640         iiblnd    - Infiniserv 3.3 + PathBits patch
641         gmlnd     - GM 2.1.22 and later
642         mxlnd     - MX 1.2.1 or later
643         ptllnd    - Portals 3.3 / UNICOS/lc 1.5.x, 2.0.x
644        * bug fixes
645
646 Severity   : major on XT3
647 Bugzilla   : none
648 Description: libcfs overwrites /proc/sys/portals
649 Details    : libcfs created a symlink from /proc/sys/portals to
650              /proc/sys/lnet for backwards compatibility.  This is no
651              longer required and makes the Cray portals /proc variables
652              inaccessible.
653
654 Severity   : minor
655 Bugzilla   : 11312
656 Description: OFED FMR API change
657 Details    : This changes parameter usage to reflect a change in
658              ib_fmr_pool_map_phys() between OFED 1.0 and OFED 1.1.  Note
659              that FMR support is only used in experimental versions of the
660              o2iblnd - this change does not affect standard usage at all.
661
662 Severity   : enhancement
663 Bugzilla   : 11245
664 Description: new ko2iblnd module parameter: ib_mtu
665 Details    : the default IB MTU of 2048 performs badly on 23108 Tavor
666              HCAs.  You can avoid this problem by setting the MTU to 1024
667              using this module parameter.
668
669 Severity   : enhancement
670 Bugzilla   : 11118/11620
671 Description: ptllnd small request message buffer alignment fix
672 Details    : Set the PTL_MD_LOCAL_ALIGN8 option on small message receives.
673              Round up small message size on sends in case this option
674              is not supported.  11620 was a defect in the initial
675              implementation which effectively asserted all peers had to be
676              running the correct protocol version which was fixed by always
677              NAK-ing such requests and handling any misalignments they
678              introduce.
679
680 Severity   : minor
681 Frequency  : rarely
682 Description: When kib(nal|lnd)_del_peer() is called upon a peer whose
683              ibp_tx_queue is not empty, kib(nal|lnd)_destroy_peer()'s
684              'LASSERT(list_empty(&peer->ibp_tx_queue))' will fail.
685
686 Severity   : enhancement
687 Bugzilla   : 11250
688 Description: Patchless ZC(zero copy) socklnd
689 Details    : New protocol for socklnd, socklnd can support zero copy without
690              kernel patch, it's compatible with old socklnd. Checksum is 
691              moved from tunables to modparams.
692
693 Severity   : minor
694 Frequency  : rarely
695 Description: When ksocknal_del_peer() is called upon a peer whose
696              ksnp_tx_queue is not empty, ksocknal_destroy_peer()'s
697              'LASSERT(list_empty(&peer->ksnp_tx_queue))' will fail.
698
699 Severity   : normal
700 Frequency  : when ptlrpc is under heavy use and runs out of request buffer
701 Bugzilla   : 11318
702 Description: In lnet_match_blocked_msg(), md can be used without holding a
703              ref on it.
704
705 Severity   : minor
706 Frequency  : very rarely
707 Bugzilla   : 10727
708 Description: If ksocknal_lib_setup_sock() fails, a ref on peer is lost.
709              If connd connects a route which has been closed by
710              ksocknal_shutdown(), ksocknal_create_routes() may create new
711              routes which hold references on the peer, causing shutdown
712              process to wait for peer to disappear forever.
713
714 Severity   : enhancement
715 Bugzilla   : 11234
716 Description: Dump XT3 portals traces on kptllnd timeout
717 Details    : Set the kptllnd module parameter "ptltrace_on_timeout=1" to
718              dump Cray portals debug traces to a file.  The kptllnd module
719              parameter "ptltrace_basename", default "/tmp/lnet-ptltrace",
720              is the basename of the dump file.
721
722 Severity   : major
723 Frequency  : infrequent
724 Bugzilla   : 11308
725 Description: kernel ptllnd fix bug in connection re-establishment
726 Details    : Kernel ptllnd could produce protocol errors e.g. illegal
727              matchbits and/or violate the credit flow protocol when trying
728              to re-establish a connection with a peer after an error or
729              timeout. 
730
731 Severity   : enhancement
732 Bugzilla   : 10316
733 Description: Allow /proc/sys/lnet/debug to be set symbolically
734 Details    : Allow debug and subsystem debug values to be read/set by name
735              in addition to numerically, for ease of use.
736
737 Severity   : normal
738 Frequency  : only in configurations with LNET routers
739 Bugzilla   : 10316
740 Description: routes automatically marked down and recovered
741 Details    : In configurations with LNET routers if a router fails routers
742              now actively try to recover routes that are down, unless they
743              are marked down by an administrator.
744
745 ------------------------------------------------------------------------------
746
747 2006-12-09  Cluster File Systems, Inc. <info@clusterfs.com>
748
749 Severity   : critical
750 Frequency  : very rarely, in configurations with LNET routers and TCP
751 Bugzilla   : 10889
752 Description: incorrect data written to files on OSTs
753 Details    : In certain high-load conditions incorrect data may be written
754              to files on the OST when using TCP networks.
755
756 ------------------------------------------------------------------------------
757
758 2006-07-31  Cluster File Systems, Inc. <info@clusterfs.com>
759         * version 1.4.7
760         - rework CDEBUG messages rate-limiting mechanism b=10375
761         - add per-socket tunables for socklnd if the kernel is patched b=10327
762
763 ------------------------------------------------------------------------------
764
765 2006-02-15  Cluster File Systems, Inc. <info@clusterfs.com>
766         * version 1.4.6
767         - fix use of portals/lnet pid to avoid dropping RPCs b=10074
768         - iiblnd wasn't mapping all memory, resulting in comms errors b=9776
769         - quiet LNET startup LNI message for liblustre b=10128
770         - Better console error messages if 'ip2nets' can't match an IP address
771         - Fixed overflow/use-before-set bugs in linux-time.h
772         - Fixed ptllnd bug that wasn't initialising rx descriptors completely
773         - LNET teardown failed an assertion about the route table being empty
774         - Fixed a crash in LNetEQPoll(<invalid handle>)
775         - Future protocol compatibility work (b_rls146_lnetprotovrsn)
776         - improve debug message for liblustre/Catamount nodes (b=10116)
777
778 2005-10-10  Cluster File Systems, Inc. <info@clusterfs.com>
779         * Configuration change for the XT3
780              The PTLLND is now used to run Lustre over Portals on the XT3.
781              The configure option(s) --with-cray-portals are no longer
782              used.  Rather --with-portals=<path-to-portals-includes> is
783              used to enable building on the XT3.  In addition to enable
784              XT3 specific features the option --enable-cray-xt3 must be
785              used.
786
787 2005-10-10  Cluster File Systems, Inc. <info@clusterfs.com>
788         * Portals has been removed, replaced by LNET.
789            LNET is new networking infrastructure for Lustre, it includes a
790            reorganized network configuration mode (see the user
791            documentation for full details) as well as support for routing
792            between different network fabrics.  Lustre Networking Devices
793            (LNDS) for the supported network fabrics have also been created
794            for this new infrastructure.
795
796 2005-08-08  Cluster File Systems, Inc. <info@clusterfs.com>
797        * version 1.4.4
798        * bug fixes
799
800 Severity   : major
801 Frequency  : rare (large Voltaire clusters only)
802 Bugzilla   : 6993
803 Description: the default number of reserved transmit descriptors was too low
804              for some large clusters
805 Details    : As a workaround, the number was increased.  A proper fix includes
806              a run-time tunable.
807
808 2005-06-02  Cluster File Systems, Inc. <info@clusterfs.com>
809        * version 1.4.3
810        * bug fixes
811
812 Severity   : major
813 Frequency  : occasional (large-scale events, cluster reboot, network failure)
814 Bugzilla   : 6411
815 Description: too many error messages on console obscure actual problem and
816              can slow down/panic server, or cause recovery to fail repeatedly
817 Details    : enable rate-limiting of console error messages, and some messages
818              that were console errors now only go to the kernel log
819
820 Severity   : enhancement
821 Bugzilla   : 1693
822 Description: add /proc/sys/portals/catastrophe entry which will report if
823              that node has previously LBUGged
824
825 2005-04-06  Cluster File Systems, Inc. <info@clusterfs.com>
826        * bugs
827         - update gmnal to use PTL_MTU, fix module refcounting (b=5786)
828
829 2005-04-04  Cluster File Systems, Inc. <info@clusterfs.com>
830        * bugs
831         - handle error return code in kranal_check_fma_rx() (5915,6054)
832
833 2005-02-04  Cluster File Systems, Inc. <info@clusterfs.com>
834        * miscellania
835         - update vibnal (Voltaire IB NAL)
836         - update gmnal (Myrinet NAL), gmnalid
837
838 2005-02-04  Eric Barton  <eeb@bartonsoftware.com>
839
840         * Landed portals:b_port_step as follows...
841
842           - removed CFS_DECL_SPIN* 
843             just use 'spinlock_t' and initialise with spin_lock_init()
844
845           - removed CFS_DECL_MUTEX*
846             just use 'struct semaphore' and initialise with init_mutex()
847
848           - removed CFS_DECL_RWSEM*
849             just use 'struct rw_semaphore' and initialise with init_rwsem()
850
851           - renamed cfs_sleep_chan -> cfs_waitq
852                     cfs_sleep_link -> cfs_waitlink
853
854           - fixed race in linux version of arch-independent socknal
855             (the ENOMEM/EAGAIN decision).
856
857           - Didn't fix problems in Darwin version of arch-independent socknal
858             (resetting socket callbacks, eager ack hack, ENOMEM/EAGAIN decision)
859
860           - removed libcfs types from non-socknal header files (only some types
861             in the header files had been changed; the .c files hadn't been
862             updated at all).