Whamcloud - gitweb
b=18844
[fs/lustre-release.git] / lnet / ChangeLog
1 tbd  Sun Microsystems, Inc.
2         * version 2.0.0
3         * Support for networks:
4          socklnd   - any kernel supported by Lustre,
5          qswlnd    - Qsnet kernel modules 5.20 and later,
6          openiblnd - IbGold 1.8.2,
7          o2iblnd   - OFED 1.1, 1.2.0, 1.2.5, and 1.3
8          viblnd    - Voltaire ibhost 3.4.5 and later,
9          ciblnd    - Topspin 3.2.0,
10          iiblnd    - Infiniserv 3.3 + PathBits patch,
11          gmlnd     - GM 2.1.22 and later,
12          mxlnd     - MX 1.2.1 or later,
13          ptllnd    - Portals 3.3 / UNICOS/lc 1.5.x, 2.0.x
14
15 Severity   : 
16 Bugzilla   : 
17 Description: 
18 Details    : 
19
20 Severity   : normal
21 Bugzilla   : 18844
22 Description: Fixing deadlock in usocklnd
23 Details    : A deadlock was possible in usocklnd due to race condition while
24              tearing connection down. The problem resulted from erroneous
25              assumption that lnet_finalize() could have been called holding
26              some lnd-level locks.
27
28 Severity   : major
29 Bugzilla   : 13621, 15983
30 Description: Protocol V2 of o2iblnd
31 Details    : o2iblnd V2 has several new features:
32              . map-on-demand: map-on-demand is disabled by default, it can
33                be enabled by using modparam "map_on_demand=@value@", @value@
34                should >= 0 and < 256, 0 will disable map-on-demand, any other
35                valid value will enable map-on-demand. 
36                Oi2blnd will create FMR or physical MR for RDMA if fragments of
37                RD > @value@.
38                Enable map-on-demand will take less memory for new connection,
39                but a little more CPU for RDMA.
40              . iWARP : to support iWARP, please enable map-on-demand, 32 and 64
41                are recommanded value. iWARP will probably fail for value >=128.
42              . OOB NOOP message: to resolve deadlock on router.
43              . tunable peer_credits_hiw: (high water to return credits),
44                default value of peer_credits_hiw equals to (peer_credits -1),
45                user can change it between peer_credits/2 and (peer_credits - 1).
46                Lower value is recommended for high latency network.
47              . tunable message queue size: it always equals to peer_credits,
48                higher value is recommended for high latency network.
49              . It's compatible with earlier version of o2iblnd
50
51 Severity   : normal
52 Bugzilla   : 18414
53 Description: Fixing 'running out of ports' issue
54 Details    : Add a delay before next reconnect attempt in ksocklnd in
55              the case of lost race. Limit the frequency of query-requests
56              in lnet. Improved handling of 'dead peer' notifications in
57              lnet.
58
59 Severity   : normal
60 Bugzilla   : 16034
61 Description: Change ptllnd timeout and watchdog timers
62 Details    : Add ptltrace_on_nal_failed and bump ptllnd timeout to match
63              Portals wire timeout.
64
65 Severity   : normal
66 Bugzilla   : 16186
67 Description: One down Lustre FS hangs ALL mounted Lustre filesystems
68 Details    : Shared routing enhancements - peer health detection.
69
70 Severity   : enhancement
71 Bugzilla   : 14132
72 Description: acceptor.c cleanup
73 Details    : Code duplication in acceptor.c for the cases of kernel and
74              user-space removed. User-space libcfs tcpip primitives
75              uniformed to have prototypes similar to kernel ones. Minor
76              cosmetic changes in usocklnd to use cfs_socket_t as
77              representation of socket.
78
79 Severity   : minor
80 Bugzilla   : 11245
81 Description: IB path MTU mistakenly set to 1st path MTU when ib_mtu is off
82 Details    : See comment 46 in bug 11245 for details - it's indeed a bug
83              introduced by the original 11245 fix.
84
85 Severity   : minor
86 Bugzilla   : 15984
87 Description: uptllnd credit overflow fix
88 Details    : kptl_msg_t::ptlm_credits could be overflown by uptllnd since
89              it is only a __u8.
90
91 Severity   : major
92 Bugzilla   : 14634
93 Description: socklnd protocol version 3
94 Details    : With current protocol V2, connections on router can be
95              blocked and can't receive any incoming messages when there is no
96              more router buffer, so ZC-ACK can't be handled (LNet message
97              can't be finalized) and will cause deadlock on router.
98              Protocol V3 has a dedicated connection for emergency messages
99              like ZC-ACK to router, messages on this dedicated connection
100              don't need any credit so will never be blocked. Also, V3 can send
101              keepalive ping in specified period for router healthy checking.
102
103 -------------------------------------------------------------------------------
104
105 12-31-2008  Sun Microsystems, Inc.
106         * version 1.8.0
107         * Support for networks:
108          socklnd   - any kernel supported by Lustre,
109          qswlnd    - Qsnet kernel modules 5.20 and later,
110          openiblnd - IbGold 1.8.2,
111          o2iblnd   - OFED 1.1, 1.2.0, 1.2.5, and 1.3
112          viblnd    - Voltaire ibhost 3.4.5 and later,
113          ciblnd    - Topspin 3.2.0,
114          iiblnd    - Infiniserv 3.3 + PathBits patch,
115          gmlnd     - GM 2.1.22 and later,
116          mxlnd     - MX 1.2.1 or later,
117          ptllnd    - Portals 3.3 / UNICOS/lc 1.5.x, 2.0.x
118
119 Severity   : major
120 Bugzilla   : 15983
121 Description: workaround for OOM from o2iblnd
122 Details    : OFED needs allocate big chunk of memory for QP while creating
123              connection for o2iblnd, OOM can happen if no such a contiguous
124              memory chunk.
125              QP size is decided by concurrent_sends and max_fragments of
126              o2iblnd, now we permit user to specify smaller value for
127              concurrent_sends of o2iblnd(i.e: concurrent_sends=7), which
128              will decrease memory block size required by creating QP.
129
130 Severity   : major
131 Bugzilla   : 15093
132 Description: Support Zerocopy receive of Chelsio device
133 Details    : Chelsio driver can support zerocopy for iov[1] if it's
134              contiguous and large enough.
135
136 Severity   : normal
137 Bugzilla   : 13490
138 Description: fix credit flow deadlock in uptllnd
139
140 Severity   : normal
141 Bugzilla   : 16308
142 Description: finalize network operation in reasonable time
143 Details    : conf-sanity test_32a couldn't stop ost and mds because it
144              tried to access non-existent peer and tcp connect took
145              quite long before timing out.
146
147 Severity   : major
148 Bugzilla   : 16338
149 Description: Continuous recovery on 33 of 413 nodes after lustre oss failure
150 Details    : Lost reference on conn prevents peer from being destroyed, which
151              could prevent new peer creation if peer count has reached upper
152              limit.
153
154 Severity   : normal
155 Bugzilla   : 16102
156 Description: LNET Selftest results in Soft lockup on OSS CPU
157 Details    : only hits when 8 or more o2ib clients involved and a session is
158              torn down with 'lst end_session' without preceeding 'lst stop'.
159
160 Severity   : minor
161 Bugzilla   : 16321
162 Description: concurrent_sends in IB LNDs should not be changeable at run time
163 Details    : concurrent_sends in IB LNDs should not be changeable at run time
164
165 Severity   : normal
166 Bugzilla   : 15272
167 Description: ptl_send_rpc hits LASSERT when ptl_send_buf fails
168 Details    : only hits under out-of-memory situations
169
170
171 -------------------------------------------------------------------------------
172
173 2009-02-07 Sun Microsystems, Inc.
174         * version 1.6.7
175         * Support for networks:
176          socklnd   - any kernel supported by Lustre,
177          qswlnd    - Qsnet kernel modules 5.20 and later,
178          openiblnd - IbGold 1.8.2,
179          o2iblnd   - OFED 1.1, 1.2.0, 1.2.5, and 1.3
180          viblnd    - Voltaire ibhost 3.4.5 and later,
181          ciblnd    - Topspin 3.2.0,
182          iiblnd    - Infiniserv 3.3 + PathBits patch,
183          gmlnd     - GM 2.1.22 and later,
184          mxlnd     - MX 1.2.1 or later,
185          ptllnd    - Portals 3.3 / UNICOS/lc 1.5.x, 2.0.x
186 Severity   : major
187 Bugzilla   : 15983
188 Description: workaround for OOM from o2iblnd
189 Details    : OFED needs allocate big chunk of memory for QP while creating
190              connection for o2iblnd, OOM can happen if no such a contiguous
191              memory chunk.
192              QP size is decided by concurrent_sends and max_fragments of
193              o2iblnd, now we permit user to specify smaller value for
194              concurrent_sends of o2iblnd(i.e: concurrent_sends=7), which
195              will decrease memory block size required by creating QP.
196
197 Severity   : major
198 Bugzilla   : 15093
199 Description: Support Zerocopy receive of Chelsio device
200 Details    : Chelsio driver can support zerocopy for iov[1] if it's
201              contiguous and large enough.
202 Severity   : normal
203 Bugzilla   : 13490
204 Description: fix credit flow deadlock in uptllnd
205
206 Severity   : normal
207 Bugzilla   : 16308
208 Description: finalize network operation in reasonable time
209 Details    : conf-sanity test_32a couldn't stop ost and mds because it
210              tried to access non-existent peer and tcp connect took
211              quite long before timing out.
212
213 Severity   : major
214 Bugzilla   : 16338
215 Description: Continuous recovery on 33 of 413 nodes after lustre oss failure
216 Details    : Lost reference on conn prevents peer from being destroyed, which
217              could prevent new peer creation if peer count has reached upper
218              limit.
219
220 Severity   : normal
221 Bugzilla   : 16102
222 Description: LNET Selftest results in Soft lockup on OSS CPU
223 Details    : only hits when 8 or more o2ib clients involved and a session is
224              torn down with 'lst end_session' without preceeding 'lst stop'.
225
226 Severity   : minor
227 Bugzilla   : 16321
228 Description: concurrent_sends in IB LNDs should not be changeable at run time
229 Details    : concurrent_sends in IB LNDs should not be changeable at run time
230
231 -------------------------------------------------------------------------------
232
233 11-03-2008  Sun Microsystems, Inc.
234         * version 1.6.6
235         * Support for networks:
236          socklnd   - any kernel supported by Lustre,
237          qswlnd    - Qsnet kernel modules 5.20 and later,
238          openiblnd - IbGold 1.8.2,
239          o2iblnd   - OFED 1.1, 1.2.0, 1.2.5, and 1.3
240          viblnd    - Voltaire ibhost 3.4.5 and later,
241          ciblnd    - Topspin 3.2.0,
242          iiblnd    - Infiniserv 3.3 + PathBits patch,
243          gmlnd     - GM 2.1.22 and later,
244          mxlnd     - MX 1.2.1 or later,
245          ptllnd    - Portals 3.3 / UNICOS/lc 1.5.x, 2.0.x
246
247 Severity   : normal
248 Bugzilla   : 15272
249 Description: ptl_send_rpc hits LASSERT when ptl_send_buf fails
250 Details    : only hits under out-of-memory situations
251
252 -------------------------------------------------------------------------------
253
254 04-26-2008  Sun Microsystems, Inc.
255        * version 1.6.5
256        * Support for networks:
257         socklnd   - any kernel supported by Lustre,
258         qswlnd    - Qsnet kernel modules 5.20 and later,
259         openiblnd - IbGold 1.8.2,
260         o2iblnd   - OFED 1.1 and 1.2.0, 1.2.5
261         viblnd    - Voltaire ibhost 3.4.5 and later,
262         ciblnd    - Topspin 3.2.0,
263         iiblnd    - Infiniserv 3.3 + PathBits patch,
264         gmlnd     - GM 2.1.22 and later,
265         mxlnd     - MX 1.2.1 or later,
266         ptllnd    - Portals 3.3 / UNICOS/lc 1.5.x, 2.0.x
267
268 Severity   : normal
269 Bugzilla   : 14322
270 Description: excessive debug information removed
271 Details    : excessive debug information removed
272
273 Severity   : major
274 Bugzilla   : 15712
275 Description: ksocknal_create_conn() hit ASSERTION during connection race
276 Details    : ksocknal_create_conn() hit ASSERTION during connection race
277
278 Severity   : major
279 Bugzilla   : 13983
280 Description: ksocknal_send_hello() hit ASSERTION while connecting race
281 Details    : ksocknal_send_hello() hit ASSERTION while connecting race
282
283 Severity   : major
284 Bugzilla   : 14425
285 Description: o2iblnd/ptllnd credit deadlock in a routed config.
286 Details    : o2iblnd/ptllnd credit deadlock in a routed config.
287
288 Severity   : normal
289 Bugzilla   : 14956
290 Description: High load after starting lnet
291 Details    : gmlnd should sleep in rx thread in interruptible way. Otherwise,
292              uptime utility reports high load that looks confusingly.
293
294 Severity   : normal
295 Bugzilla   : 14838
296 Description: ksocklnd fails to establish connection if accept_port is high
297 Details    : PID remapping must not be done for active (outgoing) connections
298
299
300 --------------------------------------------------------------------------------
301
302 2008-01-11  Sun Microsystems, Inc.
303        * version 1.4.12
304        * Support for networks:
305         socklnd   - any kernel supported by Lustre,
306         qswlnd    - Qsnet kernel modules 5.20 and later,
307         openiblnd - IbGold 1.8.2,
308         o2iblnd   - OFED 1.1 and 1.2.0, 1.2.5
309         viblnd    - Voltaire ibhost 3.4.5 and later,
310         ciblnd    - Topspin 3.2.0,
311         iiblnd    - Infiniserv 3.3 + PathBits patch,
312         gmlnd     - GM 2.1.22 and later,
313         mxlnd     - MX 1.2.1 or later,
314         ptllnd    - Portals 3.3 / UNICOS/lc 1.5.x, 2.0.x
315
316 Severity   : normal
317 Bugzilla   : 14387
318 Description: liblustre network error
319 Details    : liblustre clients should understand LNET_ACCEPT_PORT environment
320              variable even if they don't start lnet acceptor.
321
322 Severity   : normal
323 Bugzilla   : 14300
324 Description: Strange message from lnet (Ignoring prediction from the future)
325 Details    : Incorrect calculation of peer's last_alive value in ksocklnd
326
327 --------------------------------------------------------------------------------
328
329 2007-12-07         Cluster File Systems, Inc. <info@clusterfs.com>
330        * version 1.6.4
331        * Support for networks:
332         socklnd   - any kernel supported by Lustre,
333         qswlnd    - Qsnet kernel modules 5.20 and later,
334         openiblnd - IbGold 1.8.2,
335         o2iblnd   - OFED 1.1 and 1.2.0, 1.2.5.
336         viblnd    - Voltaire ibhost 3.4.5 and later,
337         ciblnd    - Topspin 3.2.0,
338         iiblnd    - Infiniserv 3.3 + PathBits patch,
339         gmlnd     - GM 2.1.22 and later,
340         mxlnd     - MX 1.2.1 or later,
341         ptllnd    - Portals 3.3 / UNICOS/lc 1.5.x, 2.0.x
342
343 Severity   : normal
344 Bugzilla   : 14238
345 Description: ASSERTION(me == md->md_me) failed in lnet_match_md()
346
347 Severity   : normal
348 Bugzilla   : 12494
349 Description: increase send queue size for ciblnd/openiblnd
350
351 Severity   : normal
352 Bugzilla   : 12302
353 Description: new userspace socklnd
354 Details    : Old userspace tcpnal that resided in lnet/ulnds/socklnd replaced
355              with new one - usocklnd.
356
357 Severity   : enhancement
358 Bugzilla   : 11686
359 Description: Console message flood
360 Details    : Make cdls ratelimiting more tunable by adding several tunable in
361              procfs /proc/sys/lnet/console_{min,max}_delay_centisecs and
362              /proc/sys/lnet/console_backoff.
363
364 --------------------------------------------------------------------------------
365
366 2007-09-27         Cluster File Systems, Inc. <info@clusterfs.com>
367        * version 1.6.3
368        * Support for networks:
369         socklnd   - any kernel supported by Lustre,
370         qswlnd    - Qsnet kernel modules 5.20 and later,
371         openiblnd - IbGold 1.8.2,
372         o2iblnd   - OFED 1.1 and 1.2,
373         viblnd    - Voltaire ibhost 3.4.5 and later,
374         ciblnd    - Topspin 3.2.0,
375         iiblnd    - Infiniserv 3.3 + PathBits patch,
376         gmlnd     - GM 2.1.22 and later,
377         mxlnd     - MX 1.2.1 or later,
378         ptllnd    - Portals 3.3 / UNICOS/lc 1.5.x, 2.0.x
379
380 Severity   : normal
381 Bugzilla   : 12782
382 Description: /proc/sys/lnet has non-sysctl entries
383 Details    : Updating dump_kernel/daemon_file/debug_mb to use sysctl variables
384
385 Severity   : major
386 Bugzilla   : 13236
387 Description: TOE Kernel panic by ksocklnd
388 Details    : offloaded sockets provide their own implementation of sendpage,
389              can't call tcp_sendpage() directly
390
391 Severity   : normal
392 Bugzilla   : 10778
393 Description: kibnal_shutdown() doesn't finish; lconf --cleanup hangs
394 Details    : races between lnd_shutdown and peer creation prevent 
395              lnd_shutdown from finishing.
396
397 Severity   : normal
398 Bugzilla   : 13279
399 Description: open files rlimit 1024 reached while liblustre testing
400 Details    : ulnds/socklnd must close open socket after unsuccessful
401              'say hello' attempt.
402
403 Severity   : major 
404 Bugzilla   : 13482
405 Description: build error
406 Details    : fix typos in gmlnd, ptllnd and viblnd
407
408 --------------------------------------------------------------------------------
409
410 2007-07-30  Cluster File Systems, Inc. <info@clusterfs.com>
411        * version 1.6.1
412        * Support for networks:
413         socklnd   - kernels up to 2.6.16,
414         qswlnd    - Qsnet kernel modules 5.20 and later,
415         openiblnd - IbGold 1.8.2,
416         o2iblnd   - OFED 1.1 and 1.2
417         viblnd    - Voltaire ibhost 3.4.5 and later,
418         ciblnd    - Topspin 3.2.0,
419         iiblnd    - Infiniserv 3.3 + PathBits patch,
420         gmlnd     - GM 2.1.22 and later,
421         mxlnd     - MX 1.2.1 or later,
422         ptllnd    - Portals 3.3 / UNICOS/lc 1.5.x, 2.0.x
423
424 --------------------------------------------------------------------------------
425
426 2007-06-21  Cluster File Systems, Inc. <info@clusterfs.com>
427        * version 1.4.11
428        * Support for networks:
429         socklnd   - kernels up to 2.6.16,
430         qswlnd    - Qsnet kernel modules 5.20 and later,
431         openiblnd - IbGold 1.8.2,
432         o2iblnd   - OFED 1.1
433         viblnd    - Voltaire ibhost 3.4.5 and later,
434         ciblnd    - Topspin 3.2.0,
435         iiblnd    - Infiniserv 3.3 + PathBits patch,
436         gmlnd     - GM 2.1.22 and later,
437         mxlnd     - MX 1.2.1 or later,
438         ptllnd    - Portals 3.3 / UNICOS/lc 1.5.x, 2.0.x
439
440 Severity   : minor
441 Bugzilla   : 13288
442 Description: Initialize cpumask before use
443
444 Severity   : major
445 Bugzilla   : 12014
446 Description: ASSERTION failures when upgrading to the patchless zero-copy
447              socklnd 
448 Details    : This bug affects "rolling upgrades", causing an inconsistent
449              protocol version negotiation and subsequent assertion failure
450              during rolling upgrades after the first wave of upgrades.
451
452 Severity   : minor
453 Bugzilla   : 11223
454 Details    : Change "dropped message" CERRORs to D_NETERROR so they are
455              logged instead of creating "console chatter" when a lustre
456              timeout races with normal RPC completion.
457
458 Severity   : minor
459 Details    : lnet_clear_peer_table can wait forever if user forgets to
460              clear a lazy portal.
461
462 Severity   : minor
463 Details    : libcfs_id2str should check pid against LNET_PID_ANY.
464
465 Severity   : major
466 Bugzilla   : 10916
467 Description: added LNET self test
468 Details    : landing b_self_test
469
470 Severity   : minor
471 Frequency  : rare
472 Bugzilla   : 12227
473 Description: cfs_duration_{u,n}sec() wrongly calculate nanosecond part of
474              struct timeval.
475 Details    : do_div() macro is used incorrectly.
476
477 2007-04-23  Cluster File Systems, Inc. <info@clusterfs.com>
478
479 Severity   : normal
480 Bugzilla   : 11680
481 Description: make panic on lbug configurable
482
483 Severity   : major
484 Bugzilla   : 12316
485 Description: Add OFED1.2 support to o2iblnd
486 Details    : o2iblnd depends on OFED's modules, if out-tree OFED's modules
487              are installed (other than kernel's in-tree infiniband), there
488              could be some problem while insmod o2iblnd (mismatch CRC of 
489              ib_* symbols).
490              If extra Module.symvers is supported in kernel (i.e, 2.6.17),
491              this link provides solution:
492              https://bugs.openfabrics.org/show_bug.cgi?id=355
493              if extra Module.symvers is not supported in kernel, we will
494              have to run the script in bug 12316 to update
495              $LINUX/module.symvers before building o2iblnd.
496              More details about this are in bug 12316.
497
498 ------------------------------------------------------------------------------
499
500 2007-04-01  Cluster File Systems, Inc. <info@clusterfs.com>
501        * version 1.4.10 / 1.6.0
502        * Support for networks:
503         socklnd   - kernels up to 2.6.16,
504         qswlnd    - Qsnet kernel modules 5.20 and later,
505         openiblnd - IbGold 1.8.2,
506         o2iblnd   - OFED 1.1,
507         viblnd    - Voltaire ibhost 3.4.5 and later,
508         ciblnd    - Topspin 3.2.0,
509         iiblnd    - Infiniserv 3.3 + PathBits patch,
510         gmlnd     - GM 2.1.22 and later,
511         mxlnd     - MX 1.2.1 or later,
512         ptllnd    - Portals 3.3 / UNICOS/lc 1.5.x, 2.0.x
513         
514 Severity   : minor
515 Frequency  : rare
516 Description: Ptllnd didn't init kptllnd_data.kptl_idle_txs before it could be
517              possibly accessed in kptllnd_shutdown. Ptllnd should init 
518              kptllnd_data.kptl_ptlid2str_lock before calling kptllnd_ptlid2str.
519
520 Severity   : normal
521 Frequency  : rare
522 Description: gmlnd ignored some transmit errors when finalizing lnet messages.
523
524 Severity   : minor
525 Frequency  : rare
526 Description: ptllnd logs a piece of incorrect debug info in kptllnd_peer_handle_hello.
527
528 Severity   : minor
529 Frequency  : rare
530 Description: the_lnet.ln_finalizing was not set when the current thread is
531              about to complete messages. It only affects multi-threaded 
532              user space LNet.
533         
534 Severity   : normal
535 Frequency  : rare
536 Bugzilla   : 11472
537 Description: Changed the default kqswlnd ntxmsg=512
538         
539 Severity   : major
540 Frequency  : rare
541 Bugzilla   : 12458
542 Description: Assertion failure in kernel ptllnd caused by posting passive
543              bulk buffers before connection establishment complete.
544         
545 Severity   : major
546 Frequency  : rare
547 Bugzilla   : 12445
548 Description: A race in kernel ptllnd between deleting a peer and posting
549              new communications for it could hang communications -
550              manifesting as "Unexpectedly long timeout" messages.
551         
552 Severity   : major
553 Frequency  : rare
554 Bugzilla   : 12432
555 Description: Kernel ptllnd lock ordering issue could hang a node.
556         
557 Severity   : major
558 Frequency  : rare
559 Bugzilla   : 12016
560 Description: node crash on socket teardown race
561
562 Severity   : minor
563 Frequency  : 'lctl peer_list' issued on a mx net
564 Bugzilla   : 12237
565 Description: Enable lctl's peer_list for MXLND
566
567 Severity   : major
568 Frequency  : after Ptllnd timeouts and portals congestion
569 Bugzilla   : 11659
570 Description: Credit overflows
571 Details    : This was a bug in ptllnd connection establishment.  The fix
572              implements better peer stamps to disambiguate connection
573              establishment and ensure both peers enter the credit flow
574              state machine consistently.
575
576 Severity   : major
577 Frequency  : rare       
578 Bugzilla   : 11394
579 Description: kptllnd didn't propagate some network errors up to LNET 
580 Details    : This bug was spotted while investigating 11394.  The fix
581              ensures network errors on sends and bulk transfers are
582              propagated to LNET/lustre correctly.
583
584 Severity   : enhancement
585 Bugzilla   : 10316
586 Description: Fixed console chatter in case of -ETIMEDOUT.
587
588 Severity   : enhancement
589 Bugzilla   : 11684
590 Description: Added D_NETTRACE for recording network packet history
591              (initially only for ptllnd).  Also a separate userspace
592              ptllnd facility to gather history which should really be
593              covered by D_NETTRACE too, if only CDEBUG recorded history in
594              userspace.
595
596 Severity   : major
597 Frequency  : rare       
598 Bugzilla   : 11616
599 Description: o2iblnd handle early RDMA_CM_EVENT_DISCONNECTED.
600 Details    : If the fabric is lossy, an RDMA_CM_EVENT_DISCONNECTED
601              callback can occur before a connection has actually been
602              established.  This caused an assertion failure previously.
603
604 Severity   : enhancement
605 Bugzilla   : 11094
606 Description: Multiple instances for o2iblnd
607 Details    : Allow multiple instances of o2iblnd to enable networking over
608              multiple HCAs and routing between them.
609
610 Severity   : major
611 Bugzilla   : 11201
612 Description: lnet deadlock in router_checker
613 Details    : turned ksnd_connd_lock, ksnd_reaper_lock, and ksock_net_t:ksnd_lock
614              into BH locks to eliminate potential deadlock caused by
615              ksocknal_data_ready() preempting code holding these locks.
616
617 Severity   : major
618 Bugzilla   : 11126
619 Description: Millions of failed socklnd connection attempts cause a very slow FS
620 Details    : added a new route flag ksnr_scheduled to distinguish from
621              ksnr_connecting, so that a peer connection request is only turned
622              down for race concerns when an active connection to the same peer
623              is under progress (instead of just being scheduled).
624
625 ------------------------------------------------------------------------------
626
627 2007-02-09  Cluster File Systems, Inc. <info@clusterfs.com>
628        * version 1.4.9
629        * Support for networks:
630         socklnd   - kernels up to 2.6.16
631         qswlnd    - Qsnet kernel modules 5.20 and later
632         openiblnd - IbGold 1.8.2
633         o2iblnd   - OFED 1.1
634         viblnd    - Voltaire ibhost 3.4.5 and later
635         ciblnd    - Topspin 3.2.0
636         iiblnd    - Infiniserv 3.3 + PathBits patch
637         gmlnd     - GM 2.1.22 and later
638         mxlnd     - MX 1.2.1 or later
639         ptllnd    - Portals 3.3 / UNICOS/lc 1.5.x, 2.0.x
640        * bug fixes
641
642 Severity   : major on XT3
643 Bugzilla   : none
644 Description: libcfs overwrites /proc/sys/portals
645 Details    : libcfs created a symlink from /proc/sys/portals to
646              /proc/sys/lnet for backwards compatibility.  This is no
647              longer required and makes the Cray portals /proc variables
648              inaccessible.
649
650 Severity   : minor
651 Bugzilla   : 11312
652 Description: OFED FMR API change
653 Details    : This changes parameter usage to reflect a change in
654              ib_fmr_pool_map_phys() between OFED 1.0 and OFED 1.1.  Note
655              that FMR support is only used in experimental versions of the
656              o2iblnd - this change does not affect standard usage at all.
657
658 Severity   : enhancement
659 Bugzilla   : 11245
660 Description: new ko2iblnd module parameter: ib_mtu
661 Details    : the default IB MTU of 2048 performs badly on 23108 Tavor
662              HCAs.  You can avoid this problem by setting the MTU to 1024
663              using this module parameter.
664
665 Severity   : enhancement
666 Bugzilla   : 11118/11620
667 Description: ptllnd small request message buffer alignment fix
668 Details    : Set the PTL_MD_LOCAL_ALIGN8 option on small message receives.
669              Round up small message size on sends in case this option
670              is not supported.  11620 was a defect in the initial
671              implementation which effectively asserted all peers had to be
672              running the correct protocol version which was fixed by always
673              NAK-ing such requests and handling any misalignments they
674              introduce.
675
676 Severity   : minor
677 Frequency  : rarely
678 Description: When kib(nal|lnd)_del_peer() is called upon a peer whose
679              ibp_tx_queue is not empty, kib(nal|lnd)_destroy_peer()'s
680              'LASSERT(list_empty(&peer->ibp_tx_queue))' will fail.
681
682 Severity   : enhancement
683 Bugzilla   : 11250
684 Description: Patchless ZC(zero copy) socklnd
685 Details    : New protocol for socklnd, socklnd can support zero copy without
686              kernel patch, it's compatible with old socklnd. Checksum is 
687              moved from tunables to modparams.
688
689 Severity   : minor
690 Frequency  : rarely
691 Description: When ksocknal_del_peer() is called upon a peer whose
692              ksnp_tx_queue is not empty, ksocknal_destroy_peer()'s
693              'LASSERT(list_empty(&peer->ksnp_tx_queue))' will fail.
694
695 Severity   : normal
696 Frequency  : when ptlrpc is under heavy use and runs out of request buffer
697 Bugzilla   : 11318
698 Description: In lnet_match_blocked_msg(), md can be used without holding a
699              ref on it.
700
701 Severity   : minor
702 Frequency  : very rarely
703 Bugzilla   : 10727
704 Description: If ksocknal_lib_setup_sock() fails, a ref on peer is lost.
705              If connd connects a route which has been closed by
706              ksocknal_shutdown(), ksocknal_create_routes() may create new
707              routes which hold references on the peer, causing shutdown
708              process to wait for peer to disappear forever.
709
710 Severity   : enhancement
711 Bugzilla   : 11234
712 Description: Dump XT3 portals traces on kptllnd timeout
713 Details    : Set the kptllnd module parameter "ptltrace_on_timeout=1" to
714              dump Cray portals debug traces to a file.  The kptllnd module
715              parameter "ptltrace_basename", default "/tmp/lnet-ptltrace",
716              is the basename of the dump file.
717
718 Severity   : major
719 Frequency  : infrequent
720 Bugzilla   : 11308
721 Description: kernel ptllnd fix bug in connection re-establishment
722 Details    : Kernel ptllnd could produce protocol errors e.g. illegal
723              matchbits and/or violate the credit flow protocol when trying
724              to re-establish a connection with a peer after an error or
725              timeout. 
726
727 Severity   : enhancement
728 Bugzilla   : 10316
729 Description: Allow /proc/sys/lnet/debug to be set symbolically
730 Details    : Allow debug and subsystem debug values to be read/set by name
731              in addition to numerically, for ease of use.
732
733 Severity   : normal
734 Frequency  : only in configurations with LNET routers
735 Bugzilla   : 10316
736 Description: routes automatically marked down and recovered
737 Details    : In configurations with LNET routers if a router fails routers
738              now actively try to recover routes that are down, unless they
739              are marked down by an administrator.
740
741 ------------------------------------------------------------------------------
742
743 2006-12-09  Cluster File Systems, Inc. <info@clusterfs.com>
744
745 Severity   : critical
746 Frequency  : very rarely, in configurations with LNET routers and TCP
747 Bugzilla   : 10889
748 Description: incorrect data written to files on OSTs
749 Details    : In certain high-load conditions incorrect data may be written
750              to files on the OST when using TCP networks.
751
752 ------------------------------------------------------------------------------
753
754 2006-07-31  Cluster File Systems, Inc. <info@clusterfs.com>
755         * version 1.4.7
756         - rework CDEBUG messages rate-limiting mechanism b=10375
757         - add per-socket tunables for socklnd if the kernel is patched b=10327
758
759 ------------------------------------------------------------------------------
760
761 2006-02-15  Cluster File Systems, Inc. <info@clusterfs.com>
762         * version 1.4.6
763         - fix use of portals/lnet pid to avoid dropping RPCs b=10074
764         - iiblnd wasn't mapping all memory, resulting in comms errors b=9776
765         - quiet LNET startup LNI message for liblustre b=10128
766         - Better console error messages if 'ip2nets' can't match an IP address
767         - Fixed overflow/use-before-set bugs in linux-time.h
768         - Fixed ptllnd bug that wasn't initialising rx descriptors completely
769         - LNET teardown failed an assertion about the route table being empty
770         - Fixed a crash in LNetEQPoll(<invalid handle>)
771         - Future protocol compatibility work (b_rls146_lnetprotovrsn)
772         - improve debug message for liblustre/Catamount nodes (b=10116)
773
774 2005-10-10  Cluster File Systems, Inc. <info@clusterfs.com>
775         * Configuration change for the XT3
776              The PTLLND is now used to run Lustre over Portals on the XT3.
777              The configure option(s) --with-cray-portals are no longer
778              used.  Rather --with-portals=<path-to-portals-includes> is
779              used to enable building on the XT3.  In addition to enable
780              XT3 specific features the option --enable-cray-xt3 must be
781              used.
782
783 2005-10-10  Cluster File Systems, Inc. <info@clusterfs.com>
784         * Portals has been removed, replaced by LNET.
785            LNET is new networking infrastructure for Lustre, it includes a
786            reorganized network configuration mode (see the user
787            documentation for full details) as well as support for routing
788            between different network fabrics.  Lustre Networking Devices
789            (LNDS) for the supported network fabrics have also been created
790            for this new infrastructure.
791
792 2005-08-08  Cluster File Systems, Inc. <info@clusterfs.com>
793        * version 1.4.4
794        * bug fixes
795
796 Severity   : major
797 Frequency  : rare (large Voltaire clusters only)
798 Bugzilla   : 6993
799 Description: the default number of reserved transmit descriptors was too low
800              for some large clusters
801 Details    : As a workaround, the number was increased.  A proper fix includes
802              a run-time tunable.
803
804 2005-06-02  Cluster File Systems, Inc. <info@clusterfs.com>
805        * version 1.4.3
806        * bug fixes
807
808 Severity   : major
809 Frequency  : occasional (large-scale events, cluster reboot, network failure)
810 Bugzilla   : 6411
811 Description: too many error messages on console obscure actual problem and
812              can slow down/panic server, or cause recovery to fail repeatedly
813 Details    : enable rate-limiting of console error messages, and some messages
814              that were console errors now only go to the kernel log
815
816 Severity   : enhancement
817 Bugzilla   : 1693
818 Description: add /proc/sys/portals/catastrophe entry which will report if
819              that node has previously LBUGged
820
821 2005-04-06  Cluster File Systems, Inc. <info@clusterfs.com>
822        * bugs
823         - update gmnal to use PTL_MTU, fix module refcounting (b=5786)
824
825 2005-04-04  Cluster File Systems, Inc. <info@clusterfs.com>
826        * bugs
827         - handle error return code in kranal_check_fma_rx() (5915,6054)
828
829 2005-02-04  Cluster File Systems, Inc. <info@clusterfs.com>
830        * miscellania
831         - update vibnal (Voltaire IB NAL)
832         - update gmnal (Myrinet NAL), gmnalid
833
834 2005-02-04  Eric Barton  <eeb@bartonsoftware.com>
835
836         * Landed portals:b_port_step as follows...
837
838           - removed CFS_DECL_SPIN* 
839             just use 'spinlock_t' and initialise with spin_lock_init()
840
841           - removed CFS_DECL_MUTEX*
842             just use 'struct semaphore' and initialise with init_mutex()
843
844           - removed CFS_DECL_RWSEM*
845             just use 'struct rw_semaphore' and initialise with init_rwsem()
846
847           - renamed cfs_sleep_chan -> cfs_waitq
848                     cfs_sleep_link -> cfs_waitlink
849
850           - fixed race in linux version of arch-independent socknal
851             (the ENOMEM/EAGAIN decision).
852
853           - Didn't fix problems in Darwin version of arch-independent socknal
854             (resetting socket callbacks, eager ack hack, ENOMEM/EAGAIN decision)
855
856           - removed libcfs types from non-socknal header files (only some types
857             in the header files had been changed; the .c files hadn't been
858             updated at all).