Whamcloud - gitweb
c8f741ef4be923321c47a3cfd5ae2bde322cf12f
[fs/lustre-release.git] / lnet / ChangeLog
1 tbd  Sun Microsystems, Inc.
2         * version 2.0.0
3         * Support for networks:
4          socklnd   - any kernel supported by Lustre,
5          qswlnd    - Qsnet kernel modules 5.20 and later,
6          openiblnd - IbGold 1.8.2,
7          o2iblnd   - OFED 1.1, 1.2.0, 1.2.5, 1.3, and 1.4.1
8          viblnd    - Voltaire ibhost 3.4.5 and later,
9          ciblnd    - Topspin 3.2.0,
10          iiblnd    - Infiniserv 3.3 + PathBits patch,
11          gmlnd     - GM 2.1.22 and later,
12          mxlnd     - MX 1.2.1 or later,
13          ptllnd    - Portals 3.3 / UNICOS/lc 1.5.x, 2.0.x
14
15 Severity   : 
16 Bugzilla   : 
17 Description: 
18 Details    : 
19
20 Severity   : enhancement
21 Bugzilla   : 13065
22 Description: port router pinger to userspace
23
24 Severity   : normal
25 Bugzilla   : 17546
26 Description: kptllnd HELLO protocol deadlock
27 Details    : kptllnd HELLO protocol doesn't run to completion in finite time
28
29 Severity   : normal
30 Bugzilla   : 18075
31 Description: LNet selftest fixes and enhancements
32
33 Severity   : enhancement
34 Bugzilla   : 19156
35 Description: allow a test node to be a member of multiple test groups
36
37 Severity   : enhancement
38 Bugzilla   : 18654
39 Description: MXLND: eliminate hosts file, use arp for peer nic_id resolution
40 Details    : an update from the upstream developer Scott Atchley.
41
42 Severity   : enhancement
43 Bugzilla   : 15332
44 Description: add a new LND optiion to control peer buffer credits on routers
45
46 Severity   : normal
47 Bugzilla   : 18844
48 Description: Fixing deadlock in usocklnd
49 Details    : A deadlock was possible in usocklnd due to race condition while
50              tearing connection down. The problem resulted from erroneous
51              assumption that lnet_finalize() could have been called holding
52              some lnd-level locks.
53
54 Severity   : major
55 Bugzilla   : 13621, 15983
56 Description: Protocol V2 of o2iblnd
57 Details    : o2iblnd V2 has several new features:
58              . map-on-demand: map-on-demand is disabled by default, it can
59                be enabled by using modparam "map_on_demand=@value@", @value@
60                should >= 0 and < 256, 0 will disable map-on-demand, any other
61                valid value will enable map-on-demand. 
62                Oi2blnd will create FMR or physical MR for RDMA if fragments of
63                RD > @value@.
64                Enable map-on-demand will take less memory for new connection,
65                but a little more CPU for RDMA.
66              . iWARP : to support iWARP, please enable map-on-demand, 32 and 64
67                are recommanded value. iWARP will probably fail for value >=128.
68              . OOB NOOP message: to resolve deadlock on router.
69              . tunable peer_credits_hiw: (high water to return credits),
70                default value of peer_credits_hiw equals to (peer_credits -1),
71                user can change it between peer_credits/2 and (peer_credits - 1).
72                Lower value is recommended for high latency network.
73              . tunable message queue size: it always equals to peer_credits,
74                higher value is recommended for high latency network.
75              . It's compatible with earlier version of o2iblnd
76
77 Severity   : normal
78 Bugzilla   : 18414
79 Description: Fixing 'running out of ports' issue
80 Details    : Add a delay before next reconnect attempt in ksocklnd in
81              the case of lost race. Limit the frequency of query-requests
82              in lnet. Improved handling of 'dead peer' notifications in
83              lnet.
84
85 Severity   : normal
86 Bugzilla   : 16034
87 Description: Change ptllnd timeout and watchdog timers
88 Details    : Add ptltrace_on_nal_failed and bump ptllnd timeout to match
89              Portals wire timeout.
90
91 Severity   : normal
92 Bugzilla   : 16186
93 Description: One down Lustre FS hangs ALL mounted Lustre filesystems
94 Details    : Shared routing enhancements - peer health detection.
95
96 Severity   : enhancement
97 Bugzilla   : 14132
98 Description: acceptor.c cleanup
99 Details    : Code duplication in acceptor.c for the cases of kernel and
100              user-space removed. User-space libcfs tcpip primitives
101              uniformed to have prototypes similar to kernel ones. Minor
102              cosmetic changes in usocklnd to use cfs_socket_t as
103              representation of socket.
104
105 Severity   : minor
106 Bugzilla   : 11245
107 Description: IB path MTU mistakenly set to 1st path MTU when ib_mtu is off
108 Details    : See comment 46 in bug 11245 for details - it's indeed a bug
109              introduced by the original 11245 fix.
110
111 Severity   : minor
112 Bugzilla   : 15984
113 Description: uptllnd credit overflow fix
114 Details    : kptl_msg_t::ptlm_credits could be overflown by uptllnd since
115              it is only a __u8.
116
117 Severity   : major
118 Bugzilla   : 14634
119 Description: socklnd protocol version 3
120 Details    : With current protocol V2, connections on router can be
121              blocked and can't receive any incoming messages when there is no
122              more router buffer, so ZC-ACK can't be handled (LNet message
123              can't be finalized) and will cause deadlock on router.
124              Protocol V3 has a dedicated connection for emergency messages
125              like ZC-ACK to router, messages on this dedicated connection
126              don't need any credit so will never be blocked. Also, V3 can send
127              keepalive ping in specified period for router healthy checking.
128
129 -------------------------------------------------------------------------------
130
131 12-31-2008  Sun Microsystems, Inc.
132         * version 1.8.0
133         * Support for networks:
134          socklnd   - any kernel supported by Lustre,
135          qswlnd    - Qsnet kernel modules 5.20 and later,
136          openiblnd - IbGold 1.8.2,
137          o2iblnd   - OFED 1.1, 1.2.0, 1.2.5, and 1.3
138          viblnd    - Voltaire ibhost 3.4.5 and later,
139          ciblnd    - Topspin 3.2.0,
140          iiblnd    - Infiniserv 3.3 + PathBits patch,
141          gmlnd     - GM 2.1.22 and later,
142          mxlnd     - MX 1.2.1 or later,
143          ptllnd    - Portals 3.3 / UNICOS/lc 1.5.x, 2.0.x
144
145 Severity   : major
146 Bugzilla   : 15983
147 Description: workaround for OOM from o2iblnd
148 Details    : OFED needs allocate big chunk of memory for QP while creating
149              connection for o2iblnd, OOM can happen if no such a contiguous
150              memory chunk.
151              QP size is decided by concurrent_sends and max_fragments of
152              o2iblnd, now we permit user to specify smaller value for
153              concurrent_sends of o2iblnd(i.e: concurrent_sends=7), which
154              will decrease memory block size required by creating QP.
155
156 Severity   : major
157 Bugzilla   : 15093
158 Description: Support Zerocopy receive of Chelsio device
159 Details    : Chelsio driver can support zerocopy for iov[1] if it's
160              contiguous and large enough.
161
162 Severity   : normal
163 Bugzilla   : 13490
164 Description: fix credit flow deadlock in uptllnd
165
166 Severity   : normal
167 Bugzilla   : 16308
168 Description: finalize network operation in reasonable time
169 Details    : conf-sanity test_32a couldn't stop ost and mds because it
170              tried to access non-existent peer and tcp connect took
171              quite long before timing out.
172
173 Severity   : major
174 Bugzilla   : 16338
175 Description: Continuous recovery on 33 of 413 nodes after lustre oss failure
176 Details    : Lost reference on conn prevents peer from being destroyed, which
177              could prevent new peer creation if peer count has reached upper
178              limit.
179
180 Severity   : normal
181 Bugzilla   : 16102
182 Description: LNET Selftest results in Soft lockup on OSS CPU
183 Details    : only hits when 8 or more o2ib clients involved and a session is
184              torn down with 'lst end_session' without preceeding 'lst stop'.
185
186 Severity   : minor
187 Bugzilla   : 16321
188 Description: concurrent_sends in IB LNDs should not be changeable at run time
189 Details    : concurrent_sends in IB LNDs should not be changeable at run time
190
191 Severity   : normal
192 Bugzilla   : 15272
193 Description: ptl_send_rpc hits LASSERT when ptl_send_buf fails
194 Details    : only hits under out-of-memory situations
195
196
197 -------------------------------------------------------------------------------
198
199 2009-02-07 Sun Microsystems, Inc.
200         * version 1.6.7
201         * Support for networks:
202          socklnd   - any kernel supported by Lustre,
203          qswlnd    - Qsnet kernel modules 5.20 and later,
204          openiblnd - IbGold 1.8.2,
205          o2iblnd   - OFED 1.1, 1.2.0, 1.2.5, and 1.3
206          viblnd    - Voltaire ibhost 3.4.5 and later,
207          ciblnd    - Topspin 3.2.0,
208          iiblnd    - Infiniserv 3.3 + PathBits patch,
209          gmlnd     - GM 2.1.22 and later,
210          mxlnd     - MX 1.2.1 or later,
211          ptllnd    - Portals 3.3 / UNICOS/lc 1.5.x, 2.0.x
212 Severity   : major
213 Bugzilla   : 15983
214 Description: workaround for OOM from o2iblnd
215 Details    : OFED needs allocate big chunk of memory for QP while creating
216              connection for o2iblnd, OOM can happen if no such a contiguous
217              memory chunk.
218              QP size is decided by concurrent_sends and max_fragments of
219              o2iblnd, now we permit user to specify smaller value for
220              concurrent_sends of o2iblnd(i.e: concurrent_sends=7), which
221              will decrease memory block size required by creating QP.
222
223 Severity   : major
224 Bugzilla   : 15093
225 Description: Support Zerocopy receive of Chelsio device
226 Details    : Chelsio driver can support zerocopy for iov[1] if it's
227              contiguous and large enough.
228 Severity   : normal
229 Bugzilla   : 13490
230 Description: fix credit flow deadlock in uptllnd
231
232 Severity   : normal
233 Bugzilla   : 16308
234 Description: finalize network operation in reasonable time
235 Details    : conf-sanity test_32a couldn't stop ost and mds because it
236              tried to access non-existent peer and tcp connect took
237              quite long before timing out.
238
239 Severity   : major
240 Bugzilla   : 16338
241 Description: Continuous recovery on 33 of 413 nodes after lustre oss failure
242 Details    : Lost reference on conn prevents peer from being destroyed, which
243              could prevent new peer creation if peer count has reached upper
244              limit.
245
246 Severity   : normal
247 Bugzilla   : 16102
248 Description: LNET Selftest results in Soft lockup on OSS CPU
249 Details    : only hits when 8 or more o2ib clients involved and a session is
250              torn down with 'lst end_session' without preceeding 'lst stop'.
251
252 Severity   : minor
253 Bugzilla   : 16321
254 Description: concurrent_sends in IB LNDs should not be changeable at run time
255 Details    : concurrent_sends in IB LNDs should not be changeable at run time
256
257 -------------------------------------------------------------------------------
258
259 11-03-2008  Sun Microsystems, Inc.
260         * version 1.6.6
261         * Support for networks:
262          socklnd   - any kernel supported by Lustre,
263          qswlnd    - Qsnet kernel modules 5.20 and later,
264          openiblnd - IbGold 1.8.2,
265          o2iblnd   - OFED 1.1, 1.2.0, 1.2.5, and 1.3
266          viblnd    - Voltaire ibhost 3.4.5 and later,
267          ciblnd    - Topspin 3.2.0,
268          iiblnd    - Infiniserv 3.3 + PathBits patch,
269          gmlnd     - GM 2.1.22 and later,
270          mxlnd     - MX 1.2.1 or later,
271          ptllnd    - Portals 3.3 / UNICOS/lc 1.5.x, 2.0.x
272
273 Severity   : normal
274 Bugzilla   : 15272
275 Description: ptl_send_rpc hits LASSERT when ptl_send_buf fails
276 Details    : only hits under out-of-memory situations
277
278 -------------------------------------------------------------------------------
279
280 04-26-2008  Sun Microsystems, Inc.
281        * version 1.6.5
282        * Support for networks:
283         socklnd   - any kernel supported by Lustre,
284         qswlnd    - Qsnet kernel modules 5.20 and later,
285         openiblnd - IbGold 1.8.2,
286         o2iblnd   - OFED 1.1 and 1.2.0, 1.2.5
287         viblnd    - Voltaire ibhost 3.4.5 and later,
288         ciblnd    - Topspin 3.2.0,
289         iiblnd    - Infiniserv 3.3 + PathBits patch,
290         gmlnd     - GM 2.1.22 and later,
291         mxlnd     - MX 1.2.1 or later,
292         ptllnd    - Portals 3.3 / UNICOS/lc 1.5.x, 2.0.x
293
294 Severity   : normal
295 Bugzilla   : 14322
296 Description: excessive debug information removed
297 Details    : excessive debug information removed
298
299 Severity   : major
300 Bugzilla   : 15712
301 Description: ksocknal_create_conn() hit ASSERTION during connection race
302 Details    : ksocknal_create_conn() hit ASSERTION during connection race
303
304 Severity   : major
305 Bugzilla   : 13983
306 Description: ksocknal_send_hello() hit ASSERTION while connecting race
307 Details    : ksocknal_send_hello() hit ASSERTION while connecting race
308
309 Severity   : major
310 Bugzilla   : 14425
311 Description: o2iblnd/ptllnd credit deadlock in a routed config.
312 Details    : o2iblnd/ptllnd credit deadlock in a routed config.
313
314 Severity   : normal
315 Bugzilla   : 14956
316 Description: High load after starting lnet
317 Details    : gmlnd should sleep in rx thread in interruptible way. Otherwise,
318              uptime utility reports high load that looks confusingly.
319
320 Severity   : normal
321 Bugzilla   : 14838
322 Description: ksocklnd fails to establish connection if accept_port is high
323 Details    : PID remapping must not be done for active (outgoing) connections
324
325
326 --------------------------------------------------------------------------------
327
328 2008-01-11  Sun Microsystems, Inc.
329        * version 1.4.12
330        * Support for networks:
331         socklnd   - any kernel supported by Lustre,
332         qswlnd    - Qsnet kernel modules 5.20 and later,
333         openiblnd - IbGold 1.8.2,
334         o2iblnd   - OFED 1.1 and 1.2.0, 1.2.5
335         viblnd    - Voltaire ibhost 3.4.5 and later,
336         ciblnd    - Topspin 3.2.0,
337         iiblnd    - Infiniserv 3.3 + PathBits patch,
338         gmlnd     - GM 2.1.22 and later,
339         mxlnd     - MX 1.2.1 or later,
340         ptllnd    - Portals 3.3 / UNICOS/lc 1.5.x, 2.0.x
341
342 Severity   : normal
343 Bugzilla   : 14387
344 Description: liblustre network error
345 Details    : liblustre clients should understand LNET_ACCEPT_PORT environment
346              variable even if they don't start lnet acceptor.
347
348 Severity   : normal
349 Bugzilla   : 14300
350 Description: Strange message from lnet (Ignoring prediction from the future)
351 Details    : Incorrect calculation of peer's last_alive value in ksocklnd
352
353 --------------------------------------------------------------------------------
354
355 2007-12-07         Cluster File Systems, Inc. <info@clusterfs.com>
356        * version 1.6.4
357        * Support for networks:
358         socklnd   - any kernel supported by Lustre,
359         qswlnd    - Qsnet kernel modules 5.20 and later,
360         openiblnd - IbGold 1.8.2,
361         o2iblnd   - OFED 1.1 and 1.2.0, 1.2.5.
362         viblnd    - Voltaire ibhost 3.4.5 and later,
363         ciblnd    - Topspin 3.2.0,
364         iiblnd    - Infiniserv 3.3 + PathBits patch,
365         gmlnd     - GM 2.1.22 and later,
366         mxlnd     - MX 1.2.1 or later,
367         ptllnd    - Portals 3.3 / UNICOS/lc 1.5.x, 2.0.x
368
369 Severity   : normal
370 Bugzilla   : 14238
371 Description: ASSERTION(me == md->md_me) failed in lnet_match_md()
372
373 Severity   : normal
374 Bugzilla   : 12494
375 Description: increase send queue size for ciblnd/openiblnd
376
377 Severity   : normal
378 Bugzilla   : 12302
379 Description: new userspace socklnd
380 Details    : Old userspace tcpnal that resided in lnet/ulnds/socklnd replaced
381              with new one - usocklnd.
382
383 Severity   : enhancement
384 Bugzilla   : 11686
385 Description: Console message flood
386 Details    : Make cdls ratelimiting more tunable by adding several tunable in
387              procfs /proc/sys/lnet/console_{min,max}_delay_centisecs and
388              /proc/sys/lnet/console_backoff.
389
390 --------------------------------------------------------------------------------
391
392 2007-09-27         Cluster File Systems, Inc. <info@clusterfs.com>
393        * version 1.6.3
394        * Support for networks:
395         socklnd   - any kernel supported by Lustre,
396         qswlnd    - Qsnet kernel modules 5.20 and later,
397         openiblnd - IbGold 1.8.2,
398         o2iblnd   - OFED 1.1 and 1.2,
399         viblnd    - Voltaire ibhost 3.4.5 and later,
400         ciblnd    - Topspin 3.2.0,
401         iiblnd    - Infiniserv 3.3 + PathBits patch,
402         gmlnd     - GM 2.1.22 and later,
403         mxlnd     - MX 1.2.1 or later,
404         ptllnd    - Portals 3.3 / UNICOS/lc 1.5.x, 2.0.x
405
406 Severity   : normal
407 Bugzilla   : 12782
408 Description: /proc/sys/lnet has non-sysctl entries
409 Details    : Updating dump_kernel/daemon_file/debug_mb to use sysctl variables
410
411 Severity   : major
412 Bugzilla   : 13236
413 Description: TOE Kernel panic by ksocklnd
414 Details    : offloaded sockets provide their own implementation of sendpage,
415              can't call tcp_sendpage() directly
416
417 Severity   : normal
418 Bugzilla   : 10778
419 Description: kibnal_shutdown() doesn't finish; lconf --cleanup hangs
420 Details    : races between lnd_shutdown and peer creation prevent 
421              lnd_shutdown from finishing.
422
423 Severity   : normal
424 Bugzilla   : 13279
425 Description: open files rlimit 1024 reached while liblustre testing
426 Details    : ulnds/socklnd must close open socket after unsuccessful
427              'say hello' attempt.
428
429 Severity   : major 
430 Bugzilla   : 13482
431 Description: build error
432 Details    : fix typos in gmlnd, ptllnd and viblnd
433
434 --------------------------------------------------------------------------------
435
436 2007-07-30  Cluster File Systems, Inc. <info@clusterfs.com>
437        * version 1.6.1
438        * Support for networks:
439         socklnd   - kernels up to 2.6.16,
440         qswlnd    - Qsnet kernel modules 5.20 and later,
441         openiblnd - IbGold 1.8.2,
442         o2iblnd   - OFED 1.1 and 1.2
443         viblnd    - Voltaire ibhost 3.4.5 and later,
444         ciblnd    - Topspin 3.2.0,
445         iiblnd    - Infiniserv 3.3 + PathBits patch,
446         gmlnd     - GM 2.1.22 and later,
447         mxlnd     - MX 1.2.1 or later,
448         ptllnd    - Portals 3.3 / UNICOS/lc 1.5.x, 2.0.x
449
450 --------------------------------------------------------------------------------
451
452 2007-06-21  Cluster File Systems, Inc. <info@clusterfs.com>
453        * version 1.4.11
454        * Support for networks:
455         socklnd   - kernels up to 2.6.16,
456         qswlnd    - Qsnet kernel modules 5.20 and later,
457         openiblnd - IbGold 1.8.2,
458         o2iblnd   - OFED 1.1
459         viblnd    - Voltaire ibhost 3.4.5 and later,
460         ciblnd    - Topspin 3.2.0,
461         iiblnd    - Infiniserv 3.3 + PathBits patch,
462         gmlnd     - GM 2.1.22 and later,
463         mxlnd     - MX 1.2.1 or later,
464         ptllnd    - Portals 3.3 / UNICOS/lc 1.5.x, 2.0.x
465
466 Severity   : minor
467 Bugzilla   : 13288
468 Description: Initialize cpumask before use
469
470 Severity   : major
471 Bugzilla   : 12014
472 Description: ASSERTION failures when upgrading to the patchless zero-copy
473              socklnd 
474 Details    : This bug affects "rolling upgrades", causing an inconsistent
475              protocol version negotiation and subsequent assertion failure
476              during rolling upgrades after the first wave of upgrades.
477
478 Severity   : minor
479 Bugzilla   : 11223
480 Details    : Change "dropped message" CERRORs to D_NETERROR so they are
481              logged instead of creating "console chatter" when a lustre
482              timeout races with normal RPC completion.
483
484 Severity   : minor
485 Details    : lnet_clear_peer_table can wait forever if user forgets to
486              clear a lazy portal.
487
488 Severity   : minor
489 Details    : libcfs_id2str should check pid against LNET_PID_ANY.
490
491 Severity   : major
492 Bugzilla   : 10916
493 Description: added LNET self test
494 Details    : landing b_self_test
495
496 Severity   : minor
497 Frequency  : rare
498 Bugzilla   : 12227
499 Description: cfs_duration_{u,n}sec() wrongly calculate nanosecond part of
500              struct timeval.
501 Details    : do_div() macro is used incorrectly.
502
503 2007-04-23  Cluster File Systems, Inc. <info@clusterfs.com>
504
505 Severity   : normal
506 Bugzilla   : 11680
507 Description: make panic on lbug configurable
508
509 Severity   : major
510 Bugzilla   : 12316
511 Description: Add OFED1.2 support to o2iblnd
512 Details    : o2iblnd depends on OFED's modules, if out-tree OFED's modules
513              are installed (other than kernel's in-tree infiniband), there
514              could be some problem while insmod o2iblnd (mismatch CRC of 
515              ib_* symbols).
516              If extra Module.symvers is supported in kernel (i.e, 2.6.17),
517              this link provides solution:
518              https://bugs.openfabrics.org/show_bug.cgi?id=355
519              if extra Module.symvers is not supported in kernel, we will
520              have to run the script in bug 12316 to update
521              $LINUX/module.symvers before building o2iblnd.
522              More details about this are in bug 12316.
523
524 ------------------------------------------------------------------------------
525
526 2007-04-01  Cluster File Systems, Inc. <info@clusterfs.com>
527        * version 1.4.10 / 1.6.0
528        * Support for networks:
529         socklnd   - kernels up to 2.6.16,
530         qswlnd    - Qsnet kernel modules 5.20 and later,
531         openiblnd - IbGold 1.8.2,
532         o2iblnd   - OFED 1.1,
533         viblnd    - Voltaire ibhost 3.4.5 and later,
534         ciblnd    - Topspin 3.2.0,
535         iiblnd    - Infiniserv 3.3 + PathBits patch,
536         gmlnd     - GM 2.1.22 and later,
537         mxlnd     - MX 1.2.1 or later,
538         ptllnd    - Portals 3.3 / UNICOS/lc 1.5.x, 2.0.x
539         
540 Severity   : minor
541 Frequency  : rare
542 Description: Ptllnd didn't init kptllnd_data.kptl_idle_txs before it could be
543              possibly accessed in kptllnd_shutdown. Ptllnd should init 
544              kptllnd_data.kptl_ptlid2str_lock before calling kptllnd_ptlid2str.
545
546 Severity   : normal
547 Frequency  : rare
548 Description: gmlnd ignored some transmit errors when finalizing lnet messages.
549
550 Severity   : minor
551 Frequency  : rare
552 Description: ptllnd logs a piece of incorrect debug info in kptllnd_peer_handle_hello.
553
554 Severity   : minor
555 Frequency  : rare
556 Description: the_lnet.ln_finalizing was not set when the current thread is
557              about to complete messages. It only affects multi-threaded 
558              user space LNet.
559         
560 Severity   : normal
561 Frequency  : rare
562 Bugzilla   : 11472
563 Description: Changed the default kqswlnd ntxmsg=512
564         
565 Severity   : major
566 Frequency  : rare
567 Bugzilla   : 12458
568 Description: Assertion failure in kernel ptllnd caused by posting passive
569              bulk buffers before connection establishment complete.
570         
571 Severity   : major
572 Frequency  : rare
573 Bugzilla   : 12445
574 Description: A race in kernel ptllnd between deleting a peer and posting
575              new communications for it could hang communications -
576              manifesting as "Unexpectedly long timeout" messages.
577         
578 Severity   : major
579 Frequency  : rare
580 Bugzilla   : 12432
581 Description: Kernel ptllnd lock ordering issue could hang a node.
582         
583 Severity   : major
584 Frequency  : rare
585 Bugzilla   : 12016
586 Description: node crash on socket teardown race
587
588 Severity   : minor
589 Frequency  : 'lctl peer_list' issued on a mx net
590 Bugzilla   : 12237
591 Description: Enable lctl's peer_list for MXLND
592
593 Severity   : major
594 Frequency  : after Ptllnd timeouts and portals congestion
595 Bugzilla   : 11659
596 Description: Credit overflows
597 Details    : This was a bug in ptllnd connection establishment.  The fix
598              implements better peer stamps to disambiguate connection
599              establishment and ensure both peers enter the credit flow
600              state machine consistently.
601
602 Severity   : major
603 Frequency  : rare       
604 Bugzilla   : 11394
605 Description: kptllnd didn't propagate some network errors up to LNET 
606 Details    : This bug was spotted while investigating 11394.  The fix
607              ensures network errors on sends and bulk transfers are
608              propagated to LNET/lustre correctly.
609
610 Severity   : enhancement
611 Bugzilla   : 10316
612 Description: Fixed console chatter in case of -ETIMEDOUT.
613
614 Severity   : enhancement
615 Bugzilla   : 11684
616 Description: Added D_NETTRACE for recording network packet history
617              (initially only for ptllnd).  Also a separate userspace
618              ptllnd facility to gather history which should really be
619              covered by D_NETTRACE too, if only CDEBUG recorded history in
620              userspace.
621
622 Severity   : major
623 Frequency  : rare       
624 Bugzilla   : 11616
625 Description: o2iblnd handle early RDMA_CM_EVENT_DISCONNECTED.
626 Details    : If the fabric is lossy, an RDMA_CM_EVENT_DISCONNECTED
627              callback can occur before a connection has actually been
628              established.  This caused an assertion failure previously.
629
630 Severity   : enhancement
631 Bugzilla   : 11094
632 Description: Multiple instances for o2iblnd
633 Details    : Allow multiple instances of o2iblnd to enable networking over
634              multiple HCAs and routing between them.
635
636 Severity   : major
637 Bugzilla   : 11201
638 Description: lnet deadlock in router_checker
639 Details    : turned ksnd_connd_lock, ksnd_reaper_lock, and ksock_net_t:ksnd_lock
640              into BH locks to eliminate potential deadlock caused by
641              ksocknal_data_ready() preempting code holding these locks.
642
643 Severity   : major
644 Bugzilla   : 11126
645 Description: Millions of failed socklnd connection attempts cause a very slow FS
646 Details    : added a new route flag ksnr_scheduled to distinguish from
647              ksnr_connecting, so that a peer connection request is only turned
648              down for race concerns when an active connection to the same peer
649              is under progress (instead of just being scheduled).
650
651 ------------------------------------------------------------------------------
652
653 2007-02-09  Cluster File Systems, Inc. <info@clusterfs.com>
654        * version 1.4.9
655        * Support for networks:
656         socklnd   - kernels up to 2.6.16
657         qswlnd    - Qsnet kernel modules 5.20 and later
658         openiblnd - IbGold 1.8.2
659         o2iblnd   - OFED 1.1
660         viblnd    - Voltaire ibhost 3.4.5 and later
661         ciblnd    - Topspin 3.2.0
662         iiblnd    - Infiniserv 3.3 + PathBits patch
663         gmlnd     - GM 2.1.22 and later
664         mxlnd     - MX 1.2.1 or later
665         ptllnd    - Portals 3.3 / UNICOS/lc 1.5.x, 2.0.x
666        * bug fixes
667
668 Severity   : major on XT3
669 Bugzilla   : none
670 Description: libcfs overwrites /proc/sys/portals
671 Details    : libcfs created a symlink from /proc/sys/portals to
672              /proc/sys/lnet for backwards compatibility.  This is no
673              longer required and makes the Cray portals /proc variables
674              inaccessible.
675
676 Severity   : minor
677 Bugzilla   : 11312
678 Description: OFED FMR API change
679 Details    : This changes parameter usage to reflect a change in
680              ib_fmr_pool_map_phys() between OFED 1.0 and OFED 1.1.  Note
681              that FMR support is only used in experimental versions of the
682              o2iblnd - this change does not affect standard usage at all.
683
684 Severity   : enhancement
685 Bugzilla   : 11245
686 Description: new ko2iblnd module parameter: ib_mtu
687 Details    : the default IB MTU of 2048 performs badly on 23108 Tavor
688              HCAs.  You can avoid this problem by setting the MTU to 1024
689              using this module parameter.
690
691 Severity   : enhancement
692 Bugzilla   : 11118/11620
693 Description: ptllnd small request message buffer alignment fix
694 Details    : Set the PTL_MD_LOCAL_ALIGN8 option on small message receives.
695              Round up small message size on sends in case this option
696              is not supported.  11620 was a defect in the initial
697              implementation which effectively asserted all peers had to be
698              running the correct protocol version which was fixed by always
699              NAK-ing such requests and handling any misalignments they
700              introduce.
701
702 Severity   : minor
703 Frequency  : rarely
704 Description: When kib(nal|lnd)_del_peer() is called upon a peer whose
705              ibp_tx_queue is not empty, kib(nal|lnd)_destroy_peer()'s
706              'LASSERT(list_empty(&peer->ibp_tx_queue))' will fail.
707
708 Severity   : enhancement
709 Bugzilla   : 11250
710 Description: Patchless ZC(zero copy) socklnd
711 Details    : New protocol for socklnd, socklnd can support zero copy without
712              kernel patch, it's compatible with old socklnd. Checksum is 
713              moved from tunables to modparams.
714
715 Severity   : minor
716 Frequency  : rarely
717 Description: When ksocknal_del_peer() is called upon a peer whose
718              ksnp_tx_queue is not empty, ksocknal_destroy_peer()'s
719              'LASSERT(list_empty(&peer->ksnp_tx_queue))' will fail.
720
721 Severity   : normal
722 Frequency  : when ptlrpc is under heavy use and runs out of request buffer
723 Bugzilla   : 11318
724 Description: In lnet_match_blocked_msg(), md can be used without holding a
725              ref on it.
726
727 Severity   : minor
728 Frequency  : very rarely
729 Bugzilla   : 10727
730 Description: If ksocknal_lib_setup_sock() fails, a ref on peer is lost.
731              If connd connects a route which has been closed by
732              ksocknal_shutdown(), ksocknal_create_routes() may create new
733              routes which hold references on the peer, causing shutdown
734              process to wait for peer to disappear forever.
735
736 Severity   : enhancement
737 Bugzilla   : 11234
738 Description: Dump XT3 portals traces on kptllnd timeout
739 Details    : Set the kptllnd module parameter "ptltrace_on_timeout=1" to
740              dump Cray portals debug traces to a file.  The kptllnd module
741              parameter "ptltrace_basename", default "/tmp/lnet-ptltrace",
742              is the basename of the dump file.
743
744 Severity   : major
745 Frequency  : infrequent
746 Bugzilla   : 11308
747 Description: kernel ptllnd fix bug in connection re-establishment
748 Details    : Kernel ptllnd could produce protocol errors e.g. illegal
749              matchbits and/or violate the credit flow protocol when trying
750              to re-establish a connection with a peer after an error or
751              timeout. 
752
753 Severity   : enhancement
754 Bugzilla   : 10316
755 Description: Allow /proc/sys/lnet/debug to be set symbolically
756 Details    : Allow debug and subsystem debug values to be read/set by name
757              in addition to numerically, for ease of use.
758
759 Severity   : normal
760 Frequency  : only in configurations with LNET routers
761 Bugzilla   : 10316
762 Description: routes automatically marked down and recovered
763 Details    : In configurations with LNET routers if a router fails routers
764              now actively try to recover routes that are down, unless they
765              are marked down by an administrator.
766
767 ------------------------------------------------------------------------------
768
769 2006-12-09  Cluster File Systems, Inc. <info@clusterfs.com>
770
771 Severity   : critical
772 Frequency  : very rarely, in configurations with LNET routers and TCP
773 Bugzilla   : 10889
774 Description: incorrect data written to files on OSTs
775 Details    : In certain high-load conditions incorrect data may be written
776              to files on the OST when using TCP networks.
777
778 ------------------------------------------------------------------------------
779
780 2006-07-31  Cluster File Systems, Inc. <info@clusterfs.com>
781         * version 1.4.7
782         - rework CDEBUG messages rate-limiting mechanism b=10375
783         - add per-socket tunables for socklnd if the kernel is patched b=10327
784
785 ------------------------------------------------------------------------------
786
787 2006-02-15  Cluster File Systems, Inc. <info@clusterfs.com>
788         * version 1.4.6
789         - fix use of portals/lnet pid to avoid dropping RPCs b=10074
790         - iiblnd wasn't mapping all memory, resulting in comms errors b=9776
791         - quiet LNET startup LNI message for liblustre b=10128
792         - Better console error messages if 'ip2nets' can't match an IP address
793         - Fixed overflow/use-before-set bugs in linux-time.h
794         - Fixed ptllnd bug that wasn't initialising rx descriptors completely
795         - LNET teardown failed an assertion about the route table being empty
796         - Fixed a crash in LNetEQPoll(<invalid handle>)
797         - Future protocol compatibility work (b_rls146_lnetprotovrsn)
798         - improve debug message for liblustre/Catamount nodes (b=10116)
799
800 2005-10-10  Cluster File Systems, Inc. <info@clusterfs.com>
801         * Configuration change for the XT3
802              The PTLLND is now used to run Lustre over Portals on the XT3.
803              The configure option(s) --with-cray-portals are no longer
804              used.  Rather --with-portals=<path-to-portals-includes> is
805              used to enable building on the XT3.  In addition to enable
806              XT3 specific features the option --enable-cray-xt3 must be
807              used.
808
809 2005-10-10  Cluster File Systems, Inc. <info@clusterfs.com>
810         * Portals has been removed, replaced by LNET.
811            LNET is new networking infrastructure for Lustre, it includes a
812            reorganized network configuration mode (see the user
813            documentation for full details) as well as support for routing
814            between different network fabrics.  Lustre Networking Devices
815            (LNDS) for the supported network fabrics have also been created
816            for this new infrastructure.
817
818 2005-08-08  Cluster File Systems, Inc. <info@clusterfs.com>
819        * version 1.4.4
820        * bug fixes
821
822 Severity   : major
823 Frequency  : rare (large Voltaire clusters only)
824 Bugzilla   : 6993
825 Description: the default number of reserved transmit descriptors was too low
826              for some large clusters
827 Details    : As a workaround, the number was increased.  A proper fix includes
828              a run-time tunable.
829
830 2005-06-02  Cluster File Systems, Inc. <info@clusterfs.com>
831        * version 1.4.3
832        * bug fixes
833
834 Severity   : major
835 Frequency  : occasional (large-scale events, cluster reboot, network failure)
836 Bugzilla   : 6411
837 Description: too many error messages on console obscure actual problem and
838              can slow down/panic server, or cause recovery to fail repeatedly
839 Details    : enable rate-limiting of console error messages, and some messages
840              that were console errors now only go to the kernel log
841
842 Severity   : enhancement
843 Bugzilla   : 1693
844 Description: add /proc/sys/portals/catastrophe entry which will report if
845              that node has previously LBUGged
846
847 2005-04-06  Cluster File Systems, Inc. <info@clusterfs.com>
848        * bugs
849         - update gmnal to use PTL_MTU, fix module refcounting (b=5786)
850
851 2005-04-04  Cluster File Systems, Inc. <info@clusterfs.com>
852        * bugs
853         - handle error return code in kranal_check_fma_rx() (5915,6054)
854
855 2005-02-04  Cluster File Systems, Inc. <info@clusterfs.com>
856        * miscellania
857         - update vibnal (Voltaire IB NAL)
858         - update gmnal (Myrinet NAL), gmnalid
859
860 2005-02-04  Eric Barton  <eeb@bartonsoftware.com>
861
862         * Landed portals:b_port_step as follows...
863
864           - removed CFS_DECL_SPIN* 
865             just use 'spinlock_t' and initialise with spin_lock_init()
866
867           - removed CFS_DECL_MUTEX*
868             just use 'struct semaphore' and initialise with init_mutex()
869
870           - removed CFS_DECL_RWSEM*
871             just use 'struct rw_semaphore' and initialise with init_rwsem()
872
873           - renamed cfs_sleep_chan -> cfs_waitq
874                     cfs_sleep_link -> cfs_waitlink
875
876           - fixed race in linux version of arch-independent socknal
877             (the ENOMEM/EAGAIN decision).
878
879           - Didn't fix problems in Darwin version of arch-independent socknal
880             (resetting socket callbacks, eager ack hack, ENOMEM/EAGAIN decision)
881
882           - removed libcfs types from non-socknal header files (only some types
883             in the header files had been changed; the .c files hadn't been
884             updated at all).