Whamcloud - gitweb
i=liang,b=21103,b=19735:
[fs/lustre-release.git] / lnet / ChangeLog
1 tbd  Sun Microsystems, Inc.
2         * version 2.0.0
3         * Support for networks:
4          socklnd   - any kernel supported by Lustre,
5          qswlnd    - Qsnet kernel modules 5.20 and later,
6          openiblnd - IbGold 1.8.2,
7          o2iblnd   - OFED 1.1, 1.2.0, 1.2.5, 1.3, and 1.4.1
8          viblnd    - Voltaire ibhost 3.4.5 and later,
9          ciblnd    - Topspin 3.2.0,
10          iiblnd    - Infiniserv 3.3 + PathBits patch,
11          gmlnd     - GM 2.1.22 and later,
12          mxlnd     - MX 1.2.1 or later,
13          ptllnd    - Portals 3.3 / UNICOS/lc 1.5.x, 2.0.x
14
15 Severity   : 
16 Bugzilla   : 
17 Description: 
18 Details    : 
19
20 Severity   : enhancement
21 Bugzilla   : 19735
22 Description: multiple-instance support for kptllnd
23
24 Severity   : normal
25 Bugzilla   : 20897
26 Description: ksocknal_close_conn_locked connection race
27 Details    : A race was possible when ksocknal_create_conn calls
28              ksocknal_close_conn_locked for already closed conn.
29
30 Severity   : normal
31 Bugzilla   : 18102
32 Description: router_proc.c is rewritten to use sysctl-interface for parameters
33              residing in /proc/sys/lnet
34
35 Severity   : enhancement
36 Bugzilla   : 13065
37 Description: port router pinger to userspace
38
39 Severity   : normal
40 Bugzilla   : 17546
41 Description: kptllnd HELLO protocol deadlock
42 Details    : kptllnd HELLO protocol doesn't run to completion in finite time
43
44 Severity   : normal
45 Bugzilla   : 18075
46 Description: LNet selftest fixes and enhancements
47
48 Severity   : enhancement
49 Bugzilla   : 19156
50 Description: allow a test node to be a member of multiple test groups
51
52 Severity   : enhancement
53 Bugzilla   : 18654
54 Description: MXLND: eliminate hosts file, use arp for peer nic_id resolution
55 Details    : an update from the upstream developer Scott Atchley.
56
57 Severity   : enhancement
58 Bugzilla   : 15332
59 Description: add a new LND optiion to control peer buffer credits on routers
60
61 Severity   : normal
62 Bugzilla   : 18844
63 Description: Fixing deadlock in usocklnd
64 Details    : A deadlock was possible in usocklnd due to race condition while
65              tearing connection down. The problem resulted from erroneous
66              assumption that lnet_finalize() could have been called holding
67              some lnd-level locks.
68
69 Severity   : major
70 Bugzilla   : 13621, 15983
71 Description: Protocol V2 of o2iblnd
72 Details    : o2iblnd V2 has several new features:
73              . map-on-demand: map-on-demand is disabled by default, it can
74                be enabled by using modparam "map_on_demand=@value@", @value@
75                should >= 0 and < 256, 0 will disable map-on-demand, any other
76                valid value will enable map-on-demand. 
77                Oi2blnd will create FMR or physical MR for RDMA if fragments of
78                RD > @value@.
79                Enable map-on-demand will take less memory for new connection,
80                but a little more CPU for RDMA.
81              . iWARP : to support iWARP, please enable map-on-demand, 32 and 64
82                are recommanded value. iWARP will probably fail for value >=128.
83              . OOB NOOP message: to resolve deadlock on router.
84              . tunable peer_credits_hiw: (high water to return credits),
85                default value of peer_credits_hiw equals to (peer_credits -1),
86                user can change it between peer_credits/2 and (peer_credits - 1).
87                Lower value is recommended for high latency network.
88              . tunable message queue size: it always equals to peer_credits,
89                higher value is recommended for high latency network.
90              . It's compatible with earlier version of o2iblnd
91
92 Severity   : normal
93 Bugzilla   : 18414
94 Description: Fixing 'running out of ports' issue
95 Details    : Add a delay before next reconnect attempt in ksocklnd in
96              the case of lost race. Limit the frequency of query-requests
97              in lnet. Improved handling of 'dead peer' notifications in
98              lnet.
99
100 Severity   : normal
101 Bugzilla   : 16034
102 Description: Change ptllnd timeout and watchdog timers
103 Details    : Add ptltrace_on_nal_failed and bump ptllnd timeout to match
104              Portals wire timeout.
105
106 Severity   : normal
107 Bugzilla   : 16186
108 Description: One down Lustre FS hangs ALL mounted Lustre filesystems
109 Details    : Shared routing enhancements - peer health detection.
110
111 Severity   : enhancement
112 Bugzilla   : 14132
113 Description: acceptor.c cleanup
114 Details    : Code duplication in acceptor.c for the cases of kernel and
115              user-space removed. User-space libcfs tcpip primitives
116              uniformed to have prototypes similar to kernel ones. Minor
117              cosmetic changes in usocklnd to use cfs_socket_t as
118              representation of socket.
119
120 Severity   : minor
121 Bugzilla   : 11245
122 Description: IB path MTU mistakenly set to 1st path MTU when ib_mtu is off
123 Details    : See comment 46 in bug 11245 for details - it's indeed a bug
124              introduced by the original 11245 fix.
125
126 Severity   : minor
127 Bugzilla   : 15984
128 Description: uptllnd credit overflow fix
129 Details    : kptl_msg_t::ptlm_credits could be overflown by uptllnd since
130              it is only a __u8.
131
132 Severity   : major
133 Bugzilla   : 14634
134 Description: socklnd protocol version 3
135 Details    : With current protocol V2, connections on router can be
136              blocked and can't receive any incoming messages when there is no
137              more router buffer, so ZC-ACK can't be handled (LNet message
138              can't be finalized) and will cause deadlock on router.
139              Protocol V3 has a dedicated connection for emergency messages
140              like ZC-ACK to router, messages on this dedicated connection
141              don't need any credit so will never be blocked. Also, V3 can send
142              keepalive ping in specified period for router healthy checking.
143
144 -------------------------------------------------------------------------------
145
146 12-31-2008  Sun Microsystems, Inc.
147         * version 1.8.0
148         * Support for networks:
149          socklnd   - any kernel supported by Lustre,
150          qswlnd    - Qsnet kernel modules 5.20 and later,
151          openiblnd - IbGold 1.8.2,
152          o2iblnd   - OFED 1.1, 1.2.0, 1.2.5, and 1.3
153          viblnd    - Voltaire ibhost 3.4.5 and later,
154          ciblnd    - Topspin 3.2.0,
155          iiblnd    - Infiniserv 3.3 + PathBits patch,
156          gmlnd     - GM 2.1.22 and later,
157          mxlnd     - MX 1.2.1 or later,
158          ptllnd    - Portals 3.3 / UNICOS/lc 1.5.x, 2.0.x
159
160 Severity   : major
161 Bugzilla   : 15983
162 Description: workaround for OOM from o2iblnd
163 Details    : OFED needs allocate big chunk of memory for QP while creating
164              connection for o2iblnd, OOM can happen if no such a contiguous
165              memory chunk.
166              QP size is decided by concurrent_sends and max_fragments of
167              o2iblnd, now we permit user to specify smaller value for
168              concurrent_sends of o2iblnd(i.e: concurrent_sends=7), which
169              will decrease memory block size required by creating QP.
170
171 Severity   : major
172 Bugzilla   : 15093
173 Description: Support Zerocopy receive of Chelsio device
174 Details    : Chelsio driver can support zerocopy for iov[1] if it's
175              contiguous and large enough.
176
177 Severity   : normal
178 Bugzilla   : 13490
179 Description: fix credit flow deadlock in uptllnd
180
181 Severity   : normal
182 Bugzilla   : 16308
183 Description: finalize network operation in reasonable time
184 Details    : conf-sanity test_32a couldn't stop ost and mds because it
185              tried to access non-existent peer and tcp connect took
186              quite long before timing out.
187
188 Severity   : major
189 Bugzilla   : 16338
190 Description: Continuous recovery on 33 of 413 nodes after lustre oss failure
191 Details    : Lost reference on conn prevents peer from being destroyed, which
192              could prevent new peer creation if peer count has reached upper
193              limit.
194
195 Severity   : normal
196 Bugzilla   : 16102
197 Description: LNET Selftest results in Soft lockup on OSS CPU
198 Details    : only hits when 8 or more o2ib clients involved and a session is
199              torn down with 'lst end_session' without preceeding 'lst stop'.
200
201 Severity   : minor
202 Bugzilla   : 16321
203 Description: concurrent_sends in IB LNDs should not be changeable at run time
204 Details    : concurrent_sends in IB LNDs should not be changeable at run time
205
206 Severity   : normal
207 Bugzilla   : 15272
208 Description: ptl_send_rpc hits LASSERT when ptl_send_buf fails
209 Details    : only hits under out-of-memory situations
210
211
212 -------------------------------------------------------------------------------
213
214 2009-02-07 Sun Microsystems, Inc.
215         * version 1.6.7
216         * Support for networks:
217          socklnd   - any kernel supported by Lustre,
218          qswlnd    - Qsnet kernel modules 5.20 and later,
219          openiblnd - IbGold 1.8.2,
220          o2iblnd   - OFED 1.1, 1.2.0, 1.2.5, and 1.3
221          viblnd    - Voltaire ibhost 3.4.5 and later,
222          ciblnd    - Topspin 3.2.0,
223          iiblnd    - Infiniserv 3.3 + PathBits patch,
224          gmlnd     - GM 2.1.22 and later,
225          mxlnd     - MX 1.2.1 or later,
226          ptllnd    - Portals 3.3 / UNICOS/lc 1.5.x, 2.0.x
227 Severity   : major
228 Bugzilla   : 15983
229 Description: workaround for OOM from o2iblnd
230 Details    : OFED needs allocate big chunk of memory for QP while creating
231              connection for o2iblnd, OOM can happen if no such a contiguous
232              memory chunk.
233              QP size is decided by concurrent_sends and max_fragments of
234              o2iblnd, now we permit user to specify smaller value for
235              concurrent_sends of o2iblnd(i.e: concurrent_sends=7), which
236              will decrease memory block size required by creating QP.
237
238 Severity   : major
239 Bugzilla   : 15093
240 Description: Support Zerocopy receive of Chelsio device
241 Details    : Chelsio driver can support zerocopy for iov[1] if it's
242              contiguous and large enough.
243 Severity   : normal
244 Bugzilla   : 13490
245 Description: fix credit flow deadlock in uptllnd
246
247 Severity   : normal
248 Bugzilla   : 16308
249 Description: finalize network operation in reasonable time
250 Details    : conf-sanity test_32a couldn't stop ost and mds because it
251              tried to access non-existent peer and tcp connect took
252              quite long before timing out.
253
254 Severity   : major
255 Bugzilla   : 16338
256 Description: Continuous recovery on 33 of 413 nodes after lustre oss failure
257 Details    : Lost reference on conn prevents peer from being destroyed, which
258              could prevent new peer creation if peer count has reached upper
259              limit.
260
261 Severity   : normal
262 Bugzilla   : 16102
263 Description: LNET Selftest results in Soft lockup on OSS CPU
264 Details    : only hits when 8 or more o2ib clients involved and a session is
265              torn down with 'lst end_session' without preceeding 'lst stop'.
266
267 Severity   : minor
268 Bugzilla   : 16321
269 Description: concurrent_sends in IB LNDs should not be changeable at run time
270 Details    : concurrent_sends in IB LNDs should not be changeable at run time
271
272 -------------------------------------------------------------------------------
273
274 11-03-2008  Sun Microsystems, Inc.
275         * version 1.6.6
276         * Support for networks:
277          socklnd   - any kernel supported by Lustre,
278          qswlnd    - Qsnet kernel modules 5.20 and later,
279          openiblnd - IbGold 1.8.2,
280          o2iblnd   - OFED 1.1, 1.2.0, 1.2.5, and 1.3
281          viblnd    - Voltaire ibhost 3.4.5 and later,
282          ciblnd    - Topspin 3.2.0,
283          iiblnd    - Infiniserv 3.3 + PathBits patch,
284          gmlnd     - GM 2.1.22 and later,
285          mxlnd     - MX 1.2.1 or later,
286          ptllnd    - Portals 3.3 / UNICOS/lc 1.5.x, 2.0.x
287
288 Severity   : normal
289 Bugzilla   : 15272
290 Description: ptl_send_rpc hits LASSERT when ptl_send_buf fails
291 Details    : only hits under out-of-memory situations
292
293 -------------------------------------------------------------------------------
294
295 04-26-2008  Sun Microsystems, Inc.
296        * version 1.6.5
297        * Support for networks:
298         socklnd   - any kernel supported by Lustre,
299         qswlnd    - Qsnet kernel modules 5.20 and later,
300         openiblnd - IbGold 1.8.2,
301         o2iblnd   - OFED 1.1 and 1.2.0, 1.2.5
302         viblnd    - Voltaire ibhost 3.4.5 and later,
303         ciblnd    - Topspin 3.2.0,
304         iiblnd    - Infiniserv 3.3 + PathBits patch,
305         gmlnd     - GM 2.1.22 and later,
306         mxlnd     - MX 1.2.1 or later,
307         ptllnd    - Portals 3.3 / UNICOS/lc 1.5.x, 2.0.x
308
309 Severity   : normal
310 Bugzilla   : 14322
311 Description: excessive debug information removed
312 Details    : excessive debug information removed
313
314 Severity   : major
315 Bugzilla   : 15712
316 Description: ksocknal_create_conn() hit ASSERTION during connection race
317 Details    : ksocknal_create_conn() hit ASSERTION during connection race
318
319 Severity   : major
320 Bugzilla   : 13983
321 Description: ksocknal_send_hello() hit ASSERTION while connecting race
322 Details    : ksocknal_send_hello() hit ASSERTION while connecting race
323
324 Severity   : major
325 Bugzilla   : 14425
326 Description: o2iblnd/ptllnd credit deadlock in a routed config.
327 Details    : o2iblnd/ptllnd credit deadlock in a routed config.
328
329 Severity   : normal
330 Bugzilla   : 14956
331 Description: High load after starting lnet
332 Details    : gmlnd should sleep in rx thread in interruptible way. Otherwise,
333              uptime utility reports high load that looks confusingly.
334
335 Severity   : normal
336 Bugzilla   : 14838
337 Description: ksocklnd fails to establish connection if accept_port is high
338 Details    : PID remapping must not be done for active (outgoing) connections
339
340
341 --------------------------------------------------------------------------------
342
343 2008-01-11  Sun Microsystems, Inc.
344        * version 1.4.12
345        * Support for networks:
346         socklnd   - any kernel supported by Lustre,
347         qswlnd    - Qsnet kernel modules 5.20 and later,
348         openiblnd - IbGold 1.8.2,
349         o2iblnd   - OFED 1.1 and 1.2.0, 1.2.5
350         viblnd    - Voltaire ibhost 3.4.5 and later,
351         ciblnd    - Topspin 3.2.0,
352         iiblnd    - Infiniserv 3.3 + PathBits patch,
353         gmlnd     - GM 2.1.22 and later,
354         mxlnd     - MX 1.2.1 or later,
355         ptllnd    - Portals 3.3 / UNICOS/lc 1.5.x, 2.0.x
356
357 Severity   : normal
358 Bugzilla   : 14387
359 Description: liblustre network error
360 Details    : liblustre clients should understand LNET_ACCEPT_PORT environment
361              variable even if they don't start lnet acceptor.
362
363 Severity   : normal
364 Bugzilla   : 14300
365 Description: Strange message from lnet (Ignoring prediction from the future)
366 Details    : Incorrect calculation of peer's last_alive value in ksocklnd
367
368 --------------------------------------------------------------------------------
369
370 2007-12-07         Cluster File Systems, Inc. <info@clusterfs.com>
371        * version 1.6.4
372        * Support for networks:
373         socklnd   - any kernel supported by Lustre,
374         qswlnd    - Qsnet kernel modules 5.20 and later,
375         openiblnd - IbGold 1.8.2,
376         o2iblnd   - OFED 1.1 and 1.2.0, 1.2.5.
377         viblnd    - Voltaire ibhost 3.4.5 and later,
378         ciblnd    - Topspin 3.2.0,
379         iiblnd    - Infiniserv 3.3 + PathBits patch,
380         gmlnd     - GM 2.1.22 and later,
381         mxlnd     - MX 1.2.1 or later,
382         ptllnd    - Portals 3.3 / UNICOS/lc 1.5.x, 2.0.x
383
384 Severity   : normal
385 Bugzilla   : 14238
386 Description: ASSERTION(me == md->md_me) failed in lnet_match_md()
387
388 Severity   : normal
389 Bugzilla   : 12494
390 Description: increase send queue size for ciblnd/openiblnd
391
392 Severity   : normal
393 Bugzilla   : 12302
394 Description: new userspace socklnd
395 Details    : Old userspace tcpnal that resided in lnet/ulnds/socklnd replaced
396              with new one - usocklnd.
397
398 Severity   : enhancement
399 Bugzilla   : 11686
400 Description: Console message flood
401 Details    : Make cdls ratelimiting more tunable by adding several tunable in
402              procfs /proc/sys/lnet/console_{min,max}_delay_centisecs and
403              /proc/sys/lnet/console_backoff.
404
405 --------------------------------------------------------------------------------
406
407 2007-09-27         Cluster File Systems, Inc. <info@clusterfs.com>
408        * version 1.6.3
409        * Support for networks:
410         socklnd   - any kernel supported by Lustre,
411         qswlnd    - Qsnet kernel modules 5.20 and later,
412         openiblnd - IbGold 1.8.2,
413         o2iblnd   - OFED 1.1 and 1.2,
414         viblnd    - Voltaire ibhost 3.4.5 and later,
415         ciblnd    - Topspin 3.2.0,
416         iiblnd    - Infiniserv 3.3 + PathBits patch,
417         gmlnd     - GM 2.1.22 and later,
418         mxlnd     - MX 1.2.1 or later,
419         ptllnd    - Portals 3.3 / UNICOS/lc 1.5.x, 2.0.x
420
421 Severity   : normal
422 Bugzilla   : 12782
423 Description: /proc/sys/lnet has non-sysctl entries
424 Details    : Updating dump_kernel/daemon_file/debug_mb to use sysctl variables
425
426 Severity   : major
427 Bugzilla   : 13236
428 Description: TOE Kernel panic by ksocklnd
429 Details    : offloaded sockets provide their own implementation of sendpage,
430              can't call tcp_sendpage() directly
431
432 Severity   : normal
433 Bugzilla   : 10778
434 Description: kibnal_shutdown() doesn't finish; lconf --cleanup hangs
435 Details    : races between lnd_shutdown and peer creation prevent 
436              lnd_shutdown from finishing.
437
438 Severity   : normal
439 Bugzilla   : 13279
440 Description: open files rlimit 1024 reached while liblustre testing
441 Details    : ulnds/socklnd must close open socket after unsuccessful
442              'say hello' attempt.
443
444 Severity   : major 
445 Bugzilla   : 13482
446 Description: build error
447 Details    : fix typos in gmlnd, ptllnd and viblnd
448
449 --------------------------------------------------------------------------------
450
451 2007-07-30  Cluster File Systems, Inc. <info@clusterfs.com>
452        * version 1.6.1
453        * Support for networks:
454         socklnd   - kernels up to 2.6.16,
455         qswlnd    - Qsnet kernel modules 5.20 and later,
456         openiblnd - IbGold 1.8.2,
457         o2iblnd   - OFED 1.1 and 1.2
458         viblnd    - Voltaire ibhost 3.4.5 and later,
459         ciblnd    - Topspin 3.2.0,
460         iiblnd    - Infiniserv 3.3 + PathBits patch,
461         gmlnd     - GM 2.1.22 and later,
462         mxlnd     - MX 1.2.1 or later,
463         ptllnd    - Portals 3.3 / UNICOS/lc 1.5.x, 2.0.x
464
465 --------------------------------------------------------------------------------
466
467 2007-06-21  Cluster File Systems, Inc. <info@clusterfs.com>
468        * version 1.4.11
469        * Support for networks:
470         socklnd   - kernels up to 2.6.16,
471         qswlnd    - Qsnet kernel modules 5.20 and later,
472         openiblnd - IbGold 1.8.2,
473         o2iblnd   - OFED 1.1
474         viblnd    - Voltaire ibhost 3.4.5 and later,
475         ciblnd    - Topspin 3.2.0,
476         iiblnd    - Infiniserv 3.3 + PathBits patch,
477         gmlnd     - GM 2.1.22 and later,
478         mxlnd     - MX 1.2.1 or later,
479         ptllnd    - Portals 3.3 / UNICOS/lc 1.5.x, 2.0.x
480
481 Severity   : minor
482 Bugzilla   : 13288
483 Description: Initialize cpumask before use
484
485 Severity   : major
486 Bugzilla   : 12014
487 Description: ASSERTION failures when upgrading to the patchless zero-copy
488              socklnd 
489 Details    : This bug affects "rolling upgrades", causing an inconsistent
490              protocol version negotiation and subsequent assertion failure
491              during rolling upgrades after the first wave of upgrades.
492
493 Severity   : minor
494 Bugzilla   : 11223
495 Details    : Change "dropped message" CERRORs to D_NETERROR so they are
496              logged instead of creating "console chatter" when a lustre
497              timeout races with normal RPC completion.
498
499 Severity   : minor
500 Details    : lnet_clear_peer_table can wait forever if user forgets to
501              clear a lazy portal.
502
503 Severity   : minor
504 Details    : libcfs_id2str should check pid against LNET_PID_ANY.
505
506 Severity   : major
507 Bugzilla   : 10916
508 Description: added LNET self test
509 Details    : landing b_self_test
510
511 Severity   : minor
512 Frequency  : rare
513 Bugzilla   : 12227
514 Description: cfs_duration_{u,n}sec() wrongly calculate nanosecond part of
515              struct timeval.
516 Details    : do_div() macro is used incorrectly.
517
518 2007-04-23  Cluster File Systems, Inc. <info@clusterfs.com>
519
520 Severity   : normal
521 Bugzilla   : 11680
522 Description: make panic on lbug configurable
523
524 Severity   : major
525 Bugzilla   : 12316
526 Description: Add OFED1.2 support to o2iblnd
527 Details    : o2iblnd depends on OFED's modules, if out-tree OFED's modules
528              are installed (other than kernel's in-tree infiniband), there
529              could be some problem while insmod o2iblnd (mismatch CRC of 
530              ib_* symbols).
531              If extra Module.symvers is supported in kernel (i.e, 2.6.17),
532              this link provides solution:
533              https://bugs.openfabrics.org/show_bug.cgi?id=355
534              if extra Module.symvers is not supported in kernel, we will
535              have to run the script in bug 12316 to update
536              $LINUX/module.symvers before building o2iblnd.
537              More details about this are in bug 12316.
538
539 ------------------------------------------------------------------------------
540
541 2007-04-01  Cluster File Systems, Inc. <info@clusterfs.com>
542        * version 1.4.10 / 1.6.0
543        * Support for networks:
544         socklnd   - kernels up to 2.6.16,
545         qswlnd    - Qsnet kernel modules 5.20 and later,
546         openiblnd - IbGold 1.8.2,
547         o2iblnd   - OFED 1.1,
548         viblnd    - Voltaire ibhost 3.4.5 and later,
549         ciblnd    - Topspin 3.2.0,
550         iiblnd    - Infiniserv 3.3 + PathBits patch,
551         gmlnd     - GM 2.1.22 and later,
552         mxlnd     - MX 1.2.1 or later,
553         ptllnd    - Portals 3.3 / UNICOS/lc 1.5.x, 2.0.x
554         
555 Severity   : minor
556 Frequency  : rare
557 Description: Ptllnd didn't init kptllnd_data.kptl_idle_txs before it could be
558              possibly accessed in kptllnd_shutdown. Ptllnd should init 
559              kptllnd_data.kptl_ptlid2str_lock before calling kptllnd_ptlid2str.
560
561 Severity   : normal
562 Frequency  : rare
563 Description: gmlnd ignored some transmit errors when finalizing lnet messages.
564
565 Severity   : minor
566 Frequency  : rare
567 Description: ptllnd logs a piece of incorrect debug info in kptllnd_peer_handle_hello.
568
569 Severity   : minor
570 Frequency  : rare
571 Description: the_lnet.ln_finalizing was not set when the current thread is
572              about to complete messages. It only affects multi-threaded 
573              user space LNet.
574         
575 Severity   : normal
576 Frequency  : rare
577 Bugzilla   : 11472
578 Description: Changed the default kqswlnd ntxmsg=512
579         
580 Severity   : major
581 Frequency  : rare
582 Bugzilla   : 12458
583 Description: Assertion failure in kernel ptllnd caused by posting passive
584              bulk buffers before connection establishment complete.
585         
586 Severity   : major
587 Frequency  : rare
588 Bugzilla   : 12445
589 Description: A race in kernel ptllnd between deleting a peer and posting
590              new communications for it could hang communications -
591              manifesting as "Unexpectedly long timeout" messages.
592         
593 Severity   : major
594 Frequency  : rare
595 Bugzilla   : 12432
596 Description: Kernel ptllnd lock ordering issue could hang a node.
597         
598 Severity   : major
599 Frequency  : rare
600 Bugzilla   : 12016
601 Description: node crash on socket teardown race
602
603 Severity   : minor
604 Frequency  : 'lctl peer_list' issued on a mx net
605 Bugzilla   : 12237
606 Description: Enable lctl's peer_list for MXLND
607
608 Severity   : major
609 Frequency  : after Ptllnd timeouts and portals congestion
610 Bugzilla   : 11659
611 Description: Credit overflows
612 Details    : This was a bug in ptllnd connection establishment.  The fix
613              implements better peer stamps to disambiguate connection
614              establishment and ensure both peers enter the credit flow
615              state machine consistently.
616
617 Severity   : major
618 Frequency  : rare       
619 Bugzilla   : 11394
620 Description: kptllnd didn't propagate some network errors up to LNET 
621 Details    : This bug was spotted while investigating 11394.  The fix
622              ensures network errors on sends and bulk transfers are
623              propagated to LNET/lustre correctly.
624
625 Severity   : enhancement
626 Bugzilla   : 10316
627 Description: Fixed console chatter in case of -ETIMEDOUT.
628
629 Severity   : enhancement
630 Bugzilla   : 11684
631 Description: Added D_NETTRACE for recording network packet history
632              (initially only for ptllnd).  Also a separate userspace
633              ptllnd facility to gather history which should really be
634              covered by D_NETTRACE too, if only CDEBUG recorded history in
635              userspace.
636
637 Severity   : major
638 Frequency  : rare       
639 Bugzilla   : 11616
640 Description: o2iblnd handle early RDMA_CM_EVENT_DISCONNECTED.
641 Details    : If the fabric is lossy, an RDMA_CM_EVENT_DISCONNECTED
642              callback can occur before a connection has actually been
643              established.  This caused an assertion failure previously.
644
645 Severity   : enhancement
646 Bugzilla   : 11094
647 Description: Multiple instances for o2iblnd
648 Details    : Allow multiple instances of o2iblnd to enable networking over
649              multiple HCAs and routing between them.
650
651 Severity   : major
652 Bugzilla   : 11201
653 Description: lnet deadlock in router_checker
654 Details    : turned ksnd_connd_lock, ksnd_reaper_lock, and ksock_net_t:ksnd_lock
655              into BH locks to eliminate potential deadlock caused by
656              ksocknal_data_ready() preempting code holding these locks.
657
658 Severity   : major
659 Bugzilla   : 11126
660 Description: Millions of failed socklnd connection attempts cause a very slow FS
661 Details    : added a new route flag ksnr_scheduled to distinguish from
662              ksnr_connecting, so that a peer connection request is only turned
663              down for race concerns when an active connection to the same peer
664              is under progress (instead of just being scheduled).
665
666 ------------------------------------------------------------------------------
667
668 2007-02-09  Cluster File Systems, Inc. <info@clusterfs.com>
669        * version 1.4.9
670        * Support for networks:
671         socklnd   - kernels up to 2.6.16
672         qswlnd    - Qsnet kernel modules 5.20 and later
673         openiblnd - IbGold 1.8.2
674         o2iblnd   - OFED 1.1
675         viblnd    - Voltaire ibhost 3.4.5 and later
676         ciblnd    - Topspin 3.2.0
677         iiblnd    - Infiniserv 3.3 + PathBits patch
678         gmlnd     - GM 2.1.22 and later
679         mxlnd     - MX 1.2.1 or later
680         ptllnd    - Portals 3.3 / UNICOS/lc 1.5.x, 2.0.x
681        * bug fixes
682
683 Severity   : major on XT3
684 Bugzilla   : none
685 Description: libcfs overwrites /proc/sys/portals
686 Details    : libcfs created a symlink from /proc/sys/portals to
687              /proc/sys/lnet for backwards compatibility.  This is no
688              longer required and makes the Cray portals /proc variables
689              inaccessible.
690
691 Severity   : minor
692 Bugzilla   : 11312
693 Description: OFED FMR API change
694 Details    : This changes parameter usage to reflect a change in
695              ib_fmr_pool_map_phys() between OFED 1.0 and OFED 1.1.  Note
696              that FMR support is only used in experimental versions of the
697              o2iblnd - this change does not affect standard usage at all.
698
699 Severity   : enhancement
700 Bugzilla   : 11245
701 Description: new ko2iblnd module parameter: ib_mtu
702 Details    : the default IB MTU of 2048 performs badly on 23108 Tavor
703              HCAs.  You can avoid this problem by setting the MTU to 1024
704              using this module parameter.
705
706 Severity   : enhancement
707 Bugzilla   : 11118/11620
708 Description: ptllnd small request message buffer alignment fix
709 Details    : Set the PTL_MD_LOCAL_ALIGN8 option on small message receives.
710              Round up small message size on sends in case this option
711              is not supported.  11620 was a defect in the initial
712              implementation which effectively asserted all peers had to be
713              running the correct protocol version which was fixed by always
714              NAK-ing such requests and handling any misalignments they
715              introduce.
716
717 Severity   : minor
718 Frequency  : rarely
719 Description: When kib(nal|lnd)_del_peer() is called upon a peer whose
720              ibp_tx_queue is not empty, kib(nal|lnd)_destroy_peer()'s
721              'LASSERT(list_empty(&peer->ibp_tx_queue))' will fail.
722
723 Severity   : enhancement
724 Bugzilla   : 11250
725 Description: Patchless ZC(zero copy) socklnd
726 Details    : New protocol for socklnd, socklnd can support zero copy without
727              kernel patch, it's compatible with old socklnd. Checksum is 
728              moved from tunables to modparams.
729
730 Severity   : minor
731 Frequency  : rarely
732 Description: When ksocknal_del_peer() is called upon a peer whose
733              ksnp_tx_queue is not empty, ksocknal_destroy_peer()'s
734              'LASSERT(list_empty(&peer->ksnp_tx_queue))' will fail.
735
736 Severity   : normal
737 Frequency  : when ptlrpc is under heavy use and runs out of request buffer
738 Bugzilla   : 11318
739 Description: In lnet_match_blocked_msg(), md can be used without holding a
740              ref on it.
741
742 Severity   : minor
743 Frequency  : very rarely
744 Bugzilla   : 10727
745 Description: If ksocknal_lib_setup_sock() fails, a ref on peer is lost.
746              If connd connects a route which has been closed by
747              ksocknal_shutdown(), ksocknal_create_routes() may create new
748              routes which hold references on the peer, causing shutdown
749              process to wait for peer to disappear forever.
750
751 Severity   : enhancement
752 Bugzilla   : 11234
753 Description: Dump XT3 portals traces on kptllnd timeout
754 Details    : Set the kptllnd module parameter "ptltrace_on_timeout=1" to
755              dump Cray portals debug traces to a file.  The kptllnd module
756              parameter "ptltrace_basename", default "/tmp/lnet-ptltrace",
757              is the basename of the dump file.
758
759 Severity   : major
760 Frequency  : infrequent
761 Bugzilla   : 11308
762 Description: kernel ptllnd fix bug in connection re-establishment
763 Details    : Kernel ptllnd could produce protocol errors e.g. illegal
764              matchbits and/or violate the credit flow protocol when trying
765              to re-establish a connection with a peer after an error or
766              timeout. 
767
768 Severity   : enhancement
769 Bugzilla   : 10316
770 Description: Allow /proc/sys/lnet/debug to be set symbolically
771 Details    : Allow debug and subsystem debug values to be read/set by name
772              in addition to numerically, for ease of use.
773
774 Severity   : normal
775 Frequency  : only in configurations with LNET routers
776 Bugzilla   : 10316
777 Description: routes automatically marked down and recovered
778 Details    : In configurations with LNET routers if a router fails routers
779              now actively try to recover routes that are down, unless they
780              are marked down by an administrator.
781
782 ------------------------------------------------------------------------------
783
784 2006-12-09  Cluster File Systems, Inc. <info@clusterfs.com>
785
786 Severity   : critical
787 Frequency  : very rarely, in configurations with LNET routers and TCP
788 Bugzilla   : 10889
789 Description: incorrect data written to files on OSTs
790 Details    : In certain high-load conditions incorrect data may be written
791              to files on the OST when using TCP networks.
792
793 ------------------------------------------------------------------------------
794
795 2006-07-31  Cluster File Systems, Inc. <info@clusterfs.com>
796         * version 1.4.7
797         - rework CDEBUG messages rate-limiting mechanism b=10375
798         - add per-socket tunables for socklnd if the kernel is patched b=10327
799
800 ------------------------------------------------------------------------------
801
802 2006-02-15  Cluster File Systems, Inc. <info@clusterfs.com>
803         * version 1.4.6
804         - fix use of portals/lnet pid to avoid dropping RPCs b=10074
805         - iiblnd wasn't mapping all memory, resulting in comms errors b=9776
806         - quiet LNET startup LNI message for liblustre b=10128
807         - Better console error messages if 'ip2nets' can't match an IP address
808         - Fixed overflow/use-before-set bugs in linux-time.h
809         - Fixed ptllnd bug that wasn't initialising rx descriptors completely
810         - LNET teardown failed an assertion about the route table being empty
811         - Fixed a crash in LNetEQPoll(<invalid handle>)
812         - Future protocol compatibility work (b_rls146_lnetprotovrsn)
813         - improve debug message for liblustre/Catamount nodes (b=10116)
814
815 2005-10-10  Cluster File Systems, Inc. <info@clusterfs.com>
816         * Configuration change for the XT3
817              The PTLLND is now used to run Lustre over Portals on the XT3.
818              The configure option(s) --with-cray-portals are no longer
819              used.  Rather --with-portals=<path-to-portals-includes> is
820              used to enable building on the XT3.  In addition to enable
821              XT3 specific features the option --enable-cray-xt3 must be
822              used.
823
824 2005-10-10  Cluster File Systems, Inc. <info@clusterfs.com>
825         * Portals has been removed, replaced by LNET.
826            LNET is new networking infrastructure for Lustre, it includes a
827            reorganized network configuration mode (see the user
828            documentation for full details) as well as support for routing
829            between different network fabrics.  Lustre Networking Devices
830            (LNDS) for the supported network fabrics have also been created
831            for this new infrastructure.
832
833 2005-08-08  Cluster File Systems, Inc. <info@clusterfs.com>
834        * version 1.4.4
835        * bug fixes
836
837 Severity   : major
838 Frequency  : rare (large Voltaire clusters only)
839 Bugzilla   : 6993
840 Description: the default number of reserved transmit descriptors was too low
841              for some large clusters
842 Details    : As a workaround, the number was increased.  A proper fix includes
843              a run-time tunable.
844
845 2005-06-02  Cluster File Systems, Inc. <info@clusterfs.com>
846        * version 1.4.3
847        * bug fixes
848
849 Severity   : major
850 Frequency  : occasional (large-scale events, cluster reboot, network failure)
851 Bugzilla   : 6411
852 Description: too many error messages on console obscure actual problem and
853              can slow down/panic server, or cause recovery to fail repeatedly
854 Details    : enable rate-limiting of console error messages, and some messages
855              that were console errors now only go to the kernel log
856
857 Severity   : enhancement
858 Bugzilla   : 1693
859 Description: add /proc/sys/portals/catastrophe entry which will report if
860              that node has previously LBUGged
861
862 2005-04-06  Cluster File Systems, Inc. <info@clusterfs.com>
863        * bugs
864         - update gmnal to use PTL_MTU, fix module refcounting (b=5786)
865
866 2005-04-04  Cluster File Systems, Inc. <info@clusterfs.com>
867        * bugs
868         - handle error return code in kranal_check_fma_rx() (5915,6054)
869
870 2005-02-04  Cluster File Systems, Inc. <info@clusterfs.com>
871        * miscellania
872         - update vibnal (Voltaire IB NAL)
873         - update gmnal (Myrinet NAL), gmnalid
874
875 2005-02-04  Eric Barton  <eeb@bartonsoftware.com>
876
877         * Landed portals:b_port_step as follows...
878
879           - removed CFS_DECL_SPIN* 
880             just use 'spinlock_t' and initialise with spin_lock_init()
881
882           - removed CFS_DECL_MUTEX*
883             just use 'struct semaphore' and initialise with init_mutex()
884
885           - removed CFS_DECL_RWSEM*
886             just use 'struct rw_semaphore' and initialise with init_rwsem()
887
888           - renamed cfs_sleep_chan -> cfs_waitq
889                     cfs_sleep_link -> cfs_waitlink
890
891           - fixed race in linux version of arch-independent socknal
892             (the ENOMEM/EAGAIN decision).
893
894           - Didn't fix problems in Darwin version of arch-independent socknal
895             (resetting socket callbacks, eager ack hack, ENOMEM/EAGAIN decision)
896
897           - removed libcfs types from non-socknal header files (only some types
898             in the header files had been changed; the .c files hadn't been
899             updated at all).