Whamcloud - gitweb
b=21938 use the same set during replay
[fs/lustre-release.git] / lnet / ChangeLog
1 tbd  Sun Microsystems, Inc.
2         * version 2.0.0
3         * Support for networks:
4          socklnd   - any kernel supported by Lustre,
5          qswlnd    - Qsnet kernel modules 5.20 and later,
6          openiblnd - IbGold 1.8.2,
7          o2iblnd   - OFED 1.1, 1.2.0, 1.2.5, 1.3, and 1.4.1
8          viblnd    - Voltaire ibhost 3.4.5 and later,
9          ciblnd    - Topspin 3.2.0,
10          iiblnd    - Infiniserv 3.3 + PathBits patch,
11          gmlnd     - GM 2.1.22 and later,
12          mxlnd     - MX 1.2.10 or later,
13          ptllnd    - Portals 3.3 / UNICOS/lc 1.5.x, 2.0.x
14
15 Severity   : 
16 Bugzilla   : 
17 Description: 
18 Details    : 
19
20 Severity   : minor
21 Bugzilla   : 21459
22 Description: should update lp_alive for non-router peers
23
24 Severity   : enhancement
25 Bugzilla   : 15332
26 Description: LNet router shuffler.
27
28 Severity   : enhancement
29 Bugzilla   : 15332
30 Description: LNet fine grain routing support.
31
32 Severity   : normal
33 Bugzilla   : 20171
34 Description: router checker stops working when system wall clock goes backward
35 Details    : use monotonic timing source instead of system wall clock time.
36
37 Severity   : enhancement
38 Bugzilla   : 18460
39 Description: avoid asymmetrical router failures
40
41 Severity   : enhancement
42 Bugzilla   : 19735
43 Description: multiple-instance support for kptllnd
44
45 Severity   : normal
46 Bugzilla   : 20897
47 Description: ksocknal_close_conn_locked connection race
48 Details    : A race was possible when ksocknal_create_conn calls
49              ksocknal_close_conn_locked for already closed conn.
50
51 Severity   : normal
52 Bugzilla   : 18102
53 Description: router_proc.c is rewritten to use sysctl-interface for parameters
54              residing in /proc/sys/lnet
55
56 Severity   : enhancement
57 Bugzilla   : 13065
58 Description: port router pinger to userspace
59
60 Severity   : normal
61 Bugzilla   : 17546
62 Description: kptllnd HELLO protocol deadlock
63 Details    : kptllnd HELLO protocol doesn't run to completion in finite time
64
65 Severity   : normal
66 Bugzilla   : 18075
67 Description: LNet selftest fixes and enhancements
68
69 Severity   : enhancement
70 Bugzilla   : 19156
71 Description: allow a test node to be a member of multiple test groups
72
73 Severity   : enhancement
74 Bugzilla   : 18654
75 Description: MXLND: eliminate hosts file, use arp for peer nic_id resolution
76 Details    : an update from the upstream developer Scott Atchley.
77
78 Severity   : enhancement
79 Bugzilla   : 15332
80 Description: add a new LND optiion to control peer buffer credits on routers
81
82 Severity   : normal
83 Bugzilla   : 18844
84 Description: Fixing deadlock in usocklnd
85 Details    : A deadlock was possible in usocklnd due to race condition while
86              tearing connection down. The problem resulted from erroneous
87              assumption that lnet_finalize() could have been called holding
88              some lnd-level locks.
89
90 Severity   : major
91 Bugzilla   : 13621, 15983
92 Description: Protocol V2 of o2iblnd
93 Details    : o2iblnd V2 has several new features:
94              . map-on-demand: map-on-demand is disabled by default, it can
95                be enabled by using modparam "map_on_demand=@value@", @value@
96                should >= 0 and < 256, 0 will disable map-on-demand, any other
97                valid value will enable map-on-demand. 
98                Oi2blnd will create FMR or physical MR for RDMA if fragments of
99                RD > @value@.
100                Enable map-on-demand will take less memory for new connection,
101                but a little more CPU for RDMA.
102              . iWARP : to support iWARP, please enable map-on-demand, 32 and 64
103                are recommanded value. iWARP will probably fail for value >=128.
104              . OOB NOOP message: to resolve deadlock on router.
105              . tunable peer_credits_hiw: (high water to return credits),
106                default value of peer_credits_hiw equals to (peer_credits -1),
107                user can change it between peer_credits/2 and (peer_credits - 1).
108                Lower value is recommended for high latency network.
109              . tunable message queue size: it always equals to peer_credits,
110                higher value is recommended for high latency network.
111              . It's compatible with earlier version of o2iblnd
112
113 Severity   : normal
114 Bugzilla   : 18414
115 Description: Fixing 'running out of ports' issue
116 Details    : Add a delay before next reconnect attempt in ksocklnd in
117              the case of lost race. Limit the frequency of query-requests
118              in lnet. Improved handling of 'dead peer' notifications in
119              lnet.
120
121 Severity   : normal
122 Bugzilla   : 16034
123 Description: Change ptllnd timeout and watchdog timers
124 Details    : Add ptltrace_on_nal_failed and bump ptllnd timeout to match
125              Portals wire timeout.
126
127 Severity   : normal
128 Bugzilla   : 16186
129 Description: One down Lustre FS hangs ALL mounted Lustre filesystems
130 Details    : Shared routing enhancements - peer health detection.
131
132 Severity   : enhancement
133 Bugzilla   : 14132
134 Description: acceptor.c cleanup
135 Details    : Code duplication in acceptor.c for the cases of kernel and
136              user-space removed. User-space libcfs tcpip primitives
137              uniformed to have prototypes similar to kernel ones. Minor
138              cosmetic changes in usocklnd to use cfs_socket_t as
139              representation of socket.
140
141 Severity   : minor
142 Bugzilla   : 11245
143 Description: IB path MTU mistakenly set to 1st path MTU when ib_mtu is off
144 Details    : See comment 46 in bug 11245 for details - it's indeed a bug
145              introduced by the original 11245 fix.
146
147 Severity   : minor
148 Bugzilla   : 15984
149 Description: uptllnd credit overflow fix
150 Details    : kptl_msg_t::ptlm_credits could be overflown by uptllnd since
151              it is only a __u8.
152
153 Severity   : major
154 Bugzilla   : 14634
155 Description: socklnd protocol version 3
156 Details    : With current protocol V2, connections on router can be
157              blocked and can't receive any incoming messages when there is no
158              more router buffer, so ZC-ACK can't be handled (LNet message
159              can't be finalized) and will cause deadlock on router.
160              Protocol V3 has a dedicated connection for emergency messages
161              like ZC-ACK to router, messages on this dedicated connection
162              don't need any credit so will never be blocked. Also, V3 can send
163              keepalive ping in specified period for router healthy checking.
164
165 -------------------------------------------------------------------------------
166
167 12-31-2008  Sun Microsystems, Inc.
168         * version 1.8.0
169         * Support for networks:
170          socklnd   - any kernel supported by Lustre,
171          qswlnd    - Qsnet kernel modules 5.20 and later,
172          openiblnd - IbGold 1.8.2,
173          o2iblnd   - OFED 1.1, 1.2.0, 1.2.5, and 1.3
174          viblnd    - Voltaire ibhost 3.4.5 and later,
175          ciblnd    - Topspin 3.2.0,
176          iiblnd    - Infiniserv 3.3 + PathBits patch,
177          gmlnd     - GM 2.1.22 and later,
178          mxlnd     - MX 1.2.1 or later,
179          ptllnd    - Portals 3.3 / UNICOS/lc 1.5.x, 2.0.x
180
181 Severity   : major
182 Bugzilla   : 15983
183 Description: workaround for OOM from o2iblnd
184 Details    : OFED needs allocate big chunk of memory for QP while creating
185              connection for o2iblnd, OOM can happen if no such a contiguous
186              memory chunk.
187              QP size is decided by concurrent_sends and max_fragments of
188              o2iblnd, now we permit user to specify smaller value for
189              concurrent_sends of o2iblnd(i.e: concurrent_sends=7), which
190              will decrease memory block size required by creating QP.
191
192 Severity   : major
193 Bugzilla   : 15093
194 Description: Support Zerocopy receive of Chelsio device
195 Details    : Chelsio driver can support zerocopy for iov[1] if it's
196              contiguous and large enough.
197
198 Severity   : normal
199 Bugzilla   : 13490
200 Description: fix credit flow deadlock in uptllnd
201
202 Severity   : normal
203 Bugzilla   : 16308
204 Description: finalize network operation in reasonable time
205 Details    : conf-sanity test_32a couldn't stop ost and mds because it
206              tried to access non-existent peer and tcp connect took
207              quite long before timing out.
208
209 Severity   : major
210 Bugzilla   : 16338
211 Description: Continuous recovery on 33 of 413 nodes after lustre oss failure
212 Details    : Lost reference on conn prevents peer from being destroyed, which
213              could prevent new peer creation if peer count has reached upper
214              limit.
215
216 Severity   : normal
217 Bugzilla   : 16102
218 Description: LNET Selftest results in Soft lockup on OSS CPU
219 Details    : only hits when 8 or more o2ib clients involved and a session is
220              torn down with 'lst end_session' without preceeding 'lst stop'.
221
222 Severity   : minor
223 Bugzilla   : 16321
224 Description: concurrent_sends in IB LNDs should not be changeable at run time
225 Details    : concurrent_sends in IB LNDs should not be changeable at run time
226
227 Severity   : normal
228 Bugzilla   : 15272
229 Description: ptl_send_rpc hits LASSERT when ptl_send_buf fails
230 Details    : only hits under out-of-memory situations
231
232
233 -------------------------------------------------------------------------------
234
235 2009-02-07 Sun Microsystems, Inc.
236         * version 1.6.7
237         * Support for networks:
238          socklnd   - any kernel supported by Lustre,
239          qswlnd    - Qsnet kernel modules 5.20 and later,
240          openiblnd - IbGold 1.8.2,
241          o2iblnd   - OFED 1.1, 1.2.0, 1.2.5, and 1.3
242          viblnd    - Voltaire ibhost 3.4.5 and later,
243          ciblnd    - Topspin 3.2.0,
244          iiblnd    - Infiniserv 3.3 + PathBits patch,
245          gmlnd     - GM 2.1.22 and later,
246          mxlnd     - MX 1.2.1 or later,
247          ptllnd    - Portals 3.3 / UNICOS/lc 1.5.x, 2.0.x
248 Severity   : major
249 Bugzilla   : 15983
250 Description: workaround for OOM from o2iblnd
251 Details    : OFED needs allocate big chunk of memory for QP while creating
252              connection for o2iblnd, OOM can happen if no such a contiguous
253              memory chunk.
254              QP size is decided by concurrent_sends and max_fragments of
255              o2iblnd, now we permit user to specify smaller value for
256              concurrent_sends of o2iblnd(i.e: concurrent_sends=7), which
257              will decrease memory block size required by creating QP.
258
259 Severity   : major
260 Bugzilla   : 15093
261 Description: Support Zerocopy receive of Chelsio device
262 Details    : Chelsio driver can support zerocopy for iov[1] if it's
263              contiguous and large enough.
264 Severity   : normal
265 Bugzilla   : 13490
266 Description: fix credit flow deadlock in uptllnd
267
268 Severity   : normal
269 Bugzilla   : 16308
270 Description: finalize network operation in reasonable time
271 Details    : conf-sanity test_32a couldn't stop ost and mds because it
272              tried to access non-existent peer and tcp connect took
273              quite long before timing out.
274
275 Severity   : major
276 Bugzilla   : 16338
277 Description: Continuous recovery on 33 of 413 nodes after lustre oss failure
278 Details    : Lost reference on conn prevents peer from being destroyed, which
279              could prevent new peer creation if peer count has reached upper
280              limit.
281
282 Severity   : normal
283 Bugzilla   : 16102
284 Description: LNET Selftest results in Soft lockup on OSS CPU
285 Details    : only hits when 8 or more o2ib clients involved and a session is
286              torn down with 'lst end_session' without preceeding 'lst stop'.
287
288 Severity   : minor
289 Bugzilla   : 16321
290 Description: concurrent_sends in IB LNDs should not be changeable at run time
291 Details    : concurrent_sends in IB LNDs should not be changeable at run time
292
293 -------------------------------------------------------------------------------
294
295 11-03-2008  Sun Microsystems, Inc.
296         * version 1.6.6
297         * Support for networks:
298          socklnd   - any kernel supported by Lustre,
299          qswlnd    - Qsnet kernel modules 5.20 and later,
300          openiblnd - IbGold 1.8.2,
301          o2iblnd   - OFED 1.1, 1.2.0, 1.2.5, and 1.3
302          viblnd    - Voltaire ibhost 3.4.5 and later,
303          ciblnd    - Topspin 3.2.0,
304          iiblnd    - Infiniserv 3.3 + PathBits patch,
305          gmlnd     - GM 2.1.22 and later,
306          mxlnd     - MX 1.2.1 or later,
307          ptllnd    - Portals 3.3 / UNICOS/lc 1.5.x, 2.0.x
308
309 Severity   : normal
310 Bugzilla   : 15272
311 Description: ptl_send_rpc hits LASSERT when ptl_send_buf fails
312 Details    : only hits under out-of-memory situations
313
314 -------------------------------------------------------------------------------
315
316 04-26-2008  Sun Microsystems, Inc.
317        * version 1.6.5
318        * Support for networks:
319         socklnd   - any kernel supported by Lustre,
320         qswlnd    - Qsnet kernel modules 5.20 and later,
321         openiblnd - IbGold 1.8.2,
322         o2iblnd   - OFED 1.1 and 1.2.0, 1.2.5
323         viblnd    - Voltaire ibhost 3.4.5 and later,
324         ciblnd    - Topspin 3.2.0,
325         iiblnd    - Infiniserv 3.3 + PathBits patch,
326         gmlnd     - GM 2.1.22 and later,
327         mxlnd     - MX 1.2.1 or later,
328         ptllnd    - Portals 3.3 / UNICOS/lc 1.5.x, 2.0.x
329
330 Severity   : normal
331 Bugzilla   : 14322
332 Description: excessive debug information removed
333 Details    : excessive debug information removed
334
335 Severity   : major
336 Bugzilla   : 15712
337 Description: ksocknal_create_conn() hit ASSERTION during connection race
338 Details    : ksocknal_create_conn() hit ASSERTION during connection race
339
340 Severity   : major
341 Bugzilla   : 13983
342 Description: ksocknal_send_hello() hit ASSERTION while connecting race
343 Details    : ksocknal_send_hello() hit ASSERTION while connecting race
344
345 Severity   : major
346 Bugzilla   : 14425
347 Description: o2iblnd/ptllnd credit deadlock in a routed config.
348 Details    : o2iblnd/ptllnd credit deadlock in a routed config.
349
350 Severity   : normal
351 Bugzilla   : 14956
352 Description: High load after starting lnet
353 Details    : gmlnd should sleep in rx thread in interruptible way. Otherwise,
354              uptime utility reports high load that looks confusingly.
355
356 Severity   : normal
357 Bugzilla   : 14838
358 Description: ksocklnd fails to establish connection if accept_port is high
359 Details    : PID remapping must not be done for active (outgoing) connections
360
361
362 --------------------------------------------------------------------------------
363
364 2008-01-11  Sun Microsystems, Inc.
365        * version 1.4.12
366        * Support for networks:
367         socklnd   - any kernel supported by Lustre,
368         qswlnd    - Qsnet kernel modules 5.20 and later,
369         openiblnd - IbGold 1.8.2,
370         o2iblnd   - OFED 1.1 and 1.2.0, 1.2.5
371         viblnd    - Voltaire ibhost 3.4.5 and later,
372         ciblnd    - Topspin 3.2.0,
373         iiblnd    - Infiniserv 3.3 + PathBits patch,
374         gmlnd     - GM 2.1.22 and later,
375         mxlnd     - MX 1.2.1 or later,
376         ptllnd    - Portals 3.3 / UNICOS/lc 1.5.x, 2.0.x
377
378 Severity   : normal
379 Bugzilla   : 14387
380 Description: liblustre network error
381 Details    : liblustre clients should understand LNET_ACCEPT_PORT environment
382              variable even if they don't start lnet acceptor.
383
384 Severity   : normal
385 Bugzilla   : 14300
386 Description: Strange message from lnet (Ignoring prediction from the future)
387 Details    : Incorrect calculation of peer's last_alive value in ksocklnd
388
389 --------------------------------------------------------------------------------
390
391 2007-12-07         Cluster File Systems, Inc. <info@clusterfs.com>
392        * version 1.6.4
393        * Support for networks:
394         socklnd   - any kernel supported by Lustre,
395         qswlnd    - Qsnet kernel modules 5.20 and later,
396         openiblnd - IbGold 1.8.2,
397         o2iblnd   - OFED 1.1 and 1.2.0, 1.2.5.
398         viblnd    - Voltaire ibhost 3.4.5 and later,
399         ciblnd    - Topspin 3.2.0,
400         iiblnd    - Infiniserv 3.3 + PathBits patch,
401         gmlnd     - GM 2.1.22 and later,
402         mxlnd     - MX 1.2.1 or later,
403         ptllnd    - Portals 3.3 / UNICOS/lc 1.5.x, 2.0.x
404
405 Severity   : normal
406 Bugzilla   : 14238
407 Description: ASSERTION(me == md->md_me) failed in lnet_match_md()
408
409 Severity   : normal
410 Bugzilla   : 12494
411 Description: increase send queue size for ciblnd/openiblnd
412
413 Severity   : normal
414 Bugzilla   : 12302
415 Description: new userspace socklnd
416 Details    : Old userspace tcpnal that resided in lnet/ulnds/socklnd replaced
417              with new one - usocklnd.
418
419 Severity   : enhancement
420 Bugzilla   : 11686
421 Description: Console message flood
422 Details    : Make cdls ratelimiting more tunable by adding several tunable in
423              procfs /proc/sys/lnet/console_{min,max}_delay_centisecs and
424              /proc/sys/lnet/console_backoff.
425
426 --------------------------------------------------------------------------------
427
428 2007-09-27         Cluster File Systems, Inc. <info@clusterfs.com>
429        * version 1.6.3
430        * Support for networks:
431         socklnd   - any kernel supported by Lustre,
432         qswlnd    - Qsnet kernel modules 5.20 and later,
433         openiblnd - IbGold 1.8.2,
434         o2iblnd   - OFED 1.1 and 1.2,
435         viblnd    - Voltaire ibhost 3.4.5 and later,
436         ciblnd    - Topspin 3.2.0,
437         iiblnd    - Infiniserv 3.3 + PathBits patch,
438         gmlnd     - GM 2.1.22 and later,
439         mxlnd     - MX 1.2.1 or later,
440         ptllnd    - Portals 3.3 / UNICOS/lc 1.5.x, 2.0.x
441
442 Severity   : normal
443 Bugzilla   : 12782
444 Description: /proc/sys/lnet has non-sysctl entries
445 Details    : Updating dump_kernel/daemon_file/debug_mb to use sysctl variables
446
447 Severity   : major
448 Bugzilla   : 13236
449 Description: TOE Kernel panic by ksocklnd
450 Details    : offloaded sockets provide their own implementation of sendpage,
451              can't call tcp_sendpage() directly
452
453 Severity   : normal
454 Bugzilla   : 10778
455 Description: kibnal_shutdown() doesn't finish; lconf --cleanup hangs
456 Details    : races between lnd_shutdown and peer creation prevent 
457              lnd_shutdown from finishing.
458
459 Severity   : normal
460 Bugzilla   : 13279
461 Description: open files rlimit 1024 reached while liblustre testing
462 Details    : ulnds/socklnd must close open socket after unsuccessful
463              'say hello' attempt.
464
465 Severity   : major 
466 Bugzilla   : 13482
467 Description: build error
468 Details    : fix typos in gmlnd, ptllnd and viblnd
469
470 --------------------------------------------------------------------------------
471
472 2007-07-30  Cluster File Systems, Inc. <info@clusterfs.com>
473        * version 1.6.1
474        * Support for networks:
475         socklnd   - kernels up to 2.6.16,
476         qswlnd    - Qsnet kernel modules 5.20 and later,
477         openiblnd - IbGold 1.8.2,
478         o2iblnd   - OFED 1.1 and 1.2
479         viblnd    - Voltaire ibhost 3.4.5 and later,
480         ciblnd    - Topspin 3.2.0,
481         iiblnd    - Infiniserv 3.3 + PathBits patch,
482         gmlnd     - GM 2.1.22 and later,
483         mxlnd     - MX 1.2.1 or later,
484         ptllnd    - Portals 3.3 / UNICOS/lc 1.5.x, 2.0.x
485
486 --------------------------------------------------------------------------------
487
488 2007-06-21  Cluster File Systems, Inc. <info@clusterfs.com>
489        * version 1.4.11
490        * Support for networks:
491         socklnd   - kernels up to 2.6.16,
492         qswlnd    - Qsnet kernel modules 5.20 and later,
493         openiblnd - IbGold 1.8.2,
494         o2iblnd   - OFED 1.1
495         viblnd    - Voltaire ibhost 3.4.5 and later,
496         ciblnd    - Topspin 3.2.0,
497         iiblnd    - Infiniserv 3.3 + PathBits patch,
498         gmlnd     - GM 2.1.22 and later,
499         mxlnd     - MX 1.2.1 or later,
500         ptllnd    - Portals 3.3 / UNICOS/lc 1.5.x, 2.0.x
501
502 Severity   : minor
503 Bugzilla   : 13288
504 Description: Initialize cpumask before use
505
506 Severity   : major
507 Bugzilla   : 12014
508 Description: ASSERTION failures when upgrading to the patchless zero-copy
509              socklnd 
510 Details    : This bug affects "rolling upgrades", causing an inconsistent
511              protocol version negotiation and subsequent assertion failure
512              during rolling upgrades after the first wave of upgrades.
513
514 Severity   : minor
515 Bugzilla   : 11223
516 Details    : Change "dropped message" CERRORs to D_NETERROR so they are
517              logged instead of creating "console chatter" when a lustre
518              timeout races with normal RPC completion.
519
520 Severity   : minor
521 Details    : lnet_clear_peer_table can wait forever if user forgets to
522              clear a lazy portal.
523
524 Severity   : minor
525 Details    : libcfs_id2str should check pid against LNET_PID_ANY.
526
527 Severity   : major
528 Bugzilla   : 10916
529 Description: added LNET self test
530 Details    : landing b_self_test
531
532 Severity   : minor
533 Frequency  : rare
534 Bugzilla   : 12227
535 Description: cfs_duration_{u,n}sec() wrongly calculate nanosecond part of
536              struct timeval.
537 Details    : do_div() macro is used incorrectly.
538
539 2007-04-23  Cluster File Systems, Inc. <info@clusterfs.com>
540
541 Severity   : normal
542 Bugzilla   : 11680
543 Description: make panic on lbug configurable
544
545 Severity   : major
546 Bugzilla   : 12316
547 Description: Add OFED1.2 support to o2iblnd
548 Details    : o2iblnd depends on OFED's modules, if out-tree OFED's modules
549              are installed (other than kernel's in-tree infiniband), there
550              could be some problem while insmod o2iblnd (mismatch CRC of 
551              ib_* symbols).
552              If extra Module.symvers is supported in kernel (i.e, 2.6.17),
553              this link provides solution:
554              https://bugs.openfabrics.org/show_bug.cgi?id=355
555              if extra Module.symvers is not supported in kernel, we will
556              have to run the script in bug 12316 to update
557              $LINUX/module.symvers before building o2iblnd.
558              More details about this are in bug 12316.
559
560 ------------------------------------------------------------------------------
561
562 2007-04-01  Cluster File Systems, Inc. <info@clusterfs.com>
563        * version 1.4.10 / 1.6.0
564        * Support for networks:
565         socklnd   - kernels up to 2.6.16,
566         qswlnd    - Qsnet kernel modules 5.20 and later,
567         openiblnd - IbGold 1.8.2,
568         o2iblnd   - OFED 1.1,
569         viblnd    - Voltaire ibhost 3.4.5 and later,
570         ciblnd    - Topspin 3.2.0,
571         iiblnd    - Infiniserv 3.3 + PathBits patch,
572         gmlnd     - GM 2.1.22 and later,
573         mxlnd     - MX 1.2.1 or later,
574         ptllnd    - Portals 3.3 / UNICOS/lc 1.5.x, 2.0.x
575         
576 Severity   : minor
577 Frequency  : rare
578 Description: Ptllnd didn't init kptllnd_data.kptl_idle_txs before it could be
579              possibly accessed in kptllnd_shutdown. Ptllnd should init 
580              kptllnd_data.kptl_ptlid2str_lock before calling kptllnd_ptlid2str.
581
582 Severity   : normal
583 Frequency  : rare
584 Description: gmlnd ignored some transmit errors when finalizing lnet messages.
585
586 Severity   : minor
587 Frequency  : rare
588 Description: ptllnd logs a piece of incorrect debug info in kptllnd_peer_handle_hello.
589
590 Severity   : minor
591 Frequency  : rare
592 Description: the_lnet.ln_finalizing was not set when the current thread is
593              about to complete messages. It only affects multi-threaded 
594              user space LNet.
595         
596 Severity   : normal
597 Frequency  : rare
598 Bugzilla   : 11472
599 Description: Changed the default kqswlnd ntxmsg=512
600         
601 Severity   : major
602 Frequency  : rare
603 Bugzilla   : 12458
604 Description: Assertion failure in kernel ptllnd caused by posting passive
605              bulk buffers before connection establishment complete.
606         
607 Severity   : major
608 Frequency  : rare
609 Bugzilla   : 12445
610 Description: A race in kernel ptllnd between deleting a peer and posting
611              new communications for it could hang communications -
612              manifesting as "Unexpectedly long timeout" messages.
613         
614 Severity   : major
615 Frequency  : rare
616 Bugzilla   : 12432
617 Description: Kernel ptllnd lock ordering issue could hang a node.
618         
619 Severity   : major
620 Frequency  : rare
621 Bugzilla   : 12016
622 Description: node crash on socket teardown race
623
624 Severity   : minor
625 Frequency  : 'lctl peer_list' issued on a mx net
626 Bugzilla   : 12237
627 Description: Enable lctl's peer_list for MXLND
628
629 Severity   : major
630 Frequency  : after Ptllnd timeouts and portals congestion
631 Bugzilla   : 11659
632 Description: Credit overflows
633 Details    : This was a bug in ptllnd connection establishment.  The fix
634              implements better peer stamps to disambiguate connection
635              establishment and ensure both peers enter the credit flow
636              state machine consistently.
637
638 Severity   : major
639 Frequency  : rare       
640 Bugzilla   : 11394
641 Description: kptllnd didn't propagate some network errors up to LNET 
642 Details    : This bug was spotted while investigating 11394.  The fix
643              ensures network errors on sends and bulk transfers are
644              propagated to LNET/lustre correctly.
645
646 Severity   : enhancement
647 Bugzilla   : 10316
648 Description: Fixed console chatter in case of -ETIMEDOUT.
649
650 Severity   : enhancement
651 Bugzilla   : 11684
652 Description: Added D_NETTRACE for recording network packet history
653              (initially only for ptllnd).  Also a separate userspace
654              ptllnd facility to gather history which should really be
655              covered by D_NETTRACE too, if only CDEBUG recorded history in
656              userspace.
657
658 Severity   : major
659 Frequency  : rare       
660 Bugzilla   : 11616
661 Description: o2iblnd handle early RDMA_CM_EVENT_DISCONNECTED.
662 Details    : If the fabric is lossy, an RDMA_CM_EVENT_DISCONNECTED
663              callback can occur before a connection has actually been
664              established.  This caused an assertion failure previously.
665
666 Severity   : enhancement
667 Bugzilla   : 11094
668 Description: Multiple instances for o2iblnd
669 Details    : Allow multiple instances of o2iblnd to enable networking over
670              multiple HCAs and routing between them.
671
672 Severity   : major
673 Bugzilla   : 11201
674 Description: lnet deadlock in router_checker
675 Details    : turned ksnd_connd_lock, ksnd_reaper_lock, and ksock_net_t:ksnd_lock
676              into BH locks to eliminate potential deadlock caused by
677              ksocknal_data_ready() preempting code holding these locks.
678
679 Severity   : major
680 Bugzilla   : 11126
681 Description: Millions of failed socklnd connection attempts cause a very slow FS
682 Details    : added a new route flag ksnr_scheduled to distinguish from
683              ksnr_connecting, so that a peer connection request is only turned
684              down for race concerns when an active connection to the same peer
685              is under progress (instead of just being scheduled).
686
687 ------------------------------------------------------------------------------
688
689 2007-02-09  Cluster File Systems, Inc. <info@clusterfs.com>
690        * version 1.4.9
691        * Support for networks:
692         socklnd   - kernels up to 2.6.16
693         qswlnd    - Qsnet kernel modules 5.20 and later
694         openiblnd - IbGold 1.8.2
695         o2iblnd   - OFED 1.1
696         viblnd    - Voltaire ibhost 3.4.5 and later
697         ciblnd    - Topspin 3.2.0
698         iiblnd    - Infiniserv 3.3 + PathBits patch
699         gmlnd     - GM 2.1.22 and later
700         mxlnd     - MX 1.2.1 or later
701         ptllnd    - Portals 3.3 / UNICOS/lc 1.5.x, 2.0.x
702        * bug fixes
703
704 Severity   : major on XT3
705 Bugzilla   : none
706 Description: libcfs overwrites /proc/sys/portals
707 Details    : libcfs created a symlink from /proc/sys/portals to
708              /proc/sys/lnet for backwards compatibility.  This is no
709              longer required and makes the Cray portals /proc variables
710              inaccessible.
711
712 Severity   : minor
713 Bugzilla   : 11312
714 Description: OFED FMR API change
715 Details    : This changes parameter usage to reflect a change in
716              ib_fmr_pool_map_phys() between OFED 1.0 and OFED 1.1.  Note
717              that FMR support is only used in experimental versions of the
718              o2iblnd - this change does not affect standard usage at all.
719
720 Severity   : enhancement
721 Bugzilla   : 11245
722 Description: new ko2iblnd module parameter: ib_mtu
723 Details    : the default IB MTU of 2048 performs badly on 23108 Tavor
724              HCAs.  You can avoid this problem by setting the MTU to 1024
725              using this module parameter.
726
727 Severity   : enhancement
728 Bugzilla   : 11118/11620
729 Description: ptllnd small request message buffer alignment fix
730 Details    : Set the PTL_MD_LOCAL_ALIGN8 option on small message receives.
731              Round up small message size on sends in case this option
732              is not supported.  11620 was a defect in the initial
733              implementation which effectively asserted all peers had to be
734              running the correct protocol version which was fixed by always
735              NAK-ing such requests and handling any misalignments they
736              introduce.
737
738 Severity   : minor
739 Frequency  : rarely
740 Description: When kib(nal|lnd)_del_peer() is called upon a peer whose
741              ibp_tx_queue is not empty, kib(nal|lnd)_destroy_peer()'s
742              'LASSERT(list_empty(&peer->ibp_tx_queue))' will fail.
743
744 Severity   : enhancement
745 Bugzilla   : 11250
746 Description: Patchless ZC(zero copy) socklnd
747 Details    : New protocol for socklnd, socklnd can support zero copy without
748              kernel patch, it's compatible with old socklnd. Checksum is 
749              moved from tunables to modparams.
750
751 Severity   : minor
752 Frequency  : rarely
753 Description: When ksocknal_del_peer() is called upon a peer whose
754              ksnp_tx_queue is not empty, ksocknal_destroy_peer()'s
755              'LASSERT(list_empty(&peer->ksnp_tx_queue))' will fail.
756
757 Severity   : normal
758 Frequency  : when ptlrpc is under heavy use and runs out of request buffer
759 Bugzilla   : 11318
760 Description: In lnet_match_blocked_msg(), md can be used without holding a
761              ref on it.
762
763 Severity   : minor
764 Frequency  : very rarely
765 Bugzilla   : 10727
766 Description: If ksocknal_lib_setup_sock() fails, a ref on peer is lost.
767              If connd connects a route which has been closed by
768              ksocknal_shutdown(), ksocknal_create_routes() may create new
769              routes which hold references on the peer, causing shutdown
770              process to wait for peer to disappear forever.
771
772 Severity   : enhancement
773 Bugzilla   : 11234
774 Description: Dump XT3 portals traces on kptllnd timeout
775 Details    : Set the kptllnd module parameter "ptltrace_on_timeout=1" to
776              dump Cray portals debug traces to a file.  The kptllnd module
777              parameter "ptltrace_basename", default "/tmp/lnet-ptltrace",
778              is the basename of the dump file.
779
780 Severity   : major
781 Frequency  : infrequent
782 Bugzilla   : 11308
783 Description: kernel ptllnd fix bug in connection re-establishment
784 Details    : Kernel ptllnd could produce protocol errors e.g. illegal
785              matchbits and/or violate the credit flow protocol when trying
786              to re-establish a connection with a peer after an error or
787              timeout. 
788
789 Severity   : enhancement
790 Bugzilla   : 10316
791 Description: Allow /proc/sys/lnet/debug to be set symbolically
792 Details    : Allow debug and subsystem debug values to be read/set by name
793              in addition to numerically, for ease of use.
794
795 Severity   : normal
796 Frequency  : only in configurations with LNET routers
797 Bugzilla   : 10316
798 Description: routes automatically marked down and recovered
799 Details    : In configurations with LNET routers if a router fails routers
800              now actively try to recover routes that are down, unless they
801              are marked down by an administrator.
802
803 ------------------------------------------------------------------------------
804
805 2006-12-09  Cluster File Systems, Inc. <info@clusterfs.com>
806
807 Severity   : critical
808 Frequency  : very rarely, in configurations with LNET routers and TCP
809 Bugzilla   : 10889
810 Description: incorrect data written to files on OSTs
811 Details    : In certain high-load conditions incorrect data may be written
812              to files on the OST when using TCP networks.
813
814 ------------------------------------------------------------------------------
815
816 2006-07-31  Cluster File Systems, Inc. <info@clusterfs.com>
817         * version 1.4.7
818         - rework CDEBUG messages rate-limiting mechanism b=10375
819         - add per-socket tunables for socklnd if the kernel is patched b=10327
820
821 ------------------------------------------------------------------------------
822
823 2006-02-15  Cluster File Systems, Inc. <info@clusterfs.com>
824         * version 1.4.6
825         - fix use of portals/lnet pid to avoid dropping RPCs b=10074
826         - iiblnd wasn't mapping all memory, resulting in comms errors b=9776
827         - quiet LNET startup LNI message for liblustre b=10128
828         - Better console error messages if 'ip2nets' can't match an IP address
829         - Fixed overflow/use-before-set bugs in linux-time.h
830         - Fixed ptllnd bug that wasn't initialising rx descriptors completely
831         - LNET teardown failed an assertion about the route table being empty
832         - Fixed a crash in LNetEQPoll(<invalid handle>)
833         - Future protocol compatibility work (b_rls146_lnetprotovrsn)
834         - improve debug message for liblustre/Catamount nodes (b=10116)
835
836 2005-10-10  Cluster File Systems, Inc. <info@clusterfs.com>
837         * Configuration change for the XT3
838              The PTLLND is now used to run Lustre over Portals on the XT3.
839              The configure option(s) --with-cray-portals are no longer
840              used.  Rather --with-portals=<path-to-portals-includes> is
841              used to enable building on the XT3.  In addition to enable
842              XT3 specific features the option --enable-cray-xt3 must be
843              used.
844
845 2005-10-10  Cluster File Systems, Inc. <info@clusterfs.com>
846         * Portals has been removed, replaced by LNET.
847            LNET is new networking infrastructure for Lustre, it includes a
848            reorganized network configuration mode (see the user
849            documentation for full details) as well as support for routing
850            between different network fabrics.  Lustre Networking Devices
851            (LNDS) for the supported network fabrics have also been created
852            for this new infrastructure.
853
854 2005-08-08  Cluster File Systems, Inc. <info@clusterfs.com>
855        * version 1.4.4
856        * bug fixes
857
858 Severity   : major
859 Frequency  : rare (large Voltaire clusters only)
860 Bugzilla   : 6993
861 Description: the default number of reserved transmit descriptors was too low
862              for some large clusters
863 Details    : As a workaround, the number was increased.  A proper fix includes
864              a run-time tunable.
865
866 2005-06-02  Cluster File Systems, Inc. <info@clusterfs.com>
867        * version 1.4.3
868        * bug fixes
869
870 Severity   : major
871 Frequency  : occasional (large-scale events, cluster reboot, network failure)
872 Bugzilla   : 6411
873 Description: too many error messages on console obscure actual problem and
874              can slow down/panic server, or cause recovery to fail repeatedly
875 Details    : enable rate-limiting of console error messages, and some messages
876              that were console errors now only go to the kernel log
877
878 Severity   : enhancement
879 Bugzilla   : 1693
880 Description: add /proc/sys/portals/catastrophe entry which will report if
881              that node has previously LBUGged
882
883 2005-04-06  Cluster File Systems, Inc. <info@clusterfs.com>
884        * bugs
885         - update gmnal to use PTL_MTU, fix module refcounting (b=5786)
886
887 2005-04-04  Cluster File Systems, Inc. <info@clusterfs.com>
888        * bugs
889         - handle error return code in kranal_check_fma_rx() (5915,6054)
890
891 2005-02-04  Cluster File Systems, Inc. <info@clusterfs.com>
892        * miscellania
893         - update vibnal (Voltaire IB NAL)
894         - update gmnal (Myrinet NAL), gmnalid
895
896 2005-02-04  Eric Barton  <eeb@bartonsoftware.com>
897
898         * Landed portals:b_port_step as follows...
899
900           - removed CFS_DECL_SPIN* 
901             just use 'spinlock_t' and initialise with spin_lock_init()
902
903           - removed CFS_DECL_MUTEX*
904             just use 'struct semaphore' and initialise with init_mutex()
905
906           - removed CFS_DECL_RWSEM*
907             just use 'struct rw_semaphore' and initialise with init_rwsem()
908
909           - renamed cfs_sleep_chan -> cfs_waitq
910                     cfs_sleep_link -> cfs_waitlink
911
912           - fixed race in linux version of arch-independent socknal
913             (the ENOMEM/EAGAIN decision).
914
915           - Didn't fix problems in Darwin version of arch-independent socknal
916             (resetting socket callbacks, eager ack hack, ENOMEM/EAGAIN decision)
917
918           - removed libcfs types from non-socknal header files (only some types
919             in the header files had been changed; the .c files hadn't been
920             updated at all).