Whamcloud - gitweb
7bc62c81f5027438496a9dd15909c4f279f9c9e7
[fs/lustre-release.git] / lnet / ChangeLog
1 xxxx-xx-xx Oracle, Inc.
2         * version 1.8.6
3         * Support for networks:
4           socklnd   - any kernel supported by Lustre,
5           qswlnd    - Qsnet kernel modules 5.20 and later,
6           openiblnd - IbGold 1.8.2,
7           o2iblnd   - OFED 1.3, 1.4.1, 1.4.2, 1.5.1 and 1.5.2
8           viblnd    - Voltaire ibhost 3.4.5 and later,
9           ciblnd    - Topspin 3.2.0,
10           iiblnd    - Infiniserv 3.3 + PathBits patch,
11           gmlnd     - GM 2.1.22 and later,
12           mxlnd     - MX 1.2.10 or later,
13           ptllnd    - Portals 3.3 / UNICOS/lc 1.5.x, 2.0.x
14
15 -------------------------------------------------------------------------------
16
17 2010-10-29 Oracle, Inc.
18         * version 1.8.5
19         * Support for networks:
20           socklnd   - any kernel supported by Lustre,
21           qswlnd    - Qsnet kernel modules 5.20 and later,
22           openiblnd - IbGold 1.8.2,
23           o2iblnd   - OFED 1.3, 1.4.1, 1.4.2, 1.5.1 and 1.5.2
24           viblnd    - Voltaire ibhost 3.4.5 and later,
25           ciblnd    - Topspin 3.2.0,
26           iiblnd    - Infiniserv 3.3 + PathBits patch,
27           gmlnd     - GM 2.1.22 and later,
28           mxlnd     - MX 1.2.10 or later,
29           ptllnd    - Portals 3.3 / UNICOS/lc 1.5.x, 2.0.x
30
31 Severity   : normal
32 Bugzilla   : 23179
33 Description: MDS node unresponsive
34 Details    : improve hash distribution, doubled hash size for the lnet cookie
35              hash.
36
37 -------------------------------------------------------------------------------
38
39 2010-07-31 Oracle, Inc.
40         * version 1.8.4
41         * Support for networks:
42           socklnd   - any kernel supported by Lustre,
43           qswlnd    - Qsnet kernel modules 5.20 and later,
44           openiblnd - IbGold 1.8.2,
45           o2iblnd   - OFED 1.3, 1.4.1, 1.4.2 and 1.5.1
46           viblnd    - Voltaire ibhost 3.4.5 and later,
47           ciblnd    - Topspin 3.2.0,
48           iiblnd    - Infiniserv 3.3 + PathBits patch,
49           gmlnd     - GM 2.1.22 and later,
50           mxlnd     - MX 1.2.10 or later,
51           ptllnd    - Portals 3.3 / UNICOS/lc 1.5.x, 2.0.x
52
53 Severity   : normal
54 Bugzilla   : 23076
55 Description: With peer health detection, o2iblnd makes only one attempt to
56              reconnect which is not enough with nodes running lustre 1.6
57              because of proto version mismatch. Fix o2iblnd to retry one more
58              time.
59
60 Severity   : enhancement
61 Bugzilla   : 16909
62 Description: Quiet some LNET messages
63
64 Severity   : enhancement
65 Bugzilla   : 22787
66 Description: Add OFED 1.5.1 support
67
68 Severity   : enhancement
69 Bugzilla   : 21678
70 Description: The peer health code lacked some important debugging info in
71              lnd_query code paths. We've added necessary debug prints,
72              not just for bug 21678, but also for future troubleshooting.
73
74 -------------------------------------------------------------------------------
75
76 2010-04-30 Oracle, Inc.
77         * version 1.8.3
78         * Support for networks:
79           socklnd   - any kernel supported by Lustre,
80           qswlnd    - Qsnet kernel modules 5.20 and later,
81           openiblnd - IbGold 1.8.2,
82           o2iblnd   - OFED 1.1, 1.2.0, 1.2.5, 1.3, 1.4.1, and 1.4.2
83           viblnd    - Voltaire ibhost 3.4.5 and later,
84           ciblnd    - Topspin 3.2.0,
85           iiblnd    - Infiniserv 3.3 + PathBits patch,
86           gmlnd     - GM 2.1.22 and later,
87           mxlnd     - MX 1.2.10 or later,
88           ptllnd    - Portals 3.3 / UNICOS/lc 1.5.x, 2.0.x
89
90 Severity   : normal
91 Bugzilla   : 22556
92 Description: lst: check # of remained RPCs before aborting
93 Details    : lstcon_rpc_trans_postwait() calls lstcon_rpc_trans_abort() only
94              when the transaction is timeout, so if we got "end_session" to
95              interrupt waiting on  transaction, then we can hit the assertion
96              failure ASSERTION(crpc->crp_stamp != 0)
97
98 Severity   : normal
99 Bugzilla   : 20615
100 Description: print more debug info for  timedout ZC-req
101 Details    : Print more information for timedout ZC-req and partial
102              received connection. Close connection for timedout ZC-req
103              Always send ZC_ACK on non-blocking connection(BULK_IN)
104
105 Severity   : normal
106 Bugzilla   : 21945
107 Description: Adding WIRE_ATTR attribute to LNET types
108 Details    : LST nodes on different platforms might not communicate well
109              due to the lack of WIRE_ATTR attribute in some LNET structures
110              traversing network. The patch fixes the problem by adding
111              WIRE_ATTR where needed.
112
113 Severity   : normal
114 Bugzilla   : 21619
115 Description: hash MEs on RDMA portal
116 Details    : RDMA portal can have very long ME list on client side, which
117              will trigger soft lockup because of long searching on list.
118              Hash MEs on RDMA portal can resolve this problem.
119
120 Severity   : normal
121 Bugzilla   : 21911
122 Description: fix for double release of ibc_lock in o2iblnd
123 Details    : Re-acquire ibc_lock in kiblnd_post_tx_locked(). Add extra
124              reference to conn before calling kiblnd_post_tx_locked()
125              to avoid scenario when conn disappears inside
126              kiblnd_post_tx_locked().
127
128 ------------------------------------------------------------------------------- 
129 2010-01-29  Sun Microsystems, Inc.
130         * version 1.8.2
131         * Support for networks:
132           socklnd   - any kernel supported by Lustre,
133           qswlnd    - Qsnet kernel modules 5.20 and later,
134           openiblnd - IbGold 1.8.2,
135           o2iblnd   - OFED 1.1, 1.2.0, 1.2.5, 1.3, 1.4.1, and 1.4.2
136           viblnd    - Voltaire ibhost 3.4.5 and later,
137           ciblnd    - Topspin 3.2.0,
138           iiblnd    - Infiniserv 3.3 + PathBits patch,
139           gmlnd     - GM 2.1.22 and later,
140           mxlnd     - MX 1.2.10 or later,
141           ptllnd    - Portals 3.3 / UNICOS/lc 1.5.x, 2.0.x
142
143 Severity   : minor
144 Bugzilla   : 21459
145 Description: should update lp_alive for non-router peers.
146
147 Severity   : enhancement
148 Bugzilla   : 15332
149 Description: LNet router shuffler.
150
151 Severity   : enhancement
152 Bugzilla   : 15332
153 Description: LNet fine grain routing support.
154
155 Severity   : normal
156 Bugzilla   : 20171
157 Description: router checker stops working when system wall clock goes backward
158 Details    : use monotonic timing source instead of system wall clock time.
159
160 Severity   : enhancement
161 Bugzilla   : 18460
162 Description: avoid asymmetrical router failures
163
164 Severity   : enhancement
165 Bugzilla   : 19735
166 Description: multiple-instance support for kptllnd
167
168 Severity   : normal
169 Bugzilla   : 20897
170 Description: ksocknal_close_conn_locked connection race
171 Details    : A race was possible when ksocknal_create_conn calls
172              ksocknal_close_conn_locked for already closed conn.
173
174 Severity   : enhancement
175 Bugzilla   : 13065
176 Description: port router pinger to userspace
177
178 Severity   : normal
179 Bugzilla   : 17546
180 Description: kptllnd HELLO protocol deadlock
181 Details    : kptllnd HELLO protocol doesn't run to completion in finite time
182
183 Severity   : normal
184 Bugzilla   : 18075
185 Description: LNet selftest fixes and enhancements
186
187 Severity   : enhancement
188 Bugzilla   : 19156
189 Description: allow a test node to be a member of multiple test groups
190
191 Severity   : enhancement
192 Bugzilla   : 18654
193 Description: MXLND: eliminate hosts file, use arp for peer nic_id resolution
194 Details    : an update from the upstream developer Scott Atchley.
195
196
197 ------------------------------------------------------------------------------- 
198 2009-07-31  Sun Microsystems, Inc.
199         * version 1.8.1
200         * Support for networks:
201          socklnd   - any kernel supported by Lustre,
202          qswlnd    - Qsnet kernel modules 5.20 and later,
203          openiblnd - IbGold 1.8.2,
204          o2iblnd   - OFED 1.1, 1.2.0, 1.2.5, 1.3, and 1.4.1
205          viblnd    - Voltaire ibhost 3.4.5 and later,
206          ciblnd    - Topspin 3.2.0,
207          iiblnd    - Infiniserv 3.3 + PathBits patch,
208          gmlnd     - GM 2.1.22 and later,
209          mxlnd     - MX 1.2.1 or later,
210          ptllnd    - Portals 3.3 / UNICOS/lc 1.5.x, 2.0.x
211
212 Severity   : normal
213 Bugzilla   : 18102
214 Description: router_proc.c is rewritten to use sysctl-interface for parameters
215              residing in /proc/sys/lnet
216
217 Severity   : enhancement
218 Bugzilla   : 15332
219 Description: add a new LND optiion to control peer buffer credits on routers
220
221 Severity   : normal
222 Bugzilla   : 18844
223 Description: Fixing deadlock in usocklnd
224 Details    : A deadlock was possible in usocklnd due to race condition while
225              tearing connection down. The problem resulted from erroneous
226              assumption that lnet_finalize() could have been called holding
227              some lnd-level locks.
228
229 Severity   : major
230 Bugzilla   : 13621, 15983
231 Description: Protocol V2 of o2iblnd
232 Details    : o2iblnd V2 has several new features:
233              . map-on-demand: map-on-demand is disabled by default, it can
234                be enabled by using modparam "map_on_demand=@value@", @value@
235                should >= 0 and < 256, 0 will disable map-on-demand, any other
236                valid value will enable map-on-demand. 
237                Oi2blnd will create FMR or physical MR for RDMA if fragments of
238                RD > @value@.
239                Enable map-on-demand will take less memory for new connection,
240                but a little more CPU for RDMA.
241              . iWARP : to support iWARP, please enable map-on-demand, 32 and 64
242                are recommanded value. iWARP will probably fail for value >=128.
243              . OOB NOOP message: to resolve deadlock on router.
244              . tunable peer_credits_hiw: (high water to return credits),
245                default value of peer_credits_hiw equals to (peer_credits -1),
246                user can change it between peer_credits/2 and (peer_credits - 1).
247                Lower value is recommended for high latency network.
248              . tunable message queue size: it always equals to peer_credits,
249                higher value is recommended for high latency network.
250              . It's compatible with earlier version of o2iblnd
251
252 Severity   : normal
253 Bugzilla   : 18414
254 Description: Fixing 'running out of ports' issue
255 Details    : Add a delay before next reconnect attempt in ksocklnd in
256              the case of lost race. Limit the frequency of query-requests
257              in lnet. Improved handling of 'dead peer' notifications in
258              lnet.
259
260 Severity   : normal
261 Bugzilla   : 16034
262 Description: Change ptllnd timeout and watchdog timers
263 Details    : Add ptltrace_on_nal_failed and bump ptllnd timeout to match
264              Portals wire timeout.
265
266 Severity   : normal
267 Bugzilla   : 16186
268 Description: One down Lustre FS hangs ALL mounted Lustre filesystems
269 Details    : Shared routing enhancements - peer health detection.
270
271 Severity   : minor
272 Bugzilla   : 11245
273 Description: IB path MTU mistakenly set to 1st path MTU when ib_mtu is off
274 Details    : See comment 46 in bug 11245 for details - it's indeed a bug
275              introduced by the original 11245 fix.
276
277 Severity   : minor
278 Bugzilla   : 15984
279 Description: uptllnd credit overflow fix
280 Details    : kptl_msg_t::ptlm_credits could be overflown by uptllnd since
281              it is only a __u8.
282
283 Severity   : major
284 Bugzilla   : 14634
285 Description: socklnd protocol version 3 
286 Details    : With current protocol V2, connections on router can be
287              blocked and can't receive any incoming messages when there is no
288              more router buffer, so ZC-ACK can't be handled (LNet message
289              can't be finalized) and will cause deadlock on router.
290              Protocol V3 has a dedicated connection for emergency messages
291              like ZC-ACK to router, messages on this dedicated connection
292              don't need any credit so will never be blocked. Also, V3 can send
293              keepalive ping in specified period for router healthy checking.
294
295 ------------------------------------------------------------------------------- 
296 12-31-2008  Sun Microsystems, Inc.
297         * version 1.8.0
298         * Support for networks:
299          socklnd   - any kernel supported by Lustre,
300          qswlnd    - Qsnet kernel modules 5.20 and later,
301          openiblnd - IbGold 1.8.2,
302          o2iblnd   - OFED 1.1, 1.2.0, 1.2.5, and 1.3
303          viblnd    - Voltaire ibhost 3.4.5 and later,
304          ciblnd    - Topspin 3.2.0,
305          iiblnd    - Infiniserv 3.3 + PathBits patch,
306          gmlnd     - GM 2.1.22 and later,
307          mxlnd     - MX 1.2.1 or later,
308          ptllnd    - Portals 3.3 / UNICOS/lc 1.5.x, 2.0.x
309
310 Severity   : 
311 Bugzilla   : 
312 Description: 
313 Details    : 
314
315 Severity   : major
316 Bugzilla   : 15983
317 Description: workaround for OOM from o2iblnd
318 Details    : OFED needs allocate big chunk of memory for QP while creating
319              connection for o2iblnd, OOM can happen if no such a contiguous
320              memory chunk.
321              QP size is decided by concurrent_sends and max_fragments of
322              o2iblnd, now we permit user to specify smaller value for
323              concurrent_sends of o2iblnd(i.e: concurrent_sends=7), which
324              will decrease memory block size required by creating QP.
325
326 Severity   : major
327 Bugzilla   : 15093
328 Description: Support Zerocopy receive of Chelsio device
329 Details    : Chelsio driver can support zerocopy for iov[1] if it's
330              contiguous and large enough.
331
332 Severity   : normal
333 Bugzilla   : 13490
334 Description: fix credit flow deadlock in uptllnd
335
336 Severity   : normal
337 Bugzilla   : 16308
338 Description: finalize network operation in reasonable time
339 Details    : conf-sanity test_32a couldn't stop ost and mds because it
340              tried to access non-existent peer and tcp connect took
341              quite long before timing out.
342
343 Severity   : major
344 Bugzilla   : 16338
345 Description: Continuous recovery on 33 of 413 nodes after lustre oss failure
346 Details    : Lost reference on conn prevents peer from being destroyed, which
347              could prevent new peer creation if peer count has reached upper
348              limit.
349
350 Severity   : normal
351 Bugzilla   : 16102
352 Description: LNET Selftest results in Soft lockup on OSS CPU
353 Details    : only hits when 8 or more o2ib clients involved and a session is
354              torn down with 'lst end_session' without preceeding 'lst stop'.
355
356 Severity   : minor
357 Bugzilla   : 16321
358 Description: concurrent_sends in IB LNDs should not be changeable at run time
359 Details    : concurrent_sends in IB LNDs should not be changeable at run time
360
361 Severity   : normal
362 Bugzilla   : 15272
363 Description: ptl_send_rpc hits LASSERT when ptl_send_buf fails
364 Details    : only hits under out-of-memory situations
365
366
367 -------------------------------------------------------------------------------
368
369 2009-02-07 Sun Microsystems, Inc.
370         * version 1.6.7
371         * Support for networks:
372          socklnd   - any kernel supported by Lustre,
373          qswlnd    - Qsnet kernel modules 5.20 and later,
374          openiblnd - IbGold 1.8.2,
375          o2iblnd   - OFED 1.1, 1.2.0, 1.2.5, and 1.3
376          viblnd    - Voltaire ibhost 3.4.5 and later,
377          ciblnd    - Topspin 3.2.0,
378          iiblnd    - Infiniserv 3.3 + PathBits patch,
379          gmlnd     - GM 2.1.22 and later,
380          mxlnd     - MX 1.2.1 or later,
381          ptllnd    - Portals 3.3 / UNICOS/lc 1.5.x, 2.0.x
382
383 Severity   : major
384 Bugzilla   : 15983
385 Description: workaround for OOM from o2iblnd
386 Details    : OFED needs allocate big chunk of memory for QP while creating
387              connection for o2iblnd, OOM can happen if no such a contiguous
388              memory chunk.
389              QP size is decided by concurrent_sends and max_fragments of
390              o2iblnd, now we permit user to specify smaller value for
391              concurrent_sends of o2iblnd(i.e: concurrent_sends=7), which
392              will decrease memory block size required by creating QP.
393
394 Severity   : major
395 Bugzilla   : 15093
396 Description: Support Zerocopy receive of Chelsio device
397 Details    : Chelsio driver can support zerocopy for iov[1] if it's
398              contiguous and large enough.
399
400 Severity   : normal
401 Bugzilla   : 13490
402 Description: fix credit flow deadlock in uptllnd
403
404 Severity   : normal
405 Bugzilla   : 16308
406 Description: finalize network operation in reasonable time
407 Details    : conf-sanity test_32a couldn't stop ost and mds because it
408              tried to access non-existent peer and tcp connect took
409              quite long before timing out.
410
411 Severity   : major
412 Bugzilla   : 16338
413 Description: Continuous recovery on 33 of 413 nodes after lustre oss failure
414 Details    : Lost reference on conn prevents peer from being destroyed, which
415              could prevent new peer creation if peer count has reached upper
416              limit.
417
418 Severity   : normal
419 Bugzilla   : 16102
420 Description: LNET Selftest results in Soft lockup on OSS CPU
421 Details    : only hits when 8 or more o2ib clients involved and a session is
422              torn down with 'lst end_session' without preceeding 'lst stop'.
423
424 Severity   : minor
425 Bugzilla   : 16321
426 Description: concurrent_sends in IB LNDs should not be changeable at run time
427 Details    : concurrent_sends in IB LNDs should not be changeable at run time
428
429 -------------------------------------------------------------------------------
430
431 11-03-2008  Sun Microsystems, Inc.
432         * version 1.6.6
433         * Support for networks:
434          socklnd   - any kernel supported by Lustre,
435          qswlnd    - Qsnet kernel modules 5.20 and later,
436          openiblnd - IbGold 1.8.2,
437          o2iblnd   - OFED 1.1, 1.2.0, 1.2.5, and 1.3
438          viblnd    - Voltaire ibhost 3.4.5 and later,
439          ciblnd    - Topspin 3.2.0,
440          iiblnd    - Infiniserv 3.3 + PathBits patch,
441          gmlnd     - GM 2.1.22 and later,
442          mxlnd     - MX 1.2.1 or later,
443          ptllnd    - Portals 3.3 / UNICOS/lc 1.5.x, 2.0.x
444
445 Severity   : normal
446 Bugzilla   : 15272
447 Description: ptl_send_rpc hits LASSERT when ptl_send_buf fails
448 Details    : only hits under out-of-memory situations
449
450 -------------------------------------------------------------------------------
451
452
453 04-26-2008  Sun Microsystems, Inc.
454        * version 1.6.5
455        * Support for networks:
456         socklnd   - any kernel supported by Lustre,
457         qswlnd    - Qsnet kernel modules 5.20 and later,
458         openiblnd - IbGold 1.8.2,
459         o2iblnd   - OFED 1.1 and 1.2.0, 1.2.5
460         viblnd    - Voltaire ibhost 3.4.5 and later,
461         ciblnd    - Topspin 3.2.0,
462         iiblnd    - Infiniserv 3.3 + PathBits patch,
463         gmlnd     - GM 2.1.22 and later,
464         mxlnd     - MX 1.2.1 or later,
465         ptllnd    - Portals 3.3 / UNICOS/lc 1.5.x, 2.0.x
466
467 Severity   : normal
468 Bugzilla   : 14322
469 Description: excessive debug information removed
470 Details    : excessive debug information removed
471
472 Severity   : major
473 Bugzilla   : 15712
474 Description: ksocknal_create_conn() hit ASSERTION during connection race
475 Details    : ksocknal_create_conn() hit ASSERTION during connection race
476
477 Severity   : major
478 Bugzilla   : 13983
479 Description: ksocknal_send_hello() hit ASSERTION while connecting race
480 Details    : ksocknal_send_hello() hit ASSERTION while connecting race
481
482 Severity   : major
483 Bugzilla   : 14425
484 Description: o2iblnd/ptllnd credit deadlock in a routed config.
485 Details    : o2iblnd/ptllnd credit deadlock in a routed config.
486
487 Severity   : normal
488 Bugzilla   : 14956
489 Description: High load after starting lnet
490 Details    : gmlnd should sleep in rx thread in interruptible way. Otherwise,
491              uptime utility reports high load that looks confusingly.
492
493 Severity   : normal
494 Bugzilla   : 14838
495 Description: ksocklnd fails to establish connection if accept_port is high
496 Details    : PID remapping must not be done for active (outgoing) connections
497
498 --------------------------------------------------------------------------------
499
500 2008-01-11  Sun Microsystems, Inc.
501        * version 1.4.12
502        * Support for networks:
503         socklnd   - any kernel supported by Lustre,
504         qswlnd    - Qsnet kernel modules 5.20 and later,
505         openiblnd - IbGold 1.8.2,
506         o2iblnd   - OFED 1.1 and 1.2.0, 1.2.5
507         viblnd    - Voltaire ibhost 3.4.5 and later,
508         ciblnd    - Topspin 3.2.0,
509         iiblnd    - Infiniserv 3.3 + PathBits patch,
510         gmlnd     - GM 2.1.22 and later,
511         mxlnd     - MX 1.2.1 or later,
512         ptllnd    - Portals 3.3 / UNICOS/lc 1.5.x, 2.0.x
513 Severity   : normal
514 Bugzilla   : 14387
515 Description: liblustre network error
516 Details    : liblustre clients should understand LNET_ACCEPT_PORT environment
517              variable even if they don't start lnet acceptor.
518
519 Severity   : normal
520 Bugzilla   : 14300
521 Description: Strange message from lnet (Ignoring prediction from the future)
522 Details    : Incorrect calculation of peer's last_alive value in ksocklnd
523
524 --------------------------------------------------------------------------------
525
526 2007-12-07         Cluster File Systems, Inc. <info@clusterfs.com>
527        * version 1.6.4
528        * Support for networks:
529         socklnd   - any kernel supported by Lustre,
530         qswlnd    - Qsnet kernel modules 5.20 and later,
531         openiblnd - IbGold 1.8.2,
532         o2iblnd   - OFED 1.1 and 1.2.0, 1.2.5.
533         viblnd    - Voltaire ibhost 3.4.5 and later,
534         ciblnd    - Topspin 3.2.0,
535         iiblnd    - Infiniserv 3.3 + PathBits patch,
536         gmlnd     - GM 2.1.22 and later,
537         mxlnd     - MX 1.2.1 or later,
538         ptllnd    - Portals 3.3 / UNICOS/lc 1.5.x, 2.0.x
539
540 Severity   : normal
541 Bugzilla   : 14238
542 Description: ASSERTION(me == md->md_me) failed in lnet_match_md()
543
544 Severity   : normal
545 Bugzilla   : 12494
546 Description: increase send queue size for ciblnd/openiblnd
547
548 Severity   : normal
549 Bugzilla   : 12302
550 Description: new userspace socklnd
551 Details    : Old userspace tcpnal that resided in lnet/ulnds/socklnd replaced
552              with new one - usocklnd.
553
554 Severity   : enhancement
555 Bugzilla   : 11686
556 Description: Console message flood
557 Details    : Make cdls ratelimiting more tunable by adding several tunable in
558              procfs /proc/sys/lnet/console_{min,max}_delay_centisecs and
559              /proc/sys/lnet/console_backoff.
560
561 --------------------------------------------------------------------------------
562
563 2007-09-27         Cluster File Systems, Inc. <info@clusterfs.com>
564        * version 1.6.3
565        * Support for networks:
566         socklnd   - any kernel supported by Lustre,
567         qswlnd    - Qsnet kernel modules 5.20 and later,
568         openiblnd - IbGold 1.8.2,
569         o2iblnd   - OFED 1.1 and 1.2,
570         viblnd    - Voltaire ibhost 3.4.5 and later,
571         ciblnd    - Topspin 3.2.0,
572         iiblnd    - Infiniserv 3.3 + PathBits patch,
573         gmlnd     - GM 2.1.22 and later,
574         mxlnd     - MX 1.2.1 or later,
575         ptllnd    - Portals 3.3 / UNICOS/lc 1.5.x, 2.0.x
576
577 Severity   : normal
578 Bugzilla   : 12782
579 Description: /proc/sys/lnet has non-sysctl entries
580 Details    : Updating dump_kernel/daemon_file/debug_mb to use sysctl variables
581
582 Severity   : major
583 Bugzilla   : 13236
584 Description: TOE Kernel panic by ksocklnd
585 Details    : offloaded sockets provide their own implementation of sendpage,
586              can't call tcp_sendpage() directly
587
588 Severity   : normal
589 Bugzilla   : 10778
590 Description: kibnal_shutdown() doesn't finish; lconf --cleanup hangs
591 Details    : races between lnd_shutdown and peer creation prevent 
592              lnd_shutdown from finishing.
593
594 Severity   : normal
595 Bugzilla   : 13279
596 Description: open files rlimit 1024 reached while liblustre testing
597 Details    : ulnds/socklnd must close open socket after unsuccessful
598              'say hello' attempt.
599
600 Severity   : major 
601 Bugzilla   : 13482
602 Description: build error
603 Details    : fix typos in gmlnd, ptllnd and viblnd
604
605 ------------------------------------------------------------------------------
606
607 2007-07-30  Cluster File Systems, Inc. <info@clusterfs.com>
608        * version 1.6.1
609        * Support for networks:
610         socklnd   - kernels up to 2.6.16,
611         qswlnd    - Qsnet kernel modules 5.20 and later,
612         openiblnd - IbGold 1.8.2,
613         o2iblnd   - OFED 1.1 and 1.2
614         viblnd    - Voltaire ibhost 3.4.5 and later,
615         ciblnd    - Topspin 3.2.0,
616         iiblnd    - Infiniserv 3.3 + PathBits patch,
617         gmlnd     - GM 2.1.22 and later,
618         mxlnd     - MX 1.2.1 or later,
619         ptllnd    - Portals 3.3 / UNICOS/lc 1.5.x, 2.0.x
620
621 2007-06-21  Cluster File Systems, Inc. <info@clusterfs.com>
622        * version 1.4.11
623        * Support for networks:
624         socklnd   - kernels up to 2.6.16,
625         qswlnd    - Qsnet kernel modules 5.20 and later,
626         openiblnd - IbGold 1.8.2,
627         o2iblnd   - OFED 1.1
628         viblnd    - Voltaire ibhost 3.4.5 and later,
629         ciblnd    - Topspin 3.2.0,
630         iiblnd    - Infiniserv 3.3 + PathBits patch,
631         gmlnd     - GM 2.1.22 and later,
632         mxlnd     - MX 1.2.1 or later,
633         ptllnd    - Portals 3.3 / UNICOS/lc 1.5.x, 2.0.x
634
635 Severity   : minor
636 Bugzilla   : 13288
637 Description: Initialize cpumask before use
638
639 Severity   : major
640 Bugzilla   : 12014
641 Description: ASSERTION failures when upgrading to the patchless zero-copy
642              socklnd 
643 Details    : This bug affects "rolling upgrades", causing an inconsistent
644              protocol version negotiation and subsequent assertion failure
645              during rolling upgrades after the first wave of upgrades.
646
647 Severity   : minor
648 Bugzilla   : 11223
649 Details    : Change "dropped message" CERRORs to D_NETERROR so they are
650              logged instead of creating "console chatter" when a lustre
651              timeout races with normal RPC completion.
652
653 Severity   : minor
654 Details    : lnet_clear_peer_table can wait forever if user forgets to
655              clear a lazy portal.
656
657 Severity   : minor
658 Details    : libcfs_id2str should check pid against LNET_PID_ANY.
659
660 Severity   : major
661 Bugzilla   : 10916
662 Description: added LNET self test
663 Details    : landing b_self_test
664
665 Severity   : minor
666 Frequency  : rare
667 Bugzilla   : 12227
668 Description: cfs_duration_{u,n}sec() wrongly calculate nanosecond part of
669              struct timeval.
670 Details    : do_div() macro is used incorrectly.
671
672 2007-04-23  Cluster File Systems, Inc. <info@clusterfs.com>
673
674 Severity   : normal
675 Bugzilla   : 11680
676 Description: make panic on lbug configurable
677
678 Severity   : major
679 Bugzilla   : 12316
680 Description: Add OFED1.2 support to o2iblnd
681 Details    : o2iblnd depends on OFED's modules, if out-tree OFED's modules
682              are installed (other than kernel's in-tree infiniband), there
683              could be some problem while insmod o2iblnd (mismatch CRC of 
684              ib_* symbols).
685              If extra Module.symvers is supported in kernel (i.e, 2.6.17),
686              this link provides solution:
687              https://bugs.openfabrics.org/show_bug.cgi?id=355
688              if extra Module.symvers is not supported in kernel, we will
689              have to run the script in bug 12316 to update
690              $LINUX/module.symvers before building o2iblnd.
691              More details about this are in bug 12316.
692
693 ------------------------------------------------------------------------------
694
695 2007-04-01  Cluster File Systems, Inc. <info@clusterfs.com>
696        * version 1.4.10 / 1.6.0
697        * Support for networks:
698         socklnd   - kernels up to 2.6.16,
699         qswlnd    - Qsnet kernel modules 5.20 and later,
700         openiblnd - IbGold 1.8.2,
701         o2iblnd   - OFED 1.1,
702         viblnd    - Voltaire ibhost 3.4.5 and later,
703         ciblnd    - Topspin 3.2.0,
704         iiblnd    - Infiniserv 3.3 + PathBits patch,
705         gmlnd     - GM 2.1.22 and later,
706         mxlnd     - MX 1.2.1 or later,
707         ptllnd    - Portals 3.3 / UNICOS/lc 1.5.x, 2.0.x
708         
709 Severity   : minor
710 Frequency  : rare
711 Description: Ptllnd didn't init kptllnd_data.kptl_idle_txs before it could be
712              possibly accessed in kptllnd_shutdown. Ptllnd should init 
713              kptllnd_data.kptl_ptlid2str_lock before calling kptllnd_ptlid2str.
714
715 Severity   : normal
716 Frequency  : rare
717 Description: gmlnd ignored some transmit errors when finalizing lnet messages.
718
719 Severity   : minor
720 Frequency  : rare
721 Description: ptllnd logs a piece of incorrect debug info in kptllnd_peer_handle_hello.
722
723 Severity   : minor
724 Frequency  : rare
725 Description: the_lnet.ln_finalizing was not set when the current thread is
726              about to complete messages. It only affects multi-threaded 
727              user space LNet.
728         
729 Severity   : normal
730 Frequency  : rare
731 Bugzilla   : 11472
732 Description: Changed the default kqswlnd ntxmsg=512
733         
734 Severity   : major
735 Frequency  : rare
736 Bugzilla   : 12458
737 Description: Assertion failure in kernel ptllnd caused by posting passive
738              bulk buffers before connection establishment complete.
739         
740 Severity   : major
741 Frequency  : rare
742 Bugzilla   : 12445
743 Description: A race in kernel ptllnd between deleting a peer and posting
744              new communications for it could hang communications -
745              manifesting as "Unexpectedly long timeout" messages.
746         
747 Severity   : major
748 Frequency  : rare
749 Bugzilla   : 12432
750 Description: Kernel ptllnd lock ordering issue could hang a node.
751         
752 Severity   : major
753 Frequency  : rare
754 Bugzilla   : 12016
755 Description: node crash on socket teardown race
756
757 Severity   : minor
758 Frequency  : 'lctl peer_list' issued on a mx net
759 Bugzilla   : 12237
760 Description: Enable lctl's peer_list for MXLND
761
762 Severity   : major
763 Frequency  : after Ptllnd timeouts and portals congestion
764 Bugzilla   : 11659
765 Description: Credit overflows
766 Details    : This was a bug in ptllnd connection establishment.  The fix
767              implements better peer stamps to disambiguate connection
768              establishment and ensure both peers enter the credit flow
769              state machine consistently.
770
771 Severity   : major
772 Frequency  : rare       
773 Bugzilla   : 11394
774 Description: kptllnd didn't propagate some network errors up to LNET 
775 Details    : This bug was spotted while investigating 11394.  The fix
776              ensures network errors on sends and bulk transfers are
777              propagated to LNET/lustre correctly.
778
779 Severity   : enhancement
780 Bugzilla   : 10316
781 Description: Fixed console chatter in case of -ETIMEDOUT.
782
783 Severity   : enhancement
784 Bugzilla   : 11684
785 Description: Added D_NETTRACE for recording network packet history
786              (initially only for ptllnd).  Also a separate userspace
787              ptllnd facility to gather history which should really be
788              covered by D_NETTRACE too, if only CDEBUG recorded history in
789              userspace.
790
791 Severity   : major
792 Frequency  : rare       
793 Bugzilla   : 11616
794 Description: o2iblnd handle early RDMA_CM_EVENT_DISCONNECTED.
795 Details    : If the fabric is lossy, an RDMA_CM_EVENT_DISCONNECTED
796              callback can occur before a connection has actually been
797              established.  This caused an assertion failure previously.
798
799 Severity   : enhancement
800 Bugzilla   : 11094
801 Description: Multiple instances for o2iblnd
802 Details    : Allow multiple instances of o2iblnd to enable networking over
803              multiple HCAs and routing between them.
804
805 Severity   : major
806 Bugzilla   : 11201
807 Description: lnet deadlock in router_checker
808 Details    : turned ksnd_connd_lock, ksnd_reaper_lock, and ksock_net_t:ksnd_lock
809              into BH locks to eliminate potential deadlock caused by
810              ksocknal_data_ready() preempting code holding these locks.
811
812 Severity   : major
813 Bugzilla   : 11126
814 Description: Millions of failed socklnd connection attempts cause a very slow FS
815 Details    : added a new route flag ksnr_scheduled to distinguish from
816              ksnr_connecting, so that a peer connection request is only turned
817              down for race concerns when an active connection to the same peer
818              is under progress (instead of just being scheduled).
819
820 ------------------------------------------------------------------------------
821
822 2007-02-09  Cluster File Systems, Inc. <info@clusterfs.com>
823        * version 1.4.9
824        * Support for networks:
825         socklnd   - kernels up to 2.6.16
826         qswlnd    - Qsnet kernel modules 5.20 and later
827         openiblnd - IbGold 1.8.2
828         o2iblnd   - OFED 1.1
829         viblnd    - Voltaire ibhost 3.4.5 and later
830         ciblnd    - Topspin 3.2.0
831         iiblnd    - Infiniserv 3.3 + PathBits patch
832         gmlnd     - GM 2.1.22 and later
833         mxlnd     - MX 1.2.1 or later
834         ptllnd    - Portals 3.3 / UNICOS/lc 1.5.x, 2.0.x
835        * bug fixes
836
837 Severity   : major on XT3
838 Bugzilla   : none
839 Description: libcfs overwrites /proc/sys/portals
840 Details    : libcfs created a symlink from /proc/sys/portals to
841              /proc/sys/lnet for backwards compatibility.  This is no
842              longer required and makes the Cray portals /proc variables
843              inaccessible.
844
845 Severity   : minor
846 Bugzilla   : 11312
847 Description: OFED FMR API change
848 Details    : This changes parameter usage to reflect a change in
849              ib_fmr_pool_map_phys() between OFED 1.0 and OFED 1.1.  Note
850              that FMR support is only used in experimental versions of the
851              o2iblnd - this change does not affect standard usage at all.
852
853 Severity   : enhancement
854 Bugzilla   : 11245
855 Description: new ko2iblnd module parameter: ib_mtu
856 Details    : the default IB MTU of 2048 performs badly on 23108 Tavor
857              HCAs.  You can avoid this problem by setting the MTU to 1024
858              using this module parameter.
859
860 Severity   : enhancement
861 Bugzilla   : 11118/11620
862 Description: ptllnd small request message buffer alignment fix
863 Details    : Set the PTL_MD_LOCAL_ALIGN8 option on small message receives.
864              Round up small message size on sends in case this option
865              is not supported.  11620 was a defect in the initial
866              implementation which effectively asserted all peers had to be
867              running the correct protocol version which was fixed by always
868              NAK-ing such requests and handling any misalignments they
869              introduce.
870
871 Severity   : minor
872 Frequency  : rarely
873 Description: When kib(nal|lnd)_del_peer() is called upon a peer whose
874              ibp_tx_queue is not empty, kib(nal|lnd)_destroy_peer()'s
875              'LASSERT(list_empty(&peer->ibp_tx_queue))' will fail.
876
877 Severity   : enhancement
878 Bugzilla   : 11250
879 Description: Patchless ZC(zero copy) socklnd
880 Details    : New protocol for socklnd, socklnd can support zero copy without
881              kernel patch, it's compatible with old socklnd. Checksum is 
882              moved from tunables to modparams.
883
884 Severity   : minor
885 Frequency  : rarely
886 Description: When ksocknal_del_peer() is called upon a peer whose
887              ksnp_tx_queue is not empty, ksocknal_destroy_peer()'s
888              'LASSERT(list_empty(&peer->ksnp_tx_queue))' will fail.
889
890 Severity   : normal
891 Frequency  : when ptlrpc is under heavy use and runs out of request buffer
892 Bugzilla   : 11318
893 Description: In lnet_match_blocked_msg(), md can be used without holding a
894              ref on it.
895
896 Severity   : minor
897 Frequency  : very rarely
898 Bugzilla   : 10727
899 Description: If ksocknal_lib_setup_sock() fails, a ref on peer is lost.
900              If connd connects a route which has been closed by
901              ksocknal_shutdown(), ksocknal_create_routes() may create new
902              routes which hold references on the peer, causing shutdown
903              process to wait for peer to disappear forever.
904
905 Severity   : enhancement
906 Bugzilla   : 11234
907 Description: Dump XT3 portals traces on kptllnd timeout
908 Details    : Set the kptllnd module parameter "ptltrace_on_timeout=1" to
909              dump Cray portals debug traces to a file.  The kptllnd module
910              parameter "ptltrace_basename", default "/tmp/lnet-ptltrace",
911              is the basename of the dump file.
912
913 Severity   : major
914 Frequency  : infrequent
915 Bugzilla   : 11308
916 Description: kernel ptllnd fix bug in connection re-establishment
917 Details    : Kernel ptllnd could produce protocol errors e.g. illegal
918              matchbits and/or violate the credit flow protocol when trying
919              to re-establish a connection with a peer after an error or
920              timeout. 
921
922 Severity   : enhancement
923 Bugzilla   : 10316
924 Description: Allow /proc/sys/lnet/debug to be set symbolically
925 Details    : Allow debug and subsystem debug values to be read/set by name
926              in addition to numerically, for ease of use.
927
928 Severity   : normal
929 Frequency  : only in configurations with LNET routers
930 Bugzilla   : 10316
931 Description: routes automatically marked down and recovered
932 Details    : In configurations with LNET routers if a router fails routers
933              now actively try to recover routes that are down, unless they
934              are marked down by an administrator.
935
936 ------------------------------------------------------------------------------
937
938 2006-12-09  Cluster File Systems, Inc. <info@clusterfs.com>
939
940 Severity   : critical
941 Frequency  : very rarely, in configurations with LNET routers and TCP
942 Bugzilla   : 10889
943 Description: incorrect data written to files on OSTs
944 Details    : In certain high-load conditions incorrect data may be written
945              to files on the OST when using TCP networks.
946
947 ------------------------------------------------------------------------------
948
949 2006-07-31  Cluster File Systems, Inc. <info@clusterfs.com>
950         * version 1.4.7
951         - rework CDEBUG messages rate-limiting mechanism b=10375
952         - add per-socket tunables for socklnd if the kernel is patched b=10327
953
954 ------------------------------------------------------------------------------
955
956 2006-02-15  Cluster File Systems, Inc. <info@clusterfs.com>
957         * version 1.4.6
958         - fix use of portals/lnet pid to avoid dropping RPCs b=10074
959         - iiblnd wasn't mapping all memory, resulting in comms errors b=9776
960         - quiet LNET startup LNI message for liblustre b=10128
961         - Better console error messages if 'ip2nets' can't match an IP address
962         - Fixed overflow/use-before-set bugs in linux-time.h
963         - Fixed ptllnd bug that wasn't initialising rx descriptors completely
964         - LNET teardown failed an assertion about the route table being empty
965         - Fixed a crash in LNetEQPoll(<invalid handle>)
966         - Future protocol compatibility work (b_rls146_lnetprotovrsn)
967         - improve debug message for liblustre/Catamount nodes (b=10116)
968
969 2005-10-10  Cluster File Systems, Inc. <info@clusterfs.com>
970         * Configuration change for the XT3
971              The PTLLND is now used to run Lustre over Portals on the XT3.
972              The configure option(s) --with-cray-portals are no longer
973              used.  Rather --with-portals=<path-to-portals-includes> is
974              used to enable building on the XT3.  In addition to enable
975              XT3 specific features the option --enable-cray-xt3 must be
976              used.
977
978 2005-10-10  Cluster File Systems, Inc. <info@clusterfs.com>
979         * Portals has been removed, replaced by LNET.
980            LNET is new networking infrastructure for Lustre, it includes a
981            reorganized network configuration mode (see the user
982            documentation for full details) as well as support for routing
983            between different network fabrics.  Lustre Networking Devices
984            (LNDS) for the supported network fabrics have also been created
985            for this new infrastructure.
986
987 2005-08-08  Cluster File Systems, Inc. <info@clusterfs.com>
988        * version 1.4.4
989        * bug fixes
990
991 Severity   : major
992 Frequency  : rare (large Voltaire clusters only)
993 Bugzilla   : 6993
994 Description: the default number of reserved transmit descriptors was too low
995              for some large clusters
996 Details    : As a workaround, the number was increased.  A proper fix includes
997              a run-time tunable.
998
999 2005-06-02  Cluster File Systems, Inc. <info@clusterfs.com>
1000        * version 1.4.3
1001        * bug fixes
1002
1003 Severity   : major
1004 Frequency  : occasional (large-scale events, cluster reboot, network failure)
1005 Bugzilla   : 6411
1006 Description: too many error messages on console obscure actual problem and
1007              can slow down/panic server, or cause recovery to fail repeatedly
1008 Details    : enable rate-limiting of console error messages, and some messages
1009              that were console errors now only go to the kernel log
1010
1011 Severity   : enhancement
1012 Bugzilla   : 1693
1013 Description: add /proc/sys/portals/catastrophe entry which will report if
1014              that node has previously LBUGged
1015
1016 2005-04-06  Cluster File Systems, Inc. <info@clusterfs.com>
1017        * bugs
1018         - update gmnal to use PTL_MTU, fix module refcounting (b=5786)
1019
1020 2005-04-04  Cluster File Systems, Inc. <info@clusterfs.com>
1021        * bugs
1022         - handle error return code in kranal_check_fma_rx() (5915,6054)
1023
1024 2005-02-04  Cluster File Systems, Inc. <info@clusterfs.com>
1025        * miscellania
1026         - update vibnal (Voltaire IB NAL)
1027         - update gmnal (Myrinet NAL), gmnalid
1028
1029 2005-02-04  Eric Barton  <eeb@bartonsoftware.com>
1030
1031         * Landed portals:b_port_step as follows...
1032
1033           - removed CFS_DECL_SPIN* 
1034             just use 'spinlock_t' and initialise with spin_lock_init()
1035
1036           - removed CFS_DECL_MUTEX*
1037             just use 'struct semaphore' and initialise with init_mutex()
1038
1039           - removed CFS_DECL_RWSEM*
1040             just use 'struct rw_semaphore' and initialise with init_rwsem()
1041
1042           - renamed cfs_sleep_chan -> cfs_waitq
1043                     cfs_sleep_link -> cfs_waitlink
1044
1045           - fixed race in linux version of arch-independent socknal
1046             (the ENOMEM/EAGAIN decision).
1047
1048           - Didn't fix problems in Darwin version of arch-independent socknal
1049             (resetting socket callbacks, eager ack hack, ENOMEM/EAGAIN decision)
1050
1051           - removed libcfs types from non-socknal header files (only some types
1052             in the header files had been changed; the .c files hadn't been
1053             updated at all).