Whamcloud - gitweb
Update e2fsprogs version in changelog
[fs/lustre-release.git] / lnet / ChangeLog
1 2011-06-30 Whamcloud, Inc.
2         * version 1.8.6-wc1
3         * Support for networks:
4           socklnd   - any kernel supported by Lustre,
5           qswlnd    - Qsnet kernel modules 5.20 and later,
6           o2iblnd   - OFED 1.3, 1.4.1, 1.4.2, 1.5.1, 1.5.2 and 1.5.3.1,
7           gmlnd     - GM 2.1.22 and later,
8           mxlnd     - MX 1.2.10 or later,
9           ptllnd    - Portals 3.3 / UNICOS/lc 1.5.x, 2.0.x
10
11 Severity   : normal
12 Jira       : LU-388, LU-303, TT-121
13 Description: Add support for OFED 1.5.3.1
14
15 -------------------------------------------------------------------------------
16
17 2011-05-12 Oracle, Inc.
18         * version 1.8.6
19         * Support for networks:
20           socklnd   - any kernel supported by Lustre,
21           qswlnd    - Qsnet kernel modules 5.20 and later,
22           openiblnd - IbGold 1.8.2,
23           o2iblnd   - OFED 1.3, 1.4.1, 1.4.2, 1.5.1 and 1.5.2
24           viblnd    - Voltaire ibhost 3.4.5 and later,
25           ciblnd    - Topspin 3.2.0,
26           iiblnd    - Infiniserv 3.3 + PathBits patch,
27           gmlnd     - GM 2.1.22 and later,
28           mxlnd     - MX 1.2.10 or later,
29           ptllnd    - Portals 3.3 / UNICOS/lc 1.5.x, 2.0.x
30
31 Severity   : normal
32 Bugzilla   : 24218
33 Description: fix contention on ksock_tx_t
34
35 Severity   : normal
36 Bugzilla   : 14846
37 Description: dynamically grow/shrink connd threads pool
38
39 Severity   : normal
40 Bugzilla   : 21776
41 Description: ptlrpcd stuck in lnet allocations under memory pressure
42 Details    : Set PF_MEMALLOC on outgoing path to prevent deadlock on memory
43              allocation
44
45 Severity   : normal
46 Bugzilla   : 23575
47 Description: fix o2iblnd v2 regression of credit deadlock with v1 peers
48              (bug 14425).
49
50 Severity   : normal
51 Bugzilla   : 21456
52 Description: lctl ping of 1.6.6 server from 1.8 router causes protocol error
53
54 -------------------------------------------------------------------------------
55
56 2010-10-29 Oracle, Inc.
57         * version 1.8.5
58         * Support for networks:
59           socklnd   - any kernel supported by Lustre,
60           qswlnd    - Qsnet kernel modules 5.20 and later,
61           openiblnd - IbGold 1.8.2,
62           o2iblnd   - OFED 1.3, 1.4.1, 1.4.2, 1.5.1 and 1.5.2
63           viblnd    - Voltaire ibhost 3.4.5 and later,
64           ciblnd    - Topspin 3.2.0,
65           iiblnd    - Infiniserv 3.3 + PathBits patch,
66           gmlnd     - GM 2.1.22 and later,
67           mxlnd     - MX 1.2.10 or later,
68           ptllnd    - Portals 3.3 / UNICOS/lc 1.5.x, 2.0.x
69
70 Severity   : normal
71 Bugzilla   : 23179
72 Description: MDS node unresponsive
73 Details    : improve hash distribution, doubled hash size for the lnet cookie
74              hash.
75
76 -------------------------------------------------------------------------------
77
78 2010-07-31 Oracle, Inc.
79         * version 1.8.4
80         * Support for networks:
81           socklnd   - any kernel supported by Lustre,
82           qswlnd    - Qsnet kernel modules 5.20 and later,
83           openiblnd - IbGold 1.8.2,
84           o2iblnd   - OFED 1.3, 1.4.1, 1.4.2 and 1.5.1
85           viblnd    - Voltaire ibhost 3.4.5 and later,
86           ciblnd    - Topspin 3.2.0,
87           iiblnd    - Infiniserv 3.3 + PathBits patch,
88           gmlnd     - GM 2.1.22 and later,
89           mxlnd     - MX 1.2.10 or later,
90           ptllnd    - Portals 3.3 / UNICOS/lc 1.5.x, 2.0.x
91
92 Severity   : normal
93 Bugzilla   : 23076
94 Description: With peer health detection, o2iblnd makes only one attempt to
95              reconnect which is not enough with nodes running lustre 1.6
96              because of proto version mismatch. Fix o2iblnd to retry one more
97              time.
98
99 Severity   : enhancement
100 Bugzilla   : 16909
101 Description: Quiet some LNET messages
102
103 Severity   : enhancement
104 Bugzilla   : 22787
105 Description: Add OFED 1.5.1 support
106
107 Severity   : enhancement
108 Bugzilla   : 21678
109 Description: The peer health code lacked some important debugging info in
110              lnd_query code paths. We've added necessary debug prints,
111              not just for bug 21678, but also for future troubleshooting.
112
113 -------------------------------------------------------------------------------
114
115 2010-04-30 Oracle, Inc.
116         * version 1.8.3
117         * Support for networks:
118           socklnd   - any kernel supported by Lustre,
119           qswlnd    - Qsnet kernel modules 5.20 and later,
120           openiblnd - IbGold 1.8.2,
121           o2iblnd   - OFED 1.1, 1.2.0, 1.2.5, 1.3, 1.4.1, and 1.4.2
122           viblnd    - Voltaire ibhost 3.4.5 and later,
123           ciblnd    - Topspin 3.2.0,
124           iiblnd    - Infiniserv 3.3 + PathBits patch,
125           gmlnd     - GM 2.1.22 and later,
126           mxlnd     - MX 1.2.10 or later,
127           ptllnd    - Portals 3.3 / UNICOS/lc 1.5.x, 2.0.x
128
129 Severity   : normal
130 Bugzilla   : 22556
131 Description: lst: check # of remained RPCs before aborting
132 Details    : lstcon_rpc_trans_postwait() calls lstcon_rpc_trans_abort() only
133              when the transaction is timeout, so if we got "end_session" to
134              interrupt waiting on  transaction, then we can hit the assertion
135              failure ASSERTION(crpc->crp_stamp != 0)
136
137 Severity   : normal
138 Bugzilla   : 20615
139 Description: print more debug info for  timedout ZC-req
140 Details    : Print more information for timedout ZC-req and partial
141              received connection. Close connection for timedout ZC-req
142              Always send ZC_ACK on non-blocking connection(BULK_IN)
143
144 Severity   : normal
145 Bugzilla   : 21945
146 Description: Adding WIRE_ATTR attribute to LNET types
147 Details    : LST nodes on different platforms might not communicate well
148              due to the lack of WIRE_ATTR attribute in some LNET structures
149              traversing network. The patch fixes the problem by adding
150              WIRE_ATTR where needed.
151
152 Severity   : normal
153 Bugzilla   : 21619
154 Description: hash MEs on RDMA portal
155 Details    : RDMA portal can have very long ME list on client side, which
156              will trigger soft lockup because of long searching on list.
157              Hash MEs on RDMA portal can resolve this problem.
158
159 Severity   : normal
160 Bugzilla   : 21911
161 Description: fix for double release of ibc_lock in o2iblnd
162 Details    : Re-acquire ibc_lock in kiblnd_post_tx_locked(). Add extra
163              reference to conn before calling kiblnd_post_tx_locked()
164              to avoid scenario when conn disappears inside
165              kiblnd_post_tx_locked().
166
167 ------------------------------------------------------------------------------- 
168 2010-01-29  Sun Microsystems, Inc.
169         * version 1.8.2
170         * Support for networks:
171           socklnd   - any kernel supported by Lustre,
172           qswlnd    - Qsnet kernel modules 5.20 and later,
173           openiblnd - IbGold 1.8.2,
174           o2iblnd   - OFED 1.1, 1.2.0, 1.2.5, 1.3, 1.4.1, and 1.4.2
175           viblnd    - Voltaire ibhost 3.4.5 and later,
176           ciblnd    - Topspin 3.2.0,
177           iiblnd    - Infiniserv 3.3 + PathBits patch,
178           gmlnd     - GM 2.1.22 and later,
179           mxlnd     - MX 1.2.10 or later,
180           ptllnd    - Portals 3.3 / UNICOS/lc 1.5.x, 2.0.x
181
182 Severity   : minor
183 Bugzilla   : 21459
184 Description: should update lp_alive for non-router peers.
185
186 Severity   : enhancement
187 Bugzilla   : 15332
188 Description: LNet router shuffler.
189
190 Severity   : enhancement
191 Bugzilla   : 15332
192 Description: LNet fine grain routing support.
193
194 Severity   : normal
195 Bugzilla   : 20171
196 Description: router checker stops working when system wall clock goes backward
197 Details    : use monotonic timing source instead of system wall clock time.
198
199 Severity   : enhancement
200 Bugzilla   : 18460
201 Description: avoid asymmetrical router failures
202
203 Severity   : enhancement
204 Bugzilla   : 19735
205 Description: multiple-instance support for kptllnd
206
207 Severity   : normal
208 Bugzilla   : 20897
209 Description: ksocknal_close_conn_locked connection race
210 Details    : A race was possible when ksocknal_create_conn calls
211              ksocknal_close_conn_locked for already closed conn.
212
213 Severity   : enhancement
214 Bugzilla   : 13065
215 Description: port router pinger to userspace
216
217 Severity   : normal
218 Bugzilla   : 17546
219 Description: kptllnd HELLO protocol deadlock
220 Details    : kptllnd HELLO protocol doesn't run to completion in finite time
221
222 Severity   : normal
223 Bugzilla   : 18075
224 Description: LNet selftest fixes and enhancements
225
226 Severity   : enhancement
227 Bugzilla   : 19156
228 Description: allow a test node to be a member of multiple test groups
229
230 Severity   : enhancement
231 Bugzilla   : 18654
232 Description: MXLND: eliminate hosts file, use arp for peer nic_id resolution
233 Details    : an update from the upstream developer Scott Atchley.
234
235
236 ------------------------------------------------------------------------------- 
237 2009-07-31  Sun Microsystems, Inc.
238         * version 1.8.1
239         * Support for networks:
240          socklnd   - any kernel supported by Lustre,
241          qswlnd    - Qsnet kernel modules 5.20 and later,
242          openiblnd - IbGold 1.8.2,
243          o2iblnd   - OFED 1.1, 1.2.0, 1.2.5, 1.3, and 1.4.1
244          viblnd    - Voltaire ibhost 3.4.5 and later,
245          ciblnd    - Topspin 3.2.0,
246          iiblnd    - Infiniserv 3.3 + PathBits patch,
247          gmlnd     - GM 2.1.22 and later,
248          mxlnd     - MX 1.2.1 or later,
249          ptllnd    - Portals 3.3 / UNICOS/lc 1.5.x, 2.0.x
250
251 Severity   : normal
252 Bugzilla   : 18102
253 Description: router_proc.c is rewritten to use sysctl-interface for parameters
254              residing in /proc/sys/lnet
255
256 Severity   : enhancement
257 Bugzilla   : 15332
258 Description: add a new LND optiion to control peer buffer credits on routers
259
260 Severity   : normal
261 Bugzilla   : 18844
262 Description: Fixing deadlock in usocklnd
263 Details    : A deadlock was possible in usocklnd due to race condition while
264              tearing connection down. The problem resulted from erroneous
265              assumption that lnet_finalize() could have been called holding
266              some lnd-level locks.
267
268 Severity   : major
269 Bugzilla   : 13621, 15983
270 Description: Protocol V2 of o2iblnd
271 Details    : o2iblnd V2 has several new features:
272              . map-on-demand: map-on-demand is disabled by default, it can
273                be enabled by using modparam "map_on_demand=@value@", @value@
274                should >= 0 and < 256, 0 will disable map-on-demand, any other
275                valid value will enable map-on-demand. 
276                Oi2blnd will create FMR or physical MR for RDMA if fragments of
277                RD > @value@.
278                Enable map-on-demand will take less memory for new connection,
279                but a little more CPU for RDMA.
280              . iWARP : to support iWARP, please enable map-on-demand, 32 and 64
281                are recommanded value. iWARP will probably fail for value >=128.
282              . OOB NOOP message: to resolve deadlock on router.
283              . tunable peer_credits_hiw: (high water to return credits),
284                default value of peer_credits_hiw equals to (peer_credits -1),
285                user can change it between peer_credits/2 and (peer_credits - 1).
286                Lower value is recommended for high latency network.
287              . tunable message queue size: it always equals to peer_credits,
288                higher value is recommended for high latency network.
289              . It's compatible with earlier version of o2iblnd
290
291 Severity   : normal
292 Bugzilla   : 18414
293 Description: Fixing 'running out of ports' issue
294 Details    : Add a delay before next reconnect attempt in ksocklnd in
295              the case of lost race. Limit the frequency of query-requests
296              in lnet. Improved handling of 'dead peer' notifications in
297              lnet.
298
299 Severity   : normal
300 Bugzilla   : 16034
301 Description: Change ptllnd timeout and watchdog timers
302 Details    : Add ptltrace_on_nal_failed and bump ptllnd timeout to match
303              Portals wire timeout.
304
305 Severity   : normal
306 Bugzilla   : 16186
307 Description: One down Lustre FS hangs ALL mounted Lustre filesystems
308 Details    : Shared routing enhancements - peer health detection.
309
310 Severity   : minor
311 Bugzilla   : 11245
312 Description: IB path MTU mistakenly set to 1st path MTU when ib_mtu is off
313 Details    : See comment 46 in bug 11245 for details - it's indeed a bug
314              introduced by the original 11245 fix.
315
316 Severity   : minor
317 Bugzilla   : 15984
318 Description: uptllnd credit overflow fix
319 Details    : kptl_msg_t::ptlm_credits could be overflown by uptllnd since
320              it is only a __u8.
321
322 Severity   : major
323 Bugzilla   : 14634
324 Description: socklnd protocol version 3 
325 Details    : With current protocol V2, connections on router can be
326              blocked and can't receive any incoming messages when there is no
327              more router buffer, so ZC-ACK can't be handled (LNet message
328              can't be finalized) and will cause deadlock on router.
329              Protocol V3 has a dedicated connection for emergency messages
330              like ZC-ACK to router, messages on this dedicated connection
331              don't need any credit so will never be blocked. Also, V3 can send
332              keepalive ping in specified period for router healthy checking.
333
334 ------------------------------------------------------------------------------- 
335 12-31-2008  Sun Microsystems, Inc.
336         * version 1.8.0
337         * Support for networks:
338          socklnd   - any kernel supported by Lustre,
339          qswlnd    - Qsnet kernel modules 5.20 and later,
340          openiblnd - IbGold 1.8.2,
341          o2iblnd   - OFED 1.1, 1.2.0, 1.2.5, and 1.3
342          viblnd    - Voltaire ibhost 3.4.5 and later,
343          ciblnd    - Topspin 3.2.0,
344          iiblnd    - Infiniserv 3.3 + PathBits patch,
345          gmlnd     - GM 2.1.22 and later,
346          mxlnd     - MX 1.2.1 or later,
347          ptllnd    - Portals 3.3 / UNICOS/lc 1.5.x, 2.0.x
348
349 Severity   : 
350 Bugzilla   : 
351 Description: 
352 Details    : 
353
354 Severity   : major
355 Bugzilla   : 15983
356 Description: workaround for OOM from o2iblnd
357 Details    : OFED needs allocate big chunk of memory for QP while creating
358              connection for o2iblnd, OOM can happen if no such a contiguous
359              memory chunk.
360              QP size is decided by concurrent_sends and max_fragments of
361              o2iblnd, now we permit user to specify smaller value for
362              concurrent_sends of o2iblnd(i.e: concurrent_sends=7), which
363              will decrease memory block size required by creating QP.
364
365 Severity   : major
366 Bugzilla   : 15093
367 Description: Support Zerocopy receive of Chelsio device
368 Details    : Chelsio driver can support zerocopy for iov[1] if it's
369              contiguous and large enough.
370
371 Severity   : normal
372 Bugzilla   : 13490
373 Description: fix credit flow deadlock in uptllnd
374
375 Severity   : normal
376 Bugzilla   : 16308
377 Description: finalize network operation in reasonable time
378 Details    : conf-sanity test_32a couldn't stop ost and mds because it
379              tried to access non-existent peer and tcp connect took
380              quite long before timing out.
381
382 Severity   : major
383 Bugzilla   : 16338
384 Description: Continuous recovery on 33 of 413 nodes after lustre oss failure
385 Details    : Lost reference on conn prevents peer from being destroyed, which
386              could prevent new peer creation if peer count has reached upper
387              limit.
388
389 Severity   : normal
390 Bugzilla   : 16102
391 Description: LNET Selftest results in Soft lockup on OSS CPU
392 Details    : only hits when 8 or more o2ib clients involved and a session is
393              torn down with 'lst end_session' without preceeding 'lst stop'.
394
395 Severity   : minor
396 Bugzilla   : 16321
397 Description: concurrent_sends in IB LNDs should not be changeable at run time
398 Details    : concurrent_sends in IB LNDs should not be changeable at run time
399
400 Severity   : normal
401 Bugzilla   : 15272
402 Description: ptl_send_rpc hits LASSERT when ptl_send_buf fails
403 Details    : only hits under out-of-memory situations
404
405
406 -------------------------------------------------------------------------------
407
408 2009-02-07 Sun Microsystems, Inc.
409         * version 1.6.7
410         * Support for networks:
411          socklnd   - any kernel supported by Lustre,
412          qswlnd    - Qsnet kernel modules 5.20 and later,
413          openiblnd - IbGold 1.8.2,
414          o2iblnd   - OFED 1.1, 1.2.0, 1.2.5, and 1.3
415          viblnd    - Voltaire ibhost 3.4.5 and later,
416          ciblnd    - Topspin 3.2.0,
417          iiblnd    - Infiniserv 3.3 + PathBits patch,
418          gmlnd     - GM 2.1.22 and later,
419          mxlnd     - MX 1.2.1 or later,
420          ptllnd    - Portals 3.3 / UNICOS/lc 1.5.x, 2.0.x
421
422 Severity   : major
423 Bugzilla   : 15983
424 Description: workaround for OOM from o2iblnd
425 Details    : OFED needs allocate big chunk of memory for QP while creating
426              connection for o2iblnd, OOM can happen if no such a contiguous
427              memory chunk.
428              QP size is decided by concurrent_sends and max_fragments of
429              o2iblnd, now we permit user to specify smaller value for
430              concurrent_sends of o2iblnd(i.e: concurrent_sends=7), which
431              will decrease memory block size required by creating QP.
432
433 Severity   : major
434 Bugzilla   : 15093
435 Description: Support Zerocopy receive of Chelsio device
436 Details    : Chelsio driver can support zerocopy for iov[1] if it's
437              contiguous and large enough.
438
439 Severity   : normal
440 Bugzilla   : 13490
441 Description: fix credit flow deadlock in uptllnd
442
443 Severity   : normal
444 Bugzilla   : 16308
445 Description: finalize network operation in reasonable time
446 Details    : conf-sanity test_32a couldn't stop ost and mds because it
447              tried to access non-existent peer and tcp connect took
448              quite long before timing out.
449
450 Severity   : major
451 Bugzilla   : 16338
452 Description: Continuous recovery on 33 of 413 nodes after lustre oss failure
453 Details    : Lost reference on conn prevents peer from being destroyed, which
454              could prevent new peer creation if peer count has reached upper
455              limit.
456
457 Severity   : normal
458 Bugzilla   : 16102
459 Description: LNET Selftest results in Soft lockup on OSS CPU
460 Details    : only hits when 8 or more o2ib clients involved and a session is
461              torn down with 'lst end_session' without preceeding 'lst stop'.
462
463 Severity   : minor
464 Bugzilla   : 16321
465 Description: concurrent_sends in IB LNDs should not be changeable at run time
466 Details    : concurrent_sends in IB LNDs should not be changeable at run time
467
468 -------------------------------------------------------------------------------
469
470 11-03-2008  Sun Microsystems, Inc.
471         * version 1.6.6
472         * Support for networks:
473          socklnd   - any kernel supported by Lustre,
474          qswlnd    - Qsnet kernel modules 5.20 and later,
475          openiblnd - IbGold 1.8.2,
476          o2iblnd   - OFED 1.1, 1.2.0, 1.2.5, and 1.3
477          viblnd    - Voltaire ibhost 3.4.5 and later,
478          ciblnd    - Topspin 3.2.0,
479          iiblnd    - Infiniserv 3.3 + PathBits patch,
480          gmlnd     - GM 2.1.22 and later,
481          mxlnd     - MX 1.2.1 or later,
482          ptllnd    - Portals 3.3 / UNICOS/lc 1.5.x, 2.0.x
483
484 Severity   : normal
485 Bugzilla   : 15272
486 Description: ptl_send_rpc hits LASSERT when ptl_send_buf fails
487 Details    : only hits under out-of-memory situations
488
489 -------------------------------------------------------------------------------
490
491
492 04-26-2008  Sun Microsystems, Inc.
493        * version 1.6.5
494        * Support for networks:
495         socklnd   - any kernel supported by Lustre,
496         qswlnd    - Qsnet kernel modules 5.20 and later,
497         openiblnd - IbGold 1.8.2,
498         o2iblnd   - OFED 1.1 and 1.2.0, 1.2.5
499         viblnd    - Voltaire ibhost 3.4.5 and later,
500         ciblnd    - Topspin 3.2.0,
501         iiblnd    - Infiniserv 3.3 + PathBits patch,
502         gmlnd     - GM 2.1.22 and later,
503         mxlnd     - MX 1.2.1 or later,
504         ptllnd    - Portals 3.3 / UNICOS/lc 1.5.x, 2.0.x
505
506 Severity   : normal
507 Bugzilla   : 14322
508 Description: excessive debug information removed
509 Details    : excessive debug information removed
510
511 Severity   : major
512 Bugzilla   : 15712
513 Description: ksocknal_create_conn() hit ASSERTION during connection race
514 Details    : ksocknal_create_conn() hit ASSERTION during connection race
515
516 Severity   : major
517 Bugzilla   : 13983
518 Description: ksocknal_send_hello() hit ASSERTION while connecting race
519 Details    : ksocknal_send_hello() hit ASSERTION while connecting race
520
521 Severity   : major
522 Bugzilla   : 14425
523 Description: o2iblnd/ptllnd credit deadlock in a routed config.
524 Details    : o2iblnd/ptllnd credit deadlock in a routed config.
525
526 Severity   : normal
527 Bugzilla   : 14956
528 Description: High load after starting lnet
529 Details    : gmlnd should sleep in rx thread in interruptible way. Otherwise,
530              uptime utility reports high load that looks confusingly.
531
532 Severity   : normal
533 Bugzilla   : 14838
534 Description: ksocklnd fails to establish connection if accept_port is high
535 Details    : PID remapping must not be done for active (outgoing) connections
536
537 --------------------------------------------------------------------------------
538
539 2008-01-11  Sun Microsystems, Inc.
540        * version 1.4.12
541        * Support for networks:
542         socklnd   - any kernel supported by Lustre,
543         qswlnd    - Qsnet kernel modules 5.20 and later,
544         openiblnd - IbGold 1.8.2,
545         o2iblnd   - OFED 1.1 and 1.2.0, 1.2.5
546         viblnd    - Voltaire ibhost 3.4.5 and later,
547         ciblnd    - Topspin 3.2.0,
548         iiblnd    - Infiniserv 3.3 + PathBits patch,
549         gmlnd     - GM 2.1.22 and later,
550         mxlnd     - MX 1.2.1 or later,
551         ptllnd    - Portals 3.3 / UNICOS/lc 1.5.x, 2.0.x
552 Severity   : normal
553 Bugzilla   : 14387
554 Description: liblustre network error
555 Details    : liblustre clients should understand LNET_ACCEPT_PORT environment
556              variable even if they don't start lnet acceptor.
557
558 Severity   : normal
559 Bugzilla   : 14300
560 Description: Strange message from lnet (Ignoring prediction from the future)
561 Details    : Incorrect calculation of peer's last_alive value in ksocklnd
562
563 --------------------------------------------------------------------------------
564
565 2007-12-07         Cluster File Systems, Inc. <info@clusterfs.com>
566        * version 1.6.4
567        * Support for networks:
568         socklnd   - any kernel supported by Lustre,
569         qswlnd    - Qsnet kernel modules 5.20 and later,
570         openiblnd - IbGold 1.8.2,
571         o2iblnd   - OFED 1.1 and 1.2.0, 1.2.5.
572         viblnd    - Voltaire ibhost 3.4.5 and later,
573         ciblnd    - Topspin 3.2.0,
574         iiblnd    - Infiniserv 3.3 + PathBits patch,
575         gmlnd     - GM 2.1.22 and later,
576         mxlnd     - MX 1.2.1 or later,
577         ptllnd    - Portals 3.3 / UNICOS/lc 1.5.x, 2.0.x
578
579 Severity   : normal
580 Bugzilla   : 14238
581 Description: ASSERTION(me == md->md_me) failed in lnet_match_md()
582
583 Severity   : normal
584 Bugzilla   : 12494
585 Description: increase send queue size for ciblnd/openiblnd
586
587 Severity   : normal
588 Bugzilla   : 12302
589 Description: new userspace socklnd
590 Details    : Old userspace tcpnal that resided in lnet/ulnds/socklnd replaced
591              with new one - usocklnd.
592
593 Severity   : enhancement
594 Bugzilla   : 11686
595 Description: Console message flood
596 Details    : Make cdls ratelimiting more tunable by adding several tunable in
597              procfs /proc/sys/lnet/console_{min,max}_delay_centisecs and
598              /proc/sys/lnet/console_backoff.
599
600 --------------------------------------------------------------------------------
601
602 2007-09-27         Cluster File Systems, Inc. <info@clusterfs.com>
603        * version 1.6.3
604        * Support for networks:
605         socklnd   - any kernel supported by Lustre,
606         qswlnd    - Qsnet kernel modules 5.20 and later,
607         openiblnd - IbGold 1.8.2,
608         o2iblnd   - OFED 1.1 and 1.2,
609         viblnd    - Voltaire ibhost 3.4.5 and later,
610         ciblnd    - Topspin 3.2.0,
611         iiblnd    - Infiniserv 3.3 + PathBits patch,
612         gmlnd     - GM 2.1.22 and later,
613         mxlnd     - MX 1.2.1 or later,
614         ptllnd    - Portals 3.3 / UNICOS/lc 1.5.x, 2.0.x
615
616 Severity   : normal
617 Bugzilla   : 12782
618 Description: /proc/sys/lnet has non-sysctl entries
619 Details    : Updating dump_kernel/daemon_file/debug_mb to use sysctl variables
620
621 Severity   : major
622 Bugzilla   : 13236
623 Description: TOE Kernel panic by ksocklnd
624 Details    : offloaded sockets provide their own implementation of sendpage,
625              can't call tcp_sendpage() directly
626
627 Severity   : normal
628 Bugzilla   : 10778
629 Description: kibnal_shutdown() doesn't finish; lconf --cleanup hangs
630 Details    : races between lnd_shutdown and peer creation prevent 
631              lnd_shutdown from finishing.
632
633 Severity   : normal
634 Bugzilla   : 13279
635 Description: open files rlimit 1024 reached while liblustre testing
636 Details    : ulnds/socklnd must close open socket after unsuccessful
637              'say hello' attempt.
638
639 Severity   : major 
640 Bugzilla   : 13482
641 Description: build error
642 Details    : fix typos in gmlnd, ptllnd and viblnd
643
644 ------------------------------------------------------------------------------
645
646 2007-07-30  Cluster File Systems, Inc. <info@clusterfs.com>
647        * version 1.6.1
648        * Support for networks:
649         socklnd   - kernels up to 2.6.16,
650         qswlnd    - Qsnet kernel modules 5.20 and later,
651         openiblnd - IbGold 1.8.2,
652         o2iblnd   - OFED 1.1 and 1.2
653         viblnd    - Voltaire ibhost 3.4.5 and later,
654         ciblnd    - Topspin 3.2.0,
655         iiblnd    - Infiniserv 3.3 + PathBits patch,
656         gmlnd     - GM 2.1.22 and later,
657         mxlnd     - MX 1.2.1 or later,
658         ptllnd    - Portals 3.3 / UNICOS/lc 1.5.x, 2.0.x
659
660 2007-06-21  Cluster File Systems, Inc. <info@clusterfs.com>
661        * version 1.4.11
662        * Support for networks:
663         socklnd   - kernels up to 2.6.16,
664         qswlnd    - Qsnet kernel modules 5.20 and later,
665         openiblnd - IbGold 1.8.2,
666         o2iblnd   - OFED 1.1
667         viblnd    - Voltaire ibhost 3.4.5 and later,
668         ciblnd    - Topspin 3.2.0,
669         iiblnd    - Infiniserv 3.3 + PathBits patch,
670         gmlnd     - GM 2.1.22 and later,
671         mxlnd     - MX 1.2.1 or later,
672         ptllnd    - Portals 3.3 / UNICOS/lc 1.5.x, 2.0.x
673
674 Severity   : minor
675 Bugzilla   : 13288
676 Description: Initialize cpumask before use
677
678 Severity   : major
679 Bugzilla   : 12014
680 Description: ASSERTION failures when upgrading to the patchless zero-copy
681              socklnd 
682 Details    : This bug affects "rolling upgrades", causing an inconsistent
683              protocol version negotiation and subsequent assertion failure
684              during rolling upgrades after the first wave of upgrades.
685
686 Severity   : minor
687 Bugzilla   : 11223
688 Details    : Change "dropped message" CERRORs to D_NETERROR so they are
689              logged instead of creating "console chatter" when a lustre
690              timeout races with normal RPC completion.
691
692 Severity   : minor
693 Details    : lnet_clear_peer_table can wait forever if user forgets to
694              clear a lazy portal.
695
696 Severity   : minor
697 Details    : libcfs_id2str should check pid against LNET_PID_ANY.
698
699 Severity   : major
700 Bugzilla   : 10916
701 Description: added LNET self test
702 Details    : landing b_self_test
703
704 Severity   : minor
705 Frequency  : rare
706 Bugzilla   : 12227
707 Description: cfs_duration_{u,n}sec() wrongly calculate nanosecond part of
708              struct timeval.
709 Details    : do_div() macro is used incorrectly.
710
711 2007-04-23  Cluster File Systems, Inc. <info@clusterfs.com>
712
713 Severity   : normal
714 Bugzilla   : 11680
715 Description: make panic on lbug configurable
716
717 Severity   : major
718 Bugzilla   : 12316
719 Description: Add OFED1.2 support to o2iblnd
720 Details    : o2iblnd depends on OFED's modules, if out-tree OFED's modules
721              are installed (other than kernel's in-tree infiniband), there
722              could be some problem while insmod o2iblnd (mismatch CRC of 
723              ib_* symbols).
724              If extra Module.symvers is supported in kernel (i.e, 2.6.17),
725              this link provides solution:
726              https://bugs.openfabrics.org/show_bug.cgi?id=355
727              if extra Module.symvers is not supported in kernel, we will
728              have to run the script in bug 12316 to update
729              $LINUX/module.symvers before building o2iblnd.
730              More details about this are in bug 12316.
731
732 ------------------------------------------------------------------------------
733
734 2007-04-01  Cluster File Systems, Inc. <info@clusterfs.com>
735        * version 1.4.10 / 1.6.0
736        * Support for networks:
737         socklnd   - kernels up to 2.6.16,
738         qswlnd    - Qsnet kernel modules 5.20 and later,
739         openiblnd - IbGold 1.8.2,
740         o2iblnd   - OFED 1.1,
741         viblnd    - Voltaire ibhost 3.4.5 and later,
742         ciblnd    - Topspin 3.2.0,
743         iiblnd    - Infiniserv 3.3 + PathBits patch,
744         gmlnd     - GM 2.1.22 and later,
745         mxlnd     - MX 1.2.1 or later,
746         ptllnd    - Portals 3.3 / UNICOS/lc 1.5.x, 2.0.x
747         
748 Severity   : minor
749 Frequency  : rare
750 Description: Ptllnd didn't init kptllnd_data.kptl_idle_txs before it could be
751              possibly accessed in kptllnd_shutdown. Ptllnd should init 
752              kptllnd_data.kptl_ptlid2str_lock before calling kptllnd_ptlid2str.
753
754 Severity   : normal
755 Frequency  : rare
756 Description: gmlnd ignored some transmit errors when finalizing lnet messages.
757
758 Severity   : minor
759 Frequency  : rare
760 Description: ptllnd logs a piece of incorrect debug info in kptllnd_peer_handle_hello.
761
762 Severity   : minor
763 Frequency  : rare
764 Description: the_lnet.ln_finalizing was not set when the current thread is
765              about to complete messages. It only affects multi-threaded 
766              user space LNet.
767         
768 Severity   : normal
769 Frequency  : rare
770 Bugzilla   : 11472
771 Description: Changed the default kqswlnd ntxmsg=512
772         
773 Severity   : major
774 Frequency  : rare
775 Bugzilla   : 12458
776 Description: Assertion failure in kernel ptllnd caused by posting passive
777              bulk buffers before connection establishment complete.
778         
779 Severity   : major
780 Frequency  : rare
781 Bugzilla   : 12445
782 Description: A race in kernel ptllnd between deleting a peer and posting
783              new communications for it could hang communications -
784              manifesting as "Unexpectedly long timeout" messages.
785         
786 Severity   : major
787 Frequency  : rare
788 Bugzilla   : 12432
789 Description: Kernel ptllnd lock ordering issue could hang a node.
790         
791 Severity   : major
792 Frequency  : rare
793 Bugzilla   : 12016
794 Description: node crash on socket teardown race
795
796 Severity   : minor
797 Frequency  : 'lctl peer_list' issued on a mx net
798 Bugzilla   : 12237
799 Description: Enable lctl's peer_list for MXLND
800
801 Severity   : major
802 Frequency  : after Ptllnd timeouts and portals congestion
803 Bugzilla   : 11659
804 Description: Credit overflows
805 Details    : This was a bug in ptllnd connection establishment.  The fix
806              implements better peer stamps to disambiguate connection
807              establishment and ensure both peers enter the credit flow
808              state machine consistently.
809
810 Severity   : major
811 Frequency  : rare       
812 Bugzilla   : 11394
813 Description: kptllnd didn't propagate some network errors up to LNET 
814 Details    : This bug was spotted while investigating 11394.  The fix
815              ensures network errors on sends and bulk transfers are
816              propagated to LNET/lustre correctly.
817
818 Severity   : enhancement
819 Bugzilla   : 10316
820 Description: Fixed console chatter in case of -ETIMEDOUT.
821
822 Severity   : enhancement
823 Bugzilla   : 11684
824 Description: Added D_NETTRACE for recording network packet history
825              (initially only for ptllnd).  Also a separate userspace
826              ptllnd facility to gather history which should really be
827              covered by D_NETTRACE too, if only CDEBUG recorded history in
828              userspace.
829
830 Severity   : major
831 Frequency  : rare       
832 Bugzilla   : 11616
833 Description: o2iblnd handle early RDMA_CM_EVENT_DISCONNECTED.
834 Details    : If the fabric is lossy, an RDMA_CM_EVENT_DISCONNECTED
835              callback can occur before a connection has actually been
836              established.  This caused an assertion failure previously.
837
838 Severity   : enhancement
839 Bugzilla   : 11094
840 Description: Multiple instances for o2iblnd
841 Details    : Allow multiple instances of o2iblnd to enable networking over
842              multiple HCAs and routing between them.
843
844 Severity   : major
845 Bugzilla   : 11201
846 Description: lnet deadlock in router_checker
847 Details    : turned ksnd_connd_lock, ksnd_reaper_lock, and ksock_net_t:ksnd_lock
848              into BH locks to eliminate potential deadlock caused by
849              ksocknal_data_ready() preempting code holding these locks.
850
851 Severity   : major
852 Bugzilla   : 11126
853 Description: Millions of failed socklnd connection attempts cause a very slow FS
854 Details    : added a new route flag ksnr_scheduled to distinguish from
855              ksnr_connecting, so that a peer connection request is only turned
856              down for race concerns when an active connection to the same peer
857              is under progress (instead of just being scheduled).
858
859 ------------------------------------------------------------------------------
860
861 2007-02-09  Cluster File Systems, Inc. <info@clusterfs.com>
862        * version 1.4.9
863        * Support for networks:
864         socklnd   - kernels up to 2.6.16
865         qswlnd    - Qsnet kernel modules 5.20 and later
866         openiblnd - IbGold 1.8.2
867         o2iblnd   - OFED 1.1
868         viblnd    - Voltaire ibhost 3.4.5 and later
869         ciblnd    - Topspin 3.2.0
870         iiblnd    - Infiniserv 3.3 + PathBits patch
871         gmlnd     - GM 2.1.22 and later
872         mxlnd     - MX 1.2.1 or later
873         ptllnd    - Portals 3.3 / UNICOS/lc 1.5.x, 2.0.x
874        * bug fixes
875
876 Severity   : major on XT3
877 Bugzilla   : none
878 Description: libcfs overwrites /proc/sys/portals
879 Details    : libcfs created a symlink from /proc/sys/portals to
880              /proc/sys/lnet for backwards compatibility.  This is no
881              longer required and makes the Cray portals /proc variables
882              inaccessible.
883
884 Severity   : minor
885 Bugzilla   : 11312
886 Description: OFED FMR API change
887 Details    : This changes parameter usage to reflect a change in
888              ib_fmr_pool_map_phys() between OFED 1.0 and OFED 1.1.  Note
889              that FMR support is only used in experimental versions of the
890              o2iblnd - this change does not affect standard usage at all.
891
892 Severity   : enhancement
893 Bugzilla   : 11245
894 Description: new ko2iblnd module parameter: ib_mtu
895 Details    : the default IB MTU of 2048 performs badly on 23108 Tavor
896              HCAs.  You can avoid this problem by setting the MTU to 1024
897              using this module parameter.
898
899 Severity   : enhancement
900 Bugzilla   : 11118/11620
901 Description: ptllnd small request message buffer alignment fix
902 Details    : Set the PTL_MD_LOCAL_ALIGN8 option on small message receives.
903              Round up small message size on sends in case this option
904              is not supported.  11620 was a defect in the initial
905              implementation which effectively asserted all peers had to be
906              running the correct protocol version which was fixed by always
907              NAK-ing such requests and handling any misalignments they
908              introduce.
909
910 Severity   : minor
911 Frequency  : rarely
912 Description: When kib(nal|lnd)_del_peer() is called upon a peer whose
913              ibp_tx_queue is not empty, kib(nal|lnd)_destroy_peer()'s
914              'LASSERT(list_empty(&peer->ibp_tx_queue))' will fail.
915
916 Severity   : enhancement
917 Bugzilla   : 11250
918 Description: Patchless ZC(zero copy) socklnd
919 Details    : New protocol for socklnd, socklnd can support zero copy without
920              kernel patch, it's compatible with old socklnd. Checksum is 
921              moved from tunables to modparams.
922
923 Severity   : minor
924 Frequency  : rarely
925 Description: When ksocknal_del_peer() is called upon a peer whose
926              ksnp_tx_queue is not empty, ksocknal_destroy_peer()'s
927              'LASSERT(list_empty(&peer->ksnp_tx_queue))' will fail.
928
929 Severity   : normal
930 Frequency  : when ptlrpc is under heavy use and runs out of request buffer
931 Bugzilla   : 11318
932 Description: In lnet_match_blocked_msg(), md can be used without holding a
933              ref on it.
934
935 Severity   : minor
936 Frequency  : very rarely
937 Bugzilla   : 10727
938 Description: If ksocknal_lib_setup_sock() fails, a ref on peer is lost.
939              If connd connects a route which has been closed by
940              ksocknal_shutdown(), ksocknal_create_routes() may create new
941              routes which hold references on the peer, causing shutdown
942              process to wait for peer to disappear forever.
943
944 Severity   : enhancement
945 Bugzilla   : 11234
946 Description: Dump XT3 portals traces on kptllnd timeout
947 Details    : Set the kptllnd module parameter "ptltrace_on_timeout=1" to
948              dump Cray portals debug traces to a file.  The kptllnd module
949              parameter "ptltrace_basename", default "/tmp/lnet-ptltrace",
950              is the basename of the dump file.
951
952 Severity   : major
953 Frequency  : infrequent
954 Bugzilla   : 11308
955 Description: kernel ptllnd fix bug in connection re-establishment
956 Details    : Kernel ptllnd could produce protocol errors e.g. illegal
957              matchbits and/or violate the credit flow protocol when trying
958              to re-establish a connection with a peer after an error or
959              timeout. 
960
961 Severity   : enhancement
962 Bugzilla   : 10316
963 Description: Allow /proc/sys/lnet/debug to be set symbolically
964 Details    : Allow debug and subsystem debug values to be read/set by name
965              in addition to numerically, for ease of use.
966
967 Severity   : normal
968 Frequency  : only in configurations with LNET routers
969 Bugzilla   : 10316
970 Description: routes automatically marked down and recovered
971 Details    : In configurations with LNET routers if a router fails routers
972              now actively try to recover routes that are down, unless they
973              are marked down by an administrator.
974
975 ------------------------------------------------------------------------------
976
977 2006-12-09  Cluster File Systems, Inc. <info@clusterfs.com>
978
979 Severity   : critical
980 Frequency  : very rarely, in configurations with LNET routers and TCP
981 Bugzilla   : 10889
982 Description: incorrect data written to files on OSTs
983 Details    : In certain high-load conditions incorrect data may be written
984              to files on the OST when using TCP networks.
985
986 ------------------------------------------------------------------------------
987
988 2006-07-31  Cluster File Systems, Inc. <info@clusterfs.com>
989         * version 1.4.7
990         - rework CDEBUG messages rate-limiting mechanism b=10375
991         - add per-socket tunables for socklnd if the kernel is patched b=10327
992
993 ------------------------------------------------------------------------------
994
995 2006-02-15  Cluster File Systems, Inc. <info@clusterfs.com>
996         * version 1.4.6
997         - fix use of portals/lnet pid to avoid dropping RPCs b=10074
998         - iiblnd wasn't mapping all memory, resulting in comms errors b=9776
999         - quiet LNET startup LNI message for liblustre b=10128
1000         - Better console error messages if 'ip2nets' can't match an IP address
1001         - Fixed overflow/use-before-set bugs in linux-time.h
1002         - Fixed ptllnd bug that wasn't initialising rx descriptors completely
1003         - LNET teardown failed an assertion about the route table being empty
1004         - Fixed a crash in LNetEQPoll(<invalid handle>)
1005         - Future protocol compatibility work (b_rls146_lnetprotovrsn)
1006         - improve debug message for liblustre/Catamount nodes (b=10116)
1007
1008 2005-10-10  Cluster File Systems, Inc. <info@clusterfs.com>
1009         * Configuration change for the XT3
1010              The PTLLND is now used to run Lustre over Portals on the XT3.
1011              The configure option(s) --with-cray-portals are no longer
1012              used.  Rather --with-portals=<path-to-portals-includes> is
1013              used to enable building on the XT3.  In addition to enable
1014              XT3 specific features the option --enable-cray-xt3 must be
1015              used.
1016
1017 2005-10-10  Cluster File Systems, Inc. <info@clusterfs.com>
1018         * Portals has been removed, replaced by LNET.
1019            LNET is new networking infrastructure for Lustre, it includes a
1020            reorganized network configuration mode (see the user
1021            documentation for full details) as well as support for routing
1022            between different network fabrics.  Lustre Networking Devices
1023            (LNDS) for the supported network fabrics have also been created
1024            for this new infrastructure.
1025
1026 2005-08-08  Cluster File Systems, Inc. <info@clusterfs.com>
1027        * version 1.4.4
1028        * bug fixes
1029
1030 Severity   : major
1031 Frequency  : rare (large Voltaire clusters only)
1032 Bugzilla   : 6993
1033 Description: the default number of reserved transmit descriptors was too low
1034              for some large clusters
1035 Details    : As a workaround, the number was increased.  A proper fix includes
1036              a run-time tunable.
1037
1038 2005-06-02  Cluster File Systems, Inc. <info@clusterfs.com>
1039        * version 1.4.3
1040        * bug fixes
1041
1042 Severity   : major
1043 Frequency  : occasional (large-scale events, cluster reboot, network failure)
1044 Bugzilla   : 6411
1045 Description: too many error messages on console obscure actual problem and
1046              can slow down/panic server, or cause recovery to fail repeatedly
1047 Details    : enable rate-limiting of console error messages, and some messages
1048              that were console errors now only go to the kernel log
1049
1050 Severity   : enhancement
1051 Bugzilla   : 1693
1052 Description: add /proc/sys/portals/catastrophe entry which will report if
1053              that node has previously LBUGged
1054
1055 2005-04-06  Cluster File Systems, Inc. <info@clusterfs.com>
1056        * bugs
1057         - update gmnal to use PTL_MTU, fix module refcounting (b=5786)
1058
1059 2005-04-04  Cluster File Systems, Inc. <info@clusterfs.com>
1060        * bugs
1061         - handle error return code in kranal_check_fma_rx() (5915,6054)
1062
1063 2005-02-04  Cluster File Systems, Inc. <info@clusterfs.com>
1064        * miscellania
1065         - update vibnal (Voltaire IB NAL)
1066         - update gmnal (Myrinet NAL), gmnalid
1067
1068 2005-02-04  Eric Barton  <eeb@bartonsoftware.com>
1069
1070         * Landed portals:b_port_step as follows...
1071
1072           - removed CFS_DECL_SPIN* 
1073             just use 'spinlock_t' and initialise with spin_lock_init()
1074
1075           - removed CFS_DECL_MUTEX*
1076             just use 'struct semaphore' and initialise with init_mutex()
1077
1078           - removed CFS_DECL_RWSEM*
1079             just use 'struct rw_semaphore' and initialise with init_rwsem()
1080
1081           - renamed cfs_sleep_chan -> cfs_waitq
1082                     cfs_sleep_link -> cfs_waitlink
1083
1084           - fixed race in linux version of arch-independent socknal
1085             (the ENOMEM/EAGAIN decision).
1086
1087           - Didn't fix problems in Darwin version of arch-independent socknal
1088             (resetting socket callbacks, eager ack hack, ENOMEM/EAGAIN decision)
1089
1090           - removed libcfs types from non-socknal header files (only some types
1091             in the header files had been changed; the .c files hadn't been
1092             updated at all).