Whamcloud - gitweb
b=23122 Change config check for sles11 sp1.
[fs/lustre-release.git] / lnet / ChangeLog
1 tbd        Oracle, Inc.
2         * version 1.8.4
3         * Support for networks:
4           socklnd   - any kernel supported by Lustre,
5           qswlnd    - Qsnet kernel modules 5.20 and later,
6           openiblnd - IbGold 1.8.2,
7           o2iblnd   - OFED 1.3, 1.4.1, 1.4.2 and 1.5.1
8           viblnd    - Voltaire ibhost 3.4.5 and later,
9           ciblnd    - Topspin 3.2.0,
10           iiblnd    - Infiniserv 3.3 + PathBits patch,
11           gmlnd     - GM 2.1.22 and later,
12           mxlnd     - MX 1.2.10 or later,
13           ptllnd    - Portals 3.3 / UNICOS/lc 1.5.x, 2.0.x
14
15 Severity   : normal
16 Bugzilla   : 23076
17 Description: With peer health detection, o2iblnd makes only one attempt to
18              reconnect which is not enough with nodes running lustre 1.6
19              because of proto version mismatch. Fix o2iblnd to retry one more
20              time.
21
22 Severity   : enhancement
23 Bugzilla   : 16909
24 Description: Quiet some LNET messages
25
26 Severity   : enhancement
27 Bugzilla   : 22787
28 Description: Add OFED 1.5.1 support
29
30 Severity   : enhancement
31 Bugzilla   : 21678
32 Description: The peer health code lacked some important debugging info in
33              lnd_query code paths. We've added necessary debug prints,
34              not just for bug 21678, but also for future troubleshooting.
35
36 -------------------------------------------------------------------------------
37
38 2010-04-30 Oracle, Inc.
39         * version 1.8.3
40         * Support for networks:
41           socklnd   - any kernel supported by Lustre,
42           qswlnd    - Qsnet kernel modules 5.20 and later,
43           openiblnd - IbGold 1.8.2,
44           o2iblnd   - OFED 1.1, 1.2.0, 1.2.5, 1.3, 1.4.1, and 1.4.2
45           viblnd    - Voltaire ibhost 3.4.5 and later,
46           ciblnd    - Topspin 3.2.0,
47           iiblnd    - Infiniserv 3.3 + PathBits patch,
48           gmlnd     - GM 2.1.22 and later,
49           mxlnd     - MX 1.2.10 or later,
50           ptllnd    - Portals 3.3 / UNICOS/lc 1.5.x, 2.0.x
51
52 Severity   : normal
53 Bugzilla   : 22556
54 Description: lst: check # of remained RPCs before aborting
55 Details    : lstcon_rpc_trans_postwait() calls lstcon_rpc_trans_abort() only
56              when the transaction is timeout, so if we got "end_session" to
57              interrupt waiting on  transaction, then we can hit the assertion
58              failure ASSERTION(crpc->crp_stamp != 0)
59
60 Severity   : normal
61 Bugzilla   : 20615
62 Description: print more debug info for  timedout ZC-req
63 Details    : Print more information for timedout ZC-req and partial
64              received connection. Close connection for timedout ZC-req
65              Always send ZC_ACK on non-blocking connection(BULK_IN)
66
67 Severity   : normal
68 Bugzilla   : 21945
69 Description: Adding WIRE_ATTR attribute to LNET types
70 Details    : LST nodes on different platforms might not communicate well
71              due to the lack of WIRE_ATTR attribute in some LNET structures
72              traversing network. The patch fixes the problem by adding
73              WIRE_ATTR where needed.
74
75 Severity   : normal
76 Bugzilla   : 21619
77 Description: hash MEs on RDMA portal
78 Details    : RDMA portal can have very long ME list on client side, which
79              will trigger soft lockup because of long searching on list.
80              Hash MEs on RDMA portal can resolve this problem.
81
82 Severity   : normal
83 Bugzilla   : 21911
84 Description: fix for double release of ibc_lock in o2iblnd
85 Details    : Re-acquire ibc_lock in kiblnd_post_tx_locked(). Add extra
86              reference to conn before calling kiblnd_post_tx_locked()
87              to avoid scenario when conn disappears inside
88              kiblnd_post_tx_locked().
89
90 ------------------------------------------------------------------------------- 
91 2010-01-29  Sun Microsystems, Inc.
92         * version 1.8.2
93         * Support for networks:
94           socklnd   - any kernel supported by Lustre,
95           qswlnd    - Qsnet kernel modules 5.20 and later,
96           openiblnd - IbGold 1.8.2,
97           o2iblnd   - OFED 1.1, 1.2.0, 1.2.5, 1.3, 1.4.1, and 1.4.2
98           viblnd    - Voltaire ibhost 3.4.5 and later,
99           ciblnd    - Topspin 3.2.0,
100           iiblnd    - Infiniserv 3.3 + PathBits patch,
101           gmlnd     - GM 2.1.22 and later,
102           mxlnd     - MX 1.2.10 or later,
103           ptllnd    - Portals 3.3 / UNICOS/lc 1.5.x, 2.0.x
104
105 Severity   : minor
106 Bugzilla   : 21459
107 Description: should update lp_alive for non-router peers.
108
109 Severity   : enhancement
110 Bugzilla   : 15332
111 Description: LNet router shuffler.
112
113 Severity   : enhancement
114 Bugzilla   : 15332
115 Description: LNet fine grain routing support.
116
117 Severity   : normal
118 Bugzilla   : 20171
119 Description: router checker stops working when system wall clock goes backward
120 Details    : use monotonic timing source instead of system wall clock time.
121
122 Severity   : enhancement
123 Bugzilla   : 18460
124 Description: avoid asymmetrical router failures
125
126 Severity   : enhancement
127 Bugzilla   : 19735
128 Description: multiple-instance support for kptllnd
129
130 Severity   : normal
131 Bugzilla   : 20897
132 Description: ksocknal_close_conn_locked connection race
133 Details    : A race was possible when ksocknal_create_conn calls
134              ksocknal_close_conn_locked for already closed conn.
135
136 Severity   : enhancement
137 Bugzilla   : 13065
138 Description: port router pinger to userspace
139
140 Severity   : normal
141 Bugzilla   : 17546
142 Description: kptllnd HELLO protocol deadlock
143 Details    : kptllnd HELLO protocol doesn't run to completion in finite time
144
145 Severity   : normal
146 Bugzilla   : 18075
147 Description: LNet selftest fixes and enhancements
148
149 Severity   : enhancement
150 Bugzilla   : 19156
151 Description: allow a test node to be a member of multiple test groups
152
153 Severity   : enhancement
154 Bugzilla   : 18654
155 Description: MXLND: eliminate hosts file, use arp for peer nic_id resolution
156 Details    : an update from the upstream developer Scott Atchley.
157
158
159 ------------------------------------------------------------------------------- 
160 2009-07-31  Sun Microsystems, Inc.
161         * version 1.8.1
162         * Support for networks:
163          socklnd   - any kernel supported by Lustre,
164          qswlnd    - Qsnet kernel modules 5.20 and later,
165          openiblnd - IbGold 1.8.2,
166          o2iblnd   - OFED 1.1, 1.2.0, 1.2.5, 1.3, and 1.4.1
167          viblnd    - Voltaire ibhost 3.4.5 and later,
168          ciblnd    - Topspin 3.2.0,
169          iiblnd    - Infiniserv 3.3 + PathBits patch,
170          gmlnd     - GM 2.1.22 and later,
171          mxlnd     - MX 1.2.1 or later,
172          ptllnd    - Portals 3.3 / UNICOS/lc 1.5.x, 2.0.x
173
174 Severity   : normal
175 Bugzilla   : 18102
176 Description: router_proc.c is rewritten to use sysctl-interface for parameters
177              residing in /proc/sys/lnet
178
179 Severity   : enhancement
180 Bugzilla   : 15332
181 Description: add a new LND optiion to control peer buffer credits on routers
182
183 Severity   : normal
184 Bugzilla   : 18844
185 Description: Fixing deadlock in usocklnd
186 Details    : A deadlock was possible in usocklnd due to race condition while
187              tearing connection down. The problem resulted from erroneous
188              assumption that lnet_finalize() could have been called holding
189              some lnd-level locks.
190
191 Severity   : major
192 Bugzilla   : 13621, 15983
193 Description: Protocol V2 of o2iblnd
194 Details    : o2iblnd V2 has several new features:
195              . map-on-demand: map-on-demand is disabled by default, it can
196                be enabled by using modparam "map_on_demand=@value@", @value@
197                should >= 0 and < 256, 0 will disable map-on-demand, any other
198                valid value will enable map-on-demand. 
199                Oi2blnd will create FMR or physical MR for RDMA if fragments of
200                RD > @value@.
201                Enable map-on-demand will take less memory for new connection,
202                but a little more CPU for RDMA.
203              . iWARP : to support iWARP, please enable map-on-demand, 32 and 64
204                are recommanded value. iWARP will probably fail for value >=128.
205              . OOB NOOP message: to resolve deadlock on router.
206              . tunable peer_credits_hiw: (high water to return credits),
207                default value of peer_credits_hiw equals to (peer_credits -1),
208                user can change it between peer_credits/2 and (peer_credits - 1).
209                Lower value is recommended for high latency network.
210              . tunable message queue size: it always equals to peer_credits,
211                higher value is recommended for high latency network.
212              . It's compatible with earlier version of o2iblnd
213
214 Severity   : normal
215 Bugzilla   : 18414
216 Description: Fixing 'running out of ports' issue
217 Details    : Add a delay before next reconnect attempt in ksocklnd in
218              the case of lost race. Limit the frequency of query-requests
219              in lnet. Improved handling of 'dead peer' notifications in
220              lnet.
221
222 Severity   : normal
223 Bugzilla   : 16034
224 Description: Change ptllnd timeout and watchdog timers
225 Details    : Add ptltrace_on_nal_failed and bump ptllnd timeout to match
226              Portals wire timeout.
227
228 Severity   : normal
229 Bugzilla   : 16186
230 Description: One down Lustre FS hangs ALL mounted Lustre filesystems
231 Details    : Shared routing enhancements - peer health detection.
232
233 Severity   : minor
234 Bugzilla   : 11245
235 Description: IB path MTU mistakenly set to 1st path MTU when ib_mtu is off
236 Details    : See comment 46 in bug 11245 for details - it's indeed a bug
237              introduced by the original 11245 fix.
238
239 Severity   : minor
240 Bugzilla   : 15984
241 Description: uptllnd credit overflow fix
242 Details    : kptl_msg_t::ptlm_credits could be overflown by uptllnd since
243              it is only a __u8.
244
245 Severity   : major
246 Bugzilla   : 14634
247 Description: socklnd protocol version 3 
248 Details    : With current protocol V2, connections on router can be
249              blocked and can't receive any incoming messages when there is no
250              more router buffer, so ZC-ACK can't be handled (LNet message
251              can't be finalized) and will cause deadlock on router.
252              Protocol V3 has a dedicated connection for emergency messages
253              like ZC-ACK to router, messages on this dedicated connection
254              don't need any credit so will never be blocked. Also, V3 can send
255              keepalive ping in specified period for router healthy checking.
256
257 ------------------------------------------------------------------------------- 
258 12-31-2008  Sun Microsystems, Inc.
259         * version 1.8.0
260         * Support for networks:
261          socklnd   - any kernel supported by Lustre,
262          qswlnd    - Qsnet kernel modules 5.20 and later,
263          openiblnd - IbGold 1.8.2,
264          o2iblnd   - OFED 1.1, 1.2.0, 1.2.5, and 1.3
265          viblnd    - Voltaire ibhost 3.4.5 and later,
266          ciblnd    - Topspin 3.2.0,
267          iiblnd    - Infiniserv 3.3 + PathBits patch,
268          gmlnd     - GM 2.1.22 and later,
269          mxlnd     - MX 1.2.1 or later,
270          ptllnd    - Portals 3.3 / UNICOS/lc 1.5.x, 2.0.x
271
272 Severity   : 
273 Bugzilla   : 
274 Description: 
275 Details    : 
276
277 Severity   : major
278 Bugzilla   : 15983
279 Description: workaround for OOM from o2iblnd
280 Details    : OFED needs allocate big chunk of memory for QP while creating
281              connection for o2iblnd, OOM can happen if no such a contiguous
282              memory chunk.
283              QP size is decided by concurrent_sends and max_fragments of
284              o2iblnd, now we permit user to specify smaller value for
285              concurrent_sends of o2iblnd(i.e: concurrent_sends=7), which
286              will decrease memory block size required by creating QP.
287
288 Severity   : major
289 Bugzilla   : 15093
290 Description: Support Zerocopy receive of Chelsio device
291 Details    : Chelsio driver can support zerocopy for iov[1] if it's
292              contiguous and large enough.
293
294 Severity   : normal
295 Bugzilla   : 13490
296 Description: fix credit flow deadlock in uptllnd
297
298 Severity   : normal
299 Bugzilla   : 16308
300 Description: finalize network operation in reasonable time
301 Details    : conf-sanity test_32a couldn't stop ost and mds because it
302              tried to access non-existent peer and tcp connect took
303              quite long before timing out.
304
305 Severity   : major
306 Bugzilla   : 16338
307 Description: Continuous recovery on 33 of 413 nodes after lustre oss failure
308 Details    : Lost reference on conn prevents peer from being destroyed, which
309              could prevent new peer creation if peer count has reached upper
310              limit.
311
312 Severity   : normal
313 Bugzilla   : 16102
314 Description: LNET Selftest results in Soft lockup on OSS CPU
315 Details    : only hits when 8 or more o2ib clients involved and a session is
316              torn down with 'lst end_session' without preceeding 'lst stop'.
317
318 Severity   : minor
319 Bugzilla   : 16321
320 Description: concurrent_sends in IB LNDs should not be changeable at run time
321 Details    : concurrent_sends in IB LNDs should not be changeable at run time
322
323 Severity   : normal
324 Bugzilla   : 15272
325 Description: ptl_send_rpc hits LASSERT when ptl_send_buf fails
326 Details    : only hits under out-of-memory situations
327
328
329 -------------------------------------------------------------------------------
330
331 2009-02-07 Sun Microsystems, Inc.
332         * version 1.6.7
333         * Support for networks:
334          socklnd   - any kernel supported by Lustre,
335          qswlnd    - Qsnet kernel modules 5.20 and later,
336          openiblnd - IbGold 1.8.2,
337          o2iblnd   - OFED 1.1, 1.2.0, 1.2.5, and 1.3
338          viblnd    - Voltaire ibhost 3.4.5 and later,
339          ciblnd    - Topspin 3.2.0,
340          iiblnd    - Infiniserv 3.3 + PathBits patch,
341          gmlnd     - GM 2.1.22 and later,
342          mxlnd     - MX 1.2.1 or later,
343          ptllnd    - Portals 3.3 / UNICOS/lc 1.5.x, 2.0.x
344
345 Severity   : major
346 Bugzilla   : 15983
347 Description: workaround for OOM from o2iblnd
348 Details    : OFED needs allocate big chunk of memory for QP while creating
349              connection for o2iblnd, OOM can happen if no such a contiguous
350              memory chunk.
351              QP size is decided by concurrent_sends and max_fragments of
352              o2iblnd, now we permit user to specify smaller value for
353              concurrent_sends of o2iblnd(i.e: concurrent_sends=7), which
354              will decrease memory block size required by creating QP.
355
356 Severity   : major
357 Bugzilla   : 15093
358 Description: Support Zerocopy receive of Chelsio device
359 Details    : Chelsio driver can support zerocopy for iov[1] if it's
360              contiguous and large enough.
361
362 Severity   : normal
363 Bugzilla   : 13490
364 Description: fix credit flow deadlock in uptllnd
365
366 Severity   : normal
367 Bugzilla   : 16308
368 Description: finalize network operation in reasonable time
369 Details    : conf-sanity test_32a couldn't stop ost and mds because it
370              tried to access non-existent peer and tcp connect took
371              quite long before timing out.
372
373 Severity   : major
374 Bugzilla   : 16338
375 Description: Continuous recovery on 33 of 413 nodes after lustre oss failure
376 Details    : Lost reference on conn prevents peer from being destroyed, which
377              could prevent new peer creation if peer count has reached upper
378              limit.
379
380 Severity   : normal
381 Bugzilla   : 16102
382 Description: LNET Selftest results in Soft lockup on OSS CPU
383 Details    : only hits when 8 or more o2ib clients involved and a session is
384              torn down with 'lst end_session' without preceeding 'lst stop'.
385
386 Severity   : minor
387 Bugzilla   : 16321
388 Description: concurrent_sends in IB LNDs should not be changeable at run time
389 Details    : concurrent_sends in IB LNDs should not be changeable at run time
390
391 -------------------------------------------------------------------------------
392
393 11-03-2008  Sun Microsystems, Inc.
394         * version 1.6.6
395         * Support for networks:
396          socklnd   - any kernel supported by Lustre,
397          qswlnd    - Qsnet kernel modules 5.20 and later,
398          openiblnd - IbGold 1.8.2,
399          o2iblnd   - OFED 1.1, 1.2.0, 1.2.5, and 1.3
400          viblnd    - Voltaire ibhost 3.4.5 and later,
401          ciblnd    - Topspin 3.2.0,
402          iiblnd    - Infiniserv 3.3 + PathBits patch,
403          gmlnd     - GM 2.1.22 and later,
404          mxlnd     - MX 1.2.1 or later,
405          ptllnd    - Portals 3.3 / UNICOS/lc 1.5.x, 2.0.x
406
407 Severity   : normal
408 Bugzilla   : 15272
409 Description: ptl_send_rpc hits LASSERT when ptl_send_buf fails
410 Details    : only hits under out-of-memory situations
411
412 -------------------------------------------------------------------------------
413
414
415 04-26-2008  Sun Microsystems, Inc.
416        * version 1.6.5
417        * Support for networks:
418         socklnd   - any kernel supported by Lustre,
419         qswlnd    - Qsnet kernel modules 5.20 and later,
420         openiblnd - IbGold 1.8.2,
421         o2iblnd   - OFED 1.1 and 1.2.0, 1.2.5
422         viblnd    - Voltaire ibhost 3.4.5 and later,
423         ciblnd    - Topspin 3.2.0,
424         iiblnd    - Infiniserv 3.3 + PathBits patch,
425         gmlnd     - GM 2.1.22 and later,
426         mxlnd     - MX 1.2.1 or later,
427         ptllnd    - Portals 3.3 / UNICOS/lc 1.5.x, 2.0.x
428
429 Severity   : normal
430 Bugzilla   : 14322
431 Description: excessive debug information removed
432 Details    : excessive debug information removed
433
434 Severity   : major
435 Bugzilla   : 15712
436 Description: ksocknal_create_conn() hit ASSERTION during connection race
437 Details    : ksocknal_create_conn() hit ASSERTION during connection race
438
439 Severity   : major
440 Bugzilla   : 13983
441 Description: ksocknal_send_hello() hit ASSERTION while connecting race
442 Details    : ksocknal_send_hello() hit ASSERTION while connecting race
443
444 Severity   : major
445 Bugzilla   : 14425
446 Description: o2iblnd/ptllnd credit deadlock in a routed config.
447 Details    : o2iblnd/ptllnd credit deadlock in a routed config.
448
449 Severity   : normal
450 Bugzilla   : 14956
451 Description: High load after starting lnet
452 Details    : gmlnd should sleep in rx thread in interruptible way. Otherwise,
453              uptime utility reports high load that looks confusingly.
454
455 Severity   : normal
456 Bugzilla   : 14838
457 Description: ksocklnd fails to establish connection if accept_port is high
458 Details    : PID remapping must not be done for active (outgoing) connections
459
460 --------------------------------------------------------------------------------
461
462 2008-01-11  Sun Microsystems, Inc.
463        * version 1.4.12
464        * Support for networks:
465         socklnd   - any kernel supported by Lustre,
466         qswlnd    - Qsnet kernel modules 5.20 and later,
467         openiblnd - IbGold 1.8.2,
468         o2iblnd   - OFED 1.1 and 1.2.0, 1.2.5
469         viblnd    - Voltaire ibhost 3.4.5 and later,
470         ciblnd    - Topspin 3.2.0,
471         iiblnd    - Infiniserv 3.3 + PathBits patch,
472         gmlnd     - GM 2.1.22 and later,
473         mxlnd     - MX 1.2.1 or later,
474         ptllnd    - Portals 3.3 / UNICOS/lc 1.5.x, 2.0.x
475 Severity   : normal
476 Bugzilla   : 14387
477 Description: liblustre network error
478 Details    : liblustre clients should understand LNET_ACCEPT_PORT environment
479              variable even if they don't start lnet acceptor.
480
481 Severity   : normal
482 Bugzilla   : 14300
483 Description: Strange message from lnet (Ignoring prediction from the future)
484 Details    : Incorrect calculation of peer's last_alive value in ksocklnd
485
486 --------------------------------------------------------------------------------
487
488 2007-12-07         Cluster File Systems, Inc. <info@clusterfs.com>
489        * version 1.6.4
490        * Support for networks:
491         socklnd   - any kernel supported by Lustre,
492         qswlnd    - Qsnet kernel modules 5.20 and later,
493         openiblnd - IbGold 1.8.2,
494         o2iblnd   - OFED 1.1 and 1.2.0, 1.2.5.
495         viblnd    - Voltaire ibhost 3.4.5 and later,
496         ciblnd    - Topspin 3.2.0,
497         iiblnd    - Infiniserv 3.3 + PathBits patch,
498         gmlnd     - GM 2.1.22 and later,
499         mxlnd     - MX 1.2.1 or later,
500         ptllnd    - Portals 3.3 / UNICOS/lc 1.5.x, 2.0.x
501
502 Severity   : normal
503 Bugzilla   : 14238
504 Description: ASSERTION(me == md->md_me) failed in lnet_match_md()
505
506 Severity   : normal
507 Bugzilla   : 12494
508 Description: increase send queue size for ciblnd/openiblnd
509
510 Severity   : normal
511 Bugzilla   : 12302
512 Description: new userspace socklnd
513 Details    : Old userspace tcpnal that resided in lnet/ulnds/socklnd replaced
514              with new one - usocklnd.
515
516 Severity   : enhancement
517 Bugzilla   : 11686
518 Description: Console message flood
519 Details    : Make cdls ratelimiting more tunable by adding several tunable in
520              procfs /proc/sys/lnet/console_{min,max}_delay_centisecs and
521              /proc/sys/lnet/console_backoff.
522
523 --------------------------------------------------------------------------------
524
525 2007-09-27         Cluster File Systems, Inc. <info@clusterfs.com>
526        * version 1.6.3
527        * Support for networks:
528         socklnd   - any kernel supported by Lustre,
529         qswlnd    - Qsnet kernel modules 5.20 and later,
530         openiblnd - IbGold 1.8.2,
531         o2iblnd   - OFED 1.1 and 1.2,
532         viblnd    - Voltaire ibhost 3.4.5 and later,
533         ciblnd    - Topspin 3.2.0,
534         iiblnd    - Infiniserv 3.3 + PathBits patch,
535         gmlnd     - GM 2.1.22 and later,
536         mxlnd     - MX 1.2.1 or later,
537         ptllnd    - Portals 3.3 / UNICOS/lc 1.5.x, 2.0.x
538
539 Severity   : normal
540 Bugzilla   : 12782
541 Description: /proc/sys/lnet has non-sysctl entries
542 Details    : Updating dump_kernel/daemon_file/debug_mb to use sysctl variables
543
544 Severity   : major
545 Bugzilla   : 13236
546 Description: TOE Kernel panic by ksocklnd
547 Details    : offloaded sockets provide their own implementation of sendpage,
548              can't call tcp_sendpage() directly
549
550 Severity   : normal
551 Bugzilla   : 10778
552 Description: kibnal_shutdown() doesn't finish; lconf --cleanup hangs
553 Details    : races between lnd_shutdown and peer creation prevent 
554              lnd_shutdown from finishing.
555
556 Severity   : normal
557 Bugzilla   : 13279
558 Description: open files rlimit 1024 reached while liblustre testing
559 Details    : ulnds/socklnd must close open socket after unsuccessful
560              'say hello' attempt.
561
562 Severity   : major 
563 Bugzilla   : 13482
564 Description: build error
565 Details    : fix typos in gmlnd, ptllnd and viblnd
566
567 ------------------------------------------------------------------------------
568
569 2007-07-30  Cluster File Systems, Inc. <info@clusterfs.com>
570        * version 1.6.1
571        * Support for networks:
572         socklnd   - kernels up to 2.6.16,
573         qswlnd    - Qsnet kernel modules 5.20 and later,
574         openiblnd - IbGold 1.8.2,
575         o2iblnd   - OFED 1.1 and 1.2
576         viblnd    - Voltaire ibhost 3.4.5 and later,
577         ciblnd    - Topspin 3.2.0,
578         iiblnd    - Infiniserv 3.3 + PathBits patch,
579         gmlnd     - GM 2.1.22 and later,
580         mxlnd     - MX 1.2.1 or later,
581         ptllnd    - Portals 3.3 / UNICOS/lc 1.5.x, 2.0.x
582
583 2007-06-21  Cluster File Systems, Inc. <info@clusterfs.com>
584        * version 1.4.11
585        * Support for networks:
586         socklnd   - kernels up to 2.6.16,
587         qswlnd    - Qsnet kernel modules 5.20 and later,
588         openiblnd - IbGold 1.8.2,
589         o2iblnd   - OFED 1.1
590         viblnd    - Voltaire ibhost 3.4.5 and later,
591         ciblnd    - Topspin 3.2.0,
592         iiblnd    - Infiniserv 3.3 + PathBits patch,
593         gmlnd     - GM 2.1.22 and later,
594         mxlnd     - MX 1.2.1 or later,
595         ptllnd    - Portals 3.3 / UNICOS/lc 1.5.x, 2.0.x
596
597 Severity   : minor
598 Bugzilla   : 13288
599 Description: Initialize cpumask before use
600
601 Severity   : major
602 Bugzilla   : 12014
603 Description: ASSERTION failures when upgrading to the patchless zero-copy
604              socklnd 
605 Details    : This bug affects "rolling upgrades", causing an inconsistent
606              protocol version negotiation and subsequent assertion failure
607              during rolling upgrades after the first wave of upgrades.
608
609 Severity   : minor
610 Bugzilla   : 11223
611 Details    : Change "dropped message" CERRORs to D_NETERROR so they are
612              logged instead of creating "console chatter" when a lustre
613              timeout races with normal RPC completion.
614
615 Severity   : minor
616 Details    : lnet_clear_peer_table can wait forever if user forgets to
617              clear a lazy portal.
618
619 Severity   : minor
620 Details    : libcfs_id2str should check pid against LNET_PID_ANY.
621
622 Severity   : major
623 Bugzilla   : 10916
624 Description: added LNET self test
625 Details    : landing b_self_test
626
627 Severity   : minor
628 Frequency  : rare
629 Bugzilla   : 12227
630 Description: cfs_duration_{u,n}sec() wrongly calculate nanosecond part of
631              struct timeval.
632 Details    : do_div() macro is used incorrectly.
633
634 2007-04-23  Cluster File Systems, Inc. <info@clusterfs.com>
635
636 Severity   : normal
637 Bugzilla   : 11680
638 Description: make panic on lbug configurable
639
640 Severity   : major
641 Bugzilla   : 12316
642 Description: Add OFED1.2 support to o2iblnd
643 Details    : o2iblnd depends on OFED's modules, if out-tree OFED's modules
644              are installed (other than kernel's in-tree infiniband), there
645              could be some problem while insmod o2iblnd (mismatch CRC of 
646              ib_* symbols).
647              If extra Module.symvers is supported in kernel (i.e, 2.6.17),
648              this link provides solution:
649              https://bugs.openfabrics.org/show_bug.cgi?id=355
650              if extra Module.symvers is not supported in kernel, we will
651              have to run the script in bug 12316 to update
652              $LINUX/module.symvers before building o2iblnd.
653              More details about this are in bug 12316.
654
655 ------------------------------------------------------------------------------
656
657 2007-04-01  Cluster File Systems, Inc. <info@clusterfs.com>
658        * version 1.4.10 / 1.6.0
659        * Support for networks:
660         socklnd   - kernels up to 2.6.16,
661         qswlnd    - Qsnet kernel modules 5.20 and later,
662         openiblnd - IbGold 1.8.2,
663         o2iblnd   - OFED 1.1,
664         viblnd    - Voltaire ibhost 3.4.5 and later,
665         ciblnd    - Topspin 3.2.0,
666         iiblnd    - Infiniserv 3.3 + PathBits patch,
667         gmlnd     - GM 2.1.22 and later,
668         mxlnd     - MX 1.2.1 or later,
669         ptllnd    - Portals 3.3 / UNICOS/lc 1.5.x, 2.0.x
670         
671 Severity   : minor
672 Frequency  : rare
673 Description: Ptllnd didn't init kptllnd_data.kptl_idle_txs before it could be
674              possibly accessed in kptllnd_shutdown. Ptllnd should init 
675              kptllnd_data.kptl_ptlid2str_lock before calling kptllnd_ptlid2str.
676
677 Severity   : normal
678 Frequency  : rare
679 Description: gmlnd ignored some transmit errors when finalizing lnet messages.
680
681 Severity   : minor
682 Frequency  : rare
683 Description: ptllnd logs a piece of incorrect debug info in kptllnd_peer_handle_hello.
684
685 Severity   : minor
686 Frequency  : rare
687 Description: the_lnet.ln_finalizing was not set when the current thread is
688              about to complete messages. It only affects multi-threaded 
689              user space LNet.
690         
691 Severity   : normal
692 Frequency  : rare
693 Bugzilla   : 11472
694 Description: Changed the default kqswlnd ntxmsg=512
695         
696 Severity   : major
697 Frequency  : rare
698 Bugzilla   : 12458
699 Description: Assertion failure in kernel ptllnd caused by posting passive
700              bulk buffers before connection establishment complete.
701         
702 Severity   : major
703 Frequency  : rare
704 Bugzilla   : 12445
705 Description: A race in kernel ptllnd between deleting a peer and posting
706              new communications for it could hang communications -
707              manifesting as "Unexpectedly long timeout" messages.
708         
709 Severity   : major
710 Frequency  : rare
711 Bugzilla   : 12432
712 Description: Kernel ptllnd lock ordering issue could hang a node.
713         
714 Severity   : major
715 Frequency  : rare
716 Bugzilla   : 12016
717 Description: node crash on socket teardown race
718
719 Severity   : minor
720 Frequency  : 'lctl peer_list' issued on a mx net
721 Bugzilla   : 12237
722 Description: Enable lctl's peer_list for MXLND
723
724 Severity   : major
725 Frequency  : after Ptllnd timeouts and portals congestion
726 Bugzilla   : 11659
727 Description: Credit overflows
728 Details    : This was a bug in ptllnd connection establishment.  The fix
729              implements better peer stamps to disambiguate connection
730              establishment and ensure both peers enter the credit flow
731              state machine consistently.
732
733 Severity   : major
734 Frequency  : rare       
735 Bugzilla   : 11394
736 Description: kptllnd didn't propagate some network errors up to LNET 
737 Details    : This bug was spotted while investigating 11394.  The fix
738              ensures network errors on sends and bulk transfers are
739              propagated to LNET/lustre correctly.
740
741 Severity   : enhancement
742 Bugzilla   : 10316
743 Description: Fixed console chatter in case of -ETIMEDOUT.
744
745 Severity   : enhancement
746 Bugzilla   : 11684
747 Description: Added D_NETTRACE for recording network packet history
748              (initially only for ptllnd).  Also a separate userspace
749              ptllnd facility to gather history which should really be
750              covered by D_NETTRACE too, if only CDEBUG recorded history in
751              userspace.
752
753 Severity   : major
754 Frequency  : rare       
755 Bugzilla   : 11616
756 Description: o2iblnd handle early RDMA_CM_EVENT_DISCONNECTED.
757 Details    : If the fabric is lossy, an RDMA_CM_EVENT_DISCONNECTED
758              callback can occur before a connection has actually been
759              established.  This caused an assertion failure previously.
760
761 Severity   : enhancement
762 Bugzilla   : 11094
763 Description: Multiple instances for o2iblnd
764 Details    : Allow multiple instances of o2iblnd to enable networking over
765              multiple HCAs and routing between them.
766
767 Severity   : major
768 Bugzilla   : 11201
769 Description: lnet deadlock in router_checker
770 Details    : turned ksnd_connd_lock, ksnd_reaper_lock, and ksock_net_t:ksnd_lock
771              into BH locks to eliminate potential deadlock caused by
772              ksocknal_data_ready() preempting code holding these locks.
773
774 Severity   : major
775 Bugzilla   : 11126
776 Description: Millions of failed socklnd connection attempts cause a very slow FS
777 Details    : added a new route flag ksnr_scheduled to distinguish from
778              ksnr_connecting, so that a peer connection request is only turned
779              down for race concerns when an active connection to the same peer
780              is under progress (instead of just being scheduled).
781
782 ------------------------------------------------------------------------------
783
784 2007-02-09  Cluster File Systems, Inc. <info@clusterfs.com>
785        * version 1.4.9
786        * Support for networks:
787         socklnd   - kernels up to 2.6.16
788         qswlnd    - Qsnet kernel modules 5.20 and later
789         openiblnd - IbGold 1.8.2
790         o2iblnd   - OFED 1.1
791         viblnd    - Voltaire ibhost 3.4.5 and later
792         ciblnd    - Topspin 3.2.0
793         iiblnd    - Infiniserv 3.3 + PathBits patch
794         gmlnd     - GM 2.1.22 and later
795         mxlnd     - MX 1.2.1 or later
796         ptllnd    - Portals 3.3 / UNICOS/lc 1.5.x, 2.0.x
797        * bug fixes
798
799 Severity   : major on XT3
800 Bugzilla   : none
801 Description: libcfs overwrites /proc/sys/portals
802 Details    : libcfs created a symlink from /proc/sys/portals to
803              /proc/sys/lnet for backwards compatibility.  This is no
804              longer required and makes the Cray portals /proc variables
805              inaccessible.
806
807 Severity   : minor
808 Bugzilla   : 11312
809 Description: OFED FMR API change
810 Details    : This changes parameter usage to reflect a change in
811              ib_fmr_pool_map_phys() between OFED 1.0 and OFED 1.1.  Note
812              that FMR support is only used in experimental versions of the
813              o2iblnd - this change does not affect standard usage at all.
814
815 Severity   : enhancement
816 Bugzilla   : 11245
817 Description: new ko2iblnd module parameter: ib_mtu
818 Details    : the default IB MTU of 2048 performs badly on 23108 Tavor
819              HCAs.  You can avoid this problem by setting the MTU to 1024
820              using this module parameter.
821
822 Severity   : enhancement
823 Bugzilla   : 11118/11620
824 Description: ptllnd small request message buffer alignment fix
825 Details    : Set the PTL_MD_LOCAL_ALIGN8 option on small message receives.
826              Round up small message size on sends in case this option
827              is not supported.  11620 was a defect in the initial
828              implementation which effectively asserted all peers had to be
829              running the correct protocol version which was fixed by always
830              NAK-ing such requests and handling any misalignments they
831              introduce.
832
833 Severity   : minor
834 Frequency  : rarely
835 Description: When kib(nal|lnd)_del_peer() is called upon a peer whose
836              ibp_tx_queue is not empty, kib(nal|lnd)_destroy_peer()'s
837              'LASSERT(list_empty(&peer->ibp_tx_queue))' will fail.
838
839 Severity   : enhancement
840 Bugzilla   : 11250
841 Description: Patchless ZC(zero copy) socklnd
842 Details    : New protocol for socklnd, socklnd can support zero copy without
843              kernel patch, it's compatible with old socklnd. Checksum is 
844              moved from tunables to modparams.
845
846 Severity   : minor
847 Frequency  : rarely
848 Description: When ksocknal_del_peer() is called upon a peer whose
849              ksnp_tx_queue is not empty, ksocknal_destroy_peer()'s
850              'LASSERT(list_empty(&peer->ksnp_tx_queue))' will fail.
851
852 Severity   : normal
853 Frequency  : when ptlrpc is under heavy use and runs out of request buffer
854 Bugzilla   : 11318
855 Description: In lnet_match_blocked_msg(), md can be used without holding a
856              ref on it.
857
858 Severity   : minor
859 Frequency  : very rarely
860 Bugzilla   : 10727
861 Description: If ksocknal_lib_setup_sock() fails, a ref on peer is lost.
862              If connd connects a route which has been closed by
863              ksocknal_shutdown(), ksocknal_create_routes() may create new
864              routes which hold references on the peer, causing shutdown
865              process to wait for peer to disappear forever.
866
867 Severity   : enhancement
868 Bugzilla   : 11234
869 Description: Dump XT3 portals traces on kptllnd timeout
870 Details    : Set the kptllnd module parameter "ptltrace_on_timeout=1" to
871              dump Cray portals debug traces to a file.  The kptllnd module
872              parameter "ptltrace_basename", default "/tmp/lnet-ptltrace",
873              is the basename of the dump file.
874
875 Severity   : major
876 Frequency  : infrequent
877 Bugzilla   : 11308
878 Description: kernel ptllnd fix bug in connection re-establishment
879 Details    : Kernel ptllnd could produce protocol errors e.g. illegal
880              matchbits and/or violate the credit flow protocol when trying
881              to re-establish a connection with a peer after an error or
882              timeout. 
883
884 Severity   : enhancement
885 Bugzilla   : 10316
886 Description: Allow /proc/sys/lnet/debug to be set symbolically
887 Details    : Allow debug and subsystem debug values to be read/set by name
888              in addition to numerically, for ease of use.
889
890 Severity   : normal
891 Frequency  : only in configurations with LNET routers
892 Bugzilla   : 10316
893 Description: routes automatically marked down and recovered
894 Details    : In configurations with LNET routers if a router fails routers
895              now actively try to recover routes that are down, unless they
896              are marked down by an administrator.
897
898 ------------------------------------------------------------------------------
899
900 2006-12-09  Cluster File Systems, Inc. <info@clusterfs.com>
901
902 Severity   : critical
903 Frequency  : very rarely, in configurations with LNET routers and TCP
904 Bugzilla   : 10889
905 Description: incorrect data written to files on OSTs
906 Details    : In certain high-load conditions incorrect data may be written
907              to files on the OST when using TCP networks.
908
909 ------------------------------------------------------------------------------
910
911 2006-07-31  Cluster File Systems, Inc. <info@clusterfs.com>
912         * version 1.4.7
913         - rework CDEBUG messages rate-limiting mechanism b=10375
914         - add per-socket tunables for socklnd if the kernel is patched b=10327
915
916 ------------------------------------------------------------------------------
917
918 2006-02-15  Cluster File Systems, Inc. <info@clusterfs.com>
919         * version 1.4.6
920         - fix use of portals/lnet pid to avoid dropping RPCs b=10074
921         - iiblnd wasn't mapping all memory, resulting in comms errors b=9776
922         - quiet LNET startup LNI message for liblustre b=10128
923         - Better console error messages if 'ip2nets' can't match an IP address
924         - Fixed overflow/use-before-set bugs in linux-time.h
925         - Fixed ptllnd bug that wasn't initialising rx descriptors completely
926         - LNET teardown failed an assertion about the route table being empty
927         - Fixed a crash in LNetEQPoll(<invalid handle>)
928         - Future protocol compatibility work (b_rls146_lnetprotovrsn)
929         - improve debug message for liblustre/Catamount nodes (b=10116)
930
931 2005-10-10  Cluster File Systems, Inc. <info@clusterfs.com>
932         * Configuration change for the XT3
933              The PTLLND is now used to run Lustre over Portals on the XT3.
934              The configure option(s) --with-cray-portals are no longer
935              used.  Rather --with-portals=<path-to-portals-includes> is
936              used to enable building on the XT3.  In addition to enable
937              XT3 specific features the option --enable-cray-xt3 must be
938              used.
939
940 2005-10-10  Cluster File Systems, Inc. <info@clusterfs.com>
941         * Portals has been removed, replaced by LNET.
942            LNET is new networking infrastructure for Lustre, it includes a
943            reorganized network configuration mode (see the user
944            documentation for full details) as well as support for routing
945            between different network fabrics.  Lustre Networking Devices
946            (LNDS) for the supported network fabrics have also been created
947            for this new infrastructure.
948
949 2005-08-08  Cluster File Systems, Inc. <info@clusterfs.com>
950        * version 1.4.4
951        * bug fixes
952
953 Severity   : major
954 Frequency  : rare (large Voltaire clusters only)
955 Bugzilla   : 6993
956 Description: the default number of reserved transmit descriptors was too low
957              for some large clusters
958 Details    : As a workaround, the number was increased.  A proper fix includes
959              a run-time tunable.
960
961 2005-06-02  Cluster File Systems, Inc. <info@clusterfs.com>
962        * version 1.4.3
963        * bug fixes
964
965 Severity   : major
966 Frequency  : occasional (large-scale events, cluster reboot, network failure)
967 Bugzilla   : 6411
968 Description: too many error messages on console obscure actual problem and
969              can slow down/panic server, or cause recovery to fail repeatedly
970 Details    : enable rate-limiting of console error messages, and some messages
971              that were console errors now only go to the kernel log
972
973 Severity   : enhancement
974 Bugzilla   : 1693
975 Description: add /proc/sys/portals/catastrophe entry which will report if
976              that node has previously LBUGged
977
978 2005-04-06  Cluster File Systems, Inc. <info@clusterfs.com>
979        * bugs
980         - update gmnal to use PTL_MTU, fix module refcounting (b=5786)
981
982 2005-04-04  Cluster File Systems, Inc. <info@clusterfs.com>
983        * bugs
984         - handle error return code in kranal_check_fma_rx() (5915,6054)
985
986 2005-02-04  Cluster File Systems, Inc. <info@clusterfs.com>
987        * miscellania
988         - update vibnal (Voltaire IB NAL)
989         - update gmnal (Myrinet NAL), gmnalid
990
991 2005-02-04  Eric Barton  <eeb@bartonsoftware.com>
992
993         * Landed portals:b_port_step as follows...
994
995           - removed CFS_DECL_SPIN* 
996             just use 'spinlock_t' and initialise with spin_lock_init()
997
998           - removed CFS_DECL_MUTEX*
999             just use 'struct semaphore' and initialise with init_mutex()
1000
1001           - removed CFS_DECL_RWSEM*
1002             just use 'struct rw_semaphore' and initialise with init_rwsem()
1003
1004           - renamed cfs_sleep_chan -> cfs_waitq
1005                     cfs_sleep_link -> cfs_waitlink
1006
1007           - fixed race in linux version of arch-independent socknal
1008             (the ENOMEM/EAGAIN decision).
1009
1010           - Didn't fix problems in Darwin version of arch-independent socknal
1011             (resetting socket callbacks, eager ack hack, ENOMEM/EAGAIN decision)
1012
1013           - removed libcfs types from non-socknal header files (only some types
1014             in the header files had been changed; the .c files hadn't been
1015             updated at all).