Whamcloud - gitweb
b=23076 fix for o2iblnd reconnect to retry one more time
[fs/lustre-release.git] / lnet / ChangeLog
1 tbd        Oracle, Inc.
2         * version 1.8.4
3         * Support for networks:
4           socklnd   - any kernel supported by Lustre,
5           qswlnd    - Qsnet kernel modules 5.20 and later,
6           openiblnd - IbGold 1.8.2,
7           o2iblnd   - OFED 1.3, 1.4.1, 1.4.2 and 1.5.1
8           viblnd    - Voltaire ibhost 3.4.5 and later,
9           ciblnd    - Topspin 3.2.0,
10           iiblnd    - Infiniserv 3.3 + PathBits patch,
11           gmlnd     - GM 2.1.22 and later,
12           mxlnd     - MX 1.2.10 or later,
13           ptllnd    - Portals 3.3 / UNICOS/lc 1.5.x, 2.0.x
14
15 Severity   : enhancement
16 Bugzilla   : 16909
17 Description: Quiet some LNET messages
18
19 Severity   : enhancement
20 Bugzilla   : 22787
21 Description: Add OFED 1.5.1 support
22
23 Severity   : enhancement
24 Bugzilla   : 21678
25 Description: The peer health code lacked some important debugging info in
26              lnd_query code paths. We've added necessary debug prints,
27              not just for bug 21678, but also for future troubleshooting.
28
29 -------------------------------------------------------------------------------
30
31 2010-04-30 Oracle, Inc.
32         * version 1.8.3
33         * Support for networks:
34           socklnd   - any kernel supported by Lustre,
35           qswlnd    - Qsnet kernel modules 5.20 and later,
36           openiblnd - IbGold 1.8.2,
37           o2iblnd   - OFED 1.1, 1.2.0, 1.2.5, 1.3, 1.4.1, and 1.4.2
38           viblnd    - Voltaire ibhost 3.4.5 and later,
39           ciblnd    - Topspin 3.2.0,
40           iiblnd    - Infiniserv 3.3 + PathBits patch,
41           gmlnd     - GM 2.1.22 and later,
42           mxlnd     - MX 1.2.10 or later,
43           ptllnd    - Portals 3.3 / UNICOS/lc 1.5.x, 2.0.x
44
45 Severity   : normal
46 Bugzilla   : 22556
47 Description: lst: check # of remained RPCs before aborting
48 Details    : lstcon_rpc_trans_postwait() calls lstcon_rpc_trans_abort() only
49              when the transaction is timeout, so if we got "end_session" to
50              interrupt waiting on  transaction, then we can hit the assertion
51              failure ASSERTION(crpc->crp_stamp != 0)
52
53 Severity   : normal
54 Bugzilla   : 20615
55 Description: print more debug info for  timedout ZC-req
56 Details    : Print more information for timedout ZC-req and partial
57              received connection. Close connection for timedout ZC-req
58              Always send ZC_ACK on non-blocking connection(BULK_IN)
59
60 Severity   : normal
61 Bugzilla   : 21945
62 Description: Adding WIRE_ATTR attribute to LNET types
63 Details    : LST nodes on different platforms might not communicate well
64              due to the lack of WIRE_ATTR attribute in some LNET structures
65              traversing network. The patch fixes the problem by adding
66              WIRE_ATTR where needed.
67
68 Severity   : normal
69 Bugzilla   : 21619
70 Description: hash MEs on RDMA portal
71 Details    : RDMA portal can have very long ME list on client side, which
72              will trigger soft lockup because of long searching on list.
73              Hash MEs on RDMA portal can resolve this problem.
74
75 Severity   : normal
76 Bugzilla   : 21911
77 Description: fix for double release of ibc_lock in o2iblnd
78 Details    : Re-acquire ibc_lock in kiblnd_post_tx_locked(). Add extra
79              reference to conn before calling kiblnd_post_tx_locked()
80              to avoid scenario when conn disappears inside
81              kiblnd_post_tx_locked().
82
83 ------------------------------------------------------------------------------- 
84 2010-01-29  Sun Microsystems, Inc.
85         * version 1.8.2
86         * Support for networks:
87           socklnd   - any kernel supported by Lustre,
88           qswlnd    - Qsnet kernel modules 5.20 and later,
89           openiblnd - IbGold 1.8.2,
90           o2iblnd   - OFED 1.1, 1.2.0, 1.2.5, 1.3, 1.4.1, and 1.4.2
91           viblnd    - Voltaire ibhost 3.4.5 and later,
92           ciblnd    - Topspin 3.2.0,
93           iiblnd    - Infiniserv 3.3 + PathBits patch,
94           gmlnd     - GM 2.1.22 and later,
95           mxlnd     - MX 1.2.10 or later,
96           ptllnd    - Portals 3.3 / UNICOS/lc 1.5.x, 2.0.x
97
98 Severity   : minor
99 Bugzilla   : 21459
100 Description: should update lp_alive for non-router peers.
101
102 Severity   : enhancement
103 Bugzilla   : 15332
104 Description: LNet router shuffler.
105
106 Severity   : enhancement
107 Bugzilla   : 15332
108 Description: LNet fine grain routing support.
109
110 Severity   : normal
111 Bugzilla   : 20171
112 Description: router checker stops working when system wall clock goes backward
113 Details    : use monotonic timing source instead of system wall clock time.
114
115 Severity   : enhancement
116 Bugzilla   : 18460
117 Description: avoid asymmetrical router failures
118
119 Severity   : enhancement
120 Bugzilla   : 19735
121 Description: multiple-instance support for kptllnd
122
123 Severity   : normal
124 Bugzilla   : 20897
125 Description: ksocknal_close_conn_locked connection race
126 Details    : A race was possible when ksocknal_create_conn calls
127              ksocknal_close_conn_locked for already closed conn.
128
129 Severity   : enhancement
130 Bugzilla   : 13065
131 Description: port router pinger to userspace
132
133 Severity   : normal
134 Bugzilla   : 17546
135 Description: kptllnd HELLO protocol deadlock
136 Details    : kptllnd HELLO protocol doesn't run to completion in finite time
137
138 Severity   : normal
139 Bugzilla   : 18075
140 Description: LNet selftest fixes and enhancements
141
142 Severity   : enhancement
143 Bugzilla   : 19156
144 Description: allow a test node to be a member of multiple test groups
145
146 Severity   : enhancement
147 Bugzilla   : 18654
148 Description: MXLND: eliminate hosts file, use arp for peer nic_id resolution
149 Details    : an update from the upstream developer Scott Atchley.
150
151
152 ------------------------------------------------------------------------------- 
153 2009-07-31  Sun Microsystems, Inc.
154         * version 1.8.1
155         * Support for networks:
156          socklnd   - any kernel supported by Lustre,
157          qswlnd    - Qsnet kernel modules 5.20 and later,
158          openiblnd - IbGold 1.8.2,
159          o2iblnd   - OFED 1.1, 1.2.0, 1.2.5, 1.3, and 1.4.1
160          viblnd    - Voltaire ibhost 3.4.5 and later,
161          ciblnd    - Topspin 3.2.0,
162          iiblnd    - Infiniserv 3.3 + PathBits patch,
163          gmlnd     - GM 2.1.22 and later,
164          mxlnd     - MX 1.2.1 or later,
165          ptllnd    - Portals 3.3 / UNICOS/lc 1.5.x, 2.0.x
166
167 Severity   : normal
168 Bugzilla   : 18102
169 Description: router_proc.c is rewritten to use sysctl-interface for parameters
170              residing in /proc/sys/lnet
171
172 Severity   : enhancement
173 Bugzilla   : 15332
174 Description: add a new LND optiion to control peer buffer credits on routers
175
176 Severity   : normal
177 Bugzilla   : 18844
178 Description: Fixing deadlock in usocklnd
179 Details    : A deadlock was possible in usocklnd due to race condition while
180              tearing connection down. The problem resulted from erroneous
181              assumption that lnet_finalize() could have been called holding
182              some lnd-level locks.
183
184 Severity   : major
185 Bugzilla   : 13621, 15983
186 Description: Protocol V2 of o2iblnd
187 Details    : o2iblnd V2 has several new features:
188              . map-on-demand: map-on-demand is disabled by default, it can
189                be enabled by using modparam "map_on_demand=@value@", @value@
190                should >= 0 and < 256, 0 will disable map-on-demand, any other
191                valid value will enable map-on-demand. 
192                Oi2blnd will create FMR or physical MR for RDMA if fragments of
193                RD > @value@.
194                Enable map-on-demand will take less memory for new connection,
195                but a little more CPU for RDMA.
196              . iWARP : to support iWARP, please enable map-on-demand, 32 and 64
197                are recommanded value. iWARP will probably fail for value >=128.
198              . OOB NOOP message: to resolve deadlock on router.
199              . tunable peer_credits_hiw: (high water to return credits),
200                default value of peer_credits_hiw equals to (peer_credits -1),
201                user can change it between peer_credits/2 and (peer_credits - 1).
202                Lower value is recommended for high latency network.
203              . tunable message queue size: it always equals to peer_credits,
204                higher value is recommended for high latency network.
205              . It's compatible with earlier version of o2iblnd
206
207 Severity   : normal
208 Bugzilla   : 18414
209 Description: Fixing 'running out of ports' issue
210 Details    : Add a delay before next reconnect attempt in ksocklnd in
211              the case of lost race. Limit the frequency of query-requests
212              in lnet. Improved handling of 'dead peer' notifications in
213              lnet.
214
215 Severity   : normal
216 Bugzilla   : 16034
217 Description: Change ptllnd timeout and watchdog timers
218 Details    : Add ptltrace_on_nal_failed and bump ptllnd timeout to match
219              Portals wire timeout.
220
221 Severity   : normal
222 Bugzilla   : 16186
223 Description: One down Lustre FS hangs ALL mounted Lustre filesystems
224 Details    : Shared routing enhancements - peer health detection.
225
226 Severity   : minor
227 Bugzilla   : 11245
228 Description: IB path MTU mistakenly set to 1st path MTU when ib_mtu is off
229 Details    : See comment 46 in bug 11245 for details - it's indeed a bug
230              introduced by the original 11245 fix.
231
232 Severity   : minor
233 Bugzilla   : 15984
234 Description: uptllnd credit overflow fix
235 Details    : kptl_msg_t::ptlm_credits could be overflown by uptllnd since
236              it is only a __u8.
237
238 Severity   : major
239 Bugzilla   : 14634
240 Description: socklnd protocol version 3 
241 Details    : With current protocol V2, connections on router can be
242              blocked and can't receive any incoming messages when there is no
243              more router buffer, so ZC-ACK can't be handled (LNet message
244              can't be finalized) and will cause deadlock on router.
245              Protocol V3 has a dedicated connection for emergency messages
246              like ZC-ACK to router, messages on this dedicated connection
247              don't need any credit so will never be blocked. Also, V3 can send
248              keepalive ping in specified period for router healthy checking.
249
250 ------------------------------------------------------------------------------- 
251 12-31-2008  Sun Microsystems, Inc.
252         * version 1.8.0
253         * Support for networks:
254          socklnd   - any kernel supported by Lustre,
255          qswlnd    - Qsnet kernel modules 5.20 and later,
256          openiblnd - IbGold 1.8.2,
257          o2iblnd   - OFED 1.1, 1.2.0, 1.2.5, and 1.3
258          viblnd    - Voltaire ibhost 3.4.5 and later,
259          ciblnd    - Topspin 3.2.0,
260          iiblnd    - Infiniserv 3.3 + PathBits patch,
261          gmlnd     - GM 2.1.22 and later,
262          mxlnd     - MX 1.2.1 or later,
263          ptllnd    - Portals 3.3 / UNICOS/lc 1.5.x, 2.0.x
264
265 Severity   : 
266 Bugzilla   : 
267 Description: 
268 Details    : 
269
270 Severity   : major
271 Bugzilla   : 15983
272 Description: workaround for OOM from o2iblnd
273 Details    : OFED needs allocate big chunk of memory for QP while creating
274              connection for o2iblnd, OOM can happen if no such a contiguous
275              memory chunk.
276              QP size is decided by concurrent_sends and max_fragments of
277              o2iblnd, now we permit user to specify smaller value for
278              concurrent_sends of o2iblnd(i.e: concurrent_sends=7), which
279              will decrease memory block size required by creating QP.
280
281 Severity   : major
282 Bugzilla   : 15093
283 Description: Support Zerocopy receive of Chelsio device
284 Details    : Chelsio driver can support zerocopy for iov[1] if it's
285              contiguous and large enough.
286
287 Severity   : normal
288 Bugzilla   : 13490
289 Description: fix credit flow deadlock in uptllnd
290
291 Severity   : normal
292 Bugzilla   : 16308
293 Description: finalize network operation in reasonable time
294 Details    : conf-sanity test_32a couldn't stop ost and mds because it
295              tried to access non-existent peer and tcp connect took
296              quite long before timing out.
297
298 Severity   : major
299 Bugzilla   : 16338
300 Description: Continuous recovery on 33 of 413 nodes after lustre oss failure
301 Details    : Lost reference on conn prevents peer from being destroyed, which
302              could prevent new peer creation if peer count has reached upper
303              limit.
304
305 Severity   : normal
306 Bugzilla   : 16102
307 Description: LNET Selftest results in Soft lockup on OSS CPU
308 Details    : only hits when 8 or more o2ib clients involved and a session is
309              torn down with 'lst end_session' without preceeding 'lst stop'.
310
311 Severity   : minor
312 Bugzilla   : 16321
313 Description: concurrent_sends in IB LNDs should not be changeable at run time
314 Details    : concurrent_sends in IB LNDs should not be changeable at run time
315
316 Severity   : normal
317 Bugzilla   : 15272
318 Description: ptl_send_rpc hits LASSERT when ptl_send_buf fails
319 Details    : only hits under out-of-memory situations
320
321
322 -------------------------------------------------------------------------------
323
324 2009-02-07 Sun Microsystems, Inc.
325         * version 1.6.7
326         * Support for networks:
327          socklnd   - any kernel supported by Lustre,
328          qswlnd    - Qsnet kernel modules 5.20 and later,
329          openiblnd - IbGold 1.8.2,
330          o2iblnd   - OFED 1.1, 1.2.0, 1.2.5, and 1.3
331          viblnd    - Voltaire ibhost 3.4.5 and later,
332          ciblnd    - Topspin 3.2.0,
333          iiblnd    - Infiniserv 3.3 + PathBits patch,
334          gmlnd     - GM 2.1.22 and later,
335          mxlnd     - MX 1.2.1 or later,
336          ptllnd    - Portals 3.3 / UNICOS/lc 1.5.x, 2.0.x
337
338 Severity   : major
339 Bugzilla   : 15983
340 Description: workaround for OOM from o2iblnd
341 Details    : OFED needs allocate big chunk of memory for QP while creating
342              connection for o2iblnd, OOM can happen if no such a contiguous
343              memory chunk.
344              QP size is decided by concurrent_sends and max_fragments of
345              o2iblnd, now we permit user to specify smaller value for
346              concurrent_sends of o2iblnd(i.e: concurrent_sends=7), which
347              will decrease memory block size required by creating QP.
348
349 Severity   : major
350 Bugzilla   : 15093
351 Description: Support Zerocopy receive of Chelsio device
352 Details    : Chelsio driver can support zerocopy for iov[1] if it's
353              contiguous and large enough.
354
355 Severity   : normal
356 Bugzilla   : 13490
357 Description: fix credit flow deadlock in uptllnd
358
359 Severity   : normal
360 Bugzilla   : 16308
361 Description: finalize network operation in reasonable time
362 Details    : conf-sanity test_32a couldn't stop ost and mds because it
363              tried to access non-existent peer and tcp connect took
364              quite long before timing out.
365
366 Severity   : major
367 Bugzilla   : 16338
368 Description: Continuous recovery on 33 of 413 nodes after lustre oss failure
369 Details    : Lost reference on conn prevents peer from being destroyed, which
370              could prevent new peer creation if peer count has reached upper
371              limit.
372
373 Severity   : normal
374 Bugzilla   : 16102
375 Description: LNET Selftest results in Soft lockup on OSS CPU
376 Details    : only hits when 8 or more o2ib clients involved and a session is
377              torn down with 'lst end_session' without preceeding 'lst stop'.
378
379 Severity   : minor
380 Bugzilla   : 16321
381 Description: concurrent_sends in IB LNDs should not be changeable at run time
382 Details    : concurrent_sends in IB LNDs should not be changeable at run time
383
384 -------------------------------------------------------------------------------
385
386 11-03-2008  Sun Microsystems, Inc.
387         * version 1.6.6
388         * Support for networks:
389          socklnd   - any kernel supported by Lustre,
390          qswlnd    - Qsnet kernel modules 5.20 and later,
391          openiblnd - IbGold 1.8.2,
392          o2iblnd   - OFED 1.1, 1.2.0, 1.2.5, and 1.3
393          viblnd    - Voltaire ibhost 3.4.5 and later,
394          ciblnd    - Topspin 3.2.0,
395          iiblnd    - Infiniserv 3.3 + PathBits patch,
396          gmlnd     - GM 2.1.22 and later,
397          mxlnd     - MX 1.2.1 or later,
398          ptllnd    - Portals 3.3 / UNICOS/lc 1.5.x, 2.0.x
399
400 Severity   : normal
401 Bugzilla   : 15272
402 Description: ptl_send_rpc hits LASSERT when ptl_send_buf fails
403 Details    : only hits under out-of-memory situations
404
405 -------------------------------------------------------------------------------
406
407
408 04-26-2008  Sun Microsystems, Inc.
409        * version 1.6.5
410        * Support for networks:
411         socklnd   - any kernel supported by Lustre,
412         qswlnd    - Qsnet kernel modules 5.20 and later,
413         openiblnd - IbGold 1.8.2,
414         o2iblnd   - OFED 1.1 and 1.2.0, 1.2.5
415         viblnd    - Voltaire ibhost 3.4.5 and later,
416         ciblnd    - Topspin 3.2.0,
417         iiblnd    - Infiniserv 3.3 + PathBits patch,
418         gmlnd     - GM 2.1.22 and later,
419         mxlnd     - MX 1.2.1 or later,
420         ptllnd    - Portals 3.3 / UNICOS/lc 1.5.x, 2.0.x
421
422 Severity   : normal
423 Bugzilla   : 14322
424 Description: excessive debug information removed
425 Details    : excessive debug information removed
426
427 Severity   : major
428 Bugzilla   : 15712
429 Description: ksocknal_create_conn() hit ASSERTION during connection race
430 Details    : ksocknal_create_conn() hit ASSERTION during connection race
431
432 Severity   : major
433 Bugzilla   : 13983
434 Description: ksocknal_send_hello() hit ASSERTION while connecting race
435 Details    : ksocknal_send_hello() hit ASSERTION while connecting race
436
437 Severity   : major
438 Bugzilla   : 14425
439 Description: o2iblnd/ptllnd credit deadlock in a routed config.
440 Details    : o2iblnd/ptllnd credit deadlock in a routed config.
441
442 Severity   : normal
443 Bugzilla   : 14956
444 Description: High load after starting lnet
445 Details    : gmlnd should sleep in rx thread in interruptible way. Otherwise,
446              uptime utility reports high load that looks confusingly.
447
448 Severity   : normal
449 Bugzilla   : 14838
450 Description: ksocklnd fails to establish connection if accept_port is high
451 Details    : PID remapping must not be done for active (outgoing) connections
452
453 --------------------------------------------------------------------------------
454
455 2008-01-11  Sun Microsystems, Inc.
456        * version 1.4.12
457        * Support for networks:
458         socklnd   - any kernel supported by Lustre,
459         qswlnd    - Qsnet kernel modules 5.20 and later,
460         openiblnd - IbGold 1.8.2,
461         o2iblnd   - OFED 1.1 and 1.2.0, 1.2.5
462         viblnd    - Voltaire ibhost 3.4.5 and later,
463         ciblnd    - Topspin 3.2.0,
464         iiblnd    - Infiniserv 3.3 + PathBits patch,
465         gmlnd     - GM 2.1.22 and later,
466         mxlnd     - MX 1.2.1 or later,
467         ptllnd    - Portals 3.3 / UNICOS/lc 1.5.x, 2.0.x
468 Severity   : normal
469 Bugzilla   : 14387
470 Description: liblustre network error
471 Details    : liblustre clients should understand LNET_ACCEPT_PORT environment
472              variable even if they don't start lnet acceptor.
473
474 Severity   : normal
475 Bugzilla   : 14300
476 Description: Strange message from lnet (Ignoring prediction from the future)
477 Details    : Incorrect calculation of peer's last_alive value in ksocklnd
478
479 --------------------------------------------------------------------------------
480
481 2007-12-07         Cluster File Systems, Inc. <info@clusterfs.com>
482        * version 1.6.4
483        * Support for networks:
484         socklnd   - any kernel supported by Lustre,
485         qswlnd    - Qsnet kernel modules 5.20 and later,
486         openiblnd - IbGold 1.8.2,
487         o2iblnd   - OFED 1.1 and 1.2.0, 1.2.5.
488         viblnd    - Voltaire ibhost 3.4.5 and later,
489         ciblnd    - Topspin 3.2.0,
490         iiblnd    - Infiniserv 3.3 + PathBits patch,
491         gmlnd     - GM 2.1.22 and later,
492         mxlnd     - MX 1.2.1 or later,
493         ptllnd    - Portals 3.3 / UNICOS/lc 1.5.x, 2.0.x
494
495 Severity   : normal
496 Bugzilla   : 14238
497 Description: ASSERTION(me == md->md_me) failed in lnet_match_md()
498
499 Severity   : normal
500 Bugzilla   : 12494
501 Description: increase send queue size for ciblnd/openiblnd
502
503 Severity   : normal
504 Bugzilla   : 12302
505 Description: new userspace socklnd
506 Details    : Old userspace tcpnal that resided in lnet/ulnds/socklnd replaced
507              with new one - usocklnd.
508
509 Severity   : enhancement
510 Bugzilla   : 11686
511 Description: Console message flood
512 Details    : Make cdls ratelimiting more tunable by adding several tunable in
513              procfs /proc/sys/lnet/console_{min,max}_delay_centisecs and
514              /proc/sys/lnet/console_backoff.
515
516 --------------------------------------------------------------------------------
517
518 2007-09-27         Cluster File Systems, Inc. <info@clusterfs.com>
519        * version 1.6.3
520        * Support for networks:
521         socklnd   - any kernel supported by Lustre,
522         qswlnd    - Qsnet kernel modules 5.20 and later,
523         openiblnd - IbGold 1.8.2,
524         o2iblnd   - OFED 1.1 and 1.2,
525         viblnd    - Voltaire ibhost 3.4.5 and later,
526         ciblnd    - Topspin 3.2.0,
527         iiblnd    - Infiniserv 3.3 + PathBits patch,
528         gmlnd     - GM 2.1.22 and later,
529         mxlnd     - MX 1.2.1 or later,
530         ptllnd    - Portals 3.3 / UNICOS/lc 1.5.x, 2.0.x
531
532 Severity   : normal
533 Bugzilla   : 12782
534 Description: /proc/sys/lnet has non-sysctl entries
535 Details    : Updating dump_kernel/daemon_file/debug_mb to use sysctl variables
536
537 Severity   : major
538 Bugzilla   : 13236
539 Description: TOE Kernel panic by ksocklnd
540 Details    : offloaded sockets provide their own implementation of sendpage,
541              can't call tcp_sendpage() directly
542
543 Severity   : normal
544 Bugzilla   : 10778
545 Description: kibnal_shutdown() doesn't finish; lconf --cleanup hangs
546 Details    : races between lnd_shutdown and peer creation prevent 
547              lnd_shutdown from finishing.
548
549 Severity   : normal
550 Bugzilla   : 13279
551 Description: open files rlimit 1024 reached while liblustre testing
552 Details    : ulnds/socklnd must close open socket after unsuccessful
553              'say hello' attempt.
554
555 Severity   : major 
556 Bugzilla   : 13482
557 Description: build error
558 Details    : fix typos in gmlnd, ptllnd and viblnd
559
560 ------------------------------------------------------------------------------
561
562 2007-07-30  Cluster File Systems, Inc. <info@clusterfs.com>
563        * version 1.6.1
564        * Support for networks:
565         socklnd   - kernels up to 2.6.16,
566         qswlnd    - Qsnet kernel modules 5.20 and later,
567         openiblnd - IbGold 1.8.2,
568         o2iblnd   - OFED 1.1 and 1.2
569         viblnd    - Voltaire ibhost 3.4.5 and later,
570         ciblnd    - Topspin 3.2.0,
571         iiblnd    - Infiniserv 3.3 + PathBits patch,
572         gmlnd     - GM 2.1.22 and later,
573         mxlnd     - MX 1.2.1 or later,
574         ptllnd    - Portals 3.3 / UNICOS/lc 1.5.x, 2.0.x
575
576 2007-06-21  Cluster File Systems, Inc. <info@clusterfs.com>
577        * version 1.4.11
578        * Support for networks:
579         socklnd   - kernels up to 2.6.16,
580         qswlnd    - Qsnet kernel modules 5.20 and later,
581         openiblnd - IbGold 1.8.2,
582         o2iblnd   - OFED 1.1
583         viblnd    - Voltaire ibhost 3.4.5 and later,
584         ciblnd    - Topspin 3.2.0,
585         iiblnd    - Infiniserv 3.3 + PathBits patch,
586         gmlnd     - GM 2.1.22 and later,
587         mxlnd     - MX 1.2.1 or later,
588         ptllnd    - Portals 3.3 / UNICOS/lc 1.5.x, 2.0.x
589
590 Severity   : minor
591 Bugzilla   : 13288
592 Description: Initialize cpumask before use
593
594 Severity   : major
595 Bugzilla   : 12014
596 Description: ASSERTION failures when upgrading to the patchless zero-copy
597              socklnd 
598 Details    : This bug affects "rolling upgrades", causing an inconsistent
599              protocol version negotiation and subsequent assertion failure
600              during rolling upgrades after the first wave of upgrades.
601
602 Severity   : minor
603 Bugzilla   : 11223
604 Details    : Change "dropped message" CERRORs to D_NETERROR so they are
605              logged instead of creating "console chatter" when a lustre
606              timeout races with normal RPC completion.
607
608 Severity   : minor
609 Details    : lnet_clear_peer_table can wait forever if user forgets to
610              clear a lazy portal.
611
612 Severity   : minor
613 Details    : libcfs_id2str should check pid against LNET_PID_ANY.
614
615 Severity   : major
616 Bugzilla   : 10916
617 Description: added LNET self test
618 Details    : landing b_self_test
619
620 Severity   : minor
621 Frequency  : rare
622 Bugzilla   : 12227
623 Description: cfs_duration_{u,n}sec() wrongly calculate nanosecond part of
624              struct timeval.
625 Details    : do_div() macro is used incorrectly.
626
627 2007-04-23  Cluster File Systems, Inc. <info@clusterfs.com>
628
629 Severity   : normal
630 Bugzilla   : 11680
631 Description: make panic on lbug configurable
632
633 Severity   : major
634 Bugzilla   : 12316
635 Description: Add OFED1.2 support to o2iblnd
636 Details    : o2iblnd depends on OFED's modules, if out-tree OFED's modules
637              are installed (other than kernel's in-tree infiniband), there
638              could be some problem while insmod o2iblnd (mismatch CRC of 
639              ib_* symbols).
640              If extra Module.symvers is supported in kernel (i.e, 2.6.17),
641              this link provides solution:
642              https://bugs.openfabrics.org/show_bug.cgi?id=355
643              if extra Module.symvers is not supported in kernel, we will
644              have to run the script in bug 12316 to update
645              $LINUX/module.symvers before building o2iblnd.
646              More details about this are in bug 12316.
647
648 ------------------------------------------------------------------------------
649
650 2007-04-01  Cluster File Systems, Inc. <info@clusterfs.com>
651        * version 1.4.10 / 1.6.0
652        * Support for networks:
653         socklnd   - kernels up to 2.6.16,
654         qswlnd    - Qsnet kernel modules 5.20 and later,
655         openiblnd - IbGold 1.8.2,
656         o2iblnd   - OFED 1.1,
657         viblnd    - Voltaire ibhost 3.4.5 and later,
658         ciblnd    - Topspin 3.2.0,
659         iiblnd    - Infiniserv 3.3 + PathBits patch,
660         gmlnd     - GM 2.1.22 and later,
661         mxlnd     - MX 1.2.1 or later,
662         ptllnd    - Portals 3.3 / UNICOS/lc 1.5.x, 2.0.x
663         
664 Severity   : minor
665 Frequency  : rare
666 Description: Ptllnd didn't init kptllnd_data.kptl_idle_txs before it could be
667              possibly accessed in kptllnd_shutdown. Ptllnd should init 
668              kptllnd_data.kptl_ptlid2str_lock before calling kptllnd_ptlid2str.
669
670 Severity   : normal
671 Frequency  : rare
672 Description: gmlnd ignored some transmit errors when finalizing lnet messages.
673
674 Severity   : minor
675 Frequency  : rare
676 Description: ptllnd logs a piece of incorrect debug info in kptllnd_peer_handle_hello.
677
678 Severity   : minor
679 Frequency  : rare
680 Description: the_lnet.ln_finalizing was not set when the current thread is
681              about to complete messages. It only affects multi-threaded 
682              user space LNet.
683         
684 Severity   : normal
685 Frequency  : rare
686 Bugzilla   : 11472
687 Description: Changed the default kqswlnd ntxmsg=512
688         
689 Severity   : major
690 Frequency  : rare
691 Bugzilla   : 12458
692 Description: Assertion failure in kernel ptllnd caused by posting passive
693              bulk buffers before connection establishment complete.
694         
695 Severity   : major
696 Frequency  : rare
697 Bugzilla   : 12445
698 Description: A race in kernel ptllnd between deleting a peer and posting
699              new communications for it could hang communications -
700              manifesting as "Unexpectedly long timeout" messages.
701         
702 Severity   : major
703 Frequency  : rare
704 Bugzilla   : 12432
705 Description: Kernel ptllnd lock ordering issue could hang a node.
706         
707 Severity   : major
708 Frequency  : rare
709 Bugzilla   : 12016
710 Description: node crash on socket teardown race
711
712 Severity   : minor
713 Frequency  : 'lctl peer_list' issued on a mx net
714 Bugzilla   : 12237
715 Description: Enable lctl's peer_list for MXLND
716
717 Severity   : major
718 Frequency  : after Ptllnd timeouts and portals congestion
719 Bugzilla   : 11659
720 Description: Credit overflows
721 Details    : This was a bug in ptllnd connection establishment.  The fix
722              implements better peer stamps to disambiguate connection
723              establishment and ensure both peers enter the credit flow
724              state machine consistently.
725
726 Severity   : major
727 Frequency  : rare       
728 Bugzilla   : 11394
729 Description: kptllnd didn't propagate some network errors up to LNET 
730 Details    : This bug was spotted while investigating 11394.  The fix
731              ensures network errors on sends and bulk transfers are
732              propagated to LNET/lustre correctly.
733
734 Severity   : enhancement
735 Bugzilla   : 10316
736 Description: Fixed console chatter in case of -ETIMEDOUT.
737
738 Severity   : enhancement
739 Bugzilla   : 11684
740 Description: Added D_NETTRACE for recording network packet history
741              (initially only for ptllnd).  Also a separate userspace
742              ptllnd facility to gather history which should really be
743              covered by D_NETTRACE too, if only CDEBUG recorded history in
744              userspace.
745
746 Severity   : major
747 Frequency  : rare       
748 Bugzilla   : 11616
749 Description: o2iblnd handle early RDMA_CM_EVENT_DISCONNECTED.
750 Details    : If the fabric is lossy, an RDMA_CM_EVENT_DISCONNECTED
751              callback can occur before a connection has actually been
752              established.  This caused an assertion failure previously.
753
754 Severity   : enhancement
755 Bugzilla   : 11094
756 Description: Multiple instances for o2iblnd
757 Details    : Allow multiple instances of o2iblnd to enable networking over
758              multiple HCAs and routing between them.
759
760 Severity   : major
761 Bugzilla   : 11201
762 Description: lnet deadlock in router_checker
763 Details    : turned ksnd_connd_lock, ksnd_reaper_lock, and ksock_net_t:ksnd_lock
764              into BH locks to eliminate potential deadlock caused by
765              ksocknal_data_ready() preempting code holding these locks.
766
767 Severity   : major
768 Bugzilla   : 11126
769 Description: Millions of failed socklnd connection attempts cause a very slow FS
770 Details    : added a new route flag ksnr_scheduled to distinguish from
771              ksnr_connecting, so that a peer connection request is only turned
772              down for race concerns when an active connection to the same peer
773              is under progress (instead of just being scheduled).
774
775 ------------------------------------------------------------------------------
776
777 2007-02-09  Cluster File Systems, Inc. <info@clusterfs.com>
778        * version 1.4.9
779        * Support for networks:
780         socklnd   - kernels up to 2.6.16
781         qswlnd    - Qsnet kernel modules 5.20 and later
782         openiblnd - IbGold 1.8.2
783         o2iblnd   - OFED 1.1
784         viblnd    - Voltaire ibhost 3.4.5 and later
785         ciblnd    - Topspin 3.2.0
786         iiblnd    - Infiniserv 3.3 + PathBits patch
787         gmlnd     - GM 2.1.22 and later
788         mxlnd     - MX 1.2.1 or later
789         ptllnd    - Portals 3.3 / UNICOS/lc 1.5.x, 2.0.x
790        * bug fixes
791
792 Severity   : major on XT3
793 Bugzilla   : none
794 Description: libcfs overwrites /proc/sys/portals
795 Details    : libcfs created a symlink from /proc/sys/portals to
796              /proc/sys/lnet for backwards compatibility.  This is no
797              longer required and makes the Cray portals /proc variables
798              inaccessible.
799
800 Severity   : minor
801 Bugzilla   : 11312
802 Description: OFED FMR API change
803 Details    : This changes parameter usage to reflect a change in
804              ib_fmr_pool_map_phys() between OFED 1.0 and OFED 1.1.  Note
805              that FMR support is only used in experimental versions of the
806              o2iblnd - this change does not affect standard usage at all.
807
808 Severity   : enhancement
809 Bugzilla   : 11245
810 Description: new ko2iblnd module parameter: ib_mtu
811 Details    : the default IB MTU of 2048 performs badly on 23108 Tavor
812              HCAs.  You can avoid this problem by setting the MTU to 1024
813              using this module parameter.
814
815 Severity   : enhancement
816 Bugzilla   : 11118/11620
817 Description: ptllnd small request message buffer alignment fix
818 Details    : Set the PTL_MD_LOCAL_ALIGN8 option on small message receives.
819              Round up small message size on sends in case this option
820              is not supported.  11620 was a defect in the initial
821              implementation which effectively asserted all peers had to be
822              running the correct protocol version which was fixed by always
823              NAK-ing such requests and handling any misalignments they
824              introduce.
825
826 Severity   : minor
827 Frequency  : rarely
828 Description: When kib(nal|lnd)_del_peer() is called upon a peer whose
829              ibp_tx_queue is not empty, kib(nal|lnd)_destroy_peer()'s
830              'LASSERT(list_empty(&peer->ibp_tx_queue))' will fail.
831
832 Severity   : enhancement
833 Bugzilla   : 11250
834 Description: Patchless ZC(zero copy) socklnd
835 Details    : New protocol for socklnd, socklnd can support zero copy without
836              kernel patch, it's compatible with old socklnd. Checksum is 
837              moved from tunables to modparams.
838
839 Severity   : minor
840 Frequency  : rarely
841 Description: When ksocknal_del_peer() is called upon a peer whose
842              ksnp_tx_queue is not empty, ksocknal_destroy_peer()'s
843              'LASSERT(list_empty(&peer->ksnp_tx_queue))' will fail.
844
845 Severity   : normal
846 Frequency  : when ptlrpc is under heavy use and runs out of request buffer
847 Bugzilla   : 11318
848 Description: In lnet_match_blocked_msg(), md can be used without holding a
849              ref on it.
850
851 Severity   : minor
852 Frequency  : very rarely
853 Bugzilla   : 10727
854 Description: If ksocknal_lib_setup_sock() fails, a ref on peer is lost.
855              If connd connects a route which has been closed by
856              ksocknal_shutdown(), ksocknal_create_routes() may create new
857              routes which hold references on the peer, causing shutdown
858              process to wait for peer to disappear forever.
859
860 Severity   : enhancement
861 Bugzilla   : 11234
862 Description: Dump XT3 portals traces on kptllnd timeout
863 Details    : Set the kptllnd module parameter "ptltrace_on_timeout=1" to
864              dump Cray portals debug traces to a file.  The kptllnd module
865              parameter "ptltrace_basename", default "/tmp/lnet-ptltrace",
866              is the basename of the dump file.
867
868 Severity   : major
869 Frequency  : infrequent
870 Bugzilla   : 11308
871 Description: kernel ptllnd fix bug in connection re-establishment
872 Details    : Kernel ptllnd could produce protocol errors e.g. illegal
873              matchbits and/or violate the credit flow protocol when trying
874              to re-establish a connection with a peer after an error or
875              timeout. 
876
877 Severity   : enhancement
878 Bugzilla   : 10316
879 Description: Allow /proc/sys/lnet/debug to be set symbolically
880 Details    : Allow debug and subsystem debug values to be read/set by name
881              in addition to numerically, for ease of use.
882
883 Severity   : normal
884 Frequency  : only in configurations with LNET routers
885 Bugzilla   : 10316
886 Description: routes automatically marked down and recovered
887 Details    : In configurations with LNET routers if a router fails routers
888              now actively try to recover routes that are down, unless they
889              are marked down by an administrator.
890
891 ------------------------------------------------------------------------------
892
893 2006-12-09  Cluster File Systems, Inc. <info@clusterfs.com>
894
895 Severity   : critical
896 Frequency  : very rarely, in configurations with LNET routers and TCP
897 Bugzilla   : 10889
898 Description: incorrect data written to files on OSTs
899 Details    : In certain high-load conditions incorrect data may be written
900              to files on the OST when using TCP networks.
901
902 ------------------------------------------------------------------------------
903
904 2006-07-31  Cluster File Systems, Inc. <info@clusterfs.com>
905         * version 1.4.7
906         - rework CDEBUG messages rate-limiting mechanism b=10375
907         - add per-socket tunables for socklnd if the kernel is patched b=10327
908
909 ------------------------------------------------------------------------------
910
911 2006-02-15  Cluster File Systems, Inc. <info@clusterfs.com>
912         * version 1.4.6
913         - fix use of portals/lnet pid to avoid dropping RPCs b=10074
914         - iiblnd wasn't mapping all memory, resulting in comms errors b=9776
915         - quiet LNET startup LNI message for liblustre b=10128
916         - Better console error messages if 'ip2nets' can't match an IP address
917         - Fixed overflow/use-before-set bugs in linux-time.h
918         - Fixed ptllnd bug that wasn't initialising rx descriptors completely
919         - LNET teardown failed an assertion about the route table being empty
920         - Fixed a crash in LNetEQPoll(<invalid handle>)
921         - Future protocol compatibility work (b_rls146_lnetprotovrsn)
922         - improve debug message for liblustre/Catamount nodes (b=10116)
923
924 2005-10-10  Cluster File Systems, Inc. <info@clusterfs.com>
925         * Configuration change for the XT3
926              The PTLLND is now used to run Lustre over Portals on the XT3.
927              The configure option(s) --with-cray-portals are no longer
928              used.  Rather --with-portals=<path-to-portals-includes> is
929              used to enable building on the XT3.  In addition to enable
930              XT3 specific features the option --enable-cray-xt3 must be
931              used.
932
933 2005-10-10  Cluster File Systems, Inc. <info@clusterfs.com>
934         * Portals has been removed, replaced by LNET.
935            LNET is new networking infrastructure for Lustre, it includes a
936            reorganized network configuration mode (see the user
937            documentation for full details) as well as support for routing
938            between different network fabrics.  Lustre Networking Devices
939            (LNDS) for the supported network fabrics have also been created
940            for this new infrastructure.
941
942 2005-08-08  Cluster File Systems, Inc. <info@clusterfs.com>
943        * version 1.4.4
944        * bug fixes
945
946 Severity   : major
947 Frequency  : rare (large Voltaire clusters only)
948 Bugzilla   : 6993
949 Description: the default number of reserved transmit descriptors was too low
950              for some large clusters
951 Details    : As a workaround, the number was increased.  A proper fix includes
952              a run-time tunable.
953
954 2005-06-02  Cluster File Systems, Inc. <info@clusterfs.com>
955        * version 1.4.3
956        * bug fixes
957
958 Severity   : major
959 Frequency  : occasional (large-scale events, cluster reboot, network failure)
960 Bugzilla   : 6411
961 Description: too many error messages on console obscure actual problem and
962              can slow down/panic server, or cause recovery to fail repeatedly
963 Details    : enable rate-limiting of console error messages, and some messages
964              that were console errors now only go to the kernel log
965
966 Severity   : enhancement
967 Bugzilla   : 1693
968 Description: add /proc/sys/portals/catastrophe entry which will report if
969              that node has previously LBUGged
970
971 2005-04-06  Cluster File Systems, Inc. <info@clusterfs.com>
972        * bugs
973         - update gmnal to use PTL_MTU, fix module refcounting (b=5786)
974
975 2005-04-04  Cluster File Systems, Inc. <info@clusterfs.com>
976        * bugs
977         - handle error return code in kranal_check_fma_rx() (5915,6054)
978
979 2005-02-04  Cluster File Systems, Inc. <info@clusterfs.com>
980        * miscellania
981         - update vibnal (Voltaire IB NAL)
982         - update gmnal (Myrinet NAL), gmnalid
983
984 2005-02-04  Eric Barton  <eeb@bartonsoftware.com>
985
986         * Landed portals:b_port_step as follows...
987
988           - removed CFS_DECL_SPIN* 
989             just use 'spinlock_t' and initialise with spin_lock_init()
990
991           - removed CFS_DECL_MUTEX*
992             just use 'struct semaphore' and initialise with init_mutex()
993
994           - removed CFS_DECL_RWSEM*
995             just use 'struct rw_semaphore' and initialise with init_rwsem()
996
997           - renamed cfs_sleep_chan -> cfs_waitq
998                     cfs_sleep_link -> cfs_waitlink
999
1000           - fixed race in linux version of arch-independent socknal
1001             (the ENOMEM/EAGAIN decision).
1002
1003           - Didn't fix problems in Darwin version of arch-independent socknal
1004             (resetting socket callbacks, eager ack hack, ENOMEM/EAGAIN decision)
1005
1006           - removed libcfs types from non-socknal header files (only some types
1007             in the header files had been changed; the .c files hadn't been
1008             updated at all).