Whamcloud - gitweb
ddcf07073ce6dd90782c77c1c8734c4088b6a22a
[fs/lustre-release.git] / lnet / ChangeLog
1 tbd  Sun Microsystems, Inc.
2         * version 2.0.0
3         * Support for networks:
4          socklnd   - any kernel supported by Lustre,
5          qswlnd    - Qsnet kernel modules 5.20 and later,
6          openiblnd - IbGold 1.8.2,
7          o2iblnd   - OFED 1.1, 1.2.0, 1.2.5, and 1.3
8          viblnd    - Voltaire ibhost 3.4.5 and later,
9          ciblnd    - Topspin 3.2.0,
10          iiblnd    - Infiniserv 3.3 + PathBits patch,
11          gmlnd     - GM 2.1.22 and later,
12          mxlnd     - MX 1.2.1 or later,
13          ptllnd    - Portals 3.3 / UNICOS/lc 1.5.x, 2.0.x
14
15 Severity   :
16 Bugzilla   :
17 Description:
18 Details    :
19
20 Severity   : normal
21 Bugzilla   : 16034
22 Description: Change ptllnd timeout and watchdog timers
23 Details    : Add ptltrace_on_nal_failed and bump ptllnd timeout to match
24              Portals wire timeout.
25
26 Severity   : normal
27 Bugzilla   : 16186
28 Description: One down Lustre FS hangs ALL mounted Lustre filesystems
29 Details    : Shared routing enhancements - peer health detection.
30
31 Severity   : enhancement
32 Bugzilla   : 14132
33 Description: acceptor.c cleanup
34 Details    : Code duplication in acceptor.c for the cases of kernel and
35              user-space removed. User-space libcfs tcpip primitives
36              uniformed to have prototypes similar to kernel ones. Minor
37              cosmetic changes in usocklnd to use cfs_socket_t as
38              representation of socket.
39
40 Severity   : minor
41 Bugzilla   : 11245
42 Description: IB path MTU mistakenly set to 1st path MTU when ib_mtu is off
43 Details    : See comment 46 in bug 11245 for details - it's indeed a bug
44              introduced by the original 11245 fix.
45
46 Severity   : minor
47 Bugzilla   : 15984
48 Description: uptllnd credit overflow fix
49 Details    : kptl_msg_t::ptlm_credits could be overflown by uptllnd since
50              it is only a __u8.
51
52 Severity   : major
53 Bugzilla   : 14634
54 Description: socklnd protocol version 3
55 Details    : With current protocol V2, connections on router can be
56              blocked and can't receive any incoming messages when there is no
57              more router buffer, so ZC-ACK can't be handled (LNet message
58              can't be finalized) and will cause deadlock on router.
59              Protocol V3 has a dedicated connection for emergency messages
60              like ZC-ACK to router, messages on this dedicated connection
61              don't need any credit so will never be blocked. Also, V3 can send
62              keepalive ping in specified period for router healthy checking.
63
64 -------------------------------------------------------------------------------
65
66 12-31-2008  Sun Microsystems, Inc.
67         * version 1.8.0
68         * Support for networks:
69          socklnd   - any kernel supported by Lustre,
70          qswlnd    - Qsnet kernel modules 5.20 and later,
71          openiblnd - IbGold 1.8.2,
72          o2iblnd   - OFED 1.1, 1.2.0, 1.2.5, and 1.3
73          viblnd    - Voltaire ibhost 3.4.5 and later,
74          ciblnd    - Topspin 3.2.0,
75          iiblnd    - Infiniserv 3.3 + PathBits patch,
76          gmlnd     - GM 2.1.22 and later,
77          mxlnd     - MX 1.2.1 or later,
78          ptllnd    - Portals 3.3 / UNICOS/lc 1.5.x, 2.0.x
79
80 Severity   : major
81 Bugzilla   : 15983
82 Description: workaround for OOM from o2iblnd
83 Details    : OFED needs allocate big chunk of memory for QP while creating
84              connection for o2iblnd, OOM can happen if no such a contiguous
85              memory chunk.
86              QP size is decided by concurrent_sends and max_fragments of
87              o2iblnd, now we permit user to specify smaller value for
88              concurrent_sends of o2iblnd(i.e: concurrent_sends=7), which
89              will decrease memory block size required by creating QP.
90
91 Severity   : major
92 Bugzilla   : 15093
93 Description: Support Zerocopy receive of Chelsio device
94 Details    : Chelsio driver can support zerocopy for iov[1] if it's
95              contiguous and large enough.
96
97 Severity   : normal
98 Bugzilla   : 13490
99 Description: fix credit flow deadlock in uptllnd
100
101 Severity   : normal
102 Bugzilla   : 16308
103 Description: finalize network operation in reasonable time
104 Details    : conf-sanity test_32a couldn't stop ost and mds because it
105              tried to access non-existent peer and tcp connect took
106              quite long before timing out.
107
108 Severity   : major
109 Bugzilla   : 16338
110 Description: Continuous recovery on 33 of 413 nodes after lustre oss failure
111 Details    : Lost reference on conn prevents peer from being destroyed, which
112              could prevent new peer creation if peer count has reached upper
113              limit.
114
115 Severity   : normal
116 Bugzilla   : 16102
117 Description: LNET Selftest results in Soft lockup on OSS CPU
118 Details    : only hits when 8 or more o2ib clients involved and a session is
119              torn down with 'lst end_session' without preceeding 'lst stop'.
120
121 Severity   : minor
122 Bugzilla   : 16321
123 Description: concurrent_sends in IB LNDs should not be changeable at run time
124 Details    : concurrent_sends in IB LNDs should not be changeable at run time
125
126 Severity   : normal
127 Bugzilla   : 15272
128 Description: ptl_send_rpc hits LASSERT when ptl_send_buf fails
129 Details    : only hits under out-of-memory situations
130
131
132 -------------------------------------------------------------------------------
133
134 2009-02-07 Sun Microsystems, Inc.
135         * version 1.6.7
136         * Support for networks:
137          socklnd   - any kernel supported by Lustre,
138          qswlnd    - Qsnet kernel modules 5.20 and later,
139          openiblnd - IbGold 1.8.2,
140          o2iblnd   - OFED 1.1, 1.2.0, 1.2.5, and 1.3
141          viblnd    - Voltaire ibhost 3.4.5 and later,
142          ciblnd    - Topspin 3.2.0,
143          iiblnd    - Infiniserv 3.3 + PathBits patch,
144          gmlnd     - GM 2.1.22 and later,
145          mxlnd     - MX 1.2.1 or later,
146          ptllnd    - Portals 3.3 / UNICOS/lc 1.5.x, 2.0.x
147 Severity   : major
148 Bugzilla   : 15983
149 Description: workaround for OOM from o2iblnd
150 Details    : OFED needs allocate big chunk of memory for QP while creating
151              connection for o2iblnd, OOM can happen if no such a contiguous
152              memory chunk.
153              QP size is decided by concurrent_sends and max_fragments of
154              o2iblnd, now we permit user to specify smaller value for
155              concurrent_sends of o2iblnd(i.e: concurrent_sends=7), which
156              will decrease memory block size required by creating QP.
157
158 Severity   : major
159 Bugzilla   : 15093
160 Description: Support Zerocopy receive of Chelsio device
161 Details    : Chelsio driver can support zerocopy for iov[1] if it's
162              contiguous and large enough.
163 Severity   : normal
164 Bugzilla   : 13490
165 Description: fix credit flow deadlock in uptllnd
166
167 Severity   : normal
168 Bugzilla   : 16308
169 Description: finalize network operation in reasonable time
170 Details    : conf-sanity test_32a couldn't stop ost and mds because it
171              tried to access non-existent peer and tcp connect took
172              quite long before timing out.
173
174 Severity   : major
175 Bugzilla   : 16338
176 Description: Continuous recovery on 33 of 413 nodes after lustre oss failure
177 Details    : Lost reference on conn prevents peer from being destroyed, which
178              could prevent new peer creation if peer count has reached upper
179              limit.
180
181 Severity   : normal
182 Bugzilla   : 16102
183 Description: LNET Selftest results in Soft lockup on OSS CPU
184 Details    : only hits when 8 or more o2ib clients involved and a session is
185              torn down with 'lst end_session' without preceeding 'lst stop'.
186
187 Severity   : minor
188 Bugzilla   : 16321
189 Description: concurrent_sends in IB LNDs should not be changeable at run time
190 Details    : concurrent_sends in IB LNDs should not be changeable at run time
191
192 -------------------------------------------------------------------------------
193
194 11-03-2008  Sun Microsystems, Inc.
195         * version 1.6.6
196         * Support for networks:
197          socklnd   - any kernel supported by Lustre,
198          qswlnd    - Qsnet kernel modules 5.20 and later,
199          openiblnd - IbGold 1.8.2,
200          o2iblnd   - OFED 1.1, 1.2.0, 1.2.5, and 1.3
201          viblnd    - Voltaire ibhost 3.4.5 and later,
202          ciblnd    - Topspin 3.2.0,
203          iiblnd    - Infiniserv 3.3 + PathBits patch,
204          gmlnd     - GM 2.1.22 and later,
205          mxlnd     - MX 1.2.1 or later,
206          ptllnd    - Portals 3.3 / UNICOS/lc 1.5.x, 2.0.x
207
208 Severity   : normal
209 Bugzilla   : 15272
210 Description: ptl_send_rpc hits LASSERT when ptl_send_buf fails
211 Details    : only hits under out-of-memory situations
212
213 -------------------------------------------------------------------------------
214
215 04-26-2008  Sun Microsystems, Inc.
216        * version 1.6.5
217        * Support for networks:
218         socklnd   - any kernel supported by Lustre,
219         qswlnd    - Qsnet kernel modules 5.20 and later,
220         openiblnd - IbGold 1.8.2,
221         o2iblnd   - OFED 1.1 and 1.2.0, 1.2.5
222         viblnd    - Voltaire ibhost 3.4.5 and later,
223         ciblnd    - Topspin 3.2.0,
224         iiblnd    - Infiniserv 3.3 + PathBits patch,
225         gmlnd     - GM 2.1.22 and later,
226         mxlnd     - MX 1.2.1 or later,
227         ptllnd    - Portals 3.3 / UNICOS/lc 1.5.x, 2.0.x
228
229 Severity   : normal
230 Bugzilla   : 14322
231 Description: excessive debug information removed
232 Details    : excessive debug information removed
233
234 Severity   : major
235 Bugzilla   : 15712
236 Description: ksocknal_create_conn() hit ASSERTION during connection race
237 Details    : ksocknal_create_conn() hit ASSERTION during connection race
238
239 Severity   : major
240 Bugzilla   : 13983
241 Description: ksocknal_send_hello() hit ASSERTION while connecting race
242 Details    : ksocknal_send_hello() hit ASSERTION while connecting race
243
244 Severity   : major
245 Bugzilla   : 14425
246 Description: o2iblnd/ptllnd credit deadlock in a routed config.
247 Details    : o2iblnd/ptllnd credit deadlock in a routed config.
248
249 Severity   : normal
250 Bugzilla   : 14956
251 Description: High load after starting lnet
252 Details    : gmlnd should sleep in rx thread in interruptible way. Otherwise,
253              uptime utility reports high load that looks confusingly.
254
255 Severity   : normal
256 Bugzilla   : 14838
257 Description: ksocklnd fails to establish connection if accept_port is high
258 Details    : PID remapping must not be done for active (outgoing) connections
259
260
261 --------------------------------------------------------------------------------
262
263 2008-01-11  Sun Microsystems, Inc.
264        * version 1.4.12
265        * Support for networks:
266         socklnd   - any kernel supported by Lustre,
267         qswlnd    - Qsnet kernel modules 5.20 and later,
268         openiblnd - IbGold 1.8.2,
269         o2iblnd   - OFED 1.1 and 1.2.0, 1.2.5
270         viblnd    - Voltaire ibhost 3.4.5 and later,
271         ciblnd    - Topspin 3.2.0,
272         iiblnd    - Infiniserv 3.3 + PathBits patch,
273         gmlnd     - GM 2.1.22 and later,
274         mxlnd     - MX 1.2.1 or later,
275         ptllnd    - Portals 3.3 / UNICOS/lc 1.5.x, 2.0.x
276
277 Severity   : normal
278 Bugzilla   : 14387
279 Description: liblustre network error
280 Details    : liblustre clients should understand LNET_ACCEPT_PORT environment
281              variable even if they don't start lnet acceptor.
282
283 Severity   : normal
284 Bugzilla   : 14300
285 Description: Strange message from lnet (Ignoring prediction from the future)
286 Details    : Incorrect calculation of peer's last_alive value in ksocklnd
287
288 --------------------------------------------------------------------------------
289
290 2007-12-07         Cluster File Systems, Inc. <info@clusterfs.com>
291        * version 1.6.4
292        * Support for networks:
293         socklnd   - any kernel supported by Lustre,
294         qswlnd    - Qsnet kernel modules 5.20 and later,
295         openiblnd - IbGold 1.8.2,
296         o2iblnd   - OFED 1.1 and 1.2.0, 1.2.5.
297         viblnd    - Voltaire ibhost 3.4.5 and later,
298         ciblnd    - Topspin 3.2.0,
299         iiblnd    - Infiniserv 3.3 + PathBits patch,
300         gmlnd     - GM 2.1.22 and later,
301         mxlnd     - MX 1.2.1 or later,
302         ptllnd    - Portals 3.3 / UNICOS/lc 1.5.x, 2.0.x
303
304 Severity   : normal
305 Bugzilla   : 14238
306 Description: ASSERTION(me == md->md_me) failed in lnet_match_md()
307
308 Severity   : normal
309 Bugzilla   : 12494
310 Description: increase send queue size for ciblnd/openiblnd
311
312 Severity   : normal
313 Bugzilla   : 12302
314 Description: new userspace socklnd
315 Details    : Old userspace tcpnal that resided in lnet/ulnds/socklnd replaced
316              with new one - usocklnd.
317
318 Severity   : enhancement
319 Bugzilla   : 11686
320 Description: Console message flood
321 Details    : Make cdls ratelimiting more tunable by adding several tunable in
322              procfs /proc/sys/lnet/console_{min,max}_delay_centisecs and
323              /proc/sys/lnet/console_backoff.
324
325 --------------------------------------------------------------------------------
326
327 2007-09-27         Cluster File Systems, Inc. <info@clusterfs.com>
328        * version 1.6.3
329        * Support for networks:
330         socklnd   - any kernel supported by Lustre,
331         qswlnd    - Qsnet kernel modules 5.20 and later,
332         openiblnd - IbGold 1.8.2,
333         o2iblnd   - OFED 1.1 and 1.2,
334         viblnd    - Voltaire ibhost 3.4.5 and later,
335         ciblnd    - Topspin 3.2.0,
336         iiblnd    - Infiniserv 3.3 + PathBits patch,
337         gmlnd     - GM 2.1.22 and later,
338         mxlnd     - MX 1.2.1 or later,
339         ptllnd    - Portals 3.3 / UNICOS/lc 1.5.x, 2.0.x
340
341 Severity   : normal
342 Bugzilla   : 12782
343 Description: /proc/sys/lnet has non-sysctl entries
344 Details    : Updating dump_kernel/daemon_file/debug_mb to use sysctl variables
345
346 Severity   : major
347 Bugzilla   : 13236
348 Description: TOE Kernel panic by ksocklnd
349 Details    : offloaded sockets provide their own implementation of sendpage,
350              can't call tcp_sendpage() directly
351
352 Severity   : normal
353 Bugzilla   : 10778
354 Description: kibnal_shutdown() doesn't finish; lconf --cleanup hangs
355 Details    : races between lnd_shutdown and peer creation prevent 
356              lnd_shutdown from finishing.
357
358 Severity   : normal
359 Bugzilla   : 13279
360 Description: open files rlimit 1024 reached while liblustre testing
361 Details    : ulnds/socklnd must close open socket after unsuccessful
362              'say hello' attempt.
363
364 Severity   : major 
365 Bugzilla   : 13482
366 Description: build error
367 Details    : fix typos in gmlnd, ptllnd and viblnd
368
369 --------------------------------------------------------------------------------
370
371 2007-07-30  Cluster File Systems, Inc. <info@clusterfs.com>
372        * version 1.6.1
373        * Support for networks:
374         socklnd   - kernels up to 2.6.16,
375         qswlnd    - Qsnet kernel modules 5.20 and later,
376         openiblnd - IbGold 1.8.2,
377         o2iblnd   - OFED 1.1 and 1.2
378         viblnd    - Voltaire ibhost 3.4.5 and later,
379         ciblnd    - Topspin 3.2.0,
380         iiblnd    - Infiniserv 3.3 + PathBits patch,
381         gmlnd     - GM 2.1.22 and later,
382         mxlnd     - MX 1.2.1 or later,
383         ptllnd    - Portals 3.3 / UNICOS/lc 1.5.x, 2.0.x
384
385 --------------------------------------------------------------------------------
386
387 2007-06-21  Cluster File Systems, Inc. <info@clusterfs.com>
388        * version 1.4.11
389        * Support for networks:
390         socklnd   - kernels up to 2.6.16,
391         qswlnd    - Qsnet kernel modules 5.20 and later,
392         openiblnd - IbGold 1.8.2,
393         o2iblnd   - OFED 1.1
394         viblnd    - Voltaire ibhost 3.4.5 and later,
395         ciblnd    - Topspin 3.2.0,
396         iiblnd    - Infiniserv 3.3 + PathBits patch,
397         gmlnd     - GM 2.1.22 and later,
398         mxlnd     - MX 1.2.1 or later,
399         ptllnd    - Portals 3.3 / UNICOS/lc 1.5.x, 2.0.x
400
401 Severity   : minor
402 Bugzilla   : 13288
403 Description: Initialize cpumask before use
404
405 Severity   : major
406 Bugzilla   : 12014
407 Description: ASSERTION failures when upgrading to the patchless zero-copy
408              socklnd 
409 Details    : This bug affects "rolling upgrades", causing an inconsistent
410              protocol version negotiation and subsequent assertion failure
411              during rolling upgrades after the first wave of upgrades.
412
413 Severity   : minor
414 Bugzilla   : 11223
415 Details    : Change "dropped message" CERRORs to D_NETERROR so they are
416              logged instead of creating "console chatter" when a lustre
417              timeout races with normal RPC completion.
418
419 Severity   : minor
420 Details    : lnet_clear_peer_table can wait forever if user forgets to
421              clear a lazy portal.
422
423 Severity   : minor
424 Details    : libcfs_id2str should check pid against LNET_PID_ANY.
425
426 Severity   : major
427 Bugzilla   : 10916
428 Description: added LNET self test
429 Details    : landing b_self_test
430
431 Severity   : minor
432 Frequency  : rare
433 Bugzilla   : 12227
434 Description: cfs_duration_{u,n}sec() wrongly calculate nanosecond part of
435              struct timeval.
436 Details    : do_div() macro is used incorrectly.
437
438 2007-04-23  Cluster File Systems, Inc. <info@clusterfs.com>
439
440 Severity   : normal
441 Bugzilla   : 11680
442 Description: make panic on lbug configurable
443
444 Severity   : major
445 Bugzilla   : 12316
446 Description: Add OFED1.2 support to o2iblnd
447 Details    : o2iblnd depends on OFED's modules, if out-tree OFED's modules
448              are installed (other than kernel's in-tree infiniband), there
449              could be some problem while insmod o2iblnd (mismatch CRC of 
450              ib_* symbols).
451              If extra Module.symvers is supported in kernel (i.e, 2.6.17),
452              this link provides solution:
453              https://bugs.openfabrics.org/show_bug.cgi?id=355
454              if extra Module.symvers is not supported in kernel, we will
455              have to run the script in bug 12316 to update
456              $LINUX/module.symvers before building o2iblnd.
457              More details about this are in bug 12316.
458
459 ------------------------------------------------------------------------------
460
461 2007-04-01  Cluster File Systems, Inc. <info@clusterfs.com>
462        * version 1.4.10 / 1.6.0
463        * Support for networks:
464         socklnd   - kernels up to 2.6.16,
465         qswlnd    - Qsnet kernel modules 5.20 and later,
466         openiblnd - IbGold 1.8.2,
467         o2iblnd   - OFED 1.1,
468         viblnd    - Voltaire ibhost 3.4.5 and later,
469         ciblnd    - Topspin 3.2.0,
470         iiblnd    - Infiniserv 3.3 + PathBits patch,
471         gmlnd     - GM 2.1.22 and later,
472         mxlnd     - MX 1.2.1 or later,
473         ptllnd    - Portals 3.3 / UNICOS/lc 1.5.x, 2.0.x
474         
475 Severity   : minor
476 Frequency  : rare
477 Description: Ptllnd didn't init kptllnd_data.kptl_idle_txs before it could be
478              possibly accessed in kptllnd_shutdown. Ptllnd should init 
479              kptllnd_data.kptl_ptlid2str_lock before calling kptllnd_ptlid2str.
480
481 Severity   : normal
482 Frequency  : rare
483 Description: gmlnd ignored some transmit errors when finalizing lnet messages.
484
485 Severity   : minor
486 Frequency  : rare
487 Description: ptllnd logs a piece of incorrect debug info in kptllnd_peer_handle_hello.
488
489 Severity   : minor
490 Frequency  : rare
491 Description: the_lnet.ln_finalizing was not set when the current thread is
492              about to complete messages. It only affects multi-threaded 
493              user space LNet.
494         
495 Severity   : normal
496 Frequency  : rare
497 Bugzilla   : 11472
498 Description: Changed the default kqswlnd ntxmsg=512
499         
500 Severity   : major
501 Frequency  : rare
502 Bugzilla   : 12458
503 Description: Assertion failure in kernel ptllnd caused by posting passive
504              bulk buffers before connection establishment complete.
505         
506 Severity   : major
507 Frequency  : rare
508 Bugzilla   : 12445
509 Description: A race in kernel ptllnd between deleting a peer and posting
510              new communications for it could hang communications -
511              manifesting as "Unexpectedly long timeout" messages.
512         
513 Severity   : major
514 Frequency  : rare
515 Bugzilla   : 12432
516 Description: Kernel ptllnd lock ordering issue could hang a node.
517         
518 Severity   : major
519 Frequency  : rare
520 Bugzilla   : 12016
521 Description: node crash on socket teardown race
522
523 Severity   : minor
524 Frequency  : 'lctl peer_list' issued on a mx net
525 Bugzilla   : 12237
526 Description: Enable lctl's peer_list for MXLND
527
528 Severity   : major
529 Frequency  : after Ptllnd timeouts and portals congestion
530 Bugzilla   : 11659
531 Description: Credit overflows
532 Details    : This was a bug in ptllnd connection establishment.  The fix
533              implements better peer stamps to disambiguate connection
534              establishment and ensure both peers enter the credit flow
535              state machine consistently.
536
537 Severity   : major
538 Frequency  : rare       
539 Bugzilla   : 11394
540 Description: kptllnd didn't propagate some network errors up to LNET 
541 Details    : This bug was spotted while investigating 11394.  The fix
542              ensures network errors on sends and bulk transfers are
543              propagated to LNET/lustre correctly.
544
545 Severity   : enhancement
546 Bugzilla   : 10316
547 Description: Fixed console chatter in case of -ETIMEDOUT.
548
549 Severity   : enhancement
550 Bugzilla   : 11684
551 Description: Added D_NETTRACE for recording network packet history
552              (initially only for ptllnd).  Also a separate userspace
553              ptllnd facility to gather history which should really be
554              covered by D_NETTRACE too, if only CDEBUG recorded history in
555              userspace.
556
557 Severity   : major
558 Frequency  : rare       
559 Bugzilla   : 11616
560 Description: o2iblnd handle early RDMA_CM_EVENT_DISCONNECTED.
561 Details    : If the fabric is lossy, an RDMA_CM_EVENT_DISCONNECTED
562              callback can occur before a connection has actually been
563              established.  This caused an assertion failure previously.
564
565 Severity   : enhancement
566 Bugzilla   : 11094
567 Description: Multiple instances for o2iblnd
568 Details    : Allow multiple instances of o2iblnd to enable networking over
569              multiple HCAs and routing between them.
570
571 Severity   : major
572 Bugzilla   : 11201
573 Description: lnet deadlock in router_checker
574 Details    : turned ksnd_connd_lock, ksnd_reaper_lock, and ksock_net_t:ksnd_lock
575              into BH locks to eliminate potential deadlock caused by
576              ksocknal_data_ready() preempting code holding these locks.
577
578 Severity   : major
579 Bugzilla   : 11126
580 Description: Millions of failed socklnd connection attempts cause a very slow FS
581 Details    : added a new route flag ksnr_scheduled to distinguish from
582              ksnr_connecting, so that a peer connection request is only turned
583              down for race concerns when an active connection to the same peer
584              is under progress (instead of just being scheduled).
585
586 ------------------------------------------------------------------------------
587
588 2007-02-09  Cluster File Systems, Inc. <info@clusterfs.com>
589        * version 1.4.9
590        * Support for networks:
591         socklnd   - kernels up to 2.6.16
592         qswlnd    - Qsnet kernel modules 5.20 and later
593         openiblnd - IbGold 1.8.2
594         o2iblnd   - OFED 1.1
595         viblnd    - Voltaire ibhost 3.4.5 and later
596         ciblnd    - Topspin 3.2.0
597         iiblnd    - Infiniserv 3.3 + PathBits patch
598         gmlnd     - GM 2.1.22 and later
599         mxlnd     - MX 1.2.1 or later
600         ptllnd    - Portals 3.3 / UNICOS/lc 1.5.x, 2.0.x
601        * bug fixes
602
603 Severity   : major on XT3
604 Bugzilla   : none
605 Description: libcfs overwrites /proc/sys/portals
606 Details    : libcfs created a symlink from /proc/sys/portals to
607              /proc/sys/lnet for backwards compatibility.  This is no
608              longer required and makes the Cray portals /proc variables
609              inaccessible.
610
611 Severity   : minor
612 Bugzilla   : 11312
613 Description: OFED FMR API change
614 Details    : This changes parameter usage to reflect a change in
615              ib_fmr_pool_map_phys() between OFED 1.0 and OFED 1.1.  Note
616              that FMR support is only used in experimental versions of the
617              o2iblnd - this change does not affect standard usage at all.
618
619 Severity   : enhancement
620 Bugzilla   : 11245
621 Description: new ko2iblnd module parameter: ib_mtu
622 Details    : the default IB MTU of 2048 performs badly on 23108 Tavor
623              HCAs.  You can avoid this problem by setting the MTU to 1024
624              using this module parameter.
625
626 Severity   : enhancement
627 Bugzilla   : 11118/11620
628 Description: ptllnd small request message buffer alignment fix
629 Details    : Set the PTL_MD_LOCAL_ALIGN8 option on small message receives.
630              Round up small message size on sends in case this option
631              is not supported.  11620 was a defect in the initial
632              implementation which effectively asserted all peers had to be
633              running the correct protocol version which was fixed by always
634              NAK-ing such requests and handling any misalignments they
635              introduce.
636
637 Severity   : minor
638 Frequency  : rarely
639 Description: When kib(nal|lnd)_del_peer() is called upon a peer whose
640              ibp_tx_queue is not empty, kib(nal|lnd)_destroy_peer()'s
641              'LASSERT(list_empty(&peer->ibp_tx_queue))' will fail.
642
643 Severity   : enhancement
644 Bugzilla   : 11250
645 Description: Patchless ZC(zero copy) socklnd
646 Details    : New protocol for socklnd, socklnd can support zero copy without
647              kernel patch, it's compatible with old socklnd. Checksum is 
648              moved from tunables to modparams.
649
650 Severity   : minor
651 Frequency  : rarely
652 Description: When ksocknal_del_peer() is called upon a peer whose
653              ksnp_tx_queue is not empty, ksocknal_destroy_peer()'s
654              'LASSERT(list_empty(&peer->ksnp_tx_queue))' will fail.
655
656 Severity   : normal
657 Frequency  : when ptlrpc is under heavy use and runs out of request buffer
658 Bugzilla   : 11318
659 Description: In lnet_match_blocked_msg(), md can be used without holding a
660              ref on it.
661
662 Severity   : minor
663 Frequency  : very rarely
664 Bugzilla   : 10727
665 Description: If ksocknal_lib_setup_sock() fails, a ref on peer is lost.
666              If connd connects a route which has been closed by
667              ksocknal_shutdown(), ksocknal_create_routes() may create new
668              routes which hold references on the peer, causing shutdown
669              process to wait for peer to disappear forever.
670
671 Severity   : enhancement
672 Bugzilla   : 11234
673 Description: Dump XT3 portals traces on kptllnd timeout
674 Details    : Set the kptllnd module parameter "ptltrace_on_timeout=1" to
675              dump Cray portals debug traces to a file.  The kptllnd module
676              parameter "ptltrace_basename", default "/tmp/lnet-ptltrace",
677              is the basename of the dump file.
678
679 Severity   : major
680 Frequency  : infrequent
681 Bugzilla   : 11308
682 Description: kernel ptllnd fix bug in connection re-establishment
683 Details    : Kernel ptllnd could produce protocol errors e.g. illegal
684              matchbits and/or violate the credit flow protocol when trying
685              to re-establish a connection with a peer after an error or
686              timeout. 
687
688 Severity   : enhancement
689 Bugzilla   : 10316
690 Description: Allow /proc/sys/lnet/debug to be set symbolically
691 Details    : Allow debug and subsystem debug values to be read/set by name
692              in addition to numerically, for ease of use.
693
694 Severity   : normal
695 Frequency  : only in configurations with LNET routers
696 Bugzilla   : 10316
697 Description: routes automatically marked down and recovered
698 Details    : In configurations with LNET routers if a router fails routers
699              now actively try to recover routes that are down, unless they
700              are marked down by an administrator.
701
702 ------------------------------------------------------------------------------
703
704 2006-12-09  Cluster File Systems, Inc. <info@clusterfs.com>
705
706 Severity   : critical
707 Frequency  : very rarely, in configurations with LNET routers and TCP
708 Bugzilla   : 10889
709 Description: incorrect data written to files on OSTs
710 Details    : In certain high-load conditions incorrect data may be written
711              to files on the OST when using TCP networks.
712
713 ------------------------------------------------------------------------------
714
715 2006-07-31  Cluster File Systems, Inc. <info@clusterfs.com>
716         * version 1.4.7
717         - rework CDEBUG messages rate-limiting mechanism b=10375
718         - add per-socket tunables for socklnd if the kernel is patched b=10327
719
720 ------------------------------------------------------------------------------
721
722 2006-02-15  Cluster File Systems, Inc. <info@clusterfs.com>
723         * version 1.4.6
724         - fix use of portals/lnet pid to avoid dropping RPCs b=10074
725         - iiblnd wasn't mapping all memory, resulting in comms errors b=9776
726         - quiet LNET startup LNI message for liblustre b=10128
727         - Better console error messages if 'ip2nets' can't match an IP address
728         - Fixed overflow/use-before-set bugs in linux-time.h
729         - Fixed ptllnd bug that wasn't initialising rx descriptors completely
730         - LNET teardown failed an assertion about the route table being empty
731         - Fixed a crash in LNetEQPoll(<invalid handle>)
732         - Future protocol compatibility work (b_rls146_lnetprotovrsn)
733         - improve debug message for liblustre/Catamount nodes (b=10116)
734
735 2005-10-10  Cluster File Systems, Inc. <info@clusterfs.com>
736         * Configuration change for the XT3
737              The PTLLND is now used to run Lustre over Portals on the XT3.
738              The configure option(s) --with-cray-portals are no longer
739              used.  Rather --with-portals=<path-to-portals-includes> is
740              used to enable building on the XT3.  In addition to enable
741              XT3 specific features the option --enable-cray-xt3 must be
742              used.
743
744 2005-10-10  Cluster File Systems, Inc. <info@clusterfs.com>
745         * Portals has been removed, replaced by LNET.
746            LNET is new networking infrastructure for Lustre, it includes a
747            reorganized network configuration mode (see the user
748            documentation for full details) as well as support for routing
749            between different network fabrics.  Lustre Networking Devices
750            (LNDS) for the supported network fabrics have also been created
751            for this new infrastructure.
752
753 2005-08-08  Cluster File Systems, Inc. <info@clusterfs.com>
754        * version 1.4.4
755        * bug fixes
756
757 Severity   : major
758 Frequency  : rare (large Voltaire clusters only)
759 Bugzilla   : 6993
760 Description: the default number of reserved transmit descriptors was too low
761              for some large clusters
762 Details    : As a workaround, the number was increased.  A proper fix includes
763              a run-time tunable.
764
765 2005-06-02  Cluster File Systems, Inc. <info@clusterfs.com>
766        * version 1.4.3
767        * bug fixes
768
769 Severity   : major
770 Frequency  : occasional (large-scale events, cluster reboot, network failure)
771 Bugzilla   : 6411
772 Description: too many error messages on console obscure actual problem and
773              can slow down/panic server, or cause recovery to fail repeatedly
774 Details    : enable rate-limiting of console error messages, and some messages
775              that were console errors now only go to the kernel log
776
777 Severity   : enhancement
778 Bugzilla   : 1693
779 Description: add /proc/sys/portals/catastrophe entry which will report if
780              that node has previously LBUGged
781
782 2005-04-06  Cluster File Systems, Inc. <info@clusterfs.com>
783        * bugs
784         - update gmnal to use PTL_MTU, fix module refcounting (b=5786)
785
786 2005-04-04  Cluster File Systems, Inc. <info@clusterfs.com>
787        * bugs
788         - handle error return code in kranal_check_fma_rx() (5915,6054)
789
790 2005-02-04  Cluster File Systems, Inc. <info@clusterfs.com>
791        * miscellania
792         - update vibnal (Voltaire IB NAL)
793         - update gmnal (Myrinet NAL), gmnalid
794
795 2005-02-04  Eric Barton  <eeb@bartonsoftware.com>
796
797         * Landed portals:b_port_step as follows...
798
799           - removed CFS_DECL_SPIN* 
800             just use 'spinlock_t' and initialise with spin_lock_init()
801
802           - removed CFS_DECL_MUTEX*
803             just use 'struct semaphore' and initialise with init_mutex()
804
805           - removed CFS_DECL_RWSEM*
806             just use 'struct rw_semaphore' and initialise with init_rwsem()
807
808           - renamed cfs_sleep_chan -> cfs_waitq
809                     cfs_sleep_link -> cfs_waitlink
810
811           - fixed race in linux version of arch-independent socknal
812             (the ENOMEM/EAGAIN decision).
813
814           - Didn't fix problems in Darwin version of arch-independent socknal
815             (resetting socket callbacks, eager ack hack, ENOMEM/EAGAIN decision)
816
817           - removed libcfs types from non-socknal header files (only some types
818             in the header files had been changed; the .c files hadn't been
819             updated at all).