Whamcloud - gitweb
sync previous release entries (1.6.6, 1.6.7, 1.8.0, & 1.8.1) into the file.
[fs/lustre-release.git] / lnet / ChangeLog
1 tbd  Sun Microsystems, Inc.
2         * version 1.8.1
3         * Support for networks:
4          socklnd   - any kernel supported by Lustre,
5          qswlnd    - Qsnet kernel modules 5.20 and later,
6          openiblnd - IbGold 1.8.2,
7          o2iblnd   - OFED 1.1, 1.2.0, 1.2.5, and 1.3
8          viblnd    - Voltaire ibhost 3.4.5 and later,
9          ciblnd    - Topspin 3.2.0,
10          iiblnd    - Infiniserv 3.3 + PathBits patch,
11          gmlnd     - GM 2.1.22 and later,
12          mxlnd     - MX 1.2.1 or later,
13          ptllnd    - Portals 3.3 / UNICOS/lc 1.5.x, 2.0.x
14
15 Severity   :
16 Bugzilla   :
17 Description:
18 Details    :
19
20 Severity   : minor
21 Bugzilla   : 11245
22 Description: IB path MTU mistakenly set to 1st path MTU when ib_mtu is off
23 Details    : See comment 46 in bug 11245 for details - it's indeed a bug
24              introduced by the original 11245 fix.
25
26 Severity   : minor
27 Bugzilla   : 15984
28 Description: uptllnd credit overflow fix
29 Details    : kptl_msg_t::ptlm_credits could be overflown by uptllnd since
30              it is only a __u8.
31
32 Severity   : major
33 Bugzilla   : 14634
34 Description: socklnd prtocol version 3
35 Details    : With current protocol V2, connections on router can be
36              blocked and can't receive any incoming messages when there is no
37              more router buffer, so ZC-ACK can't be handled (LNet message
38              can't be finalized) and will cause deadlock on router.
39              Protocol V3 has a dedicated connection for emergency messages
40              like ZC-ACK to router, messages on this dedicated connection
41              don't need any credit so will never be blocked. Also, V3 can send
42              keepalive ping in specified period for router healthy checking.
43
44 -------------------------------------------------------------------------------
45
46 12-31-2008  Sun Microsystems, Inc.
47         * version 1.8.0
48         * Support for networks:
49          socklnd   - any kernel supported by Lustre,
50          qswlnd    - Qsnet kernel modules 5.20 and later,
51          openiblnd - IbGold 1.8.2,
52          o2iblnd   - OFED 1.1, 1.2.0, 1.2.5, and 1.3
53          viblnd    - Voltaire ibhost 3.4.5 and later,
54          ciblnd    - Topspin 3.2.0,
55          iiblnd    - Infiniserv 3.3 + PathBits patch,
56          gmlnd     - GM 2.1.22 and later,
57          mxlnd     - MX 1.2.1 or later,
58          ptllnd    - Portals 3.3 / UNICOS/lc 1.5.x, 2.0.x
59
60 Severity   : major
61 Bugzilla   : 15983
62 Description: workaround for OOM from o2iblnd
63 Details    : OFED needs allocate big chunk of memory for QP while creating
64              connection for o2iblnd, OOM can happen if no such a contiguous
65              memory chunk.
66              QP size is decided by concurrent_sends and max_fragments of
67              o2iblnd, now we permit user to specify smaller value for
68              concurrent_sends of o2iblnd(i.e: concurrent_sends=7), which
69              will decrease memory block size required by creating QP.
70
71 Severity   : major
72 Bugzilla   : 15093
73 Description: Support Zerocopy receive of Chelsio device
74 Details    : Chelsio driver can support zerocopy for iov[1] if it's
75              contiguous and large enough.
76
77 Severity   : normal
78 Bugzilla   : 13490
79 Description: fix credit flow deadlock in uptllnd
80
81 Severity   : normal
82 Bugzilla   : 16308
83 Description: finalize network operation in reasonable time
84 Details    : conf-sanity test_32a couldn't stop ost and mds because it
85              tried to access non-existent peer and tcp connect took
86              quite long before timing out.
87
88 Severity   : major
89 Bugzilla   : 16338
90 Description: Continuous recovery on 33 of 413 nodes after lustre oss failure
91 Details    : Lost reference on conn prevents peer from being destroyed, which
92              could prevent new peer creation if peer count has reached upper
93              limit.
94
95 Severity   : normal
96 Bugzilla   : 16102
97 Description: LNET Selftest results in Soft lockup on OSS CPU
98 Details    : only hits when 8 or more o2ib clients involved and a session is
99              torn down with 'lst end_session' without preceeding 'lst stop'.
100
101 Severity   : minor
102 Bugzilla   : 16321
103 Description: concurrent_sends in IB LNDs should not be changeable at run time
104 Details    : concurrent_sends in IB LNDs should not be changeable at run time
105
106 Severity   : normal
107 Bugzilla   : 15272
108 Description: ptl_send_rpc hits LASSERT when ptl_send_buf fails
109 Details    : only hits under out-of-memory situations
110
111
112 -------------------------------------------------------------------------------
113
114 2009-02-07 Sun Microsystems, Inc.
115         * version 1.6.7
116         * Support for networks:
117          socklnd   - any kernel supported by Lustre,
118          qswlnd    - Qsnet kernel modules 5.20 and later,
119          openiblnd - IbGold 1.8.2,
120          o2iblnd   - OFED 1.1, 1.2.0, 1.2.5, and 1.3
121          viblnd    - Voltaire ibhost 3.4.5 and later,
122          ciblnd    - Topspin 3.2.0,
123          iiblnd    - Infiniserv 3.3 + PathBits patch,
124          gmlnd     - GM 2.1.22 and later,
125          mxlnd     - MX 1.2.1 or later,
126          ptllnd    - Portals 3.3 / UNICOS/lc 1.5.x, 2.0.x
127 Severity   : major
128 Bugzilla   : 15983
129 Description: workaround for OOM from o2iblnd
130 Details    : OFED needs allocate big chunk of memory for QP while creating
131              connection for o2iblnd, OOM can happen if no such a contiguous
132              memory chunk.
133              QP size is decided by concurrent_sends and max_fragments of
134              o2iblnd, now we permit user to specify smaller value for
135              concurrent_sends of o2iblnd(i.e: concurrent_sends=7), which
136              will decrease memory block size required by creating QP.
137
138 Severity   : major
139 Bugzilla   : 15093
140 Description: Support Zerocopy receive of Chelsio device
141 Details    : Chelsio driver can support zerocopy for iov[1] if it's
142              contiguous and large enough.
143 Severity   : normal
144 Bugzilla   : 13490
145 Description: fix credit flow deadlock in uptllnd
146
147 Severity   : normal
148 Bugzilla   : 16308
149 Description: finalize network operation in reasonable time
150 Details    : conf-sanity test_32a couldn't stop ost and mds because it
151              tried to access non-existent peer and tcp connect took
152              quite long before timing out.
153
154 Severity   : major
155 Bugzilla   : 16338
156 Description: Continuous recovery on 33 of 413 nodes after lustre oss failure
157 Details    : Lost reference on conn prevents peer from being destroyed, which
158              could prevent new peer creation if peer count has reached upper
159              limit.
160
161 Severity   : normal
162 Bugzilla   : 16102
163 Description: LNET Selftest results in Soft lockup on OSS CPU
164 Details    : only hits when 8 or more o2ib clients involved and a session is
165              torn down with 'lst end_session' without preceeding 'lst stop'.
166
167 Severity   : minor
168 Bugzilla   : 16321
169 Description: concurrent_sends in IB LNDs should not be changeable at run time
170 Details    : concurrent_sends in IB LNDs should not be changeable at run time
171
172 -------------------------------------------------------------------------------
173
174 11-03-2008  Sun Microsystems, Inc.
175         * version 1.6.6
176         * Support for networks:
177          socklnd   - any kernel supported by Lustre,
178          qswlnd    - Qsnet kernel modules 5.20 and later,
179          openiblnd - IbGold 1.8.2,
180          o2iblnd   - OFED 1.1, 1.2.0, 1.2.5, and 1.3
181          viblnd    - Voltaire ibhost 3.4.5 and later,
182          ciblnd    - Topspin 3.2.0,
183          iiblnd    - Infiniserv 3.3 + PathBits patch,
184          gmlnd     - GM 2.1.22 and later,
185          mxlnd     - MX 1.2.1 or later,
186          ptllnd    - Portals 3.3 / UNICOS/lc 1.5.x, 2.0.x
187
188 Severity   : normal
189 Bugzilla   : 15272
190 Description: ptl_send_rpc hits LASSERT when ptl_send_buf fails
191 Details    : only hits under out-of-memory situations
192
193
194 -------------------------------------------------------------------------------
195
196
197 04-26-2008  Sun Microsystems, Inc.
198        * version 1.6.5
199        * Support for networks:
200         socklnd   - any kernel supported by Lustre,
201         qswlnd    - Qsnet kernel modules 5.20 and later,
202         openiblnd - IbGold 1.8.2,
203         o2iblnd   - OFED 1.1 and 1.2.0, 1.2.5
204         viblnd    - Voltaire ibhost 3.4.5 and later,
205         ciblnd    - Topspin 3.2.0,
206         iiblnd    - Infiniserv 3.3 + PathBits patch,
207         gmlnd     - GM 2.1.22 and later,
208         mxlnd     - MX 1.2.1 or later,
209         ptllnd    - Portals 3.3 / UNICOS/lc 1.5.x, 2.0.x
210
211 Severity   : normal
212 Bugzilla   : 14322
213 Description: excessive debug information removed
214 Details    : excessive debug information removed
215
216 Severity   : major
217 Bugzilla   : 15712
218 Description: ksocknal_create_conn() hit ASSERTION during connection race
219 Details    : ksocknal_create_conn() hit ASSERTION during connection race
220
221 Severity   : major
222 Bugzilla   : 13983
223 Description: ksocknal_send_hello() hit ASSERTION while connecting race
224 Details    : ksocknal_send_hello() hit ASSERTION while connecting race
225
226 Severity   : major
227 Bugzilla   : 14425
228 Description: o2iblnd/ptllnd credit deadlock in a routed config.
229 Details    : o2iblnd/ptllnd credit deadlock in a routed config.
230
231 Severity   : normal
232 Bugzilla   : 14956
233 Description: High load after starting lnet
234 Details    : gmlnd should sleep in rx thread in interruptible way. Otherwise,
235              uptime utility reports high load that looks confusingly.
236
237 Severity   : normal
238 Bugzilla   : 14838
239 Description: ksocklnd fails to establish connection if accept_port is high
240 Details    : PID remapping must not be done for active (outgoing) connections
241
242 --------------------------------------------------------------------------------
243
244 2008-01-11  Sun Microsystems, Inc.
245        * version 1.4.12
246        * Support for networks:
247         socklnd   - any kernel supported by Lustre,
248         qswlnd    - Qsnet kernel modules 5.20 and later,
249         openiblnd - IbGold 1.8.2,
250         o2iblnd   - OFED 1.1 and 1.2.0, 1.2.5
251         viblnd    - Voltaire ibhost 3.4.5 and later,
252         ciblnd    - Topspin 3.2.0,
253         iiblnd    - Infiniserv 3.3 + PathBits patch,
254         gmlnd     - GM 2.1.22 and later,
255         mxlnd     - MX 1.2.1 or later,
256         ptllnd    - Portals 3.3 / UNICOS/lc 1.5.x, 2.0.x
257 Severity   : normal
258 Bugzilla   : 14387
259 Description: liblustre network error
260 Details    : liblustre clients should understand LNET_ACCEPT_PORT environment
261              variable even if they don't start lnet acceptor.
262
263 Severity   : normal
264 Bugzilla   : 14300
265 Description: Strange message from lnet (Ignoring prediction from the future)
266 Details    : Incorrect calculation of peer's last_alive value in ksocklnd
267
268 --------------------------------------------------------------------------------
269
270 2007-12-07         Cluster File Systems, Inc. <info@clusterfs.com>
271        * version 1.6.4
272        * Support for networks:
273         socklnd   - any kernel supported by Lustre,
274         qswlnd    - Qsnet kernel modules 5.20 and later,
275         openiblnd - IbGold 1.8.2,
276         o2iblnd   - OFED 1.1 and 1.2.0, 1.2.5.
277         viblnd    - Voltaire ibhost 3.4.5 and later,
278         ciblnd    - Topspin 3.2.0,
279         iiblnd    - Infiniserv 3.3 + PathBits patch,
280         gmlnd     - GM 2.1.22 and later,
281         mxlnd     - MX 1.2.1 or later,
282         ptllnd    - Portals 3.3 / UNICOS/lc 1.5.x, 2.0.x
283
284 Severity   : normal
285 Bugzilla   : 14238
286 Description: ASSERTION(me == md->md_me) failed in lnet_match_md()
287
288 Severity   : normal
289 Bugzilla   : 12494
290 Description: increase send queue size for ciblnd/openiblnd
291
292 Severity   : normal
293 Bugzilla   : 12302
294 Description: new userspace socklnd
295 Details    : Old userspace tcpnal that resided in lnet/ulnds/socklnd replaced
296              with new one - usocklnd.
297
298 Severity   : enhancement
299 Bugzilla   : 11686
300 Description: Console message flood
301 Details    : Make cdls ratelimiting more tunable by adding several tunable in
302              procfs /proc/sys/lnet/console_{min,max}_delay_centisecs and
303              /proc/sys/lnet/console_backoff.
304
305 --------------------------------------------------------------------------------
306
307 2007-09-27         Cluster File Systems, Inc. <info@clusterfs.com>
308        * version 1.6.3
309        * Support for networks:
310         socklnd   - any kernel supported by Lustre,
311         qswlnd    - Qsnet kernel modules 5.20 and later,
312         openiblnd - IbGold 1.8.2,
313         o2iblnd   - OFED 1.1 and 1.2,
314         viblnd    - Voltaire ibhost 3.4.5 and later,
315         ciblnd    - Topspin 3.2.0,
316         iiblnd    - Infiniserv 3.3 + PathBits patch,
317         gmlnd     - GM 2.1.22 and later,
318         mxlnd     - MX 1.2.1 or later,
319         ptllnd    - Portals 3.3 / UNICOS/lc 1.5.x, 2.0.x
320
321 Severity   : normal
322 Bugzilla   : 12782
323 Description: /proc/sys/lnet has non-sysctl entries
324 Details    : Updating dump_kernel/daemon_file/debug_mb to use sysctl variables
325
326 Severity   : major
327 Bugzilla   : 13236
328 Description: TOE Kernel panic by ksocklnd
329 Details    : offloaded sockets provide their own implementation of sendpage,
330              can't call tcp_sendpage() directly
331
332 Severity   : normal
333 Bugzilla   : 10778
334 Description: kibnal_shutdown() doesn't finish; lconf --cleanup hangs
335 Details    : races between lnd_shutdown and peer creation prevent 
336              lnd_shutdown from finishing.
337
338 Severity   : normal
339 Bugzilla   : 13279
340 Description: open files rlimit 1024 reached while liblustre testing
341 Details    : ulnds/socklnd must close open socket after unsuccessful
342              'say hello' attempt.
343
344 Severity   : major 
345 Bugzilla   : 13482
346 Description: build error
347 Details    : fix typos in gmlnd, ptllnd and viblnd
348
349 ------------------------------------------------------------------------------
350
351 2007-07-30  Cluster File Systems, Inc. <info@clusterfs.com>
352        * version 1.6.1
353        * Support for networks:
354         socklnd   - kernels up to 2.6.16,
355         qswlnd    - Qsnet kernel modules 5.20 and later,
356         openiblnd - IbGold 1.8.2,
357         o2iblnd   - OFED 1.1 and 1.2
358         viblnd    - Voltaire ibhost 3.4.5 and later,
359         ciblnd    - Topspin 3.2.0,
360         iiblnd    - Infiniserv 3.3 + PathBits patch,
361         gmlnd     - GM 2.1.22 and later,
362         mxlnd     - MX 1.2.1 or later,
363         ptllnd    - Portals 3.3 / UNICOS/lc 1.5.x, 2.0.x
364
365 2007-06-21  Cluster File Systems, Inc. <info@clusterfs.com>
366        * version 1.4.11
367        * Support for networks:
368         socklnd   - kernels up to 2.6.16,
369         qswlnd    - Qsnet kernel modules 5.20 and later,
370         openiblnd - IbGold 1.8.2,
371         o2iblnd   - OFED 1.1
372         viblnd    - Voltaire ibhost 3.4.5 and later,
373         ciblnd    - Topspin 3.2.0,
374         iiblnd    - Infiniserv 3.3 + PathBits patch,
375         gmlnd     - GM 2.1.22 and later,
376         mxlnd     - MX 1.2.1 or later,
377         ptllnd    - Portals 3.3 / UNICOS/lc 1.5.x, 2.0.x
378
379 Severity   : minor
380 Bugzilla   : 13288
381 Description: Initialize cpumask before use
382
383 Severity   : major
384 Bugzilla   : 12014
385 Description: ASSERTION failures when upgrading to the patchless zero-copy
386              socklnd 
387 Details    : This bug affects "rolling upgrades", causing an inconsistent
388              protocol version negotiation and subsequent assertion failure
389              during rolling upgrades after the first wave of upgrades.
390
391 Severity   : minor
392 Bugzilla   : 11223
393 Details    : Change "dropped message" CERRORs to D_NETERROR so they are
394              logged instead of creating "console chatter" when a lustre
395              timeout races with normal RPC completion.
396
397 Severity   : minor
398 Details    : lnet_clear_peer_table can wait forever if user forgets to
399              clear a lazy portal.
400
401 Severity   : minor
402 Details    : libcfs_id2str should check pid against LNET_PID_ANY.
403
404 Severity   : major
405 Bugzilla   : 10916
406 Description: added LNET self test
407 Details    : landing b_self_test
408
409 Severity   : minor
410 Frequency  : rare
411 Bugzilla   : 12227
412 Description: cfs_duration_{u,n}sec() wrongly calculate nanosecond part of
413              struct timeval.
414 Details    : do_div() macro is used incorrectly.
415
416 2007-04-23  Cluster File Systems, Inc. <info@clusterfs.com>
417
418 Severity   : normal
419 Bugzilla   : 11680
420 Description: make panic on lbug configurable
421
422 Severity   : major
423 Bugzilla   : 12316
424 Description: Add OFED1.2 support to o2iblnd
425 Details    : o2iblnd depends on OFED's modules, if out-tree OFED's modules
426              are installed (other than kernel's in-tree infiniband), there
427              could be some problem while insmod o2iblnd (mismatch CRC of 
428              ib_* symbols).
429              If extra Module.symvers is supported in kernel (i.e, 2.6.17),
430              this link provides solution:
431              https://bugs.openfabrics.org/show_bug.cgi?id=355
432              if extra Module.symvers is not supported in kernel, we will
433              have to run the script in bug 12316 to update
434              $LINUX/module.symvers before building o2iblnd.
435              More details about this are in bug 12316.
436
437 ------------------------------------------------------------------------------
438
439 2007-04-01  Cluster File Systems, Inc. <info@clusterfs.com>
440        * version 1.4.10 / 1.6.0
441        * Support for networks:
442         socklnd   - kernels up to 2.6.16,
443         qswlnd    - Qsnet kernel modules 5.20 and later,
444         openiblnd - IbGold 1.8.2,
445         o2iblnd   - OFED 1.1,
446         viblnd    - Voltaire ibhost 3.4.5 and later,
447         ciblnd    - Topspin 3.2.0,
448         iiblnd    - Infiniserv 3.3 + PathBits patch,
449         gmlnd     - GM 2.1.22 and later,
450         mxlnd     - MX 1.2.1 or later,
451         ptllnd    - Portals 3.3 / UNICOS/lc 1.5.x, 2.0.x
452         
453 Severity   : minor
454 Frequency  : rare
455 Description: Ptllnd didn't init kptllnd_data.kptl_idle_txs before it could be
456              possibly accessed in kptllnd_shutdown. Ptllnd should init 
457              kptllnd_data.kptl_ptlid2str_lock before calling kptllnd_ptlid2str.
458
459 Severity   : normal
460 Frequency  : rare
461 Description: gmlnd ignored some transmit errors when finalizing lnet messages.
462
463 Severity   : minor
464 Frequency  : rare
465 Description: ptllnd logs a piece of incorrect debug info in kptllnd_peer_handle_hello.
466
467 Severity   : minor
468 Frequency  : rare
469 Description: the_lnet.ln_finalizing was not set when the current thread is
470              about to complete messages. It only affects multi-threaded 
471              user space LNet.
472         
473 Severity   : normal
474 Frequency  : rare
475 Bugzilla   : 11472
476 Description: Changed the default kqswlnd ntxmsg=512
477         
478 Severity   : major
479 Frequency  : rare
480 Bugzilla   : 12458
481 Description: Assertion failure in kernel ptllnd caused by posting passive
482              bulk buffers before connection establishment complete.
483         
484 Severity   : major
485 Frequency  : rare
486 Bugzilla   : 12445
487 Description: A race in kernel ptllnd between deleting a peer and posting
488              new communications for it could hang communications -
489              manifesting as "Unexpectedly long timeout" messages.
490         
491 Severity   : major
492 Frequency  : rare
493 Bugzilla   : 12432
494 Description: Kernel ptllnd lock ordering issue could hang a node.
495         
496 Severity   : major
497 Frequency  : rare
498 Bugzilla   : 12016
499 Description: node crash on socket teardown race
500
501 Severity   : minor
502 Frequency  : 'lctl peer_list' issued on a mx net
503 Bugzilla   : 12237
504 Description: Enable lctl's peer_list for MXLND
505
506 Severity   : major
507 Frequency  : after Ptllnd timeouts and portals congestion
508 Bugzilla   : 11659
509 Description: Credit overflows
510 Details    : This was a bug in ptllnd connection establishment.  The fix
511              implements better peer stamps to disambiguate connection
512              establishment and ensure both peers enter the credit flow
513              state machine consistently.
514
515 Severity   : major
516 Frequency  : rare       
517 Bugzilla   : 11394
518 Description: kptllnd didn't propagate some network errors up to LNET 
519 Details    : This bug was spotted while investigating 11394.  The fix
520              ensures network errors on sends and bulk transfers are
521              propagated to LNET/lustre correctly.
522
523 Severity   : enhancement
524 Bugzilla   : 10316
525 Description: Fixed console chatter in case of -ETIMEDOUT.
526
527 Severity   : enhancement
528 Bugzilla   : 11684
529 Description: Added D_NETTRACE for recording network packet history
530              (initially only for ptllnd).  Also a separate userspace
531              ptllnd facility to gather history which should really be
532              covered by D_NETTRACE too, if only CDEBUG recorded history in
533              userspace.
534
535 Severity   : major
536 Frequency  : rare       
537 Bugzilla   : 11616
538 Description: o2iblnd handle early RDMA_CM_EVENT_DISCONNECTED.
539 Details    : If the fabric is lossy, an RDMA_CM_EVENT_DISCONNECTED
540              callback can occur before a connection has actually been
541              established.  This caused an assertion failure previously.
542
543 Severity   : enhancement
544 Bugzilla   : 11094
545 Description: Multiple instances for o2iblnd
546 Details    : Allow multiple instances of o2iblnd to enable networking over
547              multiple HCAs and routing between them.
548
549 Severity   : major
550 Bugzilla   : 11201
551 Description: lnet deadlock in router_checker
552 Details    : turned ksnd_connd_lock, ksnd_reaper_lock, and ksock_net_t:ksnd_lock
553              into BH locks to eliminate potential deadlock caused by
554              ksocknal_data_ready() preempting code holding these locks.
555
556 Severity   : major
557 Bugzilla   : 11126
558 Description: Millions of failed socklnd connection attempts cause a very slow FS
559 Details    : added a new route flag ksnr_scheduled to distinguish from
560              ksnr_connecting, so that a peer connection request is only turned
561              down for race concerns when an active connection to the same peer
562              is under progress (instead of just being scheduled).
563
564 ------------------------------------------------------------------------------
565
566 2007-02-09  Cluster File Systems, Inc. <info@clusterfs.com>
567        * version 1.4.9
568        * Support for networks:
569         socklnd   - kernels up to 2.6.16
570         qswlnd    - Qsnet kernel modules 5.20 and later
571         openiblnd - IbGold 1.8.2
572         o2iblnd   - OFED 1.1
573         viblnd    - Voltaire ibhost 3.4.5 and later
574         ciblnd    - Topspin 3.2.0
575         iiblnd    - Infiniserv 3.3 + PathBits patch
576         gmlnd     - GM 2.1.22 and later
577         mxlnd     - MX 1.2.1 or later
578         ptllnd    - Portals 3.3 / UNICOS/lc 1.5.x, 2.0.x
579        * bug fixes
580
581 Severity   : major on XT3
582 Bugzilla   : none
583 Description: libcfs overwrites /proc/sys/portals
584 Details    : libcfs created a symlink from /proc/sys/portals to
585              /proc/sys/lnet for backwards compatibility.  This is no
586              longer required and makes the Cray portals /proc variables
587              inaccessible.
588
589 Severity   : minor
590 Bugzilla   : 11312
591 Description: OFED FMR API change
592 Details    : This changes parameter usage to reflect a change in
593              ib_fmr_pool_map_phys() between OFED 1.0 and OFED 1.1.  Note
594              that FMR support is only used in experimental versions of the
595              o2iblnd - this change does not affect standard usage at all.
596
597 Severity   : enhancement
598 Bugzilla   : 11245
599 Description: new ko2iblnd module parameter: ib_mtu
600 Details    : the default IB MTU of 2048 performs badly on 23108 Tavor
601              HCAs.  You can avoid this problem by setting the MTU to 1024
602              using this module parameter.
603
604 Severity   : enhancement
605 Bugzilla   : 11118/11620
606 Description: ptllnd small request message buffer alignment fix
607 Details    : Set the PTL_MD_LOCAL_ALIGN8 option on small message receives.
608              Round up small message size on sends in case this option
609              is not supported.  11620 was a defect in the initial
610              implementation which effectively asserted all peers had to be
611              running the correct protocol version which was fixed by always
612              NAK-ing such requests and handling any misalignments they
613              introduce.
614
615 Severity   : minor
616 Frequency  : rarely
617 Description: When kib(nal|lnd)_del_peer() is called upon a peer whose
618              ibp_tx_queue is not empty, kib(nal|lnd)_destroy_peer()'s
619              'LASSERT(list_empty(&peer->ibp_tx_queue))' will fail.
620
621 Severity   : enhancement
622 Bugzilla   : 11250
623 Description: Patchless ZC(zero copy) socklnd
624 Details    : New protocol for socklnd, socklnd can support zero copy without
625              kernel patch, it's compatible with old socklnd. Checksum is 
626              moved from tunables to modparams.
627
628 Severity   : minor
629 Frequency  : rarely
630 Description: When ksocknal_del_peer() is called upon a peer whose
631              ksnp_tx_queue is not empty, ksocknal_destroy_peer()'s
632              'LASSERT(list_empty(&peer->ksnp_tx_queue))' will fail.
633
634 Severity   : normal
635 Frequency  : when ptlrpc is under heavy use and runs out of request buffer
636 Bugzilla   : 11318
637 Description: In lnet_match_blocked_msg(), md can be used without holding a
638              ref on it.
639
640 Severity   : minor
641 Frequency  : very rarely
642 Bugzilla   : 10727
643 Description: If ksocknal_lib_setup_sock() fails, a ref on peer is lost.
644              If connd connects a route which has been closed by
645              ksocknal_shutdown(), ksocknal_create_routes() may create new
646              routes which hold references on the peer, causing shutdown
647              process to wait for peer to disappear forever.
648
649 Severity   : enhancement
650 Bugzilla   : 11234
651 Description: Dump XT3 portals traces on kptllnd timeout
652 Details    : Set the kptllnd module parameter "ptltrace_on_timeout=1" to
653              dump Cray portals debug traces to a file.  The kptllnd module
654              parameter "ptltrace_basename", default "/tmp/lnet-ptltrace",
655              is the basename of the dump file.
656
657 Severity   : major
658 Frequency  : infrequent
659 Bugzilla   : 11308
660 Description: kernel ptllnd fix bug in connection re-establishment
661 Details    : Kernel ptllnd could produce protocol errors e.g. illegal
662              matchbits and/or violate the credit flow protocol when trying
663              to re-establish a connection with a peer after an error or
664              timeout. 
665
666 Severity   : enhancement
667 Bugzilla   : 10316
668 Description: Allow /proc/sys/lnet/debug to be set symbolically
669 Details    : Allow debug and subsystem debug values to be read/set by name
670              in addition to numerically, for ease of use.
671
672 Severity   : normal
673 Frequency  : only in configurations with LNET routers
674 Bugzilla   : 10316
675 Description: routes automatically marked down and recovered
676 Details    : In configurations with LNET routers if a router fails routers
677              now actively try to recover routes that are down, unless they
678              are marked down by an administrator.
679
680 ------------------------------------------------------------------------------
681
682 2006-12-09  Cluster File Systems, Inc. <info@clusterfs.com>
683
684 Severity   : critical
685 Frequency  : very rarely, in configurations with LNET routers and TCP
686 Bugzilla   : 10889
687 Description: incorrect data written to files on OSTs
688 Details    : In certain high-load conditions incorrect data may be written
689              to files on the OST when using TCP networks.
690
691 ------------------------------------------------------------------------------
692
693 2006-07-31  Cluster File Systems, Inc. <info@clusterfs.com>
694         * version 1.4.7
695         - rework CDEBUG messages rate-limiting mechanism b=10375
696         - add per-socket tunables for socklnd if the kernel is patched b=10327
697
698 ------------------------------------------------------------------------------
699
700 2006-02-15  Cluster File Systems, Inc. <info@clusterfs.com>
701         * version 1.4.6
702         - fix use of portals/lnet pid to avoid dropping RPCs b=10074
703         - iiblnd wasn't mapping all memory, resulting in comms errors b=9776
704         - quiet LNET startup LNI message for liblustre b=10128
705         - Better console error messages if 'ip2nets' can't match an IP address
706         - Fixed overflow/use-before-set bugs in linux-time.h
707         - Fixed ptllnd bug that wasn't initialising rx descriptors completely
708         - LNET teardown failed an assertion about the route table being empty
709         - Fixed a crash in LNetEQPoll(<invalid handle>)
710         - Future protocol compatibility work (b_rls146_lnetprotovrsn)
711         - improve debug message for liblustre/Catamount nodes (b=10116)
712
713 2005-10-10  Cluster File Systems, Inc. <info@clusterfs.com>
714         * Configuration change for the XT3
715              The PTLLND is now used to run Lustre over Portals on the XT3.
716              The configure option(s) --with-cray-portals are no longer
717              used.  Rather --with-portals=<path-to-portals-includes> is
718              used to enable building on the XT3.  In addition to enable
719              XT3 specific features the option --enable-cray-xt3 must be
720              used.
721
722 2005-10-10  Cluster File Systems, Inc. <info@clusterfs.com>
723         * Portals has been removed, replaced by LNET.
724            LNET is new networking infrastructure for Lustre, it includes a
725            reorganized network configuration mode (see the user
726            documentation for full details) as well as support for routing
727            between different network fabrics.  Lustre Networking Devices
728            (LNDS) for the supported network fabrics have also been created
729            for this new infrastructure.
730
731 2005-08-08  Cluster File Systems, Inc. <info@clusterfs.com>
732        * version 1.4.4
733        * bug fixes
734
735 Severity   : major
736 Frequency  : rare (large Voltaire clusters only)
737 Bugzilla   : 6993
738 Description: the default number of reserved transmit descriptors was too low
739              for some large clusters
740 Details    : As a workaround, the number was increased.  A proper fix includes
741              a run-time tunable.
742
743 2005-06-02  Cluster File Systems, Inc. <info@clusterfs.com>
744        * version 1.4.3
745        * bug fixes
746
747 Severity   : major
748 Frequency  : occasional (large-scale events, cluster reboot, network failure)
749 Bugzilla   : 6411
750 Description: too many error messages on console obscure actual problem and
751              can slow down/panic server, or cause recovery to fail repeatedly
752 Details    : enable rate-limiting of console error messages, and some messages
753              that were console errors now only go to the kernel log
754
755 Severity   : enhancement
756 Bugzilla   : 1693
757 Description: add /proc/sys/portals/catastrophe entry which will report if
758              that node has previously LBUGged
759
760 2005-04-06  Cluster File Systems, Inc. <info@clusterfs.com>
761        * bugs
762         - update gmnal to use PTL_MTU, fix module refcounting (b=5786)
763
764 2005-04-04  Cluster File Systems, Inc. <info@clusterfs.com>
765        * bugs
766         - handle error return code in kranal_check_fma_rx() (5915,6054)
767
768 2005-02-04  Cluster File Systems, Inc. <info@clusterfs.com>
769        * miscellania
770         - update vibnal (Voltaire IB NAL)
771         - update gmnal (Myrinet NAL), gmnalid
772
773 2005-02-04  Eric Barton  <eeb@bartonsoftware.com>
774
775         * Landed portals:b_port_step as follows...
776
777           - removed CFS_DECL_SPIN* 
778             just use 'spinlock_t' and initialise with spin_lock_init()
779
780           - removed CFS_DECL_MUTEX*
781             just use 'struct semaphore' and initialise with init_mutex()
782
783           - removed CFS_DECL_RWSEM*
784             just use 'struct rw_semaphore' and initialise with init_rwsem()
785
786           - renamed cfs_sleep_chan -> cfs_waitq
787                     cfs_sleep_link -> cfs_waitlink
788
789           - fixed race in linux version of arch-independent socknal
790             (the ENOMEM/EAGAIN decision).
791
792           - Didn't fix problems in Darwin version of arch-independent socknal
793             (resetting socket callbacks, eager ack hack, ENOMEM/EAGAIN decision)
794
795           - removed libcfs types from non-socknal header files (only some types
796             in the header files had been changed; the .c files hadn't been
797             updated at all).