Whamcloud - gitweb
b=21776 make sure libcfs_memory_pressure_get is declared before using it in LNetPut()
[fs/lustre-release.git] / lnet / ChangeLog
1 xxxx-xx-xx Oracle, Inc.
2         * version 1.8.6
3         * Support for networks:
4           socklnd   - any kernel supported by Lustre,
5           qswlnd    - Qsnet kernel modules 5.20 and later,
6           openiblnd - IbGold 1.8.2,
7           o2iblnd   - OFED 1.3, 1.4.1, 1.4.2, 1.5.1 and 1.5.2
8           viblnd    - Voltaire ibhost 3.4.5 and later,
9           ciblnd    - Topspin 3.2.0,
10           iiblnd    - Infiniserv 3.3 + PathBits patch,
11           gmlnd     - GM 2.1.22 and later,
12           mxlnd     - MX 1.2.10 or later,
13           ptllnd    - Portals 3.3 / UNICOS/lc 1.5.x, 2.0.x
14
15 Severity   : normal
16 Bugzilla   : 21776
17 Description: ptlrpcd stuck in lnet allocations under memory pressure
18 Details    : Set PF_MEMALLOC on outgoing path to prevent deadlock on memory
19              allocation
20
21 Severity   : normal
22 Bugzilla   : 23575
23 Description: fix o2iblnd v2 regression of credit deadlock with v1 peers
24              (bug 14425).
25
26 Severity   : normal
27 Bugzilla   : 21456
28 Description: lctl ping of 1.6.6 server from 1.8 router causes protocol error
29
30 -------------------------------------------------------------------------------
31
32 2010-10-29 Oracle, Inc.
33         * version 1.8.5
34         * Support for networks:
35           socklnd   - any kernel supported by Lustre,
36           qswlnd    - Qsnet kernel modules 5.20 and later,
37           openiblnd - IbGold 1.8.2,
38           o2iblnd   - OFED 1.3, 1.4.1, 1.4.2, 1.5.1 and 1.5.2
39           viblnd    - Voltaire ibhost 3.4.5 and later,
40           ciblnd    - Topspin 3.2.0,
41           iiblnd    - Infiniserv 3.3 + PathBits patch,
42           gmlnd     - GM 2.1.22 and later,
43           mxlnd     - MX 1.2.10 or later,
44           ptllnd    - Portals 3.3 / UNICOS/lc 1.5.x, 2.0.x
45
46 Severity   : normal
47 Bugzilla   : 23179
48 Description: MDS node unresponsive
49 Details    : improve hash distribution, doubled hash size for the lnet cookie
50              hash.
51
52 -------------------------------------------------------------------------------
53
54 2010-07-31 Oracle, Inc.
55         * version 1.8.4
56         * Support for networks:
57           socklnd   - any kernel supported by Lustre,
58           qswlnd    - Qsnet kernel modules 5.20 and later,
59           openiblnd - IbGold 1.8.2,
60           o2iblnd   - OFED 1.3, 1.4.1, 1.4.2 and 1.5.1
61           viblnd    - Voltaire ibhost 3.4.5 and later,
62           ciblnd    - Topspin 3.2.0,
63           iiblnd    - Infiniserv 3.3 + PathBits patch,
64           gmlnd     - GM 2.1.22 and later,
65           mxlnd     - MX 1.2.10 or later,
66           ptllnd    - Portals 3.3 / UNICOS/lc 1.5.x, 2.0.x
67
68 Severity   : normal
69 Bugzilla   : 23076
70 Description: With peer health detection, o2iblnd makes only one attempt to
71              reconnect which is not enough with nodes running lustre 1.6
72              because of proto version mismatch. Fix o2iblnd to retry one more
73              time.
74
75 Severity   : enhancement
76 Bugzilla   : 16909
77 Description: Quiet some LNET messages
78
79 Severity   : enhancement
80 Bugzilla   : 22787
81 Description: Add OFED 1.5.1 support
82
83 Severity   : enhancement
84 Bugzilla   : 21678
85 Description: The peer health code lacked some important debugging info in
86              lnd_query code paths. We've added necessary debug prints,
87              not just for bug 21678, but also for future troubleshooting.
88
89 -------------------------------------------------------------------------------
90
91 2010-04-30 Oracle, Inc.
92         * version 1.8.3
93         * Support for networks:
94           socklnd   - any kernel supported by Lustre,
95           qswlnd    - Qsnet kernel modules 5.20 and later,
96           openiblnd - IbGold 1.8.2,
97           o2iblnd   - OFED 1.1, 1.2.0, 1.2.5, 1.3, 1.4.1, and 1.4.2
98           viblnd    - Voltaire ibhost 3.4.5 and later,
99           ciblnd    - Topspin 3.2.0,
100           iiblnd    - Infiniserv 3.3 + PathBits patch,
101           gmlnd     - GM 2.1.22 and later,
102           mxlnd     - MX 1.2.10 or later,
103           ptllnd    - Portals 3.3 / UNICOS/lc 1.5.x, 2.0.x
104
105 Severity   : normal
106 Bugzilla   : 22556
107 Description: lst: check # of remained RPCs before aborting
108 Details    : lstcon_rpc_trans_postwait() calls lstcon_rpc_trans_abort() only
109              when the transaction is timeout, so if we got "end_session" to
110              interrupt waiting on  transaction, then we can hit the assertion
111              failure ASSERTION(crpc->crp_stamp != 0)
112
113 Severity   : normal
114 Bugzilla   : 20615
115 Description: print more debug info for  timedout ZC-req
116 Details    : Print more information for timedout ZC-req and partial
117              received connection. Close connection for timedout ZC-req
118              Always send ZC_ACK on non-blocking connection(BULK_IN)
119
120 Severity   : normal
121 Bugzilla   : 21945
122 Description: Adding WIRE_ATTR attribute to LNET types
123 Details    : LST nodes on different platforms might not communicate well
124              due to the lack of WIRE_ATTR attribute in some LNET structures
125              traversing network. The patch fixes the problem by adding
126              WIRE_ATTR where needed.
127
128 Severity   : normal
129 Bugzilla   : 21619
130 Description: hash MEs on RDMA portal
131 Details    : RDMA portal can have very long ME list on client side, which
132              will trigger soft lockup because of long searching on list.
133              Hash MEs on RDMA portal can resolve this problem.
134
135 Severity   : normal
136 Bugzilla   : 21911
137 Description: fix for double release of ibc_lock in o2iblnd
138 Details    : Re-acquire ibc_lock in kiblnd_post_tx_locked(). Add extra
139              reference to conn before calling kiblnd_post_tx_locked()
140              to avoid scenario when conn disappears inside
141              kiblnd_post_tx_locked().
142
143 ------------------------------------------------------------------------------- 
144 2010-01-29  Sun Microsystems, Inc.
145         * version 1.8.2
146         * Support for networks:
147           socklnd   - any kernel supported by Lustre,
148           qswlnd    - Qsnet kernel modules 5.20 and later,
149           openiblnd - IbGold 1.8.2,
150           o2iblnd   - OFED 1.1, 1.2.0, 1.2.5, 1.3, 1.4.1, and 1.4.2
151           viblnd    - Voltaire ibhost 3.4.5 and later,
152           ciblnd    - Topspin 3.2.0,
153           iiblnd    - Infiniserv 3.3 + PathBits patch,
154           gmlnd     - GM 2.1.22 and later,
155           mxlnd     - MX 1.2.10 or later,
156           ptllnd    - Portals 3.3 / UNICOS/lc 1.5.x, 2.0.x
157
158 Severity   : minor
159 Bugzilla   : 21459
160 Description: should update lp_alive for non-router peers.
161
162 Severity   : enhancement
163 Bugzilla   : 15332
164 Description: LNet router shuffler.
165
166 Severity   : enhancement
167 Bugzilla   : 15332
168 Description: LNet fine grain routing support.
169
170 Severity   : normal
171 Bugzilla   : 20171
172 Description: router checker stops working when system wall clock goes backward
173 Details    : use monotonic timing source instead of system wall clock time.
174
175 Severity   : enhancement
176 Bugzilla   : 18460
177 Description: avoid asymmetrical router failures
178
179 Severity   : enhancement
180 Bugzilla   : 19735
181 Description: multiple-instance support for kptllnd
182
183 Severity   : normal
184 Bugzilla   : 20897
185 Description: ksocknal_close_conn_locked connection race
186 Details    : A race was possible when ksocknal_create_conn calls
187              ksocknal_close_conn_locked for already closed conn.
188
189 Severity   : enhancement
190 Bugzilla   : 13065
191 Description: port router pinger to userspace
192
193 Severity   : normal
194 Bugzilla   : 17546
195 Description: kptllnd HELLO protocol deadlock
196 Details    : kptllnd HELLO protocol doesn't run to completion in finite time
197
198 Severity   : normal
199 Bugzilla   : 18075
200 Description: LNet selftest fixes and enhancements
201
202 Severity   : enhancement
203 Bugzilla   : 19156
204 Description: allow a test node to be a member of multiple test groups
205
206 Severity   : enhancement
207 Bugzilla   : 18654
208 Description: MXLND: eliminate hosts file, use arp for peer nic_id resolution
209 Details    : an update from the upstream developer Scott Atchley.
210
211
212 ------------------------------------------------------------------------------- 
213 2009-07-31  Sun Microsystems, Inc.
214         * version 1.8.1
215         * Support for networks:
216          socklnd   - any kernel supported by Lustre,
217          qswlnd    - Qsnet kernel modules 5.20 and later,
218          openiblnd - IbGold 1.8.2,
219          o2iblnd   - OFED 1.1, 1.2.0, 1.2.5, 1.3, and 1.4.1
220          viblnd    - Voltaire ibhost 3.4.5 and later,
221          ciblnd    - Topspin 3.2.0,
222          iiblnd    - Infiniserv 3.3 + PathBits patch,
223          gmlnd     - GM 2.1.22 and later,
224          mxlnd     - MX 1.2.1 or later,
225          ptllnd    - Portals 3.3 / UNICOS/lc 1.5.x, 2.0.x
226
227 Severity   : normal
228 Bugzilla   : 18102
229 Description: router_proc.c is rewritten to use sysctl-interface for parameters
230              residing in /proc/sys/lnet
231
232 Severity   : enhancement
233 Bugzilla   : 15332
234 Description: add a new LND optiion to control peer buffer credits on routers
235
236 Severity   : normal
237 Bugzilla   : 18844
238 Description: Fixing deadlock in usocklnd
239 Details    : A deadlock was possible in usocklnd due to race condition while
240              tearing connection down. The problem resulted from erroneous
241              assumption that lnet_finalize() could have been called holding
242              some lnd-level locks.
243
244 Severity   : major
245 Bugzilla   : 13621, 15983
246 Description: Protocol V2 of o2iblnd
247 Details    : o2iblnd V2 has several new features:
248              . map-on-demand: map-on-demand is disabled by default, it can
249                be enabled by using modparam "map_on_demand=@value@", @value@
250                should >= 0 and < 256, 0 will disable map-on-demand, any other
251                valid value will enable map-on-demand. 
252                Oi2blnd will create FMR or physical MR for RDMA if fragments of
253                RD > @value@.
254                Enable map-on-demand will take less memory for new connection,
255                but a little more CPU for RDMA.
256              . iWARP : to support iWARP, please enable map-on-demand, 32 and 64
257                are recommanded value. iWARP will probably fail for value >=128.
258              . OOB NOOP message: to resolve deadlock on router.
259              . tunable peer_credits_hiw: (high water to return credits),
260                default value of peer_credits_hiw equals to (peer_credits -1),
261                user can change it between peer_credits/2 and (peer_credits - 1).
262                Lower value is recommended for high latency network.
263              . tunable message queue size: it always equals to peer_credits,
264                higher value is recommended for high latency network.
265              . It's compatible with earlier version of o2iblnd
266
267 Severity   : normal
268 Bugzilla   : 18414
269 Description: Fixing 'running out of ports' issue
270 Details    : Add a delay before next reconnect attempt in ksocklnd in
271              the case of lost race. Limit the frequency of query-requests
272              in lnet. Improved handling of 'dead peer' notifications in
273              lnet.
274
275 Severity   : normal
276 Bugzilla   : 16034
277 Description: Change ptllnd timeout and watchdog timers
278 Details    : Add ptltrace_on_nal_failed and bump ptllnd timeout to match
279              Portals wire timeout.
280
281 Severity   : normal
282 Bugzilla   : 16186
283 Description: One down Lustre FS hangs ALL mounted Lustre filesystems
284 Details    : Shared routing enhancements - peer health detection.
285
286 Severity   : minor
287 Bugzilla   : 11245
288 Description: IB path MTU mistakenly set to 1st path MTU when ib_mtu is off
289 Details    : See comment 46 in bug 11245 for details - it's indeed a bug
290              introduced by the original 11245 fix.
291
292 Severity   : minor
293 Bugzilla   : 15984
294 Description: uptllnd credit overflow fix
295 Details    : kptl_msg_t::ptlm_credits could be overflown by uptllnd since
296              it is only a __u8.
297
298 Severity   : major
299 Bugzilla   : 14634
300 Description: socklnd protocol version 3 
301 Details    : With current protocol V2, connections on router can be
302              blocked and can't receive any incoming messages when there is no
303              more router buffer, so ZC-ACK can't be handled (LNet message
304              can't be finalized) and will cause deadlock on router.
305              Protocol V3 has a dedicated connection for emergency messages
306              like ZC-ACK to router, messages on this dedicated connection
307              don't need any credit so will never be blocked. Also, V3 can send
308              keepalive ping in specified period for router healthy checking.
309
310 ------------------------------------------------------------------------------- 
311 12-31-2008  Sun Microsystems, Inc.
312         * version 1.8.0
313         * Support for networks:
314          socklnd   - any kernel supported by Lustre,
315          qswlnd    - Qsnet kernel modules 5.20 and later,
316          openiblnd - IbGold 1.8.2,
317          o2iblnd   - OFED 1.1, 1.2.0, 1.2.5, and 1.3
318          viblnd    - Voltaire ibhost 3.4.5 and later,
319          ciblnd    - Topspin 3.2.0,
320          iiblnd    - Infiniserv 3.3 + PathBits patch,
321          gmlnd     - GM 2.1.22 and later,
322          mxlnd     - MX 1.2.1 or later,
323          ptllnd    - Portals 3.3 / UNICOS/lc 1.5.x, 2.0.x
324
325 Severity   : 
326 Bugzilla   : 
327 Description: 
328 Details    : 
329
330 Severity   : major
331 Bugzilla   : 15983
332 Description: workaround for OOM from o2iblnd
333 Details    : OFED needs allocate big chunk of memory for QP while creating
334              connection for o2iblnd, OOM can happen if no such a contiguous
335              memory chunk.
336              QP size is decided by concurrent_sends and max_fragments of
337              o2iblnd, now we permit user to specify smaller value for
338              concurrent_sends of o2iblnd(i.e: concurrent_sends=7), which
339              will decrease memory block size required by creating QP.
340
341 Severity   : major
342 Bugzilla   : 15093
343 Description: Support Zerocopy receive of Chelsio device
344 Details    : Chelsio driver can support zerocopy for iov[1] if it's
345              contiguous and large enough.
346
347 Severity   : normal
348 Bugzilla   : 13490
349 Description: fix credit flow deadlock in uptllnd
350
351 Severity   : normal
352 Bugzilla   : 16308
353 Description: finalize network operation in reasonable time
354 Details    : conf-sanity test_32a couldn't stop ost and mds because it
355              tried to access non-existent peer and tcp connect took
356              quite long before timing out.
357
358 Severity   : major
359 Bugzilla   : 16338
360 Description: Continuous recovery on 33 of 413 nodes after lustre oss failure
361 Details    : Lost reference on conn prevents peer from being destroyed, which
362              could prevent new peer creation if peer count has reached upper
363              limit.
364
365 Severity   : normal
366 Bugzilla   : 16102
367 Description: LNET Selftest results in Soft lockup on OSS CPU
368 Details    : only hits when 8 or more o2ib clients involved and a session is
369              torn down with 'lst end_session' without preceeding 'lst stop'.
370
371 Severity   : minor
372 Bugzilla   : 16321
373 Description: concurrent_sends in IB LNDs should not be changeable at run time
374 Details    : concurrent_sends in IB LNDs should not be changeable at run time
375
376 Severity   : normal
377 Bugzilla   : 15272
378 Description: ptl_send_rpc hits LASSERT when ptl_send_buf fails
379 Details    : only hits under out-of-memory situations
380
381
382 -------------------------------------------------------------------------------
383
384 2009-02-07 Sun Microsystems, Inc.
385         * version 1.6.7
386         * Support for networks:
387          socklnd   - any kernel supported by Lustre,
388          qswlnd    - Qsnet kernel modules 5.20 and later,
389          openiblnd - IbGold 1.8.2,
390          o2iblnd   - OFED 1.1, 1.2.0, 1.2.5, and 1.3
391          viblnd    - Voltaire ibhost 3.4.5 and later,
392          ciblnd    - Topspin 3.2.0,
393          iiblnd    - Infiniserv 3.3 + PathBits patch,
394          gmlnd     - GM 2.1.22 and later,
395          mxlnd     - MX 1.2.1 or later,
396          ptllnd    - Portals 3.3 / UNICOS/lc 1.5.x, 2.0.x
397
398 Severity   : major
399 Bugzilla   : 15983
400 Description: workaround for OOM from o2iblnd
401 Details    : OFED needs allocate big chunk of memory for QP while creating
402              connection for o2iblnd, OOM can happen if no such a contiguous
403              memory chunk.
404              QP size is decided by concurrent_sends and max_fragments of
405              o2iblnd, now we permit user to specify smaller value for
406              concurrent_sends of o2iblnd(i.e: concurrent_sends=7), which
407              will decrease memory block size required by creating QP.
408
409 Severity   : major
410 Bugzilla   : 15093
411 Description: Support Zerocopy receive of Chelsio device
412 Details    : Chelsio driver can support zerocopy for iov[1] if it's
413              contiguous and large enough.
414
415 Severity   : normal
416 Bugzilla   : 13490
417 Description: fix credit flow deadlock in uptllnd
418
419 Severity   : normal
420 Bugzilla   : 16308
421 Description: finalize network operation in reasonable time
422 Details    : conf-sanity test_32a couldn't stop ost and mds because it
423              tried to access non-existent peer and tcp connect took
424              quite long before timing out.
425
426 Severity   : major
427 Bugzilla   : 16338
428 Description: Continuous recovery on 33 of 413 nodes after lustre oss failure
429 Details    : Lost reference on conn prevents peer from being destroyed, which
430              could prevent new peer creation if peer count has reached upper
431              limit.
432
433 Severity   : normal
434 Bugzilla   : 16102
435 Description: LNET Selftest results in Soft lockup on OSS CPU
436 Details    : only hits when 8 or more o2ib clients involved and a session is
437              torn down with 'lst end_session' without preceeding 'lst stop'.
438
439 Severity   : minor
440 Bugzilla   : 16321
441 Description: concurrent_sends in IB LNDs should not be changeable at run time
442 Details    : concurrent_sends in IB LNDs should not be changeable at run time
443
444 -------------------------------------------------------------------------------
445
446 11-03-2008  Sun Microsystems, Inc.
447         * version 1.6.6
448         * Support for networks:
449          socklnd   - any kernel supported by Lustre,
450          qswlnd    - Qsnet kernel modules 5.20 and later,
451          openiblnd - IbGold 1.8.2,
452          o2iblnd   - OFED 1.1, 1.2.0, 1.2.5, and 1.3
453          viblnd    - Voltaire ibhost 3.4.5 and later,
454          ciblnd    - Topspin 3.2.0,
455          iiblnd    - Infiniserv 3.3 + PathBits patch,
456          gmlnd     - GM 2.1.22 and later,
457          mxlnd     - MX 1.2.1 or later,
458          ptllnd    - Portals 3.3 / UNICOS/lc 1.5.x, 2.0.x
459
460 Severity   : normal
461 Bugzilla   : 15272
462 Description: ptl_send_rpc hits LASSERT when ptl_send_buf fails
463 Details    : only hits under out-of-memory situations
464
465 -------------------------------------------------------------------------------
466
467
468 04-26-2008  Sun Microsystems, Inc.
469        * version 1.6.5
470        * Support for networks:
471         socklnd   - any kernel supported by Lustre,
472         qswlnd    - Qsnet kernel modules 5.20 and later,
473         openiblnd - IbGold 1.8.2,
474         o2iblnd   - OFED 1.1 and 1.2.0, 1.2.5
475         viblnd    - Voltaire ibhost 3.4.5 and later,
476         ciblnd    - Topspin 3.2.0,
477         iiblnd    - Infiniserv 3.3 + PathBits patch,
478         gmlnd     - GM 2.1.22 and later,
479         mxlnd     - MX 1.2.1 or later,
480         ptllnd    - Portals 3.3 / UNICOS/lc 1.5.x, 2.0.x
481
482 Severity   : normal
483 Bugzilla   : 14322
484 Description: excessive debug information removed
485 Details    : excessive debug information removed
486
487 Severity   : major
488 Bugzilla   : 15712
489 Description: ksocknal_create_conn() hit ASSERTION during connection race
490 Details    : ksocknal_create_conn() hit ASSERTION during connection race
491
492 Severity   : major
493 Bugzilla   : 13983
494 Description: ksocknal_send_hello() hit ASSERTION while connecting race
495 Details    : ksocknal_send_hello() hit ASSERTION while connecting race
496
497 Severity   : major
498 Bugzilla   : 14425
499 Description: o2iblnd/ptllnd credit deadlock in a routed config.
500 Details    : o2iblnd/ptllnd credit deadlock in a routed config.
501
502 Severity   : normal
503 Bugzilla   : 14956
504 Description: High load after starting lnet
505 Details    : gmlnd should sleep in rx thread in interruptible way. Otherwise,
506              uptime utility reports high load that looks confusingly.
507
508 Severity   : normal
509 Bugzilla   : 14838
510 Description: ksocklnd fails to establish connection if accept_port is high
511 Details    : PID remapping must not be done for active (outgoing) connections
512
513 --------------------------------------------------------------------------------
514
515 2008-01-11  Sun Microsystems, Inc.
516        * version 1.4.12
517        * Support for networks:
518         socklnd   - any kernel supported by Lustre,
519         qswlnd    - Qsnet kernel modules 5.20 and later,
520         openiblnd - IbGold 1.8.2,
521         o2iblnd   - OFED 1.1 and 1.2.0, 1.2.5
522         viblnd    - Voltaire ibhost 3.4.5 and later,
523         ciblnd    - Topspin 3.2.0,
524         iiblnd    - Infiniserv 3.3 + PathBits patch,
525         gmlnd     - GM 2.1.22 and later,
526         mxlnd     - MX 1.2.1 or later,
527         ptllnd    - Portals 3.3 / UNICOS/lc 1.5.x, 2.0.x
528 Severity   : normal
529 Bugzilla   : 14387
530 Description: liblustre network error
531 Details    : liblustre clients should understand LNET_ACCEPT_PORT environment
532              variable even if they don't start lnet acceptor.
533
534 Severity   : normal
535 Bugzilla   : 14300
536 Description: Strange message from lnet (Ignoring prediction from the future)
537 Details    : Incorrect calculation of peer's last_alive value in ksocklnd
538
539 --------------------------------------------------------------------------------
540
541 2007-12-07         Cluster File Systems, Inc. <info@clusterfs.com>
542        * version 1.6.4
543        * Support for networks:
544         socklnd   - any kernel supported by Lustre,
545         qswlnd    - Qsnet kernel modules 5.20 and later,
546         openiblnd - IbGold 1.8.2,
547         o2iblnd   - OFED 1.1 and 1.2.0, 1.2.5.
548         viblnd    - Voltaire ibhost 3.4.5 and later,
549         ciblnd    - Topspin 3.2.0,
550         iiblnd    - Infiniserv 3.3 + PathBits patch,
551         gmlnd     - GM 2.1.22 and later,
552         mxlnd     - MX 1.2.1 or later,
553         ptllnd    - Portals 3.3 / UNICOS/lc 1.5.x, 2.0.x
554
555 Severity   : normal
556 Bugzilla   : 14238
557 Description: ASSERTION(me == md->md_me) failed in lnet_match_md()
558
559 Severity   : normal
560 Bugzilla   : 12494
561 Description: increase send queue size for ciblnd/openiblnd
562
563 Severity   : normal
564 Bugzilla   : 12302
565 Description: new userspace socklnd
566 Details    : Old userspace tcpnal that resided in lnet/ulnds/socklnd replaced
567              with new one - usocklnd.
568
569 Severity   : enhancement
570 Bugzilla   : 11686
571 Description: Console message flood
572 Details    : Make cdls ratelimiting more tunable by adding several tunable in
573              procfs /proc/sys/lnet/console_{min,max}_delay_centisecs and
574              /proc/sys/lnet/console_backoff.
575
576 --------------------------------------------------------------------------------
577
578 2007-09-27         Cluster File Systems, Inc. <info@clusterfs.com>
579        * version 1.6.3
580        * Support for networks:
581         socklnd   - any kernel supported by Lustre,
582         qswlnd    - Qsnet kernel modules 5.20 and later,
583         openiblnd - IbGold 1.8.2,
584         o2iblnd   - OFED 1.1 and 1.2,
585         viblnd    - Voltaire ibhost 3.4.5 and later,
586         ciblnd    - Topspin 3.2.0,
587         iiblnd    - Infiniserv 3.3 + PathBits patch,
588         gmlnd     - GM 2.1.22 and later,
589         mxlnd     - MX 1.2.1 or later,
590         ptllnd    - Portals 3.3 / UNICOS/lc 1.5.x, 2.0.x
591
592 Severity   : normal
593 Bugzilla   : 12782
594 Description: /proc/sys/lnet has non-sysctl entries
595 Details    : Updating dump_kernel/daemon_file/debug_mb to use sysctl variables
596
597 Severity   : major
598 Bugzilla   : 13236
599 Description: TOE Kernel panic by ksocklnd
600 Details    : offloaded sockets provide their own implementation of sendpage,
601              can't call tcp_sendpage() directly
602
603 Severity   : normal
604 Bugzilla   : 10778
605 Description: kibnal_shutdown() doesn't finish; lconf --cleanup hangs
606 Details    : races between lnd_shutdown and peer creation prevent 
607              lnd_shutdown from finishing.
608
609 Severity   : normal
610 Bugzilla   : 13279
611 Description: open files rlimit 1024 reached while liblustre testing
612 Details    : ulnds/socklnd must close open socket after unsuccessful
613              'say hello' attempt.
614
615 Severity   : major 
616 Bugzilla   : 13482
617 Description: build error
618 Details    : fix typos in gmlnd, ptllnd and viblnd
619
620 ------------------------------------------------------------------------------
621
622 2007-07-30  Cluster File Systems, Inc. <info@clusterfs.com>
623        * version 1.6.1
624        * Support for networks:
625         socklnd   - kernels up to 2.6.16,
626         qswlnd    - Qsnet kernel modules 5.20 and later,
627         openiblnd - IbGold 1.8.2,
628         o2iblnd   - OFED 1.1 and 1.2
629         viblnd    - Voltaire ibhost 3.4.5 and later,
630         ciblnd    - Topspin 3.2.0,
631         iiblnd    - Infiniserv 3.3 + PathBits patch,
632         gmlnd     - GM 2.1.22 and later,
633         mxlnd     - MX 1.2.1 or later,
634         ptllnd    - Portals 3.3 / UNICOS/lc 1.5.x, 2.0.x
635
636 2007-06-21  Cluster File Systems, Inc. <info@clusterfs.com>
637        * version 1.4.11
638        * Support for networks:
639         socklnd   - kernels up to 2.6.16,
640         qswlnd    - Qsnet kernel modules 5.20 and later,
641         openiblnd - IbGold 1.8.2,
642         o2iblnd   - OFED 1.1
643         viblnd    - Voltaire ibhost 3.4.5 and later,
644         ciblnd    - Topspin 3.2.0,
645         iiblnd    - Infiniserv 3.3 + PathBits patch,
646         gmlnd     - GM 2.1.22 and later,
647         mxlnd     - MX 1.2.1 or later,
648         ptllnd    - Portals 3.3 / UNICOS/lc 1.5.x, 2.0.x
649
650 Severity   : minor
651 Bugzilla   : 13288
652 Description: Initialize cpumask before use
653
654 Severity   : major
655 Bugzilla   : 12014
656 Description: ASSERTION failures when upgrading to the patchless zero-copy
657              socklnd 
658 Details    : This bug affects "rolling upgrades", causing an inconsistent
659              protocol version negotiation and subsequent assertion failure
660              during rolling upgrades after the first wave of upgrades.
661
662 Severity   : minor
663 Bugzilla   : 11223
664 Details    : Change "dropped message" CERRORs to D_NETERROR so they are
665              logged instead of creating "console chatter" when a lustre
666              timeout races with normal RPC completion.
667
668 Severity   : minor
669 Details    : lnet_clear_peer_table can wait forever if user forgets to
670              clear a lazy portal.
671
672 Severity   : minor
673 Details    : libcfs_id2str should check pid against LNET_PID_ANY.
674
675 Severity   : major
676 Bugzilla   : 10916
677 Description: added LNET self test
678 Details    : landing b_self_test
679
680 Severity   : minor
681 Frequency  : rare
682 Bugzilla   : 12227
683 Description: cfs_duration_{u,n}sec() wrongly calculate nanosecond part of
684              struct timeval.
685 Details    : do_div() macro is used incorrectly.
686
687 2007-04-23  Cluster File Systems, Inc. <info@clusterfs.com>
688
689 Severity   : normal
690 Bugzilla   : 11680
691 Description: make panic on lbug configurable
692
693 Severity   : major
694 Bugzilla   : 12316
695 Description: Add OFED1.2 support to o2iblnd
696 Details    : o2iblnd depends on OFED's modules, if out-tree OFED's modules
697              are installed (other than kernel's in-tree infiniband), there
698              could be some problem while insmod o2iblnd (mismatch CRC of 
699              ib_* symbols).
700              If extra Module.symvers is supported in kernel (i.e, 2.6.17),
701              this link provides solution:
702              https://bugs.openfabrics.org/show_bug.cgi?id=355
703              if extra Module.symvers is not supported in kernel, we will
704              have to run the script in bug 12316 to update
705              $LINUX/module.symvers before building o2iblnd.
706              More details about this are in bug 12316.
707
708 ------------------------------------------------------------------------------
709
710 2007-04-01  Cluster File Systems, Inc. <info@clusterfs.com>
711        * version 1.4.10 / 1.6.0
712        * Support for networks:
713         socklnd   - kernels up to 2.6.16,
714         qswlnd    - Qsnet kernel modules 5.20 and later,
715         openiblnd - IbGold 1.8.2,
716         o2iblnd   - OFED 1.1,
717         viblnd    - Voltaire ibhost 3.4.5 and later,
718         ciblnd    - Topspin 3.2.0,
719         iiblnd    - Infiniserv 3.3 + PathBits patch,
720         gmlnd     - GM 2.1.22 and later,
721         mxlnd     - MX 1.2.1 or later,
722         ptllnd    - Portals 3.3 / UNICOS/lc 1.5.x, 2.0.x
723         
724 Severity   : minor
725 Frequency  : rare
726 Description: Ptllnd didn't init kptllnd_data.kptl_idle_txs before it could be
727              possibly accessed in kptllnd_shutdown. Ptllnd should init 
728              kptllnd_data.kptl_ptlid2str_lock before calling kptllnd_ptlid2str.
729
730 Severity   : normal
731 Frequency  : rare
732 Description: gmlnd ignored some transmit errors when finalizing lnet messages.
733
734 Severity   : minor
735 Frequency  : rare
736 Description: ptllnd logs a piece of incorrect debug info in kptllnd_peer_handle_hello.
737
738 Severity   : minor
739 Frequency  : rare
740 Description: the_lnet.ln_finalizing was not set when the current thread is
741              about to complete messages. It only affects multi-threaded 
742              user space LNet.
743         
744 Severity   : normal
745 Frequency  : rare
746 Bugzilla   : 11472
747 Description: Changed the default kqswlnd ntxmsg=512
748         
749 Severity   : major
750 Frequency  : rare
751 Bugzilla   : 12458
752 Description: Assertion failure in kernel ptllnd caused by posting passive
753              bulk buffers before connection establishment complete.
754         
755 Severity   : major
756 Frequency  : rare
757 Bugzilla   : 12445
758 Description: A race in kernel ptllnd between deleting a peer and posting
759              new communications for it could hang communications -
760              manifesting as "Unexpectedly long timeout" messages.
761         
762 Severity   : major
763 Frequency  : rare
764 Bugzilla   : 12432
765 Description: Kernel ptllnd lock ordering issue could hang a node.
766         
767 Severity   : major
768 Frequency  : rare
769 Bugzilla   : 12016
770 Description: node crash on socket teardown race
771
772 Severity   : minor
773 Frequency  : 'lctl peer_list' issued on a mx net
774 Bugzilla   : 12237
775 Description: Enable lctl's peer_list for MXLND
776
777 Severity   : major
778 Frequency  : after Ptllnd timeouts and portals congestion
779 Bugzilla   : 11659
780 Description: Credit overflows
781 Details    : This was a bug in ptllnd connection establishment.  The fix
782              implements better peer stamps to disambiguate connection
783              establishment and ensure both peers enter the credit flow
784              state machine consistently.
785
786 Severity   : major
787 Frequency  : rare       
788 Bugzilla   : 11394
789 Description: kptllnd didn't propagate some network errors up to LNET 
790 Details    : This bug was spotted while investigating 11394.  The fix
791              ensures network errors on sends and bulk transfers are
792              propagated to LNET/lustre correctly.
793
794 Severity   : enhancement
795 Bugzilla   : 10316
796 Description: Fixed console chatter in case of -ETIMEDOUT.
797
798 Severity   : enhancement
799 Bugzilla   : 11684
800 Description: Added D_NETTRACE for recording network packet history
801              (initially only for ptllnd).  Also a separate userspace
802              ptllnd facility to gather history which should really be
803              covered by D_NETTRACE too, if only CDEBUG recorded history in
804              userspace.
805
806 Severity   : major
807 Frequency  : rare       
808 Bugzilla   : 11616
809 Description: o2iblnd handle early RDMA_CM_EVENT_DISCONNECTED.
810 Details    : If the fabric is lossy, an RDMA_CM_EVENT_DISCONNECTED
811              callback can occur before a connection has actually been
812              established.  This caused an assertion failure previously.
813
814 Severity   : enhancement
815 Bugzilla   : 11094
816 Description: Multiple instances for o2iblnd
817 Details    : Allow multiple instances of o2iblnd to enable networking over
818              multiple HCAs and routing between them.
819
820 Severity   : major
821 Bugzilla   : 11201
822 Description: lnet deadlock in router_checker
823 Details    : turned ksnd_connd_lock, ksnd_reaper_lock, and ksock_net_t:ksnd_lock
824              into BH locks to eliminate potential deadlock caused by
825              ksocknal_data_ready() preempting code holding these locks.
826
827 Severity   : major
828 Bugzilla   : 11126
829 Description: Millions of failed socklnd connection attempts cause a very slow FS
830 Details    : added a new route flag ksnr_scheduled to distinguish from
831              ksnr_connecting, so that a peer connection request is only turned
832              down for race concerns when an active connection to the same peer
833              is under progress (instead of just being scheduled).
834
835 ------------------------------------------------------------------------------
836
837 2007-02-09  Cluster File Systems, Inc. <info@clusterfs.com>
838        * version 1.4.9
839        * Support for networks:
840         socklnd   - kernels up to 2.6.16
841         qswlnd    - Qsnet kernel modules 5.20 and later
842         openiblnd - IbGold 1.8.2
843         o2iblnd   - OFED 1.1
844         viblnd    - Voltaire ibhost 3.4.5 and later
845         ciblnd    - Topspin 3.2.0
846         iiblnd    - Infiniserv 3.3 + PathBits patch
847         gmlnd     - GM 2.1.22 and later
848         mxlnd     - MX 1.2.1 or later
849         ptllnd    - Portals 3.3 / UNICOS/lc 1.5.x, 2.0.x
850        * bug fixes
851
852 Severity   : major on XT3
853 Bugzilla   : none
854 Description: libcfs overwrites /proc/sys/portals
855 Details    : libcfs created a symlink from /proc/sys/portals to
856              /proc/sys/lnet for backwards compatibility.  This is no
857              longer required and makes the Cray portals /proc variables
858              inaccessible.
859
860 Severity   : minor
861 Bugzilla   : 11312
862 Description: OFED FMR API change
863 Details    : This changes parameter usage to reflect a change in
864              ib_fmr_pool_map_phys() between OFED 1.0 and OFED 1.1.  Note
865              that FMR support is only used in experimental versions of the
866              o2iblnd - this change does not affect standard usage at all.
867
868 Severity   : enhancement
869 Bugzilla   : 11245
870 Description: new ko2iblnd module parameter: ib_mtu
871 Details    : the default IB MTU of 2048 performs badly on 23108 Tavor
872              HCAs.  You can avoid this problem by setting the MTU to 1024
873              using this module parameter.
874
875 Severity   : enhancement
876 Bugzilla   : 11118/11620
877 Description: ptllnd small request message buffer alignment fix
878 Details    : Set the PTL_MD_LOCAL_ALIGN8 option on small message receives.
879              Round up small message size on sends in case this option
880              is not supported.  11620 was a defect in the initial
881              implementation which effectively asserted all peers had to be
882              running the correct protocol version which was fixed by always
883              NAK-ing such requests and handling any misalignments they
884              introduce.
885
886 Severity   : minor
887 Frequency  : rarely
888 Description: When kib(nal|lnd)_del_peer() is called upon a peer whose
889              ibp_tx_queue is not empty, kib(nal|lnd)_destroy_peer()'s
890              'LASSERT(list_empty(&peer->ibp_tx_queue))' will fail.
891
892 Severity   : enhancement
893 Bugzilla   : 11250
894 Description: Patchless ZC(zero copy) socklnd
895 Details    : New protocol for socklnd, socklnd can support zero copy without
896              kernel patch, it's compatible with old socklnd. Checksum is 
897              moved from tunables to modparams.
898
899 Severity   : minor
900 Frequency  : rarely
901 Description: When ksocknal_del_peer() is called upon a peer whose
902              ksnp_tx_queue is not empty, ksocknal_destroy_peer()'s
903              'LASSERT(list_empty(&peer->ksnp_tx_queue))' will fail.
904
905 Severity   : normal
906 Frequency  : when ptlrpc is under heavy use and runs out of request buffer
907 Bugzilla   : 11318
908 Description: In lnet_match_blocked_msg(), md can be used without holding a
909              ref on it.
910
911 Severity   : minor
912 Frequency  : very rarely
913 Bugzilla   : 10727
914 Description: If ksocknal_lib_setup_sock() fails, a ref on peer is lost.
915              If connd connects a route which has been closed by
916              ksocknal_shutdown(), ksocknal_create_routes() may create new
917              routes which hold references on the peer, causing shutdown
918              process to wait for peer to disappear forever.
919
920 Severity   : enhancement
921 Bugzilla   : 11234
922 Description: Dump XT3 portals traces on kptllnd timeout
923 Details    : Set the kptllnd module parameter "ptltrace_on_timeout=1" to
924              dump Cray portals debug traces to a file.  The kptllnd module
925              parameter "ptltrace_basename", default "/tmp/lnet-ptltrace",
926              is the basename of the dump file.
927
928 Severity   : major
929 Frequency  : infrequent
930 Bugzilla   : 11308
931 Description: kernel ptllnd fix bug in connection re-establishment
932 Details    : Kernel ptllnd could produce protocol errors e.g. illegal
933              matchbits and/or violate the credit flow protocol when trying
934              to re-establish a connection with a peer after an error or
935              timeout. 
936
937 Severity   : enhancement
938 Bugzilla   : 10316
939 Description: Allow /proc/sys/lnet/debug to be set symbolically
940 Details    : Allow debug and subsystem debug values to be read/set by name
941              in addition to numerically, for ease of use.
942
943 Severity   : normal
944 Frequency  : only in configurations with LNET routers
945 Bugzilla   : 10316
946 Description: routes automatically marked down and recovered
947 Details    : In configurations with LNET routers if a router fails routers
948              now actively try to recover routes that are down, unless they
949              are marked down by an administrator.
950
951 ------------------------------------------------------------------------------
952
953 2006-12-09  Cluster File Systems, Inc. <info@clusterfs.com>
954
955 Severity   : critical
956 Frequency  : very rarely, in configurations with LNET routers and TCP
957 Bugzilla   : 10889
958 Description: incorrect data written to files on OSTs
959 Details    : In certain high-load conditions incorrect data may be written
960              to files on the OST when using TCP networks.
961
962 ------------------------------------------------------------------------------
963
964 2006-07-31  Cluster File Systems, Inc. <info@clusterfs.com>
965         * version 1.4.7
966         - rework CDEBUG messages rate-limiting mechanism b=10375
967         - add per-socket tunables for socklnd if the kernel is patched b=10327
968
969 ------------------------------------------------------------------------------
970
971 2006-02-15  Cluster File Systems, Inc. <info@clusterfs.com>
972         * version 1.4.6
973         - fix use of portals/lnet pid to avoid dropping RPCs b=10074
974         - iiblnd wasn't mapping all memory, resulting in comms errors b=9776
975         - quiet LNET startup LNI message for liblustre b=10128
976         - Better console error messages if 'ip2nets' can't match an IP address
977         - Fixed overflow/use-before-set bugs in linux-time.h
978         - Fixed ptllnd bug that wasn't initialising rx descriptors completely
979         - LNET teardown failed an assertion about the route table being empty
980         - Fixed a crash in LNetEQPoll(<invalid handle>)
981         - Future protocol compatibility work (b_rls146_lnetprotovrsn)
982         - improve debug message for liblustre/Catamount nodes (b=10116)
983
984 2005-10-10  Cluster File Systems, Inc. <info@clusterfs.com>
985         * Configuration change for the XT3
986              The PTLLND is now used to run Lustre over Portals on the XT3.
987              The configure option(s) --with-cray-portals are no longer
988              used.  Rather --with-portals=<path-to-portals-includes> is
989              used to enable building on the XT3.  In addition to enable
990              XT3 specific features the option --enable-cray-xt3 must be
991              used.
992
993 2005-10-10  Cluster File Systems, Inc. <info@clusterfs.com>
994         * Portals has been removed, replaced by LNET.
995            LNET is new networking infrastructure for Lustre, it includes a
996            reorganized network configuration mode (see the user
997            documentation for full details) as well as support for routing
998            between different network fabrics.  Lustre Networking Devices
999            (LNDS) for the supported network fabrics have also been created
1000            for this new infrastructure.
1001
1002 2005-08-08  Cluster File Systems, Inc. <info@clusterfs.com>
1003        * version 1.4.4
1004        * bug fixes
1005
1006 Severity   : major
1007 Frequency  : rare (large Voltaire clusters only)
1008 Bugzilla   : 6993
1009 Description: the default number of reserved transmit descriptors was too low
1010              for some large clusters
1011 Details    : As a workaround, the number was increased.  A proper fix includes
1012              a run-time tunable.
1013
1014 2005-06-02  Cluster File Systems, Inc. <info@clusterfs.com>
1015        * version 1.4.3
1016        * bug fixes
1017
1018 Severity   : major
1019 Frequency  : occasional (large-scale events, cluster reboot, network failure)
1020 Bugzilla   : 6411
1021 Description: too many error messages on console obscure actual problem and
1022              can slow down/panic server, or cause recovery to fail repeatedly
1023 Details    : enable rate-limiting of console error messages, and some messages
1024              that were console errors now only go to the kernel log
1025
1026 Severity   : enhancement
1027 Bugzilla   : 1693
1028 Description: add /proc/sys/portals/catastrophe entry which will report if
1029              that node has previously LBUGged
1030
1031 2005-04-06  Cluster File Systems, Inc. <info@clusterfs.com>
1032        * bugs
1033         - update gmnal to use PTL_MTU, fix module refcounting (b=5786)
1034
1035 2005-04-04  Cluster File Systems, Inc. <info@clusterfs.com>
1036        * bugs
1037         - handle error return code in kranal_check_fma_rx() (5915,6054)
1038
1039 2005-02-04  Cluster File Systems, Inc. <info@clusterfs.com>
1040        * miscellania
1041         - update vibnal (Voltaire IB NAL)
1042         - update gmnal (Myrinet NAL), gmnalid
1043
1044 2005-02-04  Eric Barton  <eeb@bartonsoftware.com>
1045
1046         * Landed portals:b_port_step as follows...
1047
1048           - removed CFS_DECL_SPIN* 
1049             just use 'spinlock_t' and initialise with spin_lock_init()
1050
1051           - removed CFS_DECL_MUTEX*
1052             just use 'struct semaphore' and initialise with init_mutex()
1053
1054           - removed CFS_DECL_RWSEM*
1055             just use 'struct rw_semaphore' and initialise with init_rwsem()
1056
1057           - renamed cfs_sleep_chan -> cfs_waitq
1058                     cfs_sleep_link -> cfs_waitlink
1059
1060           - fixed race in linux version of arch-independent socknal
1061             (the ENOMEM/EAGAIN decision).
1062
1063           - Didn't fix problems in Darwin version of arch-independent socknal
1064             (resetting socket callbacks, eager ack hack, ENOMEM/EAGAIN decision)
1065
1066           - removed libcfs types from non-socknal header files (only some types
1067             in the header files had been changed; the .c files hadn't been
1068             updated at all).