Whamcloud - gitweb
Severity : enhancement
[fs/lustre-release.git] / lnet / ChangeLog
1 TBD         Cluster File Systems, Inc. <info@clusterfs.com>
2        * version 1.4.10
3        * Support for networks:
4         socklnd   - kernels up to 2.6.16
5         qswlnd    - Qsnet kernel modules 5.20 and later
6         openiblnd - IbGold 1.8.2
7         o2iblnd   - OFED 1.1
8         viblnd    - Voltaire ibhost 3.4.5 and later
9         ciblnd    - Topspin 3.2.0
10         iiblnd    - Infiniserv 3.3 + PathBits patch
11         gmlnd     - GM 2.1.22 and later
12         mxlnd     - MX 1.2.1 or later
13         ptllnd    - Portals 3.3 / UNICOS/lc 1.5.x, 2.0.x
14        * bug fixes
15
16 Severity   : enhancement
17 Bugzilla   : 11684
18 Description: Added D_NETTRACE for recording network packet history
19              (initially only for ptllnd).  Also a separate userspace
20              ptllnd facility to gather history which should really be
21              covered by D_NETTRACE too, if only CDEBUG recorded history in
22              userspace.
23
24 Severity   : major
25 Frequency  : rare       
26 Bugzilla   : 11616
27 Description: o2iblnd handle early RDMA_CM_EVENT_DISCONNECTED.
28 Details    : If the fabric is lossy, an RDMA_CM_EVENT_DISCONNECTED
29              callback can occur before a connection has actually been
30              established.  This caused an assertion failure previously.
31
32 Severity   : enhancement
33 Bugzilla   : 11094
34 Description: Multiple instances for o2iblnd
35 Details    : Allow multiple instances of o2iblnd to enable networking over
36              multiple HCAs and routing between them.
37
38 Severity   : major
39 Bugzilla   : 11201
40 Description: lnet deadlock in router_checker
41 Details    : turned ksnd_connd_lock, ksnd_reaper_lock, and ksock_net_t:ksnd_lock
42              into BH locks to eliminate potential deadlock caused by
43              ksocknal_data_ready() preempting code holding these locks.
44
45 Severity   : major
46 Bugzilla   : 11126
47 Description: Millions of failed socklnd connection attempts cause a very slow FS
48 Details    : added a new route flag ksnr_scheduled to distinguish from
49              ksnr_connecting, so that a peer connection request is only turned
50              down for race concerns when an active connection to the same peer
51              is under progress (instead of just being scheduled).
52
53 ------------------------------------------------------------------------------
54
55 2007-02-09  Cluster File Systems, Inc. <info@clusterfs.com>
56        * version 1.4.9
57        * Support for networks:
58         socklnd   - kernels up to 2.6.16
59         qswlnd    - Qsnet kernel modules 5.20 and later
60         openiblnd - IbGold 1.8.2
61         o2iblnd   - OFED 1.1
62         viblnd    - Voltaire ibhost 3.4.5 and later
63         ciblnd    - Topspin 3.2.0
64         iiblnd    - Infiniserv 3.3 + PathBits patch
65         gmlnd     - GM 2.1.22 and later
66         mxlnd     - MX 1.2.1 or later
67         ptllnd    - Portals 3.3 / UNICOS/lc 1.5.x, 2.0.x
68        * bug fixes
69
70 Severity   : major on XT3
71 Bugzilla   : none
72 Description: libcfs overwrites /proc/sys/portals
73 Details    : libcfs created a symlink from /proc/sys/portals to
74              /proc/sys/lnet for backwards compatibility.  This is no
75              longer required and makes the Cray portals /proc variables
76              inaccessible.
77              
78 Severity   : minor
79 Bugzilla   : 11312
80 Description: OFED FMR API change
81 Details    : This changes parameter usage to reflect a change in
82              ib_fmr_pool_map_phys() between OFED 1.0 and OFED 1.1.  Note
83              that FMR support is only used in experimental versions of the
84              o2iblnd - this change does not affect standard usage at all.
85              
86 Severity   : enhancement
87 Bugzilla   : 11245
88 Description: new ko2iblnd module parameter: ib_mtu
89 Details    : the default IB MTU of 2048 performs badly on 23108 Tavor
90              HCAs.  You can avoid this problem by setting the MTU to 1024
91              using this module parameter.
92              
93 Severity   : enhancement
94 Bugzilla   : 11118/11620
95 Description: ptllnd small request message buffer alignment fix
96 Details    : Set the PTL_MD_LOCAL_ALIGN8 option on small message receives.
97              Round up small message size on sends in case this option
98              is not supported.  11620 was a defect in the initial
99              implementation which effectively asserted all peers had to be
100              running the correct protocol version which was fixed by always
101              NAK-ing such requests and handling any misalignments they
102              introduce.
103              
104 Severity   : minor
105 Frequency  : rarely
106 Description: When kib(nal|lnd)_del_peer() is called upon a peer whose
107              ibp_tx_queue is not empty, kib(nal|lnd)_destroy_peer()'s
108              'LASSERT(list_empty(&peer->ibp_tx_queue))' will fail.
109
110 Severity   : enhancement
111 Bugzilla   : 11250
112 Description: Patchless ZC(zero copy) socklnd
113 Details    : New protocol for socklnd, socklnd can support zero copy without
114              kernel patch, it's compatible with old socklnd. Checksum is 
115              moved from tunables to modparams.
116
117 Severity   : minor
118 Frequency  : rarely
119 Description: When ksocknal_del_peer() is called upon a peer whose
120              ksnp_tx_queue is not empty, ksocknal_destroy_peer()'s
121              'LASSERT(list_empty(&peer->ksnp_tx_queue))' will fail.
122
123 Severity   : normal
124 Frequency  : when ptlrpc is under heavy use and runs out of request buffer
125 Bugzilla   : 11318
126 Description: In lnet_match_blocked_msg(), md can be used without holding a
127              ref on it.
128
129 Severity   : minor
130 Frequency  : very rarely
131 Bugzilla   : 10727
132 Description: If ksocknal_lib_setup_sock() fails, a ref on peer is lost.
133              If connd connects a route which has been closed by
134              ksocknal_shutdown(), ksocknal_create_routes() may create new
135              routes which hold references on the peer, causing shutdown
136              process to wait for peer to disappear forever.
137
138 Severity   : enhancement
139 Bugzilla   : 11234
140 Description: Dump XT3 portals traces on kptllnd timeout
141 Details    : Set the kptllnd module parameter "ptltrace_on_timeout=1" to
142              dump Cray portals debug traces to a file.  The kptllnd module
143              parameter "ptltrace_basename", default "/tmp/lnet-ptltrace",
144              is the basename of the dump file.
145         
146 Severity   : major
147 Frequency  : infrequent
148 Bugzilla   : 11308
149 Description: kernel ptllnd fix bug in connection re-establishment
150 Details    : Kernel ptllnd could produce protocol errors e.g. illegal
151              matchbits and/or violate the credit flow protocol when trying
152              to re-establish a connection with a peer after an error or
153              timeout. 
154         
155 Severity   : enhancement
156 Bugzilla   : 10316
157 Description: Allow /proc/sys/lnet/debug to be set symbolically
158 Details    : Allow debug and subsystem debug values to be read/set by name
159              in addition to numerically, for ease of use.
160
161 Severity   : normal
162 Frequency  : only in configurations with LNET routers
163 Bugzilla   : 10316
164 Description: routes automatically marked down and recovered
165 Details    : In configurations with LNET routers if a router fails routers
166              now actively try to recover routes that are down, unless they
167              are marked down by an administrator.
168
169 ------------------------------------------------------------------------------
170
171 2006-07-31  Cluster File Systems, Inc. <info@clusterfs.com>
172         * version 1.4.7
173         - rework CDEBUG messages rate-limiting mechanism b=10375
174         - add per-socket tunables for socklnd if the kernel is patched b=10327
175
176 ------------------------------------------------------------------------------
177
178 2006-02-15  Cluster File Systems, Inc. <info@clusterfs.com>
179         * version 1.4.6
180         - fix use of portals/lnet pid to avoid dropping RPCs b=10074
181         - iiblnd wasn't mapping all memory, resulting in comms errors b=9776
182         - quiet LNET startup LNI message for liblustre b=10128
183         - Better console error messages if 'ip2nets' can't match an IP address
184         - Fixed overflow/use-before-set bugs in linux-time.h
185         - Fixed ptllnd bug that wasn't initialising rx descriptors completely
186         - LNET teardown failed an assertion about the route table being empty
187         - Fixed a crash in LNetEQPoll(<invalid handle>)
188         - Future protocol compatibility work (b_rls146_lnetprotovrsn)
189         - improve debug message for liblustre/Catamount nodes (b=10116)
190
191 2005-10-10  Cluster File Systems, Inc. <info@clusterfs.com>
192         * Configuration change for the XT3
193              The PTLLND is now used to run Lustre over Portals on the XT3.
194              The configure option(s) --with-cray-portals are no longer
195              used.  Rather --with-portals=<path-to-portals-includes> is
196              used to enable building on the XT3.  In addition to enable
197              XT3 specific features the option --enable-cray-xt3 must be
198              used.
199
200 2005-10-10  Cluster File Systems, Inc. <info@clusterfs.com>
201         * Portals has been removed, replaced by LNET.
202            LNET is new networking infrastructure for Lustre, it includes a
203            reorganized network configuration mode (see the user
204            documentation for full details) as well as support for routing
205            between different network fabrics.  Lustre Networking Devices
206            (LNDS) for the supported network fabrics have also been created
207            for this new infrastructure.
208         
209 2005-08-08  Cluster File Systems, Inc. <info@clusterfs.com>
210        * version 1.4.4
211        * bug fixes
212
213 Severity   : major
214 Frequency  : rare (large Voltaire clusters only)
215 Bugzilla   : 6993
216 Description: the default number of reserved transmit descriptors was too low
217              for some large clusters
218 Details    : As a workaround, the number was increased.  A proper fix includes
219              a run-time tunable.
220
221 2005-06-02  Cluster File Systems, Inc. <info@clusterfs.com>
222        * version 1.4.3
223        * bug fixes
224
225 Severity   : major
226 Frequency  : occasional (large-scale events, cluster reboot, network failure)
227 Bugzilla   : 6411
228 Description: too many error messages on console obscure actual problem and
229              can slow down/panic server, or cause recovery to fail repeatedly
230 Details    : enable rate-limiting of console error messages, and some messages
231              that were console errors now only go to the kernel log
232
233 Severity   : enhancement
234 Bugzilla   : 1693
235 Description: add /proc/sys/portals/catastrophe entry which will report if
236              that node has previously LBUGged
237
238 2005-04-06  Cluster File Systems, Inc. <info@clusterfs.com>
239        * bugs
240         - update gmnal to use PTL_MTU, fix module refcounting (b=5786)
241
242 2005-04-04  Cluster File Systems, Inc. <info@clusterfs.com>
243        * bugs
244         - handle error return code in kranal_check_fma_rx() (5915,6054)
245
246 2005-02-04  Cluster File Systems, Inc. <info@clusterfs.com>
247        * miscellania
248         - update vibnal (Voltaire IB NAL)
249         - update gmnal (Myrinet NAL), gmnalid
250
251 2005-02-04  Eric Barton  <eeb@bartonsoftware.com>
252
253         * Landed portals:b_port_step as follows...
254
255           - removed CFS_DECL_SPIN* 
256             just use 'spinlock_t' and initialise with spin_lock_init()
257
258           - removed CFS_DECL_MUTEX*
259             just use 'struct semaphore' and initialise with init_mutex()
260
261           - removed CFS_DECL_RWSEM*
262             just use 'struct rw_semaphore' and initialise with init_rwsem()
263
264           - renamed cfs_sleep_chan -> cfs_waitq
265                     cfs_sleep_link -> cfs_waitlink
266
267           - fixed race in linux version of arch-independent socknal
268             (the ENOMEM/EAGAIN decision).
269
270           - Didn't fix problems in Darwin version of arch-independent socknal
271             (resetting socket callbacks, eager ack hack, ENOMEM/EAGAIN decision)
272
273           - removed libcfs types from non-socknal header files (only some types
274             in the header files had been changed; the .c files hadn't been
275             updated at all).