Whamcloud - gitweb
Landing b_hd_newconfig on HEAD
[fs/lustre-release.git] / lnet / ChangeLog
1 TBD         Cluster File Systems, Inc. <info@clusterfs.com>
2        * version 1.4.10
3        * Support for networks:
4         socklnd   - kernels up to 2.6.15 (I believe this is accurate, SLES10)
5         qswlnd    - Qsnet kernel modules 5.20 and later
6         openiblnd - IbGold 1.8.2
7         o2iblnd   - OFED 1.1
8         viblnd    - Voltaire ibhost 3.4.5 and later
9         ciblnd    - Topspin 3.2.0
10         iiblnd    - Infiniserv 3.3 + PathBits patch
11         gmlnd     - GM 2.1.22 and later
12         mxlnd     - MX 1.2.1 or later
13         ptllnd    - Portals 3.3 / UNICOS/lc 1.5.x, 2.0.x
14        * bug fixes
15
16 Severity   : major
17 Frequency  : rare       
18 Bugzilla   : 11616
19 Description: o2iblnd handle early RDMA_CM_EVENT_DISCONNECTED.
20 Details    : If the fabric is lossy, an RDMA_CM_EVENT_DISCONNECTED
21              callback can occur before a connection has actually been
22              established.  This caused an assertion failure previously.
23
24 Severity   : enhancement
25 Bugzilla   : 11094
26 Description: Multiple instances for o2iblnd
27 Details    : Allow multiple instances of o2iblnd to enable networking over
28              multiple HCAs and routing between them.
29
30 Severity   : major
31 Bugzilla   : 11201
32 Description: lnet deadlock in router_checker
33 Details    : turned ksnd_connd_lock, ksnd_reaper_lock, and ksock_net_t:ksnd_lock
34              into BH locks to eliminate potential deadlock caused by
35              ksocknal_data_ready() preempting code holding these locks.
36
37 Severity   : major
38 Bugzilla   : 11126
39 Description: Millions of failed socklnd connection attempts cause a very slow FS
40 Details    : added a new route flag ksnr_scheduled to distinguish from
41              ksnr_connecting, so that a peer connection request is only turned
42              down for race concerns when an active connection to the same peer
43              is under progress (instead of just being scheduled).
44
45 ------------------------------------------------------------------------------
46
47 2007-02-09  Cluster File Systems, Inc. <info@clusterfs.com>
48        * version 1.4.9
49        * Support for networks:
50         socklnd   - kernels up to 2.6.15 (I believe this is accurate, SLES10)
51         qswlnd    - Qsnet kernel modules 5.20 and later
52         openiblnd - IbGold 1.8.2
53         o2iblnd   - OFED 1.1
54         viblnd    - Voltaire ibhost 3.4.5 and later
55         ciblnd    - Topspin 3.2.0
56         iiblnd    - Infiniserv 3.3 + PathBits patch
57         gmlnd     - GM 2.1.22 and later
58         mxlnd     - MX 1.2.1 or later
59         ptllnd    - Portals 3.3 / UNICOS/lc 1.5.x, 2.0.x
60        * bug fixes
61
62 Severity   : major on XT3
63 Bugzilla   : none
64 Description: libcfs overwrites /proc/sys/portals
65 Details    : libcfs created a symlink from /proc/sys/portals to
66              /proc/sys/lnet for backwards compatibility.  This is no
67              longer required and makes the Cray portals /proc variables
68              inaccessible.
69              
70 Severity   : minor
71 Bugzilla   : 11312
72 Description: OFED FMR API change
73 Details    : This changes parameter usage to reflect a change in
74              ib_fmr_pool_map_phys() between OFED 1.0 and OFED 1.1.  Note
75              that FMR support is only used in experimental versions of the
76              o2iblnd - this change does not affect standard usage at all.
77              
78 Severity   : enhancement
79 Bugzilla   : 11245
80 Description: new ko2iblnd module parameter: ib_mtu
81 Details    : the default IB MTU of 2048 performs badly on 23108 Tavor
82              HCAs.  You can avoid this problem by setting the MTU to 1024
83              using this module parameter.
84              
85 Severity   : enhancement
86 Bugzilla   : 11118/11620
87 Description: ptllnd small request message buffer alignment fix
88 Details    : Set the PTL_MD_LOCAL_ALIGN8 option on small message receives.
89              Round up small message size on sends in case this option
90              is not supported.  11620 was a defect in the initial
91              implementation which effectively asserted all peers had to be
92              running the correct protocol version which was fixed by always
93              NAK-ing such requests and handling any misalignments they
94              introduce.
95              
96 Severity   : minor
97 Frequency  : rarely
98 Description: When kib(nal|lnd)_del_peer() is called upon a peer whose
99              ibp_tx_queue is not empty, kib(nal|lnd)_destroy_peer()'s
100              'LASSERT(list_empty(&peer->ibp_tx_queue))' will fail.
101
102 Severity   : enhancement
103 Bugzilla   : 11250
104 Description: Patchless ZC(zero copy) socklnd
105 Details    : New protocol for socklnd, socklnd can support zero copy without
106              kernel patch, it's compatible with old socklnd. Checksum is 
107              moved from tunables to modparams.
108
109 Severity   : minor
110 Frequency  : rarely
111 Description: When ksocknal_del_peer() is called upon a peer whose
112              ksnp_tx_queue is not empty, ksocknal_destroy_peer()'s
113              'LASSERT(list_empty(&peer->ksnp_tx_queue))' will fail.
114
115 Severity   : normal
116 Frequency  : when ptlrpc is under heavy use and runs out of request buffer
117 Bugzilla   : 11318
118 Description: In lnet_match_blocked_msg(), md can be used without holding a
119              ref on it.
120
121 Severity   : minor
122 Frequency  : very rarely
123 Bugzilla   : 10727
124 Description: If ksocknal_lib_setup_sock() fails, a ref on peer is lost.
125              If connd connects a route which has been closed by
126              ksocknal_shutdown(), ksocknal_create_routes() may create new
127              routes which hold references on the peer, causing shutdown
128              process to wait for peer to disappear forever.
129
130 Severity   : enhancement
131 Bugzilla   : 11234
132 Description: Dump XT3 portals traces on kptllnd timeout
133 Details    : Set the kptllnd module parameter "ptltrace_on_timeout=1" to
134              dump Cray portals debug traces to a file.  The kptllnd module
135              parameter "ptltrace_basename", default "/tmp/lnet-ptltrace",
136              is the basename of the dump file.
137         
138 Severity   : major
139 Frequency  : infrequent
140 Bugzilla   : 11308
141 Description: kernel ptllnd fix bug in connection re-establishment
142 Details    : Kernel ptllnd could produce protocol errors e.g. illegal
143              matchbits and/or violate the credit flow protocol when trying
144              to re-establish a connection with a peer after an error or
145              timeout. 
146         
147 Severity   : enhancement
148 Bugzilla   : 10316
149 Description: Allow /proc/sys/lnet/debug to be set symbolically
150 Details    : Allow debug and subsystem debug values to be read/set by name
151              in addition to numerically, for ease of use.
152
153 Severity   : normal
154 Frequency  : only in configurations with LNET routers
155 Bugzilla   : 10316
156 Description: routes automatically marked down and recovered
157 Details    : In configurations with LNET routers if a router fails routers
158              now actively try to recover routes that are down, unless they
159              are marked down by an administrator.
160
161 ------------------------------------------------------------------------------
162
163 2006-07-31  Cluster File Systems, Inc. <info@clusterfs.com>
164         * version 1.4.7
165         - rework CDEBUG messages rate-limiting mechanism b=10375
166         - add per-socket tunables for socklnd if the kernel is patched b=10327
167
168 ------------------------------------------------------------------------------
169
170 2006-02-15  Cluster File Systems, Inc. <info@clusterfs.com>
171         * version 1.4.6
172         - fix use of portals/lnet pid to avoid dropping RPCs b=10074
173         - iiblnd wasn't mapping all memory, resulting in comms errors b=9776
174         - quiet LNET startup LNI message for liblustre b=10128
175         - Better console error messages if 'ip2nets' can't match an IP address
176         - Fixed overflow/use-before-set bugs in linux-time.h
177         - Fixed ptllnd bug that wasn't initialising rx descriptors completely
178         - LNET teardown failed an assertion about the route table being empty
179         - Fixed a crash in LNetEQPoll(<invalid handle>)
180         - Future protocol compatibility work (b_rls146_lnetprotovrsn)
181         - improve debug message for liblustre/Catamount nodes (b=10116)
182
183 2005-10-10  Cluster File Systems, Inc. <info@clusterfs.com>
184         * Configuration change for the XT3
185              The PTLLND is now used to run Lustre over Portals on the XT3.
186              The configure option(s) --with-cray-portals are no longer
187              used.  Rather --with-portals=<path-to-portals-includes> is
188              used to enable building on the XT3.  In addition to enable
189              XT3 specific features the option --enable-cray-xt3 must be
190              used.
191
192 2005-10-10  Cluster File Systems, Inc. <info@clusterfs.com>
193         * Portals has been removed, replaced by LNET.
194            LNET is new networking infrastructure for Lustre, it includes a
195            reorganized network configuration mode (see the user
196            documentation for full details) as well as support for routing
197            between different network fabrics.  Lustre Networking Devices
198            (LNDS) for the supported network fabrics have also been created
199            for this new infrastructure.
200         
201 2005-08-08  Cluster File Systems, Inc. <info@clusterfs.com>
202        * version 1.4.4
203        * bug fixes
204
205 Severity   : major
206 Frequency  : rare (large Voltaire clusters only)
207 Bugzilla   : 6993
208 Description: the default number of reserved transmit descriptors was too low
209              for some large clusters
210 Details    : As a workaround, the number was increased.  A proper fix includes
211              a run-time tunable.
212
213 2005-06-02  Cluster File Systems, Inc. <info@clusterfs.com>
214        * version 1.4.3
215        * bug fixes
216
217 Severity   : major
218 Frequency  : occasional (large-scale events, cluster reboot, network failure)
219 Bugzilla   : 6411
220 Description: too many error messages on console obscure actual problem and
221              can slow down/panic server, or cause recovery to fail repeatedly
222 Details    : enable rate-limiting of console error messages, and some messages
223              that were console errors now only go to the kernel log
224
225 Severity   : enhancement
226 Bugzilla   : 1693
227 Description: add /proc/sys/portals/catastrophe entry which will report if
228              that node has previously LBUGged
229
230 2005-04-06  Cluster File Systems, Inc. <info@clusterfs.com>
231        * bugs
232         - update gmnal to use PTL_MTU, fix module refcounting (b=5786)
233
234 2005-04-04  Cluster File Systems, Inc. <info@clusterfs.com>
235        * bugs
236         - handle error return code in kranal_check_fma_rx() (5915,6054)
237
238 2005-02-04  Cluster File Systems, Inc. <info@clusterfs.com>
239        * miscellania
240         - update vibnal (Voltaire IB NAL)
241         - update gmnal (Myrinet NAL), gmnalid
242
243 2005-02-04  Eric Barton  <eeb@bartonsoftware.com>
244
245         * Landed portals:b_port_step as follows...
246
247           - removed CFS_DECL_SPIN* 
248             just use 'spinlock_t' and initialise with spin_lock_init()
249
250           - removed CFS_DECL_MUTEX*
251             just use 'struct semaphore' and initialise with init_mutex()
252
253           - removed CFS_DECL_RWSEM*
254             just use 'struct rw_semaphore' and initialise with init_rwsem()
255
256           - renamed cfs_sleep_chan -> cfs_waitq
257                     cfs_sleep_link -> cfs_waitlink
258
259           - fixed race in linux version of arch-independent socknal
260             (the ENOMEM/EAGAIN decision).
261
262           - Didn't fix problems in Darwin version of arch-independent socknal
263             (resetting socket callbacks, eager ack hack, ENOMEM/EAGAIN decision)
264
265           - removed libcfs types from non-socknal header files (only some types
266             in the header files had been changed; the .c files hadn't been
267             updated at all).