Whamcloud - gitweb
d7fcde8345f4fb682226c7c0a9e570a2755a8063
[fs/lustre-release.git] / lnet / ChangeLog
1 TBD         Cluster File Systems, Inc. <info@clusterfs.com>
2        * version 1.4.10
3        * Support for networks:
4         socklnd   - kernels up to 2.6.16
5         qswlnd    - Qsnet kernel modules 5.20 and later
6         openiblnd - IbGold 1.8.2
7         o2iblnd   - OFED 1.1
8         viblnd    - Voltaire ibhost 3.4.5 and later
9         ciblnd    - Topspin 3.2.0
10         iiblnd    - Infiniserv 3.3 + PathBits patch
11         gmlnd     - GM 2.1.22 and later
12         mxlnd     - MX 1.2.1 or later
13         ptllnd    - Portals 3.3 / UNICOS/lc 1.5.x, 2.0.x
14        * bug fixes
15
16 Severity   : enhancement
17 Bugzilla   : 10316
18 Description: Fixed console chatter in case of -ETIMEDOUT.
19
20 Severity   : enhancement
21 Bugzilla   : 11684
22 Description: Added D_NETTRACE for recording network packet history
23              (initially only for ptllnd).  Also a separate userspace
24              ptllnd facility to gather history which should really be
25              covered by D_NETTRACE too, if only CDEBUG recorded history in
26              userspace.
27
28 Severity   : major
29 Frequency  : rare       
30 Bugzilla   : 11616
31 Description: o2iblnd handle early RDMA_CM_EVENT_DISCONNECTED.
32 Details    : If the fabric is lossy, an RDMA_CM_EVENT_DISCONNECTED
33              callback can occur before a connection has actually been
34              established.  This caused an assertion failure previously.
35
36 Severity   : enhancement
37 Bugzilla   : 11094
38 Description: Multiple instances for o2iblnd
39 Details    : Allow multiple instances of o2iblnd to enable networking over
40              multiple HCAs and routing between them.
41
42 Severity   : major
43 Bugzilla   : 11201
44 Description: lnet deadlock in router_checker
45 Details    : turned ksnd_connd_lock, ksnd_reaper_lock, and ksock_net_t:ksnd_lock
46              into BH locks to eliminate potential deadlock caused by
47              ksocknal_data_ready() preempting code holding these locks.
48
49 Severity   : major
50 Bugzilla   : 11126
51 Description: Millions of failed socklnd connection attempts cause a very slow FS
52 Details    : added a new route flag ksnr_scheduled to distinguish from
53              ksnr_connecting, so that a peer connection request is only turned
54              down for race concerns when an active connection to the same peer
55              is under progress (instead of just being scheduled).
56
57 ------------------------------------------------------------------------------
58
59 2007-02-09  Cluster File Systems, Inc. <info@clusterfs.com>
60        * version 1.4.9
61        * Support for networks:
62         socklnd   - kernels up to 2.6.16
63         qswlnd    - Qsnet kernel modules 5.20 and later
64         openiblnd - IbGold 1.8.2
65         o2iblnd   - OFED 1.1
66         viblnd    - Voltaire ibhost 3.4.5 and later
67         ciblnd    - Topspin 3.2.0
68         iiblnd    - Infiniserv 3.3 + PathBits patch
69         gmlnd     - GM 2.1.22 and later
70         mxlnd     - MX 1.2.1 or later
71         ptllnd    - Portals 3.3 / UNICOS/lc 1.5.x, 2.0.x
72        * bug fixes
73
74 Severity   : major on XT3
75 Bugzilla   : none
76 Description: libcfs overwrites /proc/sys/portals
77 Details    : libcfs created a symlink from /proc/sys/portals to
78              /proc/sys/lnet for backwards compatibility.  This is no
79              longer required and makes the Cray portals /proc variables
80              inaccessible.
81              
82 Severity   : minor
83 Bugzilla   : 11312
84 Description: OFED FMR API change
85 Details    : This changes parameter usage to reflect a change in
86              ib_fmr_pool_map_phys() between OFED 1.0 and OFED 1.1.  Note
87              that FMR support is only used in experimental versions of the
88              o2iblnd - this change does not affect standard usage at all.
89              
90 Severity   : enhancement
91 Bugzilla   : 11245
92 Description: new ko2iblnd module parameter: ib_mtu
93 Details    : the default IB MTU of 2048 performs badly on 23108 Tavor
94              HCAs.  You can avoid this problem by setting the MTU to 1024
95              using this module parameter.
96              
97 Severity   : enhancement
98 Bugzilla   : 11118/11620
99 Description: ptllnd small request message buffer alignment fix
100 Details    : Set the PTL_MD_LOCAL_ALIGN8 option on small message receives.
101              Round up small message size on sends in case this option
102              is not supported.  11620 was a defect in the initial
103              implementation which effectively asserted all peers had to be
104              running the correct protocol version which was fixed by always
105              NAK-ing such requests and handling any misalignments they
106              introduce.
107              
108 Severity   : minor
109 Frequency  : rarely
110 Description: When kib(nal|lnd)_del_peer() is called upon a peer whose
111              ibp_tx_queue is not empty, kib(nal|lnd)_destroy_peer()'s
112              'LASSERT(list_empty(&peer->ibp_tx_queue))' will fail.
113
114 Severity   : enhancement
115 Bugzilla   : 11250
116 Description: Patchless ZC(zero copy) socklnd
117 Details    : New protocol for socklnd, socklnd can support zero copy without
118              kernel patch, it's compatible with old socklnd. Checksum is 
119              moved from tunables to modparams.
120
121 Severity   : minor
122 Frequency  : rarely
123 Description: When ksocknal_del_peer() is called upon a peer whose
124              ksnp_tx_queue is not empty, ksocknal_destroy_peer()'s
125              'LASSERT(list_empty(&peer->ksnp_tx_queue))' will fail.
126
127 Severity   : normal
128 Frequency  : when ptlrpc is under heavy use and runs out of request buffer
129 Bugzilla   : 11318
130 Description: In lnet_match_blocked_msg(), md can be used without holding a
131              ref on it.
132
133 Severity   : minor
134 Frequency  : very rarely
135 Bugzilla   : 10727
136 Description: If ksocknal_lib_setup_sock() fails, a ref on peer is lost.
137              If connd connects a route which has been closed by
138              ksocknal_shutdown(), ksocknal_create_routes() may create new
139              routes which hold references on the peer, causing shutdown
140              process to wait for peer to disappear forever.
141
142 Severity   : enhancement
143 Bugzilla   : 11234
144 Description: Dump XT3 portals traces on kptllnd timeout
145 Details    : Set the kptllnd module parameter "ptltrace_on_timeout=1" to
146              dump Cray portals debug traces to a file.  The kptllnd module
147              parameter "ptltrace_basename", default "/tmp/lnet-ptltrace",
148              is the basename of the dump file.
149         
150 Severity   : major
151 Frequency  : infrequent
152 Bugzilla   : 11308
153 Description: kernel ptllnd fix bug in connection re-establishment
154 Details    : Kernel ptllnd could produce protocol errors e.g. illegal
155              matchbits and/or violate the credit flow protocol when trying
156              to re-establish a connection with a peer after an error or
157              timeout. 
158         
159 Severity   : enhancement
160 Bugzilla   : 10316
161 Description: Allow /proc/sys/lnet/debug to be set symbolically
162 Details    : Allow debug and subsystem debug values to be read/set by name
163              in addition to numerically, for ease of use.
164
165 Severity   : normal
166 Frequency  : only in configurations with LNET routers
167 Bugzilla   : 10316
168 Description: routes automatically marked down and recovered
169 Details    : In configurations with LNET routers if a router fails routers
170              now actively try to recover routes that are down, unless they
171              are marked down by an administrator.
172
173 ------------------------------------------------------------------------------
174
175 2006-07-31  Cluster File Systems, Inc. <info@clusterfs.com>
176         * version 1.4.7
177         - rework CDEBUG messages rate-limiting mechanism b=10375
178         - add per-socket tunables for socklnd if the kernel is patched b=10327
179
180 ------------------------------------------------------------------------------
181
182 2006-02-15  Cluster File Systems, Inc. <info@clusterfs.com>
183         * version 1.4.6
184         - fix use of portals/lnet pid to avoid dropping RPCs b=10074
185         - iiblnd wasn't mapping all memory, resulting in comms errors b=9776
186         - quiet LNET startup LNI message for liblustre b=10128
187         - Better console error messages if 'ip2nets' can't match an IP address
188         - Fixed overflow/use-before-set bugs in linux-time.h
189         - Fixed ptllnd bug that wasn't initialising rx descriptors completely
190         - LNET teardown failed an assertion about the route table being empty
191         - Fixed a crash in LNetEQPoll(<invalid handle>)
192         - Future protocol compatibility work (b_rls146_lnetprotovrsn)
193         - improve debug message for liblustre/Catamount nodes (b=10116)
194
195 2005-10-10  Cluster File Systems, Inc. <info@clusterfs.com>
196         * Configuration change for the XT3
197              The PTLLND is now used to run Lustre over Portals on the XT3.
198              The configure option(s) --with-cray-portals are no longer
199              used.  Rather --with-portals=<path-to-portals-includes> is
200              used to enable building on the XT3.  In addition to enable
201              XT3 specific features the option --enable-cray-xt3 must be
202              used.
203
204 2005-10-10  Cluster File Systems, Inc. <info@clusterfs.com>
205         * Portals has been removed, replaced by LNET.
206            LNET is new networking infrastructure for Lustre, it includes a
207            reorganized network configuration mode (see the user
208            documentation for full details) as well as support for routing
209            between different network fabrics.  Lustre Networking Devices
210            (LNDS) for the supported network fabrics have also been created
211            for this new infrastructure.
212         
213 2005-08-08  Cluster File Systems, Inc. <info@clusterfs.com>
214        * version 1.4.4
215        * bug fixes
216
217 Severity   : major
218 Frequency  : rare (large Voltaire clusters only)
219 Bugzilla   : 6993
220 Description: the default number of reserved transmit descriptors was too low
221              for some large clusters
222 Details    : As a workaround, the number was increased.  A proper fix includes
223              a run-time tunable.
224
225 2005-06-02  Cluster File Systems, Inc. <info@clusterfs.com>
226        * version 1.4.3
227        * bug fixes
228
229 Severity   : major
230 Frequency  : occasional (large-scale events, cluster reboot, network failure)
231 Bugzilla   : 6411
232 Description: too many error messages on console obscure actual problem and
233              can slow down/panic server, or cause recovery to fail repeatedly
234 Details    : enable rate-limiting of console error messages, and some messages
235              that were console errors now only go to the kernel log
236
237 Severity   : enhancement
238 Bugzilla   : 1693
239 Description: add /proc/sys/portals/catastrophe entry which will report if
240              that node has previously LBUGged
241
242 2005-04-06  Cluster File Systems, Inc. <info@clusterfs.com>
243        * bugs
244         - update gmnal to use PTL_MTU, fix module refcounting (b=5786)
245
246 2005-04-04  Cluster File Systems, Inc. <info@clusterfs.com>
247        * bugs
248         - handle error return code in kranal_check_fma_rx() (5915,6054)
249
250 2005-02-04  Cluster File Systems, Inc. <info@clusterfs.com>
251        * miscellania
252         - update vibnal (Voltaire IB NAL)
253         - update gmnal (Myrinet NAL), gmnalid
254
255 2005-02-04  Eric Barton  <eeb@bartonsoftware.com>
256
257         * Landed portals:b_port_step as follows...
258
259           - removed CFS_DECL_SPIN* 
260             just use 'spinlock_t' and initialise with spin_lock_init()
261
262           - removed CFS_DECL_MUTEX*
263             just use 'struct semaphore' and initialise with init_mutex()
264
265           - removed CFS_DECL_RWSEM*
266             just use 'struct rw_semaphore' and initialise with init_rwsem()
267
268           - renamed cfs_sleep_chan -> cfs_waitq
269                     cfs_sleep_link -> cfs_waitlink
270
271           - fixed race in linux version of arch-independent socknal
272             (the ENOMEM/EAGAIN decision).
273
274           - Didn't fix problems in Darwin version of arch-independent socknal
275             (resetting socket callbacks, eager ack hack, ENOMEM/EAGAIN decision)
276
277           - removed libcfs types from non-socknal header files (only some types
278             in the header files had been changed; the .c files hadn't been
279             updated at all).