Whamcloud - gitweb
Branch HEAD
[fs/lustre-release.git] / lnet / ChangeLog
index 4b98fe5..49e8b7c 100644 (file)
-TBD         Cluster File Systems, Inc. <info@clusterfs.com>
-       * version 1.4.10
+tbd         Cluster File Systems, Inc. <info@clusterfs.com>
+       * version 1.6.5
        * Support for networks:
        * Support for networks:
-       socklnd   - kernels up to 2.6.16
-       qswlnd    - Qsnet kernel modules 5.20 and later
-       openiblnd - IbGold 1.8.2
+       socklnd   - any kernel supported by Lustre,
+       qswlnd    - Qsnet kernel modules 5.20 and later,
+       openiblnd - IbGold 1.8.2,
+       o2iblnd   - OFED 1.1 and 1.2.0, 1.2.5
+       viblnd    - Voltaire ibhost 3.4.5 and later,
+       ciblnd    - Topspin 3.2.0,
+       iiblnd    - Infiniserv 3.3 + PathBits patch,
+       gmlnd     - GM 2.1.22 and later,
+       mxlnd     - MX 1.2.1 or later,
+       ptllnd    - Portals 3.3 / UNICOS/lc 1.5.x, 2.0.x
+
+--------------------------------------------------------------------------------
+
+2007-10-26         Cluster File Systems, Inc. <info@clusterfs.com>
+       * version 1.6.4
+       * Support for networks:
+       socklnd   - any kernel supported by Lustre,
+       qswlnd    - Qsnet kernel modules 5.20 and later,
+       openiblnd - IbGold 1.8.2,
+       o2iblnd   - OFED 1.1 and 1.2.0, 1.2.5.
+       viblnd    - Voltaire ibhost 3.4.5 and later,
+       ciblnd    - Topspin 3.2.0,
+       iiblnd    - Infiniserv 3.3 + PathBits patch,
+       gmlnd     - GM 2.1.22 and later,
+       mxlnd     - MX 1.2.1 or later,
+       ptllnd    - Portals 3.3 / UNICOS/lc 1.5.x, 2.0.x
+
+Severity   : normal
+Bugzilla   : 12494
+Description: increase send queue size for ciblnd/openiblnd
+
+Severity   : normal
+Bugzilla   : 12302
+Description: new userspace socklnd
+Details    : Old userspace tcpnal that resided in lnet/ulnds/socklnd replaced
+             with new one - usocklnd.
+
+Severity   : enhancement
+Bugzilla   : 11686
+Description: Console message flood
+Details    : Make cdls ratelimiting more tunable by adding several tunable in
+            procfs /proc/sys/lnet/console_{min,max}_delay_centisecs and
+            /proc/sys/lnet/console_backoff.
+
+--------------------------------------------------------------------------------
+
+2007-09-27         Cluster File Systems, Inc. <info@clusterfs.com>
+       * version 1.6.3
+       * Support for networks:
+       socklnd   - any kernel supported by Lustre,
+       qswlnd    - Qsnet kernel modules 5.20 and later,
+       openiblnd - IbGold 1.8.2,
+       o2iblnd   - OFED 1.1 and 1.2,
+       viblnd    - Voltaire ibhost 3.4.5 and later,
+       ciblnd    - Topspin 3.2.0,
+       iiblnd    - Infiniserv 3.3 + PathBits patch,
+       gmlnd     - GM 2.1.22 and later,
+       mxlnd     - MX 1.2.1 or later,
+       ptllnd    - Portals 3.3 / UNICOS/lc 1.5.x, 2.0.x
+
+Severity   : normal
+Bugzilla   : 12782
+Description: /proc/sys/lnet has non-sysctl entries
+Details    : Updating dump_kernel/daemon_file/debug_mb to use sysctl variables
+
+Severity   : major
+Bugzilla   : 13236
+Description: TOE Kernel panic by ksocklnd
+Details    : offloaded sockets provide their own implementation of sendpage,
+             can't call tcp_sendpage() directly
+
+Severity   : normal
+Bugzilla   : 10778
+Description: kibnal_shutdown() doesn't finish; lconf --cleanup hangs
+Details    : races between lnd_shutdown and peer creation prevent 
+             lnd_shutdown from finishing.
+
+Severity   : normal
+Bugzilla   : 13279
+Description: open files rlimit 1024 reached while liblustre testing
+Details    : ulnds/socklnd must close open socket after unsuccessful
+             'say hello' attempt.
+
+Severity   : major 
+Bugzilla   : 13482
+Description: build error
+Details    : fix typos in gmlnd, ptllnd and viblnd
+
+------------------------------------------------------------------------------
+
+2007-07-30  Cluster File Systems, Inc. <info@clusterfs.com>
+       * version 1.6.1
+       * Support for networks:
+       socklnd   - kernels up to 2.6.16,
+       qswlnd    - Qsnet kernel modules 5.20 and later,
+       openiblnd - IbGold 1.8.2,
+       o2iblnd   - OFED 1.1 and 1.2
+       viblnd    - Voltaire ibhost 3.4.5 and later,
+       ciblnd    - Topspin 3.2.0,
+       iiblnd    - Infiniserv 3.3 + PathBits patch,
+       gmlnd     - GM 2.1.22 and later,
+       mxlnd     - MX 1.2.1 or later,
+       ptllnd    - Portals 3.3 / UNICOS/lc 1.5.x, 2.0.x
+
+2007-06-21  Cluster File Systems, Inc. <info@clusterfs.com>
+       * version 1.4.11
+       * Support for networks:
+       socklnd   - kernels up to 2.6.16,
+       qswlnd    - Qsnet kernel modules 5.20 and later,
+       openiblnd - IbGold 1.8.2,
        o2iblnd   - OFED 1.1
        o2iblnd   - OFED 1.1
-       viblnd    - Voltaire ibhost 3.4.5 and later
-       ciblnd    - Topspin 3.2.0
-       iiblnd    - Infiniserv 3.3 + PathBits patch
-       gmlnd     - GM 2.1.22 and later
-       mxlnd     - MX 1.2.1 or later
+       viblnd    - Voltaire ibhost 3.4.5 and later,
+       ciblnd    - Topspin 3.2.0,
+       iiblnd    - Infiniserv 3.3 + PathBits patch,
+       gmlnd     - GM 2.1.22 and later,
+       mxlnd     - MX 1.2.1 or later,
        ptllnd    - Portals 3.3 / UNICOS/lc 1.5.x, 2.0.x
        ptllnd    - Portals 3.3 / UNICOS/lc 1.5.x, 2.0.x
-       * bug fixes
+
+Severity   : minor
+Bugzilla   : 13288
+Description: Initialize cpumask before use
+
+Severity   : major
+Bugzilla   : 12014
+Description: ASSERTION failures when upgrading to the patchless zero-copy
+             socklnd 
+Details    : This bug affects "rolling upgrades", causing an inconsistent
+             protocol version negotiation and subsequent assertion failure
+            during rolling upgrades after the first wave of upgrades.
+
+Severity   : minor
+Bugzilla   : 11223
+Details    : Change "dropped message" CERRORs to D_NETERROR so they are
+             logged instead of creating "console chatter" when a lustre
+            timeout races with normal RPC completion.
+
+Severity   : minor
+Details    : lnet_clear_peer_table can wait forever if user forgets to
+             clear a lazy portal.
+
+Severity   : minor
+Details    : libcfs_id2str should check pid against LNET_PID_ANY.
+
+Severity   : major
+Bugzilla   : 10916
+Description: added LNET self test
+Details    : landing b_self_test
+
+Severity   : minor
+Frequency  : rare
+Bugzilla   : 12227
+Description: cfs_duration_{u,n}sec() wrongly calculate nanosecond part of
+            struct timeval.
+Details    : do_div() macro is used incorrectly.
+
+2007-04-23  Cluster File Systems, Inc. <info@clusterfs.com>
+
+Severity   : normal
+Bugzilla   : 11680
+Description: make panic on lbug configurable
+
+Severity   : major
+Bugzilla   : 12316
+Description: Add OFED1.2 support to o2iblnd
+Details    : o2iblnd depends on OFED's modules, if out-tree OFED's modules
+             are installed (other than kernel's in-tree infiniband), there
+             could be some problem while insmod o2iblnd (mismatch CRC of 
+             ib_* symbols).
+             If extra Module.symvers is supported in kernel (i.e, 2.6.17),
+             this link provides solution:
+             https://bugs.openfabrics.org/show_bug.cgi?id=355
+             if extra Module.symvers is not supported in kernel, we will
+             have to run the script in bug 12316 to update
+             $LINUX/module.symvers before building o2iblnd.
+             More details about this are in bug 12316.
+
+------------------------------------------------------------------------------
+
+2007-04-01  Cluster File Systems, Inc. <info@clusterfs.com>
+       * version 1.4.10 / 1.6.0
+       * Support for networks:
+       socklnd   - kernels up to 2.6.16,
+       qswlnd    - Qsnet kernel modules 5.20 and later,
+       openiblnd - IbGold 1.8.2,
+       o2iblnd   - OFED 1.1,
+       viblnd    - Voltaire ibhost 3.4.5 and later,
+       ciblnd    - Topspin 3.2.0,
+       iiblnd    - Infiniserv 3.3 + PathBits patch,
+       gmlnd     - GM 2.1.22 and later,
+       mxlnd     - MX 1.2.1 or later,
+       ptllnd    - Portals 3.3 / UNICOS/lc 1.5.x, 2.0.x
+       
+Severity   : minor
+Frequency  : rare
+Description: Ptllnd didn't init kptllnd_data.kptl_idle_txs before it could be
+            possibly accessed in kptllnd_shutdown. Ptllnd should init 
+            kptllnd_data.kptl_ptlid2str_lock before calling kptllnd_ptlid2str.
+
+Severity   : normal
+Frequency  : rare
+Description: gmlnd ignored some transmit errors when finalizing lnet messages.
+
+Severity   : minor
+Frequency  : rare
+Description: ptllnd logs a piece of incorrect debug info in kptllnd_peer_handle_hello.
+
+Severity   : minor
+Frequency  : rare
+Description: the_lnet.ln_finalizing was not set when the current thread is
+             about to complete messages. It only affects multi-threaded 
+            user space LNet.
+       
+Severity   : normal
+Frequency  : rare
+Bugzilla   : 11472
+Description: Changed the default kqswlnd ntxmsg=512
+       
+Severity   : major
+Frequency  : rare
+Bugzilla   : 12458
+Description: Assertion failure in kernel ptllnd caused by posting passive
+             bulk buffers before connection establishment complete.
+       
+Severity   : major
+Frequency  : rare
+Bugzilla   : 12455
+Description: A race in kernel ptllnd between deleting a peer and posting
+             new communications for it could hang communications -
+            manifesting as "Unexpectedly long timeout" messages.
+       
+Severity   : major
+Frequency  : rare
+Bugzilla   : 12432
+Description: Kernel ptllnd lock ordering issue could hang a node.
+       
+Severity   : major
+Frequency  : rare
+Bugzilla   : 12016
+Description: node crash on socket teardown race
+
+Severity   : minor
+Frequency  : 'lctl peer_list' issued on a mx net
+Bugzilla   : 12237
+Description: Enable lctl's peer_list for MXLND
+
+Severity   : major
+Frequency  : after Ptllnd timeouts and portals congestion
+Bugzilla   : 11659
+Description: Credit overflows
+Details    : This was a bug in ptllnd connection establishment.  The fix
+             implements better peer stamps to disambiguate connection
+            establishment and ensure both peers enter the credit flow
+            state machine consistently.
+
+Severity   : major
+Frequency  : rare      
+Bugzilla   : 11394
+Description: kptllnd didn't propagate some network errors up to LNET 
+Details    : This bug was spotted while investigating 11394.  The fix
+             ensures network errors on sends and bulk transfers are
+            propagated to LNET/lustre correctly.
+
+Severity   : enhancement
+Bugzilla   : 10316
+Description: Fixed console chatter in case of -ETIMEDOUT.
+
+Severity   : enhancement
+Bugzilla   : 11684
+Description: Added D_NETTRACE for recording network packet history
+            (initially only for ptllnd).  Also a separate userspace
+            ptllnd facility to gather history which should really be
+            covered by D_NETTRACE too, if only CDEBUG recorded history in
+            userspace.
 
 Severity   : major
 Frequency  : rare      
 
 Severity   : major
 Frequency  : rare      
@@ -66,7 +328,7 @@ Details    : libcfs created a symlink from /proc/sys/portals to
             /proc/sys/lnet for backwards compatibility.  This is no
             longer required and makes the Cray portals /proc variables
             inaccessible.
             /proc/sys/lnet for backwards compatibility.  This is no
             longer required and makes the Cray portals /proc variables
             inaccessible.
-            
+
 Severity   : minor
 Bugzilla   : 11312
 Description: OFED FMR API change
 Severity   : minor
 Bugzilla   : 11312
 Description: OFED FMR API change
@@ -74,14 +336,14 @@ Details    : This changes parameter usage to reflect a change in
             ib_fmr_pool_map_phys() between OFED 1.0 and OFED 1.1.  Note
             that FMR support is only used in experimental versions of the
             o2iblnd - this change does not affect standard usage at all.
             ib_fmr_pool_map_phys() between OFED 1.0 and OFED 1.1.  Note
             that FMR support is only used in experimental versions of the
             o2iblnd - this change does not affect standard usage at all.
-            
+
 Severity   : enhancement
 Bugzilla   : 11245
 Description: new ko2iblnd module parameter: ib_mtu
 Details    : the default IB MTU of 2048 performs badly on 23108 Tavor
             HCAs.  You can avoid this problem by setting the MTU to 1024
             using this module parameter.
 Severity   : enhancement
 Bugzilla   : 11245
 Description: new ko2iblnd module parameter: ib_mtu
 Details    : the default IB MTU of 2048 performs badly on 23108 Tavor
             HCAs.  You can avoid this problem by setting the MTU to 1024
             using this module parameter.
-            
+
 Severity   : enhancement
 Bugzilla   : 11118/11620
 Description: ptllnd small request message buffer alignment fix
 Severity   : enhancement
 Bugzilla   : 11118/11620
 Description: ptllnd small request message buffer alignment fix
@@ -92,7 +354,7 @@ Details    : Set the PTL_MD_LOCAL_ALIGN8 option on small message receives.
             running the correct protocol version which was fixed by always
             NAK-ing such requests and handling any misalignments they
             introduce.
             running the correct protocol version which was fixed by always
             NAK-ing such requests and handling any misalignments they
             introduce.
-            
+
 Severity   : minor
 Frequency  : rarely
 Description: When kib(nal|lnd)_del_peer() is called upon a peer whose
 Severity   : minor
 Frequency  : rarely
 Description: When kib(nal|lnd)_del_peer() is called upon a peer whose
@@ -134,7 +396,7 @@ Details    : Set the kptllnd module parameter "ptltrace_on_timeout=1" to
             dump Cray portals debug traces to a file.  The kptllnd module
             parameter "ptltrace_basename", default "/tmp/lnet-ptltrace",
             is the basename of the dump file.
             dump Cray portals debug traces to a file.  The kptllnd module
             parameter "ptltrace_basename", default "/tmp/lnet-ptltrace",
             is the basename of the dump file.
-       
+
 Severity   : major
 Frequency  : infrequent
 Bugzilla   : 11308
 Severity   : major
 Frequency  : infrequent
 Bugzilla   : 11308
@@ -143,7 +405,7 @@ Details    : Kernel ptllnd could produce protocol errors e.g. illegal
             matchbits and/or violate the credit flow protocol when trying
             to re-establish a connection with a peer after an error or
             timeout. 
             matchbits and/or violate the credit flow protocol when trying
             to re-establish a connection with a peer after an error or
             timeout. 
-       
+
 Severity   : enhancement
 Bugzilla   : 10316
 Description: Allow /proc/sys/lnet/debug to be set symbolically
 Severity   : enhancement
 Bugzilla   : 10316
 Description: Allow /proc/sys/lnet/debug to be set symbolically
@@ -160,6 +422,17 @@ Details    : In configurations with LNET routers if a router fails routers
 
 ------------------------------------------------------------------------------
 
 
 ------------------------------------------------------------------------------
 
+2006-12-09  Cluster File Systems, Inc. <info@clusterfs.com>
+
+Severity   : critical
+Frequency  : very rarely, in configurations with LNET routers and TCP
+Bugzilla   : 10889
+Description: incorrect data written to files on OSTs
+Details    : In certain high-load conditions incorrect data may be written
+            to files on the OST when using TCP networks.
+
+------------------------------------------------------------------------------
+
 2006-07-31  Cluster File Systems, Inc. <info@clusterfs.com>
        * version 1.4.7
        - rework CDEBUG messages rate-limiting mechanism b=10375
 2006-07-31  Cluster File Systems, Inc. <info@clusterfs.com>
        * version 1.4.7
        - rework CDEBUG messages rate-limiting mechanism b=10375
@@ -197,7 +470,7 @@ Details    : In configurations with LNET routers if a router fails routers
           between different network fabrics.  Lustre Networking Devices
           (LNDS) for the supported network fabrics have also been created
           for this new infrastructure.
           between different network fabrics.  Lustre Networking Devices
           (LNDS) for the supported network fabrics have also been created
           for this new infrastructure.
-       
+
 2005-08-08  Cluster File Systems, Inc. <info@clusterfs.com>
        * version 1.4.4
        * bug fixes
 2005-08-08  Cluster File Systems, Inc. <info@clusterfs.com>
        * version 1.4.4
        * bug fixes