Whamcloud - gitweb
- mds failover code
authorbraam <braam>
Sun, 12 May 2002 01:06:29 +0000 (01:06 +0000)
committerbraam <braam>
Sun, 12 May 2002 01:06:29 +0000 (01:06 +0000)
commit31b264e095ee5347c19cce08d6622ef1978ca7b6
tree22459e6c2f6709bb891c5eaf0441ba9e0b3ca9db
parent293a4936351baee19d298849eff4c2b62456e3a8
- mds failover code
- connection and recovd subsystem
- refined handling of replies/timeout with levels:
  - requests are delayed until the request level is lower than or
    equals to the connection level
- much updated network documentation
- updated file system recovery documentation
- server maintains lists of open files and handles "re-opening"
  maintains list in the metadata client info structures.
- flags on requests to indicate their disposition after a reply,
  e.g. retain until commit, retain until explicitly canceled etc.
- new failure instrumentation to drop a reply, but execute the
  request.
- handling of re-sent creation requests
- move file attribute updates on mds to close, remove from write
- reconnection routine in llight.
- work through recovery list more orderly:
  - retain list in sent order
  - handle according to disposition of request
  - return integers not void
  - add direct (0-copy) I/O support -- doesn't compile on 2.4.9
- failure handling in client reintegration code
- replay handling in server reintegration code
- add names to client systems to understand debugging/tracing output better
- remove most lists from the client structure: the multiple lists
  introduced request reordering.  We now use one list and flag the
  requests.
- re-addressing of connections: invoked by the client recovery scripts
- don't reallocate reply buffers if they were already there and not
  consumed in case of re-sending requests.
- introduce a request replay function: I want this to be merged with
  ptlrpc_queue wait soon.
- small support routines for continuing delayed requests, restarting
  requests for which replies were lost, etc.
- try to get negative errors back even when Portals errors return
  positive problems.
- make last committed and received 64 bit in network packets.
- write test programs that:
  - keep files open
  - do I/O every second
- include 5 basic regression cases for failover recovery:
  runfailure-client-mds.sh
- simplify ha_assist.sh -- the secondary ha_assist program does the
  work
26 files changed:
lustre/doc/.cvsignore
lustre/include/linux/lustre_idl.h
lustre/include/linux/lustre_mds.h
lustre/include/linux/lustre_net.h
lustre/include/linux/obd_support.h
lustre/lib/mds_updates.c
lustre/llite/commit_callback.c
lustre/llite/file.c
lustre/llite/recover.c
lustre/llite/rw.c
lustre/llite/super.c
lustre/mdc/mdc_reint.c
lustre/mdc/mdc_request.c
lustre/mds/handler.c
lustre/mds/mds_reint.c
lustre/osc/osc_request.c
lustre/ptlrpc/client.c
lustre/ptlrpc/connmgr.c
lustre/ptlrpc/events.c
lustre/ptlrpc/niobuf.c
lustre/ptlrpc/pack_generic.c
lustre/ptlrpc/recovd.c
lustre/ptlrpc/rpc.c
lustre/tests/Makefile.am
lustre/tests/runfailure-client-mds-recover.sh
lustre/utils/ha_assist.sh