- Rename the ptlrpc-general reconnection and replay functions, and export them

[fs/lustre-release.git] / lustre / ptlrpc / recovd.c
diff --git a/lustre/ptlrpc/recovd.c b/lustre/ptlrpc/recovd.c

index 3f10733..f0fe5ca 100644 (file)
--- a/lustre/ptlrpc/recovd.c
+++ b/lustre/ptlrpc/recovd.c
@@ -20,17 +20,62 @@
  #include <linux/lustre_ha.h>
  #include <linux/obd_support.h>
  
+/* dump_connection_list, but shorter for nicer debugging logs */
+static void d_c_l(struct list_head *head)
+{
+        int sanity = 0;
+        struct list_head *tmp;
+
+        list_for_each(tmp, head) {
+                struct ptlrpc_connection *conn =
+                        list_entry(tmp, struct ptlrpc_connection,
+                                   c_recovd_data.rd_managed_chain);
+                CDEBUG(D_HA, "   %p = %s (%d/%d)\n", conn, conn->c_remote_uuid,
+                       conn->c_recovd_data.rd_phase,
+                       conn->c_recovd_data.rd_next_phase);
+                if (sanity++ > 50)
+                        LBUG();
+        }
+}
+
+static void dump_lists(struct recovd_obd *recovd)
+{
+        CDEBUG(D_HA, "managed: \n");
+        d_c_l(&recovd->recovd_managed_items);
+        CDEBUG(D_HA, "troubled: \n");
+        d_c_l(&recovd->recovd_troubled_items);
+}
+
  void recovd_conn_manage(struct ptlrpc_connection *conn,
                          struct recovd_obd *recovd, ptlrpc_recovery_cb_t recover)
  {
          struct recovd_data *rd = &conn->c_recovd_data;
          ENTRY;
  
+        if (!list_empty(&rd->rd_managed_chain)) {
+                if (rd->rd_recovd == recovd && rd->rd_recover == recover) {
+                        CDEBUG(D_HA, "conn %p/%s already setup for recovery\n",
+                               conn, conn->c_remote_uuid);
+                        EXIT;
+                        return;
+                }
+                CDEBUG(D_HA,
+                       "conn %p/%s has recovery items %p/%p, making %p/%p\n",
+                       conn, conn->c_remote_uuid, rd->rd_recovd, rd->rd_recover,
+                       recovd, recover);
+                spin_lock(&rd->rd_recovd->recovd_lock);
+                list_del(&rd->rd_managed_chain);
+                spin_unlock(&rd->rd_recovd->recovd_lock);
+        }
+
          rd->rd_recovd = recovd;
          rd->rd_recover = recover;
+        rd->rd_phase = RD_IDLE;
+        rd->rd_next_phase = RD_TROUBLED;
  
          spin_lock(&recovd->recovd_lock);
          list_add(&rd->rd_managed_chain, &recovd->recovd_managed_items);
+        dump_lists(recovd);
          spin_unlock(&recovd->recovd_lock);
  
          EXIT;
@@ -44,12 +89,25 @@ void recovd_conn_fail(struct ptlrpc_connection *conn)
  
          if (!recovd) {
                  CERROR("no recovd for connection %p\n", conn);
+                EXIT;
                  return;
          }
  
          spin_lock(&recovd->recovd_lock);
+        if (rd->rd_phase != RD_IDLE) {
+                CERROR("connection %p to %s already in recovery\n",
+                       conn, conn->c_remote_uuid);
+                /* XXX need to distinguish from failure-in-recovery */
+                spin_unlock(&recovd->recovd_lock);
+                EXIT;
+                return;
+        }
+                
+        CERROR("connection %p to %s failed\n", conn, conn->c_remote_uuid);
          list_del(&rd->rd_managed_chain);
          list_add_tail(&rd->rd_managed_chain, &recovd->recovd_troubled_items);
+        rd->rd_phase = RD_TROUBLED;
+        dump_lists(recovd);
          spin_unlock(&recovd->recovd_lock);
  
          wake_up(&recovd->recovd_waitq);
@@ -57,14 +115,20 @@ void recovd_conn_fail(struct ptlrpc_connection *conn)
          EXIT;
  }
  
-/* this function must be called with conn->c_lock held */
  void recovd_conn_fixed(struct ptlrpc_connection *conn)
  {
          struct recovd_data *rd = &conn->c_recovd_data;
          ENTRY;
  
+        CDEBUG(D_HA, "connection %p (now to %s) fixed\n",
+               conn, conn->c_remote_uuid);
+        spin_lock(&rd->rd_recovd->recovd_lock);
          list_del(&rd->rd_managed_chain);
+        rd->rd_phase = RD_IDLE;
+        rd->rd_next_phase = RD_TROUBLED;
          list_add(&rd->rd_managed_chain, &rd->rd_recovd->recovd_managed_items);
+        dump_lists(rd->rd_recovd);
+        spin_unlock(&rd->rd_recovd->recovd_lock);
  
          EXIT;
  }
@@ -73,26 +137,24 @@ void recovd_conn_fixed(struct ptlrpc_connection *conn)
  static int recovd_check_event(struct recovd_obd *recovd)
  {
          int rc = 0;
+        struct list_head *tmp;
+
          ENTRY;
  
          spin_lock(&recovd->recovd_lock);
  
-        if (recovd->recovd_phase == RECOVD_IDLE &&
-            !list_empty(&recovd->recovd_troubled_items)) {
+        if (recovd->recovd_state == RECOVD_STOPPING)
                  GOTO(out, rc = 1);
-        }
  
-        if (recovd->recovd_flags & RECOVD_STOPPING)
-                GOTO(out, rc = 1);
+        list_for_each(tmp, &recovd->recovd_troubled_items) {
  
-        if (recovd->recovd_flags & RECOVD_FAILED) {
-                LASSERT(recovd->recovd_phase != RECOVD_IDLE && 
-                        recovd->recovd_current_rd);
-                GOTO(out, rc = 1);
-        }
+                struct recovd_data *rd = list_entry(tmp, struct recovd_data,
+                                                    rd_managed_chain);
  
-        if (recovd->recovd_phase == recovd->recovd_next_phase)
-                GOTO(out, rc = 1);
+                if (rd->rd_phase == rd->rd_next_phase ||
+                    rd->rd_phase == RD_FAILED)
+                        GOTO(out, rc = 1);
+        }
  
   out:
          spin_unlock(&recovd->recovd_lock);
@@ -101,88 +163,85 @@ static int recovd_check_event(struct recovd_obd *recovd)
  
  static int recovd_handle_event(struct recovd_obd *recovd)
  {
-        struct recovd_data *rd;
-        int rc;
+        struct list_head *tmp, *n;
+        int rc = 0;
          ENTRY;
  
-        if (recovd->recovd_flags & RECOVD_FAILED) {
-
-                LASSERT(recovd->recovd_phase != RECOVD_IDLE && 
-                        recovd->recovd_current_rd);
-
-                rd = recovd->recovd_current_rd;
-        cb_failed:
-                CERROR("recovery FAILED for rd %p (conn %p), recovering\n",
-                       rd, class_rd2conn(rd));
-
-                list_add(&rd->rd_managed_chain, &recovd->recovd_managed_items);
-                spin_unlock(&recovd->recovd_lock);
-                rd->rd_recover(rd, PTLRPC_RECOVD_PHASE_FAILURE);
-                spin_lock(&recovd->recovd_lock);
-                recovd->recovd_phase = RECOVD_IDLE;
-                recovd->recovd_next_phase = RECOVD_PREPARING;
-                
-                recovd->recovd_flags &= ~RECOVD_FAILED;
-
-                RETURN(1);
-        }
+        spin_lock(&recovd->recovd_lock);
  
-        switch (recovd->recovd_phase) {
-            case RECOVD_IDLE:
-                if (recovd->recovd_current_rd ||
-                    list_empty(&recovd->recovd_troubled_items))
+        dump_lists(recovd);
+
+        /*
+         * We use _safe here because one of the callbacks, expecially
+         * FAILURE or PREPARED, could move list items around.
+         */
+        list_for_each_safe(tmp, n, &recovd->recovd_troubled_items) {
+                struct recovd_data *rd = list_entry(tmp, struct recovd_data,
+                                                    rd_managed_chain);
+
+                if (rd->rd_phase != RD_FAILED &&
+                    rd->rd_phase != rd->rd_next_phase)
+                        continue;
+
+                switch (rd->rd_phase) {
+                    case RD_FAILED:
+                cb_failed: /* must always reach here with recovd_lock held! */
+                        CERROR("recovery FAILED for rd %p (conn %p): %d\n",
+                               rd, class_rd2conn(rd), rc);
+                        
+                        spin_unlock(&recovd->recovd_lock);
+                        (void)rd->rd_recover(rd, PTLRPC_RECOVD_PHASE_FAILURE);
+                        spin_lock(&recovd->recovd_lock);
                          break;
-                rd = list_entry(recovd->recovd_troubled_items.next,
-                                struct recovd_data, rd_managed_chain);
-                
-                list_del(&rd->rd_managed_chain);
-                if (!rd->rd_recover)
-                        LBUG();
-
-                CERROR("starting recovery for rd %p (conn %p)\n",
-                       rd, class_rd2conn(rd));
-                recovd->recovd_current_rd = rd;
-                recovd->recovd_flags &= ~RECOVD_FAILED;
-                recovd->recovd_phase = RECOVD_PREPARING;
-
-                spin_unlock(&recovd->recovd_lock);
-                rc = rd->rd_recover(rd, PTLRPC_RECOVD_PHASE_PREPARE);
-                spin_lock(&recovd->recovd_lock);
-                if (rc)
-                        goto cb_failed;
-                
-                recovd->recovd_next_phase = RECOVD_PREPARED;
-                break;
-
-            case RECOVD_PREPARED:
-                rd = recovd->recovd_current_rd;
-                recovd->recovd_phase = RECOVD_RECOVERING;
-
-                CERROR("recovery prepared for rd %p (conn %p), recovering\n",
-                       rd, class_rd2conn(rd));
-
-                spin_unlock(&recovd->recovd_lock);
-                rc = rd->rd_recover(rd, PTLRPC_RECOVD_PHASE_RECOVER);
-                spin_lock(&recovd->recovd_lock);
-                if (rc)
-                        goto cb_failed;
-                
-                recovd->recovd_next_phase = RECOVD_RECOVERED;
-                break;
-
-            case RECOVD_RECOVERED:
-                rd = recovd->recovd_current_rd;
-                recovd->recovd_phase = RECOVD_IDLE;
-                recovd->recovd_next_phase = RECOVD_PREPARING;
-
-                CERROR("recovery complete for rd %p (conn %p), recovering\n",
-                       rd, class_rd2conn(rd));
-                break;
-
-            default:
-                break;
+                        
+                    case RD_TROUBLED:
+                        if (!rd->rd_recover) {
+                                CERROR("no rd_recover for rd %p (conn %p)\n",
+                                       rd, class_rd2conn(rd));
+                                rc = -EINVAL;
+                                break;
+                        }
+                        CERROR("starting recovery for rd %p (conn %p)\n",
+                               rd, class_rd2conn(rd));
+                        rd->rd_phase = RD_PREPARING;
+                        rd->rd_next_phase = RD_PREPARED;
+                        
+                        spin_unlock(&recovd->recovd_lock);
+                        rc = rd->rd_recover(rd, PTLRPC_RECOVD_PHASE_PREPARE);
+                        spin_lock(&recovd->recovd_lock);
+                        if (rc)
+                                goto cb_failed;
+                        
+                        break;
+                        
+                    case RD_PREPARED:
+                        
+                        CERROR("recovery prepared for rd %p (conn %p)\n",
+                               rd, class_rd2conn(rd));
+                        rd->rd_phase = RD_RECOVERING;
+                        rd->rd_next_phase = RD_RECOVERED;
+                        
+                        spin_unlock(&recovd->recovd_lock);
+                        rc = rd->rd_recover(rd, PTLRPC_RECOVD_PHASE_RECOVER);
+                        spin_lock(&recovd->recovd_lock);
+                        if (rc)
+                                goto cb_failed;
+                        
+                        break;
+                        
+                    case RD_RECOVERED:
+                        rd->rd_phase = RD_IDLE;
+                        rd->rd_next_phase = RD_TROUBLED;
+                        
+                        CERROR("recovery complete for rd %p (conn %p)\n",
+                               rd, class_rd2conn(rd));
+                        break;
+                        
+                    default:
+                        break;
+                }
          }
-
+        spin_unlock(&recovd->recovd_lock);
          RETURN(0);
  }
  
@@ -202,40 +261,29 @@ static int recovd_main(void *arg)
          sprintf(current->comm, "lustre_recovd");
          unlock_kernel();
  
-        /* Record that the  thread is running */
+        /* Signal that the thread is running. */
          recovd->recovd_thread = current;
-        recovd->recovd_flags = RECOVD_IDLE;
+        recovd->recovd_state = RECOVD_READY;
          wake_up(&recovd->recovd_ctl_waitq);
  
-        /* And now, loop forever on requests */
+        /* And now, loop forever on requests. */
          while (1) {
                  wait_event(recovd->recovd_waitq, recovd_check_event(recovd));
-
-                spin_lock(&recovd->recovd_lock);
-
-                if (recovd->recovd_flags & RECOVD_STOPPING) {
-                        spin_unlock(&recovd->recovd_lock);
-                        CERROR("lustre_recovd stopping\n");
-                        EXIT;
+                if (recovd->recovd_state == RECOVD_STOPPING)
                          break;
-                }
-
                  recovd_handle_event(recovd);
-                spin_unlock(&recovd->recovd_lock);
          }
  
          recovd->recovd_thread = NULL;
-        recovd->recovd_flags = RECOVD_STOPPED;
+        recovd->recovd_state = RECOVD_STOPPED;
          wake_up(&recovd->recovd_ctl_waitq);
-        CDEBUG(D_NET, "mgr exiting process %d\n", current->pid);
+        CDEBUG(D_HA, "mgr exiting process %d\n", current->pid);
          RETURN(0);
  }
  
  int recovd_setup(struct recovd_obd *recovd)
  {
          int rc;
-        extern void (*class_signal_connection_failure)
-                (struct ptlrpc_connection *);
  
          ENTRY;
  
@@ -247,8 +295,6 @@ int recovd_setup(struct recovd_obd *recovd)
          init_waitqueue_head(&recovd->recovd_recovery_waitq);
          init_waitqueue_head(&recovd->recovd_ctl_waitq);
  
-        recovd->recovd_next_phase = RECOVD_PREPARING;
-        
          rc = kernel_thread(recovd_main, (void *)recovd,
                             CLONE_VM | CLONE_FS | CLONE_FILES);
          if (rc < 0) {
@@ -256,24 +302,24 @@ int recovd_setup(struct recovd_obd *recovd)
                  RETURN(-EINVAL);
          }
          wait_event(recovd->recovd_ctl_waitq,
-                   recovd->recovd_phase == RECOVD_IDLE);
+                   recovd->recovd_state == RECOVD_READY);
  
-        /* exported and called by obdclass timeout handlers */
-        class_signal_connection_failure = recovd_conn_fail;
          ptlrpc_recovd = recovd;
+        class_signal_connection_failure = recovd_conn_fail;
  
          RETURN(0);
  }
  
  int recovd_cleanup(struct recovd_obd *recovd)
  {
+        ENTRY;
          spin_lock(&recovd->recovd_lock);
-        recovd->recovd_flags = RECOVD_STOPPING;
+        recovd->recovd_state = RECOVD_STOPPING;
          wake_up(&recovd->recovd_waitq);
          spin_unlock(&recovd->recovd_lock);
  
          wait_event(recovd->recovd_ctl_waitq,
-                   (recovd->recovd_flags & RECOVD_STOPPED));
+                   (recovd->recovd_state == RECOVD_STOPPED));
          RETURN(0);
  }