livepeer · victorges · Feb 18, 2025 · leszko · Feb 19, 2025 · victorges
diff --git a/ai/worker/container.go b/ai/worker/container.go
@@ -36,10 +36,11 @@ type RunnerContainerConfig struct {
 	ContainerImageID string
 
 	// For managed containers only
-	ID               string
-	GPU              string
-	KeepWarm         bool
-	containerTimeout time.Duration
+	ID                string
+	GPU               string
+	KeepWarm          bool
+	OptimizationFlags OptimizationFlags
+	containerTimeout  time.Duration
 }
 
 // Create global references to functions to allow for mocking in tests.

diff --git a/ai/worker/docker.go b/ai/worker/docker.go
@@ -405,10 +405,11 @@
 		Endpoint: RunnerEndpoint{
 			URL: "http://localhost:" + containerHostPort,
 		},
-		ID:               resp.ID,
-		GPU:              gpu,
-		KeepWarm:         keepWarm,
-		containerTimeout: runnerContainerTimeout,
+		ID:                resp.ID,
+		GPU:               gpu,
+		KeepWarm:          keepWarm,
+		OptimizationFlags: optimizationFlags,
+		containerTimeout:  runnerContainerTimeout,
 	}
 
 	rc, err := NewRunnerContainer(ctx, cfg, containerName)
@@ -498,6 +499,13 @@
 		if failures >= maxHealthCheckFailures && time.Since(startTime) > pipelineStartGracePeriod {
 			slog.Error("Container health check failed too many times", slog.String("container", rc.Name))
 			m.destroyContainer(rc, false)
+			if rc.KeepWarm {
+				slog.Info("Container was kept warm, restarting", slog.String("container", rc.Name))
+				err := m.Warm(context.Background(), rc.Pipeline, rc.ModelID, rc.OptimizationFlags)
+				if err != nil {
+					slog.Error("Error restarting warm container", slog.String("container", rc.Name), slog.String("error", err.Error()))
+				}
+			}
 			return
 		}