diff --git a/clients/da-vinci-client/src/main/java/com/linkedin/davinci/kafka/consumer/AdaptiveThrottlerSignalService.java b/clients/da-vinci-client/src/main/java/com/linkedin/davinci/kafka/consumer/AdaptiveThrottlerSignalService.java
index 0d19a32dfe5..8bd1c0e686d 100644
--- a/clients/da-vinci-client/src/main/java/com/linkedin/davinci/kafka/consumer/AdaptiveThrottlerSignalService.java
+++ b/clients/da-vinci-client/src/main/java/com/linkedin/davinci/kafka/consumer/AdaptiveThrottlerSignalService.java
@@ -7,8 +7,11 @@
 import com.linkedin.davinci.stats.ingestion.heartbeat.AggregatedHeartbeatLagEntry;
 import com.linkedin.davinci.stats.ingestion.heartbeat.HeartbeatMonitoringService;
 import com.linkedin.venice.service.AbstractVeniceService;
+import com.linkedin.venice.stats.VeniceMetricsConfig;
 import com.linkedin.venice.throttle.VeniceAdaptiveThrottler;
 import com.linkedin.venice.utils.DaemonThreadFactory;
+import com.linkedin.venice.utils.concurrent.LatencyPercentileProvider;
+import com.linkedin.venice.utils.concurrent.LatencyPercentileProvider.LatencyType;
 import io.tehuti.Metric;
 import io.tehuti.metrics.MetricsRepository;
 import java.util.ArrayList;
@@ -21,6 +24,16 @@
 /**
  * This class contains service to periodically refresh all the signals for throttlers and update all registered throttler
  * based on new signal values.
+ *
+ * <p><b>Read-latency signal source</b> is controlled by
+ * {@link com.linkedin.venice.stats.VeniceMetricsConfig#USE_SELF_CONTAINED_STATS}:
+ * <ul>
+ *   <li>{@code false} — reads p99 from the Tehuti windowed percentile registered by
+ *       {@code ServerHttpRequestStats} via {@code metricsRepository.getMetric(...).value()}.</li>
+ *   <li>{@code true} — reads p99 from an independent {@link LatencyPercentileProvider} owned by
+ *       this service, fed by {@code ServerHttpRequestStats} at recording time, so the signal is
+ *       functional even when the Tehuti dependency is removed.</li>
+ * </ul>
  */
 public class AdaptiveThrottlerSignalService extends AbstractVeniceService {
   public static final long HEARTBEAT_LAG_LIMIT = TimeUnit.MINUTES.toMillis(10);
@@ -40,6 +53,14 @@ public class AdaptiveThrottlerSignalService extends AbstractVeniceService {
   private final HeartbeatMonitoringService heartbeatMonitoringService;
   private final List<VeniceAdaptiveThrottler> throttlerList = new ArrayList<>();
   private final ScheduledExecutorService updateService;
+  /**
+   * Independent read-latency p99 source; non-null only when
+   * {@link #useSelfContainedStats} is {@code true}. Exposed via
+   * {@link #getLatencyPercentileProvider()} so the recording side (for example
+   * {@code ServerHttpRequestStats}) can feed it.
+   */
+  private final LatencyPercentileProvider latencyPercentileProvider;
+  private final boolean useSelfContainedStats;
   private boolean singleGetLatencySignal = false;
   private boolean multiGetLatencySignal = false;
   private boolean readComputeLatencySignal = false;
@@ -60,6 +81,8 @@ public AdaptiveThrottlerSignalService(
     this.adaptiveThrottlerSignalRefreshIntervalInSeconds =
         veniceServerConfig.getAdaptiveThrottlerSignalRefreshIntervalInSeconds();
     this.metricsRepository = metricsRepository;
+    this.useSelfContainedStats = VeniceMetricsConfig.useSelfContainedStats(metricsRepository);
+    this.latencyPercentileProvider = useSelfContainedStats ? new LatencyPercentileProvider() : null;
     this.updateService = Executors.newSingleThreadScheduledExecutor(
         new DaemonThreadFactory("AdaptiveThrottlerSignalService", veniceServerConfig.getLogContext()));
     this.heartbeatMonitoringService = heartbeatMonitoringService;
@@ -75,6 +98,11 @@ public AdaptiveThrottlingServiceStats getAdaptiveThrottlingServiceStats() {
     return adaptiveThrottlingServiceStats;
   }
 
+  /** @return the independent p99 provider, or {@code null} when using the legacy Tehuti path. */
+  public LatencyPercentileProvider getLatencyPercentileProvider() {
+    return latencyPercentileProvider;
+  }
+
   public void refreshSignalAndThrottler() {
     // Update all the signals in one shot;
     updateReadLatencySignal();
@@ -86,24 +114,32 @@ public void refreshSignalAndThrottler() {
   }
 
   void updateReadLatencySignal() {
-    Metric hostSingleGetLatencyP99Metric = metricsRepository.getMetric(SINGLE_GET_LATENCY_P99_METRIC_NAME);
-    Metric hostMultiGetLatencyP99Metric = metricsRepository.getMetric(MULTI_GET_LATENCY_P99_METRIC_NAME);
-    Metric hostReadComputeLatencyP99Metric = metricsRepository.getMetric(READ_COMPUTE_LATENCY_P99_METRIC_NAME);
-    double hostSingleGetLatencyP99 = 0;
-    double hostMultiGetLatencyP99 = 0;
-    double hostReadComputeLatencyP99 = 0;
-
-    if (hostSingleGetLatencyP99Metric != null) {
-      hostSingleGetLatencyP99 = hostSingleGetLatencyP99Metric.value();
-      singleGetLatencySignal = hostSingleGetLatencyP99 > singleGetLatencyP99Threshold;
-    }
-    if (hostMultiGetLatencyP99Metric != null) {
-      hostMultiGetLatencyP99 = hostMultiGetLatencyP99Metric.value();
-      multiGetLatencySignal = hostMultiGetLatencyP99 > multiGetLatencyP99Threshold;
-    }
-    if (hostReadComputeLatencyP99Metric != null) {
-      hostReadComputeLatencyP99 = hostReadComputeLatencyP99Metric.value();
-      readComputeLatencySignal = hostReadComputeLatencyP99 > readComputeLatencyP99Threshold;
+    double hostSingleGetLatencyP99;
+    double hostMultiGetLatencyP99;
+    double hostReadComputeLatencyP99;
+    if (useSelfContainedStats) {
+      hostSingleGetLatencyP99 = latencyPercentileProvider.getP99(LatencyType.SINGLE_GET);
+      hostMultiGetLatencyP99 = latencyPercentileProvider.getP99(LatencyType.MULTI_GET);
+      hostReadComputeLatencyP99 = latencyPercentileProvider.getP99(LatencyType.READ_COMPUTE);
+      applyLatencySignals(hostSingleGetLatencyP99, hostMultiGetLatencyP99, hostReadComputeLatencyP99);
+    } else {
+      Metric hostSingleGetLatencyP99Metric = metricsRepository.getMetric(SINGLE_GET_LATENCY_P99_METRIC_NAME);
+      Metric hostMultiGetLatencyP99Metric = metricsRepository.getMetric(MULTI_GET_LATENCY_P99_METRIC_NAME);
+      Metric hostReadComputeLatencyP99Metric = metricsRepository.getMetric(READ_COMPUTE_LATENCY_P99_METRIC_NAME);
+      hostSingleGetLatencyP99 = 0;
+      hostMultiGetLatencyP99 = 0;
+      hostReadComputeLatencyP99 = 0;
+
+      if (hostSingleGetLatencyP99Metric != null) {
+        hostSingleGetLatencyP99 = hostSingleGetLatencyP99Metric.value();
+      }
+      if (hostMultiGetLatencyP99Metric != null) {
+        hostMultiGetLatencyP99 = hostMultiGetLatencyP99Metric.value();
+      }
+      if (hostReadComputeLatencyP99Metric != null) {
+        hostReadComputeLatencyP99 = hostReadComputeLatencyP99Metric.value();
+      }
+      applyLatencySignals(hostSingleGetLatencyP99, hostMultiGetLatencyP99, hostReadComputeLatencyP99);
     }
     LOGGER.info(
         "Update read latency signal. singleGet: {} {}, multiGet: {} {}, readCompute: {} {}",
@@ -115,6 +151,12 @@ void updateReadLatencySignal() {
         readComputeLatencySignal);
   }
 
+  private void applyLatencySignals(double sg, double mg, double rc) {
+    singleGetLatencySignal = sg > singleGetLatencyP99Threshold;
+    multiGetLatencySignal = mg > multiGetLatencyP99Threshold;
+    readComputeLatencySignal = rc > readComputeLatencyP99Threshold;
+  }
+
   void updateHeartbeatLatencySignal() {
     AggregatedHeartbeatLagEntry maxLeaderHeartbeatLag = heartbeatMonitoringService.getMaxLeaderHeartbeatLag();
     if (maxLeaderHeartbeatLag != null) {
diff --git a/clients/da-vinci-client/src/test/java/com/linkedin/davinci/kafka/consumer/AdaptiveThrottlerSignalServiceTest.java b/clients/da-vinci-client/src/test/java/com/linkedin/davinci/kafka/consumer/AdaptiveThrottlerSignalServiceTest.java
index 319443cb1fc..b0c502c7055 100644
--- a/clients/da-vinci-client/src/test/java/com/linkedin/davinci/kafka/consumer/AdaptiveThrottlerSignalServiceTest.java
+++ b/clients/da-vinci-client/src/test/java/com/linkedin/davinci/kafka/consumer/AdaptiveThrottlerSignalServiceTest.java
@@ -13,6 +13,10 @@
 import com.linkedin.davinci.config.VeniceServerConfig;
 import com.linkedin.davinci.stats.ingestion.heartbeat.AggregatedHeartbeatLagEntry;
 import com.linkedin.davinci.stats.ingestion.heartbeat.HeartbeatMonitoringService;
+import com.linkedin.venice.stats.VeniceMetricsConfig;
+import com.linkedin.venice.stats.VeniceMetricsRepository;
+import com.linkedin.venice.utils.concurrent.LatencyPercentileProvider;
+import com.linkedin.venice.utils.concurrent.LatencyPercentileProvider.LatencyType;
 import io.tehuti.Metric;
 import io.tehuti.metrics.MetricsRepository;
 import io.tehuti.metrics.Sensor;
@@ -23,72 +27,241 @@
 
 
 public class AdaptiveThrottlerSignalServiceTest {
-  @Test
-  public void testUpdateSignal() {
+  private static VeniceServerConfig baseConfig() {
+    VeniceServerConfig cfg = mock(VeniceServerConfig.class);
+    when(cfg.getAdaptiveThrottlerSingleGetLatencyThreshold()).thenReturn(10d);
+    when(cfg.getAdaptiveThrottlerMultiGetLatencyThreshold()).thenReturn(100d);
+    when(cfg.getAdaptiveThrottlerReadComputeLatencyThreshold()).thenReturn(150d);
+    return cfg;
+  }
+
+  /** Mock MetricsRepository for the Tehuti (false) path — allows stubbing getMetric(). */
+  private static MetricsRepository mockMetricsRepository() {
     MetricsRepository metricsRepository = mock(MetricsRepository.class);
     Sensor sensor = mock(Sensor.class);
     doReturn(sensor).when(metricsRepository).sensor(anyString(), any());
+    return metricsRepository;
+  }
+
+  /** Real VeniceMetricsRepository with USE_SELF_CONTAINED_STATS=true for the independent path. */
+  private static VeniceMetricsRepository selfContainedMetricsRepo() {
+    return new VeniceMetricsRepository(new VeniceMetricsConfig.Builder().setUseSelfContainedStats(true).build());
+  }
+
+  // ---------- Tehuti read path (flag = false, default) ----------
+
+  @Test
+  public void testUpdateSignalTehutiPath() {
+    MetricsRepository metricsRepository = mockMetricsRepository();
     HeartbeatMonitoringService heartbeatMonitoringService = mock(HeartbeatMonitoringService.class);
-    VeniceServerConfig veniceServerConfig = mock(VeniceServerConfig.class);
-    when(veniceServerConfig.getAdaptiveThrottlerSingleGetLatencyThreshold()).thenReturn(10d);
-    when(veniceServerConfig.getAdaptiveThrottlerMultiGetLatencyThreshold()).thenReturn(100d);
-    when(veniceServerConfig.getAdaptiveThrottlerReadComputeLatencyThreshold()).thenReturn(150d);
+    VeniceServerConfig veniceServerConfig = baseConfig();
 
-    AdaptiveThrottlerSignalService adaptiveThrottlerSignalService =
+    AdaptiveThrottlerSignalService service =
         new AdaptiveThrottlerSignalService(veniceServerConfig, metricsRepository, heartbeatMonitoringService);
 
-    // Single Get Signal
-    Assert.assertFalse(adaptiveThrottlerSignalService.isReadLatencySignalActive());
+    Assert.assertNull(service.getLatencyPercentileProvider(), "Legacy path should not allocate a provider");
+    Assert.assertFalse(service.isReadLatencySignalActive());
+
     Metric singleGetMetric = mock(Metric.class);
-    when(singleGetMetric.value()).thenReturn(20.0d);
     Metric multiGetMetric = mock(Metric.class);
-    when(multiGetMetric.value()).thenReturn(90.0d);
     Metric readComputeMetric = mock(Metric.class);
-    when(readComputeMetric.value()).thenReturn(40.0d);
+    when(singleGetMetric.value()).thenReturn(20.0d); // > 10 ⇒ trips
+    when(multiGetMetric.value()).thenReturn(90.0d); // < 100
+    when(readComputeMetric.value()).thenReturn(40.0d); // < 150
     when(metricsRepository.getMetric(SINGLE_GET_LATENCY_P99_METRIC_NAME)).thenReturn(singleGetMetric);
     when(metricsRepository.getMetric(MULTI_GET_LATENCY_P99_METRIC_NAME)).thenReturn(multiGetMetric);
     when(metricsRepository.getMetric(READ_COMPUTE_LATENCY_P99_METRIC_NAME)).thenReturn(readComputeMetric);
-    adaptiveThrottlerSignalService.refreshSignalAndThrottler();
-    Assert.assertTrue(adaptiveThrottlerSignalService.isReadLatencySignalActive());
+    service.refreshSignalAndThrottler();
+    Assert.assertTrue(service.isReadLatencySignalActive());
+
     when(singleGetMetric.value()).thenReturn(1.0d);
-    Assert.assertTrue(adaptiveThrottlerSignalService.isReadLatencySignalActive());
-    adaptiveThrottlerSignalService.refreshSignalAndThrottler();
-    Assert.assertFalse(adaptiveThrottlerSignalService.isReadLatencySignalActive());
+    service.refreshSignalAndThrottler();
+    Assert.assertFalse(service.isReadLatencySignalActive());
+
+    // Heartbeat branch unaffected by the percentile flag.
+    Assert.assertFalse(service.isCurrentFollowerMaxHeartbeatLagSignalActive());
+    Assert.assertFalse(service.isCurrentLeaderMaxHeartbeatLagSignalActive());
+    when(heartbeatMonitoringService.getMaxLeaderHeartbeatLag())
+        .thenReturn(new AggregatedHeartbeatLagEntry(TimeUnit.MINUTES.toMillis(100), TimeUnit.MINUTES.toMillis(1)));
+    when(heartbeatMonitoringService.getMaxFollowerHeartbeatLag())
+        .thenReturn(new AggregatedHeartbeatLagEntry(TimeUnit.MINUTES.toMillis(1), TimeUnit.MINUTES.toMillis(100)));
+    service.refreshSignalAndThrottler();
+    Assert.assertTrue(service.isCurrentLeaderMaxHeartbeatLagSignalActive());
+    Assert.assertTrue(service.isNonCurrentFollowerMaxHeartbeatLagSignalActive());
+    Assert.assertFalse(service.isCurrentFollowerMaxHeartbeatLagSignalActive());
+    Assert.assertFalse(service.isNonCurrentLeaderMaxHeartbeatLagSignalActive());
+  }
+
+  @Test
+  public void testUpdateSignalTehutiPathMissingMetricsLeavesSignalOff() {
+    MetricsRepository metricsRepository = mockMetricsRepository();
+    HeartbeatMonitoringService heartbeatMonitoringService = mock(HeartbeatMonitoringService.class);
+    VeniceServerConfig veniceServerConfig = baseConfig();
+    // When the metrics repo returns null (metrics not yet registered), the legacy path leaves the
+    // last-known signal alone instead of tripping — original behavior.
+    when(metricsRepository.getMetric(SINGLE_GET_LATENCY_P99_METRIC_NAME)).thenReturn(null);
+    when(metricsRepository.getMetric(MULTI_GET_LATENCY_P99_METRIC_NAME)).thenReturn(null);
+    when(metricsRepository.getMetric(READ_COMPUTE_LATENCY_P99_METRIC_NAME)).thenReturn(null);
+
+    AdaptiveThrottlerSignalService service =
+        new AdaptiveThrottlerSignalService(veniceServerConfig, metricsRepository, heartbeatMonitoringService);
+    service.refreshSignalAndThrottler();
+    Assert.assertFalse(service.isReadLatencySignalActive());
+  }
+
+  // ---------- Independent provider path (flag = true) ----------
+
+  @Test
+  public void testUpdateSignalIndependentProviderPath() {
+    VeniceMetricsRepository metricsRepository = selfContainedMetricsRepo();
+    HeartbeatMonitoringService heartbeatMonitoringService = mock(HeartbeatMonitoringService.class);
 
-    // Heartbeat signal
-    Assert.assertFalse(adaptiveThrottlerSignalService.isCurrentFollowerMaxHeartbeatLagSignalActive());
-    Assert.assertFalse(adaptiveThrottlerSignalService.isCurrentLeaderMaxHeartbeatLagSignalActive());
-    Assert.assertFalse(adaptiveThrottlerSignalService.isNonCurrentFollowerMaxHeartbeatLagSignalActive());
-    Assert.assertFalse(adaptiveThrottlerSignalService.isNonCurrentLeaderMaxHeartbeatLagSignalActive());
+    AdaptiveThrottlerSignalService service =
+        new AdaptiveThrottlerSignalService(baseConfig(), metricsRepository, heartbeatMonitoringService);
 
+    LatencyPercentileProvider provider = service.getLatencyPercentileProvider();
+    Assert.assertNotNull(provider, "Independent path must allocate a provider");
+    Assert.assertFalse(service.isReadLatencySignalActive());
+
+    // Seed singleGet above threshold (10ms), others below.
+    for (int i = 0; i < 100; i++) {
+      provider.observe(LatencyType.SINGLE_GET, 20.0);
+      provider.observe(LatencyType.MULTI_GET, 90.0);
+      provider.observe(LatencyType.READ_COMPUTE, 40.0);
+    }
+    service.refreshSignalAndThrottler();
+    Assert.assertTrue(service.isReadLatencySignalActive());
+
+    // Drive singleGet back under threshold by flooding the reservoir with sub-threshold samples.
+    for (int i = 0; i < LatencyPercentileProvider.DEFAULT_RESERVOIR_CAPACITY; i++) {
+      provider.observe(LatencyType.SINGLE_GET, 1.0);
+    }
+    service.refreshSignalAndThrottler();
+    Assert.assertFalse(service.isReadLatencySignalActive());
+
+    // Heartbeat branch unaffected by the percentile flag.
     when(heartbeatMonitoringService.getMaxLeaderHeartbeatLag())
         .thenReturn(new AggregatedHeartbeatLagEntry(TimeUnit.MINUTES.toMillis(100), TimeUnit.MINUTES.toMillis(1)));
     when(heartbeatMonitoringService.getMaxFollowerHeartbeatLag())
         .thenReturn(new AggregatedHeartbeatLagEntry(TimeUnit.MINUTES.toMillis(1), TimeUnit.MINUTES.toMillis(100)));
-    adaptiveThrottlerSignalService.refreshSignalAndThrottler();
-    Assert.assertFalse(adaptiveThrottlerSignalService.isCurrentFollowerMaxHeartbeatLagSignalActive());
-    Assert.assertTrue(adaptiveThrottlerSignalService.isCurrentLeaderMaxHeartbeatLagSignalActive());
-    Assert.assertTrue(adaptiveThrottlerSignalService.isNonCurrentFollowerMaxHeartbeatLagSignalActive());
-    Assert.assertFalse(adaptiveThrottlerSignalService.isNonCurrentLeaderMaxHeartbeatLagSignalActive());
+    service.refreshSignalAndThrottler();
+    Assert.assertTrue(service.isCurrentLeaderMaxHeartbeatLagSignalActive());
+    Assert.assertTrue(service.isNonCurrentFollowerMaxHeartbeatLagSignalActive());
+  }
+
+  @Test
+  public void testUpdateSignalIndependentProviderEmptyReservoirLeavesSignalOff() {
+    VeniceMetricsRepository metricsRepository = selfContainedMetricsRepo();
+    HeartbeatMonitoringService heartbeatMonitoringService = mock(HeartbeatMonitoringService.class);
+    AdaptiveThrottlerSignalService service =
+        new AdaptiveThrottlerSignalService(baseConfig(), metricsRepository, heartbeatMonitoringService);
+    // No observations — provider returns 0 for p99 ⇒ signal off.
+    service.refreshSignalAndThrottler();
+    Assert.assertFalse(service.isReadLatencySignalActive());
+  }
+
+  // ---------- Parity: both paths produce the same signal for equivalent input ----------
+
+  /**
+   * Parity: feed identical p99 values (via Tehuti mocks to the legacy path, and via
+   * {@link LatencyPercentileProvider#observe} to the independent path) and assert both paths
+   * produce the same {@code isReadLatencySignalActive} at each threshold crossing. Ensures
+   * flipping the flag preserves external behavior.
+   */
+  @Test
+  public void testBothPathsProduceSameSignalAtThresholdCrossings() {
+    HeartbeatMonitoringService heartbeat = mock(HeartbeatMonitoringService.class);
+
+    // Legacy path — build the service, stub the three p99 Metrics.
+    MetricsRepository tehutiRepo = mockMetricsRepository();
+    AdaptiveThrottlerSignalService tehutiService =
+        new AdaptiveThrottlerSignalService(baseConfig(), tehutiRepo, heartbeat);
+    Metric singleGetMetric = mock(Metric.class);
+    Metric multiGetMetric = mock(Metric.class);
+    Metric readComputeMetric = mock(Metric.class);
+    when(tehutiRepo.getMetric(SINGLE_GET_LATENCY_P99_METRIC_NAME)).thenReturn(singleGetMetric);
+    when(tehutiRepo.getMetric(MULTI_GET_LATENCY_P99_METRIC_NAME)).thenReturn(multiGetMetric);
+    when(tehutiRepo.getMetric(READ_COMPUTE_LATENCY_P99_METRIC_NAME)).thenReturn(readComputeMetric);
+
+    // Independent path — build the service, feed its provider.
+    AdaptiveThrottlerSignalService independentService =
+        new AdaptiveThrottlerSignalService(baseConfig(), selfContainedMetricsRepo(), heartbeat);
+    LatencyPercentileProvider provider = independentService.getLatencyPercentileProvider();
+
+    // Scenario 1: all under threshold ⇒ signal off on both paths.
+    driveP99(singleGetMetric, multiGetMetric, readComputeMetric, provider, 1.0, 50.0, 20.0);
+    tehutiService.refreshSignalAndThrottler();
+    independentService.refreshSignalAndThrottler();
+    Assert.assertEquals(tehutiService.isReadLatencySignalActive(), independentService.isReadLatencySignalActive());
+    Assert.assertFalse(tehutiService.isReadLatencySignalActive());
+
+    // Scenario 2: singleGet trips (> 10) ⇒ both on.
+    driveP99(singleGetMetric, multiGetMetric, readComputeMetric, provider, 20.0, 50.0, 20.0);
+    tehutiService.refreshSignalAndThrottler();
+    independentService.refreshSignalAndThrottler();
+    Assert.assertEquals(tehutiService.isReadLatencySignalActive(), independentService.isReadLatencySignalActive());
+    Assert.assertTrue(tehutiService.isReadLatencySignalActive());
+
+    // Scenario 3: multiGet trips (> 100), singleGet recovers ⇒ both on.
+    driveP99(singleGetMetric, multiGetMetric, readComputeMetric, provider, 1.0, 150.0, 20.0);
+    tehutiService.refreshSignalAndThrottler();
+    independentService.refreshSignalAndThrottler();
+    Assert.assertEquals(tehutiService.isReadLatencySignalActive(), independentService.isReadLatencySignalActive());
+    Assert.assertTrue(tehutiService.isReadLatencySignalActive());
+
+    // Scenario 4: readCompute trips (> 150) ⇒ both on.
+    driveP99(singleGetMetric, multiGetMetric, readComputeMetric, provider, 1.0, 50.0, 200.0);
+    tehutiService.refreshSignalAndThrottler();
+    independentService.refreshSignalAndThrottler();
+    Assert.assertEquals(tehutiService.isReadLatencySignalActive(), independentService.isReadLatencySignalActive());
+    Assert.assertTrue(tehutiService.isReadLatencySignalActive());
+
+    // Scenario 5: everything back under threshold ⇒ both off.
+    driveP99(singleGetMetric, multiGetMetric, readComputeMetric, provider, 1.0, 50.0, 20.0);
+    tehutiService.refreshSignalAndThrottler();
+    independentService.refreshSignalAndThrottler();
+    Assert.assertEquals(tehutiService.isReadLatencySignalActive(), independentService.isReadLatencySignalActive());
+    Assert.assertFalse(tehutiService.isReadLatencySignalActive());
+  }
+
+  /**
+   * Stubs Tehuti mock metric values to the target p99s AND fills the reservoir densely enough that
+   * {@code getP99} returns the same target within rounding. Uses a fresh fill for each scenario so
+   * the provider's ring buffer reflects only the current p99 target.
+   */
+  private static void driveP99(
+      Metric singleGetMetric,
+      Metric multiGetMetric,
+      Metric readComputeMetric,
+      LatencyPercentileProvider provider,
+      double singleGet,
+      double multiGet,
+      double readCompute) {
+    when(singleGetMetric.value()).thenReturn(singleGet);
+    when(multiGetMetric.value()).thenReturn(multiGet);
+    when(readComputeMetric.value()).thenReturn(readCompute);
+    // Fill the provider's ring buffer with the target value so p99 converges to it.
+    for (int i = 0; i < LatencyPercentileProvider.DEFAULT_RESERVOIR_CAPACITY; i++) {
+      provider.observe(LatencyType.SINGLE_GET, singleGet);
+      provider.observe(LatencyType.MULTI_GET, multiGet);
+      provider.observe(LatencyType.READ_COMPUTE, readCompute);
+    }
   }
 
   @Test
   public void testRegisterThrottler() {
-    MetricsRepository metricsRepository = mock(MetricsRepository.class);
-    Sensor sensor = mock(Sensor.class);
-    doReturn(sensor).when(metricsRepository).sensor(anyString(), any());
+    MetricsRepository metricsRepository = mockMetricsRepository();
     HeartbeatMonitoringService heartbeatMonitoringService = mock(HeartbeatMonitoringService.class);
-    VeniceServerConfig veniceServerConfig = mock(VeniceServerConfig.class);
-    when(veniceServerConfig.getAdaptiveThrottlerSingleGetLatencyThreshold()).thenReturn(10d);
+    VeniceServerConfig veniceServerConfig = baseConfig();
     when(veniceServerConfig.getAdaptiveThrottlerSignalRefreshIntervalInSeconds()).thenReturn(10);
-    AdaptiveThrottlerSignalService adaptiveThrottlerSignalService =
+    AdaptiveThrottlerSignalService service =
         new AdaptiveThrottlerSignalService(veniceServerConfig, metricsRepository, heartbeatMonitoringService);
-    VeniceAdaptiveIngestionThrottler adaptiveIngestionThrottler = mock(VeniceAdaptiveIngestionThrottler.class);
-    Assert.assertEquals(adaptiveThrottlerSignalService.getAdaptiveThrottlerSignalRefreshIntervalInSeconds(), 10);
-    adaptiveThrottlerSignalService.registerThrottler(adaptiveIngestionThrottler);
-    Assert.assertEquals(adaptiveThrottlerSignalService.getThrottlerList().size(), 1);
-    Assert.assertEquals(adaptiveThrottlerSignalService.getThrottlerList().get(0), adaptiveIngestionThrottler);
-    adaptiveThrottlerSignalService.refreshSignalAndThrottler();
-    Mockito.verify(adaptiveIngestionThrottler, times(1)).checkSignalAndAdjustThrottler();
+    VeniceAdaptiveIngestionThrottler throttler = mock(VeniceAdaptiveIngestionThrottler.class);
+    Assert.assertEquals(service.getAdaptiveThrottlerSignalRefreshIntervalInSeconds(), 10);
+    service.registerThrottler(throttler);
+    Assert.assertEquals(service.getThrottlerList().size(), 1);
+    Assert.assertEquals(service.getThrottlerList().get(0), throttler);
+    service.refreshSignalAndThrottler();
+    Mockito.verify(throttler, times(1)).checkSignalAndAdjustThrottler();
   }
 }
diff --git a/clients/da-vinci-client/src/test/java/com/linkedin/davinci/kafka/consumer/LatencyPercentileProviderTest.java b/clients/da-vinci-client/src/test/java/com/linkedin/davinci/kafka/consumer/LatencyPercentileProviderTest.java
new file mode 100644
index 00000000000..0c0d5c9f3b8
--- /dev/null
+++ b/clients/da-vinci-client/src/test/java/com/linkedin/davinci/kafka/consumer/LatencyPercentileProviderTest.java
@@ -0,0 +1,162 @@
+package com.linkedin.davinci.kafka.consumer;
+
+import static org.testng.Assert.assertEquals;
+import static org.testng.Assert.assertThrows;
+import static org.testng.Assert.assertTrue;
+
+import com.linkedin.venice.utils.concurrent.LatencyPercentileProvider;
+import com.linkedin.venice.utils.concurrent.LatencyPercentileProvider.LatencyType;
+import java.util.Arrays;
+import java.util.concurrent.CountDownLatch;
+import java.util.concurrent.ExecutorService;
+import java.util.concurrent.Executors;
+import java.util.concurrent.TimeUnit;
+import org.testng.annotations.Test;
+
+
+public class LatencyPercentileProviderTest {
+  @Test
+  public void testInvalidCapacity() {
+    assertThrows(IllegalArgumentException.class, () -> new LatencyPercentileProvider(0));
+    assertThrows(IllegalArgumentException.class, () -> new LatencyPercentileProvider(-1));
+  }
+
+  @Test
+  public void testEmptyReservoirReturnsZero() {
+    LatencyPercentileProvider provider = new LatencyPercentileProvider();
+    assertEquals(provider.getP99(LatencyType.SINGLE_GET), 0.0);
+    assertEquals(provider.getP99(LatencyType.MULTI_GET), 0.0);
+    assertEquals(provider.getP99(LatencyType.READ_COMPUTE), 0.0);
+  }
+
+  @Test
+  public void testP99WithUniformSamples() {
+    LatencyPercentileProvider provider = new LatencyPercentileProvider(128);
+    for (int i = 0; i < 128; i++) {
+      provider.observe(LatencyType.SINGLE_GET, 42.0);
+    }
+    assertEquals(provider.getP99(LatencyType.SINGLE_GET), 42.0);
+  }
+
+  @Test
+  public void testP99OrdersHighValuesIntoTail() {
+    LatencyPercentileProvider provider = new LatencyPercentileProvider(100);
+    for (int i = 1; i <= 100; i++) {
+      provider.observe(LatencyType.SINGLE_GET, (double) i);
+    }
+    // With 100 samples, p99 index = round(0.99 * 99) = round(98.01) = 98 -> samples[98] = 99.0
+    double p99 = provider.getP99(LatencyType.SINGLE_GET);
+    assertTrue(p99 >= 98.0 && p99 <= 100.0, "Unexpected p99: " + p99);
+  }
+
+  @Test
+  public void testTypesAreIndependent() {
+    LatencyPercentileProvider provider = new LatencyPercentileProvider(32);
+    for (int i = 0; i < 32; i++) {
+      provider.observe(LatencyType.SINGLE_GET, 10.0);
+    }
+    // MULTI_GET and READ_COMPUTE remain empty -> 0.
+    assertEquals(provider.getP99(LatencyType.SINGLE_GET), 10.0);
+    assertEquals(provider.getP99(LatencyType.MULTI_GET), 0.0);
+    assertEquals(provider.getP99(LatencyType.READ_COMPUTE), 0.0);
+  }
+
+  @Test
+  public void testOverwriteWrapsAroundRing() {
+    LatencyPercentileProvider provider = new LatencyPercentileProvider(4);
+    // Fill with 1,2,3,4; overwrite with 100,100,100,100.
+    provider.observe(LatencyType.SINGLE_GET, 1.0);
+    provider.observe(LatencyType.SINGLE_GET, 2.0);
+    provider.observe(LatencyType.SINGLE_GET, 3.0);
+    provider.observe(LatencyType.SINGLE_GET, 4.0);
+    assertEquals(provider.getP99(LatencyType.SINGLE_GET), 4.0);
+
+    provider.observe(LatencyType.SINGLE_GET, 100.0);
+    provider.observe(LatencyType.SINGLE_GET, 100.0);
+    provider.observe(LatencyType.SINGLE_GET, 100.0);
+    provider.observe(LatencyType.SINGLE_GET, 100.0);
+    assertEquals(provider.getP99(LatencyType.SINGLE_GET), 100.0);
+  }
+
+  @Test
+  public void testConcurrentObserve() throws Exception {
+    LatencyPercentileProvider provider = new LatencyPercentileProvider(1024);
+    int threads = 8;
+    int perThread = 5_000;
+    ExecutorService pool = Executors.newFixedThreadPool(threads);
+    CountDownLatch start = new CountDownLatch(1);
+    CountDownLatch done = new CountDownLatch(threads);
+    try {
+      for (int t = 0; t < threads; t++) {
+        pool.submit(() -> {
+          try {
+            start.await();
+            for (int i = 0; i < perThread; i++) {
+              provider.observe(LatencyType.SINGLE_GET, 50.0);
+            }
+          } catch (InterruptedException e) {
+            Thread.currentThread().interrupt();
+          } finally {
+            done.countDown();
+          }
+        });
+      }
+      start.countDown();
+      assertTrue(done.await(30, TimeUnit.SECONDS));
+    } finally {
+      pool.shutdownNow();
+    }
+    assertEquals(provider.getP99(LatencyType.SINGLE_GET), 50.0);
+  }
+
+  /*
+   * Parity test: verify LatencyPercentileProvider.getP99() matches the canonical sorted-array
+   * percentile algorithm. Tehuti's windowed Percentiles stat uses a different histogram approach
+   * (exponential decay reservoir) so exact numerical parity with Tehuti is not guaranteed —
+   * instead we validate against the sort-and-index definition that the ring-buffer promises.
+   * Both are valid approximations of the true p99; the test confirms the ring-buffer's algorithm
+   * is correctly implemented.
+   */
+  @Test
+  public void testP99MatchesCanonicalSortedArrayPercentile() {
+    int n = 200;
+    LatencyPercentileProvider provider = new LatencyPercentileProvider(n);
+    double[] values = new double[n];
+    for (int i = 0; i < n; i++) {
+      values[i] = i + 1.0; // 1.0, 2.0, ..., 200.0
+      provider.observe(LatencyType.SINGLE_GET, values[i]);
+    }
+
+    // Canonical p99: sort the array and pick the index at round(0.99 * (n-1)).
+    double[] sorted = Arrays.copyOf(values, n);
+    Arrays.sort(sorted);
+    int idx = (int) Math.min(n - 1L, Math.max(0L, Math.round(0.99 * (n - 1))));
+    double canonicalP99 = sorted[idx];
+
+    assertEquals(provider.getP99(LatencyType.SINGLE_GET), canonicalP99, 1e-9);
+  }
+
+  @Test
+  public void testP99WithSkewedDistributionMatchesCanonical() {
+    // Skewed: 95% of values are low latency (1ms), 5% are high latency (500ms).
+    int total = 1000;
+    int highLatencyCount = 50; // 5%
+    LatencyPercentileProvider provider = new LatencyPercentileProvider(total);
+    double[] values = new double[total];
+    for (int i = 0; i < total - highLatencyCount; i++) {
+      values[i] = 1.0;
+      provider.observe(LatencyType.MULTI_GET, 1.0);
+    }
+    for (int i = total - highLatencyCount; i < total; i++) {
+      values[i] = 500.0;
+      provider.observe(LatencyType.MULTI_GET, 500.0);
+    }
+
+    double[] sorted = Arrays.copyOf(values, total);
+    Arrays.sort(sorted);
+    int idx = (int) Math.min(total - 1L, Math.max(0L, Math.round(0.99 * (total - 1))));
+    double canonicalP99 = sorted[idx];
+
+    assertEquals(provider.getP99(LatencyType.MULTI_GET), canonicalP99, 1e-9);
+  }
+}
diff --git a/clients/venice-client/src/main/java/com/linkedin/venice/fastclient/meta/HelixGroupRoutingStrategy.java b/clients/venice-client/src/main/java/com/linkedin/venice/fastclient/meta/HelixGroupRoutingStrategy.java
index b4062f1f941..8b9fc9629ed 100644
--- a/clients/venice-client/src/main/java/com/linkedin/venice/fastclient/meta/HelixGroupRoutingStrategy.java
+++ b/clients/venice-client/src/main/java/com/linkedin/venice/fastclient/meta/HelixGroupRoutingStrategy.java
@@ -3,6 +3,7 @@
 import com.linkedin.venice.client.exceptions.VeniceClientException;
 import com.linkedin.venice.fastclient.RequestContext;
 import com.linkedin.venice.read.RequestType;
+import com.linkedin.venice.stats.VeniceMetricsConfig;
 import com.linkedin.venice.stats.routing.HelixGroupStats;
 import com.linkedin.venice.utils.LatencyUtils;
 import io.tehuti.metrics.MetricsRepository;
@@ -26,7 +27,12 @@ public HelixGroupRoutingStrategy(
       InstanceHealthMonitor instanceHealthMonitor,
       MetricsRepository metricsRepository,
       String storeName) {
-    this(instanceHealthMonitor, new HelixGroupStats(metricsRepository, storeName));
+    this(
+        instanceHealthMonitor,
+        new HelixGroupStats(
+            metricsRepository,
+            storeName,
+            VeniceMetricsConfig.useSelfContainedStats(metricsRepository)));
   }
 
   HelixGroupRoutingStrategy(InstanceHealthMonitor instanceHealthMonitor, HelixGroupStats helixGroupStats) {
diff --git a/internal/venice-client-common/src/main/java/com/linkedin/venice/reliability/LoadController.java b/internal/venice-client-common/src/main/java/com/linkedin/venice/reliability/LoadController.java
index 3c3bc673516..5ad22334521 100644
--- a/internal/venice-client-common/src/main/java/com/linkedin/venice/reliability/LoadController.java
+++ b/internal/venice-client-common/src/main/java/com/linkedin/venice/reliability/LoadController.java
@@ -8,6 +8,7 @@
 import io.tehuti.metrics.Sensor;
 import io.tehuti.metrics.stats.SampledCount;
 import java.util.concurrent.TimeUnit;
+import java.util.concurrent.atomic.LongAdder;
 import org.apache.logging.log4j.LogManager;
 import org.apache.logging.log4j.Logger;
 
@@ -23,54 +24,71 @@
  * 3. It uses the following formula to calculate the rejection ratio:
  *    max(0, (requestRate - acceptMultiplier * acceptRate) / (requestRate + 1))
  *
- * Here is how the rejection ratio calculation being implemented here:
- * 1. This class is using a sliding window to calcuate the request rate and accept rate.
- * 2. The window size is controlled by {@link #windowSizeInSec}.
- * 3. To reduce the overhead of calculating the rejection ratio, we only calculate it every
+ * Implementation:
+ * 1. Requests and accepts are tracked over a sliding window (Tehuti path) or since the last
+ *    measurement (independent-counter path). See {@link Builder#setUseIndependentCounter}.
+ * 2. To reduce the overhead of calculating the rejection ratio, we only calculate it every
  *    {@link #rejectionRatioUpdateIntervalInSec}.
- * 4. This class also limits the maximum rejection ratio to {@link #maxRejectionRatio} to avoid
+ * 3. This class also limits the maximum rejection ratio to {@link #maxRejectionRatio} to avoid
  *    rejecting every request, otherwise, the backend won't be able to recover automatically.
- * 5. We can tune {@link #acceptMultiplier} to control the rejection ratio.
+ * 4. We can tune {@link #acceptMultiplier} to control the rejection ratio.
+ *
+ * <p><b>Backing counter:</b> two implementations coexist and are selected at construction via
+ * {@link Builder#setUseIndependentCounter(boolean)} (default {@code false}):
+ * <ul>
+ *   <li>{@code false} — legacy Tehuti {@link SampledCount} in a local {@link MetricsRepository}
+ *       (the {@code MetricsRepository} is not exported; it serves purely as windowed-count state).</li>
+ *   <li>{@code true} — two {@link LongAdder}s reset on each ratio update, so the load-shedding
+ *       decision remains functional even when the Tehuti dependency is removed. The effective
+ *       window is {@link #rejectionRatioUpdateIntervalInSec}; {@code windowSizeInSec} is
+ *       ignored for this path.</li>
+ * </ul>
+ * Both paths produce equivalent rejection ratios for the same input sequence; {@code true} removes
+ * the coupling to Tehuti.
  */
 public class LoadController {
   private final static Logger LOGGER = LogManager.getLogger(LoadController.class);
-  private final int windowSizeInSec;
   private final int rejectionRatioUpdateIntervalInSec;
   private final double maxRejectionRatio;
   private final Time time;
   private final double acceptMultiplier;
 
-  private final Sensor requestSensor;
-  private final Metric requestMetric;
-  private final Sensor acceptSensor;
-  private final Metric acceptMetric;
+  private final CountProvider requestCounter;
+  private final CountProvider acceptCounter;
 
   private volatile long nextRejectionRatioUpdateTime = -1;
   private volatile double rejectionRatio = 0;
 
   private LoadController(Builder builder) {
-    this.windowSizeInSec = builder.windowSizeInSec;
     this.rejectionRatioUpdateIntervalInSec = builder.rejectionRatioUpdateIntervalInSec;
-    if (this.rejectionRatioUpdateIntervalInSec >= this.windowSizeInSec) {
-      throw new IllegalArgumentException("Rejection ratio update interval should be less than window size");
-    }
     this.maxRejectionRatio = builder.maxRejectionRatio;
     this.acceptMultiplier = builder.acceptMultiplier;
     this.time = builder.time;
-    MetricsRepository metricsRepository =
-        new MetricsRepository(new MetricConfig().timeWindow(windowSizeInSec, TimeUnit.SECONDS));
-    this.requestSensor = metricsRepository.sensor("request");
-    this.requestMetric = requestSensor.add("request", new SampledCount());
-    this.acceptSensor = metricsRepository.sensor("accept");
-    this.acceptMetric = acceptSensor.add("accept", new SampledCount());
+    if (builder.useIndependentCounter) {
+      this.requestCounter = new LongAdderCountProvider();
+      this.acceptCounter = new LongAdderCountProvider();
+    } else {
+      int windowSizeInSec = builder.windowSizeInSec;
+      if (this.rejectionRatioUpdateIntervalInSec >= windowSizeInSec) {
+        throw new IllegalArgumentException("Rejection ratio update interval should be less than window size");
+      }
+      MetricsRepository metricsRepository =
+          new MetricsRepository(new MetricConfig().timeWindow(windowSizeInSec, TimeUnit.SECONDS));
+      Sensor requestSensor = metricsRepository.sensor("request");
+      Metric requestMetric = requestSensor.add("request", new SampledCount());
+      Sensor acceptSensor = metricsRepository.sensor("accept");
+      Metric acceptMetric = acceptSensor.add("accept", new SampledCount());
+      this.requestCounter = new TehutiCountProvider(requestSensor, requestMetric);
+      this.acceptCounter = new TehutiCountProvider(acceptSensor, acceptMetric);
+    }
   }
 
   public void recordRequest() {
-    requestSensor.record();
+    requestCounter.record();
   }
 
   public void recordAccept() {
-    acceptSensor.record();
+    acceptCounter.record();
   }
 
   public double getRejectionRatio() {
@@ -81,8 +99,8 @@ public double getRejectionRatio() {
       if (time.getMilliseconds() < nextRejectionRatioUpdateTime) {
         return rejectionRatio;
       }
-      double requestCount = getMetricValue(requestMetric);
-      double acceptCount = getMetricValue(acceptMetric);
+      double requestCount = requestCounter.count();
+      double acceptCount = acceptCounter.count();
       if (requestCount == 0.0d) {
         rejectionRatio = 0;
       } else {
@@ -100,11 +118,6 @@ public boolean isOverloaded() {
     return getRejectionRatio() > 0;
   }
 
-  private double getMetricValue(Metric metric) {
-    double value = metric.value();
-    return Double.isFinite(value) ? value : 0.0;
-  }
-
   public boolean shouldRejectRequest() {
     double rejectRatio = getRejectionRatio();
     if (rejectRatio == 0) {
@@ -120,12 +133,66 @@ public static Builder newBuilder() {
     return new Builder();
   }
 
+  private interface CountProvider {
+    void record();
+
+    /*
+     * Returns the event count for the current measurement window. Semantics differ by
+     * implementation: {@link TehutiCountProvider} returns a rolling windowed count (non-destructive,
+     * re-readable); {@link LongAdderCountProvider} drains via {@code sumThenReset()} — calling
+     * this method a second time in the same measurement cycle returns 0. Callers must invoke
+     * {@code count()} exactly once per {@link LoadController#getRejectionRatio()} update cycle.
+     */
+    double count();
+  }
+
+  private static final class TehutiCountProvider implements CountProvider {
+    private final Sensor sensor;
+    private final Metric metric;
+
+    TehutiCountProvider(Sensor sensor, Metric metric) {
+      this.sensor = sensor;
+      this.metric = metric;
+    }
+
+    @Override
+    public void record() {
+      sensor.record();
+    }
+
+    @Override
+    public double count() {
+      double value = metric.value();
+      return Double.isFinite(value) ? value : 0.0;
+    }
+  }
+
+  /*
+   * Independent counter: a single LongAdder per request/accept stream. count() drains via
+   * sumThenReset() so each ratio update sees only events since the last measurement. Safe because
+   * getRejectionRatio() calls count() inside a synchronized block — only one thread drains at a time.
+   */
+  private static final class LongAdderCountProvider implements CountProvider {
+    private final LongAdder adder = new LongAdder();
+
+    @Override
+    public void record() {
+      adder.increment();
+    }
+
+    @Override
+    public double count() {
+      return adder.sumThenReset();
+    }
+  }
+
   public static class Builder {
     private int windowSizeInSec;
     private int rejectionRatioUpdateIntervalInSec;
     private double maxRejectionRatio;
     private double acceptMultiplier;
     private Time time = new SystemTime();
+    private boolean useIndependentCounter = false;
 
     public Builder setWindowSizeInSec(int windowSizeInSec) {
       this.windowSizeInSec = windowSizeInSec;
@@ -152,6 +219,11 @@ public Builder setTime(Time time) {
       return this;
     }
 
+    public Builder setUseIndependentCounter(boolean useIndependentCounter) {
+      this.useIndependentCounter = useIndependentCounter;
+      return this;
+    }
+
     public LoadController build() {
       return new LoadController(this);
     }
diff --git a/internal/venice-client-common/src/main/java/com/linkedin/venice/stats/OpenTelemetryMetricsSetup.java b/internal/venice-client-common/src/main/java/com/linkedin/venice/stats/OpenTelemetryMetricsSetup.java
index 454652f966d..eca2a54d132 100644
--- a/internal/venice-client-common/src/main/java/com/linkedin/venice/stats/OpenTelemetryMetricsSetup.java
+++ b/internal/venice-client-common/src/main/java/com/linkedin/venice/stats/OpenTelemetryMetricsSetup.java
@@ -41,16 +41,19 @@ public static String sanitizeStoreName(String storeName) {
    */
   public static class OpenTelemetryMetricsSetupInfo {
     private final boolean emitOpenTelemetryMetrics;
+    private final boolean useSelfContainedStats;
     private final VeniceOpenTelemetryMetricsRepository otelRepository;
     private final Map<VeniceMetricsDimensions, String> baseDimensionsMap;
     private final Attributes baseAttributes;
 
     public OpenTelemetryMetricsSetupInfo(
         boolean emitOpenTelemetryMetrics,
+        boolean useSelfContainedStats,
         VeniceOpenTelemetryMetricsRepository otelRepository,
         Map<VeniceMetricsDimensions, String> baseDimensionsMap,
         Attributes baseAttributes) {
       this.emitOpenTelemetryMetrics = emitOpenTelemetryMetrics;
+      this.useSelfContainedStats = useSelfContainedStats;
       this.otelRepository = otelRepository;
       this.baseDimensionsMap = baseDimensionsMap;
       this.baseAttributes = baseAttributes;
@@ -60,6 +63,10 @@ public boolean emitOpenTelemetryMetrics() {
       return emitOpenTelemetryMetrics;
     }
 
+    public boolean useSelfContainedStats() {
+      return useSelfContainedStats;
+    }
+
     /** Returns {@code null} when {@link #emitOpenTelemetryMetrics()} is {@code false}. */
     public VeniceOpenTelemetryMetricsRepository getOtelRepository() {
       return otelRepository;
@@ -303,7 +310,8 @@ public OpenTelemetryMetricsSetupInfo build() {
 
       Attributes baseAttributes = baseAttributesBuilder.build();
 
-      return new OpenTelemetryMetricsSetupInfo(true, otelRepository, baseDimensionsMap, baseAttributes);
+      boolean selfContained = veniceMetricsConfig.useSelfContainedStats();
+      return new OpenTelemetryMetricsSetupInfo(true, selfContained, otelRepository, baseDimensionsMap, baseAttributes);
     }
 
     /**
@@ -311,7 +319,12 @@ public OpenTelemetryMetricsSetupInfo build() {
      * the map (e.g., adding VENICE_STORE_NAME) don't need individual null guards.
      */
     private OpenTelemetryMetricsSetupInfo buildOtelDisabled() {
-      return new OpenTelemetryMetricsSetupInfo(false, null, Collections.emptyMap(), null);
+      return new OpenTelemetryMetricsSetupInfo(
+          false,
+          VeniceMetricsConfig.useSelfContainedStats(metricsRepository),
+          null,
+          Collections.emptyMap(),
+          null);
     }
   }
 
diff --git a/internal/venice-client-common/src/main/java/com/linkedin/venice/stats/VeniceMetricsConfig.java b/internal/venice-client-common/src/main/java/com/linkedin/venice/stats/VeniceMetricsConfig.java
index 9ca282bf51b..1ccf86b03ee 100644
--- a/internal/venice-client-common/src/main/java/com/linkedin/venice/stats/VeniceMetricsConfig.java
+++ b/internal/venice-client-common/src/main/java/com/linkedin/venice/stats/VeniceMetricsConfig.java
@@ -11,6 +11,7 @@
 import io.opentelemetry.sdk.metrics.export.MetricExporter;
 import io.opentelemetry.sdk.metrics.export.MetricReader;
 import io.tehuti.metrics.MetricConfig;
+import io.tehuti.metrics.MetricsRepository;
 import java.util.ArrayList;
 import java.util.Collection;
 import java.util.HashMap;
@@ -40,6 +41,15 @@ public class VeniceMetricsConfig {
    */
   public static final String TEHUTI_VENICE_METRICS_ENABLED = "tehuti.venice.metrics.enabled";
 
+  /**
+   * When {@code true}, all control-plane signals (adaptive-throttler p99 latency, load-controller
+   * request/accept counts, per-group routing latency) are sourced from self-contained
+   * Venice-internal data structures (ring-buffer reservoirs, sliding-window counters) instead of
+   * from Tehuti sensors. Applies to every component (server, router, fast client). Default
+   * {@code false} preserves the legacy Tehuti-backed signal path.
+   */
+  public static final String USE_SELF_CONTAINED_STATS = "use.self.contained.stats";
+
   /**
    * Configuration to reuse the {@link io.opentelemetry.api.OpenTelemetry} instance
    * already initialized by the application or other libraries and registered as
@@ -245,6 +255,8 @@ public class VeniceMetricsConfig {
   /** Additional MetricsReader to be used for OpenTelemetry metrics */
   private MetricReader otelAdditionalMetricsReader;
 
+  private final boolean useSelfContainedStats;
+
   private VeniceMetricsConfig(Builder builder) {
     this.serviceName = builder.serviceName;
     this.metricPrefix = builder.metricPrefix;
@@ -268,6 +280,7 @@ private VeniceMetricsConfig(Builder builder) {
     this.otelExponentialHistogramMaxBuckets = builder.otelExponentialHistogramMaxBuckets;
     this.otelAdditionalMetricsReader = builder.otelAdditionalMetricsReader;
     this.tehutiMetricConfig = builder.tehutiMetricConfig;
+    this.useSelfContainedStats = builder.useSelfContainedStats;
   }
 
   public static class Builder {
@@ -276,6 +289,7 @@ public static class Builder {
     private Collection<MetricEntity> metricEntities = new ArrayList<>();
     private boolean emitOtelMetrics = false;
     private boolean emitTehutiMetrics = true;
+    private boolean useSelfContainedStats = false;
     private boolean useOpenTelemetryInitializedByApplication = false;
     private String otelCustomDescriptionForHistogramMetrics = null;
     private boolean exportOtelMetricsToEndpoint = false;
@@ -320,6 +334,11 @@ public Builder emitTehutiMetrics(boolean emitTehutiMetrics) {
       return this;
     }
 
+    public Builder setUseSelfContainedStats(boolean useSelfContainedStats) {
+      this.useSelfContainedStats = useSelfContainedStats;
+      return this;
+    }
+
     public Builder setUseOpenTelemetryInitializedByApplication(boolean useOpenTelemetryInitializedByApplication) {
       this.useOpenTelemetryInitializedByApplication = useOpenTelemetryInitializedByApplication;
       return this;
@@ -415,6 +434,10 @@ public Builder extractAndSetOtelConfigs(Map<String, String> configs) {
         emitTehutiMetrics(Boolean.parseBoolean(configValue));
       }
 
+      if ((configValue = configs.get(USE_SELF_CONTAINED_STATS)) != null) {
+        setUseSelfContainedStats(Boolean.parseBoolean(configValue));
+      }
+
       if (!emitOtelMetrics) {
         // Early return if OpenTelemetry metrics are disabled
         return this;
@@ -590,6 +613,18 @@ public boolean emitTehutiMetrics() {
     return emitTehutiMetrics;
   }
 
+  public boolean useSelfContainedStats() {
+    return useSelfContainedStats;
+  }
+
+  /** Reads {@link #USE_SELF_CONTAINED_STATS} directly from the repository without building OTel setup. */
+  public static boolean useSelfContainedStats(MetricsRepository metricsRepository) {
+    if (!(metricsRepository instanceof VeniceMetricsRepository)) {
+      return false;
+    }
+    return ((VeniceMetricsRepository) metricsRepository).getVeniceMetricsConfig().useSelfContainedStats();
+  }
+
   public boolean useOpenTelemetryInitializedByApplication() {
     return useOpenTelemetryInitializedByApplication;
   }
diff --git a/internal/venice-client-common/src/main/java/com/linkedin/venice/stats/routing/HelixGroupStats.java b/internal/venice-client-common/src/main/java/com/linkedin/venice/stats/routing/HelixGroupStats.java
index acd834eec08..846287a3507 100644
--- a/internal/venice-client-common/src/main/java/com/linkedin/venice/stats/routing/HelixGroupStats.java
+++ b/internal/venice-client-common/src/main/java/com/linkedin/venice/stats/routing/HelixGroupStats.java
@@ -11,6 +11,7 @@
 import com.linkedin.venice.stats.dimensions.VeniceMetricsDimensions;
 import com.linkedin.venice.stats.metrics.MetricEntityStateBase;
 import com.linkedin.venice.stats.metrics.TehutiMetricNameEnum;
+import com.linkedin.venice.utils.concurrent.SlidingWindowAverage;
 import com.linkedin.venice.utils.concurrent.VeniceConcurrentHashMap;
 import io.opentelemetry.api.common.Attributes;
 import io.tehuti.Metric;
@@ -20,18 +21,31 @@
 import io.tehuti.metrics.stats.OccurrenceRate;
 import java.util.Collections;
 import java.util.Map;
+import java.util.concurrent.TimeUnit;
 
 
 public class HelixGroupStats extends AbstractVeniceStats {
   /**
-   * Per-Helix-group OTel metric entity states and Tehuti metric references, keyed by group ID. Each map grows
-   * lazily via {@code computeIfAbsent} and is bounded by the number of Helix groups configured for the store
-   * (typically 3–5). Entries are not evicted — the maps persist for the lifetime of this stats instance.
-   * {@code groupResponseWaitingTimeAvgMap} holds Tehuti {@link io.tehuti.metrics.Metric} references; the
-   * remaining maps hold OTel {@link MetricEntityStateBase} instances.
+   * Sliding-window size for the independent per-group response-waiting-time average.
+   * 30 s provides a stable latency signal for routing decisions: short enough to react to
+   * degraded groups within a few seconds, long enough to smooth out individual request spikes.
    */
-  private final VeniceConcurrentHashMap<Integer, Metric> groupResponseWaitingTimeAvgMap =
-      new VeniceConcurrentHashMap<>();
+  static final long GROUP_RESPONSE_WAITING_TIME_WINDOW_MS = TimeUnit.SECONDS.toMillis(30);
+
+  /**
+   * Per-Helix-group OTel metric entity states and per-group response-waiting-time averages,
+   * keyed by group ID. Each map grows lazily via {@code computeIfAbsent} and is bounded by the
+   * number of Helix groups configured for the store (typically 3–5). Entries are not evicted —
+   * the maps persist for the lifetime of this stats instance.
+   *
+   * <p>Exactly one of {@link #groupResponseWaitingTimeTehutiAvgMap} (legacy Tehuti
+   * {@link io.tehuti.Metric} references) and {@link #groupResponseWaitingTimeIndependentAvgMap}
+   * (independent {@link SlidingWindowAverage}) is non-null, selected by {@link #useSelfContainedStats}
+   * at construction time. The remaining maps hold OTel {@link MetricEntityStateBase} instances and
+   * Tehuti-joined recording state and are always populated.
+   */
+  private final VeniceConcurrentHashMap<Integer, Metric> groupResponseWaitingTimeTehutiAvgMap;
+  private final VeniceConcurrentHashMap<Integer, SlidingWindowAverage> groupResponseWaitingTimeIndependentAvgMap;
   private final VeniceConcurrentHashMap<Integer, MetricEntityStateBase> groupRequestCountMap =
       new VeniceConcurrentHashMap<>();
   private final VeniceConcurrentHashMap<Integer, MetricEntityStateBase> groupPendingRequestMap =
@@ -39,6 +53,7 @@ public class HelixGroupStats extends AbstractVeniceStats {
   private final VeniceConcurrentHashMap<Integer, MetricEntityStateBase> groupResponseWaitingTimeMap =
       new VeniceConcurrentHashMap<>();
   private final String storeName;
+  private final boolean useSelfContainedStats;
 
   // OTel metrics
   private final MetricEntityStateBase helixGroupCount;
@@ -49,12 +64,30 @@ public class HelixGroupStats extends AbstractVeniceStats {
   private final Attributes baseAttributes;
 
   public HelixGroupStats(MetricsRepository metricsRepository) {
-    this(metricsRepository, "");
+    this(metricsRepository, "", false);
+  }
+
+  public HelixGroupStats(MetricsRepository metricsRepository, boolean useSelfContainedStats) {
+    this(metricsRepository, "", useSelfContainedStats);
   }
 
   public HelixGroupStats(MetricsRepository metricsRepository, String prefix) {
+    this(metricsRepository, prefix, false);
+  }
+
+  /**
+   * @param useSelfContainedStats {@code false} (default) reads the per-group response-waiting-time
+   *                               average from the Tehuti {@link io.tehuti.metrics.stats.Avg}
+   *                               metric; {@code true} reads from an independent
+   *                               {@link SlidingWindowAverage} owned by this class so the routing
+   *                               decision remains correct even when the Tehuti dependency is removed.
+   */
+  public HelixGroupStats(MetricsRepository metricsRepository, String prefix, boolean useSelfContainedStats) {
     super(metricsRepository, prefix.isEmpty() ? "HelixGroupStats" : prefix + "_HelixGroupStats");
     this.storeName = prefix;
+    this.useSelfContainedStats = useSelfContainedStats;
+    this.groupResponseWaitingTimeTehutiAvgMap = useSelfContainedStats ? null : new VeniceConcurrentHashMap<>();
+    this.groupResponseWaitingTimeIndependentAvgMap = useSelfContainedStats ? new VeniceConcurrentHashMap<>() : null;
     // When storeName is empty, it means the stats is used for Venice Router.
     if (storeName.isEmpty()) {
       this.otelRepository = null;
@@ -135,22 +168,43 @@ private MetricEntityStateBase buildHelixGroupResponseWaitingTime(int groupId, Me
   }
 
   public void recordGroupResponseWaitingTime(int groupId, double responseWaitingTime) {
+    // Tehuti+OTel joint recording — always active, regardless of which read path is selected.
     MetricEntityStateBase groupResponseWaitingTime = groupResponseWaitingTimeMap.computeIfAbsent(groupId, id -> {
       MeasurableStat avgStat = new Avg();
       MetricEntityStateBase waitTime = buildHelixGroupResponseWaitingTime(groupId, avgStat);
-      groupResponseWaitingTimeAvgMap
-          .put(groupId, getMetricsRepository().getMetric(getMetricFullName(waitTime.getTehutiSensor(), avgStat)));
+      if (!useSelfContainedStats) {
+        // Legacy path: cache the Tehuti Metric reference for routing logic to read.
+        groupResponseWaitingTimeTehutiAvgMap
+            .put(groupId, getMetricsRepository().getMetric(getMetricFullName(waitTime.getTehutiSensor(), avgStat)));
+      }
       return waitTime;
     });
     groupResponseWaitingTime.record(responseWaitingTime);
+
+    if (useSelfContainedStats) {
+      // Independent sliding-window average owned by this class — routing decision stays correct
+      // even when Tehuti is disabled.
+      groupResponseWaitingTimeIndependentAvgMap
+          .computeIfAbsent(groupId, id -> new SlidingWindowAverage(GROUP_RESPONSE_WAITING_TIME_WINDOW_MS))
+          .record(responseWaitingTime);
+    }
   }
 
   public double getGroupResponseWaitingTimeAvg(int groupId) {
-    Metric groupResponseWaitingTimeAvgMetric = groupResponseWaitingTimeAvgMap.get(groupId);
-    if (groupResponseWaitingTimeAvgMetric == null) {
-      return -1;
+    double avgLatency;
+    if (useSelfContainedStats) {
+      SlidingWindowAverage counter = groupResponseWaitingTimeIndependentAvgMap.get(groupId);
+      if (counter == null) {
+        return -1;
+      }
+      avgLatency = counter.average();
+    } else {
+      Metric metric = groupResponseWaitingTimeTehutiAvgMap.get(groupId);
+      if (metric == null) {
+        return -1;
+      }
+      avgLatency = metric.value();
     }
-    double avgLatency = groupResponseWaitingTimeAvgMetric.value();
     if (Double.isNaN(avgLatency)) {
       return -1;
     }
diff --git a/internal/venice-client-common/src/main/java/com/linkedin/venice/utils/concurrent/LatencyPercentileProvider.java b/internal/venice-client-common/src/main/java/com/linkedin/venice/utils/concurrent/LatencyPercentileProvider.java
new file mode 100644
index 00000000000..4e95d6cb66a
--- /dev/null
+++ b/internal/venice-client-common/src/main/java/com/linkedin/venice/utils/concurrent/LatencyPercentileProvider.java
@@ -0,0 +1,105 @@
+package com.linkedin.venice.utils.concurrent;
+
+import java.util.Arrays;
+import java.util.concurrent.atomic.AtomicLong;
+import java.util.concurrent.atomic.AtomicLongArray;
+
+
+/**
+ * Independent percentile provider for read-path latencies. Owns its backing state so
+ * signal services can produce a throttling signal without depending on Tehuti's windowed
+ * {@link io.tehuti.metrics.stats.Percentiles} computation — Tehuti {@code Percentiles} can
+ * only be read via {@code MetricsRepository.getMetric()}, making the signal unavailable when
+ * Tehuti is removed. This class provides the same p99 signal with no metrics-library dependency.
+ *
+ * <p>Each {@link LatencyType} keeps a fixed-size sample reservoir (ring buffer). Observations
+ * overwrite the oldest sample once the buffer is full — this approximates a moving window for
+ * high-throughput workloads where the buffer fills quickly relative to the throttler signal
+ * refresh interval. Percentile reads snapshot the reservoir, sort, and index.
+ *
+ * <h3>Write path — {@link #observe}: O(1), lock-free</h3>
+ * One {@link AtomicLong#getAndIncrement()} to claim the next slot + one
+ * {@link AtomicLongArray#set} to store the value (encoded via
+ * {@link Double#doubleToRawLongBits} — {@code AtomicLongArray} has no {@code double} variant
+ * in the JDK). No locks, no CAS retry loop. Safe for concurrent writers at any request rate.
+ *
+ * <h3>Read path — {@link #getP99}: O(n log n), called only periodically</h3>
+ * Snapshots all {@code capacity} slots (default {@value #DEFAULT_RESERVOIR_CAPACITY}), sorts
+ * them, and returns the value at the 99th-percentile index. At the default capacity this takes
+ * ~50–100 µs on modern hardware (fits in L2 cache). Crucially, {@code getP99} is only ever
+ * called on a fixed periodic schedule (default every 30 s), so the sort cost is amortised
+ * across millions of writes and is negligible in practice.
+ *
+ * <p>Concurrent writes during a read are tolerated — the signal is an approximation and a few
+ * samples changing underfoot does not meaningfully skew a p99 over thousands of observations.
+ */
+public class LatencyPercentileProvider {
+  /** Read-path latency categories observed by this provider. */
+  public enum LatencyType {
+    SINGLE_GET, MULTI_GET, READ_COMPUTE
+  }
+
+  /** Default reservoir capacity per {@link LatencyType} — large enough to stabilize p99 under load. */
+  public static final int DEFAULT_RESERVOIR_CAPACITY = 4096;
+
+  private final Reservoir[] reservoirs;
+
+  public LatencyPercentileProvider() {
+    this(DEFAULT_RESERVOIR_CAPACITY);
+  }
+
+  public LatencyPercentileProvider(int reservoirCapacity) {
+    if (reservoirCapacity <= 0) {
+      throw new IllegalArgumentException("reservoirCapacity must be > 0, got " + reservoirCapacity);
+    }
+    LatencyType[] types = LatencyType.values();
+    this.reservoirs = new Reservoir[types.length];
+    for (int i = 0; i < types.length; i++) {
+      this.reservoirs[i] = new Reservoir(reservoirCapacity);
+    }
+  }
+
+  public void observe(LatencyType type, double latencyMs) {
+    reservoirs[type.ordinal()].observe(latencyMs);
+  }
+
+  /**
+   * @return 99th percentile of observations in the reservoir for {@code type}, or 0 when no
+   *         samples have been recorded yet. Returning 0 (rather than NaN) keeps the threshold
+   *         comparison semantics of callers: signal stays inactive when the reservoir is empty.
+   */
+  public double getP99(LatencyType type) {
+    return reservoirs[type.ordinal()].percentile(99.0);
+  }
+
+  private static final class Reservoir {
+    private final int capacity;
+    private final AtomicLongArray samples;
+    private final AtomicLong nextIndex = new AtomicLong();
+
+    Reservoir(int capacity) {
+      this.capacity = capacity;
+      this.samples = new AtomicLongArray(capacity);
+    }
+
+    void observe(double value) {
+      long idx = nextIndex.getAndIncrement();
+      samples.set((int) Math.floorMod(idx, capacity), Double.doubleToRawLongBits(value));
+    }
+
+    double percentile(double p) {
+      long total = nextIndex.get();
+      if (total <= 0) {
+        return 0.0;
+      }
+      int size = (int) Math.min(total, (long) capacity);
+      double[] copy = new double[size];
+      for (int i = 0; i < size; i++) {
+        copy[i] = Double.longBitsToDouble(samples.get(i));
+      }
+      Arrays.sort(copy);
+      int idx = (int) Math.min(size - 1L, Math.max(0L, Math.round((p / 100.0) * (size - 1))));
+      return copy[idx];
+    }
+  }
+}
diff --git a/internal/venice-client-common/src/main/java/com/linkedin/venice/utils/concurrent/SlidingWindowAverage.java b/internal/venice-client-common/src/main/java/com/linkedin/venice/utils/concurrent/SlidingWindowAverage.java
new file mode 100644
index 00000000000..d66c3913d7e
--- /dev/null
+++ b/internal/venice-client-common/src/main/java/com/linkedin/venice/utils/concurrent/SlidingWindowAverage.java
@@ -0,0 +1,143 @@
+package com.linkedin.venice.utils.concurrent;
+
+import com.linkedin.venice.utils.SystemTime;
+import com.linkedin.venice.utils.Time;
+import java.util.concurrent.atomic.DoubleAdder;
+import java.util.concurrent.atomic.LongAdder;
+
+
+/**
+ * Sliding-window arithmetic mean over two tumbling sub-buckets.
+ *
+ * <h3>Why two buckets?</h3>
+ * A single tumbling bucket resets abruptly at every boundary — the average drops to NaN even
+ * under steady load. Two buckets eliminate this cliff edge: at any instant you see between one
+ * and two full buckets of data. {@code windowMs} is tunable; shorter = more responsive but
+ * noisier, longer = smoother but lagging.
+ *
+ * <h3>Write path — {@link #record}: O(1), lock-free</h3>
+ * One {@link LongAdder#increment()} and one {@link DoubleAdder#add(double)} into the active
+ * bucket. Rotation fires at most once per {@code windowMs / 2} under a short
+ * {@code synchronized} block — never on the per-record hot path.
+ *
+ * <h3>Read path — {@link #average}: O(cells), cached</h3>
+ * A full recompute merges two pairs of {@link LongAdder}/{@link DoubleAdder} cells (O(cells),
+ * typically ≤ 32 per adder on a busy JVM). Because {@code average()} is called on the
+ * per-request routing hot path, the result is cached for {@value #CACHE_MS} ms via a single
+ * volatile reference to an immutable {@link CachedAverage} object — one volatile load on the
+ * fast path. Staleness is negligible relative to the sub-bucket duration ({@code windowMs / 2}).
+ */
+public class SlidingWindowAverage {
+  static final long CACHE_MS = 100;
+
+  private final long bucketMs;
+  private final Time time;
+  private final long cacheMs;
+  private final Object rotateLock = new Object();
+  private volatile Bucket current;
+  private volatile Bucket previous;
+
+  /* Single volatile reference — one load on the hot path, atomic update via reference swap.
+   * NaN avg signals "no data": the cache is bypassed so new records are seen immediately. */
+  private volatile CachedAverage cache = CachedAverage.EMPTY;
+
+  private static final class CachedAverage {
+    static final CachedAverage EMPTY = new CachedAverage(Double.NaN, 0);
+
+    final double avg;
+    final long refreshMs;
+
+    CachedAverage(double avg, long refreshMs) {
+      this.avg = avg;
+      this.refreshMs = refreshMs;
+    }
+
+    boolean isValid(long now, long ttlMs) {
+      return !Double.isNaN(avg) && now - refreshMs < ttlMs;
+    }
+  }
+
+  private static final class Bucket {
+    final long startMs;
+    final LongAdder count = new LongAdder();
+    final DoubleAdder sum = new DoubleAdder();
+
+    Bucket(long startMs) {
+      this.startMs = startMs;
+    }
+  }
+
+  public SlidingWindowAverage(long windowMs) {
+    this(windowMs, new SystemTime(), CACHE_MS);
+  }
+
+  public SlidingWindowAverage(long windowMs, Time time) {
+    this(windowMs, time, CACHE_MS);
+  }
+
+  public SlidingWindowAverage(long windowMs, Time time, long cacheMs) {
+    if (windowMs <= 0) {
+      throw new IllegalArgumentException("windowMs must be > 0, got " + windowMs);
+    }
+    if (time == null) {
+      throw new IllegalArgumentException("time must not be null");
+    }
+    this.bucketMs = Math.max(1, windowMs / 2);
+    this.time = time;
+    this.cacheMs = cacheMs;
+    long now = time.getMilliseconds();
+    this.current = new Bucket(now);
+    this.previous = new Bucket(now - bucketMs);
+  }
+
+  public void record(double value) {
+    Bucket b = maybeRotate();
+    b.count.increment();
+    b.sum.add(value);
+  }
+
+  /**
+   * @return arithmetic mean across the current sliding window, or {@link Double#NaN} when no
+   *         observations have been recorded. Result is cached for {@value #CACHE_MS} ms; NaN
+   *         is never cached so new records arriving in an empty window are seen immediately.
+   */
+  public double average() {
+    long now = time.getMilliseconds();
+    CachedAverage c = cache; // single volatile load
+    if (c.isValid(now, cacheMs)) {
+      return c.avg;
+    }
+    maybeRotate();
+    double count = current.count.sum() + previous.count.sum();
+    double avg = count == 0 ? Double.NaN : (current.sum.sum() + previous.sum.sum()) / count;
+    // Atomic reference swap — cache update is always consistent (readers see full CachedAverage).
+    // NaN is not cached: leave cache as EMPTY so the next call recomputes and picks up new records.
+    if (!Double.isNaN(avg)) {
+      cache = new CachedAverage(avg, now);
+    }
+    return avg;
+  }
+
+  private Bucket maybeRotate() {
+    long now = time.getMilliseconds();
+    Bucket cur = current;
+    if (now - cur.startMs < bucketMs) {
+      return cur;
+    }
+    synchronized (rotateLock) {
+      cur = current;
+      long age = now - cur.startMs;
+      if (age < bucketMs) {
+        return cur;
+      }
+      if (age >= 2 * bucketMs) {
+        previous = new Bucket(now - bucketMs);
+        current = new Bucket(now);
+      } else {
+        previous = cur;
+        current = new Bucket(now);
+      }
+      return current;
+    }
+  }
+}
diff --git a/internal/venice-client-common/src/test/java/com/linkedin/venice/reliability/LoadControllerTest.java b/internal/venice-client-common/src/test/java/com/linkedin/venice/reliability/LoadControllerTest.java
index 4102059bbd1..58c58f9725e 100644
--- a/internal/venice-client-common/src/test/java/com/linkedin/venice/reliability/LoadControllerTest.java
+++ b/internal/venice-client-common/src/test/java/com/linkedin/venice/reliability/LoadControllerTest.java
@@ -4,18 +4,27 @@
 import static org.testng.Assert.assertFalse;
 import static org.testng.Assert.assertTrue;
 
+import com.linkedin.venice.utils.TestMockTime;
 import java.util.concurrent.CompletableFuture;
+import java.util.concurrent.TimeUnit;
+import org.testng.annotations.DataProvider;
 import org.testng.annotations.Test;
 
 
 public class LoadControllerTest {
-  @Test
-  public void testRequestRejectionWhenOverload() {
+  @DataProvider(name = "counterPaths")
+  public Object[][] counterPaths() {
+    return new Object[][] { { false }, { true } };
+  }
+
+  @Test(dataProvider = "counterPaths")
+  public void testRequestRejectionWhenOverload(boolean useIndependentCounter) {
     LoadController loadController = LoadController.newBuilder()
         .setWindowSizeInSec(5)
         .setRejectionRatioUpdateIntervalInSec(1)
         .setMaxRejectionRatio(0.5)
         .setAcceptMultiplier(2.0)
+        .setUseIndependentCounter(useIndependentCounter)
         .build();
     for (int i = 0; i < 100; i++) {
       loadController.recordRequest();
@@ -36,13 +45,14 @@ public void testRequestRejectionWhenOverload() {
     assertTrue(rejectCount > 300);
   }
 
-  @Test
-  public void testRejectionRatioReset() throws InterruptedException {
+  @Test(dataProvider = "counterPaths")
+  public void testRejectionRatioReset(boolean useIndependentCounter) throws InterruptedException {
     LoadController loadController = LoadController.newBuilder()
         .setWindowSizeInSec(3)
         .setRejectionRatioUpdateIntervalInSec(1)
         .setMaxRejectionRatio(0.5)
         .setAcceptMultiplier(1.0)
+        .setUseIndependentCounter(useIndependentCounter)
         .build();
     for (int i = 0; i < 100; i++) {
       loadController.recordRequest();
@@ -64,6 +74,129 @@ public void testRejectionRatioReset() throws InterruptedException {
     assertFalse(loadController.isOverloaded());
   }
 
+  @Test(dataProvider = "counterPaths")
+  public void testNotOverloadedWhenAcceptKeepsUp(boolean useIndependentCounter) {
+    LoadController loadController = LoadController.newBuilder()
+        .setWindowSizeInSec(5)
+        .setRejectionRatioUpdateIntervalInSec(1)
+        .setMaxRejectionRatio(0.5)
+        .setAcceptMultiplier(1.0)
+        .setUseIndependentCounter(useIndependentCounter)
+        .build();
+    for (int i = 0; i < 100; i++) {
+      loadController.recordRequest();
+      loadController.recordAccept();
+    }
+    assertEquals(loadController.getRejectionRatio(), 0.0d);
+    assertFalse(loadController.isOverloaded());
+    assertFalse(loadController.shouldRejectRequest());
+  }
+
+  @Test(dataProvider = "counterPaths")
+  public void testMaxRejectionRatioIsRespected(boolean useIndependentCounter) {
+    LoadController loadController = LoadController.newBuilder()
+        .setWindowSizeInSec(5)
+        .setRejectionRatioUpdateIntervalInSec(1)
+        .setMaxRejectionRatio(0.25)
+        .setAcceptMultiplier(2.0)
+        .setUseIndependentCounter(useIndependentCounter)
+        .build();
+    // 1000 requests, 0 accepts — raw ratio would approach 1.0 but must be capped at 0.25.
+    for (int i = 0; i < 1000; i++) {
+      loadController.recordRequest();
+    }
+    assertEquals(loadController.getRejectionRatio(), 0.25d, 1e-9);
+  }
+
+  @Test(dataProvider = "counterPaths")
+  public void testZeroRequestsMeansZeroRatio(boolean useIndependentCounter) {
+    LoadController loadController = LoadController.newBuilder()
+        .setWindowSizeInSec(5)
+        .setRejectionRatioUpdateIntervalInSec(1)
+        .setMaxRejectionRatio(0.5)
+        .setAcceptMultiplier(2.0)
+        .setUseIndependentCounter(useIndependentCounter)
+        .build();
+    assertEquals(loadController.getRejectionRatio(), 0.0d);
+    assertFalse(loadController.isOverloaded());
+    assertFalse(loadController.shouldRejectRequest());
+  }
+
+  @Test(dataProvider = "counterPaths")
+  public void testRejectionRatioIsCachedBetweenUpdates(boolean useIndependentCounter) {
+    TestMockTime mockTime = new TestMockTime(0);
+    LoadController loadController = LoadController.newBuilder()
+        .setWindowSizeInSec(10)
+        .setRejectionRatioUpdateIntervalInSec(5)
+        .setMaxRejectionRatio(1.0)
+        .setAcceptMultiplier(2.0)
+        .setTime(mockTime)
+        .setUseIndependentCounter(useIndependentCounter)
+        .build();
+    for (int i = 0; i < 100; i++) {
+      loadController.recordRequest();
+    }
+    double first = loadController.getRejectionRatio();
+    assertTrue(first > 0);
+
+    // Record a flood of accepts, but without advancing time past the update interval the cached
+    // ratio must be returned unchanged.
+    for (int i = 0; i < 200; i++) {
+      loadController.recordAccept();
+    }
+    assertEquals(loadController.getRejectionRatio(), first, 1e-9);
+
+    // Advance past the update interval; the ratio must refresh and drop toward 0 because accepts
+    // now outpace the accept-multiplier adjusted requests.
+    mockTime.addMilliseconds(TimeUnit.SECONDS.toMillis(6));
+    double refreshed = loadController.getRejectionRatio();
+    assertTrue(refreshed < first);
+  }
+
+  /**
+   * Parity: feed identical sequences to both the Tehuti-backed and the independent-counter
+   * instances and assert their rejection ratios are equivalent for the scenarios the production
+   * code actually hits. Ensures flipping the flag does not change externally observable behavior.
+   */
+  @Test
+  public void testBothCounterPathsProduceEquivalentRatios() {
+    LoadController tehuti = LoadController.newBuilder()
+        .setWindowSizeInSec(5)
+        .setRejectionRatioUpdateIntervalInSec(1)
+        .setMaxRejectionRatio(1.0)
+        .setAcceptMultiplier(2.0)
+        .setUseIndependentCounter(false)
+        .build();
+    LoadController independent = LoadController.newBuilder()
+        .setWindowSizeInSec(5)
+        .setRejectionRatioUpdateIntervalInSec(1)
+        .setMaxRejectionRatio(1.0)
+        .setAcceptMultiplier(2.0)
+        .setUseIndependentCounter(true)
+        .build();
+
+    // Overload — 100 requests, 30 accepts.
+    for (int i = 0; i < 100; i++) {
+      tehuti.recordRequest();
+      independent.recordRequest();
+    }
+    for (int i = 0; i < 30; i++) {
+      tehuti.recordAccept();
+      independent.recordAccept();
+    }
+    assertEquals(tehuti.getRejectionRatio(), independent.getRejectionRatio(), 1e-6);
+
+    // Steady state on top — heavy balanced traffic. Allow a small tolerance: the two counters use
+    // independent bucket structures, so cached ratios may differ by at most one update cycle.
+    for (int i = 0; i < 500; i++) {
+      tehuti.recordRequest();
+      tehuti.recordAccept();
+      independent.recordRequest();
+      independent.recordAccept();
+    }
+    assertEquals(tehuti.getRejectionRatio(), independent.getRejectionRatio(), 0.02);
+  }
+
   @Test
   public void testCompletableAllOf() {
     CompletableFuture<Void> future1 = new CompletableFuture<>();
diff --git a/internal/venice-client-common/src/test/java/com/linkedin/venice/stats/routing/HelixGroupStatsTest.java b/internal/venice-client-common/src/test/java/com/linkedin/venice/stats/routing/HelixGroupStatsTest.java
index fd2036c00bf..28515c2bae1 100644
--- a/internal/venice-client-common/src/test/java/com/linkedin/venice/stats/routing/HelixGroupStatsTest.java
+++ b/internal/venice-client-common/src/test/java/com/linkedin/venice/stats/routing/HelixGroupStatsTest.java
@@ -18,16 +18,22 @@
 import io.tehuti.Metric;
 import io.tehuti.metrics.MetricsRepository;
 import java.util.Map;
+import org.testng.annotations.DataProvider;
 import org.testng.annotations.Test;
 
 
 public class HelixGroupStatsTest {
-  @Test
-  public void testMetrics() {
+  @DataProvider(name = "groupAvgPaths")
+  public Object[][] groupAvgPaths() {
+    return new Object[][] { { false }, { true } };
+  }
+
+  @Test(dataProvider = "groupAvgPaths")
+  public void testMetrics(boolean useSelfContainedStats) {
     MetricsRepository metricsRepository = MetricsRepositoryUtils.createSingleThreadedMetricsRepository();
     String storeName = "test_store";
 
-    HelixGroupStats stats = new HelixGroupStats(metricsRepository, storeName);
+    HelixGroupStats stats = new HelixGroupStats(metricsRepository, storeName, useSelfContainedStats);
 
     // No data points
     assertEquals(stats.getGroupResponseWaitingTimeAvg(0), -1d);
@@ -282,8 +288,8 @@ public void testGroupPendingRequestMetric() {
         otelMetricPrefix);
   }
 
-  @Test
-  public void testGroupResponseWaitingTimeMetric() {
+  @Test(dataProvider = "groupAvgPaths")
+  public void testGroupResponseWaitingTimeMetric(boolean useSelfContainedStats) {
     // Set up Venice metrics repository with both Tehuti and OpenTelemetry support
     InMemoryMetricReader inMemoryMetricReader = InMemoryMetricReader.create();
     VeniceMetricsRepository metricsRepository =
@@ -291,7 +297,7 @@ public void testGroupResponseWaitingTimeMetric() {
     String otelMetricPrefix = FAST_CLIENT.getMetricsPrefix();
     String storeName = "test_store";
 
-    HelixGroupStats stats = new HelixGroupStats(metricsRepository, storeName);
+    HelixGroupStats stats = new HelixGroupStats(metricsRepository, storeName, useSelfContainedStats);
 
     // Record response waiting times for different groups
     int groupId0 = 0;
@@ -329,7 +335,8 @@ public void testGroupResponseWaitingTimeMetric() {
     double avgGroup2 = stats.getGroupResponseWaitingTimeAvg(groupId2);
     assertEquals(avgGroup2, 55.0, 0.01, "Group 2 average response waiting time should be 55.0ms");
 
-    // Verify Tehuti metric names exist
+    // Verify Tehuti metric names exist — both paths keep Tehuti joint recording active for
+    // dashboards, so these must be present regardless of flag.
     String expectedTehutiMetricNameGroup0 = "." + storeName + "_HelixGroupStats--group_0_response_waiting_time.Avg";
     assertNotNull(
         metrics.get(expectedTehutiMetricNameGroup0),
@@ -395,4 +402,44 @@ public void testGroupResponseWaitingTimeMetric() {
         otelMetricPrefix);
   }
 
+  /**
+   * Parity: two HelixGroupStats instances (one with Tehuti read path, one with independent read
+   * path) receive the identical recording sequence; asserts both report the same per-group avg.
+   * Guards against flipping the flag changing the routing decision.
+   */
+  @Test
+  public void testBothGroupAvgPathsAgree() {
+    MetricsRepository metricsRepositoryTehuti = new MetricsRepository();
+    MetricsRepository metricsRepositoryIndependent = new MetricsRepository();
+    String storeName = "parity_store";
+
+    HelixGroupStats tehuti = new HelixGroupStats(metricsRepositoryTehuti, storeName, false);
+    HelixGroupStats independent = new HelixGroupStats(metricsRepositoryIndependent, storeName, true);
+
+    double[] group0 = { 50, 100, 75 };
+    double[] group1 = { 120, 80 };
+    double[] group2 = { 30, 90, 60, 40 };
+
+    for (double v: group0) {
+      tehuti.recordGroupResponseWaitingTime(0, v);
+      independent.recordGroupResponseWaitingTime(0, v);
+    }
+    for (double v: group1) {
+      tehuti.recordGroupResponseWaitingTime(1, v);
+      independent.recordGroupResponseWaitingTime(1, v);
+    }
+    for (double v: group2) {
+      tehuti.recordGroupResponseWaitingTime(2, v);
+      independent.recordGroupResponseWaitingTime(2, v);
+    }
+
+    assertEquals(tehuti.getGroupResponseWaitingTimeAvg(0), independent.getGroupResponseWaitingTimeAvg(0), 0.01);
+    assertEquals(tehuti.getGroupResponseWaitingTimeAvg(1), independent.getGroupResponseWaitingTimeAvg(1), 0.01);
+    assertEquals(tehuti.getGroupResponseWaitingTimeAvg(2), independent.getGroupResponseWaitingTimeAvg(2), 0.01);
+
+    // Absent group returns -1 on both paths.
+    assertEquals(tehuti.getGroupResponseWaitingTimeAvg(99), -1d);
+    assertEquals(independent.getGroupResponseWaitingTimeAvg(99), -1d);
+  }
+
 }
diff --git a/internal/venice-client-common/src/test/java/com/linkedin/venice/utils/concurrent/SlidingWindowAverageTest.java b/internal/venice-client-common/src/test/java/com/linkedin/venice/utils/concurrent/SlidingWindowAverageTest.java
new file mode 100644
index 00000000000..ced70f45f09
--- /dev/null
+++ b/internal/venice-client-common/src/test/java/com/linkedin/venice/utils/concurrent/SlidingWindowAverageTest.java
@@ -0,0 +1,105 @@
+package com.linkedin.venice.utils.concurrent;
+
+import static org.testng.Assert.assertEquals;
+import static org.testng.Assert.assertThrows;
+import static org.testng.Assert.assertTrue;
+
+import com.linkedin.venice.utils.TestMockTime;
+import io.tehuti.metrics.MetricConfig;
+import io.tehuti.metrics.MetricsRepository;
+import io.tehuti.metrics.Sensor;
+import io.tehuti.metrics.stats.Avg;
+import io.tehuti.utils.SystemTime;
+import java.util.concurrent.TimeUnit;
+import org.testng.annotations.Test;
+
+
+public class SlidingWindowAverageTest {
+  @Test
+  public void testInvalidArgs() {
+    assertThrows(IllegalArgumentException.class, () -> new SlidingWindowAverage(0));
+    assertThrows(IllegalArgumentException.class, () -> new SlidingWindowAverage(-1));
+    assertThrows(IllegalArgumentException.class, () -> new SlidingWindowAverage(1000, null));
+  }
+
+  @Test
+  public void testBasicAverage() {
+    TestMockTime time = new TestMockTime(0);
+    SlidingWindowAverage avg = new SlidingWindowAverage(10_000, time);
+
+    assertTrue(Double.isNaN(avg.average()));
+    avg.record(50);
+    avg.record(100);
+    avg.record(75);
+    assertEquals(avg.average(), 75.0, 1e-9);
+  }
+
+  @Test
+  public void testAverageCarriesAcrossOneBucketRotation() {
+    TestMockTime time = new TestMockTime(0);
+    SlidingWindowAverage avg = new SlidingWindowAverage(10_000, time);
+    avg.record(10);
+    avg.record(20);
+    time.addMilliseconds(6_000);
+    avg.record(30);
+    // All three observations still visible across both buckets.
+    assertEquals(avg.average(), 20.0, 1e-9);
+  }
+
+  @Test
+  public void testWholeWindowExpiry() {
+    TestMockTime time = new TestMockTime(0);
+    SlidingWindowAverage avg = new SlidingWindowAverage(3_000, time);
+    avg.record(100);
+    time.addMilliseconds(10_000);
+    assertTrue(Double.isNaN(avg.average()));
+  }
+
+  @Test
+  public void testCacheServesStaleDuringTtl() {
+    TestMockTime time = new TestMockTime(0);
+    SlidingWindowAverage avg = new SlidingWindowAverage(10_000, time, SlidingWindowAverage.CACHE_MS);
+    avg.record(100);
+    assertEquals(avg.average(), 100.0, 1e-9); // primes cache
+
+    avg.record(300); // new record; cache still live
+    time.addMilliseconds(50); // within CACHE_MS
+    assertEquals(avg.average(), 100.0, 1e-9, "should return cached value within TTL");
+
+    time.addMilliseconds(60); // past CACHE_MS
+    assertEquals(avg.average(), 200.0, 1e-9, "should recompute after TTL expires");
+  }
+
+  @Test
+  public void testCacheRefreshesAfterWindowExpiry() {
+    TestMockTime time = new TestMockTime(0);
+    SlidingWindowAverage avg = new SlidingWindowAverage(10_000, time);
+    avg.record(50);
+    assertEquals(avg.average(), 50.0, 1e-9); // prime cache
+    time.addMilliseconds(30_000); // both buckets expire + TTL expired
+    assertTrue(Double.isNaN(avg.average()));
+  }
+
+  /** Parity: SlidingWindowAverage.average() matches Tehuti Avg for the same values. */
+  @Test
+  public void testAverageMatchesTehutiAvg() {
+    TestMockTime time = new TestMockTime(0);
+    SlidingWindowAverage avg = new SlidingWindowAverage(30_000, time);
+
+    MetricConfig config = new MetricConfig().timeWindow(30, TimeUnit.SECONDS);
+    MetricsRepository repo = new MetricsRepository(config);
+    Avg tehutiAvg = new Avg();
+    Sensor sensor = repo.sensor("avg_parity");
+    sensor.add("avg_parity", tehutiAvg);
+
+    double[] values = { 10, 20, 30, 40, 50, 60, 70, 80, 90, 100 };
+    for (double v: values) {
+      avg.record(v);
+      sensor.record(v);
+    }
+
+    double expected = 55.0;
+    assertEquals(avg.average(), expected, 1e-9);
+    assertEquals(tehutiAvg.measure(config, new SystemTime().milliseconds()), expected, 1e-9);
+  }
+}
diff --git a/internal/venice-common/src/main/java/com/linkedin/venice/ConfigKeys.java b/internal/venice-common/src/main/java/com/linkedin/venice/ConfigKeys.java
index f6404adc76b..88b2e158a17 100644
--- a/internal/venice-common/src/main/java/com/linkedin/venice/ConfigKeys.java
+++ b/internal/venice-common/src/main/java/com/linkedin/venice/ConfigKeys.java
@@ -1200,6 +1200,8 @@ private ConfigKeys() {
   public static final String SERVER_ADAPTIVE_THROTTLER_SIGNAL_REFRESH_INTERVAL_IN_SECONDS =
       "server.adaptive.throttler.signal.refresh.interval.in.seconds";
 
+  // use.self.contained.stats is defined in VeniceMetricsConfig as a cross-cutting config.
+
   /**
    * A list of JVM arguments for forked child process, separated by semicolon.
    */
diff --git a/internal/venice-test-common/src/integrationTest/java/com/linkedin/venice/integration/utils/TestVeniceServer.java b/internal/venice-test-common/src/integrationTest/java/com/linkedin/venice/integration/utils/TestVeniceServer.java
index b5322ec7cc3..4d110d6d59f 100644
--- a/internal/venice-test-common/src/integrationTest/java/com/linkedin/venice/integration/utils/TestVeniceServer.java
+++ b/internal/venice-test-common/src/integrationTest/java/com/linkedin/venice/integration/utils/TestVeniceServer.java
@@ -17,6 +17,7 @@
 import com.linkedin.venice.security.SSLFactory;
 import com.linkedin.venice.server.VeniceServer;
 import com.linkedin.venice.server.VeniceServerContext;
+import com.linkedin.venice.utils.concurrent.LatencyPercentileProvider;
 import io.netty.channel.ChannelHandlerContext;
 import io.tehuti.metrics.MetricsRepository;
 import java.util.Optional;
@@ -51,7 +52,8 @@ protected ListenerService createListenerService(
       Optional<DynamicAccessController> storeAccessController,
       DiskHealthCheckService diskHealthService,
       StorageEngineBackedCompressorFactory compressorFactory,
-      Optional<ResourceReadUsageTracker> resourceReadUsageTracker) {
+      Optional<ResourceReadUsageTracker> resourceReadUsageTracker,
+      LatencyPercentileProvider latencyPercentileProvider) {
 
     return new ListenerService(
         storageEngineRepository,
diff --git a/services/venice-router/src/main/java/com/linkedin/venice/router/api/routing/helix/HelixGroupSelector.java b/services/venice-router/src/main/java/com/linkedin/venice/router/api/routing/helix/HelixGroupSelector.java
index 1831c57d7d5..311a622dc79 100644
--- a/services/venice-router/src/main/java/com/linkedin/venice/router/api/routing/helix/HelixGroupSelector.java
+++ b/services/venice-router/src/main/java/com/linkedin/venice/router/api/routing/helix/HelixGroupSelector.java
@@ -3,6 +3,7 @@
 import com.linkedin.alpini.base.concurrency.TimeoutProcessor;
 import com.linkedin.venice.exceptions.VeniceException;
 import com.linkedin.venice.helix.HelixInstanceConfigRepository;
+import com.linkedin.venice.stats.VeniceMetricsConfig;
 import com.linkedin.venice.stats.routing.HelixGroupStats;
 import io.tehuti.metrics.MetricsRepository;
 import java.util.concurrent.TimeUnit;
@@ -30,7 +31,8 @@ public HelixGroupSelector(
       HelixInstanceConfigRepository instanceConfigRepository,
       HelixGroupSelectionStrategyEnum strategyEnum,
       TimeoutProcessor timeoutProcessor) {
-    this.helixGroupStats = new HelixGroupStats(metricsRepository);
+    boolean selfContained = VeniceMetricsConfig.useSelfContainedStats(metricsRepository);
+    this.helixGroupStats = new HelixGroupStats(metricsRepository, selfContained);
     this.instanceConfigRepository = instanceConfigRepository;
     Class<? extends HelixGroupSelectionStrategy> strategyClass = strategyEnum.getStrategyClass();
     if (strategyClass.equals(HelixGroupLeastLoadedStrategy.class)) {
diff --git a/services/venice-server/src/main/java/com/linkedin/venice/listener/HttpChannelInitializer.java b/services/venice-server/src/main/java/com/linkedin/venice/listener/HttpChannelInitializer.java
index de57ea5ea0e..c8a6af28eb6 100644
--- a/services/venice-server/src/main/java/com/linkedin/venice/listener/HttpChannelInitializer.java
+++ b/services/venice-server/src/main/java/com/linkedin/venice/listener/HttpChannelInitializer.java
@@ -29,6 +29,7 @@
 import com.linkedin.venice.utils.ReflectUtils;
 import com.linkedin.venice.utils.SslUtils;
 import com.linkedin.venice.utils.Utils;
+import com.linkedin.venice.utils.concurrent.LatencyPercentileProvider;
 import io.grpc.ServerInterceptor;
 import io.netty.channel.ChannelHandler;
 import io.netty.channel.ChannelInitializer;
@@ -82,6 +83,32 @@ public HttpChannelInitializer(
       Optional<DynamicAccessController> storeAccessController,
       StorageReadRequestHandler requestHandler,
       StorageEngineRepository storageEngineRepository) {
+    this(
+        storeMetadataRepository,
+        customizedViewRepository,
+        metricsRepository,
+        sslFactory,
+        sslHandshakeExecutor,
+        serverConfig,
+        routerAccessController,
+        storeAccessController,
+        requestHandler,
+        storageEngineRepository,
+        null);
+  }
+
+  public HttpChannelInitializer(
+      ReadOnlyStoreRepository storeMetadataRepository,
+      CompletableFuture<HelixCustomizedViewOfflinePushRepository> customizedViewRepository,
+      MetricsRepository metricsRepository,
+      Optional<SSLFactory> sslFactory,
+      ThreadPoolExecutor sslHandshakeExecutor,
+      VeniceServerConfig serverConfig,
+      Optional<StaticAccessController> routerAccessController,
+      Optional<DynamicAccessController> storeAccessController,
+      StorageReadRequestHandler requestHandler,
+      StorageEngineRepository storageEngineRepository,
+      LatencyPercentileProvider latencyPercentileProvider) {
     this.serverConfig = serverConfig;
     this.requestHandler = requestHandler;
     this.isDaVinciClient = serverConfig.isDaVinciClient();
@@ -98,7 +125,8 @@ public HttpChannelInitializer(
         storeMetadataRepository,
         isUnregisterMetricForDeletedStoreEnabled,
         isDaVinciClient,
-        readOtelStatsEnabled);
+        readOtelStatsEnabled,
+        latencyPercentileProvider);
     this.multiGetStats = new AggServerHttpRequestStats(
         serverConfig.getClusterName(),
         metricsRepository,
@@ -107,7 +135,8 @@ public HttpChannelInitializer(
         storeMetadataRepository,
         isUnregisterMetricForDeletedStoreEnabled,
         isDaVinciClient,
-        readOtelStatsEnabled);
+        readOtelStatsEnabled,
+        latencyPercentileProvider);
     this.computeStats = new AggServerHttpRequestStats(
         serverConfig.getClusterName(),
         metricsRepository,
@@ -116,7 +145,8 @@ public HttpChannelInitializer(
         storeMetadataRepository,
         isUnregisterMetricForDeletedStoreEnabled,
         isDaVinciClient,
-        readOtelStatsEnabled);
+        readOtelStatsEnabled,
+        latencyPercentileProvider);
 
     if (serverConfig.isComputeFastAvroEnabled()) {
       LOGGER.info("Fast avro for compute is enabled");
@@ -184,7 +214,8 @@ public HttpChannelInitializer(
     if (serverConfig.isLoadControllerEnabled()) {
       this.loadControllerHandler = new ServerLoadControllerHandler(
           serverConfig,
-          new ServerLoadStats(metricsRepository, "server_load", serverConfig.getClusterName()));
+          new ServerLoadStats(metricsRepository, "server_load", serverConfig.getClusterName()),
+          metricsRepository);
       LOGGER.info("Server load controller is enabled");
     } else {
       this.loadControllerHandler = null;
diff --git a/services/venice-server/src/main/java/com/linkedin/venice/listener/ListenerService.java b/services/venice-server/src/main/java/com/linkedin/venice/listener/ListenerService.java
index ce3ddd3a97b..236266d8759 100644
--- a/services/venice-server/src/main/java/com/linkedin/venice/listener/ListenerService.java
+++ b/services/venice-server/src/main/java/com/linkedin/venice/listener/ListenerService.java
@@ -19,6 +19,7 @@
 import com.linkedin.venice.security.SSLFactory;
 import com.linkedin.venice.service.AbstractVeniceService;
 import com.linkedin.venice.stats.ThreadPoolStats;
+import com.linkedin.venice.utils.concurrent.LatencyPercentileProvider;
 import com.linkedin.venice.utils.concurrent.ThreadPoolFactory;
 import io.grpc.ServerInterceptor;
 import io.netty.bootstrap.ServerBootstrap;
@@ -79,6 +80,40 @@ public ListenerService(
       DiskHealthCheckService diskHealthService,
       StorageEngineBackedCompressorFactory compressorFactory,
       Optional<ResourceReadUsageTracker> resourceReadUsageTracker) {
+    this(
+        storageEngineRepository,
+        storeMetadataRepository,
+        schemaRepository,
+        customizedViewRepository,
+        ingestionMetadataRetriever,
+        readMetadataRetriever,
+        serverConfig,
+        metricsRepository,
+        sslFactory,
+        routerAccessController,
+        storeAccessController,
+        diskHealthService,
+        compressorFactory,
+        resourceReadUsageTracker,
+        null);
+  }
+
+  public ListenerService(
+      StorageEngineRepository storageEngineRepository,
+      ReadOnlyStoreRepository storeMetadataRepository,
+      ReadOnlySchemaRepository schemaRepository,
+      CompletableFuture<HelixCustomizedViewOfflinePushRepository> customizedViewRepository,
+      IngestionMetadataRetriever ingestionMetadataRetriever,
+      ReadMetadataRetriever readMetadataRetriever,
+      VeniceServerConfig serverConfig,
+      MetricsRepository metricsRepository,
+      Optional<SSLFactory> sslFactory,
+      Optional<StaticAccessController> routerAccessController,
+      Optional<DynamicAccessController> storeAccessController,
+      DiskHealthCheckService diskHealthService,
+      StorageEngineBackedCompressorFactory compressorFactory,
+      Optional<ResourceReadUsageTracker> resourceReadUsageTracker,
+      LatencyPercentileProvider latencyPercentileProvider) {
 
     this.serverConfig = serverConfig;
     this.port = serverConfig.getListenerPort();
@@ -126,7 +161,8 @@ public ListenerService(
         routerAccessController,
         storeAccessController,
         requestHandler,
-        storageEngineRepository);
+        storageEngineRepository,
+        latencyPercentileProvider);
 
     Class<? extends ServerChannel> serverSocketChannelClass = NioServerSocketChannel.class;
     boolean epollEnabled = serverConfig.isRestServiceEpollEnabled();
diff --git a/services/venice-server/src/main/java/com/linkedin/venice/listener/ServerLoadControllerHandler.java b/services/venice-server/src/main/java/com/linkedin/venice/listener/ServerLoadControllerHandler.java
index 18ca9624c07..34707d14f95 100644
--- a/services/venice-server/src/main/java/com/linkedin/venice/listener/ServerLoadControllerHandler.java
+++ b/services/venice-server/src/main/java/com/linkedin/venice/listener/ServerLoadControllerHandler.java
@@ -7,12 +7,14 @@
 import com.linkedin.venice.read.RequestType;
 import com.linkedin.venice.reliability.LoadController;
 import com.linkedin.venice.stats.ServerLoadStats;
+import com.linkedin.venice.stats.VeniceMetricsConfig;
 import io.netty.channel.ChannelHandler;
 import io.netty.channel.ChannelHandlerContext;
 import io.netty.channel.SimpleChannelInboundHandler;
 import io.netty.handler.codec.http.HttpRequest;
 import io.netty.handler.codec.http.HttpResponseStatus;
 import io.netty.util.ReferenceCountUtil;
+import io.tehuti.metrics.MetricsRepository;
 import org.apache.logging.log4j.LogManager;
 import org.apache.logging.log4j.Logger;
 
@@ -36,13 +38,18 @@ public class ServerLoadControllerHandler extends SimpleChannelInboundHandler<Htt
   private final LoadController loadController;
   private final ServerLoadStats loadStats;
 
-  public ServerLoadControllerHandler(VeniceServerConfig serverConfig, ServerLoadStats loadStats) {
+  public ServerLoadControllerHandler(
+      VeniceServerConfig serverConfig,
+      ServerLoadStats loadStats,
+      MetricsRepository metricsRepository) {
     this.serverConfig = serverConfig;
+    boolean selfContained = VeniceMetricsConfig.useSelfContainedStats(metricsRepository);
     this.loadController = LoadController.newBuilder()
         .setWindowSizeInSec(serverConfig.getLoadControllerWindowSizeInSec())
         .setAcceptMultiplier(serverConfig.getLoadControllerAcceptMultiplier())
         .setMaxRejectionRatio(serverConfig.getLoadControllerMaxRejectionRatio())
         .setRejectionRatioUpdateIntervalInSec(serverConfig.getLoadControllerRejectionRatioUpdateIntervalInSec())
+        .setUseIndependentCounter(selfContained)
         .build();
     this.loadStats = loadStats;
   }
diff --git a/services/venice-server/src/main/java/com/linkedin/venice/server/VeniceServer.java b/services/venice-server/src/main/java/com/linkedin/venice/server/VeniceServer.java
index 860ac2d4f9f..f91b295bb7a 100644
--- a/services/venice-server/src/main/java/com/linkedin/venice/server/VeniceServer.java
+++ b/services/venice-server/src/main/java/com/linkedin/venice/server/VeniceServer.java
@@ -76,6 +76,7 @@
 import com.linkedin.venice.utils.CollectionUtils;
 import com.linkedin.venice.utils.Utils;
 import com.linkedin.venice.utils.VeniceProperties;
+import com.linkedin.venice.utils.concurrent.LatencyPercentileProvider;
 import com.linkedin.venice.utils.lazy.Lazy;
 import io.tehuti.metrics.MetricsRepository;
 import java.util.ArrayList;
@@ -504,7 +505,8 @@ private List<AbstractVeniceService> createServices() {
         storeAccessController,
         diskHealthCheckService,
         compressorFactory,
-        resourceReadUsageTracker);
+        resourceReadUsageTracker,
+        adaptiveThrottlerSignalService != null ? adaptiveThrottlerSignalService.getLatencyPercentileProvider() : null);
     services.add(listenerService);
 
     /**
@@ -851,7 +853,8 @@ protected ListenerService createListenerService(
       Optional<DynamicAccessController> storeAccessController,
       DiskHealthCheckService diskHealthService,
       StorageEngineBackedCompressorFactory compressorFactory,
-      Optional<ResourceReadUsageTracker> resourceReadUsageTracker) {
+      Optional<ResourceReadUsageTracker> resourceReadUsageTracker,
+      LatencyPercentileProvider latencyPercentileProvider) {
     return new ListenerService(
         storageEngineRepository,
         storeMetadataRepository,
@@ -866,7 +869,8 @@ protected ListenerService createListenerService(
         storeAccessController,
         diskHealthService,
         compressorFactory,
-        resourceReadUsageTracker);
+        resourceReadUsageTracker,
+        latencyPercentileProvider);
   }
 
   public static void main(String args[]) throws Exception {
diff --git a/services/venice-server/src/main/java/com/linkedin/venice/stats/AggServerHttpRequestStats.java b/services/venice-server/src/main/java/com/linkedin/venice/stats/AggServerHttpRequestStats.java
index d058bf9b97e..4744a06849d 100644
--- a/services/venice-server/src/main/java/com/linkedin/venice/stats/AggServerHttpRequestStats.java
+++ b/services/venice-server/src/main/java/com/linkedin/venice/stats/AggServerHttpRequestStats.java
@@ -6,6 +6,7 @@
 import com.linkedin.venice.stats.dimensions.HttpResponseStatusCodeCategory;
 import com.linkedin.venice.stats.dimensions.HttpResponseStatusEnum;
 import com.linkedin.venice.stats.dimensions.VeniceResponseStatusCategory;
+import com.linkedin.venice.utils.concurrent.LatencyPercentileProvider;
 import io.tehuti.metrics.MetricsRepository;
 
 
@@ -23,6 +24,28 @@ public AggServerHttpRequestStats(
       boolean unregisterMetricForDeletedStoreEnabled,
       boolean isDaVinciClient,
       boolean readOtelStatsEnabled) {
+    this(
+        clusterName,
+        metricsRepository,
+        requestType,
+        isKeyValueProfilingEnabled,
+        metadataRepository,
+        unregisterMetricForDeletedStoreEnabled,
+        isDaVinciClient,
+        readOtelStatsEnabled,
+        null);
+  }
+
+  public AggServerHttpRequestStats(
+      String clusterName,
+      MetricsRepository metricsRepository,
+      RequestType requestType,
+      boolean isKeyValueProfilingEnabled,
+      ReadOnlyStoreRepository metadataRepository,
+      boolean unregisterMetricForDeletedStoreEnabled,
+      boolean isDaVinciClient,
+      boolean readOtelStatsEnabled,
+      LatencyPercentileProvider latencyPercentileProvider) {
     super(
         clusterName,
         metricsRepository,
@@ -30,7 +53,8 @@ public AggServerHttpRequestStats(
             requestType,
             isKeyValueProfilingEnabled,
             isDaVinciClient,
-            readOtelStatsEnabled),
+            readOtelStatsEnabled,
+            latencyPercentileProvider),
         metadataRepository,
         unregisterMetricForDeletedStoreEnabled,
         false);
@@ -41,16 +65,19 @@ static class ServerHttpRequestStatsSupplier implements StatsSupplier<ServerHttpR
     private final boolean isKeyValueProfilingEnabled;
     private final boolean isDaVinciClient;
     private final boolean readOtelStatsEnabled;
+    private final LatencyPercentileProvider latencyPercentileProvider;
 
     ServerHttpRequestStatsSupplier(
         RequestType requestType,
         boolean isKeyValueProfilingEnabled,
         boolean isDaVinciClient,
-        boolean readOtelStatsEnabled) {
+        boolean readOtelStatsEnabled,
+        LatencyPercentileProvider latencyPercentileProvider) {
       this.requestType = requestType;
       this.isKeyValueProfilingEnabled = isKeyValueProfilingEnabled;
       this.isDaVinciClient = isDaVinciClient;
       this.readOtelStatsEnabled = readOtelStatsEnabled;
+      this.latencyPercentileProvider = latencyPercentileProvider;
     }
 
     @Override
@@ -72,7 +99,8 @@ public ServerHttpRequestStats get(
           isKeyValueProfilingEnabled,
           totalStats,
           isDaVinciClient,
-          readOtelStatsEnabled);
+          readOtelStatsEnabled,
+          latencyPercentileProvider);
     }
   }
 
diff --git a/services/venice-server/src/main/java/com/linkedin/venice/stats/ServerHttpRequestStats.java b/services/venice-server/src/main/java/com/linkedin/venice/stats/ServerHttpRequestStats.java
index bc5f8b2553b..032e277993e 100644
--- a/services/venice-server/src/main/java/com/linkedin/venice/stats/ServerHttpRequestStats.java
+++ b/services/venice-server/src/main/java/com/linkedin/venice/stats/ServerHttpRequestStats.java
@@ -31,6 +31,8 @@
 import com.linkedin.venice.stats.metrics.MetricEntityStateOneEnum;
 import com.linkedin.venice.stats.metrics.MetricEntityStateThreeEnums;
 import com.linkedin.venice.stats.metrics.TehutiMetricNameEnum;
+import com.linkedin.venice.utils.concurrent.LatencyPercentileProvider;
+import com.linkedin.venice.utils.concurrent.LatencyPercentileProvider.LatencyType;
 import io.netty.handler.codec.http.HttpResponseStatus;
 import io.opentelemetry.api.common.Attributes;
 import io.tehuti.metrics.MeasurableStat;
@@ -92,6 +94,15 @@ public class ServerHttpRequestStats extends AbstractVeniceHttpStats {
 
   private static final MetricsRepository dummySystemStoreMetricRepo = new MetricsRepository();
 
+  /**
+   * Optional sink for read-path latency samples consumed by {@code AdaptiveThrottlerSignalService}
+   * to compute its p99 signal without depending on Tehuti's windowed percentile. Null when the
+   * adaptive throttler is disabled.
+   */
+  private final LatencyPercentileProvider latencyPercentileProvider;
+  /** Category under which this instance's latency observations feed {@link #latencyPercentileProvider}. */
+  private final LatencyType latencySignalType;
+
   public ServerHttpRequestStats(
       MetricsRepository metricsRepository,
       String storeName,
@@ -101,7 +112,31 @@ public ServerHttpRequestStats(
       ServerHttpRequestStats totalStats,
       boolean isDaVinciClient,
       boolean readOtelStatsEnabled) {
+    this(
+        metricsRepository,
+        storeName,
+        clusterName,
+        requestType,
+        isKeyValueProfilingEnabled,
+        totalStats,
+        isDaVinciClient,
+        readOtelStatsEnabled,
+        null);
+  }
+
+  public ServerHttpRequestStats(
+      MetricsRepository metricsRepository,
+      String storeName,
+      String clusterName,
+      RequestType requestType,
+      boolean isKeyValueProfilingEnabled,
+      ServerHttpRequestStats totalStats,
+      boolean isDaVinciClient,
+      boolean readOtelStatsEnabled,
+      LatencyPercentileProvider latencyPercentileProvider) {
     super(isDaVinciClient ? dummySystemStoreMetricRepo : metricsRepository, storeName, requestType);
+    this.latencyPercentileProvider = latencyPercentileProvider;
+    this.latencySignalType = resolveLatencySignalType(requestType);
 
     OpenTelemetryMetricsSetup.OpenTelemetryMetricsSetupInfo otelData =
         OpenTelemetryMetricsSetup.builder(metricsRepository)
@@ -527,6 +562,7 @@ public void recordSuccessRequestAndLatency(
         statusCategory,
         veniceCategory,
         VeniceRequestKeyCountBucket.fromKeyCount(requestedKeyCount));
+    observeLatencyForSignal(latency);
   }
 
   public void recordErrorRequestAndLatency(
@@ -543,6 +579,28 @@ public void recordErrorRequestAndLatency(
         statusCategory,
         veniceCategory,
         VeniceRequestKeyCountBucket.fromKeyCount(requestedKeyCount));
+    observeLatencyForSignal(latency);
+  }
+
+  private void observeLatencyForSignal(double latency) {
+    if (latencyPercentileProvider != null) {
+      latencyPercentileProvider.observe(latencySignalType, latency);
+    }
+  }
+
+  private static LatencyType resolveLatencySignalType(RequestType requestType) {
+    switch (requestType) {
+      case SINGLE_GET:
+        return LatencyType.SINGLE_GET;
+      case MULTI_GET:
+      case MULTI_GET_STREAMING:
+        return LatencyType.MULTI_GET;
+      case COMPUTE:
+      case COMPUTE_STREAMING:
+        return LatencyType.READ_COMPUTE;
+      default:
+        throw new IllegalArgumentException("Unhandled RequestType for latency signal: " + requestType);
+    }
   }
 
   private static HttpResponseStatusEnum resolveStatusEnum(HttpResponseStatus responseStatus) {
diff --git a/services/venice-server/src/test/java/com/linkedin/venice/listener/ServerLoadControllerHandlerTest.java b/services/venice-server/src/test/java/com/linkedin/venice/listener/ServerLoadControllerHandlerTest.java
index 0ea66672846..e9b72ae7eef 100644
--- a/services/venice-server/src/test/java/com/linkedin/venice/listener/ServerLoadControllerHandlerTest.java
+++ b/services/venice-server/src/test/java/com/linkedin/venice/listener/ServerLoadControllerHandlerTest.java
@@ -13,8 +13,10 @@
 import com.linkedin.venice.reliability.LoadController;
 import com.linkedin.venice.stats.ServerLoadStats;
 import com.linkedin.venice.utils.TestUtils;
+import com.linkedin.venice.utils.metrics.MetricsRepositoryUtils;
 import io.netty.channel.ChannelHandlerContext;
 import io.netty.handler.codec.http.HttpRequest;
+import io.tehuti.metrics.MetricsRepository;
 import java.util.concurrent.TimeUnit;
 import org.testng.annotations.Test;
 
@@ -41,7 +43,9 @@ public void testServerOverLoad() throws Exception {
 
     ServerLoadStats loadStats = mock(ServerLoadStats.class);
 
-    ServerLoadControllerHandler serverLoadControllerHandler = new ServerLoadControllerHandler(serverConfig, loadStats);
+    MetricsRepository metricsRepository = MetricsRepositoryUtils.createSingleThreadedMetricsRepository();
+    ServerLoadControllerHandler serverLoadControllerHandler =
+        new ServerLoadControllerHandler(serverConfig, loadStats, metricsRepository);
 
     ChannelHandlerContext ctx = mock(ChannelHandlerContext.class);
     HttpRequest request = mock(HttpRequest.class);