[vpj] Fixing a bug with chunked messages in Repush (#2480)

ymuppala · web-flow · commit 3c0d285b5fa7 · 2026-02-12T16:55:09.000-08:00
* [vpj] Fixing a bug with chunked message in Repush

* Bumping container version

* Pinning the docker API version for PulsarVeniceIntegration test

* Pinning version of ubuntu

* Creating docker-java.properties

* Adding docker-java.properties
diff --git a/clients/venice-push-job/src/main/java/com/linkedin/venice/spark/datawriter/jobs/AbstractDataWriterSparkJob.java b/clients/venice-push-job/src/main/java/com/linkedin/venice/spark/datawriter/jobs/AbstractDataWriterSparkJob.java
@@ -97,10 +97,13 @@
 import com.linkedin.venice.writer.VeniceWriter;
 import java.io.IOException;
 import java.util.ArrayList;
+import java.util.Arrays;
 import java.util.Collections;
 import java.util.Comparator;
+import java.util.HashSet;
 import java.util.List;
 import java.util.Properties;
+import java.util.Set;
 import java.util.UUID;
 import org.apache.avro.Schema;
 import org.apache.logging.log4j.LogManager;
@@ -436,6 +439,8 @@ protected Dataset<Row> applyTTLFilter(Dataset<Row> dataFrame) {
       StructType schema = dataFrame.schema();
       ExpressionEncoder<Row> encoder = RowEncoder.apply(schema);
 
+      final LongAccumulator ttlFilteredAcc = accumulatorsForDataWriterJob.repushTtlFilteredRecordCounter;
+
       // Apply filter using mapPartitions for efficiency (one filter instance per partition)
       dataFrame = dataFrame.mapPartitions((MapPartitionsFunction<Row, Row>) iterator -> {
         SparkKafkaInputTTLFilter ttlFilter =
@@ -457,7 +462,7 @@ protected Dataset<Row> applyTTLFilter(Dataset<Row> dataFrame) {
 
             if (shouldRemove) {
               // Increment counter for filtered records
-              accumulatorsForDataWriterJob.repushTtlFilteredRecordCounter.add(1);
+              ttlFilteredAcc.add(1);
             }
 
             return !shouldRemove; // Keep if NOT filtered
@@ -575,6 +580,8 @@ protected Dataset<Row> applyChunkAssembly(Dataset<Row> dataFrame) {
 
     ExpressionEncoder<Row> encoder = RowEncoder.apply(DEFAULT_SCHEMA_WITH_SCHEMA_ID);
 
+    final LongAccumulator emptyRecordAcc = accumulatorsForDataWriterJob.emptyRecordCounter;
+
     dataFrame = dataFrame
         // Group by key
         .groupByKey((MapFunction<Row, byte[]>) row -> row.getAs(KEY_COLUMN_NAME), Encoders.BINARY())
@@ -602,7 +609,7 @@ protected Dataset<Row> applyChunkAssembly(Dataset<Row> dataFrame) {
 
           if (assembled == null) {
             // Latest record is DELETE, chunks incomplete, or filtered by TTL
-            accumulatorsForDataWriterJob.emptyRecordCounter.add(1);
+            emptyRecordAcc.add(1);
             return Collections.emptyIterator();
           }
 
@@ -842,8 +849,22 @@ void validateDataFrame(Dataset<Row> dataFrameForDataWriterJob) {
 
     validateDataFrameFieldAndTypes(fields, dataSchema, RMD_COLUMN_NAME, DataTypes.BinaryType);
 
+    // For KIF repush, the DataFrame may contain Venice internal columns (defined in SparkConstants)
+    // needed for chunk assembly. These are consumed by applyChunkAssembly() and dropped in runComputeJob().
+    Set<String> allowedInternalColumns = new HashSet<>();
+    PushJobSetting setting = getPushJobSetting();
+    if (setting != null && setting.isSourceKafka) {
+      allowedInternalColumns.addAll(
+          Arrays.asList(
+              SCHEMA_ID_COLUMN_NAME,
+              RMD_VERSION_ID_COLUMN_NAME,
+              OFFSET_COLUMN_NAME,
+              MESSAGE_TYPE_COLUMN_NAME,
+              CHUNKED_KEY_SUFFIX_COLUMN_NAME));
+    }
+
     for (StructField field: fields) {
-      if (field.name().startsWith("_")) {
+      if (field.name().startsWith("_") && !allowedInternalColumns.contains(field.name())) {
         String errorMessage = String
             .format("The provided input must not have fields that start with an underscore. Got: %s", field.name());
         throw new VeniceInvalidInputException(errorMessage);
diff --git a/clients/venice-push-job/src/test/java/com/linkedin/venice/spark/datawriter/jobs/AbstractDataWriterSparkJobTest.java b/clients/venice-push-job/src/test/java/com/linkedin/venice/spark/datawriter/jobs/AbstractDataWriterSparkJobTest.java
@@ -2,15 +2,22 @@
 
 import static com.linkedin.venice.ConfigKeys.KAFKA_CONFIG_PREFIX;
 import static com.linkedin.venice.meta.Store.UNLIMITED_STORAGE_QUOTA;
+import static com.linkedin.venice.spark.SparkConstants.CHUNKED_KEY_SUFFIX_COLUMN_NAME;
 import static com.linkedin.venice.spark.SparkConstants.KEY_COLUMN_NAME;
+import static com.linkedin.venice.spark.SparkConstants.MESSAGE_TYPE_COLUMN_NAME;
+import static com.linkedin.venice.spark.SparkConstants.OFFSET_COLUMN_NAME;
 import static com.linkedin.venice.spark.SparkConstants.RMD_COLUMN_NAME;
+import static com.linkedin.venice.spark.SparkConstants.RMD_VERSION_ID_COLUMN_NAME;
+import static com.linkedin.venice.spark.SparkConstants.SCHEMA_ID_COLUMN_NAME;
 import static com.linkedin.venice.spark.SparkConstants.SPARK_APP_NAME_CONFIG;
 import static com.linkedin.venice.spark.SparkConstants.SPARK_DATA_WRITER_CONF_PREFIX;
 import static com.linkedin.venice.spark.SparkConstants.SPARK_SESSION_CONF_PREFIX;
 import static com.linkedin.venice.spark.SparkConstants.VALUE_COLUMN_NAME;
 import static com.linkedin.venice.vpj.VenicePushJobConstants.DEFAULT_KEY_FIELD_PROP;
 import static com.linkedin.venice.vpj.VenicePushJobConstants.DEFAULT_VALUE_FIELD_PROP;
 import static org.apache.spark.sql.types.DataTypes.BinaryType;
+import static org.apache.spark.sql.types.DataTypes.IntegerType;
+import static org.apache.spark.sql.types.DataTypes.LongType;
 import static org.apache.spark.sql.types.DataTypes.StringType;
 import static org.mockito.ArgumentMatchers.eq;
 import static org.mockito.Mockito.mock;
@@ -129,6 +136,70 @@ public void testValidateDataFrameWithValidRmdType() {
     dataWriterSparkJob.validateDataFrame(mockDataset);
   }
 
+  @Test
+  public void testValidateDataFrameWithChunkedKifColumns() {
+    PushJobSetting kafkaSetting = new PushJobSetting();
+    kafkaSetting.isSourceKafka = true;
+
+    AbstractDataWriterSparkJob dataWriterSparkJob = spy(AbstractDataWriterSparkJob.class);
+    when(dataWriterSparkJob.getPushJobSetting()).thenReturn(kafkaSetting);
+
+    // Schema matching chunked KIF repush input: key, value, rmd + internal columns for chunk assembly
+    StructType chunkedKifSchema = new StructType(
+        new StructField[] { new StructField(KEY_COLUMN_NAME, BinaryType, false, Metadata.empty()),
+            new StructField(VALUE_COLUMN_NAME, BinaryType, true, Metadata.empty()),
+            new StructField(RMD_COLUMN_NAME, BinaryType, true, Metadata.empty()),
+            new StructField(SCHEMA_ID_COLUMN_NAME, IntegerType, false, Metadata.empty()),
+            new StructField(RMD_VERSION_ID_COLUMN_NAME, IntegerType, false, Metadata.empty()),
+            new StructField(OFFSET_COLUMN_NAME, LongType, false, Metadata.empty()),
+            new StructField(MESSAGE_TYPE_COLUMN_NAME, IntegerType, false, Metadata.empty()),
+            new StructField(CHUNKED_KEY_SUFFIX_COLUMN_NAME, BinaryType, true, Metadata.empty()) });
+
+    Dataset<Row> mockDataset = mock(Dataset.class);
+    when(mockDataset.schema()).thenReturn(chunkedKifSchema);
+    dataWriterSparkJob.validateDataFrame(mockDataset);
+  }
+
+  @Test(expectedExceptions = VeniceInvalidInputException.class, expectedExceptionsMessageRegExp = ".*must not have fields that start with an underscore.*__schema_id__.*")
+  public void testValidateDataFrameRejectsInternalColumnsForNonKifJob() {
+    PushJobSetting hdfsSetting = new PushJobSetting();
+    hdfsSetting.isSourceKafka = false;
+
+    AbstractDataWriterSparkJob dataWriterSparkJob = spy(AbstractDataWriterSparkJob.class);
+    when(dataWriterSparkJob.getPushJobSetting()).thenReturn(hdfsSetting);
+
+    // Same chunked KIF schema but on a non-KIF job — should be rejected
+    StructType chunkedKifSchema = new StructType(
+        new StructField[] { new StructField(KEY_COLUMN_NAME, BinaryType, false, Metadata.empty()),
+            new StructField(VALUE_COLUMN_NAME, BinaryType, true, Metadata.empty()),
+            new StructField(RMD_COLUMN_NAME, BinaryType, true, Metadata.empty()),
+            new StructField(SCHEMA_ID_COLUMN_NAME, IntegerType, false, Metadata.empty()) });
+
+    Dataset<Row> mockDataset = mock(Dataset.class);
+    when(mockDataset.schema()).thenReturn(chunkedKifSchema);
+    dataWriterSparkJob.validateDataFrame(mockDataset);
+  }
+
+  @Test(expectedExceptions = VeniceInvalidInputException.class, expectedExceptionsMessageRegExp = ".*must not have fields that start with an underscore.*_unknown_internal.*")
+  public void testValidateDataFrameRejectsUnknownUnderscoreColumnsForKifJob() {
+    PushJobSetting kafkaSetting = new PushJobSetting();
+    kafkaSetting.isSourceKafka = true;
+
+    AbstractDataWriterSparkJob dataWriterSparkJob = spy(AbstractDataWriterSparkJob.class);
+    when(dataWriterSparkJob.getPushJobSetting()).thenReturn(kafkaSetting);
+
+    // KIF job but with an unknown underscore column — should still be rejected
+    StructType schemaWithUnknownInternalCol = new StructType(
+        new StructField[] { new StructField(KEY_COLUMN_NAME, BinaryType, false, Metadata.empty()),
+            new StructField(VALUE_COLUMN_NAME, BinaryType, true, Metadata.empty()),
+            new StructField(RMD_COLUMN_NAME, BinaryType, true, Metadata.empty()),
+            new StructField("_unknown_internal", StringType, true, Metadata.empty()) });
+
+    Dataset<Row> mockDataset = mock(Dataset.class);
+    when(mockDataset.schema()).thenReturn(schemaWithUnknownInternalCol);
+    dataWriterSparkJob.validateDataFrame(mockDataset);
+  }
+
   @Test
   public void testValidateDataFrameSchema() throws IOException {
     File inputDir = TestWriteUtils.getTempDataDirectory();
diff --git a/tests/venice-pulsar-test/src/pulsarIntegrationTest/resources/docker-java.properties b/tests/venice-pulsar-test/src/pulsarIntegrationTest/resources/docker-java.properties
@@ -0,0 +1 @@
+api.version=1.44