Revert "Adding DummyInputGenerator for VisualBert" (#2306)

echarlaix · web-flow · commit f7d6e889ed9b · 2025-06-25T18:31:10.000+02:00
Revert "Adding DummyInputGenerator for VisualBert (#2303)" This reverts commit a4152c0.
diff --git a/optimum/utils/input_generators.py b/optimum/utils/input_generators.py
@@ -63,8 +63,6 @@ def wrapper(*args, **kwargs):
     "num_channels": 3,
     "point_batch_size": 3,
     "nb_points_per_image": 2,
-    "visual_seq_length": 16,
-    "visual_embedding_dim": 20,
     # audio
     "feature_size": 80,
     "nb_max_frames": 3000,
@@ -808,9 +806,6 @@ class DummyVisionInputGenerator(DummyInputGenerator):
         "pixel_mask",
         "sample",
         "latent_sample",
-        "visual_embeds",
-        "visual_token_type_ids",
-        "visual_attention_mask",
     )
 
     def __init__(
@@ -821,8 +816,6 @@ def __init__(
         num_channels: int = DEFAULT_DUMMY_SHAPES["num_channels"],
         width: int = DEFAULT_DUMMY_SHAPES["width"],
         height: int = DEFAULT_DUMMY_SHAPES["height"],
-        visual_seq_length: int = DEFAULT_DUMMY_SHAPES["visual_seq_length"],
-        visual_embedding_dim: int = DEFAULT_DUMMY_SHAPES["visual_embedding_dim"],
         **kwargs,
     ):
         self.task = task
@@ -846,8 +839,6 @@ def __init__(
             self.image_size = (self.image_size, self.image_size)
         self.batch_size = batch_size
         self.height, self.width = self.image_size
-        self.visual_seq_length = visual_seq_length
-        self.visual_embedding_dim = visual_embedding_dim
 
     def generate(self, input_name: str, framework: str = "pt", int_dtype: str = "int64", float_dtype: str = "fp32"):
         if input_name == "pixel_mask":
@@ -857,30 +848,6 @@ def generate(self, input_name: str, framework: str = "pt", int_dtype: str = "int
                 framework=framework,
                 dtype=int_dtype,
             )
-
-        elif input_name in "visual_attention_mask":
-            return self.random_mask_tensor(
-                shape=[self.batch_size, self.visual_seq_length],
-                padding_side="right",
-                framework=framework,
-                dtype=int_dtype,
-            )
-
-        elif input_name == "visual_token_type_ids":
-            return self.random_int_tensor(
-                shape=[self.batch_size, self.visual_seq_length],
-                max_value=1,
-                framework=framework,
-                dtype=int_dtype,
-            )
-
-        elif input_name == "visual_embeds":
-            return self.random_float_tensor(
-                shape=[self.batch_size, self.visual_seq_length, self.visual_embedding_dim],
-                framework=framework,
-                dtype=float_dtype,
-            )
-
         else:
             return self.random_float_tensor(
                 shape=[self.batch_size, self.num_channels, self.height, self.width],