Fix head_dim fallback in per-head dimension mappings for GQA models

aryamanarora · claude · aryamanarora · commit 9e333904dcf9 · 2026-03-05T21:37:20.000-08:00
Add head_dim as primary proposal with hidden_size/num_attention_heads as fallback for head_attention_value_output, head_query_output, head_key_output, and head_value_output across all GQA models. This fixes models like GPT-OSS 20B where hidden_size != num_attention_heads * head_dim. Also fixes typo "hhead_dim" -> "head_dim" in gemma. Fixes #229 Co-Authored-By: Claude Opus 4.6 <noreply@anthropic.com>
diff --git a/pyvene/models/gemma/modelings_intervenable_gemma.py b/pyvene/models/gemma/modelings_intervenable_gemma.py
@@ -49,7 +49,7 @@
     "value_output": ("num_key_value_heads*hidden_size/num_attention_heads",),
     "head_query_output": ("head_dim",),
     "head_key_output": ("head_dim",),
-    "head_value_output": ("hhead_dim",),
+    "head_value_output": ("head_dim",),
 }
 
 
diff --git a/pyvene/models/gpt_oss/modelings_intervenable_gpt_oss.py b/pyvene/models/gpt_oss/modelings_intervenable_gpt_oss.py
@@ -66,13 +66,13 @@
     "attention_input": ("hidden_size",),
     "attention_output": ("hidden_size",),
     "attention_value_output": ("hidden_size",),
-    "head_attention_value_output": ("hidden_size/num_attention_heads",),
+    "head_attention_value_output": ("head_dim", "hidden_size/num_attention_heads",),
     "query_output": ("hidden_size",),
     "key_output": ("num_key_value_heads*hidden_size/num_attention_heads",),
     "value_output": ("num_key_value_heads*hidden_size/num_attention_heads",),
-    "head_query_output": ("hidden_size/num_attention_heads",),
-    "head_key_output": ("hidden_size/num_key_value_heads",),
-    "head_value_output": ("hidden_size/num_key_value_heads",),
+    "head_query_output": ("head_dim", "hidden_size/num_attention_heads",),
+    "head_key_output": ("head_dim", "hidden_size/num_key_value_heads",),
+    "head_value_output": ("head_dim", "hidden_size/num_key_value_heads",),
 }
 
 
diff --git a/pyvene/models/llama/modelings_intervenable_llama.py b/pyvene/models/llama/modelings_intervenable_llama.py
@@ -41,15 +41,15 @@
     "mlp_output": ("hidden_size",),
     "mlp_input": ("hidden_size",),
     "attention_value_output": ("hidden_size",),
-    "head_attention_value_output": ("hidden_size/num_attention_heads",),
+    "head_attention_value_output": ("head_dim", "hidden_size/num_attention_heads",),
     "attention_output": ("hidden_size",),
     "attention_input": ("hidden_size",),
     "query_output": ("hidden_size",),
     "key_output": ("num_key_value_heads*hidden_size/num_attention_heads",),
     "value_output": ("num_key_value_heads*hidden_size/num_attention_heads",),
-    "head_query_output": ("hidden_size/num_attention_heads",),
-    "head_key_output": ("hidden_size/num_attention_heads",),
-    "head_value_output": ("hidden_size/num_attention_heads",),
+    "head_query_output": ("head_dim", "hidden_size/num_attention_heads",),
+    "head_key_output": ("head_dim", "hidden_size/num_attention_heads",),
+    "head_value_output": ("head_dim", "hidden_size/num_attention_heads",),
 }
 
 
diff --git a/pyvene/models/mistral/modellings_intervenable_mistral.py b/pyvene/models/mistral/modellings_intervenable_mistral.py
@@ -41,15 +41,15 @@
     "mlp_output": ("hidden_size",),
     "mlp_input": ("hidden_size",),
     "attention_value_output": ("hidden_size",),
-    "head_attention_value_output": ("hidden_size/num_attention_heads",),
+    "head_attention_value_output": ("head_dim", "hidden_size/num_attention_heads",),
     "attention_output": ("hidden_size",),
     "attention_input": ("hidden_size",),
     "query_output": ("hidden_size",),
     "key_output": ("num_key_value_heads*hidden_size/num_attention_heads",),
     "value_output": ("num_key_value_heads*hidden_size/num_attention_heads",),
-    "head_query_output": ("hidden_size/num_attention_heads",),
-    "head_key_output": ("hidden_size/num_attention_heads",),
-    "head_value_output": ("hidden_size/num_attention_heads",),
+    "head_query_output": ("head_dim", "hidden_size/num_attention_heads",),
+    "head_key_output": ("head_dim", "hidden_size/num_attention_heads",),
+    "head_value_output": ("head_dim", "hidden_size/num_attention_heads",),
 }
 
 
diff --git a/pyvene/models/olmo/modelings_intervenable_olmo.py b/pyvene/models/olmo/modelings_intervenable_olmo.py
@@ -42,15 +42,15 @@
     "mlp_output": ("hidden_size",),
     "mlp_input": ("hidden_size",),
     "attention_value_output": ("hidden_size",),
-    "head_attention_value_output": ("hidden_size/num_attention_heads",),
+    "head_attention_value_output": ("head_dim", "hidden_size/num_attention_heads",),
     "attention_output": ("hidden_size",),
     "attention_input": ("hidden_size",),
     "query_output": ("hidden_size",),
     "key_output": ("num_key_value_heads*hidden_size/num_attention_heads",),
     "value_output": ("num_key_value_heads*hidden_size/num_attention_heads",),
-    "head_query_output": ("hidden_size/num_attention_heads",),
-    "head_key_output": ("hidden_size/num_attention_heads",),
-    "head_value_output": ("hidden_size/num_attention_heads",),
+    "head_query_output": ("head_dim", "hidden_size/num_attention_heads",),
+    "head_key_output": ("head_dim", "hidden_size/num_attention_heads",),
+    "head_value_output": ("head_dim", "hidden_size/num_attention_heads",),
 }
 
 
diff --git a/pyvene/models/olmo2/modelings_intervenable_olmo2.py b/pyvene/models/olmo2/modelings_intervenable_olmo2.py
@@ -42,15 +42,15 @@
     "mlp_output": ("hidden_size",),
     "mlp_input": ("hidden_size",),
     "attention_value_output": ("hidden_size",),
-    "head_attention_value_output": ("hidden_size/num_attention_heads",),
+    "head_attention_value_output": ("head_dim", "hidden_size/num_attention_heads",),
     "attention_output": ("hidden_size",),
     "attention_input": ("hidden_size",),
     "query_output": ("hidden_size",),
     "key_output": ("num_key_value_heads*hidden_size/num_attention_heads",),
     "value_output": ("num_key_value_heads*hidden_size/num_attention_heads",),
-    "head_query_output": ("hidden_size/num_attention_heads",),
-    "head_key_output": ("hidden_size/num_attention_heads",),
-    "head_value_output": ("hidden_size/num_attention_heads",),
+    "head_query_output": ("head_dim", "hidden_size/num_attention_heads",),
+    "head_key_output": ("head_dim", "hidden_size/num_attention_heads",),
+    "head_value_output": ("head_dim", "hidden_size/num_attention_heads",),
 }
 
 
diff --git a/pyvene/models/qwen2/modelings_intervenable_qwen2.py b/pyvene/models/qwen2/modelings_intervenable_qwen2.py
@@ -36,15 +36,15 @@
     "mlp_output": ("hidden_size",),
     "mlp_input": ("hidden_size",),
     "attention_value_output": ("hidden_size",),
-    "head_attention_value_output": ("hidden_size/num_attention_heads",),
+    "head_attention_value_output": ("head_dim", "hidden_size/num_attention_heads",),
     "attention_output": ("hidden_size",),
     "attention_input": ("hidden_size",),
     "query_output": ("hidden_size",),
     "key_output": ("num_key_value_heads*hidden_size/num_attention_heads",),
     "value_output": ("num_key_value_heads*hidden_size/num_attention_heads",),
-    "head_query_output": ("hidden_size/num_attention_heads",),
-    "head_key_output": ("hidden_size/num_attention_heads",),
-    "head_value_output": ("hidden_size/num_attention_heads",),
+    "head_query_output": ("head_dim", "hidden_size/num_attention_heads",),
+    "head_key_output": ("head_dim", "hidden_size/num_attention_heads",),
+    "head_value_output": ("head_dim", "hidden_size/num_attention_heads",),
 }
 
 """qwen2 model with LM head"""
diff --git a/pyvene/models/qwen3/modelings_intervenable_qwen3.py b/pyvene/models/qwen3/modelings_intervenable_qwen3.py
@@ -36,15 +36,15 @@
     "mlp_output": ("hidden_size",),
     "mlp_input": ("hidden_size",),
     "attention_value_output": ("hidden_size",),
-    "head_attention_value_output": ("hidden_size/num_attention_heads",),
+    "head_attention_value_output": ("head_dim", "hidden_size/num_attention_heads",),
     "attention_output": ("hidden_size",),
     "attention_input": ("hidden_size",),
     "query_output": ("hidden_size",),
     "key_output": ("num_key_value_heads*hidden_size/num_attention_heads",),
     "value_output": ("num_key_value_heads*hidden_size/num_attention_heads",),
-    "head_query_output": ("hidden_size/num_attention_heads",),
-    "head_key_output": ("hidden_size/num_attention_heads",),
-    "head_value_output": ("hidden_size/num_attention_heads",),
+    "head_query_output": ("head_dim", "hidden_size/num_attention_heads",),
+    "head_key_output": ("head_dim", "hidden_size/num_attention_heads",),
+    "head_value_output": ("head_dim", "hidden_size/num_attention_heads",),
 }
 
 """qwen3 model with LM head"""

Original file line number	Diff line number	Diff line change
`@@ -49,7 +49,7 @@`
`49`	`49`	`"value_output": ("num_key_value_heads*hidden_size/num_attention_heads",),`
`50`	`50`	`"head_query_output": ("head_dim",),`
`51`	`51`	`"head_key_output": ("head_dim",),`
`52`		`- "head_value_output": ("hhead_dim",),`
	`52`	`+ "head_value_output": ("head_dim",),`
`53`	`53`	`}`
`54`	`54`
`55`	`55`