CPU/CUDA: fix GQA mul mat back, add CUDA support

JohannesGaessler · JohannesGaessler · commit 2cf6f8bf42a4 · 2025-01-23T22:38:53.000+01:00
diff --git a/ggml/include/ggml.h b/ggml/include/ggml.h
@@ -933,7 +933,8 @@ extern "C" {
     GGML_API struct ggml_tensor * ggml_repeat_back(
             struct ggml_context * ctx,
             struct ggml_tensor  * a,
-            struct ggml_tensor  * b);
+            struct ggml_tensor  * b,
+            bool                  adjacent); // sum up values that are adjacent in dims > 0 instead of repeated with same stride
 
     // concat a and b along dim
     // used in stable-diffusion
diff --git a/ggml/src/ggml-cpu/ggml-cpu.c b/ggml/src/ggml-cpu/ggml-cpu.c
@@ -6046,6 +6046,8 @@ static void ggml_compute_forward_repeat_back_f32(
     GGML_ASSERT(nb0  == sizeof(float));
     GGML_ASSERT(nb00 == sizeof(float));
 
+    const bool adjacent = dst->op_params[0] != 0;
+
     if (ggml_is_contiguous(dst)) {
         ggml_vec_set_f32(ne0*ne1*ne2*ne3, dst->data, 0);
     } else {
@@ -6060,22 +6062,42 @@ static void ggml_compute_forward_repeat_back_f32(
         }
     }
 
-    // TODO: maybe this is not optimal?
-    for                         (int i3 = 0; i3 < nr3; i3++) {
-        for                     (int k3 = 0; k3 < ne3; k3++) {
-            for                 (int i2 = 0; i2 < nr2; i2++) {
-                for             (int k2 = 0; k2 < ne2; k2++) {
-                    for         (int i1 = 0; i1 < nr1; i1++) {
-                        for     (int k1 = 0; k1 < ne1; k1++) {
-                            for (int i0 = 0; i0 < nr0; i0++) {
-                                ggml_vec_acc_f32(ne0,
-                                        (float *) ((char *)  dst->data + (         k3)*nb3  + (         k2)*nb2  + (         k1)*nb1),
-                                        (float *) ((char *) src0->data + (i3*ne3 + k3)*nb03 + (i2*ne2 + k2)*nb02 + (i1*ne1 + k1)*nb01 + (i0*ne0)*nb00));
-                            }
-                        }
-                    }
-                }
-            }
+    if (adjacent) {
+        for (int i3 = 0; i3 < nr3; i3++) {
+        for (int k3 = 0; k3 < ne3; k3++) {
+        for (int i2 = 0; i2 < nr2; i2++) {
+        for (int k2 = 0; k2 < ne2; k2++) {
+        for (int i1 = 0; i1 < nr1; i1++) {
+        for (int k1 = 0; k1 < ne1; k1++) {
+        for (int i0 = 0; i0 < nr0; i0++) {
+            ggml_vec_acc_f32(ne0,
+                (float *) ((char *)  dst->data + (         k3)*nb3  + (         k2)*nb2  + (         k1)*nb1),
+                (float *) ((char *) src0->data + (k3*nr3 + i3)*nb03 + (k2*nr2 + i2)*nb02 + (k1*nr1 + i1)*nb01 + (i0*ne0)*nb00));
+        }
+        }
+        }
+        }
+        }
+        }
+        }
+    } else {
+        // TODO: maybe this is not optimal?
+        for (int i3 = 0; i3 < nr3; i3++) {
+        for (int k3 = 0; k3 < ne3; k3++) {
+        for (int i2 = 0; i2 < nr2; i2++) {
+        for (int k2 = 0; k2 < ne2; k2++) {
+        for (int i1 = 0; i1 < nr1; i1++) {
+        for (int k1 = 0; k1 < ne1; k1++) {
+        for (int i0 = 0; i0 < nr0; i0++) {
+            ggml_vec_acc_f32(ne0,
+                (float *) ((char *)  dst->data + (         k3)*nb3  + (         k2)*nb2  + (         k1)*nb1),
+                (float *) ((char *) src0->data + (i3*ne3 + k3)*nb03 + (i2*ne2 + k2)*nb02 + (i1*ne1 + k1)*nb01 + (i0*ne0)*nb00));
+        }
+        }
+        }
+        }
+        }
+        }
         }
     }
 }
@@ -7883,7 +7905,7 @@ static void ggml_compute_forward_out_prod_f32(
 
                     float * s0 = (float *) ((char *) src0->data + (          i01*nb01 + i02*nb02 + i03*nb03));
                     float * s1 = (float *) ((char *) src1->data + (i1*nb10 + i11*nb11 + i12*nb12 + i13*nb13));
-                    float * d  = (float *) ((char *)  dst->data + (          i1*nb1 + i2*nb2 + i3*nb3));
+                    float * d  = (float *) ((char *)  dst->data + (          i1*nb1   + i2*nb2   + i3*nb3));
 
                     ggml_vec_mad_f32_unroll(ne0, nb01, nb11, d, s0, s1);
                 }
@@ -7892,7 +7914,7 @@ static void ggml_compute_forward_out_prod_f32(
 
                     float * s0 = (float *) ((char *) src0->data + (          i01*nb01 + i02*nb02 + i03*nb03));
                     float * s1 = (float *) ((char *) src1->data + (i1*nb10 + i11*nb11 + i12*nb12 + i13*nb13));
-                    float * d  = (float *) ((char *)  dst->data + (          i1*nb1 + i2*nb2 + i3*nb3));
+                    float * d  = (float *) ((char *)  dst->data + (          i1*nb1   + i2*nb2   + i3*nb3));
 
                     ggml_vec_mad_f32(ne0, d, s0, *s1);
                 }
diff --git a/ggml/src/ggml-cpu/ggml-cpu.cpp b/ggml/src/ggml-cpu/ggml-cpu.cpp
@@ -416,7 +416,7 @@ static bool ggml_backend_cpu_device_supports_op(ggml_backend_dev_t dev, const st
         case GGML_OP_IM2COL_BACK:
             return src0->type == GGML_TYPE_F32 && src1->type == GGML_TYPE_F32;
         case GGML_OP_OUT_PROD:
-            return (src0->type == GGML_TYPE_F32 || ggml_is_quantized(src0->type)) && src1->type == GGML_TYPE_F32;
+            return (src0->type == GGML_TYPE_F32 || ggml_is_quantized(src0->type)) && src1->type == GGML_TYPE_F32 && op->type == GGML_TYPE_F32;
         default:
             return true;
     }
diff --git a/ggml/src/ggml-cuda/binbcast.cu b/ggml/src/ggml-cuda/binbcast.cu
@@ -91,11 +91,14 @@ static __global__ void k_bin_bcast_unravel(const src0_t * src0, const src1_t * s
     dst_row[i0] = (dst_t)bin_op(src0 ? (float)src0_row[i0] : 0.0f, (float)src1_row[i10]);
 }
 
-template <typename T>
+template <bool adjacent, typename T>
 static __global__ void k_repeat_back(
     const T * __restrict__ src, T * __restrict__ dst, const int64_t ne00, const int64_t ne01, const int64_t ne02,
     const int64_t ne0, const int64_t ne1, const int64_t ne2) {
 
+    const int64_t nr1 = ne01 / ne1;
+    const int64_t nr2 = ne02 / ne2;
+
     const int64_t tid0 = (int64_t) blockIdx.x*blockDim.x + threadIdx.x;
     const int64_t tid1 = (int64_t) blockIdx.y*blockDim.y + threadIdx.y;
     const int64_t tid2 = (int64_t) blockIdx.z*blockDim.z + threadIdx.z;
@@ -105,10 +108,20 @@ static __global__ void k_repeat_back(
     }
 
     T sum = 0;
-    for (int64_t i2 = tid2; i2 < ne02; i2 += ne2) {
-        for (int64_t i1 = tid1; i1 < ne01; i1 += ne1) {
-            for (int64_t i0 = tid0; i0 < ne00; i0 += ne0) {
-                sum += src[i2*ne01*ne00 + i1*ne00 + i0];
+    if (adjacent) {
+        for (int64_t i2 = tid2*nr2; i2 < (tid2 + 1)*nr2; ++i2) {
+            for (int64_t i1 = tid1*nr1; i1 < (tid1 + 1)*nr1; ++i1) {
+                for (int64_t i0 = tid0; i0 < ne00; i0 += ne0) {
+                    sum += src[i2*ne01*ne00 + i1*ne00 + i0];
+                }
+            }
+        }
+    } else {
+        for (int64_t i2 = tid2; i2 < ne02; i2 += ne2) {
+            for (int64_t i1 = tid1; i1 < ne01; i1 += ne1) {
+                for (int64_t i0 = tid0; i0 < ne00; i0 += ne0) {
+                    sum += src[i2*ne01*ne00 + i1*ne00 + i0];
+                }
             }
         }
     }
@@ -275,11 +288,15 @@ struct bin_bcast_cuda {
 template <typename T>
 static void repeat_back_cuda(
     const T * src, T * dst, const int64_t ne00, const int64_t ne01, const int64_t ne02,
-    const int64_t ne0, const int64_t ne1, const int64_t ne2, cudaStream_t stream) {
+    const int64_t ne0, const int64_t ne1, const int64_t ne2, const bool adjacent, cudaStream_t stream) {
 
     const dim3 block_dims(WARP_SIZE, 1, 1);
     const dim3 block_nums((ne0 + WARP_SIZE - 1) / WARP_SIZE, ne1, ne2);
-    k_repeat_back<T><<<block_nums, block_dims, 0, stream>>>(src, dst, ne00, ne01, ne02, ne0, ne1, ne2);
+    if (adjacent) {
+        k_repeat_back<true,  T><<<block_nums, block_dims, 0, stream>>>(src, dst, ne00, ne01, ne02, ne0, ne1, ne2);
+    } else {
+        k_repeat_back<false, T><<<block_nums, block_dims, 0, stream>>>(src, dst, ne00, ne01, ne02, ne0, ne1, ne2);
+    }
 }
 
 template<class op>
@@ -342,11 +359,13 @@ void ggml_cuda_op_repeat_back(ggml_backend_cuda_context & ctx, ggml_tensor * dst
     const int64_t ne2 = dst->ne[2];
     GGML_ASSERT(dst->ne[3] == 1);
 
+    const bool adjacent = dst->op_params[0] != 0;
+
     switch (dst->type) {
         case GGML_TYPE_F32: {
             const float * src0_d = (const float *) src0->data;
             float       * dst_d  = (float       *) dst->data;
-            repeat_back_cuda<float>(src0_d, dst_d, ne00, ne01, ne02, ne0, ne1, ne2, stream);
+            repeat_back_cuda(src0_d, dst_d, ne00, ne01, ne02, ne0, ne1, ne2, adjacent, stream);
         } break;
         default: {
             GGML_ASSERT(false);
diff --git a/ggml/src/ggml.c b/ggml/src/ggml.c
@@ -2305,14 +2305,17 @@ struct ggml_tensor * ggml_repeat(
 struct ggml_tensor * ggml_repeat_back(
         struct ggml_context * ctx,
         struct ggml_tensor  * a,
-        struct ggml_tensor  * b) {
+        struct ggml_tensor  * b,
+        bool                  adjacent) {
     GGML_ASSERT(ggml_can_repeat(b, a));
 
     struct ggml_tensor * result = ggml_new_tensor(ctx, a->type, GGML_MAX_DIMS, b->ne);
 
     result->op     = GGML_OP_REPEAT_BACK;
     result->src[0] = a;
 
+    result->op_params[0] = adjacent ? 1 : 0;
+
     return result;
 }
 
@@ -5299,7 +5302,7 @@ static void ggml_compute_backward(
             if (src1_needs_grads) {
                 struct ggml_tensor * tmp = grad;
                 if (!ggml_are_same_shape(src0, src1)) {
-                    tmp = ggml_repeat_back(ctx, tmp, src1);
+                    tmp = ggml_repeat_back(ctx, tmp, src1, false);
                 }
                 ggml_add_or_set(ctx, cgraph, isrc1, tmp);
             }
@@ -5339,12 +5342,12 @@ static void ggml_compute_backward(
         } break;
         case GGML_OP_MUL: {
             if (src0_needs_grads) {
-                ggml_add_or_set(ctx, cgraph, isrc0, ggml_mul(ctx, src1, grad));
+                ggml_add_or_set(ctx, cgraph, isrc0, ggml_mul(ctx, grad, src1));
             }
             if (src1_needs_grads) {
                 struct ggml_tensor * tmp = ggml_mul(ctx, src0, grad);
                 if (!ggml_are_same_shape(src0, src1)) {
-                    tmp = ggml_repeat_back(ctx, tmp, src1);
+                    tmp = ggml_repeat_back(ctx, tmp, src1, false);
                 }
                 ggml_add_or_set(ctx, cgraph, isrc1, tmp);
             }
@@ -5399,7 +5402,7 @@ static void ggml_compute_backward(
         } break;
         case GGML_OP_REPEAT: {
             if (src0_needs_grads) {
-                ggml_add_or_set(ctx, cgraph, isrc0, ggml_repeat_back(ctx, grad, src0));
+                ggml_add_or_set(ctx, cgraph, isrc0, ggml_repeat_back(ctx, grad, src0, false));
             }
         } break;
         case GGML_OP_REPEAT_BACK: {
@@ -5431,21 +5434,18 @@ static void ggml_compute_backward(
             // src1.shape   [n,p,qq,rr]
 
             if (src0_needs_grads) {
-                struct ggml_tensor * s1_tg =
+                GGML_ASSERT(grad->ne[2] == src1->ne[2]);
+                GGML_ASSERT(grad->ne[3] == src1->ne[3]);
+                struct ggml_tensor * tmp =
                     ggml_out_prod(ctx, // [n,m,qq,rr]
                         src1,          // [n,p,qq,rr]
                         grad);         // [m,p,qq,rr]
-                const int64_t qq = s1_tg->ne[2];
-                const int64_t rr = s1_tg->ne[3];
-                const int64_t q1 = src0->ne[2];
-                const int64_t r1 = src0->ne[3];
-                const bool ne2_broadcasted = qq > q1;
-                const bool ne3_broadcasted = rr > r1;
-                if (ne2_broadcasted || ne3_broadcasted) {
-                    // sum broadcast repetitions of s1_tg into shape of src0
-                    s1_tg = ggml_repeat_back(ctx, s1_tg, src0);
+                if (!ggml_are_same_shape(tmp, src0)) {
+                    GGML_ASSERT(tmp->ne[0] == src0->ne[0]);
+                    GGML_ASSERT(tmp->ne[1] == src0->ne[1]);
+                    tmp = ggml_repeat_back(ctx, tmp, src0, true);
                 }
-                ggml_add_or_set(ctx, cgraph, isrc0, s1_tg /*= [n,m,q1,r1]*/);
+                ggml_add_or_set(ctx, cgraph, isrc0, tmp);
             }
             if (src1_needs_grads) {
                 ggml_add_or_set(ctx, cgraph, isrc1,
@@ -5514,7 +5514,9 @@ static void ggml_compute_backward(
             if (src0_needs_grads) {
                 GGML_ASSERT(!cgraph->grads[isrc0] || ggml_is_contiguous(cgraph->grads[isrc0]));
                 GGML_ASSERT(ggml_is_contiguous(grad));
-                ggml_add_or_set(ctx, cgraph, isrc0, grad);
+                GGML_ASSERT(ggml_nelements(tensor) == ggml_nelements(src0));
+                ggml_add_or_set(ctx, cgraph, isrc0,
+                    ggml_are_same_shape(tensor, src0) ? grad : ggml_reshape(ctx, grad, src0));
             }
         } break;
         case GGML_OP_RESHAPE: {
diff --git a/tests/test-backend-ops.cpp b/tests/test-backend-ops.cpp

Original file line number	Diff line number	Diff line change
`@@ -416,7 +416,7 @@ static bool ggml_backend_cpu_device_supports_op(ggml_backend_dev_t dev, const st`
`416`	`416`	`case GGML_OP_IM2COL_BACK:`
`417`	`417`	`return src0->type == GGML_TYPE_F32 && src1->type == GGML_TYPE_F32;`
`418`	`418`	`case GGML_OP_OUT_PROD:`
`419`		`- return (src0->type == GGML_TYPE_F32 \|\| ggml_is_quantized(src0->type)) && src1->type == GGML_TYPE_F32;`
	`419`	`+ return (src0->type == GGML_TYPE_F32 \|\| ggml_is_quantized(src0->type)) && src1->type == GGML_TYPE_F32 && op->type == GGML_TYPE_F32;`
`420`	`420`	`default:`
`421`	`421`	`return true;`
`422`	`422`	`}`