feat: Increase the way memory allocation is managed

bachelor-dou · bachelor-dou · commit bbfeb0ef0780 · 2025-04-10T07:24:11.000Z
diff --git a/ggml/src/ggml-cann/aclnn_ops.cpp b/ggml/src/ggml-cann/aclnn_ops.cpp
@@ -1209,6 +1209,11 @@ void aclnn_sin(ggml_backend_cann_context& ctx, aclTensor* acl_src,
     GGML_CANN_CALL_ACLNN_OP(Sin, acl_src, acl_dst);
 }
 
+void aclnn_geluv2(ggml_backend_cann_context& ctx, aclTensor* acl_src,
+                       aclTensor* acl_dst) {
+        GGML_CANN_CALL_ACLNN_OP(GeluV2, acl_src, 0, acl_dst);
+}
+
 void ggml_cann_timestep_embedding(ggml_backend_cann_context& ctx,
                                   ggml_tensor* dst) {
     const ggml_tensor* src = dst->src[0];
@@ -1783,7 +1788,7 @@ void ggml_cann_get_rows(ggml_backend_cann_context& ctx, ggml_tensor* dst) {
                 src0->data, ACL_INT8, sizeof(int8_t), weight_ne, weight_nb,
                 GGML_MAX_DIMS + 1);
             aclTensor* acl_scale_tensor = ggml_cann_create_tensor(
-                src0->data, ACL_FLOAT16, sizeof(float16_t), scale_ne, scale_nb,
+                src0->data, ACL_FLOAT16, sizeof(uint16_t), scale_ne, scale_nb,
                 GGML_MAX_DIMS + 1, ACL_FORMAT_ND, scale_offset);
             aclTensor* dequant_tensor = ggml_cann_create_tensor(
                 dequant_buffer_allocator.get(), ACL_FLOAT, sizeof(float_t),
diff --git a/ggml/src/ggml-cann/aclnn_ops.h b/ggml/src/ggml-cann/aclnn_ops.h
@@ -593,6 +593,9 @@ void aclnn_cos(ggml_backend_cann_context& ctx, aclTensor* acl_src,
 void aclnn_sin(ggml_backend_cann_context& ctx, aclTensor* acl_src,
     aclTensor* acl_dst);
 
+void aclnn_geluv2(ggml_backend_cann_context& ctx, aclTensor* acl_src,
+    aclTensor* acl_dst);
+
 /**
  * @brief Prepares broadcast-compatible ACL tensors for two input tensors and one
  * output tensor.
@@ -840,14 +843,13 @@ void ggml_cann_unary_op(
  * @see ggml_cann_unary_op
  * @see GGML_CANN_CALL_ACLNN_OP
  */
-#define GGML_CANN_CALL_UNARY_OP(OP_NAME)                         \
-    do {                                                         \
-        auto lambda = [](ggml_backend_cann_context& ctx,         \
-            aclTensor* acl_src,                                  \
-            aclTensor* acl_dst) {                                \
-            GGML_CANN_CALL_ACLNN_OP(OP_NAME, acl_src, acl_dst);  \
-        };                                                       \
-        ggml_cann_unary_op(lambda, ctx, dst);                    \
-    }                                                            \
-    while (0)
+#define GGML_CANN_CALL_UNARY_OP(OP_NAME)                      \
+    do {                                                      \
+        ggml_tensor * src     = dst->src[0];                  \
+        aclTensor *   acl_src = ggml_cann_create_tensor(src); \
+        aclTensor *   acl_dst = ggml_cann_create_tensor(dst); \
+        GGML_CANN_CALL_ACLNN_OP(OP_NAME, acl_src, acl_dst);   \
+        ACL_CHECK(aclDestroyTensor(acl_src));                 \
+        ACL_CHECK(aclDestroyTensor(acl_dst));                 \
+    } while (0)
 #endif  // CANN_ACLNN_OPS
diff --git a/ggml/src/ggml-cann/ggml-cann.cpp b/ggml/src/ggml-cann/ggml-cann.cpp