Use Memcpy in copy_utils (pytorch#11430)

ethansfng · facebook-github-bot · commit 33f6efcfb130 · 2025-06-10T10:06:57.000-07:00
Summary:

standard elementwise copy in copy_utils is inefficient, use memcpy instead

Rollback Plan:

Differential Revision: D76061894
diff --git a/kernels/portable/cpu/util/copy_ops_util.h b/kernels/portable/cpu/util/copy_ops_util.h
@@ -28,18 +28,26 @@ void _as_strided_copy(
     int64_t dim) {
   // the last dimension, copy data
   if (dim == static_cast<int64_t>(size.size()) - 1) {
-    for (const auto i : c10::irange(size.at(dim))) {
-      output_data[i] = *input_data;
-      input_data += stride.at(dim);
+    const size_t num_elements = size.at(dim);
+    const int64_t stride_dim = stride.at(dim);
+    // use memcpy for contiguous memory
+    if (stride_dim == 1) {
+      memcpy(output_data, input_data, num_elements * sizeof(CTYPE));
+    } else {
+      for (const auto i : c10::irange(num_elements)) {
+        output_data[i] = *input_data;
+        input_data += stride_dim;
+      }
     }
     return;
   }
   size_t trailing_dims = getTrailingDims(out, dim);
   // recursively set data for the next dimension
+  const int64_t stride_dim = stride.at(dim);
   for ([[maybe_unused]] const auto i : c10::irange(size.at(dim))) {
     _as_strided_copy<CTYPE>(
         input_data, output_data, out, size, stride, dim + 1);
-    input_data += stride.at(dim);
+    input_data += stride_dim;
     output_data += trailing_dims;
   }
 }