Fix merge confict issue (#63)

liangan1 · chengjunlu · commit 03fe4a15eab3 · 2023-02-07T11:47:51.000-05:00
diff --git a/src/ProcessGroupCCL.hpp b/src/ProcessGroupCCL.hpp
@@ -175,11 +175,6 @@ class ProcessGroupCCL : public ProcessGroup
       std::vector<std::vector<at::Tensor>>& inputTensors,
       const ReduceScatterOptions& opts = ReduceScatterOptions()) override;
   
-  c10::intrusive_ptr<C10D_Work> _reduce_scatter_base(
-      at::Tensor& outputTensor,
-      at::Tensor& inputTensor,
-      const ReduceScatterOptions& opts = ReduceScatterOptions()) override;
-
   c10::intrusive_ptr<C10D_Work> _reduce_scatter_base(
           at::Tensor& outputBuffer,
           at::Tensor& inputBuffer,
diff --git a/src/cpu/cpu_ccl.cpp b/src/cpu/cpu_ccl.cpp
@@ -158,11 +158,6 @@ class VanillaCPU final: public DispatchStub {
                                                             const GatherOptions& opts,
                                                             ProcessGroupCCL& pg) override;
   
-  c10::intrusive_ptr<ProcessGroupCCL::AsyncWorkCCL> _reduce_scatter_base_(at::Tensor& outputTensor,
-                                                            at::Tensor& inputTensor,
-                                                            const ReduceScatterOptions& opts,
-                                                            ProcessGroupCCL& pg) override;
-
   c10::intrusive_ptr<ProcessGroupCCL::AsyncWorkCCL> alltoall_base_(at::Tensor& outputTensor,
                                                                at::Tensor& inputTensor,
                                                                std::vector<int64_t>& outputSplitSizes,
@@ -352,51 +347,6 @@ c10::intrusive_ptr<ProcessGroupCCL::AsyncWorkCCL> VanillaCPU::reduce_(std::vecto
   return work;
 }
 
-c10::intrusive_ptr<ProcessGroupCCL::AsyncWorkCCL> VanillaCPU::_reduce_scatter_base_(at::Tensor& outputTensor,
-                                                                                     at::Tensor& inputTensor,
-                                                                                     const ReduceScatterOptions& opts,
-                                                                                     ProcessGroupCCL& pg_ccl) {
-  const int world_size = pg_ccl.getSize();
-  if (inputTensor.numel() != outputTensor.numel() * world_size) {
-    TORCH_CHECK(
-            false,
-            "input tensor must be the same size as output size times world size");
-  }
-
-  // just a wrapper to fit the collective interface
-  auto inputs = std::vector<at::Tensor> {inputTensor};
-  auto outputs = std::vector<at::Tensor> {outputTensor};
-
-  c10::intrusive_ptr<ProcessGroupCCL::AsyncWorkCCL> work;
-  work = collective<get_ccl_comms, CPUWorkCCL>(
-          pg_ccl,
-          inputs,
-          outputs,
-          [=](at::Tensor input,
-              at::Tensor output,
-              ccl::reduce_attr attr,
-              ccl::communicator& comm) {
-
-            ccl::event ret_evt;
-            call_with_lock(c10d::ProcessGroupCCL::globalMutex, [&]() {
-              CCL_CHECK(ret_evt = ccl::reduce_scatter(input.data_ptr(),
-                                                      output.data_ptr(),
-                                                      (size_t) output.numel(),
-                                                      cclDatatypes.at(input.scalar_type()),
-                                                      cclOps.at(opts.reduceOp),
-                                                      comm));
-            });
-            return ret_evt;
-
-          },
-          c10d::OpType::_REDUCE_SCATTER_BASE,
-          "oneccl_bindings_for_pytorch::cpu_work::_reduce_scatter_base");
-
-  work->debugName = std::string("cpu::_reduce_scatter_base");
-  enqueue(work);
-  return work;
-}
-
 c10::intrusive_ptr<ProcessGroupCCL::AsyncWorkCCL> VanillaCPU::broadcast_(std::vector<at::Tensor>& tensors,
                                                                       const BroadcastOptions &opts,
                                                                       ProcessGroupCCL& pg) {
diff --git a/src/dispatch_stub.cpp b/src/dispatch_stub.cpp
@@ -259,14 +259,6 @@ class DebugCCLStub final: public DispatchStub {
     return work;
   }
   
-  c10::intrusive_ptr<ProcessGroupCCL::AsyncWorkCCL> _reduce_scatter_base_(at::Tensor& outputTensor,
-                                                                at::Tensor& inputTensor,
-                                                                const ReduceScatterOptions& opts,
-                                                                ProcessGroupCCL& pg_ccl) {
-      c10::DeviceType dev_type = inputTensor.device().type();
-      return get_ccl_stub(dev_type)->_reduce_scatter_base_(outputTensor, inputTensor, opts, pg_ccl);
-  }
-
   c10::intrusive_ptr<ProcessGroupCCL::AsyncWorkCCL> alltoall_base_(at::Tensor& outputTensor,
                                                                 at::Tensor& inputTensor,
                                                                 std::vector<int64_t>& outputSplitSizes,
@@ -390,15 +382,6 @@ c10::intrusive_ptr<ProcessGroupCCL::AsyncWorkCCL> DispatchStub::reduce(std::vect
 }
 
 
-c10::intrusive_ptr<ProcessGroupCCL::AsyncWorkCCL> DispatchStub::_reduce_scatter_base(at::Tensor& outputTensor,
-                                                                      at::Tensor& inputTensor,
-                                                                      const ReduceScatterOptions& opts,
-                                                                      ProcessGroupCCL& pg_ccl) {
-  checkSameType(outputTensor, {outputTensor, inputTensor});
-  c10::DeviceType dev_type = outputTensor.device().type();
-  return get_ccl_stub(dev_type)->_reduce_scatter_base_(outputTensor, inputTensor, opts, pg_ccl);
-}
-
 c10::intrusive_ptr<ProcessGroupCCL::AsyncWorkCCL> DispatchStub::broadcast(std::vector<at::Tensor>& tensors,
                                                                 const BroadcastOptions& opts,
                                                                 ProcessGroupCCL& pg_ccl) {
diff --git a/src/dispatch_stub.h b/src/dispatch_stub.h
@@ -55,11 +55,6 @@ class DispatchStub {
                                                                const ReduceOptions& opts,
                                                                ProcessGroupCCL& pg_ccl);
 
-  static c10::intrusive_ptr<ProcessGroupCCL::AsyncWorkCCL> _reduce_scatter_base(at::Tensor& outputTensor,
-                                                              at::Tensor& inputTensor,
-                                                              const ReduceScatterOptions& opts,
-                                                              ProcessGroupCCL& pg_ccl);
-
   static c10::intrusive_ptr<ProcessGroupCCL::AsyncWorkCCL> broadcast(std::vector<at::Tensor>& tensors,
                                                                   const BroadcastOptions& opts,
                                                                   ProcessGroupCCL& pg_ccl);
@@ -122,15 +117,6 @@ class DispatchStub {
     return c10::intrusive_ptr<ProcessGroupCCL::AsyncWorkCCL>();
   }
 
-  virtual c10::intrusive_ptr<ProcessGroupCCL::AsyncWorkCCL> _reduce_scatter_base_(at::Tensor& outputTensor,
-                                                                                at::Tensor& inputTensor,
-                                                                                const ReduceScatterOptions& opts,
-                                                                                ProcessGroupCCL& pg_ccl)  {
-    fail(outputTensor.device().type(), "_reduce_scatter_base");
-    return c10::intrusive_ptr<ProcessGroupCCL::AsyncWorkCCL>();
-  }
-
-
   virtual c10::intrusive_ptr<ProcessGroupCCL::AsyncWorkCCL> allgather_(std::vector<std::vector<at::Tensor>>& outputTensors,
                                                                     std::vector<at::Tensor>& inputTensors,
                                                                     const AllgatherOptions& opts,
diff --git a/tests/test_c10d_ccl.py b/tests/test_c10d_ccl.py
@@ -482,26 +482,7 @@ def _test_reduce_scatter_base_basics(self, fn):
         def reduce_scatter_base(output_t, input_t):
             work = pg._reduce_scatter_base(output_t, input_t)
             work.wait()
-
-        # anticpate an error
-        with self.assertRaisesRegex(
-                RuntimeError,
-                "input tensor must be the same size as output size times world size",
-        ):
-            input_t = fn(torch.tensor([self.rank]))
-            output_t = fn(torch.empty((self.world_size + 1), dtype=input_t.dtype))
-            # fails the check because output_t is not correctly sized
-            reduce_scatter_base(output_t, input_t)
-
-        # anticpate an error
-        with self.assertRaisesRegex(
-                RuntimeError, "Tensors are not equal in data type"
-        ):
-            tensor = fn(torch.tensor([self.rank], dtype=torch.float))
-            output_t = fn(torch.empty((self.world_size + 1), dtype=torch.long))
-            # fails the check because the dtype is different
-            reduce_scatter_base(output_t, tensor)
-
+       
     def test_reduce_scatter_base_basics(self):
         self._test_reduce_scatter_base_basics(lambda t: t.clone())