read torch titan #208

long8v · 2024-12-04T01:00:26Z

No description provided.

long8v

(24.12.04) torch distributed study PP 쪽 봄

long8v · 2024-12-04T01:06:14Z

torchtitan/torchtitan/parallelisms/pipeline_llama.py

+def pipeline_llama(
+    model: nn.Module,
+    pp_mesh: DeviceMesh,
+    parallel_dims: ParallelDims,
+    job_config: JobConfig,
+    device: DeviceType,
+    model_config: ModelArgs,
+    loss_fn: Callable[..., torch.Tensor],
+):
+    stages, models = pipeline_llama_manual_split(
+        model, pp_mesh, parallel_dims, job_config, device, model_config
+    )
+
+    pp_schedule = build_pipeline_schedule(job_config, stages, loss_fn)
+
+    return pp_schedule, models


PP recap -- notion
PP 메인 1) pipline_llama_manual_split으로 모델 쪼개주는 것과 2) build_pipeline_schedule로 micro batch 등 pipeline 스케쥴하는 것 두개로 나누어짐.

long8v · 2024-12-04T01:07:48Z

torchtitan/torchtitan/parallelisms/pipeline_llama.py

+def pipeline_llama_manual_split(
+    whole_model: nn.Module,
+    pp_mesh: DeviceMesh,
+    parallel_dims: ParallelDims,
+    job_config: JobConfig,
+    device: DeviceType,
+    model_config: ModelArgs,
+):


llama 쪼개는 함수. DeviceMesh는 Torch native고 ParallelDims는 내부 함수

long8v · 2024-12-04T01:08:20Z

torchtitan/torchtitan/parallelisms/parallel_dims.py

+@dataclass
+class ParallelDims:
+    dp_replicate: int
+    dp_shard: int
+    cp: int
+    tp: int
+    pp: int
+    world_size: int
+    enable_loss_parallel: bool


dp_replicat, dp_shard, cp, tp, pp 등 정의하는 클래스

long8v · 2024-12-04T01:09:28Z

torchtitan/torchtitan/parallelisms/parallel_dims.py

+        dp = dp_replicate * dp_shard
+        if dp < 0:
+            dp = self.world_size // (cp * tp * pp)
+            self.dp_shard = dp_shard = dp // dp_replicate


dp_shrad * dp_replicate는 word_size를 (cp * tp * pp)로 나눈 것과 같아야 함. (model parallel을 하고 남은 차원에서 DP)

long8v · 2024-12-04T01:10:40Z

torchtitan/torchtitan/parallelisms/parallel_dims.py

+    def build_mesh(self, device_type):
+        dims = []
+        names = []
+        for d, name in zip(
+            [self.pp, self.dp_replicate, self.dp_shard, self.cp, self.tp],
+            ["pp", "dp_replicate", "dp_shard", "cp", "tp"],
+        ):
+            if d > 1:
+                dims.append(d)
+                if (name == "dp_replicate" and self.dp_shard == 1) or (
+                    name == "dp_shard" and self.dp_replicate == 1
+                ):
+                    names.append("dp")
+                else:
+                    names.append(name)
+
+        logger.info(f"Building {len(dims)}-D device mesh with {names}, {dims}")
+        names = tuple(names)
+        mesh = init_device_mesh(device_type, dims, mesh_dim_names=names)


device_mesh 생성하는 기능도 있음

long8v · 2024-12-04T02:26:02Z

torchtitan/train.py

+    # init distributed
+    world_size = int(os.environ["WORLD_SIZE"])
+    parallel_dims = ParallelDims(
+        dp_shard=job_config.training.data_parallel_shard_degree,
+        dp_replicate=job_config.training.data_parallel_replicate_degree,
+        cp=job_config.experimental.context_parallel_degree,
+        tp=job_config.training.tensor_parallel_degree,
+        pp=job_config.experimental.pipeline_parallel_degree,
+        world_size=world_size,
+        enable_loss_parallel=job_config.training.enable_loss_parallel,
+    )


ParallelDims 정의

long8v · 2024-12-04T02:26:10Z

torchtitan/train.py

+    logger.info(f"Peak FLOPS used for computing MFU: {gpu_peak_flops:.3e}")
+
+    # build meshes
+    world_mesh = parallel_dims.build_mesh(device_type=device_type)


long8v · 2024-12-04T02:27:32Z

torchtitan/train.py

+    if parallel_dims.pp_enabled:
+        # apply PT-D Pipeline Parallel
+        pp_schedule, model_parts = models_pipelining_fns[model_name](
+            model, pp_mesh, parallel_dims, job_config, device, model_config, loss_fn
+        )
+
+        # For PP with looped schedules, each item in model_parts is one stage-model-chunk.
+        # We need to iterate through model_parts to apply SPMD parallelisms, compilation,
+        # optimizer, and checkpointing
+        for m in model_parts:
+            # apply SPMD-style PT-D techniques
+            models_parallelize_fns[model_name](m, world_mesh, parallel_dims, job_config)
+            m.to_empty(device=init_device)
+            m.init_weights(buffer_device=buffer_device)
+            m.train()


여기서 model_pipelining_fns를 불러오고 call 해줌.

long8v · 2024-12-04T02:27:55Z

torchtitan/train.py

+    with maybe_enable_profiling(
+        job_config, global_step=train_state.step
+    ) as torch_profiler, maybe_enable_memory_snapshot(
+        job_config, global_step=train_state.step
+    ) as memory_profiler:
+        while train_state.step < job_config.training.steps:
+            train_state.step += 1
+            gc_handler.run(train_state.step)
+
+            # get batch
+            data_load_start = time.perf_counter()
+            batch = next(data_iterator)


여기가 실제 학습하는 부분

long8v · 2024-12-04T02:28:27Z

torchtitan/train.py

+            if parallel_dims.pp_enabled:
+                # Pipeline Parallel forward / backward inside step() call
+                is_last_stage = pp_mesh.get_local_rank() == pp_mesh.size() - 1
+
+                with train_context(optional_context_parallel_ctx):
+                    if pp_mesh.get_local_rank() == 0:
+                        pp_schedule.step(input_ids)
+                    elif is_last_stage:
+                        losses = []
+                        pp_schedule.step(target=labels, losses=losses)
+                    else:
+                        pp_schedule.step()
+
+                # accumulate losses across pipeline microbatches
+                loss = (
+                    torch.mean(torch.stack(losses))
+                    if is_last_stage
+                    else torch.Tensor([-1.0])
+                )


pp_schedule.step()으로 micro batch forward 하는듯

long8v

(24.12.18) FSDP2 부분 읽음.

long8v · 2024-12-18T01:36:05Z