add pretrain script & config

Oxer11 · Oxer11 · commit 50dac0e5a2f2 · 2022-07-06T15:00:48.000+08:00
diff --git a/config/pretrain/angle_gearnet_edge.yaml b/config/pretrain/angle_gearnet_edge.yaml
@@ -0,0 +1,62 @@
+output_dir: ~/scratch/protein_outputs
+
+dataset:
+  class: AlphaFoldDB
+  path: ~/scratch/protein-datasets/alphafold
+  species_start: 0
+  species_end: 22
+  # species_id: 0
+  # split_id: 1
+  transform:
+    class: Compose
+    transforms:
+      - class: ProteinView
+        view: residue
+      - class: TruncateProtein
+        max_length: 100
+        random: True
+
+task:
+  class: AnglePrediction
+  num_sample: 512
+  num_class: 8
+  num_mlp_layer: 2
+  model:
+    class: GearNet
+    input_dim: 21
+    hidden_dims: [512, 512, 512, 512, 512, 512]
+    batch_norm: True
+    concat_hidden: True
+    short_cut: True
+    readout: 'sum'
+    num_relation: 7
+    edge_input_dim: 59
+    num_angle_bin: 8
+  graph_construction_model:
+    class: GraphConstruction
+    node_layers:
+      - class: AlphaCarbonNode
+    edge_layers:
+      - class: SequentialEdge
+        max_distance: 2
+      - class: SpatialEdge
+        radius: 10.0
+        min_distance: 5
+      - class: KNNEdge
+        k: 10
+        min_distance: 5
+    edge_feature: gearnet
+
+optimizer:
+  class: Adam
+  lr: 1.0e-3
+
+engine:
+  gpus: {{ gpus }}
+  batch_size: 96
+  log_interval: 100
+
+save_interval: 5
+
+train:
+  num_epoch: 50
diff --git a/config/pretrain/attr_gearnet_edge.yaml b/config/pretrain/attr_gearnet_edge.yaml
@@ -0,0 +1,61 @@
+output_dir: ~/scratch/protein_outputs
+
+dataset:
+  class: AlphaFoldDB
+  path: ~/scratch/protein-datasets/alphafold
+  species_start: 0
+  species_end: 22
+  # species_id: 0
+  # split_id: 1
+  transform:
+    class: Compose
+    transforms:
+      - class: ProteinView
+        view: residue
+      - class: TruncateProtein
+        max_length: 100
+        random: True
+
+task:
+  class: AttributeMasking
+  mask_rate: 0.15
+  num_mlp_layer: 2
+  model:
+    class: GearNet
+    input_dim: 21
+    hidden_dims: [512, 512, 512, 512, 512, 512]
+    batch_norm: True
+    concat_hidden: True
+    short_cut: True
+    readout: 'sum'
+    num_relation: 7
+    edge_input_dim: 59
+    num_angle_bin: 8
+  graph_construction_model:
+    class: GraphConstruction
+    node_layers:
+      - class: AlphaCarbonNode
+    edge_layers:
+      - class: SequentialEdge
+        max_distance: 2
+      - class: SpatialEdge
+        radius: 10.0
+        min_distance: 5
+      - class: KNNEdge
+        k: 10
+        min_distance: 5
+    edge_feature: gearnet
+
+optimizer:
+  class: Adam
+  lr: 1.0e-3
+
+engine:
+  gpus: {{ gpus }}
+  batch_size: 96
+  log_interval: 100
+
+save_interval: 5
+
+train:
+  num_epoch: 50
diff --git a/config/pretrain/dihedral_gearnet_edge.yaml b/config/pretrain/dihedral_gearnet_edge.yaml
@@ -0,0 +1,62 @@
+output_dir: ~/scratch/protein_outputs
+
+dataset:
+  class: AlphaFoldDB
+  path: ~/scratch/protein-datasets/alphafold
+  species_start: 0
+  species_end: 22  
+  # species_id: 0
+  # split_id: 1
+  transform:
+    class: Compose
+    transforms:
+      - class: ProteinView
+        view: residue
+      - class: TruncateProtein
+        max_length: 100
+        random: True
+
+task:
+  class: DihedralPrediction
+  num_sample: 512
+  num_class: 8
+  num_mlp_layer: 2
+  model:
+    class: GearNet
+    input_dim: 21
+    hidden_dims: [512, 512, 512, 512, 512, 512]
+    batch_norm: True
+    concat_hidden: True
+    short_cut: True
+    readout: 'sum'
+    num_relation: 7
+    edge_input_dim: 59
+    num_angle_bin: 8
+  graph_construction_model:
+    class: GraphConstruction
+    node_layers:
+      - class: AlphaCarbonNode
+    edge_layers:
+      - class: SequentialEdge
+        max_distance: 2
+      - class: SpatialEdge
+        radius: 10.0
+        min_distance: 5
+      - class: KNNEdge
+        k: 10
+        min_distance: 5
+    edge_feature: gearnet
+
+optimizer:
+  class: Adam
+  lr: 1.0e-3
+
+engine:
+  gpus: {{ gpus }}
+  batch_size: 96
+  log_interval: 100
+
+save_interval: 5
+
+train:
+  num_epoch: 50
diff --git a/config/pretrain/dis_gearnet_edge.yaml b/config/pretrain/dis_gearnet_edge.yaml
@@ -0,0 +1,61 @@
+output_dir: ~/scratch/protein_outputs
+
+dataset:
+  class: AlphaFoldDB
+  path: ~/scratch/protein-datasets/alphafold
+  species_start: 0
+  species_end: 22
+  # species_id: 0
+  # split_id: 1
+  transform:
+    class: Compose
+    transforms:
+      - class: ProteinView
+        view: residue
+      - class: TruncateProtein
+        max_length: 100
+        random: True
+
+task:
+  class: DistancePrediction
+  num_sample: 256
+  num_mlp_layer: 2
+  model:
+    class: GearNet
+    input_dim: 21
+    hidden_dims: [512, 512, 512, 512, 512, 512]
+    batch_norm: True
+    concat_hidden: True
+    short_cut: True
+    readout: 'sum'
+    num_relation: 7
+    edge_input_dim: 59
+    num_angle_bin: 8
+  graph_construction_model:
+    class: GraphConstruction
+    node_layers:
+      - class: AlphaCarbonNode
+    edge_layers:
+      - class: SequentialEdge
+        max_distance: 2
+      - class: SpatialEdge
+        radius: 10.0
+        min_distance: 5
+      - class: KNNEdge
+        k: 10
+        min_distance: 5
+    edge_feature: gearnet
+
+optimizer:
+  class: Adam
+  lr: 1.0e-3
+
+engine:
+  gpus: {{ gpus }}
+  batch_size: 128
+  log_interval: 100
+
+save_interval: 5
+
+train:
+  num_epoch: 50
diff --git a/config/pretrain/mc_ESM_gearnet.yaml b/config/pretrain/mc_ESM_gearnet.yaml
@@ -0,0 +1,67 @@
+output_dir: ~/scratch/protein_outputs
+
+dataset:
+  class: AlphaFoldDB
+  path: ~/scratch/protein-datasets/alphafold
+  species_start: 0
+  species_end: 22
+  # species_id: 0
+  # split_id: 1
+  transform:
+    class: ProteinView
+    view: residue
+
+task:
+  class: Unsupervised
+  model:
+    class: MultiviewContrast
+    crop_funcs:
+      - class: SubsequenceNode
+        max_length: 50
+      - class: SubspaceNode
+        entity_level: residue
+        min_neighbor: 15
+        min_radius: 15.0
+    noise_funcs:
+      - class: IdentityNode
+      - class: RandomEdgeMask
+        mask_rate: 0.15
+    model:
+      class: GearNet
+      input_dim: 21
+      hidden_dims: [512, 512, 512, 512, 512, 512]
+      batch_norm: True
+      concat_hidden: True
+      short_cut: True
+      readout: 'sum'
+      num_relation: 7
+      edge_input_dim: 59
+      num_angle_bin: 8
+  graph_construction_model:
+    class: GraphConstruction
+    node_layers:
+      - class: AlphaCarbonNode
+    edge_layers:
+      - class: SequentialEdge
+        max_distance: 2
+      - class: SpatialEdge
+        radius: 10.0
+        min_distance: 5
+      - class: KNNEdge
+        k: 10
+        min_distance: 5
+    edge_feature: gearnet
+
+optimizer:
+  class: Adam
+  lr: 2.0e-4
+
+engine:
+  gpus: {{ gpus }}
+  batch_size: 48
+  log_interval: 100
+
+save_interval: 5
+
+train:
+  num_epoch: 50
diff --git a/script/pretrain.py b/script/pretrain.py
@@ -0,0 +1,70 @@
+import os
+import sys
+import math
+import pprint
+
+import torch
+
+from torchdrug import core, models, tasks, datasets, utils
+from torchdrug.utils import comm
+
+sys.path.append(os.path.dirname(os.path.dirname(__file__)))
+import util
+
+
+def save(solver, path):
+    if isinstance(solver.model, tasks.Unsupervised):
+        model = solver.model.model.model
+    else:
+        model = solver.model.model
+
+    if comm.get_rank() == 0:
+        logger.warning("Save checkpoint to %s" % path)
+    path = os.path.expanduser(path)
+    if comm.get_rank() == 0:
+        torch.save(model.state_dict(), path)
+    comm.synchronize()
+
+
+if __name__ == "__main__":
+    args, vars = util.parse_args()
+    cfg = util.load_config(args.config, context=vars)
+    working_dir = util.create_working_directory(cfg)
+
+    torch.manual_seed(args.seed + comm.get_rank())
+
+    logger = util.get_root_logger()
+    if comm.get_rank() == 0:
+        logger.warning("Config file: %s" % args.config)
+        logger.warning(pprint.pformat(cfg))
+
+    species_start = cfg.dataset.get("species_start", 0)
+    species_end = cfg.dataset.get("species_end", 0)
+    assert species_end >= species_start
+    if species_end > species_start:
+        cfg.dataset.species_id = species_start
+        cfg.dataset.split_id = 0
+        cfg.dataset.pop("species_start")
+        cfg.dataset.pop("species_end")
+    dataset = core.Configurable.load_config_dict(cfg.dataset)
+    solver = util.build_pretrain_solver(cfg, dataset)
+
+    step = cfg.get("save_interval", 1)
+    for i in range(0, cfg.train.num_epoch, step):
+        kwargs = cfg.train.copy()
+        kwargs["num_epoch"] = min(step, cfg.train.num_epoch - i)
+        
+        if species_end == species_start:
+            solver.train(**kwargs)
+        else:
+            for species_id in range(species_start, species_end):
+                for split_id in range(dataset.species_nsplit[species_id]):
+                    cfg.dataset.species_id = species_id
+                    cfg.dataset.split_id = split_id
+                    dataset = core.Configurable.load_config_dict(cfg.dataset)
+                    logger.warning('Epoch: {}\tSpecies id: {}\tSplit id: {}\tSplit length: {}'.format(
+                                i, species_id, split_id, len(dataset)))
+                    solver.train_set = dataset
+                    solver.train(**kwargs)
+
+        save(solver, "model_epoch_%d.pth" % (i + kwargs["num_epoch"]))
diff --git a/util.py b/util.py