HICAI-ZJU
diff --git a/‎.gitignore
Lines changed: 5 additions & 0 deletions b/‎.gitignore
Lines changed: 5 additions & 0 deletions
diff --git a/‎README.md
Lines changed: 85 additions & 1 deletion b/‎README.md
Lines changed: 85 additions & 1 deletion
diff --git a/‎args_parser.py
Lines changed: 74 additions & 0 deletions b/‎args_parser.py
Lines changed: 74 additions & 0 deletions
diff --git a/‎dataset/__init__.py
Lines changed: 2 additions & 0 deletions b/‎dataset/__init__.py
Lines changed: 2 additions & 0 deletions
diff --git a/‎dataset/dataset.py
Lines changed: 157 additions & 0 deletions b/‎dataset/dataset.py
Lines changed: 157 additions & 0 deletions
diff --git a/‎dataset/mol_features.py
Lines changed: 22 additions & 0 deletions b/‎dataset/mol_features.py
Lines changed: 22 additions & 0 deletions
diff --git a/‎dataset/sampler.py
Lines changed: 33 additions & 0 deletions b/‎dataset/sampler.py
Lines changed: 33 additions & 0 deletions
@@ -0,0 +1,5 @@
+
+**/processed/
+data/
+dump/
+__pycache__/
@@ -1 +1,85 @@
-# GS-Meta
+# GS-Meta
+
+This repository is the official implementation of **GS-Meta** proposed in: **Graph Sampling-based Meta-Learning for Molecular Property Prediction, IJCAI 2023**.
+
+
+<div align=center><img src="./fig/framework.png" style="zoom:50%;" />
+</div>
+
+
+## Environment
+To run the code successfully, the following dependencies need to be installed:
+```
+python           3.7
+torch            1.7.1
+rdkit            2022.9.3
+learn2learn      0.1.6
+torch_geometric  1.6.3
+torch_scatter    2.0.7
+```
+
+## Step-by-step guidelines
+
+### Datasets
+For data used in the experiments, please download `data.zip` from the [release](https://github.com/HICAI-ZJU/GS-Meta/releases) page in this repo, then extract the downloaded file and save the contents in the `data` directory.
+
+### Project Overview
+
+This project mainly contains the following parts.
+
+```
+├── data                              # dataset files                 
+│   ├── sider                       
+│   │   ├── sider.csv    
+│   ├── tox21                 
+│   │   ├── tox21.csv  
+│   └── ...
+├── datasets                        
+│   ├── __init__.py
+│   └── ...
+├── models                        
+│   ├── __init__.py
+│   └── ...
+├── pretraiend                        # pretrained GNN
+│   ├── supervised_contextpred.pth
+├── args_parser.py                      
+├── explight.py                      
+├── meta_learner.py                    
+└── run.py                        
+```
+
+### Running Script
+
+```sh
+ python run.py --dataset sider --n_support 10 --gpu 0 
+```
+Running parameters and descriptions are as follows:
+
+| Parameter | Description | Default Value | Choices |
+| --- | --- | --- | --- |
+| dataset | name of dataset | sider | `tox21, sider, muv, pcba, toxcast-APR, toxcast-ATG, toxcast-BSK, toxcast-CEETOX, toxcast-CLD, toxcast-NVS, toxcast-OT, toxcast-Tanguay, toxcast-TOX21` |
+| n_support | number of support molecules | 10 | `1, 10`
+| gpu | which GPU to use | 0 | \ |
+| exp_name | experiment name | None | \ |
+| exp_id | experiment ID | None | \ |
+| eval_step | evaluation interval | 100 | \ |
+
+For Pre-GS-Meta, which is initialized with a pretrained GNN, the running script is:
+
+
+```sh
+ python run.py --dataset sider --n_support 10 --gpu 0 --mol_pretrain_load_path pretrained/supervised_contextpred.pth
+```
+
+
+## References
+If you use or extend our work, please cite the paper as follows:
+
+```bibtex
+@InProceedings{zhuang2023graph,
+  title={Graph Sampling-based Meta-Learning for Molecular Property Prediction},
+  author={Xiang Zhuang and Qiang Zhang and Bin Wu and Keyan Ding and Yin Fang and Huajun Chen},
+  booktile={IJCAI},
+  year={2023}
+}
+```
@@ -0,0 +1,74 @@
+import argparse
+
+
+def args_parser():
+    parser = argparse.ArgumentParser()
+    # exp
+    parser.add_argument("--exp_name", default="run", type=str,
+                        help="Experiment name")
+    parser.add_argument("--dump_path", default="dump/", type=str,
+                        help="Experiment dump path")
+    parser.add_argument("--exp_id", default="", type=str,
+                        help="Experiment ID")
+    parser.add_argument("--gpu", default='0', type=str)
+    parser.add_argument("--random_seed", default=0, type=int)
+
+
+    # dataset
+    parser.add_argument("--data_root", default='data', type=str)
+    parser.add_argument("--dataset", default='sider', type=str)
+                        # choices=['sider', 'tox21', 'muv', 'toxcast'])
+    # mol encoder
+    parser.add_argument("--mol_num_layer", default=5, type=int)
+    parser.add_argument("--emb_dim", default=300, type=int)
+    parser.add_argument("--JK", default='last', type=str)
+    parser.add_argument("--mol_dropout", default=0.1, type=float)
+    parser.add_argument("--mol_graph_pooling", default='mean', type=str)
+    parser.add_argument("--mol_gnn_type", default='gin', type=str)
+    parser.add_argument("--mol_batch_norm", default=1, type=int)
+    parser.add_argument("--mol_pretrain_load_path", default=None)
+
+    # relation net
+    parser.add_argument("--rel_layer", default=2, type=int)
+    parser.add_argument("--rel_edge_n_layer", default=2, type=int)
+    parser.add_argument("--rel_top_k", default=None, type=int)
+    parser.add_argument("--rel_edge_hidden_dim", default=100, type=int)
+    parser.add_argument("--rel_dropout", default=0.1, type=float)
+    parser.add_argument("--rel_pre_dropout", default=0.1, type=float)
+    parser.add_argument("--rel_nan_w", default=1., type=float)
+    parser.add_argument("--rel_nan_type", default='nan', type=str, choices=['nan', '0', '1'])
+    parser.add_argument("--rel_batch_norm", default=1, type=int)
+    parser.add_argument("--rel_edge_type", default=1, type=int)
+
+    # maml
+    parser.add_argument("--inner_lr", default=0.5, type=float)
+    parser.add_argument("--meta_lr", default=1e-3, type=float)
+    parser.add_argument("--weight_decay", default=5e-5, type=float)
+    parser.add_argument("--second_order", default=1, type=int)
+    parser.add_argument("--inner_update_step", default=1, type=int)
+    parser.add_argument("--inner_tasks", default=10, type=int)
+
+    # few-shot
+    parser.add_argument("--episode", default=2000, type=int)
+    parser.add_argument("--n_support", default=10, type=int)
+    parser.add_argument("--n_query", default=16, type=int)
+    parser.add_argument("--n_test_tasks", default=200, type=int)
+    parser.add_argument("--eval_step", default=100, type=int)
+    parser.add_argument("--test_batch_size", default=128, type=int)
+    parser.add_argument("--train_auxi_task_num", default=None, type=int)
+    parser.add_argument("--test_auxi_task_num", default=None, type=int)
+
+    # contrastive
+    parser.add_argument("--nce_t", default=0.08, type=float)
+    parser.add_argument("--contr_w", default=0.05, type=float)
+    # selector
+    parser.add_argument("--pool_num", default=10, type=float)
+    parser.add_argument("--task_lr", default=5e-4, type=float)
+    parser.add_argument("--task_hid_dim", default=10, type=int)
+    parser.add_argument("--task_t", default=1, type=float)
+    args = parser.parse_args()
+
+    if args.rel_top_k is None:
+        args.rel_top_k = args.n_support - 1 if args.n_support > 1 else 1
+    # args.test_fixed_support = True if args.test_fixed_support == 1 else False
+    return args
@@ -0,0 +1,2 @@
+from .dataset import FewshotMolDataset
+from .sampler import dataset_sampler
@@ -0,0 +1,157 @@
+import os
+import os.path as osp
+import re
+import pickle
+import random
+import tqdm
+
+import torch
+from torch_geometric.data import (InMemoryDataset, Data, download_url,
+                                  extract_zip)
+
+import numpy as np
+
+from rdkit import Chem, RDConfig
+from rdkit.Chem import AllChem, ChemicalFeatures
+
+from .mol_features import allowable_features
+
+
+class FewshotMolDataset(InMemoryDataset):
+    # Format: name: [display_name, url_name, csv_name, smiles_idx, y_idx, train_tasks, test_tasks]
+    names = {
+        'pcba': ['PCBA', 'pcba', 'pcba', -1, slice(0, 128), 118, 10],
+        'muv': ['MUV', 'muv', 'muv', -1, slice(0, 17), 12, 5],
+        'tox21': ['Tox21', 'tox21', 'tox21', -1, slice(0, 12), 9, 3],
+        'sider': ['SIDER', 'sider', 'sider', 0, slice(1, 28), 21, 6],
+
+        # toxcast subtask
+        'toxcast-APR': ['ToxCast-APR', 'toxcast-APR', 'toxcast-APR', 0, slice(1, 44), 33, 10],
+        'toxcast-ATG': ['ToxCast-ATG', 'toxcast-ATG', 'toxcast-ATG', 0, slice(1, 147), 106, 40],
+        'toxcast-BSK': ['ToxCast-BSK', 'toxcast-BSK', 'toxcast-BSK', 0, slice(1, 116), 84, 31],
+        'toxcast-CEETOX': ['ToxCast-CEETOX', 'toxcast-CEETOX', 'toxcast-CEETOX', 0, slice(1, 15), 10, 4],
+        'toxcast-CLD': ['ToxCast-CLD', 'toxcast-CLD', 'toxcast-CLD', 0, slice(1, 20), 14, 5],
+        'toxcast-NVS': ['ToxCast-NVS', 'toxcast-NVS', 'toxcast-NVS', 0, slice(1, 140), 100, 39],
+        'toxcast-OT': ['ToxCast-OT', 'toxcast-OT', 'toxcast-OT', 0, slice(1, 16), 11, 4],
+        'toxcast-TOX21': ['ToxCast-TOX21', 'toxcast-TOX21', 'toxcast-TOX21', 0, slice(1, 101), 80, 20],
+        'toxcast-Tanguay': ['ToxCast-Tanguay', 'toxcast-Tanguay', 'toxcast-Tanguay', 0, slice(1, 19), 13, 5],
+    }
+
+    def __init__(self, root, name, transform=None, pre_transform=None,
+                 pre_filter=None):
+
+        if Chem is None:
+            raise ImportError('`MoleculeNet` requires `rdkit`.')
+
+        self.name = name
+        assert self.name in self.names.keys()
+        super(FewshotMolDataset, self).__init__(root, transform, pre_transform, pre_filter)
+        self.n_task_train, self.n_task_test = self.names[self.name][5], self.names[self.name][6]
+        self.total_tasks = self.n_task_train + self.n_task_test
+        if name != 'pcba':
+            self.train_task_range = list(range(self.n_task_train))
+            self.test_task_range = list(range(self.n_task_train, self.n_task_train + self.n_task_test))
+        else:
+            self.train_task_range = list(range(5, self.total_tasks - 5))
+            self.test_task_range = list(range(5)) + list(range(self.total_tasks - 5, self.total_tasks))
+
+        self.data, self.slices = torch.load(self.processed_paths[0])
+        self.index_list = pickle.load(open(self.processed_paths[1], 'rb'))
+        self.y_matrix = np.load(open(self.processed_paths[2], 'rb'))
+
+    @property
+    def raw_dir(self):
+        return osp.join(self.root, self.name)
+
+    @property
+    def processed_dir(self):
+        return osp.join(self.root, self.name, 'processed')
+
+    @property
+    def raw_file_names(self):
+        return f'{self.names[self.name][2]}.csv'
+
+    @property
+    def processed_file_names(self):
+        return 'data.pt', 'index_list.pt', 'label_matrix.npz'
+
+    def process(self):
+        with open(self.raw_paths[0], 'r') as f:
+            dataset = f.read().split('\n')[1:-1]
+            dataset = [x for x in dataset if len(x) > 0]  # Filter empty lines.
+
+        data_list = []
+        y_list = []
+        data_id = 0
+        for line in tqdm.tqdm(dataset):
+            line = re.sub(r'\".*\"', '', line)  # Replace ".*" strings.
+            line = line.split(',')
+            smiles = line[self.names[self.name][3]]
+            mol = Chem.MolFromSmiles(smiles)
+            if mol is None:
+                continue
+            Chem.Kekulize(mol)
+
+            ys = line[self.names[self.name][4]]
+            ys = ys if isinstance(ys, list) else [ys]
+
+            ys = [float(y) if len(y) > 0 else float('NaN') for y in ys]
+            y = torch.tensor(ys, dtype=torch.float).view(1, -1)
+            y_list.append(ys)
+
+            xs = []
+            for atom in mol.GetAtoms():
+                x = []
+                x.append(allowable_features['possible_atomic_num_list'].index(atom.GetAtomicNum()))
+                x.append(allowable_features['possible_chirality_list'].index(atom.GetChiralTag()))
+                xs.append(x)
+
+            x = torch.tensor(xs, dtype=torch.long).view(-1, 2)
+
+            edge_indices, edge_attrs = [], []
+            for bond in mol.GetBonds():
+                i = bond.GetBeginAtomIdx()
+                j = bond.GetEndAtomIdx()
+
+                e = []
+                e.append(allowable_features['possible_bonds'].index(bond.GetBondType()))
+                e.append(allowable_features['possible_bond_dirs'].index(bond.GetBondDir()))
+
+                edge_indices += [[i, j], [j, i]]
+                edge_attrs += [e, e]
+
+            edge_index = torch.tensor(edge_indices)
+            edge_index = edge_index.t().to(torch.long).view(2, -1)
+            edge_attr = torch.tensor(edge_attrs, dtype=torch.long).view(-1, 2)
+
+            # Sort indices.
+            if edge_index.numel() > 0:
+                perm = (edge_index[0] * x.size(0) + edge_index[1]).argsort()
+                edge_index, edge_attr = edge_index[:, perm], edge_attr[perm]
+
+            data = Data(x=x, edge_index=edge_index, edge_attr=edge_attr, y=y, smiles=smiles, id=data_id)
+            data_id += 1
+
+            if self.pre_filter is not None and not self.pre_filter(data):
+                continue
+
+            if self.pre_transform is not None:
+                data = self.pre_transform(data)
+
+            data_list.append(data)
+
+        y_matrix = np.array(y_list)
+        index_list = []  # [[[],[]], [[],[]]], task-label-index
+        for task_i in range(y_matrix.shape[1]):
+            task_i_label_values = y_matrix[:, task_i]
+            class1_index = np.nonzero(task_i_label_values > 0.5)[0].tolist()
+            class0_index = np.nonzero(task_i_label_values < 0.5)[0].tolist()
+            index_list.append([class0_index, class1_index])
+
+        torch.save(self.collate(data_list), self.processed_paths[0])
+        pickle.dump(index_list, open(self.processed_paths[1], 'wb'))
+        np.save(open(self.processed_paths[2], 'wb'), y_matrix)
+
+    def __repr__(self):
+        return '{}({})'.format(self.names[self.name][0], len(self))
+
@@ -0,0 +1,22 @@
+from rdkit import Chem
+
+allowable_features = {
+    'possible_atomic_num_list': list(range(1, 119)),
+    'possible_chirality_list': [
+        Chem.rdchem.ChiralType.CHI_UNSPECIFIED,
+        Chem.rdchem.ChiralType.CHI_TETRAHEDRAL_CW,
+        Chem.rdchem.ChiralType.CHI_TETRAHEDRAL_CCW,
+        Chem.rdchem.ChiralType.CHI_OTHER
+    ],
+    'possible_bonds': [
+        Chem.rdchem.BondType.SINGLE,
+        Chem.rdchem.BondType.DOUBLE,
+        Chem.rdchem.BondType.TRIPLE,
+        Chem.rdchem.BondType.AROMATIC
+    ],
+    'possible_bond_dirs': [  # only for double bond stereo information
+        Chem.rdchem.BondDir.NONE,
+        Chem.rdchem.BondDir.ENDUPRIGHT,
+        Chem.rdchem.BondDir.ENDDOWNRIGHT
+    ]
+}
@@ -0,0 +1,33 @@
+import numpy as np
+
+
+def sample_from_candi(candi_list, num):
+    return np.random.choice(candi_list, num, replace=False).tolist()
+
+
+
+def dataset_sampler(dataset, n_support, n_query, tgt_id, inductive=False):
+    tgt_index_list = dataset.index_list[tgt_id]
+    class0_num, class1_num = len(tgt_index_list[0]), len(tgt_index_list[1])
+    if class0_num > n_support and class1_num > n_support:
+        support_list_i_0 = sample_from_candi(tgt_index_list[0], n_support)
+        support_list_i_1 = sample_from_candi(tgt_index_list[1], n_support)
+    elif class0_num <= n_support < class1_num:
+        # class 0 not enough
+        support_list_i_0 = sample_from_candi(tgt_index_list[0], class0_num - 1)
+        support_list_i_1 = sample_from_candi(tgt_index_list[1], 2 * n_support - class0_num + 1)
+    else:
+        support_list_i_0 = sample_from_candi(tgt_index_list[0], 2 * n_support - class1_num + 1)
+        support_list_i_1 = sample_from_candi(tgt_index_list[1], class1_num - 1)
+    support_list = support_list_i_0 + support_list_i_1
+
+    if not inductive:
+        query_candi_i_0 = [idx for idx in tgt_index_list[0] if idx not in support_list]
+        query_candi_i_1 = [idx for idx in tgt_index_list[1] if idx not in support_list]
+        query_list = sample_from_candi(query_candi_i_0, 1) + sample_from_candi(query_candi_i_1, 1)
+        query_candi = [idx for idx in query_candi_i_0 + query_candi_i_1 if idx not in query_list]
+        query_list += sample_from_candi(query_candi, n_query - 2)
+    else:
+        query_list = [idx for idx in tgt_index_list[0] + tgt_index_list[1]
+                      if idx not in support_list]
+    return dataset[support_list], dataset[query_list]
-Original file line number
+Diff line change
@@ @@ -0,0 +1,5 @@ @@
++
 +**/processed/
 +data/
 +dump/
 +__pycache__/
Original file line number	Diff line number	Diff line change
`@@ -0,0 +1,2 @@`
	`1`	`+from .dataset import FewshotMolDataset`
	`2`	`+from .sampler import dataset_sampler`