Embedding files switched to h5

Maria Littmann · Maria Littmann · commit 3049dc4fda8e · 2022-04-27T16:13:35.000+02:00
diff --git a/config.txt b/config.txt
@@ -1,7 +1,7 @@
 go: data/go_cafa3.obo
-lookup_set: data/seqvec_goa_2017.npz  # please download from ftp://rostlab.org/goPredSim
+lookup_set: data/seqvec_goa_2017.h5 # please download from ftp://rostlab.org/goPredSim
 annotations: data/goa_annotations_2017.txt
-targets: data/seqvec_cafa3_targets.npz
+targets: data/seqvec_cafa3_targets.h5
 onto: all
 thresh: 1
 modus: num
diff --git a/embedding_lookup.py b/embedding_lookup.py
@@ -1,5 +1,4 @@
 from sklearn.metrics import pairwise_distances, pairwise
-import torch
 import numpy
 import sys
 
diff --git a/file_utils.py b/file_utils.py
@@ -1,4 +1,5 @@
 from collections import defaultdict
+import h5py
 
 
 def read_config_file(file_in):
@@ -35,6 +36,21 @@ def read_go_annotations(file_in):
     return go_annotations
 
 
+def read_embeddings(embeddings_in):
+    """
+    Read embeddings from h5 file generated by bio_embeddings pipeline
+    :param embeddings_in: 
+    :return: 
+    """
+    embeddings = dict()
+    with h5py.File(embeddings_in, 'r') as f:
+        for key, embedding in f.items():
+            original_id = embedding.attrs['original_id']
+            embeddings[original_id] = np.array(embedding)
+            
+    return embeddings
+
+
 def write_predictions_cafa(predictions, out_file, model_num):
     """
     Write prediictions in CAFA format
diff --git a/npy2npz.py b/npy2npz.py
diff --git a/predict_go_embedding_inference.py b/predict_go_embedding_inference.py
@@ -1,6 +1,5 @@
 import sys
 import file_utils as fu
-import npy2npz as n2n
 from gene_ontology import GeneOntology
 from function_prediction import FunctionPrediction
 from pathlib import Path
@@ -13,8 +12,9 @@ def main():
     print(config_data)
 
     # read in embeddings, annotations, and GO
-    test_embeddings = n2n.get_dataset(Path(config_data['targets']), False)
-    embeddings = n2n.get_dataset(Path(config_data['lookup_set']), False)
+    test_embeddings = fu.read_embeddings(config_data['targets'])
+    embeddings = fu.read_embeddings(config_data['lookup_set'])
+
     go = GeneOntology(config_data['go'])
     go_annotations = fu.read_go_annotations(config_data['annotations'])
 
diff --git a/requirements.txt b/requirements.txt
@@ -1,4 +1,4 @@
 numpy
-torch
+h5py
 pathlib
 sklearn

Original file line number	Diff line number	Diff line change
`@@ -1,5 +1,4 @@`
`1`	`1`	`from sklearn.metrics import pairwise_distances, pairwise`
`2`		`-import torch`
`3`	`2`	`import numpy`
`4`	`3`	`import sys`
`5`	`4`
-Original file line number
+Diff line change
 numpy
 -torch
 +h5py
 pathlib
 sklearn