ModelSEED
diff --git a/‎.travis.yml
Lines changed: 1 addition & 1 deletion b/‎.travis.yml
Lines changed: 1 addition & 1 deletion
diff --git a/‎examples/Others/Biochem.ipynb
Lines changed: 2 additions & 1 deletion b/‎examples/Others/Biochem.ipynb
Lines changed: 2 additions & 1 deletion
diff --git a/‎modelseedpy/biochem/modelseed_biochem.py
Lines changed: 136 additions & 67 deletions b/‎modelseedpy/biochem/modelseed_biochem.py
Lines changed: 136 additions & 67 deletions
@@ -1,8 +1,8 @@
 language: python
 python:
-  - 3.6
   - 3.7
   - 3.8
+  - 3.9
 before_install:
   - python --version
   - pip install -U pip
 
@@ -13,7 +13,8 @@
    "cell_type": "markdown",
    "metadata": {},
    "source": [
-    "### Load the database object from local github repository"
+    "### Load the database object from local github repository\n",
+    "https://github.com/ModelSEED/ModelSEEDDatabase"
    ]
   },
   {
 
@@ -10,7 +10,7 @@
 
 logger = logging.getLogger(__name__)
 
-_BIOCHEM_FOLDER = 'Biochemistry'
+_BIOCHEM_FOLDER = "Biochemistry"
 
 ALIAS_CPD_IDENTIFIERS_ORG = {
     "BiGG": "bigg.metabolite",
@@ -139,13 +139,13 @@ def load_metabolites_from_df(
             if cpd_id in structures:
                 if "SMILE" in structures[cpd_id]:
                     smiles = structures[cpd_id]["SMILE"]
-                    aliases_annotation['SMILE'] = smiles
+                    aliases_annotation["SMILE"] = smiles
                 if "InChI" in structures[cpd_id]:
                     inchi = structures[cpd_id]["InChI"]
-                    aliases_annotation['InChI'] = inchi
+                    aliases_annotation["InChI"] = inchi
                 if "InChIKey" in structures[cpd_id]:
                     inchi_key = structures[cpd_id]["InChIKey"]
-                    aliases_annotation['InChIKey'] = inchi_key
+                    aliases_annotation["InChIKey"] = inchi_key
             inchi_key = None if pd.isna(inchi_key) or len(inchi_key) == 0 else inchi_key
             other_names = set()
             if cpd_id in names:
@@ -193,31 +193,44 @@ def _load_aliases_df(df_aliases, seed_index=1, source_index=3, alias_id_index=2)
     return aliases
 
 
-def _load_metabolites(database_path: str, aliases=None, names=None, structures=None) -> dict:
+def _load_metabolites(
+    database_path: str, aliases=None, names=None, structures=None
+) -> dict:
     if aliases is None:
         aliases = {}
     if names is None:
         names = {}
     if structures is None:
         structures = {}
     metabolites = {}
-    contents = os.listdir(f'{database_path}/{_BIOCHEM_FOLDER}')
+    contents = os.listdir(f"{database_path}/{_BIOCHEM_FOLDER}")
     for f in contents:
-        if f.startswith('compound_') and f.endswith('.json'):
-            with open(f'{database_path}/{_BIOCHEM_FOLDER}/{f}', 'r') as fh:
+        if f.startswith("compound_") and f.endswith(".json"):
+            with open(f"{database_path}/{_BIOCHEM_FOLDER}/{f}", "r") as fh:
                 _compounds_data = json.load(fh)
                 for o in _compounds_data:
-                    if 'id' in o and o['id']:
+                    if "id" in o and o["id"]:
                         cpd_names = set()
-                        if o['id'] in names:
-                            cpd_names |= names[o['id']]
-                        cpd = ModelSEEDCompound2(o['id'], o.get('formula'),
-                                                 o.get('name'), o.get('charge'), '',
-                                                 o.get('abbreviation'), cpd_names,
-                                                 o.get('mass'), o.get('deltag'), o.get('deltagerr'),
-                                                 o.get('is_core'), o.get('is_obsolete'), None,
-                                                 o.get('pka'), o.get('pkb'),
-                                                 o.get('source'))
+                        if o["id"] in names:
+                            cpd_names |= names[o["id"]]
+                        cpd = ModelSEEDCompound2(
+                            o["id"],
+                            o.get("formula"),
+                            o.get("name"),
+                            o.get("charge"),
+                            "",
+                            o.get("abbreviation"),
+                            cpd_names,
+                            o.get("mass"),
+                            o.get("deltag"),
+                            o.get("deltagerr"),
+                            o.get("is_core"),
+                            o.get("is_obsolete"),
+                            None,
+                            o.get("pka"),
+                            o.get("pkb"),
+                            o.get("source"),
+                        )
                         if cpd.id in aliases:
                             cpd.annotation.update(aliases[cpd.id])
                         if cpd.id in structures:
@@ -226,62 +239,83 @@ def _load_metabolites(database_path: str, aliases=None, names=None, structures=N
                                 if len(v) == 1:
                                     cpd.annotation[alias_type] = list(v)[0]
                                 else:
-                                    logger.warning(f'multiple {alias_type} structures found for {cpd.id}')
+                                    logger.warning(
+                                        f"multiple {alias_type} structures found for {cpd.id}"
+                                    )
                         metabolites[cpd.id] = cpd
                     else:
-                        print('error', o)
-                #print(_compounds_data[0].keys())
+                        print("error", o)
+                # print(_compounds_data[0].keys())
     return metabolites
 
 
-def _load_reactions(database_path: str, metabolites: dict, aliases=None, names=None, ec_numbers=None) -> (dict, dict):
+def _load_reactions(
+    database_path: str, metabolites: dict, aliases=None, names=None, ec_numbers=None
+) -> (dict, dict):
     if aliases is None:
         aliases = {}
     if names is None:
         names = {}
     if ec_numbers is None:
         ec_numbers = {}
     reactions = {}
-    contents = os.listdir(f'{database_path}/{_BIOCHEM_FOLDER}')
+    contents = os.listdir(f"{database_path}/{_BIOCHEM_FOLDER}")
     metabolites_indexed = {}
     for f in contents:
-        if f.startswith('reaction_') and f.endswith('.json'):
-            with open(f'{database_path}/{_BIOCHEM_FOLDER}/{f}', 'r') as fh:
+        if f.startswith("reaction_") and f.endswith(".json"):
+            with open(f"{database_path}/{_BIOCHEM_FOLDER}/{f}", "r") as fh:
                 _reactions_data = json.load(fh)
                 for o in _reactions_data:
-                    if 'id' in o and o['id']:
+                    if "id" in o and o["id"]:
                         rxn_names = set()
-                        if o['id'] in names:
-                            rxn_names |= names[o['id']]
-                        lower_bound, upper_bound = get_reaction_constraints_from_direction(o.get('reversibility'))
-                        stoichiometry = o.get('stoichiometry')
+                        if o["id"] in names:
+                            rxn_names |= names[o["id"]]
+                        (
+                            lower_bound,
+                            upper_bound,
+                        ) = get_reaction_constraints_from_direction(
+                            o.get("reversibility")
+                        )
+                        stoichiometry = o.get("stoichiometry")
                         reaction_metabolites = {}
                         for s in stoichiometry:
-                            cmp_token = s['compartment']
-                            value = s['coefficient']
-                            cpd = metabolites[s['compound']]
+                            cmp_token = s["compartment"]
+                            value = s["coefficient"]
+                            cpd = metabolites[s["compound"]]
                             cpd_index_id = f"{cpd.id}_{cmp_token}"
                             if cpd_index_id not in metabolites_indexed:
                                 cpd_token = cpd.copy()
                                 cpd_token.id = f"{cpd.id}_{cmp_token}"
                                 cpd_token.base_id = cpd.id
                                 cpd_token.compartment = cmp_token
                                 metabolites_indexed[cpd_index_id] = cpd_token
-                            reaction_metabolites[metabolites_indexed[cpd_index_id]] = value
-                        rxn = ModelSEEDReaction2(o['id'], o.get('name'), '', lower_bound, upper_bound,
-                                                 '', rxn_names,
-                                                 o.get('deltag'), o.get('deltagerr'),
-                                                 o.get('is_obsolete'), None,
-                                                 o.get('status'), o.get('source'))
+                            reaction_metabolites[
+                                metabolites_indexed[cpd_index_id]
+                            ] = value
+                        rxn = ModelSEEDReaction2(
+                            o["id"],
+                            o.get("name"),
+                            "",
+                            lower_bound,
+                            upper_bound,
+                            "",
+                            rxn_names,
+                            o.get("deltag"),
+                            o.get("deltagerr"),
+                            o.get("is_obsolete"),
+                            None,
+                            o.get("status"),
+                            o.get("source"),
+                        )
                         rxn.add_metabolites(reaction_metabolites)
                         if rxn.id in aliases:
                             rxn.annotation.update(aliases[rxn.id])
                         if rxn.id in ec_numbers:
-                            rxn.annotation['ec-code'] = ec_numbers[rxn.id]
+                            rxn.annotation["ec-code"] = ec_numbers[rxn.id]
                         metabolites[cpd.id] = cpd
                         reactions[rxn.id] = rxn
                     else:
-                        logger.error(f'failed to read reaction record {o}')
+                        logger.error(f"failed to read reaction record {o}")
 
     return reactions, metabolites_indexed
 
@@ -389,7 +423,7 @@ def __init__(self, compounds: list, reactions: list, compound_tokens: list):
         self.reactions = DictList()
         self.compounds += compounds
         self.reactions += reactions
-        self.reactions += compound_tokens
+        self.compound_tokens += compound_tokens
 
         self.inchi_key_lookup = {}
         self.metabolite_reactions = {}
@@ -399,12 +433,12 @@ def __init__(self, compounds: list, reactions: list, compound_tokens: list):
     def _index_inchi(self):
         for m in self.compounds:
             if m.inchi_key:
-                f, s, p = m.inchi_key.split('-')
+                f, s, p = m.inchi_key.split("-")
                 if f not in self.inchi_key_lookup:
                     self.inchi_key_lookup[f] = {}
                 if s not in self.inchi_key_lookup[f]:
                     self.inchi_key_lookup[f][s] = set()
-                proton_pair = (m.id , p)
+                proton_pair = (m.id, p)
                 if proton_pair not in self.inchi_key_lookup[f][s]:
                     self.inchi_key_lookup[f][s].add(proton_pair)
 
@@ -415,7 +449,7 @@ def reactions_by_alias(self, alias, value):
         pass
 
     def find_compounds_by_inchi_key(self, inchi_key, exact=True):
-        f, s, p = inchi_key.split('-')
+        f, s, p = inchi_key.split("-")
         if exact and f in self.inchi_key_lookup and s in self.inchi_key_lookup[f]:
             # x is tuple (cpd.id, protonation)
             return [self.compounds.get_by_id(x[0]) for x in self.inchi_key_lookup[f][s]]
@@ -763,40 +797,75 @@ def from_local_old(path):
 
 
 def from_local(database_path: str):
-    contents = os.listdir(f'{database_path}/Biochemistry/')
-    if 'compounds.tsv' in contents:
+    contents = os.listdir(f"{database_path}/Biochemistry/")
+    if "compounds.tsv" in contents:
         return from_local_old(database_path)
 
-    compound_aliases_url = f'{database_path}/Biochemistry/Aliases/Unique_ModelSEED_Compound_Aliases.txt'
-    reaction_aliases_url = f'{database_path}/Biochemistry/Aliases/Unique_ModelSEED_Reaction_Aliases.txt'
-    compound_aliases = _load_aliases_df(pd.read_csv(compound_aliases_url, index_col=None, sep='\t'))
-    reaction_aliases = _load_aliases_df(pd.read_csv(reaction_aliases_url, index_col=None, sep='\t'))
+    compound_aliases_url = (
+        f"{database_path}/Biochemistry/Aliases/Unique_ModelSEED_Compound_Aliases.txt"
+    )
+    reaction_aliases_url = (
+        f"{database_path}/Biochemistry/Aliases/Unique_ModelSEED_Reaction_Aliases.txt"
+    )
+    compound_aliases = _load_aliases_df(
+        pd.read_csv(compound_aliases_url, index_col=None, sep="\t")
+    )
+    reaction_aliases = _load_aliases_df(
+        pd.read_csv(reaction_aliases_url, index_col=None, sep="\t")
+    )
 
-    compound_structures_url = f'{database_path}/Biochemistry/Structures/Unique_ModelSEED_Structures.txt'
-    compound_structures = _load_aliases_df(pd.read_csv(compound_structures_url, index_col=None, sep='\t'),
-                                           source_index=2, alias_id_index=6)
+    compound_structures_url = (
+        f"{database_path}/Biochemistry/Structures/Unique_ModelSEED_Structures.txt"
+    )
+    compound_structures = _load_aliases_df(
+        pd.read_csv(compound_structures_url, index_col=None, sep="\t"),
+        source_index=2,
+        alias_id_index=6,
+    )
 
-    compound_names_url = f'{database_path}/Biochemistry/Aliases/Unique_ModelSEED_Compound_Names.txt'
-    reaction_names_url = f'{database_path}/Biochemistry/Aliases/Unique_ModelSEED_Reaction_Names.txt'
-    compound_names = _load_aliases_df(pd.read_csv(compound_names_url, index_col=None, sep='\t'))
-    reaction_names = _load_aliases_df(pd.read_csv(reaction_names_url, index_col=None, sep='\t'))
+    compound_names_url = (
+        f"{database_path}/Biochemistry/Aliases/Unique_ModelSEED_Compound_Names.txt"
+    )
+    reaction_names_url = (
+        f"{database_path}/Biochemistry/Aliases/Unique_ModelSEED_Reaction_Names.txt"
+    )
+    compound_names = _load_aliases_df(
+        pd.read_csv(compound_names_url, index_col=None, sep="\t")
+    )
+    reaction_names = _load_aliases_df(
+        pd.read_csv(reaction_names_url, index_col=None, sep="\t")
+    )
 
-    reaction_ecs_url = f'{database_path}/Biochemistry/Aliases/Unique_ModelSEED_Reaction_ECs.txt'
-    reaction_ecs = _load_aliases_df(pd.read_csv(reaction_ecs_url, index_col=None, sep='\t'))
+    reaction_ecs_url = (
+        f"{database_path}/Biochemistry/Aliases/Unique_ModelSEED_Reaction_ECs.txt"
+    )
+    reaction_ecs = _load_aliases_df(
+        pd.read_csv(reaction_ecs_url, index_col=None, sep="\t")
+    )
 
     # build metabolites unpack names
-    metabolites = _load_metabolites(database_path, compound_aliases,
-                                    {k:v['name'] for k, v in compound_names.items()},
-                                    compound_structures)
+    metabolites = _load_metabolites(
+        database_path,
+        compound_aliases,
+        {k: v["name"] for k, v in compound_names.items()},
+        compound_structures,
+    )
 
     # build reactions unpack names, ecs
-    reactions, metabolite_tokens = _load_reactions(database_path, metabolites, reaction_aliases,
-                                                   {k:v['name'] for k, v in reaction_names.items()},
-                                                   {k:v['Enzyme Class'] for k, v in reaction_ecs.items()})
-    database = ModelSEEDDatabase(metabolites.values(), reactions.values(), metabolite_tokens.values())
+    reactions, metabolite_tokens = _load_reactions(
+        database_path,
+        metabolites,
+        reaction_aliases,
+        {k: v["name"] for k, v in reaction_names.items()},
+        {k: v["Enzyme Class"] for k, v in reaction_ecs.items()},
+    )
+    database = ModelSEEDDatabase(
+        metabolites.values(), reactions.values(), metabolite_tokens.values()
+    )
 
     return database
 
+
 def get_names_from_df(df):
     names = {}
     for t in df.itertuples():
Original file line number	Diff line number	Diff line change
`@@ -13,7 +13,8 @@`
`13`	`13`	`"cell_type": "markdown",`
`14`	`14`	`"metadata": {},`
`15`	`15`	`"source": [`
`16`		`- "### Load the database object from local github repository"`
	`16`	`+ "### Load the database object from local github repository\n",`
	`17`	`+ "https://github.com/ModelSEED/ModelSEEDDatabase"`
`17`	`18`	`]`
`18`	`19`	`},`
`19`	`20`	`{`