From 730b948df9265d83d7802fa5ecd338b5e48126d5 Mon Sep 17 00:00:00 2001
From: Cunliang Geng <c.geng@esciencecenter.nl>
Date: Fri, 12 Apr 2024 10:41:34 +0100
Subject: [PATCH] Deployed b7a947e to dev with MkDocs 1.5.3 and mike 2.0.0

---
 dev/api/antismash/index.html          |  405 +++++--
 dev/api/arranger/index.html           |  742 +++++++------
 dev/api/bigscape/index.html           |  584 +++++++++-
 dev/api/genomics/index.html           | 1044 ++++++++++++------
 dev/api/genomics_abc/index.html       |  140 ++-
 dev/api/genomics_utils/index.html     |  571 +++++-----
 dev/api/gnps/index.html               | 1426 ++++++++++++++-----------
 dev/api/loader/index.html             |  588 +++++++++-
 dev/api/metabolomics/index.html       |  921 +++++++++++-----
 dev/api/metabolomics_abc/index.html   |  354 +++++-
 dev/api/metabolomics_utils/index.html |  414 +++----
 dev/api/mibig/index.html              |  359 ++++---
 dev/api/nplinker/index.html           |  212 +++-
 dev/api/schema/index.html             |  234 ++++
 dev/api/scoring/index.html            | 1382 +++++++++++++++++++++++-
 dev/api/strain/index.html             |  412 +++----
 dev/api/strain_utils/index.html       |   43 +-
 dev/api/utils/index.html              |  106 +-
 dev/install/index.html                |    2 +-
 dev/objects.inv                       |  Bin 2818 -> 4318 bytes
 dev/search/search_index.json          |    2 +-
 dev/sitemap.xml                       |   52 +-
 dev/sitemap.xml.gz                    |  Bin 388 -> 387 bytes
 23 files changed, 7371 insertions(+), 2622 deletions(-)
diff --git a/dev/api/antismash/index.html b/dev/api/antismash/index.html
index e8965d64..292df076 100644
--- a/dev/api/antismash/index.html
+++ b/dev/api/antismash/index.html
@@ -917,6 +917,15 @@
     <nav class="md-nav" aria-label=" AntismashBGCLoader">
       <ul class="md-nav__list">
         
+          <li class="md-nav__item">
+  <a href="#nplinker.genomics.antismash.AntismashBGCLoader.data_dir" class="md-nav__link">
+    <span class="md-ellipsis">
+      <code class="doc-symbol doc-symbol-toc doc-symbol-attribute"></code>&nbsp;data_dir
+    </span>
+  </a>
+  
+</li>
+        
           <li class="md-nav__item">
   <a href="#nplinker.genomics.antismash.AntismashBGCLoader.get_bgc_genome_mapping" class="md-nav__link">
     <span class="md-ellipsis">
@@ -959,6 +968,42 @@
     <nav class="md-nav" aria-label=" GenomeStatus">
       <ul class="md-nav__list">
         
+          <li class="md-nav__item">
+  <a href="#nplinker.genomics.antismash.GenomeStatus.original_id" class="md-nav__link">
+    <span class="md-ellipsis">
+      <code class="doc-symbol doc-symbol-toc doc-symbol-attribute"></code>&nbsp;original_id
+    </span>
+  </a>
+  
+</li>
+        
+          <li class="md-nav__item">
+  <a href="#nplinker.genomics.antismash.GenomeStatus.resolved_refseq_id" class="md-nav__link">
+    <span class="md-ellipsis">
+      <code class="doc-symbol doc-symbol-toc doc-symbol-attribute"></code>&nbsp;resolved_refseq_id
+    </span>
+  </a>
+  
+</li>
+        
+          <li class="md-nav__item">
+  <a href="#nplinker.genomics.antismash.GenomeStatus.resolve_attempted" class="md-nav__link">
+    <span class="md-ellipsis">
+      <code class="doc-symbol doc-symbol-toc doc-symbol-attribute"></code>&nbsp;resolve_attempted
+    </span>
+  </a>
+  
+</li>
+        
+          <li class="md-nav__item">
+  <a href="#nplinker.genomics.antismash.GenomeStatus.bgc_path" class="md-nav__link">
+    <span class="md-ellipsis">
+      <code class="doc-symbol doc-symbol-toc doc-symbol-attribute"></code>&nbsp;bgc_path
+    </span>
+  </a>
+  
+</li>
+        
           <li class="md-nav__item">
   <a href="#nplinker.genomics.antismash.GenomeStatus.read_json" class="md-nav__link">
     <span class="md-ellipsis">
@@ -1414,6 +1459,15 @@
     <nav class="md-nav" aria-label=" AntismashBGCLoader">
       <ul class="md-nav__list">
         
+          <li class="md-nav__item">
+  <a href="#nplinker.genomics.antismash.AntismashBGCLoader.data_dir" class="md-nav__link">
+    <span class="md-ellipsis">
+      <code class="doc-symbol doc-symbol-toc doc-symbol-attribute"></code>&nbsp;data_dir
+    </span>
+  </a>
+  
+</li>
+        
           <li class="md-nav__item">
   <a href="#nplinker.genomics.antismash.AntismashBGCLoader.get_bgc_genome_mapping" class="md-nav__link">
     <span class="md-ellipsis">
@@ -1456,6 +1510,42 @@
     <nav class="md-nav" aria-label=" GenomeStatus">
       <ul class="md-nav__list">
         
+          <li class="md-nav__item">
+  <a href="#nplinker.genomics.antismash.GenomeStatus.original_id" class="md-nav__link">
+    <span class="md-ellipsis">
+      <code class="doc-symbol doc-symbol-toc doc-symbol-attribute"></code>&nbsp;original_id
+    </span>
+  </a>
+  
+</li>
+        
+          <li class="md-nav__item">
+  <a href="#nplinker.genomics.antismash.GenomeStatus.resolved_refseq_id" class="md-nav__link">
+    <span class="md-ellipsis">
+      <code class="doc-symbol doc-symbol-toc doc-symbol-attribute"></code>&nbsp;resolved_refseq_id
+    </span>
+  </a>
+  
+</li>
+        
+          <li class="md-nav__item">
+  <a href="#nplinker.genomics.antismash.GenomeStatus.resolve_attempted" class="md-nav__link">
+    <span class="md-ellipsis">
+      <code class="doc-symbol doc-symbol-toc doc-symbol-attribute"></code>&nbsp;resolve_attempted
+    </span>
+  </a>
+  
+</li>
+        
+          <li class="md-nav__item">
+  <a href="#nplinker.genomics.antismash.GenomeStatus.bgc_path" class="md-nav__link">
+    <span class="md-ellipsis">
+      <code class="doc-symbol doc-symbol-toc doc-symbol-attribute"></code>&nbsp;bgc_path
+    </span>
+  </a>
+  
+</li>
+        
           <li class="md-nav__item">
   <a href="#nplinker.genomics.antismash.GenomeStatus.read_json" class="md-nav__link">
     <span class="md-ellipsis">
@@ -1592,7 +1682,8 @@ <h3 id="nplinker.genomics.antismash.AntismashBGCLoader" class="doc doc-heading">
 <a id="__codelineno-0-7" name="__codelineno-0-7" href="#__codelineno-0-7"></a>    │  ├── ...
 <a id="__codelineno-0-8" name="__codelineno-0-8" href="#__codelineno-0-8"></a>    └── ...
 </code></pre></div></p>
-</details>
+</details>  
+
 
 
   <p><strong>Parameters:</strong></p>
@@ -1626,51 +1717,25 @@ <h3 id="nplinker.genomics.antismash.AntismashBGCLoader" class="doc doc-heading">
 
                 <details class="quote">
                   <summary>Source code in <code>src/nplinker/genomics/antismash/antismash_loader.py</code></summary>
-                  <div class="language-python highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal"><a href="#__codelineno-0-18">18</a></span>
-<span class="normal"><a href="#__codelineno-0-19">19</a></span>
-<span class="normal"><a href="#__codelineno-0-20">20</a></span>
-<span class="normal"><a href="#__codelineno-0-21">21</a></span>
-<span class="normal"><a href="#__codelineno-0-22">22</a></span>
-<span class="normal"><a href="#__codelineno-0-23">23</a></span>
-<span class="normal"><a href="#__codelineno-0-24">24</a></span>
-<span class="normal"><a href="#__codelineno-0-25">25</a></span>
-<span class="normal"><a href="#__codelineno-0-26">26</a></span>
-<span class="normal"><a href="#__codelineno-0-27">27</a></span>
-<span class="normal"><a href="#__codelineno-0-28">28</a></span>
-<span class="normal"><a href="#__codelineno-0-29">29</a></span>
-<span class="normal"><a href="#__codelineno-0-30">30</a></span>
-<span class="normal"><a href="#__codelineno-0-31">31</a></span>
-<span class="normal"><a href="#__codelineno-0-32">32</a></span>
-<span class="normal"><a href="#__codelineno-0-33">33</a></span>
-<span class="normal"><a href="#__codelineno-0-34">34</a></span>
+                  <div class="language-python highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal"><a href="#__codelineno-0-34">34</a></span>
 <span class="normal"><a href="#__codelineno-0-35">35</a></span>
 <span class="normal"><a href="#__codelineno-0-36">36</a></span>
 <span class="normal"><a href="#__codelineno-0-37">37</a></span>
 <span class="normal"><a href="#__codelineno-0-38">38</a></span>
 <span class="normal"><a href="#__codelineno-0-39">39</a></span>
-<span class="normal"><a href="#__codelineno-0-40">40</a></span></pre></div></td><td class="code"><div><pre><span></span><code><a id="__codelineno-0-18" name="__codelineno-0-18"></a><span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">data_dir</span><span class="p">:</span> <span class="nb">str</span><span class="p">)</span> <span class="o">-&gt;</span> <span class="kc">None</span><span class="p">:</span>
-<a id="__codelineno-0-19" name="__codelineno-0-19"></a><span class="w">    </span><span class="sd">&quot;&quot;&quot;Build a loader for AntiSMASH BGC genbank (.gbk) files.</span>
-<a id="__codelineno-0-20" name="__codelineno-0-20"></a>
-<a id="__codelineno-0-21" name="__codelineno-0-21"></a><span class="sd">    Note:</span>
-<a id="__codelineno-0-22" name="__codelineno-0-22"></a><span class="sd">        AntiSMASH BGC directory must follow the structure below:</span>
-<a id="__codelineno-0-23" name="__codelineno-0-23"></a><span class="sd">        ```</span>
-<a id="__codelineno-0-24" name="__codelineno-0-24"></a><span class="sd">        antismash</span>
-<a id="__codelineno-0-25" name="__codelineno-0-25"></a><span class="sd">            ├── genome_id_1 (one AntiSMASH output, e.g. GCF_000514775.1)</span>
-<a id="__codelineno-0-26" name="__codelineno-0-26"></a><span class="sd">            │  ├── GCF_000514775.1.gbk</span>
-<a id="__codelineno-0-27" name="__codelineno-0-27"></a><span class="sd">            │  ├── NZ_AZWO01000004.region001.gbk</span>
-<a id="__codelineno-0-28" name="__codelineno-0-28"></a><span class="sd">            │  └── ...</span>
-<a id="__codelineno-0-29" name="__codelineno-0-29"></a><span class="sd">            ├── genome_id_2</span>
-<a id="__codelineno-0-30" name="__codelineno-0-30"></a><span class="sd">            │  ├── ...</span>
-<a id="__codelineno-0-31" name="__codelineno-0-31"></a><span class="sd">            └── ...</span>
-<a id="__codelineno-0-32" name="__codelineno-0-32"></a><span class="sd">        ```</span>
-<a id="__codelineno-0-33" name="__codelineno-0-33"></a>
-<a id="__codelineno-0-34" name="__codelineno-0-34"></a><span class="sd">    Args:</span>
-<a id="__codelineno-0-35" name="__codelineno-0-35"></a><span class="sd">        data_dir: Path to AntiSMASH directory that contains a</span>
-<a id="__codelineno-0-36" name="__codelineno-0-36"></a><span class="sd">            collection of AntiSMASH outputs.</span>
-<a id="__codelineno-0-37" name="__codelineno-0-37"></a><span class="sd">    &quot;&quot;&quot;</span>
-<a id="__codelineno-0-38" name="__codelineno-0-38"></a>    <span class="bp">self</span><span class="o">.</span><span class="n">data_dir</span> <span class="o">=</span> <span class="n">data_dir</span>
-<a id="__codelineno-0-39" name="__codelineno-0-39"></a>    <span class="bp">self</span><span class="o">.</span><span class="n">_file_dict</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">_parse_data_dir</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">data_dir</span><span class="p">)</span>
-<a id="__codelineno-0-40" name="__codelineno-0-40"></a>    <span class="bp">self</span><span class="o">.</span><span class="n">_bgcs</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">_parse_bgcs</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">_file_dict</span><span class="p">)</span>
+<span class="normal"><a href="#__codelineno-0-40">40</a></span>
+<span class="normal"><a href="#__codelineno-0-41">41</a></span>
+<span class="normal"><a href="#__codelineno-0-42">42</a></span>
+<span class="normal"><a href="#__codelineno-0-43">43</a></span></pre></div></td><td class="code"><div><pre><span></span><code><a id="__codelineno-0-34" name="__codelineno-0-34"></a><span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">data_dir</span><span class="p">:</span> <span class="nb">str</span><span class="p">)</span> <span class="o">-&gt;</span> <span class="kc">None</span><span class="p">:</span>
+<a id="__codelineno-0-35" name="__codelineno-0-35"></a><span class="w">    </span><span class="sd">&quot;&quot;&quot;Initialize the AntiSMASH BGC loader.</span>
+<a id="__codelineno-0-36" name="__codelineno-0-36"></a>
+<a id="__codelineno-0-37" name="__codelineno-0-37"></a><span class="sd">    Args:</span>
+<a id="__codelineno-0-38" name="__codelineno-0-38"></a><span class="sd">        data_dir: Path to AntiSMASH directory that contains a</span>
+<a id="__codelineno-0-39" name="__codelineno-0-39"></a><span class="sd">            collection of AntiSMASH outputs.</span>
+<a id="__codelineno-0-40" name="__codelineno-0-40"></a><span class="sd">    &quot;&quot;&quot;</span>
+<a id="__codelineno-0-41" name="__codelineno-0-41"></a>    <span class="bp">self</span><span class="o">.</span><span class="n">data_dir</span> <span class="o">=</span> <span class="n">data_dir</span>
+<a id="__codelineno-0-42" name="__codelineno-0-42"></a>    <span class="bp">self</span><span class="o">.</span><span class="n">_file_dict</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">_parse_data_dir</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">data_dir</span><span class="p">)</span>
+<a id="__codelineno-0-43" name="__codelineno-0-43"></a>    <span class="bp">self</span><span class="o">.</span><span class="n">_bgcs</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">_parse_bgcs</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">_file_dict</span><span class="p">)</span>
 </code></pre></div></td></tr></table></div>
                 </details>
 
@@ -1684,6 +1749,27 @@ <h3 id="nplinker.genomics.antismash.AntismashBGCLoader" class="doc doc-heading">
 
 
 
+<div class="doc doc-object doc-attribute">
+
+
+
+<h4 id="nplinker.genomics.antismash.AntismashBGCLoader.data_dir" class="doc doc-heading">
+<code class="doc-symbol doc-symbol-heading doc-symbol-attribute"></code>          <span class="doc doc-object-name doc-attribute-name">data_dir</span>
+
+  
+  <span class="doc doc-labels">
+      <small class="doc doc-label doc-label-instance-attribute"><code>instance-attribute</code></small>
+  </span>
+
+<a href="#nplinker.genomics.antismash.AntismashBGCLoader.data_dir" class="headerlink" title="Permanent link">&para;</a></h4>
+<div class="language-python doc-signature highlight"><pre><span></span><code><a id="__codelineno-0-1" name="__codelineno-0-1" href="#__codelineno-0-1"></a><span class="n">data_dir</span> <span class="o">=</span> <span class="n"><a class="autorefs autorefs-internal" title="nplinker.genomics.antismash.antismash_loader.AntismashBGCLoader.data_dir" href="#nplinker.genomics.antismash.AntismashBGCLoader.data_dir">data_dir</a></span>
+</code></pre></div>
+
+  <div class="doc doc-contents ">
+  </div>
+
+</div>
+
 
 
 
@@ -1740,10 +1826,7 @@ <h4 id="nplinker.genomics.antismash.AntismashBGCLoader.get_bgc_genome_mapping" c
 
           <details class="quote">
             <summary>Source code in <code>src/nplinker/genomics/antismash/antismash_loader.py</code></summary>
-            <div class="language-python highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal"><a href="#__codelineno-0-42">42</a></span>
-<span class="normal"><a href="#__codelineno-0-43">43</a></span>
-<span class="normal"><a href="#__codelineno-0-44">44</a></span>
-<span class="normal"><a href="#__codelineno-0-45">45</a></span>
+            <div class="language-python highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal"><a href="#__codelineno-0-45">45</a></span>
 <span class="normal"><a href="#__codelineno-0-46">46</a></span>
 <span class="normal"><a href="#__codelineno-0-47">47</a></span>
 <span class="normal"><a href="#__codelineno-0-48">48</a></span>
@@ -1751,18 +1834,21 @@ <h4 id="nplinker.genomics.antismash.AntismashBGCLoader.get_bgc_genome_mapping" c
 <span class="normal"><a href="#__codelineno-0-50">50</a></span>
 <span class="normal"><a href="#__codelineno-0-51">51</a></span>
 <span class="normal"><a href="#__codelineno-0-52">52</a></span>
-<span class="normal"><a href="#__codelineno-0-53">53</a></span></pre></div></td><td class="code"><div><pre><span></span><code><a id="__codelineno-0-42" name="__codelineno-0-42"></a><span class="k">def</span> <span class="nf">get_bgc_genome_mapping</span><span class="p">(</span><span class="bp">self</span><span class="p">)</span> <span class="o">-&gt;</span> <span class="nb">dict</span><span class="p">[</span><span class="nb">str</span><span class="p">,</span> <span class="nb">str</span><span class="p">]:</span>
-<a id="__codelineno-0-43" name="__codelineno-0-43"></a><span class="w">    </span><span class="sd">&quot;&quot;&quot;Get the mapping from BGC to genome.</span>
-<a id="__codelineno-0-44" name="__codelineno-0-44"></a>
-<a id="__codelineno-0-45" name="__codelineno-0-45"></a><span class="sd">    Note that the directory name of the gbk file is treated as genome id.</span>
-<a id="__codelineno-0-46" name="__codelineno-0-46"></a>
-<a id="__codelineno-0-47" name="__codelineno-0-47"></a><span class="sd">    Returns:</span>
-<a id="__codelineno-0-48" name="__codelineno-0-48"></a><span class="sd">        The key is BGC name (gbk file name) and value is genome id (the directory name of the</span>
-<a id="__codelineno-0-49" name="__codelineno-0-49"></a><span class="sd">        gbk file).</span>
-<a id="__codelineno-0-50" name="__codelineno-0-50"></a><span class="sd">    &quot;&quot;&quot;</span>
-<a id="__codelineno-0-51" name="__codelineno-0-51"></a>    <span class="k">return</span> <span class="p">{</span>
-<a id="__codelineno-0-52" name="__codelineno-0-52"></a>        <span class="n">bid</span><span class="p">:</span> <span class="n">os</span><span class="o">.</span><span class="n">path</span><span class="o">.</span><span class="n">basename</span><span class="p">(</span><span class="n">os</span><span class="o">.</span><span class="n">path</span><span class="o">.</span><span class="n">dirname</span><span class="p">(</span><span class="n">bpath</span><span class="p">))</span> <span class="k">for</span> <span class="n">bid</span><span class="p">,</span> <span class="n">bpath</span> <span class="ow">in</span> <span class="bp">self</span><span class="o">.</span><span class="n">_file_dict</span><span class="o">.</span><span class="n">items</span><span class="p">()</span>
-<a id="__codelineno-0-53" name="__codelineno-0-53"></a>    <span class="p">}</span>
+<span class="normal"><a href="#__codelineno-0-53">53</a></span>
+<span class="normal"><a href="#__codelineno-0-54">54</a></span>
+<span class="normal"><a href="#__codelineno-0-55">55</a></span>
+<span class="normal"><a href="#__codelineno-0-56">56</a></span></pre></div></td><td class="code"><div><pre><span></span><code><a id="__codelineno-0-45" name="__codelineno-0-45"></a><span class="k">def</span> <span class="nf">get_bgc_genome_mapping</span><span class="p">(</span><span class="bp">self</span><span class="p">)</span> <span class="o">-&gt;</span> <span class="nb">dict</span><span class="p">[</span><span class="nb">str</span><span class="p">,</span> <span class="nb">str</span><span class="p">]:</span>
+<a id="__codelineno-0-46" name="__codelineno-0-46"></a><span class="w">    </span><span class="sd">&quot;&quot;&quot;Get the mapping from BGC to genome.</span>
+<a id="__codelineno-0-47" name="__codelineno-0-47"></a>
+<a id="__codelineno-0-48" name="__codelineno-0-48"></a><span class="sd">    Note that the directory name of the gbk file is treated as genome id.</span>
+<a id="__codelineno-0-49" name="__codelineno-0-49"></a>
+<a id="__codelineno-0-50" name="__codelineno-0-50"></a><span class="sd">    Returns:</span>
+<a id="__codelineno-0-51" name="__codelineno-0-51"></a><span class="sd">        The key is BGC name (gbk file name) and value is genome id (the directory name of the</span>
+<a id="__codelineno-0-52" name="__codelineno-0-52"></a><span class="sd">        gbk file).</span>
+<a id="__codelineno-0-53" name="__codelineno-0-53"></a><span class="sd">    &quot;&quot;&quot;</span>
+<a id="__codelineno-0-54" name="__codelineno-0-54"></a>    <span class="k">return</span> <span class="p">{</span>
+<a id="__codelineno-0-55" name="__codelineno-0-55"></a>        <span class="n">bid</span><span class="p">:</span> <span class="n">os</span><span class="o">.</span><span class="n">path</span><span class="o">.</span><span class="n">basename</span><span class="p">(</span><span class="n">os</span><span class="o">.</span><span class="n">path</span><span class="o">.</span><span class="n">dirname</span><span class="p">(</span><span class="n">bpath</span><span class="p">))</span> <span class="k">for</span> <span class="n">bid</span><span class="p">,</span> <span class="n">bpath</span> <span class="ow">in</span> <span class="bp">self</span><span class="o">.</span><span class="n">_file_dict</span><span class="o">.</span><span class="n">items</span><span class="p">()</span>
+<a id="__codelineno-0-56" name="__codelineno-0-56"></a>    <span class="p">}</span>
 </code></pre></div></td></tr></table></div>
           </details>
   </div>
@@ -1812,19 +1898,19 @@ <h4 id="nplinker.genomics.antismash.AntismashBGCLoader.get_files" class="doc doc
 
           <details class="quote">
             <summary>Source code in <code>src/nplinker/genomics/antismash/antismash_loader.py</code></summary>
-            <div class="language-python highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal"><a href="#__codelineno-0-55">55</a></span>
-<span class="normal"><a href="#__codelineno-0-56">56</a></span>
-<span class="normal"><a href="#__codelineno-0-57">57</a></span>
-<span class="normal"><a href="#__codelineno-0-58">58</a></span>
+            <div class="language-python highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal"><a href="#__codelineno-0-58">58</a></span>
 <span class="normal"><a href="#__codelineno-0-59">59</a></span>
 <span class="normal"><a href="#__codelineno-0-60">60</a></span>
-<span class="normal"><a href="#__codelineno-0-61">61</a></span></pre></div></td><td class="code"><div><pre><span></span><code><a id="__codelineno-0-55" name="__codelineno-0-55"></a><span class="k">def</span> <span class="nf">get_files</span><span class="p">(</span><span class="bp">self</span><span class="p">)</span> <span class="o">-&gt;</span> <span class="nb">dict</span><span class="p">[</span><span class="nb">str</span><span class="p">,</span> <span class="nb">str</span><span class="p">]:</span>
-<a id="__codelineno-0-56" name="__codelineno-0-56"></a><span class="w">    </span><span class="sd">&quot;&quot;&quot;Get BGC gbk files.</span>
-<a id="__codelineno-0-57" name="__codelineno-0-57"></a>
-<a id="__codelineno-0-58" name="__codelineno-0-58"></a><span class="sd">    Returns:</span>
-<a id="__codelineno-0-59" name="__codelineno-0-59"></a><span class="sd">        The key is BGC name (gbk file name) and value is path to the gbk file.</span>
-<a id="__codelineno-0-60" name="__codelineno-0-60"></a><span class="sd">    &quot;&quot;&quot;</span>
-<a id="__codelineno-0-61" name="__codelineno-0-61"></a>    <span class="k">return</span> <span class="bp">self</span><span class="o">.</span><span class="n">_file_dict</span>
+<span class="normal"><a href="#__codelineno-0-61">61</a></span>
+<span class="normal"><a href="#__codelineno-0-62">62</a></span>
+<span class="normal"><a href="#__codelineno-0-63">63</a></span>
+<span class="normal"><a href="#__codelineno-0-64">64</a></span></pre></div></td><td class="code"><div><pre><span></span><code><a id="__codelineno-0-58" name="__codelineno-0-58"></a><span class="k">def</span> <span class="nf">get_files</span><span class="p">(</span><span class="bp">self</span><span class="p">)</span> <span class="o">-&gt;</span> <span class="nb">dict</span><span class="p">[</span><span class="nb">str</span><span class="p">,</span> <span class="nb">str</span><span class="p">]:</span>
+<a id="__codelineno-0-59" name="__codelineno-0-59"></a><span class="w">    </span><span class="sd">&quot;&quot;&quot;Get BGC gbk files.</span>
+<a id="__codelineno-0-60" name="__codelineno-0-60"></a>
+<a id="__codelineno-0-61" name="__codelineno-0-61"></a><span class="sd">    Returns:</span>
+<a id="__codelineno-0-62" name="__codelineno-0-62"></a><span class="sd">        The key is BGC name (gbk file name) and value is path to the gbk file.</span>
+<a id="__codelineno-0-63" name="__codelineno-0-63"></a><span class="sd">    &quot;&quot;&quot;</span>
+<a id="__codelineno-0-64" name="__codelineno-0-64"></a>    <span class="k">return</span> <span class="bp">self</span><span class="o">.</span><span class="n">_file_dict</span>
 </code></pre></div></td></tr></table></div>
           </details>
   </div>
@@ -1874,19 +1960,19 @@ <h4 id="nplinker.genomics.antismash.AntismashBGCLoader.get_bgcs" class="doc doc-
 
           <details class="quote">
             <summary>Source code in <code>src/nplinker/genomics/antismash/antismash_loader.py</code></summary>
-            <div class="language-python highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal"><a href="#__codelineno-0-88">88</a></span>
-<span class="normal"><a href="#__codelineno-0-89">89</a></span>
-<span class="normal"><a href="#__codelineno-0-90">90</a></span>
-<span class="normal"><a href="#__codelineno-0-91">91</a></span>
+            <div class="language-python highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal"><a href="#__codelineno-0-91">91</a></span>
 <span class="normal"><a href="#__codelineno-0-92">92</a></span>
 <span class="normal"><a href="#__codelineno-0-93">93</a></span>
-<span class="normal"><a href="#__codelineno-0-94">94</a></span></pre></div></td><td class="code"><div><pre><span></span><code><a id="__codelineno-0-88" name="__codelineno-0-88"></a><span class="k">def</span> <span class="nf">get_bgcs</span><span class="p">(</span><span class="bp">self</span><span class="p">)</span> <span class="o">-&gt;</span> <span class="nb">list</span><span class="p">[</span><span class="n">BGC</span><span class="p">]:</span>
-<a id="__codelineno-0-89" name="__codelineno-0-89"></a><span class="w">    </span><span class="sd">&quot;&quot;&quot;Get all BGC objects.</span>
-<a id="__codelineno-0-90" name="__codelineno-0-90"></a>
-<a id="__codelineno-0-91" name="__codelineno-0-91"></a><span class="sd">    Returns:</span>
-<a id="__codelineno-0-92" name="__codelineno-0-92"></a><span class="sd">        A list of BGC objects</span>
-<a id="__codelineno-0-93" name="__codelineno-0-93"></a><span class="sd">    &quot;&quot;&quot;</span>
-<a id="__codelineno-0-94" name="__codelineno-0-94"></a>    <span class="k">return</span> <span class="bp">self</span><span class="o">.</span><span class="n">_bgcs</span>
+<span class="normal"><a href="#__codelineno-0-94">94</a></span>
+<span class="normal"><a href="#__codelineno-0-95">95</a></span>
+<span class="normal"><a href="#__codelineno-0-96">96</a></span>
+<span class="normal"><a href="#__codelineno-0-97">97</a></span></pre></div></td><td class="code"><div><pre><span></span><code><a id="__codelineno-0-91" name="__codelineno-0-91"></a><span class="k">def</span> <span class="nf">get_bgcs</span><span class="p">(</span><span class="bp">self</span><span class="p">)</span> <span class="o">-&gt;</span> <span class="nb">list</span><span class="p">[</span><span class="n">BGC</span><span class="p">]:</span>
+<a id="__codelineno-0-92" name="__codelineno-0-92"></a><span class="w">    </span><span class="sd">&quot;&quot;&quot;Get all BGC objects.</span>
+<a id="__codelineno-0-93" name="__codelineno-0-93"></a>
+<a id="__codelineno-0-94" name="__codelineno-0-94"></a><span class="sd">    Returns:</span>
+<a id="__codelineno-0-95" name="__codelineno-0-95"></a><span class="sd">        A list of BGC objects</span>
+<a id="__codelineno-0-96" name="__codelineno-0-96"></a><span class="sd">    &quot;&quot;&quot;</span>
+<a id="__codelineno-0-97" name="__codelineno-0-97"></a>    <span class="k">return</span> <span class="bp">self</span><span class="o">.</span><span class="n">_bgcs</span>
 </code></pre></div></td></tr></table></div>
           </details>
   </div>
@@ -1921,7 +2007,6 @@ <h3 id="nplinker.genomics.antismash.GenomeStatus" class="doc doc-heading">
 <p>The status of genomes is tracked in a JSON file which has a name defined
 in variable <code>GENOME_STATUS_FILENAME</code>.</p>
   
-      <p>Initialize a GenomeStatus object for the given genome.</p>
 
 
 
@@ -2056,6 +2141,90 @@ <h3 id="nplinker.genomics.antismash.GenomeStatus" class="doc doc-heading">
 
 
 
+<div class="doc doc-object doc-attribute">
+
+
+
+<h4 id="nplinker.genomics.antismash.GenomeStatus.original_id" class="doc doc-heading">
+<code class="doc-symbol doc-symbol-heading doc-symbol-attribute"></code>          <span class="doc doc-object-name doc-attribute-name">original_id</span>
+
+  
+  <span class="doc doc-labels">
+      <small class="doc doc-label doc-label-instance-attribute"><code>instance-attribute</code></small>
+  </span>
+
+<a href="#nplinker.genomics.antismash.GenomeStatus.original_id" class="headerlink" title="Permanent link">&para;</a></h4>
+<div class="language-python doc-signature highlight"><pre><span></span><code><a id="__codelineno-0-1" name="__codelineno-0-1" href="#__codelineno-0-1"></a><span class="n">original_id</span> <span class="o">=</span> <span class="n"><a class="autorefs autorefs-internal" title="nplinker.genomics.antismash.podp_antismash_downloader.GenomeStatus.original_id" href="#nplinker.genomics.antismash.GenomeStatus.original_id">original_id</a></span>
+</code></pre></div>
+
+  <div class="doc doc-contents ">
+  </div>
+
+</div>
+
+<div class="doc doc-object doc-attribute">
+
+
+
+<h4 id="nplinker.genomics.antismash.GenomeStatus.resolved_refseq_id" class="doc doc-heading">
+<code class="doc-symbol doc-symbol-heading doc-symbol-attribute"></code>          <span class="doc doc-object-name doc-attribute-name">resolved_refseq_id</span>
+
+  
+  <span class="doc doc-labels">
+      <small class="doc doc-label doc-label-instance-attribute"><code>instance-attribute</code></small>
+  </span>
+
+<a href="#nplinker.genomics.antismash.GenomeStatus.resolved_refseq_id" class="headerlink" title="Permanent link">&para;</a></h4>
+<div class="language-python doc-signature highlight"><pre><span></span><code><a id="__codelineno-0-1" name="__codelineno-0-1" href="#__codelineno-0-1"></a><span class="n">resolved_refseq_id</span> <span class="o">=</span> <span class="s1">&#39;&#39;</span> <span class="k">if</span> <span class="n"><a class="autorefs autorefs-internal" title="nplinker.genomics.antismash.podp_antismash_downloader.GenomeStatus.resolved_refseq_id" href="#nplinker.genomics.antismash.GenomeStatus.resolved_refseq_id">resolved_refseq_id</a></span> <span class="o">==</span> <span class="s1">&#39;None&#39;</span> <span class="k">else</span> <span class="n"><a class="autorefs autorefs-internal" title="nplinker.genomics.antismash.podp_antismash_downloader.GenomeStatus.resolved_refseq_id" href="#nplinker.genomics.antismash.GenomeStatus.resolved_refseq_id">resolved_refseq_id</a></span>
+</code></pre></div>
+
+  <div class="doc doc-contents ">
+  </div>
+
+</div>
+
+<div class="doc doc-object doc-attribute">
+
+
+
+<h4 id="nplinker.genomics.antismash.GenomeStatus.resolve_attempted" class="doc doc-heading">
+<code class="doc-symbol doc-symbol-heading doc-symbol-attribute"></code>          <span class="doc doc-object-name doc-attribute-name">resolve_attempted</span>
+
+  
+  <span class="doc doc-labels">
+      <small class="doc doc-label doc-label-instance-attribute"><code>instance-attribute</code></small>
+  </span>
+
+<a href="#nplinker.genomics.antismash.GenomeStatus.resolve_attempted" class="headerlink" title="Permanent link">&para;</a></h4>
+<div class="language-python doc-signature highlight"><pre><span></span><code><a id="__codelineno-0-1" name="__codelineno-0-1" href="#__codelineno-0-1"></a><span class="n">resolve_attempted</span> <span class="o">=</span> <span class="n"><a class="autorefs autorefs-internal" title="nplinker.genomics.antismash.podp_antismash_downloader.GenomeStatus.resolve_attempted" href="#nplinker.genomics.antismash.GenomeStatus.resolve_attempted">resolve_attempted</a></span>
+</code></pre></div>
+
+  <div class="doc doc-contents ">
+  </div>
+
+</div>
+
+<div class="doc doc-object doc-attribute">
+
+
+
+<h4 id="nplinker.genomics.antismash.GenomeStatus.bgc_path" class="doc doc-heading">
+<code class="doc-symbol doc-symbol-heading doc-symbol-attribute"></code>          <span class="doc doc-object-name doc-attribute-name">bgc_path</span>
+
+  
+  <span class="doc doc-labels">
+      <small class="doc doc-label doc-label-instance-attribute"><code>instance-attribute</code></small>
+  </span>
+
+<a href="#nplinker.genomics.antismash.GenomeStatus.bgc_path" class="headerlink" title="Permanent link">&para;</a></h4>
+<div class="language-python doc-signature highlight"><pre><span></span><code><a id="__codelineno-0-1" name="__codelineno-0-1" href="#__codelineno-0-1"></a><span class="n">bgc_path</span> <span class="o">=</span> <span class="n"><a class="autorefs autorefs-internal" title="nplinker.genomics.antismash.podp_antismash_downloader.GenomeStatus.bgc_path" href="#nplinker.genomics.antismash.GenomeStatus.bgc_path">bgc_path</a></span>
+</code></pre></div>
+
+  <div class="doc doc-contents ">
+  </div>
+
+</div>
+
 
 
 
@@ -2462,7 +2631,7 @@ <h3 id="nplinker.genomics.antismash.download_and_extract_antismash_data" class="
           </td>
           <td>
             <div class="doc-md-description">
-              <p>if download_root and extract_root dirs are the same.</p>
+              <p>if <code>download_root</code> and <code>extract_root</code> dirs are the same.</p>
             </div>
           </td>
         </tr>
@@ -2472,7 +2641,7 @@ <h3 id="nplinker.genomics.antismash.download_and_extract_antismash_data" class="
           </td>
           <td>
             <div class="doc-md-description">
-              <p>if <extract_root>/antismash/<refseq_assembly_id> dir is not empty.</p>
+              <p>if <code>&lt;extract_root&gt;/antismash/&lt;refseq_assembly_id&gt;</code> dir is not empty.</p>
             </div>
           </td>
         </tr>
@@ -2562,8 +2731,8 @@ <h3 id="nplinker.genomics.antismash.download_and_extract_antismash_data" class="
 <a id="__codelineno-0-36" name="__codelineno-0-36"></a><span class="sd">            it doesn&#39;t exist. The files will be extracted to `&lt;extract_root&gt;/antismash/&lt;antismash_id&gt;` directory.</span>
 <a id="__codelineno-0-37" name="__codelineno-0-37"></a>
 <a id="__codelineno-0-38" name="__codelineno-0-38"></a><span class="sd">    Raises:</span>
-<a id="__codelineno-0-39" name="__codelineno-0-39"></a><span class="sd">        ValueError: if download_root and extract_root dirs are the same.</span>
-<a id="__codelineno-0-40" name="__codelineno-0-40"></a><span class="sd">        ValueError: if &lt;extract_root&gt;/antismash/&lt;refseq_assembly_id&gt; dir is not empty.</span>
+<a id="__codelineno-0-39" name="__codelineno-0-39"></a><span class="sd">        ValueError: if `download_root` and `extract_root` dirs are the same.</span>
+<a id="__codelineno-0-40" name="__codelineno-0-40"></a><span class="sd">        ValueError: if `&lt;extract_root&gt;/antismash/&lt;refseq_assembly_id&gt;` dir is not empty.</span>
 <a id="__codelineno-0-41" name="__codelineno-0-41"></a>
 <a id="__codelineno-0-42" name="__codelineno-0-42"></a><span class="sd">    Examples:</span>
 <a id="__codelineno-0-43" name="__codelineno-0-43"></a><span class="sd">        &gt;&gt;&gt; download_and_extract_antismash_metadata(&quot;GCF_004339725.1&quot;, &quot;/data/download&quot;, &quot;/data/extracted&quot;)</span>
@@ -2686,10 +2855,7 @@ <h3 id="nplinker.genomics.antismash.parse_bgc_genbank" class="doc doc-heading">
 
           <details class="quote">
             <summary>Source code in <code>src/nplinker/genomics/antismash/antismash_loader.py</code></summary>
-            <div class="language-python highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal"><a href="#__codelineno-0-110">110</a></span>
-<span class="normal"><a href="#__codelineno-0-111">111</a></span>
-<span class="normal"><a href="#__codelineno-0-112">112</a></span>
-<span class="normal"><a href="#__codelineno-0-113">113</a></span>
+            <div class="language-python highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal"><a href="#__codelineno-0-113">113</a></span>
 <span class="normal"><a href="#__codelineno-0-114">114</a></span>
 <span class="normal"><a href="#__codelineno-0-115">115</a></span>
 <span class="normal"><a href="#__codelineno-0-116">116</a></span>
@@ -2717,38 +2883,41 @@ <h3 id="nplinker.genomics.antismash.parse_bgc_genbank" class="doc doc-heading">
 <span class="normal"><a href="#__codelineno-0-138">138</a></span>
 <span class="normal"><a href="#__codelineno-0-139">139</a></span>
 <span class="normal"><a href="#__codelineno-0-140">140</a></span>
-<span class="normal"><a href="#__codelineno-0-141">141</a></span></pre></div></td><td class="code"><div><pre><span></span><code><a id="__codelineno-0-110" name="__codelineno-0-110"></a><span class="k">def</span> <span class="nf">parse_bgc_genbank</span><span class="p">(</span><span class="n">file</span><span class="p">:</span> <span class="nb">str</span><span class="p">)</span> <span class="o">-&gt;</span> <span class="n">BGC</span><span class="p">:</span>
-<a id="__codelineno-0-111" name="__codelineno-0-111"></a><span class="w">    </span><span class="sd">&quot;&quot;&quot;Parse a single BGC gbk file to BGC object.</span>
-<a id="__codelineno-0-112" name="__codelineno-0-112"></a>
-<a id="__codelineno-0-113" name="__codelineno-0-113"></a><span class="sd">    Args:</span>
-<a id="__codelineno-0-114" name="__codelineno-0-114"></a><span class="sd">        file: Path to BGC gbk file</span>
+<span class="normal"><a href="#__codelineno-0-141">141</a></span>
+<span class="normal"><a href="#__codelineno-0-142">142</a></span>
+<span class="normal"><a href="#__codelineno-0-143">143</a></span>
+<span class="normal"><a href="#__codelineno-0-144">144</a></span></pre></div></td><td class="code"><div><pre><span></span><code><a id="__codelineno-0-113" name="__codelineno-0-113"></a><span class="k">def</span> <span class="nf">parse_bgc_genbank</span><span class="p">(</span><span class="n">file</span><span class="p">:</span> <span class="nb">str</span><span class="p">)</span> <span class="o">-&gt;</span> <span class="n">BGC</span><span class="p">:</span>
+<a id="__codelineno-0-114" name="__codelineno-0-114"></a><span class="w">    </span><span class="sd">&quot;&quot;&quot;Parse a single BGC gbk file to BGC object.</span>
 <a id="__codelineno-0-115" name="__codelineno-0-115"></a>
-<a id="__codelineno-0-116" name="__codelineno-0-116"></a><span class="sd">    Returns:</span>
-<a id="__codelineno-0-117" name="__codelineno-0-117"></a><span class="sd">        BGC object</span>
+<a id="__codelineno-0-116" name="__codelineno-0-116"></a><span class="sd">    Args:</span>
+<a id="__codelineno-0-117" name="__codelineno-0-117"></a><span class="sd">        file: Path to BGC gbk file</span>
 <a id="__codelineno-0-118" name="__codelineno-0-118"></a>
-<a id="__codelineno-0-119" name="__codelineno-0-119"></a><span class="sd">    Examples:</span>
-<a id="__codelineno-0-120" name="__codelineno-0-120"></a><span class="sd">        &gt;&gt;&gt; bgc = AntismashBGCLoader.parse_bgc(</span>
-<a id="__codelineno-0-121" name="__codelineno-0-121"></a><span class="sd">        ...    &quot;/data/antismash/GCF_000016425.1/NC_009380.1.region001.gbk&quot;)</span>
-<a id="__codelineno-0-122" name="__codelineno-0-122"></a><span class="sd">    &quot;&quot;&quot;</span>
-<a id="__codelineno-0-123" name="__codelineno-0-123"></a>    <span class="n">fname</span> <span class="o">=</span> <span class="n">os</span><span class="o">.</span><span class="n">path</span><span class="o">.</span><span class="n">splitext</span><span class="p">(</span><span class="n">os</span><span class="o">.</span><span class="n">path</span><span class="o">.</span><span class="n">basename</span><span class="p">(</span><span class="n">file</span><span class="p">))[</span><span class="mi">0</span><span class="p">]</span>
-<a id="__codelineno-0-124" name="__codelineno-0-124"></a>
-<a id="__codelineno-0-125" name="__codelineno-0-125"></a>    <span class="n">record</span> <span class="o">=</span> <span class="n">SeqIO</span><span class="o">.</span><span class="n">read</span><span class="p">(</span><span class="n">file</span><span class="p">,</span> <span class="nb">format</span><span class="o">=</span><span class="s2">&quot;genbank&quot;</span><span class="p">)</span>
-<a id="__codelineno-0-126" name="__codelineno-0-126"></a>    <span class="n">description</span> <span class="o">=</span> <span class="n">record</span><span class="o">.</span><span class="n">description</span>  <span class="c1"># &quot;DEFINITION&quot; in gbk file</span>
-<a id="__codelineno-0-127" name="__codelineno-0-127"></a>    <span class="n">antismash_id</span> <span class="o">=</span> <span class="n">record</span><span class="o">.</span><span class="n">id</span>  <span class="c1"># &quot;VERSION&quot; in gbk file</span>
-<a id="__codelineno-0-128" name="__codelineno-0-128"></a>    <span class="n">features</span> <span class="o">=</span> <span class="n">_parse_antismash_genbank</span><span class="p">(</span><span class="n">record</span><span class="p">)</span>
-<a id="__codelineno-0-129" name="__codelineno-0-129"></a>    <span class="n">product_prediction</span> <span class="o">=</span> <span class="n">features</span><span class="o">.</span><span class="n">get</span><span class="p">(</span><span class="s2">&quot;product&quot;</span><span class="p">)</span>
-<a id="__codelineno-0-130" name="__codelineno-0-130"></a>    <span class="k">if</span> <span class="n">product_prediction</span> <span class="ow">is</span> <span class="kc">None</span><span class="p">:</span>
-<a id="__codelineno-0-131" name="__codelineno-0-131"></a>        <span class="k">raise</span> <span class="ne">ValueError</span><span class="p">(</span><span class="sa">f</span><span class="s2">&quot;Not found product prediction in antiSMASH Genbank file </span><span class="si">{</span><span class="n">file</span><span class="si">}</span><span class="s2">&quot;</span><span class="p">)</span>
-<a id="__codelineno-0-132" name="__codelineno-0-132"></a>
-<a id="__codelineno-0-133" name="__codelineno-0-133"></a>    <span class="c1"># init BGC</span>
-<a id="__codelineno-0-134" name="__codelineno-0-134"></a>    <span class="n">bgc</span> <span class="o">=</span> <span class="n">BGC</span><span class="p">(</span><span class="n">fname</span><span class="p">,</span> <span class="o">*</span><span class="n">product_prediction</span><span class="p">)</span>
-<a id="__codelineno-0-135" name="__codelineno-0-135"></a>    <span class="n">bgc</span><span class="o">.</span><span class="n">description</span> <span class="o">=</span> <span class="n">description</span>
-<a id="__codelineno-0-136" name="__codelineno-0-136"></a>    <span class="n">bgc</span><span class="o">.</span><span class="n">antismash_id</span> <span class="o">=</span> <span class="n">antismash_id</span>
-<a id="__codelineno-0-137" name="__codelineno-0-137"></a>    <span class="n">bgc</span><span class="o">.</span><span class="n">antismash_file</span> <span class="o">=</span> <span class="n">file</span>
-<a id="__codelineno-0-138" name="__codelineno-0-138"></a>    <span class="n">bgc</span><span class="o">.</span><span class="n">antismash_region</span> <span class="o">=</span> <span class="n">features</span><span class="o">.</span><span class="n">get</span><span class="p">(</span><span class="s2">&quot;region_number&quot;</span><span class="p">)</span>
-<a id="__codelineno-0-139" name="__codelineno-0-139"></a>    <span class="n">bgc</span><span class="o">.</span><span class="n">smiles</span> <span class="o">=</span> <span class="n">features</span><span class="o">.</span><span class="n">get</span><span class="p">(</span><span class="s2">&quot;smiles&quot;</span><span class="p">)</span>
-<a id="__codelineno-0-140" name="__codelineno-0-140"></a>    <span class="n">bgc</span><span class="o">.</span><span class="n">strain</span> <span class="o">=</span> <span class="n">Strain</span><span class="p">(</span><span class="n">fname</span><span class="p">)</span>
-<a id="__codelineno-0-141" name="__codelineno-0-141"></a>    <span class="k">return</span> <span class="n">bgc</span>
+<a id="__codelineno-0-119" name="__codelineno-0-119"></a><span class="sd">    Returns:</span>
+<a id="__codelineno-0-120" name="__codelineno-0-120"></a><span class="sd">        BGC object</span>
+<a id="__codelineno-0-121" name="__codelineno-0-121"></a>
+<a id="__codelineno-0-122" name="__codelineno-0-122"></a><span class="sd">    Examples:</span>
+<a id="__codelineno-0-123" name="__codelineno-0-123"></a><span class="sd">        &gt;&gt;&gt; bgc = AntismashBGCLoader.parse_bgc(</span>
+<a id="__codelineno-0-124" name="__codelineno-0-124"></a><span class="sd">        ...    &quot;/data/antismash/GCF_000016425.1/NC_009380.1.region001.gbk&quot;)</span>
+<a id="__codelineno-0-125" name="__codelineno-0-125"></a><span class="sd">    &quot;&quot;&quot;</span>
+<a id="__codelineno-0-126" name="__codelineno-0-126"></a>    <span class="n">fname</span> <span class="o">=</span> <span class="n">os</span><span class="o">.</span><span class="n">path</span><span class="o">.</span><span class="n">splitext</span><span class="p">(</span><span class="n">os</span><span class="o">.</span><span class="n">path</span><span class="o">.</span><span class="n">basename</span><span class="p">(</span><span class="n">file</span><span class="p">))[</span><span class="mi">0</span><span class="p">]</span>
+<a id="__codelineno-0-127" name="__codelineno-0-127"></a>
+<a id="__codelineno-0-128" name="__codelineno-0-128"></a>    <span class="n">record</span> <span class="o">=</span> <span class="n">SeqIO</span><span class="o">.</span><span class="n">read</span><span class="p">(</span><span class="n">file</span><span class="p">,</span> <span class="nb">format</span><span class="o">=</span><span class="s2">&quot;genbank&quot;</span><span class="p">)</span>
+<a id="__codelineno-0-129" name="__codelineno-0-129"></a>    <span class="n">description</span> <span class="o">=</span> <span class="n">record</span><span class="o">.</span><span class="n">description</span>  <span class="c1"># &quot;DEFINITION&quot; in gbk file</span>
+<a id="__codelineno-0-130" name="__codelineno-0-130"></a>    <span class="n">antismash_id</span> <span class="o">=</span> <span class="n">record</span><span class="o">.</span><span class="n">id</span>  <span class="c1"># &quot;VERSION&quot; in gbk file</span>
+<a id="__codelineno-0-131" name="__codelineno-0-131"></a>    <span class="n">features</span> <span class="o">=</span> <span class="n">_parse_antismash_genbank</span><span class="p">(</span><span class="n">record</span><span class="p">)</span>
+<a id="__codelineno-0-132" name="__codelineno-0-132"></a>    <span class="n">product_prediction</span> <span class="o">=</span> <span class="n">features</span><span class="o">.</span><span class="n">get</span><span class="p">(</span><span class="s2">&quot;product&quot;</span><span class="p">)</span>
+<a id="__codelineno-0-133" name="__codelineno-0-133"></a>    <span class="k">if</span> <span class="n">product_prediction</span> <span class="ow">is</span> <span class="kc">None</span><span class="p">:</span>
+<a id="__codelineno-0-134" name="__codelineno-0-134"></a>        <span class="k">raise</span> <span class="ne">ValueError</span><span class="p">(</span><span class="sa">f</span><span class="s2">&quot;Not found product prediction in antiSMASH Genbank file </span><span class="si">{</span><span class="n">file</span><span class="si">}</span><span class="s2">&quot;</span><span class="p">)</span>
+<a id="__codelineno-0-135" name="__codelineno-0-135"></a>
+<a id="__codelineno-0-136" name="__codelineno-0-136"></a>    <span class="c1"># init BGC</span>
+<a id="__codelineno-0-137" name="__codelineno-0-137"></a>    <span class="n">bgc</span> <span class="o">=</span> <span class="n">BGC</span><span class="p">(</span><span class="n">fname</span><span class="p">,</span> <span class="o">*</span><span class="n">product_prediction</span><span class="p">)</span>
+<a id="__codelineno-0-138" name="__codelineno-0-138"></a>    <span class="n">bgc</span><span class="o">.</span><span class="n">description</span> <span class="o">=</span> <span class="n">description</span>
+<a id="__codelineno-0-139" name="__codelineno-0-139"></a>    <span class="n">bgc</span><span class="o">.</span><span class="n">antismash_id</span> <span class="o">=</span> <span class="n">antismash_id</span>
+<a id="__codelineno-0-140" name="__codelineno-0-140"></a>    <span class="n">bgc</span><span class="o">.</span><span class="n">antismash_file</span> <span class="o">=</span> <span class="n">file</span>
+<a id="__codelineno-0-141" name="__codelineno-0-141"></a>    <span class="n">bgc</span><span class="o">.</span><span class="n">antismash_region</span> <span class="o">=</span> <span class="n">features</span><span class="o">.</span><span class="n">get</span><span class="p">(</span><span class="s2">&quot;region_number&quot;</span><span class="p">)</span>
+<a id="__codelineno-0-142" name="__codelineno-0-142"></a>    <span class="n">bgc</span><span class="o">.</span><span class="n">smiles</span> <span class="o">=</span> <span class="n">features</span><span class="o">.</span><span class="n">get</span><span class="p">(</span><span class="s2">&quot;smiles&quot;</span><span class="p">)</span>
+<a id="__codelineno-0-143" name="__codelineno-0-143"></a>    <span class="n">bgc</span><span class="o">.</span><span class="n">strain</span> <span class="o">=</span> <span class="n">Strain</span><span class="p">(</span><span class="n">fname</span><span class="p">)</span>
+<a id="__codelineno-0-144" name="__codelineno-0-144"></a>    <span class="k">return</span> <span class="n">bgc</span>
 </code></pre></div></td></tr></table></div>
           </details>
   </div>
diff --git a/dev/api/arranger/index.html b/dev/api/arranger/index.html
index 36f69b37..4c6a87b1 100644
--- a/dev/api/arranger/index.html
+++ b/dev/api/arranger/index.html
@@ -762,6 +762,15 @@
     <nav class="md-nav" aria-label=" arranger">
       <ul class="md-nav__list">
         
+          <li class="md-nav__item">
+  <a href="#nplinker.arranger.PODP_PROJECT_URL" class="md-nav__link">
+    <span class="md-ellipsis">
+      <code class="doc-symbol doc-symbol-toc doc-symbol-attribute"></code>&nbsp;PODP_PROJECT_URL
+    </span>
+  </a>
+  
+</li>
+        
           <li class="md-nav__item">
   <a href="#nplinker.arranger.DatasetArranger" class="md-nav__link">
     <span class="md-ellipsis">
@@ -1405,6 +1414,15 @@
     <nav class="md-nav" aria-label=" arranger">
       <ul class="md-nav__list">
         
+          <li class="md-nav__item">
+  <a href="#nplinker.arranger.PODP_PROJECT_URL" class="md-nav__link">
+    <span class="md-ellipsis">
+      <code class="doc-symbol doc-symbol-toc doc-symbol-attribute"></code>&nbsp;PODP_PROJECT_URL
+    </span>
+  </a>
+  
+</li>
+        
           <li class="md-nav__item">
   <a href="#nplinker.arranger.DatasetArranger" class="md-nav__link">
     <span class="md-ellipsis">
@@ -1566,6 +1584,27 @@ <h2 id="nplinker.arranger" class="doc doc-heading">
 
 
 
+<div class="doc doc-object doc-attribute">
+
+
+
+<h3 id="nplinker.arranger.PODP_PROJECT_URL" class="doc doc-heading">
+<code class="doc-symbol doc-symbol-heading doc-symbol-attribute"></code>          <span class="doc doc-object-name doc-attribute-name">PODP_PROJECT_URL</span>
+
+  
+  <span class="doc doc-labels">
+      <small class="doc doc-label doc-label-module-attribute"><code>module-attribute</code></small>
+  </span>
+
+<a href="#nplinker.arranger.PODP_PROJECT_URL" class="headerlink" title="Permanent link">&para;</a></h3>
+<div class="language-python doc-signature highlight"><pre><span></span><code><a id="__codelineno-0-1" name="__codelineno-0-1" href="#__codelineno-0-1"></a><span class="n">PODP_PROJECT_URL</span> <span class="o">=</span> <span class="s1">&#39;https://pairedomicsdata.bioinformatics.nl/api/projects/</span><span class="si">{}</span><span class="s1">&#39;</span>
+</code></pre></div>
+
+  <div class="doc doc-contents ">
+  </div>
+
+</div>
+
 
 <div class="doc doc-object doc-class">
 
@@ -1593,37 +1632,13 @@ <h3 id="nplinker.arranger.DatasetArranger" class="doc doc-heading">
 
                 <details class="quote">
                   <summary>Source code in <code>src/nplinker/arranger.py</code></summary>
-                  <div class="language-python highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal"><a href="#__codelineno-0-31">31</a></span>
-<span class="normal"><a href="#__codelineno-0-32">32</a></span>
-<span class="normal"><a href="#__codelineno-0-33">33</a></span>
-<span class="normal"><a href="#__codelineno-0-34">34</a></span>
-<span class="normal"><a href="#__codelineno-0-35">35</a></span>
-<span class="normal"><a href="#__codelineno-0-36">36</a></span>
-<span class="normal"><a href="#__codelineno-0-37">37</a></span>
-<span class="normal"><a href="#__codelineno-0-38">38</a></span>
-<span class="normal"><a href="#__codelineno-0-39">39</a></span>
-<span class="normal"><a href="#__codelineno-0-40">40</a></span>
-<span class="normal"><a href="#__codelineno-0-41">41</a></span>
-<span class="normal"><a href="#__codelineno-0-42">42</a></span>
-<span class="normal"><a href="#__codelineno-0-43">43</a></span>
-<span class="normal"><a href="#__codelineno-0-44">44</a></span>
+                  <div class="language-python highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal"><a href="#__codelineno-0-44">44</a></span>
 <span class="normal"><a href="#__codelineno-0-45">45</a></span>
-<span class="normal"><a href="#__codelineno-0-46">46</a></span></pre></div></td><td class="code"><div><pre><span></span><code><a id="__codelineno-0-31" name="__codelineno-0-31"></a><span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">)</span> <span class="o">-&gt;</span> <span class="kc">None</span><span class="p">:</span>
-<a id="__codelineno-0-32" name="__codelineno-0-32"></a><span class="w">    </span><span class="sd">&quot;&quot;&quot;Arrange the dataset required by NPLinker.</span>
-<a id="__codelineno-0-33" name="__codelineno-0-33"></a>
-<a id="__codelineno-0-34" name="__codelineno-0-34"></a><span class="sd">    This class is used to arrange the datasets required by NPLinker according to the</span>
-<a id="__codelineno-0-35" name="__codelineno-0-35"></a><span class="sd">    configuration. The datasets include MIBiG, GNPS, antiSMASH, and BiG-SCAPE.</span>
-<a id="__codelineno-0-36" name="__codelineno-0-36"></a>
-<a id="__codelineno-0-37" name="__codelineno-0-37"></a><span class="sd">    If `config.mode` is &quot;local&quot;, the datasets are validated.</span>
-<a id="__codelineno-0-38" name="__codelineno-0-38"></a><span class="sd">    If `config.mode` is &quot;podp&quot;, the datasets are downloaded or generated.</span>
-<a id="__codelineno-0-39" name="__codelineno-0-39"></a>
-<a id="__codelineno-0-40" name="__codelineno-0-40"></a><span class="sd">    It uses the default downloads directory `globals.DOWNLOADS_DEFAULT_PATH` to store the</span>
-<a id="__codelineno-0-41" name="__codelineno-0-41"></a><span class="sd">    downloaded files. Default data paths for MIBiG, GNPS, antiSMASH, and BiG-SCAPE are defined</span>
-<a id="__codelineno-0-42" name="__codelineno-0-42"></a><span class="sd">    in `nplinker.globals`.</span>
-<a id="__codelineno-0-43" name="__codelineno-0-43"></a><span class="sd">    &quot;&quot;&quot;</span>
-<a id="__codelineno-0-44" name="__codelineno-0-44"></a>    <span class="c1"># Prepare the downloads directory and/or PODP json file which are required for other methods</span>
-<a id="__codelineno-0-45" name="__codelineno-0-45"></a>    <span class="nb">globals</span><span class="o">.</span><span class="n">DOWNLOADS_DEFAULT_PATH</span><span class="o">.</span><span class="n">mkdir</span><span class="p">(</span><span class="n">exist_ok</span><span class="o">=</span><span class="kc">True</span><span class="p">)</span>
-<a id="__codelineno-0-46" name="__codelineno-0-46"></a>    <span class="bp">self</span><span class="o">.</span><span class="n">arrange_podp_project_json</span><span class="p">()</span>
+<span class="normal"><a href="#__codelineno-0-46">46</a></span>
+<span class="normal"><a href="#__codelineno-0-47">47</a></span></pre></div></td><td class="code"><div><pre><span></span><code><a id="__codelineno-0-44" name="__codelineno-0-44"></a><span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">)</span> <span class="o">-&gt;</span> <span class="kc">None</span><span class="p">:</span>
+<a id="__codelineno-0-45" name="__codelineno-0-45"></a>    <span class="c1"># Prepare the downloads directory and/or PODP json file which are required for other methods</span>
+<a id="__codelineno-0-46" name="__codelineno-0-46"></a>    <span class="nb">globals</span><span class="o">.</span><span class="n">DOWNLOADS_DEFAULT_PATH</span><span class="o">.</span><span class="n">mkdir</span><span class="p">(</span><span class="n">exist_ok</span><span class="o">=</span><span class="kc">True</span><span class="p">)</span>
+<a id="__codelineno-0-47" name="__codelineno-0-47"></a>    <span class="bp">self</span><span class="o">.</span><span class="n">arrange_podp_project_json</span><span class="p">()</span>
 </code></pre></div></td></tr></table></div>
                 </details>
 
@@ -1659,8 +1674,7 @@ <h4 id="nplinker.arranger.DatasetArranger.arrange" class="doc doc-heading">
 
           <details class="quote">
             <summary>Source code in <code>src/nplinker/arranger.py</code></summary>
-            <div class="language-python highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal"><a href="#__codelineno-0-48">48</a></span>
-<span class="normal"><a href="#__codelineno-0-49">49</a></span>
+            <div class="language-python highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal"><a href="#__codelineno-0-49">49</a></span>
 <span class="normal"><a href="#__codelineno-0-50">50</a></span>
 <span class="normal"><a href="#__codelineno-0-51">51</a></span>
 <span class="normal"><a href="#__codelineno-0-52">52</a></span>
@@ -1670,18 +1684,19 @@ <h4 id="nplinker.arranger.DatasetArranger.arrange" class="doc doc-heading">
 <span class="normal"><a href="#__codelineno-0-56">56</a></span>
 <span class="normal"><a href="#__codelineno-0-57">57</a></span>
 <span class="normal"><a href="#__codelineno-0-58">58</a></span>
-<span class="normal"><a href="#__codelineno-0-59">59</a></span></pre></div></td><td class="code"><div><pre><span></span><code><a id="__codelineno-0-48" name="__codelineno-0-48"></a><span class="k">def</span> <span class="nf">arrange</span><span class="p">(</span><span class="bp">self</span><span class="p">)</span> <span class="o">-&gt;</span> <span class="kc">None</span><span class="p">:</span>
-<a id="__codelineno-0-49" name="__codelineno-0-49"></a><span class="w">    </span><span class="sd">&quot;&quot;&quot;Arrange the datasets according to the configuration.</span>
-<a id="__codelineno-0-50" name="__codelineno-0-50"></a>
-<a id="__codelineno-0-51" name="__codelineno-0-51"></a><span class="sd">    The datasets include MIBiG, GNPS, antiSMASH, and BiG-SCAPE.</span>
-<a id="__codelineno-0-52" name="__codelineno-0-52"></a><span class="sd">    &quot;&quot;&quot;</span>
-<a id="__codelineno-0-53" name="__codelineno-0-53"></a>    <span class="c1"># The order of arranging the datasets matters, as some datasets depend on others</span>
-<a id="__codelineno-0-54" name="__codelineno-0-54"></a>    <span class="bp">self</span><span class="o">.</span><span class="n">arrange_mibig</span><span class="p">()</span>
-<a id="__codelineno-0-55" name="__codelineno-0-55"></a>    <span class="bp">self</span><span class="o">.</span><span class="n">arrange_gnps</span><span class="p">()</span>
-<a id="__codelineno-0-56" name="__codelineno-0-56"></a>    <span class="bp">self</span><span class="o">.</span><span class="n">arrange_antismash</span><span class="p">()</span>
-<a id="__codelineno-0-57" name="__codelineno-0-57"></a>    <span class="bp">self</span><span class="o">.</span><span class="n">arrange_bigscape</span><span class="p">()</span>
-<a id="__codelineno-0-58" name="__codelineno-0-58"></a>    <span class="bp">self</span><span class="o">.</span><span class="n">arrange_strain_mappings</span><span class="p">()</span>
-<a id="__codelineno-0-59" name="__codelineno-0-59"></a>    <span class="bp">self</span><span class="o">.</span><span class="n">arrange_strains_selected</span><span class="p">()</span>
+<span class="normal"><a href="#__codelineno-0-59">59</a></span>
+<span class="normal"><a href="#__codelineno-0-60">60</a></span></pre></div></td><td class="code"><div><pre><span></span><code><a id="__codelineno-0-49" name="__codelineno-0-49"></a><span class="k">def</span> <span class="nf">arrange</span><span class="p">(</span><span class="bp">self</span><span class="p">)</span> <span class="o">-&gt;</span> <span class="kc">None</span><span class="p">:</span>
+<a id="__codelineno-0-50" name="__codelineno-0-50"></a><span class="w">    </span><span class="sd">&quot;&quot;&quot;Arrange the datasets according to the configuration.</span>
+<a id="__codelineno-0-51" name="__codelineno-0-51"></a>
+<a id="__codelineno-0-52" name="__codelineno-0-52"></a><span class="sd">    The datasets include MIBiG, GNPS, antiSMASH, and BiG-SCAPE.</span>
+<a id="__codelineno-0-53" name="__codelineno-0-53"></a><span class="sd">    &quot;&quot;&quot;</span>
+<a id="__codelineno-0-54" name="__codelineno-0-54"></a>    <span class="c1"># The order of arranging the datasets matters, as some datasets depend on others</span>
+<a id="__codelineno-0-55" name="__codelineno-0-55"></a>    <span class="bp">self</span><span class="o">.</span><span class="n">arrange_mibig</span><span class="p">()</span>
+<a id="__codelineno-0-56" name="__codelineno-0-56"></a>    <span class="bp">self</span><span class="o">.</span><span class="n">arrange_gnps</span><span class="p">()</span>
+<a id="__codelineno-0-57" name="__codelineno-0-57"></a>    <span class="bp">self</span><span class="o">.</span><span class="n">arrange_antismash</span><span class="p">()</span>
+<a id="__codelineno-0-58" name="__codelineno-0-58"></a>    <span class="bp">self</span><span class="o">.</span><span class="n">arrange_bigscape</span><span class="p">()</span>
+<a id="__codelineno-0-59" name="__codelineno-0-59"></a>    <span class="bp">self</span><span class="o">.</span><span class="n">arrange_strain_mappings</span><span class="p">()</span>
+<a id="__codelineno-0-60" name="__codelineno-0-60"></a>    <span class="bp">self</span><span class="o">.</span><span class="n">arrange_strains_selected</span><span class="p">()</span>
 </code></pre></div></td></tr></table></div>
           </details>
   </div>
@@ -1710,8 +1725,7 @@ <h4 id="nplinker.arranger.DatasetArranger.arrange_podp_project_json" class="doc
 
           <details class="quote">
             <summary>Source code in <code>src/nplinker/arranger.py</code></summary>
-            <div class="language-python highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal"><a href="#__codelineno-0-61">61</a></span>
-<span class="normal"><a href="#__codelineno-0-62">62</a></span>
+            <div class="language-python highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal"><a href="#__codelineno-0-62">62</a></span>
 <span class="normal"><a href="#__codelineno-0-63">63</a></span>
 <span class="normal"><a href="#__codelineno-0-64">64</a></span>
 <span class="normal"><a href="#__codelineno-0-65">65</a></span>
@@ -1730,27 +1744,28 @@ <h4 id="nplinker.arranger.DatasetArranger.arrange_podp_project_json" class="doc
 <span class="normal"><a href="#__codelineno-0-78">78</a></span>
 <span class="normal"><a href="#__codelineno-0-79">79</a></span>
 <span class="normal"><a href="#__codelineno-0-80">80</a></span>
-<span class="normal"><a href="#__codelineno-0-81">81</a></span></pre></div></td><td class="code"><div><pre><span></span><code><a id="__codelineno-0-61" name="__codelineno-0-61"></a><span class="k">def</span> <span class="nf">arrange_podp_project_json</span><span class="p">(</span><span class="bp">self</span><span class="p">)</span> <span class="o">-&gt;</span> <span class="kc">None</span><span class="p">:</span>
-<a id="__codelineno-0-62" name="__codelineno-0-62"></a><span class="w">    </span><span class="sd">&quot;&quot;&quot;Arrange the PODP project JSON file.</span>
-<a id="__codelineno-0-63" name="__codelineno-0-63"></a>
-<a id="__codelineno-0-64" name="__codelineno-0-64"></a><span class="sd">    If `config.mode` is &quot;podp&quot;, download the PODP project JSON file if it doesn&#39;t exist. Then</span>
-<a id="__codelineno-0-65" name="__codelineno-0-65"></a><span class="sd">    validate the PODP project JSON file if it exists or is downloaded.</span>
-<a id="__codelineno-0-66" name="__codelineno-0-66"></a>
-<a id="__codelineno-0-67" name="__codelineno-0-67"></a><span class="sd">    The validation is controlled by the json schema `schemas/podp_adapted_schema.json`.</span>
-<a id="__codelineno-0-68" name="__codelineno-0-68"></a><span class="sd">    &quot;&quot;&quot;</span>
-<a id="__codelineno-0-69" name="__codelineno-0-69"></a>    <span class="k">if</span> <span class="n">config</span><span class="o">.</span><span class="n">mode</span> <span class="o">==</span> <span class="s2">&quot;podp&quot;</span><span class="p">:</span>
-<a id="__codelineno-0-70" name="__codelineno-0-70"></a>        <span class="n">file_name</span> <span class="o">=</span> <span class="sa">f</span><span class="s2">&quot;paired_datarecord_</span><span class="si">{</span><span class="n">config</span><span class="o">.</span><span class="n">podp_id</span><span class="si">}</span><span class="s2">.json&quot;</span>
-<a id="__codelineno-0-71" name="__codelineno-0-71"></a>        <span class="n">podp_file</span> <span class="o">=</span> <span class="nb">globals</span><span class="o">.</span><span class="n">DOWNLOADS_DEFAULT_PATH</span> <span class="o">/</span> <span class="n">file_name</span>
-<a id="__codelineno-0-72" name="__codelineno-0-72"></a>        <span class="k">if</span> <span class="ow">not</span> <span class="n">podp_file</span><span class="o">.</span><span class="n">exists</span><span class="p">():</span>
-<a id="__codelineno-0-73" name="__codelineno-0-73"></a>            <span class="n">download_url</span><span class="p">(</span>
-<a id="__codelineno-0-74" name="__codelineno-0-74"></a>                <span class="n">PODP_PROJECT_URL</span><span class="o">.</span><span class="n">format</span><span class="p">(</span><span class="n">config</span><span class="o">.</span><span class="n">podp_id</span><span class="p">),</span>
-<a id="__codelineno-0-75" name="__codelineno-0-75"></a>                <span class="nb">globals</span><span class="o">.</span><span class="n">DOWNLOADS_DEFAULT_PATH</span><span class="p">,</span>
-<a id="__codelineno-0-76" name="__codelineno-0-76"></a>                <span class="n">file_name</span><span class="p">,</span>
-<a id="__codelineno-0-77" name="__codelineno-0-77"></a>            <span class="p">)</span>
-<a id="__codelineno-0-78" name="__codelineno-0-78"></a>
-<a id="__codelineno-0-79" name="__codelineno-0-79"></a>        <span class="k">with</span> <span class="nb">open</span><span class="p">(</span><span class="n">podp_file</span><span class="p">,</span> <span class="s2">&quot;r&quot;</span><span class="p">)</span> <span class="k">as</span> <span class="n">f</span><span class="p">:</span>
-<a id="__codelineno-0-80" name="__codelineno-0-80"></a>            <span class="n">json_data</span> <span class="o">=</span> <span class="n">json</span><span class="o">.</span><span class="n">load</span><span class="p">(</span><span class="n">f</span><span class="p">)</span>
-<a id="__codelineno-0-81" name="__codelineno-0-81"></a>        <span class="n">validate_podp_json</span><span class="p">(</span><span class="n">json_data</span><span class="p">)</span>
+<span class="normal"><a href="#__codelineno-0-81">81</a></span>
+<span class="normal"><a href="#__codelineno-0-82">82</a></span></pre></div></td><td class="code"><div><pre><span></span><code><a id="__codelineno-0-62" name="__codelineno-0-62"></a><span class="k">def</span> <span class="nf">arrange_podp_project_json</span><span class="p">(</span><span class="bp">self</span><span class="p">)</span> <span class="o">-&gt;</span> <span class="kc">None</span><span class="p">:</span>
+<a id="__codelineno-0-63" name="__codelineno-0-63"></a><span class="w">    </span><span class="sd">&quot;&quot;&quot;Arrange the PODP project JSON file.</span>
+<a id="__codelineno-0-64" name="__codelineno-0-64"></a>
+<a id="__codelineno-0-65" name="__codelineno-0-65"></a><span class="sd">    If `config.mode` is &quot;podp&quot;, download the PODP project JSON file if it doesn&#39;t exist. Then</span>
+<a id="__codelineno-0-66" name="__codelineno-0-66"></a><span class="sd">    validate the PODP project JSON file if it exists or is downloaded.</span>
+<a id="__codelineno-0-67" name="__codelineno-0-67"></a>
+<a id="__codelineno-0-68" name="__codelineno-0-68"></a><span class="sd">    The validation is controlled by the json schema `schemas/podp_adapted_schema.json`.</span>
+<a id="__codelineno-0-69" name="__codelineno-0-69"></a><span class="sd">    &quot;&quot;&quot;</span>
+<a id="__codelineno-0-70" name="__codelineno-0-70"></a>    <span class="k">if</span> <span class="n">config</span><span class="o">.</span><span class="n">mode</span> <span class="o">==</span> <span class="s2">&quot;podp&quot;</span><span class="p">:</span>
+<a id="__codelineno-0-71" name="__codelineno-0-71"></a>        <span class="n">file_name</span> <span class="o">=</span> <span class="sa">f</span><span class="s2">&quot;paired_datarecord_</span><span class="si">{</span><span class="n">config</span><span class="o">.</span><span class="n">podp_id</span><span class="si">}</span><span class="s2">.json&quot;</span>
+<a id="__codelineno-0-72" name="__codelineno-0-72"></a>        <span class="n">podp_file</span> <span class="o">=</span> <span class="nb">globals</span><span class="o">.</span><span class="n">DOWNLOADS_DEFAULT_PATH</span> <span class="o">/</span> <span class="n">file_name</span>
+<a id="__codelineno-0-73" name="__codelineno-0-73"></a>        <span class="k">if</span> <span class="ow">not</span> <span class="n">podp_file</span><span class="o">.</span><span class="n">exists</span><span class="p">():</span>
+<a id="__codelineno-0-74" name="__codelineno-0-74"></a>            <span class="n">download_url</span><span class="p">(</span>
+<a id="__codelineno-0-75" name="__codelineno-0-75"></a>                <span class="n">PODP_PROJECT_URL</span><span class="o">.</span><span class="n">format</span><span class="p">(</span><span class="n">config</span><span class="o">.</span><span class="n">podp_id</span><span class="p">),</span>
+<a id="__codelineno-0-76" name="__codelineno-0-76"></a>                <span class="nb">globals</span><span class="o">.</span><span class="n">DOWNLOADS_DEFAULT_PATH</span><span class="p">,</span>
+<a id="__codelineno-0-77" name="__codelineno-0-77"></a>                <span class="n">file_name</span><span class="p">,</span>
+<a id="__codelineno-0-78" name="__codelineno-0-78"></a>            <span class="p">)</span>
+<a id="__codelineno-0-79" name="__codelineno-0-79"></a>
+<a id="__codelineno-0-80" name="__codelineno-0-80"></a>        <span class="k">with</span> <span class="nb">open</span><span class="p">(</span><span class="n">podp_file</span><span class="p">,</span> <span class="s2">&quot;r&quot;</span><span class="p">)</span> <span class="k">as</span> <span class="n">f</span><span class="p">:</span>
+<a id="__codelineno-0-81" name="__codelineno-0-81"></a>            <span class="n">json_data</span> <span class="o">=</span> <span class="n">json</span><span class="o">.</span><span class="n">load</span><span class="p">(</span><span class="n">f</span><span class="p">)</span>
+<a id="__codelineno-0-82" name="__codelineno-0-82"></a>        <span class="n">validate_podp_json</span><span class="p">(</span><span class="n">json_data</span><span class="p">)</span>
 </code></pre></div></td></tr></table></div>
           </details>
   </div>
@@ -1780,39 +1795,39 @@ <h4 id="nplinker.arranger.DatasetArranger.arrange_mibig" class="doc doc-heading"
 
           <details class="quote">
             <summary>Source code in <code>src/nplinker/arranger.py</code></summary>
-            <div class="language-python highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal"><a href="#__codelineno-0-83">83</a></span>
-<span class="normal"><a href="#__codelineno-0-84">84</a></span>
-<span class="normal"><a href="#__codelineno-0-85">85</a></span>
-<span class="normal"><a href="#__codelineno-0-86">86</a></span>
-<span class="normal"><a href="#__codelineno-0-87">87</a></span>
-<span class="normal"><a href="#__codelineno-0-88">88</a></span>
-<span class="normal"><a href="#__codelineno-0-89">89</a></span>
-<span class="normal"><a href="#__codelineno-0-90">90</a></span>
-<span class="normal"><a href="#__codelineno-0-91">91</a></span>
-<span class="normal"><a href="#__codelineno-0-92">92</a></span>
-<span class="normal"><a href="#__codelineno-0-93">93</a></span>
-<span class="normal"><a href="#__codelineno-0-94">94</a></span>
-<span class="normal"><a href="#__codelineno-0-95">95</a></span>
-<span class="normal"><a href="#__codelineno-0-96">96</a></span>
-<span class="normal"><a href="#__codelineno-0-97">97</a></span>
-<span class="normal"><a href="#__codelineno-0-98">98</a></span>
-<span class="normal"><a href="#__codelineno-0-99">99</a></span></pre></div></td><td class="code"><div><pre><span></span><code><a id="__codelineno-0-83" name="__codelineno-0-83"></a><span class="k">def</span> <span class="nf">arrange_mibig</span><span class="p">(</span><span class="bp">self</span><span class="p">)</span> <span class="o">-&gt;</span> <span class="kc">None</span><span class="p">:</span>
-<a id="__codelineno-0-84" name="__codelineno-0-84"></a><span class="w">    </span><span class="sd">&quot;&quot;&quot;Arrange the MIBiG metadata.</span>
-<a id="__codelineno-0-85" name="__codelineno-0-85"></a>
-<a id="__codelineno-0-86" name="__codelineno-0-86"></a><span class="sd">    Always download and extract the MIBiG metadata if `config.mibig.to_use` is True.</span>
-<a id="__codelineno-0-87" name="__codelineno-0-87"></a><span class="sd">    If the default directory has already existed, it will be removed and re-downloaded to ensure</span>
-<a id="__codelineno-0-88" name="__codelineno-0-88"></a><span class="sd">    the latest version is used. So it&#39;s not allowed to manually put MIBiG metadata in the</span>
-<a id="__codelineno-0-89" name="__codelineno-0-89"></a><span class="sd">    default directory.</span>
-<a id="__codelineno-0-90" name="__codelineno-0-90"></a><span class="sd">    &quot;&quot;&quot;</span>
-<a id="__codelineno-0-91" name="__codelineno-0-91"></a>    <span class="k">if</span> <span class="n">config</span><span class="o">.</span><span class="n">mibig</span><span class="o">.</span><span class="n">to_use</span><span class="p">:</span>
-<a id="__codelineno-0-92" name="__codelineno-0-92"></a>        <span class="k">if</span> <span class="nb">globals</span><span class="o">.</span><span class="n">MIBIG_DEFAULT_PATH</span><span class="o">.</span><span class="n">exists</span><span class="p">():</span>
-<a id="__codelineno-0-93" name="__codelineno-0-93"></a>            <span class="c1"># remove existing mibig data</span>
-<a id="__codelineno-0-94" name="__codelineno-0-94"></a>            <span class="n">shutil</span><span class="o">.</span><span class="n">rmtree</span><span class="p">(</span><span class="nb">globals</span><span class="o">.</span><span class="n">MIBIG_DEFAULT_PATH</span><span class="p">)</span>
-<a id="__codelineno-0-95" name="__codelineno-0-95"></a>        <span class="n">download_and_extract_mibig_metadata</span><span class="p">(</span>
-<a id="__codelineno-0-96" name="__codelineno-0-96"></a>            <span class="nb">globals</span><span class="o">.</span><span class="n">DOWNLOADS_DEFAULT_PATH</span><span class="p">,</span>
-<a id="__codelineno-0-97" name="__codelineno-0-97"></a>            <span class="nb">globals</span><span class="o">.</span><span class="n">MIBIG_DEFAULT_PATH</span><span class="p">,</span>
-<a id="__codelineno-0-98" name="__codelineno-0-98"></a>            <span class="n">version</span><span class="o">=</span><span class="n">config</span><span class="o">.</span><span class="n">mibig</span><span class="o">.</span><span class="n">version</span><span class="p">,</span>
-<a id="__codelineno-0-99" name="__codelineno-0-99"></a>        <span class="p">)</span>
+            <div class="language-python highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal"><a href="#__codelineno-0-84"> 84</a></span>
+<span class="normal"><a href="#__codelineno-0-85"> 85</a></span>
+<span class="normal"><a href="#__codelineno-0-86"> 86</a></span>
+<span class="normal"><a href="#__codelineno-0-87"> 87</a></span>
+<span class="normal"><a href="#__codelineno-0-88"> 88</a></span>
+<span class="normal"><a href="#__codelineno-0-89"> 89</a></span>
+<span class="normal"><a href="#__codelineno-0-90"> 90</a></span>
+<span class="normal"><a href="#__codelineno-0-91"> 91</a></span>
+<span class="normal"><a href="#__codelineno-0-92"> 92</a></span>
+<span class="normal"><a href="#__codelineno-0-93"> 93</a></span>
+<span class="normal"><a href="#__codelineno-0-94"> 94</a></span>
+<span class="normal"><a href="#__codelineno-0-95"> 95</a></span>
+<span class="normal"><a href="#__codelineno-0-96"> 96</a></span>
+<span class="normal"><a href="#__codelineno-0-97"> 97</a></span>
+<span class="normal"><a href="#__codelineno-0-98"> 98</a></span>
+<span class="normal"><a href="#__codelineno-0-99"> 99</a></span>
+<span class="normal"><a href="#__codelineno-0-100">100</a></span></pre></div></td><td class="code"><div><pre><span></span><code><a id="__codelineno-0-84" name="__codelineno-0-84"></a><span class="k">def</span> <span class="nf">arrange_mibig</span><span class="p">(</span><span class="bp">self</span><span class="p">)</span> <span class="o">-&gt;</span> <span class="kc">None</span><span class="p">:</span>
+<a id="__codelineno-0-85" name="__codelineno-0-85"></a><span class="w">    </span><span class="sd">&quot;&quot;&quot;Arrange the MIBiG metadata.</span>
+<a id="__codelineno-0-86" name="__codelineno-0-86"></a>
+<a id="__codelineno-0-87" name="__codelineno-0-87"></a><span class="sd">    Always download and extract the MIBiG metadata if `config.mibig.to_use` is True.</span>
+<a id="__codelineno-0-88" name="__codelineno-0-88"></a><span class="sd">    If the default directory has already existed, it will be removed and re-downloaded to ensure</span>
+<a id="__codelineno-0-89" name="__codelineno-0-89"></a><span class="sd">    the latest version is used. So it&#39;s not allowed to manually put MIBiG metadata in the</span>
+<a id="__codelineno-0-90" name="__codelineno-0-90"></a><span class="sd">    default directory.</span>
+<a id="__codelineno-0-91" name="__codelineno-0-91"></a><span class="sd">    &quot;&quot;&quot;</span>
+<a id="__codelineno-0-92" name="__codelineno-0-92"></a>    <span class="k">if</span> <span class="n">config</span><span class="o">.</span><span class="n">mibig</span><span class="o">.</span><span class="n">to_use</span><span class="p">:</span>
+<a id="__codelineno-0-93" name="__codelineno-0-93"></a>        <span class="k">if</span> <span class="nb">globals</span><span class="o">.</span><span class="n">MIBIG_DEFAULT_PATH</span><span class="o">.</span><span class="n">exists</span><span class="p">():</span>
+<a id="__codelineno-0-94" name="__codelineno-0-94"></a>            <span class="c1"># remove existing mibig data</span>
+<a id="__codelineno-0-95" name="__codelineno-0-95"></a>            <span class="n">shutil</span><span class="o">.</span><span class="n">rmtree</span><span class="p">(</span><span class="nb">globals</span><span class="o">.</span><span class="n">MIBIG_DEFAULT_PATH</span><span class="p">)</span>
+<a id="__codelineno-0-96" name="__codelineno-0-96"></a>        <span class="n">download_and_extract_mibig_metadata</span><span class="p">(</span>
+<a id="__codelineno-0-97" name="__codelineno-0-97"></a>            <span class="nb">globals</span><span class="o">.</span><span class="n">DOWNLOADS_DEFAULT_PATH</span><span class="p">,</span>
+<a id="__codelineno-0-98" name="__codelineno-0-98"></a>            <span class="nb">globals</span><span class="o">.</span><span class="n">MIBIG_DEFAULT_PATH</span><span class="p">,</span>
+<a id="__codelineno-0-99" name="__codelineno-0-99"></a>            <span class="n">version</span><span class="o">=</span><span class="n">config</span><span class="o">.</span><span class="n">mibig</span><span class="o">.</span><span class="n">version</span><span class="p">,</span>
+<a id="__codelineno-0-100" name="__codelineno-0-100"></a>        <span class="p">)</span>
 </code></pre></div></td></tr></table></div>
           </details>
   </div>
@@ -1852,8 +1867,7 @@ <h4 id="nplinker.arranger.DatasetArranger.arrange_gnps" class="doc doc-heading">
 
           <details class="quote">
             <summary>Source code in <code>src/nplinker/arranger.py</code></summary>
-            <div class="language-python highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal"><a href="#__codelineno-0-101">101</a></span>
-<span class="normal"><a href="#__codelineno-0-102">102</a></span>
+            <div class="language-python highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal"><a href="#__codelineno-0-102">102</a></span>
 <span class="normal"><a href="#__codelineno-0-103">103</a></span>
 <span class="normal"><a href="#__codelineno-0-104">104</a></span>
 <span class="normal"><a href="#__codelineno-0-105">105</a></span>
@@ -1885,40 +1899,41 @@ <h4 id="nplinker.arranger.DatasetArranger.arrange_gnps" class="doc doc-heading">
 <span class="normal"><a href="#__codelineno-0-131">131</a></span>
 <span class="normal"><a href="#__codelineno-0-132">132</a></span>
 <span class="normal"><a href="#__codelineno-0-133">133</a></span>
-<span class="normal"><a href="#__codelineno-0-134">134</a></span></pre></div></td><td class="code"><div><pre><span></span><code><a id="__codelineno-0-101" name="__codelineno-0-101"></a><span class="k">def</span> <span class="nf">arrange_gnps</span><span class="p">(</span><span class="bp">self</span><span class="p">)</span> <span class="o">-&gt;</span> <span class="kc">None</span><span class="p">:</span>
-<a id="__codelineno-0-102" name="__codelineno-0-102"></a><span class="w">    </span><span class="sd">&quot;&quot;&quot;Arrange the GNPS data.</span>
-<a id="__codelineno-0-103" name="__codelineno-0-103"></a>
-<a id="__codelineno-0-104" name="__codelineno-0-104"></a><span class="sd">    If `config.mode` is &quot;local&quot;, validate the GNPS data directory.</span>
-<a id="__codelineno-0-105" name="__codelineno-0-105"></a><span class="sd">    If `config.mode` is &quot;podp&quot;, download the GNPS data if it doesn&#39;t exist or remove the</span>
-<a id="__codelineno-0-106" name="__codelineno-0-106"></a><span class="sd">    existing GNPS data and re-download it if it is invalid.</span>
-<a id="__codelineno-0-107" name="__codelineno-0-107"></a>
-<a id="__codelineno-0-108" name="__codelineno-0-108"></a><span class="sd">    The validation process includes:</span>
-<a id="__codelineno-0-109" name="__codelineno-0-109"></a>
-<a id="__codelineno-0-110" name="__codelineno-0-110"></a><span class="sd">    - Check if the GNPS data directory exists.</span>
-<a id="__codelineno-0-111" name="__codelineno-0-111"></a><span class="sd">    - Check if the required files exist in the GNPS data directory, including:</span>
-<a id="__codelineno-0-112" name="__codelineno-0-112"></a><span class="sd">        - file_mappings.tsv or file_mappings.csv</span>
-<a id="__codelineno-0-113" name="__codelineno-0-113"></a><span class="sd">        - spectra.mgf</span>
-<a id="__codelineno-0-114" name="__codelineno-0-114"></a><span class="sd">        - molecular_families.tsv</span>
-<a id="__codelineno-0-115" name="__codelineno-0-115"></a><span class="sd">        - annotations.tsv</span>
-<a id="__codelineno-0-116" name="__codelineno-0-116"></a><span class="sd">    &quot;&quot;&quot;</span>
-<a id="__codelineno-0-117" name="__codelineno-0-117"></a>    <span class="n">pass_validation</span> <span class="o">=</span> <span class="kc">False</span>
-<a id="__codelineno-0-118" name="__codelineno-0-118"></a>    <span class="k">if</span> <span class="n">config</span><span class="o">.</span><span class="n">mode</span> <span class="o">==</span> <span class="s2">&quot;podp&quot;</span><span class="p">:</span>
-<a id="__codelineno-0-119" name="__codelineno-0-119"></a>        <span class="c1"># retry downloading at most 3 times if downloaded data has problems</span>
-<a id="__codelineno-0-120" name="__codelineno-0-120"></a>        <span class="k">for</span> <span class="n">_</span> <span class="ow">in</span> <span class="nb">range</span><span class="p">(</span><span class="mi">3</span><span class="p">):</span>
-<a id="__codelineno-0-121" name="__codelineno-0-121"></a>            <span class="k">try</span><span class="p">:</span>
-<a id="__codelineno-0-122" name="__codelineno-0-122"></a>                <span class="n">validate_gnps</span><span class="p">(</span><span class="nb">globals</span><span class="o">.</span><span class="n">GNPS_DEFAULT_PATH</span><span class="p">)</span>
-<a id="__codelineno-0-123" name="__codelineno-0-123"></a>                <span class="n">pass_validation</span> <span class="o">=</span> <span class="kc">True</span>
-<a id="__codelineno-0-124" name="__codelineno-0-124"></a>                <span class="k">break</span>
-<a id="__codelineno-0-125" name="__codelineno-0-125"></a>            <span class="k">except</span> <span class="p">(</span><span class="ne">FileNotFoundError</span><span class="p">,</span> <span class="ne">ValueError</span><span class="p">):</span>
-<a id="__codelineno-0-126" name="__codelineno-0-126"></a>                <span class="c1"># Don&#39;t need to remove downloaded archive, as it&#39;ll be overwritten</span>
-<a id="__codelineno-0-127" name="__codelineno-0-127"></a>                <span class="n">shutil</span><span class="o">.</span><span class="n">rmtree</span><span class="p">(</span><span class="nb">globals</span><span class="o">.</span><span class="n">GNPS_DEFAULT_PATH</span><span class="p">,</span> <span class="n">ignore_errors</span><span class="o">=</span><span class="kc">True</span><span class="p">)</span>
-<a id="__codelineno-0-128" name="__codelineno-0-128"></a>                <span class="bp">self</span><span class="o">.</span><span class="n">_download_and_extract_gnps</span><span class="p">()</span>
-<a id="__codelineno-0-129" name="__codelineno-0-129"></a>
-<a id="__codelineno-0-130" name="__codelineno-0-130"></a>    <span class="k">if</span> <span class="ow">not</span> <span class="n">pass_validation</span><span class="p">:</span>
-<a id="__codelineno-0-131" name="__codelineno-0-131"></a>        <span class="n">validate_gnps</span><span class="p">(</span><span class="nb">globals</span><span class="o">.</span><span class="n">GNPS_DEFAULT_PATH</span><span class="p">)</span>
-<a id="__codelineno-0-132" name="__codelineno-0-132"></a>
-<a id="__codelineno-0-133" name="__codelineno-0-133"></a>    <span class="c1"># get the path to file_mappings file (csv or tsv)</span>
-<a id="__codelineno-0-134" name="__codelineno-0-134"></a>    <span class="bp">self</span><span class="o">.</span><span class="n">gnps_file_mappings_file</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">_get_gnps_file_mappings_file</span><span class="p">()</span>
+<span class="normal"><a href="#__codelineno-0-134">134</a></span>
+<span class="normal"><a href="#__codelineno-0-135">135</a></span></pre></div></td><td class="code"><div><pre><span></span><code><a id="__codelineno-0-102" name="__codelineno-0-102"></a><span class="k">def</span> <span class="nf">arrange_gnps</span><span class="p">(</span><span class="bp">self</span><span class="p">)</span> <span class="o">-&gt;</span> <span class="kc">None</span><span class="p">:</span>
+<a id="__codelineno-0-103" name="__codelineno-0-103"></a><span class="w">    </span><span class="sd">&quot;&quot;&quot;Arrange the GNPS data.</span>
+<a id="__codelineno-0-104" name="__codelineno-0-104"></a>
+<a id="__codelineno-0-105" name="__codelineno-0-105"></a><span class="sd">    If `config.mode` is &quot;local&quot;, validate the GNPS data directory.</span>
+<a id="__codelineno-0-106" name="__codelineno-0-106"></a><span class="sd">    If `config.mode` is &quot;podp&quot;, download the GNPS data if it doesn&#39;t exist or remove the</span>
+<a id="__codelineno-0-107" name="__codelineno-0-107"></a><span class="sd">    existing GNPS data and re-download it if it is invalid.</span>
+<a id="__codelineno-0-108" name="__codelineno-0-108"></a>
+<a id="__codelineno-0-109" name="__codelineno-0-109"></a><span class="sd">    The validation process includes:</span>
+<a id="__codelineno-0-110" name="__codelineno-0-110"></a>
+<a id="__codelineno-0-111" name="__codelineno-0-111"></a><span class="sd">    - Check if the GNPS data directory exists.</span>
+<a id="__codelineno-0-112" name="__codelineno-0-112"></a><span class="sd">    - Check if the required files exist in the GNPS data directory, including:</span>
+<a id="__codelineno-0-113" name="__codelineno-0-113"></a><span class="sd">        - file_mappings.tsv or file_mappings.csv</span>
+<a id="__codelineno-0-114" name="__codelineno-0-114"></a><span class="sd">        - spectra.mgf</span>
+<a id="__codelineno-0-115" name="__codelineno-0-115"></a><span class="sd">        - molecular_families.tsv</span>
+<a id="__codelineno-0-116" name="__codelineno-0-116"></a><span class="sd">        - annotations.tsv</span>
+<a id="__codelineno-0-117" name="__codelineno-0-117"></a><span class="sd">    &quot;&quot;&quot;</span>
+<a id="__codelineno-0-118" name="__codelineno-0-118"></a>    <span class="n">pass_validation</span> <span class="o">=</span> <span class="kc">False</span>
+<a id="__codelineno-0-119" name="__codelineno-0-119"></a>    <span class="k">if</span> <span class="n">config</span><span class="o">.</span><span class="n">mode</span> <span class="o">==</span> <span class="s2">&quot;podp&quot;</span><span class="p">:</span>
+<a id="__codelineno-0-120" name="__codelineno-0-120"></a>        <span class="c1"># retry downloading at most 3 times if downloaded data has problems</span>
+<a id="__codelineno-0-121" name="__codelineno-0-121"></a>        <span class="k">for</span> <span class="n">_</span> <span class="ow">in</span> <span class="nb">range</span><span class="p">(</span><span class="mi">3</span><span class="p">):</span>
+<a id="__codelineno-0-122" name="__codelineno-0-122"></a>            <span class="k">try</span><span class="p">:</span>
+<a id="__codelineno-0-123" name="__codelineno-0-123"></a>                <span class="n">validate_gnps</span><span class="p">(</span><span class="nb">globals</span><span class="o">.</span><span class="n">GNPS_DEFAULT_PATH</span><span class="p">)</span>
+<a id="__codelineno-0-124" name="__codelineno-0-124"></a>                <span class="n">pass_validation</span> <span class="o">=</span> <span class="kc">True</span>
+<a id="__codelineno-0-125" name="__codelineno-0-125"></a>                <span class="k">break</span>
+<a id="__codelineno-0-126" name="__codelineno-0-126"></a>            <span class="k">except</span> <span class="p">(</span><span class="ne">FileNotFoundError</span><span class="p">,</span> <span class="ne">ValueError</span><span class="p">):</span>
+<a id="__codelineno-0-127" name="__codelineno-0-127"></a>                <span class="c1"># Don&#39;t need to remove downloaded archive, as it&#39;ll be overwritten</span>
+<a id="__codelineno-0-128" name="__codelineno-0-128"></a>                <span class="n">shutil</span><span class="o">.</span><span class="n">rmtree</span><span class="p">(</span><span class="nb">globals</span><span class="o">.</span><span class="n">GNPS_DEFAULT_PATH</span><span class="p">,</span> <span class="n">ignore_errors</span><span class="o">=</span><span class="kc">True</span><span class="p">)</span>
+<a id="__codelineno-0-129" name="__codelineno-0-129"></a>                <span class="bp">self</span><span class="o">.</span><span class="n">_download_and_extract_gnps</span><span class="p">()</span>
+<a id="__codelineno-0-130" name="__codelineno-0-130"></a>
+<a id="__codelineno-0-131" name="__codelineno-0-131"></a>    <span class="k">if</span> <span class="ow">not</span> <span class="n">pass_validation</span><span class="p">:</span>
+<a id="__codelineno-0-132" name="__codelineno-0-132"></a>        <span class="n">validate_gnps</span><span class="p">(</span><span class="nb">globals</span><span class="o">.</span><span class="n">GNPS_DEFAULT_PATH</span><span class="p">)</span>
+<a id="__codelineno-0-133" name="__codelineno-0-133"></a>
+<a id="__codelineno-0-134" name="__codelineno-0-134"></a>    <span class="c1"># get the path to file_mappings file (csv or tsv)</span>
+<a id="__codelineno-0-135" name="__codelineno-0-135"></a>    <span class="bp">self</span><span class="o">.</span><span class="n">gnps_file_mappings_file</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">_get_gnps_file_mappings_file</span><span class="p">()</span>
 </code></pre></div></td></tr></table></div>
           </details>
   </div>
@@ -1962,8 +1977,7 @@ <h4 id="nplinker.arranger.DatasetArranger.arrange_antismash" class="doc doc-head
 
           <details class="quote">
             <summary>Source code in <code>src/nplinker/arranger.py</code></summary>
-            <div class="language-python highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal"><a href="#__codelineno-0-172">172</a></span>
-<span class="normal"><a href="#__codelineno-0-173">173</a></span>
+            <div class="language-python highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal"><a href="#__codelineno-0-173">173</a></span>
 <span class="normal"><a href="#__codelineno-0-174">174</a></span>
 <span class="normal"><a href="#__codelineno-0-175">175</a></span>
 <span class="normal"><a href="#__codelineno-0-176">176</a></span>
@@ -1999,44 +2013,45 @@ <h4 id="nplinker.arranger.DatasetArranger.arrange_antismash" class="doc doc-head
 <span class="normal"><a href="#__codelineno-0-206">206</a></span>
 <span class="normal"><a href="#__codelineno-0-207">207</a></span>
 <span class="normal"><a href="#__codelineno-0-208">208</a></span>
-<span class="normal"><a href="#__codelineno-0-209">209</a></span></pre></div></td><td class="code"><div><pre><span></span><code><a id="__codelineno-0-172" name="__codelineno-0-172"></a><span class="k">def</span> <span class="nf">arrange_antismash</span><span class="p">(</span><span class="bp">self</span><span class="p">)</span> <span class="o">-&gt;</span> <span class="kc">None</span><span class="p">:</span>
-<a id="__codelineno-0-173" name="__codelineno-0-173"></a><span class="w">    </span><span class="sd">&quot;&quot;&quot;Arrange the antiSMASH data.</span>
-<a id="__codelineno-0-174" name="__codelineno-0-174"></a>
-<a id="__codelineno-0-175" name="__codelineno-0-175"></a><span class="sd">    If `config.mode` is &quot;local&quot;, validate the antiSMASH data directory.</span>
-<a id="__codelineno-0-176" name="__codelineno-0-176"></a><span class="sd">    If `config.mode` is &quot;podp&quot;, download the antiSMASH data if it doesn&#39;t exist or remove the</span>
-<a id="__codelineno-0-177" name="__codelineno-0-177"></a><span class="sd">    existing antiSMASH data and re-download it if it is invalid.</span>
-<a id="__codelineno-0-178" name="__codelineno-0-178"></a>
-<a id="__codelineno-0-179" name="__codelineno-0-179"></a><span class="sd">    The validation process includes:</span>
-<a id="__codelineno-0-180" name="__codelineno-0-180"></a><span class="sd">    - Check if the antiSMASH data directory exists.</span>
-<a id="__codelineno-0-181" name="__codelineno-0-181"></a><span class="sd">    - Check if the antiSMASH data directory contains at least one sub-directory, and each</span>
-<a id="__codelineno-0-182" name="__codelineno-0-182"></a><span class="sd">        sub-directory contains at least one BGC file (with the suffix &quot;.region???.gbk&quot; where ???</span>
-<a id="__codelineno-0-183" name="__codelineno-0-183"></a><span class="sd">        is a number).</span>
-<a id="__codelineno-0-184" name="__codelineno-0-184"></a>
-<a id="__codelineno-0-185" name="__codelineno-0-185"></a><span class="sd">    AntiSMASH BGC directory must follow the structure below:</span>
-<a id="__codelineno-0-186" name="__codelineno-0-186"></a><span class="sd">    ```</span>
-<a id="__codelineno-0-187" name="__codelineno-0-187"></a><span class="sd">    antismash</span>
-<a id="__codelineno-0-188" name="__codelineno-0-188"></a><span class="sd">        ├── genome_id_1 (one AntiSMASH output, e.g. GCF_000514775.1)</span>
-<a id="__codelineno-0-189" name="__codelineno-0-189"></a><span class="sd">        │  ├── GCF_000514775.1.gbk</span>
-<a id="__codelineno-0-190" name="__codelineno-0-190"></a><span class="sd">        │  ├── NZ_AZWO01000004.region001.gbk</span>
-<a id="__codelineno-0-191" name="__codelineno-0-191"></a><span class="sd">        │  └── ...</span>
-<a id="__codelineno-0-192" name="__codelineno-0-192"></a><span class="sd">        ├── genome_id_2</span>
-<a id="__codelineno-0-193" name="__codelineno-0-193"></a><span class="sd">        │  ├── ...</span>
-<a id="__codelineno-0-194" name="__codelineno-0-194"></a><span class="sd">        └── ...</span>
-<a id="__codelineno-0-195" name="__codelineno-0-195"></a><span class="sd">    ```</span>
-<a id="__codelineno-0-196" name="__codelineno-0-196"></a><span class="sd">    &quot;&quot;&quot;</span>
-<a id="__codelineno-0-197" name="__codelineno-0-197"></a>    <span class="n">pass_validation</span> <span class="o">=</span> <span class="kc">False</span>
-<a id="__codelineno-0-198" name="__codelineno-0-198"></a>    <span class="k">if</span> <span class="n">config</span><span class="o">.</span><span class="n">mode</span> <span class="o">==</span> <span class="s2">&quot;podp&quot;</span><span class="p">:</span>
-<a id="__codelineno-0-199" name="__codelineno-0-199"></a>        <span class="k">for</span> <span class="n">_</span> <span class="ow">in</span> <span class="nb">range</span><span class="p">(</span><span class="mi">3</span><span class="p">):</span>
-<a id="__codelineno-0-200" name="__codelineno-0-200"></a>            <span class="k">try</span><span class="p">:</span>
-<a id="__codelineno-0-201" name="__codelineno-0-201"></a>                <span class="n">validate_antismash</span><span class="p">(</span><span class="nb">globals</span><span class="o">.</span><span class="n">ANTISMASH_DEFAULT_PATH</span><span class="p">)</span>
-<a id="__codelineno-0-202" name="__codelineno-0-202"></a>                <span class="n">pass_validation</span> <span class="o">=</span> <span class="kc">True</span>
-<a id="__codelineno-0-203" name="__codelineno-0-203"></a>                <span class="k">break</span>
-<a id="__codelineno-0-204" name="__codelineno-0-204"></a>            <span class="k">except</span> <span class="ne">FileNotFoundError</span><span class="p">:</span>
-<a id="__codelineno-0-205" name="__codelineno-0-205"></a>                <span class="n">shutil</span><span class="o">.</span><span class="n">rmtree</span><span class="p">(</span><span class="nb">globals</span><span class="o">.</span><span class="n">ANTISMASH_DEFAULT_PATH</span><span class="p">,</span> <span class="n">ignore_errors</span><span class="o">=</span><span class="kc">True</span><span class="p">)</span>
-<a id="__codelineno-0-206" name="__codelineno-0-206"></a>                <span class="bp">self</span><span class="o">.</span><span class="n">_download_and_extract_antismash</span><span class="p">()</span>
-<a id="__codelineno-0-207" name="__codelineno-0-207"></a>
-<a id="__codelineno-0-208" name="__codelineno-0-208"></a>    <span class="k">if</span> <span class="ow">not</span> <span class="n">pass_validation</span><span class="p">:</span>
-<a id="__codelineno-0-209" name="__codelineno-0-209"></a>        <span class="n">validate_antismash</span><span class="p">(</span><span class="nb">globals</span><span class="o">.</span><span class="n">ANTISMASH_DEFAULT_PATH</span><span class="p">)</span>
+<span class="normal"><a href="#__codelineno-0-209">209</a></span>
+<span class="normal"><a href="#__codelineno-0-210">210</a></span></pre></div></td><td class="code"><div><pre><span></span><code><a id="__codelineno-0-173" name="__codelineno-0-173"></a><span class="k">def</span> <span class="nf">arrange_antismash</span><span class="p">(</span><span class="bp">self</span><span class="p">)</span> <span class="o">-&gt;</span> <span class="kc">None</span><span class="p">:</span>
+<a id="__codelineno-0-174" name="__codelineno-0-174"></a><span class="w">    </span><span class="sd">&quot;&quot;&quot;Arrange the antiSMASH data.</span>
+<a id="__codelineno-0-175" name="__codelineno-0-175"></a>
+<a id="__codelineno-0-176" name="__codelineno-0-176"></a><span class="sd">    If `config.mode` is &quot;local&quot;, validate the antiSMASH data directory.</span>
+<a id="__codelineno-0-177" name="__codelineno-0-177"></a><span class="sd">    If `config.mode` is &quot;podp&quot;, download the antiSMASH data if it doesn&#39;t exist or remove the</span>
+<a id="__codelineno-0-178" name="__codelineno-0-178"></a><span class="sd">    existing antiSMASH data and re-download it if it is invalid.</span>
+<a id="__codelineno-0-179" name="__codelineno-0-179"></a>
+<a id="__codelineno-0-180" name="__codelineno-0-180"></a><span class="sd">    The validation process includes:</span>
+<a id="__codelineno-0-181" name="__codelineno-0-181"></a><span class="sd">    - Check if the antiSMASH data directory exists.</span>
+<a id="__codelineno-0-182" name="__codelineno-0-182"></a><span class="sd">    - Check if the antiSMASH data directory contains at least one sub-directory, and each</span>
+<a id="__codelineno-0-183" name="__codelineno-0-183"></a><span class="sd">        sub-directory contains at least one BGC file (with the suffix &quot;.region???.gbk&quot; where ???</span>
+<a id="__codelineno-0-184" name="__codelineno-0-184"></a><span class="sd">        is a number).</span>
+<a id="__codelineno-0-185" name="__codelineno-0-185"></a>
+<a id="__codelineno-0-186" name="__codelineno-0-186"></a><span class="sd">    AntiSMASH BGC directory must follow the structure below:</span>
+<a id="__codelineno-0-187" name="__codelineno-0-187"></a><span class="sd">    ```</span>
+<a id="__codelineno-0-188" name="__codelineno-0-188"></a><span class="sd">    antismash</span>
+<a id="__codelineno-0-189" name="__codelineno-0-189"></a><span class="sd">        ├── genome_id_1 (one AntiSMASH output, e.g. GCF_000514775.1)</span>
+<a id="__codelineno-0-190" name="__codelineno-0-190"></a><span class="sd">        │  ├── GCF_000514775.1.gbk</span>
+<a id="__codelineno-0-191" name="__codelineno-0-191"></a><span class="sd">        │  ├── NZ_AZWO01000004.region001.gbk</span>
+<a id="__codelineno-0-192" name="__codelineno-0-192"></a><span class="sd">        │  └── ...</span>
+<a id="__codelineno-0-193" name="__codelineno-0-193"></a><span class="sd">        ├── genome_id_2</span>
+<a id="__codelineno-0-194" name="__codelineno-0-194"></a><span class="sd">        │  ├── ...</span>
+<a id="__codelineno-0-195" name="__codelineno-0-195"></a><span class="sd">        └── ...</span>
+<a id="__codelineno-0-196" name="__codelineno-0-196"></a><span class="sd">    ```</span>
+<a id="__codelineno-0-197" name="__codelineno-0-197"></a><span class="sd">    &quot;&quot;&quot;</span>
+<a id="__codelineno-0-198" name="__codelineno-0-198"></a>    <span class="n">pass_validation</span> <span class="o">=</span> <span class="kc">False</span>
+<a id="__codelineno-0-199" name="__codelineno-0-199"></a>    <span class="k">if</span> <span class="n">config</span><span class="o">.</span><span class="n">mode</span> <span class="o">==</span> <span class="s2">&quot;podp&quot;</span><span class="p">:</span>
+<a id="__codelineno-0-200" name="__codelineno-0-200"></a>        <span class="k">for</span> <span class="n">_</span> <span class="ow">in</span> <span class="nb">range</span><span class="p">(</span><span class="mi">3</span><span class="p">):</span>
+<a id="__codelineno-0-201" name="__codelineno-0-201"></a>            <span class="k">try</span><span class="p">:</span>
+<a id="__codelineno-0-202" name="__codelineno-0-202"></a>                <span class="n">validate_antismash</span><span class="p">(</span><span class="nb">globals</span><span class="o">.</span><span class="n">ANTISMASH_DEFAULT_PATH</span><span class="p">)</span>
+<a id="__codelineno-0-203" name="__codelineno-0-203"></a>                <span class="n">pass_validation</span> <span class="o">=</span> <span class="kc">True</span>
+<a id="__codelineno-0-204" name="__codelineno-0-204"></a>                <span class="k">break</span>
+<a id="__codelineno-0-205" name="__codelineno-0-205"></a>            <span class="k">except</span> <span class="ne">FileNotFoundError</span><span class="p">:</span>
+<a id="__codelineno-0-206" name="__codelineno-0-206"></a>                <span class="n">shutil</span><span class="o">.</span><span class="n">rmtree</span><span class="p">(</span><span class="nb">globals</span><span class="o">.</span><span class="n">ANTISMASH_DEFAULT_PATH</span><span class="p">,</span> <span class="n">ignore_errors</span><span class="o">=</span><span class="kc">True</span><span class="p">)</span>
+<a id="__codelineno-0-207" name="__codelineno-0-207"></a>                <span class="bp">self</span><span class="o">.</span><span class="n">_download_and_extract_antismash</span><span class="p">()</span>
+<a id="__codelineno-0-208" name="__codelineno-0-208"></a>
+<a id="__codelineno-0-209" name="__codelineno-0-209"></a>    <span class="k">if</span> <span class="ow">not</span> <span class="n">pass_validation</span><span class="p">:</span>
+<a id="__codelineno-0-210" name="__codelineno-0-210"></a>        <span class="n">validate_antismash</span><span class="p">(</span><span class="nb">globals</span><span class="o">.</span><span class="n">ANTISMASH_DEFAULT_PATH</span><span class="p">)</span>
 </code></pre></div></td></tr></table></div>
           </details>
   </div>
@@ -2063,19 +2078,20 @@ <h4 id="nplinker.arranger.DatasetArranger.arrange_bigscape" class="doc doc-headi
 If <code>config.mode</code> is "podp", run BiG-SCAPE to generate the clustering file if it doesn't
 exist or remove the existing BiG-SCAPE data and re-run BiG-SCAPE if it is invalid.
 The running output of BiG-SCAPE will be saved to the directory "bigscape_running_output"
-in the default BiG-SCAPE directory, and the clustering file "mix_clustering_c{config.bigscape.cutoff}.tsv"
-will be copied to the default BiG-SCAPE directory.</p>
+in the default BiG-SCAPE directory, and the clustering file
+"mix_clustering_c{config.bigscape.cutoff}.tsv" will be copied to the default BiG-SCAPE
+directory.</p>
 <p>The validation process includes:</p>
 <ul>
 <li>Check if the default BiG-SCAPE data directory exists.</li>
 <li>Check if the clustering file "mix_clustering_c{config.bigscape.cutoff}.tsv" exists in the
         BiG-SCAPE data directory.</li>
+<li>Check if the 'data_sqlite.db' file exists in the BiG-SCAPE data directory.</li>
 </ul>
 
           <details class="quote">
             <summary>Source code in <code>src/nplinker/arranger.py</code></summary>
-            <div class="language-python highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal"><a href="#__codelineno-0-224">224</a></span>
-<span class="normal"><a href="#__codelineno-0-225">225</a></span>
+            <div class="language-python highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal"><a href="#__codelineno-0-225">225</a></span>
 <span class="normal"><a href="#__codelineno-0-226">226</a></span>
 <span class="normal"><a href="#__codelineno-0-227">227</a></span>
 <span class="normal"><a href="#__codelineno-0-228">228</a></span>
@@ -2102,35 +2118,40 @@ <h4 id="nplinker.arranger.DatasetArranger.arrange_bigscape" class="doc doc-headi
 <span class="normal"><a href="#__codelineno-0-249">249</a></span>
 <span class="normal"><a href="#__codelineno-0-250">250</a></span>
 <span class="normal"><a href="#__codelineno-0-251">251</a></span>
-<span class="normal"><a href="#__codelineno-0-252">252</a></span></pre></div></td><td class="code"><div><pre><span></span><code><a id="__codelineno-0-224" name="__codelineno-0-224"></a><span class="k">def</span> <span class="nf">arrange_bigscape</span><span class="p">(</span><span class="bp">self</span><span class="p">)</span> <span class="o">-&gt;</span> <span class="kc">None</span><span class="p">:</span>
-<a id="__codelineno-0-225" name="__codelineno-0-225"></a><span class="w">    </span><span class="sd">&quot;&quot;&quot;Arrange the BiG-SCAPE data.</span>
-<a id="__codelineno-0-226" name="__codelineno-0-226"></a>
-<a id="__codelineno-0-227" name="__codelineno-0-227"></a><span class="sd">    If `config.mode` is &quot;local&quot;, validate the BiG-SCAPE data directory.</span>
-<a id="__codelineno-0-228" name="__codelineno-0-228"></a><span class="sd">    If `config.mode` is &quot;podp&quot;, run BiG-SCAPE to generate the clustering file if it doesn&#39;t</span>
-<a id="__codelineno-0-229" name="__codelineno-0-229"></a><span class="sd">    exist or remove the existing BiG-SCAPE data and re-run BiG-SCAPE if it is invalid.</span>
-<a id="__codelineno-0-230" name="__codelineno-0-230"></a><span class="sd">    The running output of BiG-SCAPE will be saved to the directory &quot;bigscape_running_output&quot;</span>
-<a id="__codelineno-0-231" name="__codelineno-0-231"></a><span class="sd">    in the default BiG-SCAPE directory, and the clustering file &quot;mix_clustering_c{config.bigscape.cutoff}.tsv&quot;</span>
-<a id="__codelineno-0-232" name="__codelineno-0-232"></a><span class="sd">    will be copied to the default BiG-SCAPE directory.</span>
-<a id="__codelineno-0-233" name="__codelineno-0-233"></a>
-<a id="__codelineno-0-234" name="__codelineno-0-234"></a><span class="sd">    The validation process includes:</span>
+<span class="normal"><a href="#__codelineno-0-252">252</a></span>
+<span class="normal"><a href="#__codelineno-0-253">253</a></span>
+<span class="normal"><a href="#__codelineno-0-254">254</a></span>
+<span class="normal"><a href="#__codelineno-0-255">255</a></span></pre></div></td><td class="code"><div><pre><span></span><code><a id="__codelineno-0-225" name="__codelineno-0-225"></a><span class="k">def</span> <span class="nf">arrange_bigscape</span><span class="p">(</span><span class="bp">self</span><span class="p">)</span> <span class="o">-&gt;</span> <span class="kc">None</span><span class="p">:</span>
+<a id="__codelineno-0-226" name="__codelineno-0-226"></a><span class="w">    </span><span class="sd">&quot;&quot;&quot;Arrange the BiG-SCAPE data.</span>
+<a id="__codelineno-0-227" name="__codelineno-0-227"></a>
+<a id="__codelineno-0-228" name="__codelineno-0-228"></a><span class="sd">    If `config.mode` is &quot;local&quot;, validate the BiG-SCAPE data directory.</span>
+<a id="__codelineno-0-229" name="__codelineno-0-229"></a><span class="sd">    If `config.mode` is &quot;podp&quot;, run BiG-SCAPE to generate the clustering file if it doesn&#39;t</span>
+<a id="__codelineno-0-230" name="__codelineno-0-230"></a><span class="sd">    exist or remove the existing BiG-SCAPE data and re-run BiG-SCAPE if it is invalid.</span>
+<a id="__codelineno-0-231" name="__codelineno-0-231"></a><span class="sd">    The running output of BiG-SCAPE will be saved to the directory &quot;bigscape_running_output&quot;</span>
+<a id="__codelineno-0-232" name="__codelineno-0-232"></a><span class="sd">    in the default BiG-SCAPE directory, and the clustering file</span>
+<a id="__codelineno-0-233" name="__codelineno-0-233"></a><span class="sd">    &quot;mix_clustering_c{config.bigscape.cutoff}.tsv&quot; will be copied to the default BiG-SCAPE</span>
+<a id="__codelineno-0-234" name="__codelineno-0-234"></a><span class="sd">    directory.</span>
 <a id="__codelineno-0-235" name="__codelineno-0-235"></a>
-<a id="__codelineno-0-236" name="__codelineno-0-236"></a><span class="sd">    - Check if the default BiG-SCAPE data directory exists.</span>
-<a id="__codelineno-0-237" name="__codelineno-0-237"></a><span class="sd">    - Check if the clustering file &quot;mix_clustering_c{config.bigscape.cutoff}.tsv&quot; exists in the</span>
-<a id="__codelineno-0-238" name="__codelineno-0-238"></a><span class="sd">            BiG-SCAPE data directory.</span>
-<a id="__codelineno-0-239" name="__codelineno-0-239"></a><span class="sd">    &quot;&quot;&quot;</span>
-<a id="__codelineno-0-240" name="__codelineno-0-240"></a>    <span class="n">pass_validation</span> <span class="o">=</span> <span class="kc">False</span>
-<a id="__codelineno-0-241" name="__codelineno-0-241"></a>    <span class="k">if</span> <span class="n">config</span><span class="o">.</span><span class="n">mode</span> <span class="o">==</span> <span class="s2">&quot;podp&quot;</span><span class="p">:</span>
-<a id="__codelineno-0-242" name="__codelineno-0-242"></a>        <span class="k">for</span> <span class="n">_</span> <span class="ow">in</span> <span class="nb">range</span><span class="p">(</span><span class="mi">3</span><span class="p">):</span>
-<a id="__codelineno-0-243" name="__codelineno-0-243"></a>            <span class="k">try</span><span class="p">:</span>
-<a id="__codelineno-0-244" name="__codelineno-0-244"></a>                <span class="n">validate_bigscape</span><span class="p">(</span><span class="nb">globals</span><span class="o">.</span><span class="n">BIGSCAPE_DEFAULT_PATH</span><span class="p">)</span>
-<a id="__codelineno-0-245" name="__codelineno-0-245"></a>                <span class="n">pass_validation</span> <span class="o">=</span> <span class="kc">True</span>
-<a id="__codelineno-0-246" name="__codelineno-0-246"></a>                <span class="k">break</span>
-<a id="__codelineno-0-247" name="__codelineno-0-247"></a>            <span class="k">except</span> <span class="ne">FileNotFoundError</span><span class="p">:</span>
-<a id="__codelineno-0-248" name="__codelineno-0-248"></a>                <span class="n">shutil</span><span class="o">.</span><span class="n">rmtree</span><span class="p">(</span><span class="nb">globals</span><span class="o">.</span><span class="n">BIGSCAPE_DEFAULT_PATH</span><span class="p">,</span> <span class="n">ignore_errors</span><span class="o">=</span><span class="kc">True</span><span class="p">)</span>
-<a id="__codelineno-0-249" name="__codelineno-0-249"></a>                <span class="bp">self</span><span class="o">.</span><span class="n">_run_bigscape</span><span class="p">()</span>
-<a id="__codelineno-0-250" name="__codelineno-0-250"></a>
-<a id="__codelineno-0-251" name="__codelineno-0-251"></a>    <span class="k">if</span> <span class="ow">not</span> <span class="n">pass_validation</span><span class="p">:</span>
-<a id="__codelineno-0-252" name="__codelineno-0-252"></a>        <span class="n">validate_bigscape</span><span class="p">(</span><span class="nb">globals</span><span class="o">.</span><span class="n">BIGSCAPE_DEFAULT_PATH</span><span class="p">)</span>
+<a id="__codelineno-0-236" name="__codelineno-0-236"></a><span class="sd">    The validation process includes:</span>
+<a id="__codelineno-0-237" name="__codelineno-0-237"></a>
+<a id="__codelineno-0-238" name="__codelineno-0-238"></a><span class="sd">    - Check if the default BiG-SCAPE data directory exists.</span>
+<a id="__codelineno-0-239" name="__codelineno-0-239"></a><span class="sd">    - Check if the clustering file &quot;mix_clustering_c{config.bigscape.cutoff}.tsv&quot; exists in the</span>
+<a id="__codelineno-0-240" name="__codelineno-0-240"></a><span class="sd">            BiG-SCAPE data directory.</span>
+<a id="__codelineno-0-241" name="__codelineno-0-241"></a><span class="sd">    - Check if the &#39;data_sqlite.db&#39; file exists in the BiG-SCAPE data directory.</span>
+<a id="__codelineno-0-242" name="__codelineno-0-242"></a><span class="sd">    &quot;&quot;&quot;</span>
+<a id="__codelineno-0-243" name="__codelineno-0-243"></a>    <span class="n">pass_validation</span> <span class="o">=</span> <span class="kc">False</span>
+<a id="__codelineno-0-244" name="__codelineno-0-244"></a>    <span class="k">if</span> <span class="n">config</span><span class="o">.</span><span class="n">mode</span> <span class="o">==</span> <span class="s2">&quot;podp&quot;</span><span class="p">:</span>
+<a id="__codelineno-0-245" name="__codelineno-0-245"></a>        <span class="k">for</span> <span class="n">_</span> <span class="ow">in</span> <span class="nb">range</span><span class="p">(</span><span class="mi">3</span><span class="p">):</span>
+<a id="__codelineno-0-246" name="__codelineno-0-246"></a>            <span class="k">try</span><span class="p">:</span>
+<a id="__codelineno-0-247" name="__codelineno-0-247"></a>                <span class="n">validate_bigscape</span><span class="p">(</span><span class="nb">globals</span><span class="o">.</span><span class="n">BIGSCAPE_DEFAULT_PATH</span><span class="p">)</span>
+<a id="__codelineno-0-248" name="__codelineno-0-248"></a>                <span class="n">pass_validation</span> <span class="o">=</span> <span class="kc">True</span>
+<a id="__codelineno-0-249" name="__codelineno-0-249"></a>                <span class="k">break</span>
+<a id="__codelineno-0-250" name="__codelineno-0-250"></a>            <span class="k">except</span> <span class="ne">FileNotFoundError</span><span class="p">:</span>
+<a id="__codelineno-0-251" name="__codelineno-0-251"></a>                <span class="n">shutil</span><span class="o">.</span><span class="n">rmtree</span><span class="p">(</span><span class="nb">globals</span><span class="o">.</span><span class="n">BIGSCAPE_DEFAULT_PATH</span><span class="p">,</span> <span class="n">ignore_errors</span><span class="o">=</span><span class="kc">True</span><span class="p">)</span>
+<a id="__codelineno-0-252" name="__codelineno-0-252"></a>                <span class="bp">self</span><span class="o">.</span><span class="n">_run_bigscape</span><span class="p">()</span>
+<a id="__codelineno-0-253" name="__codelineno-0-253"></a>
+<a id="__codelineno-0-254" name="__codelineno-0-254"></a>    <span class="k">if</span> <span class="ow">not</span> <span class="n">pass_validation</span><span class="p">:</span>
+<a id="__codelineno-0-255" name="__codelineno-0-255"></a>        <span class="n">validate_bigscape</span><span class="p">(</span><span class="nb">globals</span><span class="o">.</span><span class="n">BIGSCAPE_DEFAULT_PATH</span><span class="p">)</span>
 </code></pre></div></td></tr></table></div>
           </details>
   </div>
@@ -2160,10 +2181,7 @@ <h4 id="nplinker.arranger.DatasetArranger.arrange_strain_mappings" class="doc do
 
           <details class="quote">
             <summary>Source code in <code>src/nplinker/arranger.py</code></summary>
-            <div class="language-python highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal"><a href="#__codelineno-0-279">279</a></span>
-<span class="normal"><a href="#__codelineno-0-280">280</a></span>
-<span class="normal"><a href="#__codelineno-0-281">281</a></span>
-<span class="normal"><a href="#__codelineno-0-282">282</a></span>
+            <div class="language-python highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal"><a href="#__codelineno-0-282">282</a></span>
 <span class="normal"><a href="#__codelineno-0-283">283</a></span>
 <span class="normal"><a href="#__codelineno-0-284">284</a></span>
 <span class="normal"><a href="#__codelineno-0-285">285</a></span>
@@ -2172,19 +2190,22 @@ <h4 id="nplinker.arranger.DatasetArranger.arrange_strain_mappings" class="doc do
 <span class="normal"><a href="#__codelineno-0-288">288</a></span>
 <span class="normal"><a href="#__codelineno-0-289">289</a></span>
 <span class="normal"><a href="#__codelineno-0-290">290</a></span>
-<span class="normal"><a href="#__codelineno-0-291">291</a></span></pre></div></td><td class="code"><div><pre><span></span><code><a id="__codelineno-0-279" name="__codelineno-0-279"></a><span class="k">def</span> <span class="nf">arrange_strain_mappings</span><span class="p">(</span><span class="bp">self</span><span class="p">)</span> <span class="o">-&gt;</span> <span class="kc">None</span><span class="p">:</span>
-<a id="__codelineno-0-280" name="__codelineno-0-280"></a><span class="w">    </span><span class="sd">&quot;&quot;&quot;Arrange the strain mappings file.</span>
-<a id="__codelineno-0-281" name="__codelineno-0-281"></a>
-<a id="__codelineno-0-282" name="__codelineno-0-282"></a><span class="sd">    If `config.mode` is &quot;local&quot;, validate the strain mappings file.</span>
-<a id="__codelineno-0-283" name="__codelineno-0-283"></a><span class="sd">    If `config.mode` is &quot;podp&quot;, always generate the strain mappings file and validate it.</span>
+<span class="normal"><a href="#__codelineno-0-291">291</a></span>
+<span class="normal"><a href="#__codelineno-0-292">292</a></span>
+<span class="normal"><a href="#__codelineno-0-293">293</a></span>
+<span class="normal"><a href="#__codelineno-0-294">294</a></span></pre></div></td><td class="code"><div><pre><span></span><code><a id="__codelineno-0-282" name="__codelineno-0-282"></a><span class="k">def</span> <span class="nf">arrange_strain_mappings</span><span class="p">(</span><span class="bp">self</span><span class="p">)</span> <span class="o">-&gt;</span> <span class="kc">None</span><span class="p">:</span>
+<a id="__codelineno-0-283" name="__codelineno-0-283"></a><span class="w">    </span><span class="sd">&quot;&quot;&quot;Arrange the strain mappings file.</span>
 <a id="__codelineno-0-284" name="__codelineno-0-284"></a>
-<a id="__codelineno-0-285" name="__codelineno-0-285"></a><span class="sd">    The valiation checks if the strain mappings file exists and if it is a valid JSON file</span>
-<a id="__codelineno-0-286" name="__codelineno-0-286"></a><span class="sd">    according to the schema defined in `schemas/strain_mappings_schema.json`.</span>
-<a id="__codelineno-0-287" name="__codelineno-0-287"></a><span class="sd">    &quot;&quot;&quot;</span>
-<a id="__codelineno-0-288" name="__codelineno-0-288"></a>    <span class="k">if</span> <span class="n">config</span><span class="o">.</span><span class="n">mode</span> <span class="o">==</span> <span class="s2">&quot;podp&quot;</span><span class="p">:</span>
-<a id="__codelineno-0-289" name="__codelineno-0-289"></a>        <span class="bp">self</span><span class="o">.</span><span class="n">_generate_strain_mappings</span><span class="p">()</span>
-<a id="__codelineno-0-290" name="__codelineno-0-290"></a>
-<a id="__codelineno-0-291" name="__codelineno-0-291"></a>    <span class="bp">self</span><span class="o">.</span><span class="n">_validate_strain_mappings</span><span class="p">()</span>
+<a id="__codelineno-0-285" name="__codelineno-0-285"></a><span class="sd">    If `config.mode` is &quot;local&quot;, validate the strain mappings file.</span>
+<a id="__codelineno-0-286" name="__codelineno-0-286"></a><span class="sd">    If `config.mode` is &quot;podp&quot;, always generate the strain mappings file and validate it.</span>
+<a id="__codelineno-0-287" name="__codelineno-0-287"></a>
+<a id="__codelineno-0-288" name="__codelineno-0-288"></a><span class="sd">    The valiation checks if the strain mappings file exists and if it is a valid JSON file</span>
+<a id="__codelineno-0-289" name="__codelineno-0-289"></a><span class="sd">    according to the schema defined in `schemas/strain_mappings_schema.json`.</span>
+<a id="__codelineno-0-290" name="__codelineno-0-290"></a><span class="sd">    &quot;&quot;&quot;</span>
+<a id="__codelineno-0-291" name="__codelineno-0-291"></a>    <span class="k">if</span> <span class="n">config</span><span class="o">.</span><span class="n">mode</span> <span class="o">==</span> <span class="s2">&quot;podp&quot;</span><span class="p">:</span>
+<a id="__codelineno-0-292" name="__codelineno-0-292"></a>        <span class="bp">self</span><span class="o">.</span><span class="n">_generate_strain_mappings</span><span class="p">()</span>
+<a id="__codelineno-0-293" name="__codelineno-0-293"></a>
+<a id="__codelineno-0-294" name="__codelineno-0-294"></a>    <span class="bp">self</span><span class="o">.</span><span class="n">_validate_strain_mappings</span><span class="p">()</span>
 </code></pre></div></td></tr></table></div>
           </details>
   </div>
@@ -2213,10 +2234,7 @@ <h4 id="nplinker.arranger.DatasetArranger.arrange_strains_selected" class="doc d
 
           <details class="quote">
             <summary>Source code in <code>src/nplinker/arranger.py</code></summary>
-            <div class="language-python highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal"><a href="#__codelineno-0-336">336</a></span>
-<span class="normal"><a href="#__codelineno-0-337">337</a></span>
-<span class="normal"><a href="#__codelineno-0-338">338</a></span>
-<span class="normal"><a href="#__codelineno-0-339">339</a></span>
+            <div class="language-python highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal"><a href="#__codelineno-0-339">339</a></span>
 <span class="normal"><a href="#__codelineno-0-340">340</a></span>
 <span class="normal"><a href="#__codelineno-0-341">341</a></span>
 <span class="normal"><a href="#__codelineno-0-342">342</a></span>
@@ -2224,18 +2242,21 @@ <h4 id="nplinker.arranger.DatasetArranger.arrange_strains_selected" class="doc d
 <span class="normal"><a href="#__codelineno-0-344">344</a></span>
 <span class="normal"><a href="#__codelineno-0-345">345</a></span>
 <span class="normal"><a href="#__codelineno-0-346">346</a></span>
-<span class="normal"><a href="#__codelineno-0-347">347</a></span></pre></div></td><td class="code"><div><pre><span></span><code><a id="__codelineno-0-336" name="__codelineno-0-336"></a><span class="k">def</span> <span class="nf">arrange_strains_selected</span><span class="p">(</span><span class="bp">self</span><span class="p">)</span> <span class="o">-&gt;</span> <span class="kc">None</span><span class="p">:</span>
-<a id="__codelineno-0-337" name="__codelineno-0-337"></a><span class="w">    </span><span class="sd">&quot;&quot;&quot;Arrange the strains selected file.</span>
-<a id="__codelineno-0-338" name="__codelineno-0-338"></a>
-<a id="__codelineno-0-339" name="__codelineno-0-339"></a><span class="sd">    Validate the strains selected file if it exists.</span>
-<a id="__codelineno-0-340" name="__codelineno-0-340"></a><span class="sd">    The validation checks if the strains selected file is a valid JSON file according to the</span>
-<a id="__codelineno-0-341" name="__codelineno-0-341"></a><span class="sd">    schema defined in `schemas/user_strains.json`.</span>
-<a id="__codelineno-0-342" name="__codelineno-0-342"></a><span class="sd">    &quot;&quot;&quot;</span>
-<a id="__codelineno-0-343" name="__codelineno-0-343"></a>    <span class="n">strains_selected_file</span> <span class="o">=</span> <span class="n">config</span><span class="o">.</span><span class="n">root_dir</span> <span class="o">/</span> <span class="nb">globals</span><span class="o">.</span><span class="n">STRAINS_SELECTED_FILENAME</span>
-<a id="__codelineno-0-344" name="__codelineno-0-344"></a>    <span class="k">if</span> <span class="n">strains_selected_file</span><span class="o">.</span><span class="n">exists</span><span class="p">():</span>
-<a id="__codelineno-0-345" name="__codelineno-0-345"></a>        <span class="k">with</span> <span class="nb">open</span><span class="p">(</span><span class="n">strains_selected_file</span><span class="p">,</span> <span class="s2">&quot;r&quot;</span><span class="p">)</span> <span class="k">as</span> <span class="n">f</span><span class="p">:</span>
-<a id="__codelineno-0-346" name="__codelineno-0-346"></a>            <span class="n">json_data</span> <span class="o">=</span> <span class="n">json</span><span class="o">.</span><span class="n">load</span><span class="p">(</span><span class="n">f</span><span class="p">)</span>
-<a id="__codelineno-0-347" name="__codelineno-0-347"></a>        <span class="n">validate</span><span class="p">(</span><span class="n">instance</span><span class="o">=</span><span class="n">json_data</span><span class="p">,</span> <span class="n">schema</span><span class="o">=</span><span class="n">USER_STRAINS_SCHEMA</span><span class="p">)</span>
+<span class="normal"><a href="#__codelineno-0-347">347</a></span>
+<span class="normal"><a href="#__codelineno-0-348">348</a></span>
+<span class="normal"><a href="#__codelineno-0-349">349</a></span>
+<span class="normal"><a href="#__codelineno-0-350">350</a></span></pre></div></td><td class="code"><div><pre><span></span><code><a id="__codelineno-0-339" name="__codelineno-0-339"></a><span class="k">def</span> <span class="nf">arrange_strains_selected</span><span class="p">(</span><span class="bp">self</span><span class="p">)</span> <span class="o">-&gt;</span> <span class="kc">None</span><span class="p">:</span>
+<a id="__codelineno-0-340" name="__codelineno-0-340"></a><span class="w">    </span><span class="sd">&quot;&quot;&quot;Arrange the strains selected file.</span>
+<a id="__codelineno-0-341" name="__codelineno-0-341"></a>
+<a id="__codelineno-0-342" name="__codelineno-0-342"></a><span class="sd">    Validate the strains selected file if it exists.</span>
+<a id="__codelineno-0-343" name="__codelineno-0-343"></a><span class="sd">    The validation checks if the strains selected file is a valid JSON file according to the</span>
+<a id="__codelineno-0-344" name="__codelineno-0-344"></a><span class="sd">    schema defined in `schemas/user_strains.json`.</span>
+<a id="__codelineno-0-345" name="__codelineno-0-345"></a><span class="sd">    &quot;&quot;&quot;</span>
+<a id="__codelineno-0-346" name="__codelineno-0-346"></a>    <span class="n">strains_selected_file</span> <span class="o">=</span> <span class="n">config</span><span class="o">.</span><span class="n">root_dir</span> <span class="o">/</span> <span class="nb">globals</span><span class="o">.</span><span class="n">STRAINS_SELECTED_FILENAME</span>
+<a id="__codelineno-0-347" name="__codelineno-0-347"></a>    <span class="k">if</span> <span class="n">strains_selected_file</span><span class="o">.</span><span class="n">exists</span><span class="p">():</span>
+<a id="__codelineno-0-348" name="__codelineno-0-348"></a>        <span class="k">with</span> <span class="nb">open</span><span class="p">(</span><span class="n">strains_selected_file</span><span class="p">,</span> <span class="s2">&quot;r&quot;</span><span class="p">)</span> <span class="k">as</span> <span class="n">f</span><span class="p">:</span>
+<a id="__codelineno-0-349" name="__codelineno-0-349"></a>            <span class="n">json_data</span> <span class="o">=</span> <span class="n">json</span><span class="o">.</span><span class="n">load</span><span class="p">(</span><span class="n">f</span><span class="p">)</span>
+<a id="__codelineno-0-350" name="__codelineno-0-350"></a>        <span class="n">validate</span><span class="p">(</span><span class="n">instance</span><span class="o">=</span><span class="n">json_data</span><span class="p">,</span> <span class="n">schema</span><span class="o">=</span><span class="n">USER_STRAINS_SCHEMA</span><span class="p">)</span>
 </code></pre></div></td></tr></table></div>
           </details>
   </div>
@@ -2343,10 +2364,7 @@ <h3 id="nplinker.arranger.validate_gnps" class="doc doc-heading">
 
           <details class="quote">
             <summary>Source code in <code>src/nplinker/arranger.py</code></summary>
-            <div class="language-python highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal"><a href="#__codelineno-0-350">350</a></span>
-<span class="normal"><a href="#__codelineno-0-351">351</a></span>
-<span class="normal"><a href="#__codelineno-0-352">352</a></span>
-<span class="normal"><a href="#__codelineno-0-353">353</a></span>
+            <div class="language-python highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal"><a href="#__codelineno-0-353">353</a></span>
 <span class="normal"><a href="#__codelineno-0-354">354</a></span>
 <span class="normal"><a href="#__codelineno-0-355">355</a></span>
 <span class="normal"><a href="#__codelineno-0-356">356</a></span>
@@ -2386,50 +2404,53 @@ <h3 id="nplinker.arranger.validate_gnps" class="doc doc-heading">
 <span class="normal"><a href="#__codelineno-0-390">390</a></span>
 <span class="normal"><a href="#__codelineno-0-391">391</a></span>
 <span class="normal"><a href="#__codelineno-0-392">392</a></span>
-<span class="normal"><a href="#__codelineno-0-393">393</a></span></pre></div></td><td class="code"><div><pre><span></span><code><a id="__codelineno-0-350" name="__codelineno-0-350"></a><span class="k">def</span> <span class="nf">validate_gnps</span><span class="p">(</span><span class="n">gnps_dir</span><span class="p">:</span> <span class="n">Path</span><span class="p">)</span> <span class="o">-&gt;</span> <span class="kc">None</span><span class="p">:</span>
-<a id="__codelineno-0-351" name="__codelineno-0-351"></a><span class="w">    </span><span class="sd">&quot;&quot;&quot;Validate the GNPS data directory and its contents.</span>
-<a id="__codelineno-0-352" name="__codelineno-0-352"></a>
-<a id="__codelineno-0-353" name="__codelineno-0-353"></a><span class="sd">    The GNPS data directory must contain the following files:</span>
-<a id="__codelineno-0-354" name="__codelineno-0-354"></a>
-<a id="__codelineno-0-355" name="__codelineno-0-355"></a><span class="sd">    - file_mappings.tsv or file_mappings.csv</span>
-<a id="__codelineno-0-356" name="__codelineno-0-356"></a><span class="sd">    - spectra.mgf</span>
-<a id="__codelineno-0-357" name="__codelineno-0-357"></a><span class="sd">    - molecular_families.tsv</span>
-<a id="__codelineno-0-358" name="__codelineno-0-358"></a><span class="sd">    - annotations.tsv</span>
-<a id="__codelineno-0-359" name="__codelineno-0-359"></a>
-<a id="__codelineno-0-360" name="__codelineno-0-360"></a><span class="sd">    Args:</span>
-<a id="__codelineno-0-361" name="__codelineno-0-361"></a><span class="sd">        gnps_dir: Path to the GNPS data directory.</span>
+<span class="normal"><a href="#__codelineno-0-393">393</a></span>
+<span class="normal"><a href="#__codelineno-0-394">394</a></span>
+<span class="normal"><a href="#__codelineno-0-395">395</a></span>
+<span class="normal"><a href="#__codelineno-0-396">396</a></span></pre></div></td><td class="code"><div><pre><span></span><code><a id="__codelineno-0-353" name="__codelineno-0-353"></a><span class="k">def</span> <span class="nf">validate_gnps</span><span class="p">(</span><span class="n">gnps_dir</span><span class="p">:</span> <span class="n">Path</span><span class="p">)</span> <span class="o">-&gt;</span> <span class="kc">None</span><span class="p">:</span>
+<a id="__codelineno-0-354" name="__codelineno-0-354"></a><span class="w">    </span><span class="sd">&quot;&quot;&quot;Validate the GNPS data directory and its contents.</span>
+<a id="__codelineno-0-355" name="__codelineno-0-355"></a>
+<a id="__codelineno-0-356" name="__codelineno-0-356"></a><span class="sd">    The GNPS data directory must contain the following files:</span>
+<a id="__codelineno-0-357" name="__codelineno-0-357"></a>
+<a id="__codelineno-0-358" name="__codelineno-0-358"></a><span class="sd">    - file_mappings.tsv or file_mappings.csv</span>
+<a id="__codelineno-0-359" name="__codelineno-0-359"></a><span class="sd">    - spectra.mgf</span>
+<a id="__codelineno-0-360" name="__codelineno-0-360"></a><span class="sd">    - molecular_families.tsv</span>
+<a id="__codelineno-0-361" name="__codelineno-0-361"></a><span class="sd">    - annotations.tsv</span>
 <a id="__codelineno-0-362" name="__codelineno-0-362"></a>
-<a id="__codelineno-0-363" name="__codelineno-0-363"></a><span class="sd">    Raises:</span>
-<a id="__codelineno-0-364" name="__codelineno-0-364"></a><span class="sd">        FileNotFoundError: If the GNPS data directory is not found or any of the required files</span>
-<a id="__codelineno-0-365" name="__codelineno-0-365"></a><span class="sd">            is not found.</span>
-<a id="__codelineno-0-366" name="__codelineno-0-366"></a><span class="sd">        ValueError: If both file_mappings.tsv and file_mapping.csv are found.</span>
-<a id="__codelineno-0-367" name="__codelineno-0-367"></a><span class="sd">    &quot;&quot;&quot;</span>
-<a id="__codelineno-0-368" name="__codelineno-0-368"></a>    <span class="k">if</span> <span class="ow">not</span> <span class="n">gnps_dir</span><span class="o">.</span><span class="n">exists</span><span class="p">():</span>
-<a id="__codelineno-0-369" name="__codelineno-0-369"></a>        <span class="k">raise</span> <span class="ne">FileNotFoundError</span><span class="p">(</span><span class="sa">f</span><span class="s2">&quot;GNPS data directory not found at </span><span class="si">{</span><span class="n">gnps_dir</span><span class="si">}</span><span class="s2">&quot;</span><span class="p">)</span>
-<a id="__codelineno-0-370" name="__codelineno-0-370"></a>
-<a id="__codelineno-0-371" name="__codelineno-0-371"></a>    <span class="n">file_mappings_tsv</span> <span class="o">=</span> <span class="n">gnps_dir</span> <span class="o">/</span> <span class="nb">globals</span><span class="o">.</span><span class="n">GNPS_FILE_MAPPINGS_TSV</span>
-<a id="__codelineno-0-372" name="__codelineno-0-372"></a>    <span class="n">file_mappings_csv</span> <span class="o">=</span> <span class="n">gnps_dir</span> <span class="o">/</span> <span class="nb">globals</span><span class="o">.</span><span class="n">GNPS_FILE_MAPPINGS_CSV</span>
-<a id="__codelineno-0-373" name="__codelineno-0-373"></a>    <span class="k">if</span> <span class="n">file_mappings_tsv</span><span class="o">.</span><span class="n">exists</span><span class="p">()</span> <span class="ow">and</span> <span class="n">file_mappings_csv</span><span class="o">.</span><span class="n">exists</span><span class="p">():</span>
-<a id="__codelineno-0-374" name="__codelineno-0-374"></a>        <span class="k">raise</span> <span class="ne">ValueError</span><span class="p">(</span>
-<a id="__codelineno-0-375" name="__codelineno-0-375"></a>            <span class="sa">f</span><span class="s2">&quot;Both </span><span class="si">{</span><span class="n">file_mappings_tsv</span><span class="o">.</span><span class="n">name</span><span class="si">}</span><span class="s2"> and </span><span class="si">{</span><span class="n">file_mappings_csv</span><span class="o">.</span><span class="n">name</span><span class="si">}</span><span class="s2"> found in GNPS directory &quot;</span>
-<a id="__codelineno-0-376" name="__codelineno-0-376"></a>            <span class="sa">f</span><span class="s2">&quot;</span><span class="si">{</span><span class="n">gnps_dir</span><span class="si">}</span><span class="s2">, only one is allowed.&quot;</span>
-<a id="__codelineno-0-377" name="__codelineno-0-377"></a>        <span class="p">)</span>
-<a id="__codelineno-0-378" name="__codelineno-0-378"></a>    <span class="k">elif</span> <span class="ow">not</span> <span class="n">file_mappings_tsv</span><span class="o">.</span><span class="n">exists</span><span class="p">()</span> <span class="ow">and</span> <span class="ow">not</span> <span class="n">file_mappings_csv</span><span class="o">.</span><span class="n">exists</span><span class="p">():</span>
-<a id="__codelineno-0-379" name="__codelineno-0-379"></a>        <span class="k">raise</span> <span class="ne">FileNotFoundError</span><span class="p">(</span>
-<a id="__codelineno-0-380" name="__codelineno-0-380"></a>            <span class="sa">f</span><span class="s2">&quot;Neither </span><span class="si">{</span><span class="n">file_mappings_tsv</span><span class="o">.</span><span class="n">name</span><span class="si">}</span><span class="s2"> nor </span><span class="si">{</span><span class="n">file_mappings_csv</span><span class="o">.</span><span class="n">name</span><span class="si">}</span><span class="s2"> found in GNPS directory&quot;</span>
-<a id="__codelineno-0-381" name="__codelineno-0-381"></a>            <span class="sa">f</span><span class="s2">&quot; </span><span class="si">{</span><span class="n">gnps_dir</span><span class="si">}</span><span class="s2">&quot;</span>
-<a id="__codelineno-0-382" name="__codelineno-0-382"></a>        <span class="p">)</span>
-<a id="__codelineno-0-383" name="__codelineno-0-383"></a>
-<a id="__codelineno-0-384" name="__codelineno-0-384"></a>    <span class="n">required_files</span> <span class="o">=</span> <span class="p">[</span>
-<a id="__codelineno-0-385" name="__codelineno-0-385"></a>        <span class="n">gnps_dir</span> <span class="o">/</span> <span class="nb">globals</span><span class="o">.</span><span class="n">GNPS_SPECTRA_FILENAME</span><span class="p">,</span>
-<a id="__codelineno-0-386" name="__codelineno-0-386"></a>        <span class="n">gnps_dir</span> <span class="o">/</span> <span class="nb">globals</span><span class="o">.</span><span class="n">GNPS_MOLECULAR_FAMILY_FILENAME</span><span class="p">,</span>
-<a id="__codelineno-0-387" name="__codelineno-0-387"></a>        <span class="n">gnps_dir</span> <span class="o">/</span> <span class="nb">globals</span><span class="o">.</span><span class="n">GNPS_ANNOTATIONS_FILENAME</span><span class="p">,</span>
-<a id="__codelineno-0-388" name="__codelineno-0-388"></a>    <span class="p">]</span>
-<a id="__codelineno-0-389" name="__codelineno-0-389"></a>    <span class="n">list_not_found</span> <span class="o">=</span> <span class="p">[</span><span class="n">f</span><span class="o">.</span><span class="n">name</span> <span class="k">for</span> <span class="n">f</span> <span class="ow">in</span> <span class="n">required_files</span> <span class="k">if</span> <span class="ow">not</span> <span class="n">f</span><span class="o">.</span><span class="n">exists</span><span class="p">()]</span>
-<a id="__codelineno-0-390" name="__codelineno-0-390"></a>    <span class="k">if</span> <span class="n">list_not_found</span><span class="p">:</span>
-<a id="__codelineno-0-391" name="__codelineno-0-391"></a>        <span class="k">raise</span> <span class="ne">FileNotFoundError</span><span class="p">(</span>
-<a id="__codelineno-0-392" name="__codelineno-0-392"></a>            <span class="sa">f</span><span class="s2">&quot;Files not found in GNPS directory </span><span class="si">{</span><span class="n">gnps_dir</span><span class="si">}</span><span class="s2">: &#39;, &#39;.join(</span><span class="si">{</span><span class="n">list_not_found</span><span class="si">}</span><span class="s2">)&quot;</span>
-<a id="__codelineno-0-393" name="__codelineno-0-393"></a>        <span class="p">)</span>
+<a id="__codelineno-0-363" name="__codelineno-0-363"></a><span class="sd">    Args:</span>
+<a id="__codelineno-0-364" name="__codelineno-0-364"></a><span class="sd">        gnps_dir: Path to the GNPS data directory.</span>
+<a id="__codelineno-0-365" name="__codelineno-0-365"></a>
+<a id="__codelineno-0-366" name="__codelineno-0-366"></a><span class="sd">    Raises:</span>
+<a id="__codelineno-0-367" name="__codelineno-0-367"></a><span class="sd">        FileNotFoundError: If the GNPS data directory is not found or any of the required files</span>
+<a id="__codelineno-0-368" name="__codelineno-0-368"></a><span class="sd">            is not found.</span>
+<a id="__codelineno-0-369" name="__codelineno-0-369"></a><span class="sd">        ValueError: If both file_mappings.tsv and file_mapping.csv are found.</span>
+<a id="__codelineno-0-370" name="__codelineno-0-370"></a><span class="sd">    &quot;&quot;&quot;</span>
+<a id="__codelineno-0-371" name="__codelineno-0-371"></a>    <span class="k">if</span> <span class="ow">not</span> <span class="n">gnps_dir</span><span class="o">.</span><span class="n">exists</span><span class="p">():</span>
+<a id="__codelineno-0-372" name="__codelineno-0-372"></a>        <span class="k">raise</span> <span class="ne">FileNotFoundError</span><span class="p">(</span><span class="sa">f</span><span class="s2">&quot;GNPS data directory not found at </span><span class="si">{</span><span class="n">gnps_dir</span><span class="si">}</span><span class="s2">&quot;</span><span class="p">)</span>
+<a id="__codelineno-0-373" name="__codelineno-0-373"></a>
+<a id="__codelineno-0-374" name="__codelineno-0-374"></a>    <span class="n">file_mappings_tsv</span> <span class="o">=</span> <span class="n">gnps_dir</span> <span class="o">/</span> <span class="nb">globals</span><span class="o">.</span><span class="n">GNPS_FILE_MAPPINGS_TSV</span>
+<a id="__codelineno-0-375" name="__codelineno-0-375"></a>    <span class="n">file_mappings_csv</span> <span class="o">=</span> <span class="n">gnps_dir</span> <span class="o">/</span> <span class="nb">globals</span><span class="o">.</span><span class="n">GNPS_FILE_MAPPINGS_CSV</span>
+<a id="__codelineno-0-376" name="__codelineno-0-376"></a>    <span class="k">if</span> <span class="n">file_mappings_tsv</span><span class="o">.</span><span class="n">exists</span><span class="p">()</span> <span class="ow">and</span> <span class="n">file_mappings_csv</span><span class="o">.</span><span class="n">exists</span><span class="p">():</span>
+<a id="__codelineno-0-377" name="__codelineno-0-377"></a>        <span class="k">raise</span> <span class="ne">ValueError</span><span class="p">(</span>
+<a id="__codelineno-0-378" name="__codelineno-0-378"></a>            <span class="sa">f</span><span class="s2">&quot;Both </span><span class="si">{</span><span class="n">file_mappings_tsv</span><span class="o">.</span><span class="n">name</span><span class="si">}</span><span class="s2"> and </span><span class="si">{</span><span class="n">file_mappings_csv</span><span class="o">.</span><span class="n">name</span><span class="si">}</span><span class="s2"> found in GNPS directory &quot;</span>
+<a id="__codelineno-0-379" name="__codelineno-0-379"></a>            <span class="sa">f</span><span class="s2">&quot;</span><span class="si">{</span><span class="n">gnps_dir</span><span class="si">}</span><span class="s2">, only one is allowed.&quot;</span>
+<a id="__codelineno-0-380" name="__codelineno-0-380"></a>        <span class="p">)</span>
+<a id="__codelineno-0-381" name="__codelineno-0-381"></a>    <span class="k">elif</span> <span class="ow">not</span> <span class="n">file_mappings_tsv</span><span class="o">.</span><span class="n">exists</span><span class="p">()</span> <span class="ow">and</span> <span class="ow">not</span> <span class="n">file_mappings_csv</span><span class="o">.</span><span class="n">exists</span><span class="p">():</span>
+<a id="__codelineno-0-382" name="__codelineno-0-382"></a>        <span class="k">raise</span> <span class="ne">FileNotFoundError</span><span class="p">(</span>
+<a id="__codelineno-0-383" name="__codelineno-0-383"></a>            <span class="sa">f</span><span class="s2">&quot;Neither </span><span class="si">{</span><span class="n">file_mappings_tsv</span><span class="o">.</span><span class="n">name</span><span class="si">}</span><span class="s2"> nor </span><span class="si">{</span><span class="n">file_mappings_csv</span><span class="o">.</span><span class="n">name</span><span class="si">}</span><span class="s2"> found in GNPS directory&quot;</span>
+<a id="__codelineno-0-384" name="__codelineno-0-384"></a>            <span class="sa">f</span><span class="s2">&quot; </span><span class="si">{</span><span class="n">gnps_dir</span><span class="si">}</span><span class="s2">&quot;</span>
+<a id="__codelineno-0-385" name="__codelineno-0-385"></a>        <span class="p">)</span>
+<a id="__codelineno-0-386" name="__codelineno-0-386"></a>
+<a id="__codelineno-0-387" name="__codelineno-0-387"></a>    <span class="n">required_files</span> <span class="o">=</span> <span class="p">[</span>
+<a id="__codelineno-0-388" name="__codelineno-0-388"></a>        <span class="n">gnps_dir</span> <span class="o">/</span> <span class="nb">globals</span><span class="o">.</span><span class="n">GNPS_SPECTRA_FILENAME</span><span class="p">,</span>
+<a id="__codelineno-0-389" name="__codelineno-0-389"></a>        <span class="n">gnps_dir</span> <span class="o">/</span> <span class="nb">globals</span><span class="o">.</span><span class="n">GNPS_MOLECULAR_FAMILY_FILENAME</span><span class="p">,</span>
+<a id="__codelineno-0-390" name="__codelineno-0-390"></a>        <span class="n">gnps_dir</span> <span class="o">/</span> <span class="nb">globals</span><span class="o">.</span><span class="n">GNPS_ANNOTATIONS_FILENAME</span><span class="p">,</span>
+<a id="__codelineno-0-391" name="__codelineno-0-391"></a>    <span class="p">]</span>
+<a id="__codelineno-0-392" name="__codelineno-0-392"></a>    <span class="n">list_not_found</span> <span class="o">=</span> <span class="p">[</span><span class="n">f</span><span class="o">.</span><span class="n">name</span> <span class="k">for</span> <span class="n">f</span> <span class="ow">in</span> <span class="n">required_files</span> <span class="k">if</span> <span class="ow">not</span> <span class="n">f</span><span class="o">.</span><span class="n">exists</span><span class="p">()]</span>
+<a id="__codelineno-0-393" name="__codelineno-0-393"></a>    <span class="k">if</span> <span class="n">list_not_found</span><span class="p">:</span>
+<a id="__codelineno-0-394" name="__codelineno-0-394"></a>        <span class="k">raise</span> <span class="ne">FileNotFoundError</span><span class="p">(</span>
+<a id="__codelineno-0-395" name="__codelineno-0-395"></a>            <span class="sa">f</span><span class="s2">&quot;Files not found in GNPS directory </span><span class="si">{</span><span class="n">gnps_dir</span><span class="si">}</span><span class="s2">: &#39;, &#39;.join(</span><span class="si">{</span><span class="n">list_not_found</span><span class="si">}</span><span class="s2">)&quot;</span>
+<a id="__codelineno-0-396" name="__codelineno-0-396"></a>        <span class="p">)</span>
 </code></pre></div></td></tr></table></div>
           </details>
   </div>
@@ -2531,10 +2552,7 @@ <h3 id="nplinker.arranger.validate_antismash" class="doc doc-heading">
 
           <details class="quote">
             <summary>Source code in <code>src/nplinker/arranger.py</code></summary>
-            <div class="language-python highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal"><a href="#__codelineno-0-396">396</a></span>
-<span class="normal"><a href="#__codelineno-0-397">397</a></span>
-<span class="normal"><a href="#__codelineno-0-398">398</a></span>
-<span class="normal"><a href="#__codelineno-0-399">399</a></span>
+            <div class="language-python highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal"><a href="#__codelineno-0-399">399</a></span>
 <span class="normal"><a href="#__codelineno-0-400">400</a></span>
 <span class="normal"><a href="#__codelineno-0-401">401</a></span>
 <span class="normal"><a href="#__codelineno-0-402">402</a></span>
@@ -2573,49 +2591,52 @@ <h3 id="nplinker.arranger.validate_antismash" class="doc doc-heading">
 <span class="normal"><a href="#__codelineno-0-435">435</a></span>
 <span class="normal"><a href="#__codelineno-0-436">436</a></span>
 <span class="normal"><a href="#__codelineno-0-437">437</a></span>
-<span class="normal"><a href="#__codelineno-0-438">438</a></span></pre></div></td><td class="code"><div><pre><span></span><code><a id="__codelineno-0-396" name="__codelineno-0-396"></a><span class="k">def</span> <span class="nf">validate_antismash</span><span class="p">(</span><span class="n">antismash_dir</span><span class="p">:</span> <span class="n">Path</span><span class="p">)</span> <span class="o">-&gt;</span> <span class="kc">None</span><span class="p">:</span>
-<a id="__codelineno-0-397" name="__codelineno-0-397"></a><span class="w">    </span><span class="sd">&quot;&quot;&quot;Validate the antiSMASH data directory and its contents.</span>
-<a id="__codelineno-0-398" name="__codelineno-0-398"></a>
-<a id="__codelineno-0-399" name="__codelineno-0-399"></a><span class="sd">    The validation only checks the structure of the antiSMASH data directory and file names.</span>
-<a id="__codelineno-0-400" name="__codelineno-0-400"></a><span class="sd">    It does not check</span>
+<span class="normal"><a href="#__codelineno-0-438">438</a></span>
+<span class="normal"><a href="#__codelineno-0-439">439</a></span>
+<span class="normal"><a href="#__codelineno-0-440">440</a></span>
+<span class="normal"><a href="#__codelineno-0-441">441</a></span></pre></div></td><td class="code"><div><pre><span></span><code><a id="__codelineno-0-399" name="__codelineno-0-399"></a><span class="k">def</span> <span class="nf">validate_antismash</span><span class="p">(</span><span class="n">antismash_dir</span><span class="p">:</span> <span class="n">Path</span><span class="p">)</span> <span class="o">-&gt;</span> <span class="kc">None</span><span class="p">:</span>
+<a id="__codelineno-0-400" name="__codelineno-0-400"></a><span class="w">    </span><span class="sd">&quot;&quot;&quot;Validate the antiSMASH data directory and its contents.</span>
 <a id="__codelineno-0-401" name="__codelineno-0-401"></a>
-<a id="__codelineno-0-402" name="__codelineno-0-402"></a><span class="sd">    - the content of the BGC files</span>
-<a id="__codelineno-0-403" name="__codelineno-0-403"></a><span class="sd">    - the consistency between the antiSMASH data and the PODP project JSON file for the PODP</span>
-<a id="__codelineno-0-404" name="__codelineno-0-404"></a><span class="sd">        mode</span>
-<a id="__codelineno-0-405" name="__codelineno-0-405"></a>
-<a id="__codelineno-0-406" name="__codelineno-0-406"></a><span class="sd">    The antiSMASH data directory must exist and contain at least one sub-directory. The name of the</span>
-<a id="__codelineno-0-407" name="__codelineno-0-407"></a><span class="sd">    sub-directories must not contain any space. Each sub-directory must contain at least one BGC</span>
-<a id="__codelineno-0-408" name="__codelineno-0-408"></a><span class="sd">    file (with the suffix &quot;.region???.gbk&quot; where ??? is the region number).</span>
-<a id="__codelineno-0-409" name="__codelineno-0-409"></a>
-<a id="__codelineno-0-410" name="__codelineno-0-410"></a><span class="sd">    Args:</span>
-<a id="__codelineno-0-411" name="__codelineno-0-411"></a><span class="sd">        antismash_dir: Path to the antiSMASH data directory.</span>
+<a id="__codelineno-0-402" name="__codelineno-0-402"></a><span class="sd">    The validation only checks the structure of the antiSMASH data directory and file names.</span>
+<a id="__codelineno-0-403" name="__codelineno-0-403"></a><span class="sd">    It does not check</span>
+<a id="__codelineno-0-404" name="__codelineno-0-404"></a>
+<a id="__codelineno-0-405" name="__codelineno-0-405"></a><span class="sd">    - the content of the BGC files</span>
+<a id="__codelineno-0-406" name="__codelineno-0-406"></a><span class="sd">    - the consistency between the antiSMASH data and the PODP project JSON file for the PODP</span>
+<a id="__codelineno-0-407" name="__codelineno-0-407"></a><span class="sd">        mode</span>
+<a id="__codelineno-0-408" name="__codelineno-0-408"></a>
+<a id="__codelineno-0-409" name="__codelineno-0-409"></a><span class="sd">    The antiSMASH data directory must exist and contain at least one sub-directory. The name of the</span>
+<a id="__codelineno-0-410" name="__codelineno-0-410"></a><span class="sd">    sub-directories must not contain any space. Each sub-directory must contain at least one BGC</span>
+<a id="__codelineno-0-411" name="__codelineno-0-411"></a><span class="sd">    file (with the suffix &quot;.region???.gbk&quot; where ??? is the region number).</span>
 <a id="__codelineno-0-412" name="__codelineno-0-412"></a>
-<a id="__codelineno-0-413" name="__codelineno-0-413"></a><span class="sd">    Raises:</span>
-<a id="__codelineno-0-414" name="__codelineno-0-414"></a><span class="sd">        FileNotFoundError: If the antiSMASH data directory is not found, or no sub-directories</span>
-<a id="__codelineno-0-415" name="__codelineno-0-415"></a><span class="sd">            are found in the antiSMASH data directory, or no BGC files are found in any</span>
-<a id="__codelineno-0-416" name="__codelineno-0-416"></a><span class="sd">            sub-directory.</span>
-<a id="__codelineno-0-417" name="__codelineno-0-417"></a><span class="sd">        ValueError: If any sub-directory name contains a space.</span>
-<a id="__codelineno-0-418" name="__codelineno-0-418"></a><span class="sd">    &quot;&quot;&quot;</span>
-<a id="__codelineno-0-419" name="__codelineno-0-419"></a>    <span class="k">if</span> <span class="ow">not</span> <span class="n">antismash_dir</span><span class="o">.</span><span class="n">exists</span><span class="p">():</span>
-<a id="__codelineno-0-420" name="__codelineno-0-420"></a>        <span class="k">raise</span> <span class="ne">FileNotFoundError</span><span class="p">(</span><span class="sa">f</span><span class="s2">&quot;antiSMASH data directory not found at </span><span class="si">{</span><span class="n">antismash_dir</span><span class="si">}</span><span class="s2">&quot;</span><span class="p">)</span>
-<a id="__codelineno-0-421" name="__codelineno-0-421"></a>
-<a id="__codelineno-0-422" name="__codelineno-0-422"></a>    <span class="n">sub_dirs</span> <span class="o">=</span> <span class="n">list_dirs</span><span class="p">(</span><span class="n">antismash_dir</span><span class="p">)</span>
-<a id="__codelineno-0-423" name="__codelineno-0-423"></a>    <span class="k">if</span> <span class="ow">not</span> <span class="n">sub_dirs</span><span class="p">:</span>
-<a id="__codelineno-0-424" name="__codelineno-0-424"></a>        <span class="k">raise</span> <span class="ne">FileNotFoundError</span><span class="p">(</span>
-<a id="__codelineno-0-425" name="__codelineno-0-425"></a>            <span class="s2">&quot;No BGC directories found in antiSMASH data directory </span><span class="si">{antismash_dir}</span><span class="s2">&quot;</span>
-<a id="__codelineno-0-426" name="__codelineno-0-426"></a>        <span class="p">)</span>
-<a id="__codelineno-0-427" name="__codelineno-0-427"></a>
-<a id="__codelineno-0-428" name="__codelineno-0-428"></a>    <span class="k">for</span> <span class="n">sub_dir</span> <span class="ow">in</span> <span class="n">sub_dirs</span><span class="p">:</span>
-<a id="__codelineno-0-429" name="__codelineno-0-429"></a>        <span class="n">dir_name</span> <span class="o">=</span> <span class="n">Path</span><span class="p">(</span><span class="n">sub_dir</span><span class="p">)</span><span class="o">.</span><span class="n">name</span>
-<a id="__codelineno-0-430" name="__codelineno-0-430"></a>        <span class="k">if</span> <span class="s2">&quot; &quot;</span> <span class="ow">in</span> <span class="n">dir_name</span><span class="p">:</span>
-<a id="__codelineno-0-431" name="__codelineno-0-431"></a>            <span class="k">raise</span> <span class="ne">ValueError</span><span class="p">(</span>
-<a id="__codelineno-0-432" name="__codelineno-0-432"></a>                <span class="sa">f</span><span class="s2">&quot;antiSMASH sub-directory name </span><span class="si">{</span><span class="n">dir_name</span><span class="si">}</span><span class="s2"> contains space, which is not allowed&quot;</span>
-<a id="__codelineno-0-433" name="__codelineno-0-433"></a>            <span class="p">)</span>
-<a id="__codelineno-0-434" name="__codelineno-0-434"></a>
-<a id="__codelineno-0-435" name="__codelineno-0-435"></a>        <span class="n">gbk_files</span> <span class="o">=</span> <span class="n">list_files</span><span class="p">(</span><span class="n">sub_dir</span><span class="p">,</span> <span class="n">suffix</span><span class="o">=</span><span class="s2">&quot;.gbk&quot;</span><span class="p">,</span> <span class="n">keep_parent</span><span class="o">=</span><span class="kc">False</span><span class="p">)</span>
-<a id="__codelineno-0-436" name="__codelineno-0-436"></a>        <span class="n">bgc_files</span> <span class="o">=</span> <span class="n">fnmatch</span><span class="o">.</span><span class="n">filter</span><span class="p">(</span><span class="n">gbk_files</span><span class="p">,</span> <span class="s2">&quot;*.region???.gbk&quot;</span><span class="p">)</span>
-<a id="__codelineno-0-437" name="__codelineno-0-437"></a>        <span class="k">if</span> <span class="ow">not</span> <span class="n">bgc_files</span><span class="p">:</span>
-<a id="__codelineno-0-438" name="__codelineno-0-438"></a>            <span class="k">raise</span> <span class="ne">FileNotFoundError</span><span class="p">(</span><span class="sa">f</span><span class="s2">&quot;No BGC files found in antiSMASH sub-directory </span><span class="si">{</span><span class="n">sub_dir</span><span class="si">}</span><span class="s2">&quot;</span><span class="p">)</span>
+<a id="__codelineno-0-413" name="__codelineno-0-413"></a><span class="sd">    Args:</span>
+<a id="__codelineno-0-414" name="__codelineno-0-414"></a><span class="sd">        antismash_dir: Path to the antiSMASH data directory.</span>
+<a id="__codelineno-0-415" name="__codelineno-0-415"></a>
+<a id="__codelineno-0-416" name="__codelineno-0-416"></a><span class="sd">    Raises:</span>
+<a id="__codelineno-0-417" name="__codelineno-0-417"></a><span class="sd">        FileNotFoundError: If the antiSMASH data directory is not found, or no sub-directories</span>
+<a id="__codelineno-0-418" name="__codelineno-0-418"></a><span class="sd">            are found in the antiSMASH data directory, or no BGC files are found in any</span>
+<a id="__codelineno-0-419" name="__codelineno-0-419"></a><span class="sd">            sub-directory.</span>
+<a id="__codelineno-0-420" name="__codelineno-0-420"></a><span class="sd">        ValueError: If any sub-directory name contains a space.</span>
+<a id="__codelineno-0-421" name="__codelineno-0-421"></a><span class="sd">    &quot;&quot;&quot;</span>
+<a id="__codelineno-0-422" name="__codelineno-0-422"></a>    <span class="k">if</span> <span class="ow">not</span> <span class="n">antismash_dir</span><span class="o">.</span><span class="n">exists</span><span class="p">():</span>
+<a id="__codelineno-0-423" name="__codelineno-0-423"></a>        <span class="k">raise</span> <span class="ne">FileNotFoundError</span><span class="p">(</span><span class="sa">f</span><span class="s2">&quot;antiSMASH data directory not found at </span><span class="si">{</span><span class="n">antismash_dir</span><span class="si">}</span><span class="s2">&quot;</span><span class="p">)</span>
+<a id="__codelineno-0-424" name="__codelineno-0-424"></a>
+<a id="__codelineno-0-425" name="__codelineno-0-425"></a>    <span class="n">sub_dirs</span> <span class="o">=</span> <span class="n">list_dirs</span><span class="p">(</span><span class="n">antismash_dir</span><span class="p">)</span>
+<a id="__codelineno-0-426" name="__codelineno-0-426"></a>    <span class="k">if</span> <span class="ow">not</span> <span class="n">sub_dirs</span><span class="p">:</span>
+<a id="__codelineno-0-427" name="__codelineno-0-427"></a>        <span class="k">raise</span> <span class="ne">FileNotFoundError</span><span class="p">(</span>
+<a id="__codelineno-0-428" name="__codelineno-0-428"></a>            <span class="s2">&quot;No BGC directories found in antiSMASH data directory </span><span class="si">{antismash_dir}</span><span class="s2">&quot;</span>
+<a id="__codelineno-0-429" name="__codelineno-0-429"></a>        <span class="p">)</span>
+<a id="__codelineno-0-430" name="__codelineno-0-430"></a>
+<a id="__codelineno-0-431" name="__codelineno-0-431"></a>    <span class="k">for</span> <span class="n">sub_dir</span> <span class="ow">in</span> <span class="n">sub_dirs</span><span class="p">:</span>
+<a id="__codelineno-0-432" name="__codelineno-0-432"></a>        <span class="n">dir_name</span> <span class="o">=</span> <span class="n">Path</span><span class="p">(</span><span class="n">sub_dir</span><span class="p">)</span><span class="o">.</span><span class="n">name</span>
+<a id="__codelineno-0-433" name="__codelineno-0-433"></a>        <span class="k">if</span> <span class="s2">&quot; &quot;</span> <span class="ow">in</span> <span class="n">dir_name</span><span class="p">:</span>
+<a id="__codelineno-0-434" name="__codelineno-0-434"></a>            <span class="k">raise</span> <span class="ne">ValueError</span><span class="p">(</span>
+<a id="__codelineno-0-435" name="__codelineno-0-435"></a>                <span class="sa">f</span><span class="s2">&quot;antiSMASH sub-directory name </span><span class="si">{</span><span class="n">dir_name</span><span class="si">}</span><span class="s2"> contains space, which is not allowed&quot;</span>
+<a id="__codelineno-0-436" name="__codelineno-0-436"></a>            <span class="p">)</span>
+<a id="__codelineno-0-437" name="__codelineno-0-437"></a>
+<a id="__codelineno-0-438" name="__codelineno-0-438"></a>        <span class="n">gbk_files</span> <span class="o">=</span> <span class="n">list_files</span><span class="p">(</span><span class="n">sub_dir</span><span class="p">,</span> <span class="n">suffix</span><span class="o">=</span><span class="s2">&quot;.gbk&quot;</span><span class="p">,</span> <span class="n">keep_parent</span><span class="o">=</span><span class="kc">False</span><span class="p">)</span>
+<a id="__codelineno-0-439" name="__codelineno-0-439"></a>        <span class="n">bgc_files</span> <span class="o">=</span> <span class="n">fnmatch</span><span class="o">.</span><span class="n">filter</span><span class="p">(</span><span class="n">gbk_files</span><span class="p">,</span> <span class="s2">&quot;*.region???.gbk&quot;</span><span class="p">)</span>
+<a id="__codelineno-0-440" name="__codelineno-0-440"></a>        <span class="k">if</span> <span class="ow">not</span> <span class="n">bgc_files</span><span class="p">:</span>
+<a id="__codelineno-0-441" name="__codelineno-0-441"></a>            <span class="k">raise</span> <span class="ne">FileNotFoundError</span><span class="p">(</span><span class="sa">f</span><span class="s2">&quot;No BGC files found in antiSMASH sub-directory </span><span class="si">{</span><span class="n">sub_dir</span><span class="si">}</span><span class="s2">&quot;</span><span class="p">)</span>
 </code></pre></div></td></tr></table></div>
           </details>
   </div>
@@ -2641,6 +2662,9 @@ <h3 id="nplinker.arranger.validate_bigscape" class="doc doc-heading">
 <p>The BiG-SCAPE data directory must exist and contain the clustering file
 "mix_clustering_c{config.bigscape.cutoff}.tsv" where {config.bigscape.cutoff} is the
 bigscape cutoff value set in the config file.</p>
+<p>Alternatively, the directory can contain the BiG-SCAPE database file generated by BiG-SCAPE v2.
+At the moment, all the family assignments in the database will be used, so this database should
+contain results from a single run with the desired cutoff.</p>
 
 
 
@@ -2698,10 +2722,7 @@ <h3 id="nplinker.arranger.validate_bigscape" class="doc doc-heading">
 
           <details class="quote">
             <summary>Source code in <code>src/nplinker/arranger.py</code></summary>
-            <div class="language-python highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal"><a href="#__codelineno-0-441">441</a></span>
-<span class="normal"><a href="#__codelineno-0-442">442</a></span>
-<span class="normal"><a href="#__codelineno-0-443">443</a></span>
-<span class="normal"><a href="#__codelineno-0-444">444</a></span>
+            <div class="language-python highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal"><a href="#__codelineno-0-444">444</a></span>
 <span class="normal"><a href="#__codelineno-0-445">445</a></span>
 <span class="normal"><a href="#__codelineno-0-446">446</a></span>
 <span class="normal"><a href="#__codelineno-0-447">447</a></span>
@@ -2716,25 +2737,38 @@ <h3 id="nplinker.arranger.validate_bigscape" class="doc doc-heading">
 <span class="normal"><a href="#__codelineno-0-456">456</a></span>
 <span class="normal"><a href="#__codelineno-0-457">457</a></span>
 <span class="normal"><a href="#__codelineno-0-458">458</a></span>
-<span class="normal"><a href="#__codelineno-0-459">459</a></span></pre></div></td><td class="code"><div><pre><span></span><code><a id="__codelineno-0-441" name="__codelineno-0-441"></a><span class="k">def</span> <span class="nf">validate_bigscape</span><span class="p">(</span><span class="n">bigscape_dir</span><span class="p">:</span> <span class="n">Path</span><span class="p">)</span> <span class="o">-&gt;</span> <span class="kc">None</span><span class="p">:</span>
-<a id="__codelineno-0-442" name="__codelineno-0-442"></a><span class="w">    </span><span class="sd">&quot;&quot;&quot;Validate the BiG-SCAPE data directory and its contents.</span>
-<a id="__codelineno-0-443" name="__codelineno-0-443"></a>
-<a id="__codelineno-0-444" name="__codelineno-0-444"></a><span class="sd">    The BiG-SCAPE data directory must exist and contain the clustering file</span>
-<a id="__codelineno-0-445" name="__codelineno-0-445"></a><span class="sd">    &quot;mix_clustering_c{config.bigscape.cutoff}.tsv&quot; where {config.bigscape.cutoff} is the</span>
-<a id="__codelineno-0-446" name="__codelineno-0-446"></a><span class="sd">    bigscape cutoff value set in the config file.</span>
-<a id="__codelineno-0-447" name="__codelineno-0-447"></a>
-<a id="__codelineno-0-448" name="__codelineno-0-448"></a><span class="sd">    Args:</span>
-<a id="__codelineno-0-449" name="__codelineno-0-449"></a><span class="sd">        bigscape_dir: Path to the BiG-SCAPE data directory.</span>
+<span class="normal"><a href="#__codelineno-0-459">459</a></span>
+<span class="normal"><a href="#__codelineno-0-460">460</a></span>
+<span class="normal"><a href="#__codelineno-0-461">461</a></span>
+<span class="normal"><a href="#__codelineno-0-462">462</a></span>
+<span class="normal"><a href="#__codelineno-0-463">463</a></span>
+<span class="normal"><a href="#__codelineno-0-464">464</a></span>
+<span class="normal"><a href="#__codelineno-0-465">465</a></span>
+<span class="normal"><a href="#__codelineno-0-466">466</a></span>
+<span class="normal"><a href="#__codelineno-0-467">467</a></span></pre></div></td><td class="code"><div><pre><span></span><code><a id="__codelineno-0-444" name="__codelineno-0-444"></a><span class="k">def</span> <span class="nf">validate_bigscape</span><span class="p">(</span><span class="n">bigscape_dir</span><span class="p">:</span> <span class="n">Path</span><span class="p">)</span> <span class="o">-&gt;</span> <span class="kc">None</span><span class="p">:</span>
+<a id="__codelineno-0-445" name="__codelineno-0-445"></a><span class="w">    </span><span class="sd">&quot;&quot;&quot;Validate the BiG-SCAPE data directory and its contents.</span>
+<a id="__codelineno-0-446" name="__codelineno-0-446"></a>
+<a id="__codelineno-0-447" name="__codelineno-0-447"></a><span class="sd">    The BiG-SCAPE data directory must exist and contain the clustering file</span>
+<a id="__codelineno-0-448" name="__codelineno-0-448"></a><span class="sd">    &quot;mix_clustering_c{config.bigscape.cutoff}.tsv&quot; where {config.bigscape.cutoff} is the</span>
+<a id="__codelineno-0-449" name="__codelineno-0-449"></a><span class="sd">    bigscape cutoff value set in the config file.</span>
 <a id="__codelineno-0-450" name="__codelineno-0-450"></a>
-<a id="__codelineno-0-451" name="__codelineno-0-451"></a><span class="sd">    Raises:</span>
-<a id="__codelineno-0-452" name="__codelineno-0-452"></a><span class="sd">        FileNotFoundError: If the BiG-SCAPE data directory or the clustering file is not found.</span>
-<a id="__codelineno-0-453" name="__codelineno-0-453"></a><span class="sd">    &quot;&quot;&quot;</span>
-<a id="__codelineno-0-454" name="__codelineno-0-454"></a>    <span class="k">if</span> <span class="ow">not</span> <span class="n">bigscape_dir</span><span class="o">.</span><span class="n">exists</span><span class="p">():</span>
-<a id="__codelineno-0-455" name="__codelineno-0-455"></a>        <span class="k">raise</span> <span class="ne">FileNotFoundError</span><span class="p">(</span><span class="sa">f</span><span class="s2">&quot;BiG-SCAPE data directory not found at </span><span class="si">{</span><span class="n">bigscape_dir</span><span class="si">}</span><span class="s2">&quot;</span><span class="p">)</span>
-<a id="__codelineno-0-456" name="__codelineno-0-456"></a>
-<a id="__codelineno-0-457" name="__codelineno-0-457"></a>    <span class="n">clustering_file</span> <span class="o">=</span> <span class="n">bigscape_dir</span> <span class="o">/</span> <span class="sa">f</span><span class="s2">&quot;mix_clustering_c</span><span class="si">{</span><span class="n">config</span><span class="o">.</span><span class="n">bigscape</span><span class="o">.</span><span class="n">cutoff</span><span class="si">}</span><span class="s2">.tsv&quot;</span>
-<a id="__codelineno-0-458" name="__codelineno-0-458"></a>    <span class="k">if</span> <span class="ow">not</span> <span class="n">clustering_file</span><span class="o">.</span><span class="n">exists</span><span class="p">():</span>
-<a id="__codelineno-0-459" name="__codelineno-0-459"></a>        <span class="k">raise</span> <span class="ne">FileNotFoundError</span><span class="p">(</span><span class="sa">f</span><span class="s2">&quot;BiG-SCAPE clustering file not found: </span><span class="si">{</span><span class="n">clustering_file</span><span class="si">}</span><span class="s2">&quot;</span><span class="p">)</span>
+<a id="__codelineno-0-451" name="__codelineno-0-451"></a><span class="sd">    Alternatively, the directory can contain the BiG-SCAPE database file generated by BiG-SCAPE v2.</span>
+<a id="__codelineno-0-452" name="__codelineno-0-452"></a><span class="sd">    At the moment, all the family assignments in the database will be used, so this database should</span>
+<a id="__codelineno-0-453" name="__codelineno-0-453"></a><span class="sd">    contain results from a single run with the desired cutoff.</span>
+<a id="__codelineno-0-454" name="__codelineno-0-454"></a>
+<a id="__codelineno-0-455" name="__codelineno-0-455"></a><span class="sd">    Args:</span>
+<a id="__codelineno-0-456" name="__codelineno-0-456"></a><span class="sd">        bigscape_dir: Path to the BiG-SCAPE data directory.</span>
+<a id="__codelineno-0-457" name="__codelineno-0-457"></a>
+<a id="__codelineno-0-458" name="__codelineno-0-458"></a><span class="sd">    Raises:</span>
+<a id="__codelineno-0-459" name="__codelineno-0-459"></a><span class="sd">        FileNotFoundError: If the BiG-SCAPE data directory or the clustering file is not found.</span>
+<a id="__codelineno-0-460" name="__codelineno-0-460"></a><span class="sd">    &quot;&quot;&quot;</span>
+<a id="__codelineno-0-461" name="__codelineno-0-461"></a>    <span class="k">if</span> <span class="ow">not</span> <span class="n">bigscape_dir</span><span class="o">.</span><span class="n">exists</span><span class="p">():</span>
+<a id="__codelineno-0-462" name="__codelineno-0-462"></a>        <span class="k">raise</span> <span class="ne">FileNotFoundError</span><span class="p">(</span><span class="sa">f</span><span class="s2">&quot;BiG-SCAPE data directory not found at </span><span class="si">{</span><span class="n">bigscape_dir</span><span class="si">}</span><span class="s2">&quot;</span><span class="p">)</span>
+<a id="__codelineno-0-463" name="__codelineno-0-463"></a>
+<a id="__codelineno-0-464" name="__codelineno-0-464"></a>    <span class="n">clustering_file</span> <span class="o">=</span> <span class="n">bigscape_dir</span> <span class="o">/</span> <span class="sa">f</span><span class="s2">&quot;mix_clustering_c</span><span class="si">{</span><span class="n">config</span><span class="o">.</span><span class="n">bigscape</span><span class="o">.</span><span class="n">cutoff</span><span class="si">}</span><span class="s2">.tsv&quot;</span>
+<a id="__codelineno-0-465" name="__codelineno-0-465"></a>    <span class="n">database_file</span> <span class="o">=</span> <span class="n">bigscape_dir</span> <span class="o">/</span> <span class="s2">&quot;data_sqlite.db&quot;</span>
+<a id="__codelineno-0-466" name="__codelineno-0-466"></a>    <span class="k">if</span> <span class="ow">not</span> <span class="n">clustering_file</span><span class="o">.</span><span class="n">exists</span><span class="p">()</span> <span class="ow">and</span> <span class="ow">not</span> <span class="n">database_file</span><span class="o">.</span><span class="n">exists</span><span class="p">():</span>
+<a id="__codelineno-0-467" name="__codelineno-0-467"></a>        <span class="k">raise</span> <span class="ne">FileNotFoundError</span><span class="p">(</span><span class="sa">f</span><span class="s2">&quot;BiG-SCAPE data not found in </span><span class="si">{</span><span class="n">clustering_file</span><span class="si">}</span><span class="s2"> or </span><span class="si">{</span><span class="n">database_file</span><span class="si">}</span><span class="s2">&quot;</span><span class="p">)</span>
 </code></pre></div></td></tr></table></div>
           </details>
   </div>
diff --git a/dev/api/bigscape/index.html b/dev/api/bigscape/index.html
index c9e9dc2e..bd61f0e0 100644
--- a/dev/api/bigscape/index.html
+++ b/dev/api/bigscape/index.html
@@ -938,6 +938,15 @@
     <nav class="md-nav" aria-label=" BigscapeGCFLoader">
       <ul class="md-nav__list">
         
+          <li class="md-nav__item">
+  <a href="#nplinker.genomics.bigscape.BigscapeGCFLoader.cluster_file" class="md-nav__link">
+    <span class="md-ellipsis">
+      <code class="doc-symbol doc-symbol-toc doc-symbol-attribute"></code>&nbsp;cluster_file
+    </span>
+  </a>
+  
+</li>
+        
           <li class="md-nav__item">
   <a href="#nplinker.genomics.bigscape.BigscapeGCFLoader.get_gcfs" class="md-nav__link">
     <span class="md-ellipsis">
@@ -950,6 +959,48 @@
       </ul>
     </nav>
   
+</li>
+        
+          <li class="md-nav__item">
+  <a href="#nplinker.genomics.bigscape.BigscapeV2GCFLoader" class="md-nav__link">
+    <span class="md-ellipsis">
+      <code class="doc-symbol doc-symbol-toc doc-symbol-class"></code>&nbsp;BigscapeV2GCFLoader
+    </span>
+  </a>
+  
+    <nav class="md-nav" aria-label=" BigscapeV2GCFLoader">
+      <ul class="md-nav__list">
+        
+          <li class="md-nav__item">
+  <a href="#nplinker.genomics.bigscape.BigscapeV2GCFLoader.db_file" class="md-nav__link">
+    <span class="md-ellipsis">
+      <code class="doc-symbol doc-symbol-toc doc-symbol-attribute"></code>&nbsp;db_file
+    </span>
+  </a>
+  
+</li>
+        
+          <li class="md-nav__item">
+  <a href="#nplinker.genomics.bigscape.BigscapeV2GCFLoader.get_gcfs" class="md-nav__link">
+    <span class="md-ellipsis">
+      <code class="doc-symbol doc-symbol-toc doc-symbol-method"></code>&nbsp;get_gcfs
+    </span>
+  </a>
+  
+</li>
+        
+      </ul>
+    </nav>
+  
+</li>
+        
+          <li class="md-nav__item">
+  <a href="#nplinker.genomics.bigscape.run_bigscape" class="md-nav__link">
+    <span class="md-ellipsis">
+      <code class="doc-symbol doc-symbol-toc doc-symbol-function"></code>&nbsp;run_bigscape
+    </span>
+  </a>
+  
 </li>
         
       </ul>
@@ -1336,6 +1387,15 @@
     <nav class="md-nav" aria-label=" BigscapeGCFLoader">
       <ul class="md-nav__list">
         
+          <li class="md-nav__item">
+  <a href="#nplinker.genomics.bigscape.BigscapeGCFLoader.cluster_file" class="md-nav__link">
+    <span class="md-ellipsis">
+      <code class="doc-symbol doc-symbol-toc doc-symbol-attribute"></code>&nbsp;cluster_file
+    </span>
+  </a>
+  
+</li>
+        
           <li class="md-nav__item">
   <a href="#nplinker.genomics.bigscape.BigscapeGCFLoader.get_gcfs" class="md-nav__link">
     <span class="md-ellipsis">
@@ -1348,6 +1408,48 @@
       </ul>
     </nav>
   
+</li>
+        
+          <li class="md-nav__item">
+  <a href="#nplinker.genomics.bigscape.BigscapeV2GCFLoader" class="md-nav__link">
+    <span class="md-ellipsis">
+      <code class="doc-symbol doc-symbol-toc doc-symbol-class"></code>&nbsp;BigscapeV2GCFLoader
+    </span>
+  </a>
+  
+    <nav class="md-nav" aria-label=" BigscapeV2GCFLoader">
+      <ul class="md-nav__list">
+        
+          <li class="md-nav__item">
+  <a href="#nplinker.genomics.bigscape.BigscapeV2GCFLoader.db_file" class="md-nav__link">
+    <span class="md-ellipsis">
+      <code class="doc-symbol doc-symbol-toc doc-symbol-attribute"></code>&nbsp;db_file
+    </span>
+  </a>
+  
+</li>
+        
+          <li class="md-nav__item">
+  <a href="#nplinker.genomics.bigscape.BigscapeV2GCFLoader.get_gcfs" class="md-nav__link">
+    <span class="md-ellipsis">
+      <code class="doc-symbol doc-symbol-toc doc-symbol-method"></code>&nbsp;get_gcfs
+    </span>
+  </a>
+  
+</li>
+        
+      </ul>
+    </nav>
+  
+</li>
+        
+          <li class="md-nav__item">
+  <a href="#nplinker.genomics.bigscape.run_bigscape" class="md-nav__link">
+    <span class="md-ellipsis">
+      <code class="doc-symbol doc-symbol-toc doc-symbol-function"></code>&nbsp;run_bigscape
+    </span>
+  </a>
+  
 </li>
         
       </ul>
@@ -1426,6 +1528,33 @@ <h3 id="nplinker.genomics.bigscape.BigscapeGCFLoader" class="doc doc-heading">
 
 
 
+  <p><strong>Attributes:</strong></p>
+  <table>
+    <thead>
+      <tr>
+        <th>Name</th>
+        <th>Type</th>
+        <th>Description</th>
+      </tr>
+    </thead>
+    <tbody>
+        <tr>
+          <td><code><a class="autorefs autorefs-internal" title="nplinker.genomics.bigscape.BigscapeGCFLoader.cluster_file" href="#nplinker.genomics.bigscape.BigscapeGCFLoader.cluster_file">cluster_file</a></code></td>
+          <td>
+                <code><a class="autorefs autorefs-external" href="https://docs.python.org/3/library/stdtypes.html#str">str</a></code>
+          </td>
+          <td>
+            <div class="doc-md-description">
+              <p>path to the BiG-SCAPE cluster file.</p>
+            </div>
+          </td>
+        </tr>
+    </tbody>
+  </table>
+  
+
+
+
   <p><strong>Parameters:</strong></p>
   <table>
     <thead>
@@ -1455,6 +1584,217 @@ <h3 id="nplinker.genomics.bigscape.BigscapeGCFLoader" class="doc doc-heading">
     </tbody>
   </table>
 
+                <details class="quote">
+                  <summary>Source code in <code>src/nplinker/genomics/bigscape/bigscape_loader.py</code></summary>
+                  <div class="language-python highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal"><a href="#__codelineno-0-20">20</a></span>
+<span class="normal"><a href="#__codelineno-0-21">21</a></span>
+<span class="normal"><a href="#__codelineno-0-22">22</a></span>
+<span class="normal"><a href="#__codelineno-0-23">23</a></span>
+<span class="normal"><a href="#__codelineno-0-24">24</a></span>
+<span class="normal"><a href="#__codelineno-0-25">25</a></span>
+<span class="normal"><a href="#__codelineno-0-26">26</a></span>
+<span class="normal"><a href="#__codelineno-0-27">27</a></span>
+<span class="normal"><a href="#__codelineno-0-28">28</a></span></pre></div></td><td class="code"><div><pre><span></span><code><a id="__codelineno-0-20" name="__codelineno-0-20"></a><span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">cluster_file</span><span class="p">:</span> <span class="nb">str</span> <span class="o">|</span> <span class="n">PathLike</span><span class="p">,</span> <span class="o">/</span><span class="p">)</span> <span class="o">-&gt;</span> <span class="kc">None</span><span class="p">:</span>
+<a id="__codelineno-0-21" name="__codelineno-0-21"></a><span class="w">    </span><span class="sd">&quot;&quot;&quot;Initialize the BiG-SCAPE GCF loader.</span>
+<a id="__codelineno-0-22" name="__codelineno-0-22"></a>
+<a id="__codelineno-0-23" name="__codelineno-0-23"></a><span class="sd">    Args:</span>
+<a id="__codelineno-0-24" name="__codelineno-0-24"></a><span class="sd">        cluster_file: Path to the BiG-SCAPE cluster file,</span>
+<a id="__codelineno-0-25" name="__codelineno-0-25"></a><span class="sd">            the filename has a pattern of &quot;&lt;class&gt;_clustering_c0.xx.tsv&quot;.</span>
+<a id="__codelineno-0-26" name="__codelineno-0-26"></a><span class="sd">    &quot;&quot;&quot;</span>
+<a id="__codelineno-0-27" name="__codelineno-0-27"></a>    <span class="bp">self</span><span class="o">.</span><span class="n">cluster_file</span><span class="p">:</span> <span class="nb">str</span> <span class="o">=</span> <span class="nb">str</span><span class="p">(</span><span class="n">cluster_file</span><span class="p">)</span>
+<a id="__codelineno-0-28" name="__codelineno-0-28"></a>    <span class="bp">self</span><span class="o">.</span><span class="n">_gcf_list</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">_parse_gcf</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">cluster_file</span><span class="p">)</span>
+</code></pre></div></td></tr></table></div>
+                </details>
+
+  
+
+  <div class="doc doc-children">
+
+
+
+
+
+
+
+<div class="doc doc-object doc-attribute">
+
+
+
+<h4 id="nplinker.genomics.bigscape.BigscapeGCFLoader.cluster_file" class="doc doc-heading">
+<code class="doc-symbol doc-symbol-heading doc-symbol-attribute"></code>          <span class="doc doc-object-name doc-attribute-name">cluster_file</span>
+
+  
+  <span class="doc doc-labels">
+      <small class="doc doc-label doc-label-instance-attribute"><code>instance-attribute</code></small>
+  </span>
+
+<a href="#nplinker.genomics.bigscape.BigscapeGCFLoader.cluster_file" class="headerlink" title="Permanent link">&para;</a></h4>
+<div class="language-python doc-signature highlight"><pre><span></span><code><a id="__codelineno-0-1" name="__codelineno-0-1" href="#__codelineno-0-1"></a><span class="n">cluster_file</span><span class="p">:</span> <span class="n"><a class="autorefs autorefs-external" href="https://docs.python.org/3/library/stdtypes.html#str">str</a></span> <span class="o">=</span> <span class="n"><a class="autorefs autorefs-external" href="https://docs.python.org/3/library/stdtypes.html#str">str</a></span><span class="p">(</span><span class="n"><a class="autorefs autorefs-internal" title="nplinker.genomics.bigscape.bigscape_loader.BigscapeGCFLoader.cluster_file" href="#nplinker.genomics.bigscape.BigscapeGCFLoader.cluster_file">cluster_file</a></span><span class="p">)</span>
+</code></pre></div>
+
+  <div class="doc doc-contents ">
+  </div>
+
+</div>
+
+
+
+
+<div class="doc doc-object doc-function">
+
+
+
+<h4 id="nplinker.genomics.bigscape.BigscapeGCFLoader.get_gcfs" class="doc doc-heading">
+<code class="doc-symbol doc-symbol-heading doc-symbol-method"></code>          <span class="doc doc-object-name doc-function-name">get_gcfs</span>
+
+
+<a href="#nplinker.genomics.bigscape.BigscapeGCFLoader.get_gcfs" class="headerlink" title="Permanent link">&para;</a></h4>
+<div class="language-python doc-signature highlight"><pre><span></span><code><a id="__codelineno-0-1" name="__codelineno-0-1" href="#__codelineno-0-1"></a><span class="n">get_gcfs</span><span class="p">(</span><span class="n">keep_mibig_only</span><span class="p">:</span> <span class="n"><a class="autorefs autorefs-external" href="https://docs.python.org/3/library/functions.html#bool">bool</a></span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span> <span class="n">keep_singleton</span><span class="p">:</span> <span class="n"><a class="autorefs autorefs-external" href="https://docs.python.org/3/library/functions.html#bool">bool</a></span> <span class="o">=</span> <span class="kc">False</span><span class="p">)</span> <span class="o">-&gt;</span> <span class="n"><a class="autorefs autorefs-external" href="https://docs.python.org/3/library/stdtypes.html#list">list</a></span><span class="p">[</span><span class="n"><a class="autorefs autorefs-internal" title="nplinker.genomics.gcf.GCF" href="../genomics/#nplinker.genomics.GCF">GCF</a></span><span class="p">]</span>
+</code></pre></div>
+
+  <div class="doc doc-contents ">
+  
+      <p>Get all GCF objects.</p>
+
+
+
+  <p><strong>Parameters:</strong></p>
+  <table>
+    <thead>
+      <tr>
+        <th>Name</th>
+        <th>Type</th>
+        <th>Description</th>
+        <th>Default</th>
+      </tr>
+    </thead>
+    <tbody>
+        <tr>
+          <td><code>keep_mibig_only</code></td>
+          <td>
+                <code><a class="autorefs autorefs-external" href="https://docs.python.org/3/library/functions.html#bool">bool</a></code>
+          </td>
+          <td>
+            <div class="doc-md-description">
+              <p>True to keep GCFs that contain only MIBiG
+BGCs.</p>
+            </div>
+          </td>
+          <td>
+                <code>False</code>
+          </td>
+        </tr>
+        <tr>
+          <td><code>keep_singleton</code></td>
+          <td>
+                <code><a class="autorefs autorefs-external" href="https://docs.python.org/3/library/functions.html#bool">bool</a></code>
+          </td>
+          <td>
+            <div class="doc-md-description">
+              <p>True to keep singleton GCFs. A singleton GCF
+is a GCF that contains only one BGC.</p>
+            </div>
+          </td>
+          <td>
+                <code>False</code>
+          </td>
+        </tr>
+    </tbody>
+  </table>
+
+
+
+  <p><strong>Returns:</strong></p>
+  <table>
+    <thead>
+      <tr>
+        <th>Type</th>
+        <th>Description</th>
+      </tr>
+    </thead>
+    <tbody>
+        <tr>
+          <td>
+                <code><a class="autorefs autorefs-external" href="https://docs.python.org/3/library/stdtypes.html#list">list</a>[<a class="autorefs autorefs-internal" title="nplinker.genomics.gcf.GCF" href="../genomics/#nplinker.genomics.GCF">GCF</a>]</code>
+          </td>
+          <td>
+            <div class="doc-md-description">
+              <p>A list of GCF objects.</p>
+            </div>
+          </td>
+        </tr>
+    </tbody>
+  </table>
+
+          <details class="quote">
+            <summary>Source code in <code>src/nplinker/genomics/bigscape/bigscape_loader.py</code></summary>
+            <div class="language-python highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal"><a href="#__codelineno-0-30">30</a></span>
+<span class="normal"><a href="#__codelineno-0-31">31</a></span>
+<span class="normal"><a href="#__codelineno-0-32">32</a></span>
+<span class="normal"><a href="#__codelineno-0-33">33</a></span>
+<span class="normal"><a href="#__codelineno-0-34">34</a></span>
+<span class="normal"><a href="#__codelineno-0-35">35</a></span>
+<span class="normal"><a href="#__codelineno-0-36">36</a></span>
+<span class="normal"><a href="#__codelineno-0-37">37</a></span>
+<span class="normal"><a href="#__codelineno-0-38">38</a></span>
+<span class="normal"><a href="#__codelineno-0-39">39</a></span>
+<span class="normal"><a href="#__codelineno-0-40">40</a></span>
+<span class="normal"><a href="#__codelineno-0-41">41</a></span>
+<span class="normal"><a href="#__codelineno-0-42">42</a></span>
+<span class="normal"><a href="#__codelineno-0-43">43</a></span>
+<span class="normal"><a href="#__codelineno-0-44">44</a></span>
+<span class="normal"><a href="#__codelineno-0-45">45</a></span>
+<span class="normal"><a href="#__codelineno-0-46">46</a></span>
+<span class="normal"><a href="#__codelineno-0-47">47</a></span></pre></div></td><td class="code"><div><pre><span></span><code><a id="__codelineno-0-30" name="__codelineno-0-30"></a><span class="k">def</span> <span class="nf">get_gcfs</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">keep_mibig_only</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span> <span class="n">keep_singleton</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">)</span> <span class="o">-&gt;</span> <span class="nb">list</span><span class="p">[</span><span class="n">GCF</span><span class="p">]:</span>
+<a id="__codelineno-0-31" name="__codelineno-0-31"></a><span class="w">    </span><span class="sd">&quot;&quot;&quot;Get all GCF objects.</span>
+<a id="__codelineno-0-32" name="__codelineno-0-32"></a>
+<a id="__codelineno-0-33" name="__codelineno-0-33"></a><span class="sd">    Args:</span>
+<a id="__codelineno-0-34" name="__codelineno-0-34"></a><span class="sd">        keep_mibig_only: True to keep GCFs that contain only MIBiG</span>
+<a id="__codelineno-0-35" name="__codelineno-0-35"></a><span class="sd">            BGCs.</span>
+<a id="__codelineno-0-36" name="__codelineno-0-36"></a><span class="sd">        keep_singleton: True to keep singleton GCFs. A singleton GCF</span>
+<a id="__codelineno-0-37" name="__codelineno-0-37"></a><span class="sd">            is a GCF that contains only one BGC.</span>
+<a id="__codelineno-0-38" name="__codelineno-0-38"></a>
+<a id="__codelineno-0-39" name="__codelineno-0-39"></a><span class="sd">    Returns:</span>
+<a id="__codelineno-0-40" name="__codelineno-0-40"></a><span class="sd">        A list of GCF objects.</span>
+<a id="__codelineno-0-41" name="__codelineno-0-41"></a><span class="sd">    &quot;&quot;&quot;</span>
+<a id="__codelineno-0-42" name="__codelineno-0-42"></a>    <span class="n">gcf_list</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">_gcf_list</span>
+<a id="__codelineno-0-43" name="__codelineno-0-43"></a>    <span class="k">if</span> <span class="ow">not</span> <span class="n">keep_mibig_only</span><span class="p">:</span>
+<a id="__codelineno-0-44" name="__codelineno-0-44"></a>        <span class="n">gcf_list</span> <span class="o">=</span> <span class="p">[</span><span class="n">gcf</span> <span class="k">for</span> <span class="n">gcf</span> <span class="ow">in</span> <span class="n">gcf_list</span> <span class="k">if</span> <span class="ow">not</span> <span class="n">gcf</span><span class="o">.</span><span class="n">has_mibig_only</span><span class="p">()]</span>
+<a id="__codelineno-0-45" name="__codelineno-0-45"></a>    <span class="k">if</span> <span class="ow">not</span> <span class="n">keep_singleton</span><span class="p">:</span>
+<a id="__codelineno-0-46" name="__codelineno-0-46"></a>        <span class="n">gcf_list</span> <span class="o">=</span> <span class="p">[</span><span class="n">gcf</span> <span class="k">for</span> <span class="n">gcf</span> <span class="ow">in</span> <span class="n">gcf_list</span> <span class="k">if</span> <span class="ow">not</span> <span class="n">gcf</span><span class="o">.</span><span class="n">is_singleton</span><span class="p">()]</span>
+<a id="__codelineno-0-47" name="__codelineno-0-47"></a>    <span class="k">return</span> <span class="n">gcf_list</span>
+</code></pre></div></td></tr></table></div>
+          </details>
+  </div>
+
+</div>
+
+
+
+  </div>
+
+  </div>
+
+
+</div>
+
+<div class="doc doc-object doc-class">
+
+
+
+<h3 id="nplinker.genomics.bigscape.BigscapeV2GCFLoader" class="doc doc-heading">
+<code class="doc-symbol doc-symbol-heading doc-symbol-class"></code>          <span class="doc doc-object-name doc-class-name">BigscapeV2GCFLoader</span>
+
+
+<a href="#nplinker.genomics.bigscape.BigscapeV2GCFLoader" class="headerlink" title="Permanent link">&para;</a></h3>
+<div class="language-python doc-signature highlight"><pre><span></span><code><a id="__codelineno-0-1" name="__codelineno-0-1" href="#__codelineno-0-1"></a><span class="n">BigscapeV2GCFLoader</span><span class="p">(</span><span class="n">db_file</span><span class="p">:</span> <span class="n"><a class="autorefs autorefs-external" href="https://docs.python.org/3/library/stdtypes.html#str">str</a></span> <span class="o">|</span> <span class="n"><a class="autorefs autorefs-external" title="os.PathLike" href="https://docs.python.org/3/library/os.html#os.PathLike">PathLike</a></span><span class="p">)</span>
+</code></pre></div>
+
+  <div class="doc doc-contents ">
+
+  
+      <p>Build a loader for BiG-SCAPE v2 database file.</p>
+
 
 
   <p><strong>Attributes:</strong></p>
@@ -1468,43 +1808,66 @@ <h3 id="nplinker.genomics.bigscape.BigscapeGCFLoader" class="doc doc-heading">
     </thead>
     <tbody>
         <tr>
-          <td><code><span title="nplinker.genomics.bigscape.BigscapeGCFLoader.cluster_file">cluster_file</span></code></td>
+          <td><code><a class="autorefs autorefs-internal" title="nplinker.genomics.bigscape.BigscapeV2GCFLoader.db_file" href="#nplinker.genomics.bigscape.BigscapeV2GCFLoader.db_file">db_file</a></code></td>
           <td>
           </td>
           <td>
             <div class="doc-md-description">
-              <p>path to the BiG-SCAPE cluster file.</p>
+              <p>Path to the BiG-SCAPE database file.</p>
             </div>
           </td>
         </tr>
     </tbody>
   </table>
+  
+
+
+
+  <p><strong>Parameters:</strong></p>
+  <table>
+    <thead>
+      <tr>
+        <th>Name</th>
+        <th>Type</th>
+        <th>Description</th>
+        <th>Default</th>
+      </tr>
+    </thead>
+    <tbody>
+        <tr>
+          <td><code>db_file</code></td>
+          <td>
+                <code><a class="autorefs autorefs-external" href="https://docs.python.org/3/library/stdtypes.html#str">str</a> | <a class="autorefs autorefs-external" title="os.PathLike" href="https://docs.python.org/3/library/os.html#os.PathLike">PathLike</a></code>
+          </td>
+          <td>
+            <div class="doc-md-description">
+              <p>Path to the BiG-SCAPE v2 database file</p>
+            </div>
+          </td>
+          <td>
+              <em>required</em>
+          </td>
+        </tr>
+    </tbody>
+  </table>
 
                 <details class="quote">
                   <summary>Source code in <code>src/nplinker/genomics/bigscape/bigscape_loader.py</code></summary>
-                  <div class="language-python highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal"><a href="#__codelineno-0-13">13</a></span>
-<span class="normal"><a href="#__codelineno-0-14">14</a></span>
-<span class="normal"><a href="#__codelineno-0-15">15</a></span>
-<span class="normal"><a href="#__codelineno-0-16">16</a></span>
-<span class="normal"><a href="#__codelineno-0-17">17</a></span>
-<span class="normal"><a href="#__codelineno-0-18">18</a></span>
-<span class="normal"><a href="#__codelineno-0-19">19</a></span>
-<span class="normal"><a href="#__codelineno-0-20">20</a></span>
-<span class="normal"><a href="#__codelineno-0-21">21</a></span>
-<span class="normal"><a href="#__codelineno-0-22">22</a></span>
-<span class="normal"><a href="#__codelineno-0-23">23</a></span>
-<span class="normal"><a href="#__codelineno-0-24">24</a></span></pre></div></td><td class="code"><div><pre><span></span><code><a id="__codelineno-0-13" name="__codelineno-0-13"></a><span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">cluster_file</span><span class="p">:</span> <span class="nb">str</span> <span class="o">|</span> <span class="n">PathLike</span><span class="p">,</span> <span class="o">/</span><span class="p">)</span> <span class="o">-&gt;</span> <span class="kc">None</span><span class="p">:</span>
-<a id="__codelineno-0-14" name="__codelineno-0-14"></a><span class="w">    </span><span class="sd">&quot;&quot;&quot;Build a loader for BiG-SCAPE GCF cluster file.</span>
-<a id="__codelineno-0-15" name="__codelineno-0-15"></a>
-<a id="__codelineno-0-16" name="__codelineno-0-16"></a><span class="sd">    Args:</span>
-<a id="__codelineno-0-17" name="__codelineno-0-17"></a><span class="sd">        cluster_file: Path to the BiG-SCAPE cluster file,</span>
-<a id="__codelineno-0-18" name="__codelineno-0-18"></a><span class="sd">            the filename has a pattern of &quot;&lt;class&gt;_clustering_c0.xx.tsv&quot;.</span>
-<a id="__codelineno-0-19" name="__codelineno-0-19"></a>
-<a id="__codelineno-0-20" name="__codelineno-0-20"></a><span class="sd">    Attributes:</span>
-<a id="__codelineno-0-21" name="__codelineno-0-21"></a><span class="sd">        cluster_file: path to the BiG-SCAPE cluster file.</span>
-<a id="__codelineno-0-22" name="__codelineno-0-22"></a><span class="sd">    &quot;&quot;&quot;</span>
-<a id="__codelineno-0-23" name="__codelineno-0-23"></a>    <span class="bp">self</span><span class="o">.</span><span class="n">cluster_file</span> <span class="o">=</span> <span class="nb">str</span><span class="p">(</span><span class="n">cluster_file</span><span class="p">)</span>
-<a id="__codelineno-0-24" name="__codelineno-0-24"></a>    <span class="bp">self</span><span class="o">.</span><span class="n">_gcf_list</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">_parse_gcf</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">cluster_file</span><span class="p">)</span>
+                  <div class="language-python highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal"><a href="#__codelineno-0-75">75</a></span>
+<span class="normal"><a href="#__codelineno-0-76">76</a></span>
+<span class="normal"><a href="#__codelineno-0-77">77</a></span>
+<span class="normal"><a href="#__codelineno-0-78">78</a></span>
+<span class="normal"><a href="#__codelineno-0-79">79</a></span>
+<span class="normal"><a href="#__codelineno-0-80">80</a></span>
+<span class="normal"><a href="#__codelineno-0-81">81</a></span>
+<span class="normal"><a href="#__codelineno-0-82">82</a></span></pre></div></td><td class="code"><div><pre><span></span><code><a id="__codelineno-0-75" name="__codelineno-0-75"></a><span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">db_file</span><span class="p">:</span> <span class="nb">str</span> <span class="o">|</span> <span class="n">PathLike</span><span class="p">,</span> <span class="o">/</span><span class="p">)</span> <span class="o">-&gt;</span> <span class="kc">None</span><span class="p">:</span>
+<a id="__codelineno-0-76" name="__codelineno-0-76"></a><span class="w">    </span><span class="sd">&quot;&quot;&quot;Initialize the BiG-SCAPE v2 GCF loader.</span>
+<a id="__codelineno-0-77" name="__codelineno-0-77"></a>
+<a id="__codelineno-0-78" name="__codelineno-0-78"></a><span class="sd">    Args:</span>
+<a id="__codelineno-0-79" name="__codelineno-0-79"></a><span class="sd">        db_file: Path to the BiG-SCAPE v2 database file</span>
+<a id="__codelineno-0-80" name="__codelineno-0-80"></a><span class="sd">    &quot;&quot;&quot;</span>
+<a id="__codelineno-0-81" name="__codelineno-0-81"></a>    <span class="bp">self</span><span class="o">.</span><span class="n">db_file</span> <span class="o">=</span> <span class="nb">str</span><span class="p">(</span><span class="n">db_file</span><span class="p">)</span>
+<a id="__codelineno-0-82" name="__codelineno-0-82"></a>    <span class="bp">self</span><span class="o">.</span><span class="n">_gcf_list</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">_parse_gcf</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">db_file</span><span class="p">)</span>
 </code></pre></div></td></tr></table></div>
                 </details>
 
@@ -1518,6 +1881,27 @@ <h3 id="nplinker.genomics.bigscape.BigscapeGCFLoader" class="doc doc-heading">
 
 
 
+<div class="doc doc-object doc-attribute">
+
+
+
+<h4 id="nplinker.genomics.bigscape.BigscapeV2GCFLoader.db_file" class="doc doc-heading">
+<code class="doc-symbol doc-symbol-heading doc-symbol-attribute"></code>          <span class="doc doc-object-name doc-attribute-name">db_file</span>
+
+  
+  <span class="doc doc-labels">
+      <small class="doc doc-label doc-label-instance-attribute"><code>instance-attribute</code></small>
+  </span>
+
+<a href="#nplinker.genomics.bigscape.BigscapeV2GCFLoader.db_file" class="headerlink" title="Permanent link">&para;</a></h4>
+<div class="language-python doc-signature highlight"><pre><span></span><code><a id="__codelineno-0-1" name="__codelineno-0-1" href="#__codelineno-0-1"></a><span class="n">db_file</span> <span class="o">=</span> <span class="n"><a class="autorefs autorefs-external" href="https://docs.python.org/3/library/stdtypes.html#str">str</a></span><span class="p">(</span><span class="n"><a class="autorefs autorefs-internal" title="nplinker.genomics.bigscape.bigscape_loader.BigscapeV2GCFLoader.db_file" href="#nplinker.genomics.bigscape.BigscapeV2GCFLoader.db_file">db_file</a></span><span class="p">)</span>
+</code></pre></div>
+
+  <div class="doc doc-contents ">
+  </div>
+
+</div>
+
 
 
 
@@ -1525,11 +1909,11 @@ <h3 id="nplinker.genomics.bigscape.BigscapeGCFLoader" class="doc doc-heading">
 
 
 
-<h4 id="nplinker.genomics.bigscape.BigscapeGCFLoader.get_gcfs" class="doc doc-heading">
+<h4 id="nplinker.genomics.bigscape.BigscapeV2GCFLoader.get_gcfs" class="doc doc-heading">
 <code class="doc-symbol doc-symbol-heading doc-symbol-method"></code>          <span class="doc doc-object-name doc-function-name">get_gcfs</span>
 
 
-<a href="#nplinker.genomics.bigscape.BigscapeGCFLoader.get_gcfs" class="headerlink" title="Permanent link">&para;</a></h4>
+<a href="#nplinker.genomics.bigscape.BigscapeV2GCFLoader.get_gcfs" class="headerlink" title="Permanent link">&para;</a></h4>
 <div class="language-python doc-signature highlight"><pre><span></span><code><a id="__codelineno-0-1" name="__codelineno-0-1" href="#__codelineno-0-1"></a><span class="n">get_gcfs</span><span class="p">(</span><span class="n">keep_mibig_only</span><span class="p">:</span> <span class="n"><a class="autorefs autorefs-external" href="https://docs.python.org/3/library/functions.html#bool">bool</a></span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span> <span class="n">keep_singleton</span><span class="p">:</span> <span class="n"><a class="autorefs autorefs-external" href="https://docs.python.org/3/library/functions.html#bool">bool</a></span> <span class="o">=</span> <span class="kc">False</span><span class="p">)</span> <span class="o">-&gt;</span> <span class="n"><a class="autorefs autorefs-external" href="https://docs.python.org/3/library/stdtypes.html#list">list</a></span><span class="p">[</span><span class="n"><a class="autorefs autorefs-internal" title="nplinker.genomics.gcf.GCF" href="../genomics/#nplinker.genomics.GCF">GCF</a></span><span class="p">]</span>
 </code></pre></div>
 
@@ -1600,7 +1984,7 @@ <h4 id="nplinker.genomics.bigscape.BigscapeGCFLoader.get_gcfs" class="doc doc-he
           </td>
           <td>
             <div class="doc-md-description">
-              <p>list[GCF]: a list of GCF objects.</p>
+              <p>a list of GCF objects.</p>
             </div>
           </td>
         </tr>
@@ -1609,7 +1993,87 @@ <h4 id="nplinker.genomics.bigscape.BigscapeGCFLoader.get_gcfs" class="doc doc-he
 
           <details class="quote">
             <summary>Source code in <code>src/nplinker/genomics/bigscape/bigscape_loader.py</code></summary>
-            <div class="language-python highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal"><a href="#__codelineno-0-26">26</a></span>
+            <div class="language-python highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal"><a href="#__codelineno-0-84"> 84</a></span>
+<span class="normal"><a href="#__codelineno-0-85"> 85</a></span>
+<span class="normal"><a href="#__codelineno-0-86"> 86</a></span>
+<span class="normal"><a href="#__codelineno-0-87"> 87</a></span>
+<span class="normal"><a href="#__codelineno-0-88"> 88</a></span>
+<span class="normal"><a href="#__codelineno-0-89"> 89</a></span>
+<span class="normal"><a href="#__codelineno-0-90"> 90</a></span>
+<span class="normal"><a href="#__codelineno-0-91"> 91</a></span>
+<span class="normal"><a href="#__codelineno-0-92"> 92</a></span>
+<span class="normal"><a href="#__codelineno-0-93"> 93</a></span>
+<span class="normal"><a href="#__codelineno-0-94"> 94</a></span>
+<span class="normal"><a href="#__codelineno-0-95"> 95</a></span>
+<span class="normal"><a href="#__codelineno-0-96"> 96</a></span>
+<span class="normal"><a href="#__codelineno-0-97"> 97</a></span>
+<span class="normal"><a href="#__codelineno-0-98"> 98</a></span>
+<span class="normal"><a href="#__codelineno-0-99"> 99</a></span>
+<span class="normal"><a href="#__codelineno-0-100">100</a></span>
+<span class="normal"><a href="#__codelineno-0-101">101</a></span></pre></div></td><td class="code"><div><pre><span></span><code><a id="__codelineno-0-84" name="__codelineno-0-84"></a><span class="k">def</span> <span class="nf">get_gcfs</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">keep_mibig_only</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span> <span class="n">keep_singleton</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">)</span> <span class="o">-&gt;</span> <span class="nb">list</span><span class="p">[</span><span class="n">GCF</span><span class="p">]:</span>
+<a id="__codelineno-0-85" name="__codelineno-0-85"></a><span class="w">    </span><span class="sd">&quot;&quot;&quot;Get all GCF objects.</span>
+<a id="__codelineno-0-86" name="__codelineno-0-86"></a>
+<a id="__codelineno-0-87" name="__codelineno-0-87"></a><span class="sd">    Args:</span>
+<a id="__codelineno-0-88" name="__codelineno-0-88"></a><span class="sd">        keep_mibig_only: True to keep GCFs that contain only MIBiG</span>
+<a id="__codelineno-0-89" name="__codelineno-0-89"></a><span class="sd">            BGCs.</span>
+<a id="__codelineno-0-90" name="__codelineno-0-90"></a><span class="sd">        keep_singleton: True to keep singleton GCFs. A singleton GCF</span>
+<a id="__codelineno-0-91" name="__codelineno-0-91"></a><span class="sd">            is a GCF that contains only one BGC.</span>
+<a id="__codelineno-0-92" name="__codelineno-0-92"></a>
+<a id="__codelineno-0-93" name="__codelineno-0-93"></a><span class="sd">    Returns:</span>
+<a id="__codelineno-0-94" name="__codelineno-0-94"></a><span class="sd">        a list of GCF objects.</span>
+<a id="__codelineno-0-95" name="__codelineno-0-95"></a><span class="sd">    &quot;&quot;&quot;</span>
+<a id="__codelineno-0-96" name="__codelineno-0-96"></a>    <span class="n">gcf_list</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">_gcf_list</span>
+<a id="__codelineno-0-97" name="__codelineno-0-97"></a>    <span class="k">if</span> <span class="ow">not</span> <span class="n">keep_mibig_only</span><span class="p">:</span>
+<a id="__codelineno-0-98" name="__codelineno-0-98"></a>        <span class="n">gcf_list</span> <span class="o">=</span> <span class="p">[</span><span class="n">gcf</span> <span class="k">for</span> <span class="n">gcf</span> <span class="ow">in</span> <span class="n">gcf_list</span> <span class="k">if</span> <span class="ow">not</span> <span class="n">gcf</span><span class="o">.</span><span class="n">has_mibig_only</span><span class="p">()]</span>
+<a id="__codelineno-0-99" name="__codelineno-0-99"></a>    <span class="k">if</span> <span class="ow">not</span> <span class="n">keep_singleton</span><span class="p">:</span>
+<a id="__codelineno-0-100" name="__codelineno-0-100"></a>        <span class="n">gcf_list</span> <span class="o">=</span> <span class="p">[</span><span class="n">gcf</span> <span class="k">for</span> <span class="n">gcf</span> <span class="ow">in</span> <span class="n">gcf_list</span> <span class="k">if</span> <span class="ow">not</span> <span class="n">gcf</span><span class="o">.</span><span class="n">is_singleton</span><span class="p">()]</span>
+<a id="__codelineno-0-101" name="__codelineno-0-101"></a>    <span class="k">return</span> <span class="n">gcf_list</span>
+</code></pre></div></td></tr></table></div>
+          </details>
+  </div>
+
+</div>
+
+
+
+  </div>
+
+  </div>
+
+
+</div>
+
+
+
+<div class="doc doc-object doc-function">
+
+
+
+<h3 id="nplinker.genomics.bigscape.run_bigscape" class="doc doc-heading">
+<code class="doc-symbol doc-symbol-heading doc-symbol-function"></code>          <span class="doc doc-object-name doc-function-name">run_bigscape</span>
+
+
+<a href="#nplinker.genomics.bigscape.run_bigscape" class="headerlink" title="Permanent link">&para;</a></h3>
+<div class="language-python doc-signature highlight"><pre><span></span><code><a id="__codelineno-0-1" name="__codelineno-0-1" href="#__codelineno-0-1"></a><span class="n">run_bigscape</span><span class="p">(</span><span class="n">antismash_path</span><span class="p">:</span> <span class="n"><a class="autorefs autorefs-external" href="https://docs.python.org/3/library/stdtypes.html#str">str</a></span> <span class="o">|</span> <span class="n"><a class="autorefs autorefs-external" title="os.PathLike" href="https://docs.python.org/3/library/os.html#os.PathLike">PathLike</a></span><span class="p">,</span> <span class="n">output_path</span><span class="p">:</span> <span class="n"><a class="autorefs autorefs-external" href="https://docs.python.org/3/library/stdtypes.html#str">str</a></span> <span class="o">|</span> <span class="n"><a class="autorefs autorefs-external" title="os.PathLike" href="https://docs.python.org/3/library/os.html#os.PathLike">PathLike</a></span><span class="p">,</span> <span class="n">extra_params</span><span class="p">:</span> <span class="n"><a class="autorefs autorefs-external" href="https://docs.python.org/3/library/stdtypes.html#str">str</a></span><span class="p">)</span>
+</code></pre></div>
+
+  <div class="doc doc-contents ">
+
+          <details class="quote">
+            <summary>Source code in <code>src/nplinker/genomics/bigscape/runbigscape.py</code></summary>
+            <div class="language-python highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal"><a href="#__codelineno-0-14">14</a></span>
+<span class="normal"><a href="#__codelineno-0-15">15</a></span>
+<span class="normal"><a href="#__codelineno-0-16">16</a></span>
+<span class="normal"><a href="#__codelineno-0-17">17</a></span>
+<span class="normal"><a href="#__codelineno-0-18">18</a></span>
+<span class="normal"><a href="#__codelineno-0-19">19</a></span>
+<span class="normal"><a href="#__codelineno-0-20">20</a></span>
+<span class="normal"><a href="#__codelineno-0-21">21</a></span>
+<span class="normal"><a href="#__codelineno-0-22">22</a></span>
+<span class="normal"><a href="#__codelineno-0-23">23</a></span>
+<span class="normal"><a href="#__codelineno-0-24">24</a></span>
+<span class="normal"><a href="#__codelineno-0-25">25</a></span>
+<span class="normal"><a href="#__codelineno-0-26">26</a></span>
 <span class="normal"><a href="#__codelineno-0-27">27</a></span>
 <span class="normal"><a href="#__codelineno-0-28">28</a></span>
 <span class="normal"><a href="#__codelineno-0-29">29</a></span>
@@ -1626,24 +2090,44 @@ <h4 id="nplinker.genomics.bigscape.BigscapeGCFLoader.get_gcfs" class="doc doc-he
 <span class="normal"><a href="#__codelineno-0-40">40</a></span>
 <span class="normal"><a href="#__codelineno-0-41">41</a></span>
 <span class="normal"><a href="#__codelineno-0-42">42</a></span>
-<span class="normal"><a href="#__codelineno-0-43">43</a></span></pre></div></td><td class="code"><div><pre><span></span><code><a id="__codelineno-0-26" name="__codelineno-0-26"></a><span class="k">def</span> <span class="nf">get_gcfs</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">keep_mibig_only</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span> <span class="n">keep_singleton</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">)</span> <span class="o">-&gt;</span> <span class="nb">list</span><span class="p">[</span><span class="n">GCF</span><span class="p">]:</span>
-<a id="__codelineno-0-27" name="__codelineno-0-27"></a><span class="w">    </span><span class="sd">&quot;&quot;&quot;Get all GCF objects.</span>
+<span class="normal"><a href="#__codelineno-0-43">43</a></span>
+<span class="normal"><a href="#__codelineno-0-44">44</a></span>
+<span class="normal"><a href="#__codelineno-0-45">45</a></span>
+<span class="normal"><a href="#__codelineno-0-46">46</a></span>
+<span class="normal"><a href="#__codelineno-0-47">47</a></span></pre></div></td><td class="code"><div><pre><span></span><code><a id="__codelineno-0-14" name="__codelineno-0-14"></a><span class="k">def</span> <span class="nf">run_bigscape</span><span class="p">(</span>
+<a id="__codelineno-0-15" name="__codelineno-0-15"></a>    <span class="n">antismash_path</span><span class="p">:</span> <span class="nb">str</span> <span class="o">|</span> <span class="n">PathLike</span><span class="p">,</span>
+<a id="__codelineno-0-16" name="__codelineno-0-16"></a>    <span class="n">output_path</span><span class="p">:</span> <span class="nb">str</span> <span class="o">|</span> <span class="n">PathLike</span><span class="p">,</span>
+<a id="__codelineno-0-17" name="__codelineno-0-17"></a>    <span class="n">extra_params</span><span class="p">:</span> <span class="nb">str</span><span class="p">,</span>
+<a id="__codelineno-0-18" name="__codelineno-0-18"></a><span class="p">):</span>
+<a id="__codelineno-0-19" name="__codelineno-0-19"></a>    <span class="n">bigscape_py_path</span> <span class="o">=</span> <span class="s2">&quot;bigscape.py&quot;</span>
+<a id="__codelineno-0-20" name="__codelineno-0-20"></a>    <span class="n">logger</span><span class="o">.</span><span class="n">info</span><span class="p">(</span>
+<a id="__codelineno-0-21" name="__codelineno-0-21"></a>        <span class="sa">f</span><span class="s1">&#39;run_bigscape: input=&quot;</span><span class="si">{</span><span class="n">antismash_path</span><span class="si">}</span><span class="s1">&quot;, output=&quot;</span><span class="si">{</span><span class="n">output_path</span><span class="si">}</span><span class="s1">&quot;, extra_params=</span><span class="si">{</span><span class="n">extra_params</span><span class="si">}</span><span class="s1">&quot;&#39;</span>
+<a id="__codelineno-0-22" name="__codelineno-0-22"></a>    <span class="p">)</span>
+<a id="__codelineno-0-23" name="__codelineno-0-23"></a>
+<a id="__codelineno-0-24" name="__codelineno-0-24"></a>    <span class="k">try</span><span class="p">:</span>
+<a id="__codelineno-0-25" name="__codelineno-0-25"></a>        <span class="n">subprocess</span><span class="o">.</span><span class="n">run</span><span class="p">([</span><span class="n">bigscape_py_path</span><span class="p">,</span> <span class="s2">&quot;-h&quot;</span><span class="p">],</span> <span class="n">capture_output</span><span class="o">=</span><span class="kc">True</span><span class="p">,</span> <span class="n">check</span><span class="o">=</span><span class="kc">True</span><span class="p">)</span>
+<a id="__codelineno-0-26" name="__codelineno-0-26"></a>    <span class="k">except</span> <span class="ne">Exception</span> <span class="k">as</span> <span class="n">e</span><span class="p">:</span>
+<a id="__codelineno-0-27" name="__codelineno-0-27"></a>        <span class="k">raise</span> <span class="ne">Exception</span><span class="p">(</span><span class="sa">f</span><span class="s2">&quot;Failed to find/run bigscape.py (path=</span><span class="si">{</span><span class="n">bigscape_py_path</span><span class="si">}</span><span class="s2">, err=</span><span class="si">{</span><span class="n">e</span><span class="si">}</span><span class="s2">)&quot;</span><span class="p">)</span> <span class="kn">from</span> <span class="nn">e</span>
 <a id="__codelineno-0-28" name="__codelineno-0-28"></a>
-<a id="__codelineno-0-29" name="__codelineno-0-29"></a><span class="sd">    Args:</span>
-<a id="__codelineno-0-30" name="__codelineno-0-30"></a><span class="sd">        keep_mibig_only: True to keep GCFs that contain only MIBiG</span>
-<a id="__codelineno-0-31" name="__codelineno-0-31"></a><span class="sd">            BGCs.</span>
-<a id="__codelineno-0-32" name="__codelineno-0-32"></a><span class="sd">        keep_singleton: True to keep singleton GCFs. A singleton GCF</span>
-<a id="__codelineno-0-33" name="__codelineno-0-33"></a><span class="sd">            is a GCF that contains only one BGC.</span>
+<a id="__codelineno-0-29" name="__codelineno-0-29"></a>    <span class="k">if</span> <span class="ow">not</span> <span class="n">os</span><span class="o">.</span><span class="n">path</span><span class="o">.</span><span class="n">exists</span><span class="p">(</span><span class="n">antismash_path</span><span class="p">):</span>
+<a id="__codelineno-0-30" name="__codelineno-0-30"></a>        <span class="k">raise</span> <span class="ne">Exception</span><span class="p">(</span><span class="sa">f</span><span class="s1">&#39;antismash_path &quot;</span><span class="si">{</span><span class="n">antismash_path</span><span class="si">}</span><span class="s1">&quot; does not exist!&#39;</span><span class="p">)</span>
+<a id="__codelineno-0-31" name="__codelineno-0-31"></a>
+<a id="__codelineno-0-32" name="__codelineno-0-32"></a>    <span class="c1"># configure the IO-related parameters, including pfam_dir</span>
+<a id="__codelineno-0-33" name="__codelineno-0-33"></a>    <span class="n">args</span> <span class="o">=</span> <span class="p">[</span><span class="n">bigscape_py_path</span><span class="p">,</span> <span class="s2">&quot;-i&quot;</span><span class="p">,</span> <span class="n">antismash_path</span><span class="p">,</span> <span class="s2">&quot;-o&quot;</span><span class="p">,</span> <span class="n">output_path</span><span class="p">,</span> <span class="s2">&quot;--pfam_dir&quot;</span><span class="p">,</span> <span class="n">PFAM_PATH</span><span class="p">]</span>
 <a id="__codelineno-0-34" name="__codelineno-0-34"></a>
-<a id="__codelineno-0-35" name="__codelineno-0-35"></a><span class="sd">    Returns:</span>
-<a id="__codelineno-0-36" name="__codelineno-0-36"></a><span class="sd">        list[GCF]: a list of GCF objects.</span>
-<a id="__codelineno-0-37" name="__codelineno-0-37"></a><span class="sd">    &quot;&quot;&quot;</span>
-<a id="__codelineno-0-38" name="__codelineno-0-38"></a>    <span class="n">gcf_list</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">_gcf_list</span>
-<a id="__codelineno-0-39" name="__codelineno-0-39"></a>    <span class="k">if</span> <span class="ow">not</span> <span class="n">keep_mibig_only</span><span class="p">:</span>
-<a id="__codelineno-0-40" name="__codelineno-0-40"></a>        <span class="n">gcf_list</span> <span class="o">=</span> <span class="p">[</span><span class="n">gcf</span> <span class="k">for</span> <span class="n">gcf</span> <span class="ow">in</span> <span class="n">gcf_list</span> <span class="k">if</span> <span class="ow">not</span> <span class="n">gcf</span><span class="o">.</span><span class="n">has_mibig_only</span><span class="p">()]</span>
-<a id="__codelineno-0-41" name="__codelineno-0-41"></a>    <span class="k">if</span> <span class="ow">not</span> <span class="n">keep_singleton</span><span class="p">:</span>
-<a id="__codelineno-0-42" name="__codelineno-0-42"></a>        <span class="n">gcf_list</span> <span class="o">=</span> <span class="p">[</span><span class="n">gcf</span> <span class="k">for</span> <span class="n">gcf</span> <span class="ow">in</span> <span class="n">gcf_list</span> <span class="k">if</span> <span class="ow">not</span> <span class="n">gcf</span><span class="o">.</span><span class="n">is_singleton</span><span class="p">()]</span>
-<a id="__codelineno-0-43" name="__codelineno-0-43"></a>    <span class="k">return</span> <span class="n">gcf_list</span>
+<a id="__codelineno-0-35" name="__codelineno-0-35"></a>    <span class="c1"># append the user supplied params, if any</span>
+<a id="__codelineno-0-36" name="__codelineno-0-36"></a>    <span class="k">if</span> <span class="nb">len</span><span class="p">(</span><span class="n">extra_params</span><span class="p">)</span> <span class="o">&gt;</span> <span class="mi">0</span><span class="p">:</span>
+<a id="__codelineno-0-37" name="__codelineno-0-37"></a>        <span class="n">args</span><span class="o">.</span><span class="n">extend</span><span class="p">(</span><span class="n">extra_params</span><span class="o">.</span><span class="n">split</span><span class="p">(</span><span class="s2">&quot; &quot;</span><span class="p">))</span>
+<a id="__codelineno-0-38" name="__codelineno-0-38"></a>
+<a id="__codelineno-0-39" name="__codelineno-0-39"></a>    <span class="n">logger</span><span class="o">.</span><span class="n">info</span><span class="p">(</span><span class="sa">f</span><span class="s2">&quot;BiG-SCAPE command: </span><span class="si">{</span><span class="n">args</span><span class="si">}</span><span class="s2">&quot;</span><span class="p">)</span>
+<a id="__codelineno-0-40" name="__codelineno-0-40"></a>    <span class="n">result</span> <span class="o">=</span> <span class="n">subprocess</span><span class="o">.</span><span class="n">run</span><span class="p">(</span><span class="n">args</span><span class="p">,</span> <span class="n">stdout</span><span class="o">=</span><span class="n">sys</span><span class="o">.</span><span class="n">stdout</span><span class="p">,</span> <span class="n">stderr</span><span class="o">=</span><span class="n">sys</span><span class="o">.</span><span class="n">stderr</span><span class="p">,</span> <span class="n">check</span><span class="o">=</span><span class="kc">True</span><span class="p">)</span>
+<a id="__codelineno-0-41" name="__codelineno-0-41"></a>    <span class="n">logger</span><span class="o">.</span><span class="n">info</span><span class="p">(</span><span class="sa">f</span><span class="s2">&quot;BiG-SCAPE completed with return code </span><span class="si">{</span><span class="n">result</span><span class="o">.</span><span class="n">returncode</span><span class="si">}</span><span class="s2">&quot;</span><span class="p">)</span>
+<a id="__codelineno-0-42" name="__codelineno-0-42"></a>    <span class="c1"># use subprocess.CompletedProcess.check_returncode() to test if the BiG-SCAPE</span>
+<a id="__codelineno-0-43" name="__codelineno-0-43"></a>    <span class="c1"># process exited successfully. This throws an exception for non-zero returncodes</span>
+<a id="__codelineno-0-44" name="__codelineno-0-44"></a>    <span class="c1"># which will indicate to the PODPDownloader module that something went wrong.</span>
+<a id="__codelineno-0-45" name="__codelineno-0-45"></a>    <span class="n">result</span><span class="o">.</span><span class="n">check_returncode</span><span class="p">()</span>
+<a id="__codelineno-0-46" name="__codelineno-0-46"></a>
+<a id="__codelineno-0-47" name="__codelineno-0-47"></a>    <span class="k">return</span> <span class="kc">True</span>
 </code></pre></div></td></tr></table></div>
           </details>
   </div>
@@ -1652,16 +2136,6 @@ <h4 id="nplinker.genomics.bigscape.BigscapeGCFLoader.get_gcfs" class="doc doc-he
 
 
 
-  </div>
-
-  </div>
-
-
-</div>
-
-
-
-
   </div>
 
   </div>
diff --git a/dev/api/genomics/index.html b/dev/api/genomics/index.html
index 9bb2e162..536cb5be 100644
--- a/dev/api/genomics/index.html
+++ b/dev/api/genomics/index.html
@@ -854,6 +854,96 @@
     <nav class="md-nav" aria-label=" BGC">
       <ul class="md-nav__list">
         
+          <li class="md-nav__item">
+  <a href="#nplinker.genomics.BGC.bgc_id" class="md-nav__link">
+    <span class="md-ellipsis">
+      <code class="doc-symbol doc-symbol-toc doc-symbol-attribute"></code>&nbsp;bgc_id
+    </span>
+  </a>
+  
+</li>
+        
+          <li class="md-nav__item">
+  <a href="#nplinker.genomics.BGC.product_prediction" class="md-nav__link">
+    <span class="md-ellipsis">
+      <code class="doc-symbol doc-symbol-toc doc-symbol-attribute"></code>&nbsp;product_prediction
+    </span>
+  </a>
+  
+</li>
+        
+          <li class="md-nav__item">
+  <a href="#nplinker.genomics.BGC.mibig_bgc_class" class="md-nav__link">
+    <span class="md-ellipsis">
+      <code class="doc-symbol doc-symbol-toc doc-symbol-attribute"></code>&nbsp;mibig_bgc_class
+    </span>
+  </a>
+  
+</li>
+        
+          <li class="md-nav__item">
+  <a href="#nplinker.genomics.BGC.description" class="md-nav__link">
+    <span class="md-ellipsis">
+      <code class="doc-symbol doc-symbol-toc doc-symbol-attribute"></code>&nbsp;description
+    </span>
+  </a>
+  
+</li>
+        
+          <li class="md-nav__item">
+  <a href="#nplinker.genomics.BGC.smiles" class="md-nav__link">
+    <span class="md-ellipsis">
+      <code class="doc-symbol doc-symbol-toc doc-symbol-attribute"></code>&nbsp;smiles
+    </span>
+  </a>
+  
+</li>
+        
+          <li class="md-nav__item">
+  <a href="#nplinker.genomics.BGC.antismash_file" class="md-nav__link">
+    <span class="md-ellipsis">
+      <code class="doc-symbol doc-symbol-toc doc-symbol-attribute"></code>&nbsp;antismash_file
+    </span>
+  </a>
+  
+</li>
+        
+          <li class="md-nav__item">
+  <a href="#nplinker.genomics.BGC.antismash_id" class="md-nav__link">
+    <span class="md-ellipsis">
+      <code class="doc-symbol doc-symbol-toc doc-symbol-attribute"></code>&nbsp;antismash_id
+    </span>
+  </a>
+  
+</li>
+        
+          <li class="md-nav__item">
+  <a href="#nplinker.genomics.BGC.antismash_region" class="md-nav__link">
+    <span class="md-ellipsis">
+      <code class="doc-symbol doc-symbol-toc doc-symbol-attribute"></code>&nbsp;antismash_region
+    </span>
+  </a>
+  
+</li>
+        
+          <li class="md-nav__item">
+  <a href="#nplinker.genomics.BGC.parents" class="md-nav__link">
+    <span class="md-ellipsis">
+      <code class="doc-symbol doc-symbol-toc doc-symbol-attribute"></code>&nbsp;parents
+    </span>
+  </a>
+  
+</li>
+        
+          <li class="md-nav__item">
+  <a href="#nplinker.genomics.BGC.strain" class="md-nav__link">
+    <span class="md-ellipsis">
+      <code class="doc-symbol doc-symbol-toc doc-symbol-attribute"></code>&nbsp;strain
+    </span>
+  </a>
+  
+</li>
+        
           <li class="md-nav__item">
   <a href="#nplinker.genomics.BGC.bigscape_classes" class="md-nav__link">
     <span class="md-ellipsis">
@@ -914,6 +1004,33 @@
     <nav class="md-nav" aria-label=" GCF">
       <ul class="md-nav__list">
         
+          <li class="md-nav__item">
+  <a href="#nplinker.genomics.GCF.gcf_id" class="md-nav__link">
+    <span class="md-ellipsis">
+      <code class="doc-symbol doc-symbol-toc doc-symbol-attribute"></code>&nbsp;gcf_id
+    </span>
+  </a>
+  
+</li>
+        
+          <li class="md-nav__item">
+  <a href="#nplinker.genomics.GCF.bgc_ids" class="md-nav__link">
+    <span class="md-ellipsis">
+      <code class="doc-symbol doc-symbol-toc doc-symbol-attribute"></code>&nbsp;bgc_ids
+    </span>
+  </a>
+  
+</li>
+        
+          <li class="md-nav__item">
+  <a href="#nplinker.genomics.GCF.bigscape_class" class="md-nav__link">
+    <span class="md-ellipsis">
+      <code class="doc-symbol doc-symbol-toc doc-symbol-attribute"></code>&nbsp;bigscape_class
+    </span>
+  </a>
+  
+</li>
+        
           <li class="md-nav__item">
   <a href="#nplinker.genomics.GCF.bgcs" class="md-nav__link">
     <span class="md-ellipsis">
@@ -1441,6 +1558,96 @@
     <nav class="md-nav" aria-label=" BGC">
       <ul class="md-nav__list">
         
+          <li class="md-nav__item">
+  <a href="#nplinker.genomics.BGC.bgc_id" class="md-nav__link">
+    <span class="md-ellipsis">
+      <code class="doc-symbol doc-symbol-toc doc-symbol-attribute"></code>&nbsp;bgc_id
+    </span>
+  </a>
+  
+</li>
+        
+          <li class="md-nav__item">
+  <a href="#nplinker.genomics.BGC.product_prediction" class="md-nav__link">
+    <span class="md-ellipsis">
+      <code class="doc-symbol doc-symbol-toc doc-symbol-attribute"></code>&nbsp;product_prediction
+    </span>
+  </a>
+  
+</li>
+        
+          <li class="md-nav__item">
+  <a href="#nplinker.genomics.BGC.mibig_bgc_class" class="md-nav__link">
+    <span class="md-ellipsis">
+      <code class="doc-symbol doc-symbol-toc doc-symbol-attribute"></code>&nbsp;mibig_bgc_class
+    </span>
+  </a>
+  
+</li>
+        
+          <li class="md-nav__item">
+  <a href="#nplinker.genomics.BGC.description" class="md-nav__link">
+    <span class="md-ellipsis">
+      <code class="doc-symbol doc-symbol-toc doc-symbol-attribute"></code>&nbsp;description
+    </span>
+  </a>
+  
+</li>
+        
+          <li class="md-nav__item">
+  <a href="#nplinker.genomics.BGC.smiles" class="md-nav__link">
+    <span class="md-ellipsis">
+      <code class="doc-symbol doc-symbol-toc doc-symbol-attribute"></code>&nbsp;smiles
+    </span>
+  </a>
+  
+</li>
+        
+          <li class="md-nav__item">
+  <a href="#nplinker.genomics.BGC.antismash_file" class="md-nav__link">
+    <span class="md-ellipsis">
+      <code class="doc-symbol doc-symbol-toc doc-symbol-attribute"></code>&nbsp;antismash_file
+    </span>
+  </a>
+  
+</li>
+        
+          <li class="md-nav__item">
+  <a href="#nplinker.genomics.BGC.antismash_id" class="md-nav__link">
+    <span class="md-ellipsis">
+      <code class="doc-symbol doc-symbol-toc doc-symbol-attribute"></code>&nbsp;antismash_id
+    </span>
+  </a>
+  
+</li>
+        
+          <li class="md-nav__item">
+  <a href="#nplinker.genomics.BGC.antismash_region" class="md-nav__link">
+    <span class="md-ellipsis">
+      <code class="doc-symbol doc-symbol-toc doc-symbol-attribute"></code>&nbsp;antismash_region
+    </span>
+  </a>
+  
+</li>
+        
+          <li class="md-nav__item">
+  <a href="#nplinker.genomics.BGC.parents" class="md-nav__link">
+    <span class="md-ellipsis">
+      <code class="doc-symbol doc-symbol-toc doc-symbol-attribute"></code>&nbsp;parents
+    </span>
+  </a>
+  
+</li>
+        
+          <li class="md-nav__item">
+  <a href="#nplinker.genomics.BGC.strain" class="md-nav__link">
+    <span class="md-ellipsis">
+      <code class="doc-symbol doc-symbol-toc doc-symbol-attribute"></code>&nbsp;strain
+    </span>
+  </a>
+  
+</li>
+        
           <li class="md-nav__item">
   <a href="#nplinker.genomics.BGC.bigscape_classes" class="md-nav__link">
     <span class="md-ellipsis">
@@ -1501,6 +1708,33 @@
     <nav class="md-nav" aria-label=" GCF">
       <ul class="md-nav__list">
         
+          <li class="md-nav__item">
+  <a href="#nplinker.genomics.GCF.gcf_id" class="md-nav__link">
+    <span class="md-ellipsis">
+      <code class="doc-symbol doc-symbol-toc doc-symbol-attribute"></code>&nbsp;gcf_id
+    </span>
+  </a>
+  
+</li>
+        
+          <li class="md-nav__item">
+  <a href="#nplinker.genomics.GCF.bgc_ids" class="md-nav__link">
+    <span class="md-ellipsis">
+      <code class="doc-symbol doc-symbol-toc doc-symbol-attribute"></code>&nbsp;bgc_ids
+    </span>
+  </a>
+  
+</li>
+        
+          <li class="md-nav__item">
+  <a href="#nplinker.genomics.GCF.bigscape_class" class="md-nav__link">
+    <span class="md-ellipsis">
+      <code class="doc-symbol doc-symbol-toc doc-symbol-attribute"></code>&nbsp;bigscape_class
+    </span>
+  </a>
+  
+</li>
+        
           <li class="md-nav__item">
   <a href="#nplinker.genomics.GCF.bgcs" class="md-nav__link">
     <span class="md-ellipsis">
@@ -1636,59 +1870,15 @@ <h3 id="nplinker.genomics.BGC" class="doc doc-heading">
 <p>BGC data include both annotations and sequence data. This class is
 mainly designed to model the annotations or metadata.</p>
 <p>The raw BGC data is stored in GenBank format (.gbk). Additional
-<code>GenBank features</code>_ could be added to the GenBank file to annotate
-BGCs, e.g. antiSMASH has some self-defined features (like "region") in
+<a href="https://www.insdc.org/submitting-standards/feature-table/">GenBank features</a>
+could be added to the GenBank file to annotate
+BGCs, e.g. antiSMASH has some self-defined features (like <code>region</code>) in
 its output GenBank files.</p>
 <p>The annotations of BGC can be stored in JSON format, which is defined
 and used by MIBiG.</p>
 
 
 
-  <p><strong>Parameters:</strong></p>
-  <table>
-    <thead>
-      <tr>
-        <th>Name</th>
-        <th>Type</th>
-        <th>Description</th>
-        <th>Default</th>
-      </tr>
-    </thead>
-    <tbody>
-        <tr>
-          <td><code>bgc_id</code></td>
-          <td>
-                <code><a class="autorefs autorefs-external" href="https://docs.python.org/3/library/stdtypes.html#str">str</a></code>
-          </td>
-          <td>
-            <div class="doc-md-description">
-              <p>BGC identifier, e.g. MIBiG accession, GenBank accession.</p>
-            </div>
-          </td>
-          <td>
-              <em>required</em>
-          </td>
-        </tr>
-        <tr>
-          <td><code>product_prediction</code></td>
-          <td>
-                <code><a class="autorefs autorefs-external" href="https://docs.python.org/3/library/stdtypes.html#str">str</a></code>
-          </td>
-          <td>
-            <div class="doc-md-description">
-              <p>BGC's (predicted) natural products
-or product classes.</p>
-            </div>
-          </td>
-          <td>
-                <code>()</code>
-          </td>
-        </tr>
-    </tbody>
-  </table>
-
-
-
   <p><strong>Attributes:</strong></p>
   <table>
     <thead>
@@ -1700,7 +1890,7 @@ <h3 id="nplinker.genomics.BGC" class="doc doc-heading">
     </thead>
     <tbody>
         <tr>
-          <td><code><span title="nplinker.genomics.BGC.bgc_id">bgc_id</span></code></td>
+          <td><code><a class="autorefs autorefs-internal" title="nplinker.genomics.BGC.bgc_id" href="#nplinker.genomics.BGC.bgc_id">bgc_id</a></code></td>
           <td>
           </td>
           <td>
@@ -1710,7 +1900,7 @@ <h3 id="nplinker.genomics.BGC" class="doc doc-heading">
           </td>
         </tr>
         <tr>
-          <td><code><span title="nplinker.genomics.BGC.product_prediction">product_prediction</span></code></td>
+          <td><code><a class="autorefs autorefs-internal" title="nplinker.genomics.BGC.product_prediction" href="#nplinker.genomics.BGC.product_prediction">product_prediction</a></code></td>
           <td>
           </td>
           <td>
@@ -1724,8 +1914,9 @@ <h3 id="nplinker.genomics.BGC" class="doc doc-heading">
           </td>
         </tr>
         <tr>
-          <td><code><span title="nplinker.genomics.BGC.mibig_bgc_class">mibig_bgc_class</span></code></td>
+          <td><code><a class="autorefs autorefs-internal" title="nplinker.genomics.BGC.mibig_bgc_class" href="#nplinker.genomics.BGC.mibig_bgc_class">mibig_bgc_class</a></code></td>
           <td>
+                <code><a class="autorefs autorefs-external" href="https://docs.python.org/3/library/stdtypes.html#tuple">tuple</a>[<a class="autorefs autorefs-external" href="https://docs.python.org/3/library/stdtypes.html#str">str</a>] | None</code>
           </td>
           <td>
             <div class="doc-md-description">
@@ -1741,8 +1932,9 @@ <h3 id="nplinker.genomics.BGC" class="doc doc-heading">
           </td>
         </tr>
         <tr>
-          <td><code><span title="nplinker.genomics.BGC.description">description</span></code></td>
+          <td><code><a class="autorefs autorefs-internal" title="nplinker.genomics.BGC.description" href="#nplinker.genomics.BGC.description">description</a></code></td>
           <td>
+                <code><a class="autorefs autorefs-external" href="https://docs.python.org/3/library/stdtypes.html#str">str</a> | None</code>
           </td>
           <td>
             <div class="doc-md-description">
@@ -1752,8 +1944,9 @@ <h3 id="nplinker.genomics.BGC" class="doc doc-heading">
           </td>
         </tr>
         <tr>
-          <td><code><span title="nplinker.genomics.BGC.smiles">smiles</span></code></td>
+          <td><code><a class="autorefs autorefs-internal" title="nplinker.genomics.BGC.smiles" href="#nplinker.genomics.BGC.smiles">smiles</a></code></td>
           <td>
+                <code><a class="autorefs autorefs-external" href="https://docs.python.org/3/library/stdtypes.html#tuple">tuple</a>[<a class="autorefs autorefs-external" href="https://docs.python.org/3/library/stdtypes.html#str">str</a>] | None</code>
           </td>
           <td>
             <div class="doc-md-description">
@@ -1764,8 +1957,9 @@ <h3 id="nplinker.genomics.BGC" class="doc doc-heading">
           </td>
         </tr>
         <tr>
-          <td><code><span title="nplinker.genomics.BGC.antismash_file">antismash_file</span></code></td>
+          <td><code><a class="autorefs autorefs-internal" title="nplinker.genomics.BGC.antismash_file" href="#nplinker.genomics.BGC.antismash_file">antismash_file</a></code></td>
           <td>
+                <code><a class="autorefs autorefs-external" href="https://docs.python.org/3/library/stdtypes.html#str">str</a> | None</code>
           </td>
           <td>
             <div class="doc-md-description">
@@ -1775,8 +1969,9 @@ <h3 id="nplinker.genomics.BGC" class="doc doc-heading">
           </td>
         </tr>
         <tr>
-          <td><code><span title="nplinker.genomics.BGC.antismash_id">antismash_id</span></code></td>
+          <td><code><a class="autorefs autorefs-internal" title="nplinker.genomics.BGC.antismash_id" href="#nplinker.genomics.BGC.antismash_id">antismash_id</a></code></td>
           <td>
+                <code><a class="autorefs autorefs-external" href="https://docs.python.org/3/library/stdtypes.html#str">str</a> | None</code>
           </td>
           <td>
             <div class="doc-md-description">
@@ -1787,8 +1982,9 @@ <h3 id="nplinker.genomics.BGC" class="doc doc-heading">
           </td>
         </tr>
         <tr>
-          <td><code><span title="nplinker.genomics.BGC.antismash_region">antismash_region</span></code></td>
+          <td><code><a class="autorefs autorefs-internal" title="nplinker.genomics.BGC.antismash_region" href="#nplinker.genomics.BGC.antismash_region">antismash_region</a></code></td>
           <td>
+                <code><a class="autorefs autorefs-external" href="https://docs.python.org/3/library/functions.html#int">int</a> | None</code>
           </td>
           <td>
             <div class="doc-md-description">
@@ -1799,8 +1995,9 @@ <h3 id="nplinker.genomics.BGC" class="doc doc-heading">
           </td>
         </tr>
         <tr>
-          <td><code><span title="nplinker.genomics.BGC.parents">parents</span></code></td>
+          <td><code><a class="autorefs autorefs-internal" title="nplinker.genomics.BGC.parents" href="#nplinker.genomics.BGC.parents">parents</a></code></td>
           <td>
+                <code><a class="autorefs autorefs-external" href="https://docs.python.org/3/library/stdtypes.html#set">set</a>[<a class="autorefs autorefs-internal" title="nplinker.genomics.gcf.GCF" href="#nplinker.genomics.GCF">GCF</a>]</code>
           </td>
           <td>
             <div class="doc-md-description">
@@ -1809,8 +2006,9 @@ <h3 id="nplinker.genomics.BGC" class="doc doc-heading">
           </td>
         </tr>
         <tr>
-          <td><code><span title="nplinker.genomics.BGC.strain">strain</span></code></td>
+          <td><code><a class="autorefs autorefs-internal" title="nplinker.genomics.BGC.strain" href="#nplinker.genomics.BGC.strain">strain</a></code></td>
           <td>
+                <code><a class="autorefs autorefs-internal" title="nplinker.strain.Strain" href="../strain/#nplinker.strain.Strain">Strain</a> | None</code>
           </td>
           <td>
             <div class="doc-md-description">
@@ -1820,131 +2018,82 @@ <h3 id="nplinker.genomics.BGC" class="doc doc-heading">
         </tr>
     </tbody>
   </table>
-      <p>.. GenBank features:
-    <a href="https://www.insdc.org/submitting-standards/feature-table/">https://www.insdc.org/submitting-standards/feature-table/</a></p>
+  
 
-                <details class="quote">
-                  <summary>Source code in <code>src/nplinker/genomics/bgc.py</code></summary>
-                  <div class="language-python highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal"><a href="#__codelineno-0-16">16</a></span>
-<span class="normal"><a href="#__codelineno-0-17">17</a></span>
-<span class="normal"><a href="#__codelineno-0-18">18</a></span>
-<span class="normal"><a href="#__codelineno-0-19">19</a></span>
-<span class="normal"><a href="#__codelineno-0-20">20</a></span>
-<span class="normal"><a href="#__codelineno-0-21">21</a></span>
-<span class="normal"><a href="#__codelineno-0-22">22</a></span>
-<span class="normal"><a href="#__codelineno-0-23">23</a></span>
-<span class="normal"><a href="#__codelineno-0-24">24</a></span>
-<span class="normal"><a href="#__codelineno-0-25">25</a></span>
-<span class="normal"><a href="#__codelineno-0-26">26</a></span>
-<span class="normal"><a href="#__codelineno-0-27">27</a></span>
-<span class="normal"><a href="#__codelineno-0-28">28</a></span>
-<span class="normal"><a href="#__codelineno-0-29">29</a></span>
-<span class="normal"><a href="#__codelineno-0-30">30</a></span>
-<span class="normal"><a href="#__codelineno-0-31">31</a></span>
-<span class="normal"><a href="#__codelineno-0-32">32</a></span>
-<span class="normal"><a href="#__codelineno-0-33">33</a></span>
-<span class="normal"><a href="#__codelineno-0-34">34</a></span>
-<span class="normal"><a href="#__codelineno-0-35">35</a></span>
-<span class="normal"><a href="#__codelineno-0-36">36</a></span>
-<span class="normal"><a href="#__codelineno-0-37">37</a></span>
-<span class="normal"><a href="#__codelineno-0-38">38</a></span>
-<span class="normal"><a href="#__codelineno-0-39">39</a></span>
-<span class="normal"><a href="#__codelineno-0-40">40</a></span>
-<span class="normal"><a href="#__codelineno-0-41">41</a></span>
-<span class="normal"><a href="#__codelineno-0-42">42</a></span>
-<span class="normal"><a href="#__codelineno-0-43">43</a></span>
-<span class="normal"><a href="#__codelineno-0-44">44</a></span>
-<span class="normal"><a href="#__codelineno-0-45">45</a></span>
-<span class="normal"><a href="#__codelineno-0-46">46</a></span>
-<span class="normal"><a href="#__codelineno-0-47">47</a></span>
-<span class="normal"><a href="#__codelineno-0-48">48</a></span>
-<span class="normal"><a href="#__codelineno-0-49">49</a></span>
-<span class="normal"><a href="#__codelineno-0-50">50</a></span>
-<span class="normal"><a href="#__codelineno-0-51">51</a></span>
-<span class="normal"><a href="#__codelineno-0-52">52</a></span>
-<span class="normal"><a href="#__codelineno-0-53">53</a></span>
-<span class="normal"><a href="#__codelineno-0-54">54</a></span>
-<span class="normal"><a href="#__codelineno-0-55">55</a></span>
-<span class="normal"><a href="#__codelineno-0-56">56</a></span>
-<span class="normal"><a href="#__codelineno-0-57">57</a></span>
-<span class="normal"><a href="#__codelineno-0-58">58</a></span>
-<span class="normal"><a href="#__codelineno-0-59">59</a></span>
-<span class="normal"><a href="#__codelineno-0-60">60</a></span>
-<span class="normal"><a href="#__codelineno-0-61">61</a></span>
-<span class="normal"><a href="#__codelineno-0-62">62</a></span>
-<span class="normal"><a href="#__codelineno-0-63">63</a></span>
-<span class="normal"><a href="#__codelineno-0-64">64</a></span>
-<span class="normal"><a href="#__codelineno-0-65">65</a></span>
-<span class="normal"><a href="#__codelineno-0-66">66</a></span>
-<span class="normal"><a href="#__codelineno-0-67">67</a></span>
-<span class="normal"><a href="#__codelineno-0-68">68</a></span>
-<span class="normal"><a href="#__codelineno-0-69">69</a></span>
-<span class="normal"><a href="#__codelineno-0-70">70</a></span>
-<span class="normal"><a href="#__codelineno-0-71">71</a></span>
-<span class="normal"><a href="#__codelineno-0-72">72</a></span>
-<span class="normal"><a href="#__codelineno-0-73">73</a></span>
-<span class="normal"><a href="#__codelineno-0-74">74</a></span>
-<span class="normal"><a href="#__codelineno-0-75">75</a></span>
-<span class="normal"><a href="#__codelineno-0-76">76</a></span>
-<span class="normal"><a href="#__codelineno-0-77">77</a></span>
-<span class="normal"><a href="#__codelineno-0-78">78</a></span>
-<span class="normal"><a href="#__codelineno-0-79">79</a></span>
-<span class="normal"><a href="#__codelineno-0-80">80</a></span>
-<span class="normal"><a href="#__codelineno-0-81">81</a></span>
+
+
+  <p><strong>Parameters:</strong></p>
+  <table>
+    <thead>
+      <tr>
+        <th>Name</th>
+        <th>Type</th>
+        <th>Description</th>
+        <th>Default</th>
+      </tr>
+    </thead>
+    <tbody>
+        <tr>
+          <td><code>bgc_id</code></td>
+          <td>
+                <code><a class="autorefs autorefs-external" href="https://docs.python.org/3/library/stdtypes.html#str">str</a></code>
+          </td>
+          <td>
+            <div class="doc-md-description">
+              <p>BGC identifier, e.g. MIBiG accession, GenBank accession.</p>
+            </div>
+          </td>
+          <td>
+              <em>required</em>
+          </td>
+        </tr>
+        <tr>
+          <td><code>product_prediction</code></td>
+          <td>
+                <code><a class="autorefs autorefs-external" href="https://docs.python.org/3/library/stdtypes.html#str">str</a></code>
+          </td>
+          <td>
+            <div class="doc-md-description">
+              <p>BGC's (predicted) natural products or product classes.</p>
+            </div>
+          </td>
+          <td>
+                <code>()</code>
+          </td>
+        </tr>
+    </tbody>
+  </table>
+
+                <details class="quote">
+                  <summary>Source code in <code>src/nplinker/genomics/bgc.py</code></summary>
+                  <div class="language-python highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal"><a href="#__codelineno-0-62">62</a></span>
+<span class="normal"><a href="#__codelineno-0-63">63</a></span>
+<span class="normal"><a href="#__codelineno-0-64">64</a></span>
+<span class="normal"><a href="#__codelineno-0-65">65</a></span>
+<span class="normal"><a href="#__codelineno-0-66">66</a></span>
+<span class="normal"><a href="#__codelineno-0-67">67</a></span>
+<span class="normal"><a href="#__codelineno-0-68">68</a></span>
+<span class="normal"><a href="#__codelineno-0-69">69</a></span>
+<span class="normal"><a href="#__codelineno-0-70">70</a></span>
+<span class="normal"><a href="#__codelineno-0-71">71</a></span>
+<span class="normal"><a href="#__codelineno-0-72">72</a></span>
+<span class="normal"><a href="#__codelineno-0-73">73</a></span>
+<span class="normal"><a href="#__codelineno-0-74">74</a></span>
+<span class="normal"><a href="#__codelineno-0-75">75</a></span>
+<span class="normal"><a href="#__codelineno-0-76">76</a></span>
+<span class="normal"><a href="#__codelineno-0-77">77</a></span>
+<span class="normal"><a href="#__codelineno-0-78">78</a></span>
+<span class="normal"><a href="#__codelineno-0-79">79</a></span>
+<span class="normal"><a href="#__codelineno-0-80">80</a></span>
+<span class="normal"><a href="#__codelineno-0-81">81</a></span>
 <span class="normal"><a href="#__codelineno-0-82">82</a></span>
 <span class="normal"><a href="#__codelineno-0-83">83</a></span>
-<span class="normal"><a href="#__codelineno-0-84">84</a></span></pre></div></td><td class="code"><div><pre><span></span><code><a id="__codelineno-0-16" name="__codelineno-0-16"></a><span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">bgc_id</span><span class="p">:</span> <span class="nb">str</span><span class="p">,</span> <span class="o">/</span><span class="p">,</span> <span class="o">*</span><span class="n">product_prediction</span><span class="p">:</span> <span class="nb">str</span><span class="p">):</span>
-<a id="__codelineno-0-17" name="__codelineno-0-17"></a><span class="w">    </span><span class="sd">&quot;&quot;&quot;Class to model BGC (biosynthetic gene cluster) data.</span>
-<a id="__codelineno-0-18" name="__codelineno-0-18"></a>
-<a id="__codelineno-0-19" name="__codelineno-0-19"></a><span class="sd">    BGC data include both annotations and sequence data. This class is</span>
-<a id="__codelineno-0-20" name="__codelineno-0-20"></a><span class="sd">    mainly designed to model the annotations or metadata.</span>
-<a id="__codelineno-0-21" name="__codelineno-0-21"></a>
-<a id="__codelineno-0-22" name="__codelineno-0-22"></a><span class="sd">    The raw BGC data is stored in GenBank format (.gbk). Additional</span>
-<a id="__codelineno-0-23" name="__codelineno-0-23"></a><span class="sd">    `GenBank features`_ could be added to the GenBank file to annotate</span>
-<a id="__codelineno-0-24" name="__codelineno-0-24"></a><span class="sd">    BGCs, e.g. antiSMASH has some self-defined features (like &quot;region&quot;) in</span>
-<a id="__codelineno-0-25" name="__codelineno-0-25"></a><span class="sd">    its output GenBank files.</span>
-<a id="__codelineno-0-26" name="__codelineno-0-26"></a>
-<a id="__codelineno-0-27" name="__codelineno-0-27"></a><span class="sd">    The annotations of BGC can be stored in JSON format, which is defined</span>
-<a id="__codelineno-0-28" name="__codelineno-0-28"></a><span class="sd">    and used by MIBiG.</span>
-<a id="__codelineno-0-29" name="__codelineno-0-29"></a>
-<a id="__codelineno-0-30" name="__codelineno-0-30"></a><span class="sd">    Args:</span>
-<a id="__codelineno-0-31" name="__codelineno-0-31"></a><span class="sd">        bgc_id: BGC identifier, e.g. MIBiG accession, GenBank accession.</span>
-<a id="__codelineno-0-32" name="__codelineno-0-32"></a><span class="sd">        product_prediction: BGC&#39;s (predicted) natural products</span>
-<a id="__codelineno-0-33" name="__codelineno-0-33"></a><span class="sd">            or product classes.</span>
-<a id="__codelineno-0-34" name="__codelineno-0-34"></a>
-<a id="__codelineno-0-35" name="__codelineno-0-35"></a><span class="sd">    Attributes:</span>
-<a id="__codelineno-0-36" name="__codelineno-0-36"></a><span class="sd">        bgc_id: BGC identifier, e.g. MIBiG accession, GenBank accession.</span>
-<a id="__codelineno-0-37" name="__codelineno-0-37"></a><span class="sd">        product_prediction: A tuple of (predicted) natural</span>
-<a id="__codelineno-0-38" name="__codelineno-0-38"></a><span class="sd">            products or product classes of the BGC.</span>
-<a id="__codelineno-0-39" name="__codelineno-0-39"></a><span class="sd">            For antiSMASH&#39;s GenBank data, the feature `region /product`</span>
-<a id="__codelineno-0-40" name="__codelineno-0-40"></a><span class="sd">            gives product information.</span>
-<a id="__codelineno-0-41" name="__codelineno-0-41"></a><span class="sd">            For MIBiG metadata, its biosynthetic class provides such info.</span>
-<a id="__codelineno-0-42" name="__codelineno-0-42"></a><span class="sd">        mibig_bgc_class: A tuple of MIBiG biosynthetic</span>
-<a id="__codelineno-0-43" name="__codelineno-0-43"></a><span class="sd">            classes to which the BGC belongs.</span>
-<a id="__codelineno-0-44" name="__codelineno-0-44"></a><span class="sd">            Defaults to None.</span>
-<a id="__codelineno-0-45" name="__codelineno-0-45"></a><span class="sd">            MIBiG defines 6 major biosynthetic classes for natural products,</span>
-<a id="__codelineno-0-46" name="__codelineno-0-46"></a><span class="sd">            including &quot;NRP&quot;, &quot;Polyketide&quot;, &quot;RiPP&quot;, &quot;Terpene&quot;, &quot;Saccharide&quot;</span>
-<a id="__codelineno-0-47" name="__codelineno-0-47"></a><span class="sd">            and &quot;Alkaloid&quot;. Note that natural products created by all other</span>
-<a id="__codelineno-0-48" name="__codelineno-0-48"></a><span class="sd">            biosynthetic mechanisms fall under the category &quot;Other&quot;.</span>
-<a id="__codelineno-0-49" name="__codelineno-0-49"></a><span class="sd">            More details see the publication: https://doi.org/10.1186/s40793-018-0318-y.</span>
-<a id="__codelineno-0-50" name="__codelineno-0-50"></a><span class="sd">        description: Brief description of the BGC.</span>
-<a id="__codelineno-0-51" name="__codelineno-0-51"></a><span class="sd">            Defaults to None.</span>
-<a id="__codelineno-0-52" name="__codelineno-0-52"></a><span class="sd">        smiles: A tuple of SMILES formulas of the BGC&#39;s</span>
-<a id="__codelineno-0-53" name="__codelineno-0-53"></a><span class="sd">            products.</span>
-<a id="__codelineno-0-54" name="__codelineno-0-54"></a><span class="sd">            Defaults to None.</span>
-<a id="__codelineno-0-55" name="__codelineno-0-55"></a><span class="sd">        antismash_file: The path to the antiSMASH GenBank file.</span>
-<a id="__codelineno-0-56" name="__codelineno-0-56"></a><span class="sd">            Defaults to None.</span>
-<a id="__codelineno-0-57" name="__codelineno-0-57"></a><span class="sd">        antismash_id: Identifier of the antiSMASH BGC, referring</span>
-<a id="__codelineno-0-58" name="__codelineno-0-58"></a><span class="sd">            to the feature `VERSION` of GenBank file.</span>
-<a id="__codelineno-0-59" name="__codelineno-0-59"></a><span class="sd">            Defaults to None.</span>
-<a id="__codelineno-0-60" name="__codelineno-0-60"></a><span class="sd">        antismash_region: AntiSMASH BGC region number, referring</span>
-<a id="__codelineno-0-61" name="__codelineno-0-61"></a><span class="sd">            to the feature `region` of GenBank file.</span>
-<a id="__codelineno-0-62" name="__codelineno-0-62"></a><span class="sd">            Defaults to None.</span>
-<a id="__codelineno-0-63" name="__codelineno-0-63"></a><span class="sd">        parents: The set of GCFs that contain the BGC.</span>
-<a id="__codelineno-0-64" name="__codelineno-0-64"></a><span class="sd">        strain: The strain of the BGC.</span>
-<a id="__codelineno-0-65" name="__codelineno-0-65"></a>
-<a id="__codelineno-0-66" name="__codelineno-0-66"></a><span class="sd">    .. GenBank features:</span>
-<a id="__codelineno-0-67" name="__codelineno-0-67"></a><span class="sd">        https://www.insdc.org/submitting-standards/feature-table/</span>
+<span class="normal"><a href="#__codelineno-0-84">84</a></span></pre></div></td><td class="code"><div><pre><span></span><code><a id="__codelineno-0-62" name="__codelineno-0-62"></a><span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">bgc_id</span><span class="p">:</span> <span class="nb">str</span><span class="p">,</span> <span class="o">/</span><span class="p">,</span> <span class="o">*</span><span class="n">product_prediction</span><span class="p">:</span> <span class="nb">str</span><span class="p">):</span>
+<a id="__codelineno-0-63" name="__codelineno-0-63"></a><span class="w">    </span><span class="sd">&quot;&quot;&quot;Initialize the BGC object.</span>
+<a id="__codelineno-0-64" name="__codelineno-0-64"></a>
+<a id="__codelineno-0-65" name="__codelineno-0-65"></a><span class="sd">    Args:</span>
+<a id="__codelineno-0-66" name="__codelineno-0-66"></a><span class="sd">        bgc_id: BGC identifier, e.g. MIBiG accession, GenBank accession.</span>
+<a id="__codelineno-0-67" name="__codelineno-0-67"></a><span class="sd">        product_prediction: BGC&#39;s (predicted) natural products or product classes.</span>
 <a id="__codelineno-0-68" name="__codelineno-0-68"></a><span class="sd">    &quot;&quot;&quot;</span>
 <a id="__codelineno-0-69" name="__codelineno-0-69"></a>    <span class="c1"># BGC metadata</span>
 <a id="__codelineno-0-70" name="__codelineno-0-70"></a>    <span class="bp">self</span><span class="o">.</span><span class="n">bgc_id</span> <span class="o">=</span> <span class="n">bgc_id</span>
@@ -1975,6 +2124,219 @@ <h3 id="nplinker.genomics.BGC" class="doc doc-heading">
 
 
 
+<div class="doc doc-object doc-attribute">
+
+
+
+<h4 id="nplinker.genomics.BGC.bgc_id" class="doc doc-heading">
+<code class="doc-symbol doc-symbol-heading doc-symbol-attribute"></code>          <span class="doc doc-object-name doc-attribute-name">bgc_id</span>
+
+  
+  <span class="doc doc-labels">
+      <small class="doc doc-label doc-label-instance-attribute"><code>instance-attribute</code></small>
+  </span>
+
+<a href="#nplinker.genomics.BGC.bgc_id" class="headerlink" title="Permanent link">&para;</a></h4>
+<div class="language-python doc-signature highlight"><pre><span></span><code><a id="__codelineno-0-1" name="__codelineno-0-1" href="#__codelineno-0-1"></a><span class="n">bgc_id</span> <span class="o">=</span> <span class="n"><a class="autorefs autorefs-internal" title="nplinker.genomics.bgc.BGC.bgc_id" href="#nplinker.genomics.BGC.bgc_id">bgc_id</a></span>
+</code></pre></div>
+
+  <div class="doc doc-contents ">
+  </div>
+
+</div>
+
+<div class="doc doc-object doc-attribute">
+
+
+
+<h4 id="nplinker.genomics.BGC.product_prediction" class="doc doc-heading">
+<code class="doc-symbol doc-symbol-heading doc-symbol-attribute"></code>          <span class="doc doc-object-name doc-attribute-name">product_prediction</span>
+
+  
+  <span class="doc doc-labels">
+      <small class="doc doc-label doc-label-instance-attribute"><code>instance-attribute</code></small>
+  </span>
+
+<a href="#nplinker.genomics.BGC.product_prediction" class="headerlink" title="Permanent link">&para;</a></h4>
+<div class="language-python doc-signature highlight"><pre><span></span><code><a id="__codelineno-0-1" name="__codelineno-0-1" href="#__codelineno-0-1"></a><span class="n">product_prediction</span> <span class="o">=</span> <span class="n"><a class="autorefs autorefs-internal" title="nplinker.genomics.bgc.BGC.product_prediction" href="#nplinker.genomics.BGC.product_prediction">product_prediction</a></span>
+</code></pre></div>
+
+  <div class="doc doc-contents ">
+  </div>
+
+</div>
+
+<div class="doc doc-object doc-attribute">
+
+
+
+<h4 id="nplinker.genomics.BGC.mibig_bgc_class" class="doc doc-heading">
+<code class="doc-symbol doc-symbol-heading doc-symbol-attribute"></code>          <span class="doc doc-object-name doc-attribute-name">mibig_bgc_class</span>
+
+  
+  <span class="doc doc-labels">
+      <small class="doc doc-label doc-label-instance-attribute"><code>instance-attribute</code></small>
+  </span>
+
+<a href="#nplinker.genomics.BGC.mibig_bgc_class" class="headerlink" title="Permanent link">&para;</a></h4>
+<div class="language-python doc-signature highlight"><pre><span></span><code><a id="__codelineno-0-1" name="__codelineno-0-1" href="#__codelineno-0-1"></a><span class="n">mibig_bgc_class</span><span class="p">:</span> <span class="n"><a class="autorefs autorefs-external" href="https://docs.python.org/3/library/stdtypes.html#tuple">tuple</a></span><span class="p">[</span><span class="n"><a class="autorefs autorefs-external" href="https://docs.python.org/3/library/stdtypes.html#str">str</a></span><span class="p">]</span> <span class="o">|</span> <span class="kc">None</span> <span class="o">=</span> <span class="kc">None</span>
+</code></pre></div>
+
+  <div class="doc doc-contents ">
+  </div>
+
+</div>
+
+<div class="doc doc-object doc-attribute">
+
+
+
+<h4 id="nplinker.genomics.BGC.description" class="doc doc-heading">
+<code class="doc-symbol doc-symbol-heading doc-symbol-attribute"></code>          <span class="doc doc-object-name doc-attribute-name">description</span>
+
+  
+  <span class="doc doc-labels">
+      <small class="doc doc-label doc-label-instance-attribute"><code>instance-attribute</code></small>
+  </span>
+
+<a href="#nplinker.genomics.BGC.description" class="headerlink" title="Permanent link">&para;</a></h4>
+<div class="language-python doc-signature highlight"><pre><span></span><code><a id="__codelineno-0-1" name="__codelineno-0-1" href="#__codelineno-0-1"></a><span class="n">description</span><span class="p">:</span> <span class="n"><a class="autorefs autorefs-external" href="https://docs.python.org/3/library/stdtypes.html#str">str</a></span> <span class="o">|</span> <span class="kc">None</span> <span class="o">=</span> <span class="kc">None</span>
+</code></pre></div>
+
+  <div class="doc doc-contents ">
+  </div>
+
+</div>
+
+<div class="doc doc-object doc-attribute">
+
+
+
+<h4 id="nplinker.genomics.BGC.smiles" class="doc doc-heading">
+<code class="doc-symbol doc-symbol-heading doc-symbol-attribute"></code>          <span class="doc doc-object-name doc-attribute-name">smiles</span>
+
+  
+  <span class="doc doc-labels">
+      <small class="doc doc-label doc-label-instance-attribute"><code>instance-attribute</code></small>
+  </span>
+
+<a href="#nplinker.genomics.BGC.smiles" class="headerlink" title="Permanent link">&para;</a></h4>
+<div class="language-python doc-signature highlight"><pre><span></span><code><a id="__codelineno-0-1" name="__codelineno-0-1" href="#__codelineno-0-1"></a><span class="n">smiles</span><span class="p">:</span> <span class="n"><a class="autorefs autorefs-external" href="https://docs.python.org/3/library/stdtypes.html#tuple">tuple</a></span><span class="p">[</span><span class="n"><a class="autorefs autorefs-external" href="https://docs.python.org/3/library/stdtypes.html#str">str</a></span><span class="p">]</span> <span class="o">|</span> <span class="kc">None</span> <span class="o">=</span> <span class="kc">None</span>
+</code></pre></div>
+
+  <div class="doc doc-contents ">
+  </div>
+
+</div>
+
+<div class="doc doc-object doc-attribute">
+
+
+
+<h4 id="nplinker.genomics.BGC.antismash_file" class="doc doc-heading">
+<code class="doc-symbol doc-symbol-heading doc-symbol-attribute"></code>          <span class="doc doc-object-name doc-attribute-name">antismash_file</span>
+
+  
+  <span class="doc doc-labels">
+      <small class="doc doc-label doc-label-instance-attribute"><code>instance-attribute</code></small>
+  </span>
+
+<a href="#nplinker.genomics.BGC.antismash_file" class="headerlink" title="Permanent link">&para;</a></h4>
+<div class="language-python doc-signature highlight"><pre><span></span><code><a id="__codelineno-0-1" name="__codelineno-0-1" href="#__codelineno-0-1"></a><span class="n">antismash_file</span><span class="p">:</span> <span class="n"><a class="autorefs autorefs-external" href="https://docs.python.org/3/library/stdtypes.html#str">str</a></span> <span class="o">|</span> <span class="kc">None</span> <span class="o">=</span> <span class="kc">None</span>
+</code></pre></div>
+
+  <div class="doc doc-contents ">
+  </div>
+
+</div>
+
+<div class="doc doc-object doc-attribute">
+
+
+
+<h4 id="nplinker.genomics.BGC.antismash_id" class="doc doc-heading">
+<code class="doc-symbol doc-symbol-heading doc-symbol-attribute"></code>          <span class="doc doc-object-name doc-attribute-name">antismash_id</span>
+
+  
+  <span class="doc doc-labels">
+      <small class="doc doc-label doc-label-instance-attribute"><code>instance-attribute</code></small>
+  </span>
+
+<a href="#nplinker.genomics.BGC.antismash_id" class="headerlink" title="Permanent link">&para;</a></h4>
+<div class="language-python doc-signature highlight"><pre><span></span><code><a id="__codelineno-0-1" name="__codelineno-0-1" href="#__codelineno-0-1"></a><span class="n">antismash_id</span><span class="p">:</span> <span class="n"><a class="autorefs autorefs-external" href="https://docs.python.org/3/library/stdtypes.html#str">str</a></span> <span class="o">|</span> <span class="kc">None</span> <span class="o">=</span> <span class="kc">None</span>
+</code></pre></div>
+
+  <div class="doc doc-contents ">
+  </div>
+
+</div>
+
+<div class="doc doc-object doc-attribute">
+
+
+
+<h4 id="nplinker.genomics.BGC.antismash_region" class="doc doc-heading">
+<code class="doc-symbol doc-symbol-heading doc-symbol-attribute"></code>          <span class="doc doc-object-name doc-attribute-name">antismash_region</span>
+
+  
+  <span class="doc doc-labels">
+      <small class="doc doc-label doc-label-instance-attribute"><code>instance-attribute</code></small>
+  </span>
+
+<a href="#nplinker.genomics.BGC.antismash_region" class="headerlink" title="Permanent link">&para;</a></h4>
+<div class="language-python doc-signature highlight"><pre><span></span><code><a id="__codelineno-0-1" name="__codelineno-0-1" href="#__codelineno-0-1"></a><span class="n">antismash_region</span><span class="p">:</span> <span class="n"><a class="autorefs autorefs-external" href="https://docs.python.org/3/library/functions.html#int">int</a></span> <span class="o">|</span> <span class="kc">None</span> <span class="o">=</span> <span class="kc">None</span>
+</code></pre></div>
+
+  <div class="doc doc-contents ">
+  </div>
+
+</div>
+
+<div class="doc doc-object doc-attribute">
+
+
+
+<h4 id="nplinker.genomics.BGC.parents" class="doc doc-heading">
+<code class="doc-symbol doc-symbol-heading doc-symbol-attribute"></code>          <span class="doc doc-object-name doc-attribute-name">parents</span>
+
+  
+  <span class="doc doc-labels">
+      <small class="doc doc-label doc-label-instance-attribute"><code>instance-attribute</code></small>
+  </span>
+
+<a href="#nplinker.genomics.BGC.parents" class="headerlink" title="Permanent link">&para;</a></h4>
+<div class="language-python doc-signature highlight"><pre><span></span><code><a id="__codelineno-0-1" name="__codelineno-0-1" href="#__codelineno-0-1"></a><span class="n">parents</span><span class="p">:</span> <span class="n"><a class="autorefs autorefs-external" href="https://docs.python.org/3/library/stdtypes.html#set">set</a></span><span class="p">[</span><span class="n"><a class="autorefs autorefs-internal" title="nplinker.genomics.gcf.GCF" href="#nplinker.genomics.GCF">GCF</a></span><span class="p">]</span> <span class="o">=</span> <span class="n"><a class="autorefs autorefs-external" href="https://docs.python.org/3/library/stdtypes.html#set">set</a></span><span class="p">()</span>
+</code></pre></div>
+
+  <div class="doc doc-contents ">
+  </div>
+
+</div>
+
+<div class="doc doc-object doc-attribute">
+
+
+
+<h4 id="nplinker.genomics.BGC.strain" class="doc doc-heading">
+<code class="doc-symbol doc-symbol-heading doc-symbol-attribute"></code>          <span class="doc doc-object-name doc-attribute-name">strain</span>
+
+  
+  <span class="doc doc-labels">
+      <small class="doc doc-label doc-label-property"><code>property</code></small>
+      <small class="doc doc-label doc-label-writable"><code>writable</code></small>
+  </span>
+
+<a href="#nplinker.genomics.BGC.strain" class="headerlink" title="Permanent link">&para;</a></h4>
+<div class="language-python doc-signature highlight"><pre><span></span><code><a id="__codelineno-0-1" name="__codelineno-0-1" href="#__codelineno-0-1"></a><span class="n">strain</span><span class="p">:</span> <span class="n"><a class="autorefs autorefs-internal" title="nplinker.strain.Strain" href="../strain/#nplinker.strain.Strain">Strain</a></span> <span class="o">|</span> <span class="kc">None</span>
+</code></pre></div>
+
+  <div class="doc doc-contents ">
+  
+      <p>Get the strain of the BGC.</p>
+  </div>
+
+</div>
+
 <div class="doc doc-object doc-attribute">
 
 
@@ -2206,8 +2568,7 @@ <h4 id="nplinker.genomics.BGC.is_mibig" class="doc doc-heading">
 
           <details class="quote">
             <summary>Source code in <code>src/nplinker/genomics/bgc.py</code></summary>
-            <div class="language-python highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal"><a href="#__codelineno-0-138">138</a></span>
-<span class="normal"><a href="#__codelineno-0-139">139</a></span>
+            <div class="language-python highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal"><a href="#__codelineno-0-139">139</a></span>
 <span class="normal"><a href="#__codelineno-0-140">140</a></span>
 <span class="normal"><a href="#__codelineno-0-141">141</a></span>
 <span class="normal"><a href="#__codelineno-0-142">142</a></span>
@@ -2216,17 +2577,18 @@ <h4 id="nplinker.genomics.BGC.is_mibig" class="doc doc-heading">
 <span class="normal"><a href="#__codelineno-0-145">145</a></span>
 <span class="normal"><a href="#__codelineno-0-146">146</a></span>
 <span class="normal"><a href="#__codelineno-0-147">147</a></span>
-<span class="normal"><a href="#__codelineno-0-148">148</a></span></pre></div></td><td class="code"><div><pre><span></span><code><a id="__codelineno-0-138" name="__codelineno-0-138"></a><span class="k">def</span> <span class="nf">is_mibig</span><span class="p">(</span><span class="bp">self</span><span class="p">)</span> <span class="o">-&gt;</span> <span class="nb">bool</span><span class="p">:</span>
-<a id="__codelineno-0-139" name="__codelineno-0-139"></a><span class="w">    </span><span class="sd">&quot;&quot;&quot;Check if the BGC is MIBiG reference BGC or not.</span>
-<a id="__codelineno-0-140" name="__codelineno-0-140"></a>
-<a id="__codelineno-0-141" name="__codelineno-0-141"></a><span class="sd">    Note:</span>
-<a id="__codelineno-0-142" name="__codelineno-0-142"></a><span class="sd">        This method evaluates MIBiG BGC based on the pattern that MIBiG</span>
-<a id="__codelineno-0-143" name="__codelineno-0-143"></a><span class="sd">        BGC names start with &quot;BGC&quot;. It might give false positive result.</span>
-<a id="__codelineno-0-144" name="__codelineno-0-144"></a>
-<a id="__codelineno-0-145" name="__codelineno-0-145"></a><span class="sd">    Returns:</span>
-<a id="__codelineno-0-146" name="__codelineno-0-146"></a><span class="sd">        True if it&#39;s MIBiG reference BGC</span>
-<a id="__codelineno-0-147" name="__codelineno-0-147"></a><span class="sd">    &quot;&quot;&quot;</span>
-<a id="__codelineno-0-148" name="__codelineno-0-148"></a>    <span class="k">return</span> <span class="bp">self</span><span class="o">.</span><span class="n">bgc_id</span><span class="o">.</span><span class="n">startswith</span><span class="p">(</span><span class="s2">&quot;BGC&quot;</span><span class="p">)</span>
+<span class="normal"><a href="#__codelineno-0-148">148</a></span>
+<span class="normal"><a href="#__codelineno-0-149">149</a></span></pre></div></td><td class="code"><div><pre><span></span><code><a id="__codelineno-0-139" name="__codelineno-0-139"></a><span class="k">def</span> <span class="nf">is_mibig</span><span class="p">(</span><span class="bp">self</span><span class="p">)</span> <span class="o">-&gt;</span> <span class="nb">bool</span><span class="p">:</span>
+<a id="__codelineno-0-140" name="__codelineno-0-140"></a><span class="w">    </span><span class="sd">&quot;&quot;&quot;Check if the BGC is MIBiG reference BGC or not.</span>
+<a id="__codelineno-0-141" name="__codelineno-0-141"></a>
+<a id="__codelineno-0-142" name="__codelineno-0-142"></a><span class="sd">    Note:</span>
+<a id="__codelineno-0-143" name="__codelineno-0-143"></a><span class="sd">        This method evaluates MIBiG BGC based on the pattern that MIBiG</span>
+<a id="__codelineno-0-144" name="__codelineno-0-144"></a><span class="sd">        BGC names start with &quot;BGC&quot;. It might give false positive result.</span>
+<a id="__codelineno-0-145" name="__codelineno-0-145"></a>
+<a id="__codelineno-0-146" name="__codelineno-0-146"></a><span class="sd">    Returns:</span>
+<a id="__codelineno-0-147" name="__codelineno-0-147"></a><span class="sd">        True if it&#39;s MIBiG reference BGC</span>
+<a id="__codelineno-0-148" name="__codelineno-0-148"></a><span class="sd">    &quot;&quot;&quot;</span>
+<a id="__codelineno-0-149" name="__codelineno-0-149"></a>    <span class="k">return</span> <span class="bp">self</span><span class="o">.</span><span class="n">bgc_id</span><span class="o">.</span><span class="n">startswith</span><span class="p">(</span><span class="s2">&quot;BGC&quot;</span><span class="p">)</span>
 </code></pre></div></td></tr></table></div>
           </details>
   </div>
@@ -2263,77 +2625,80 @@ <h3 id="nplinker.genomics.GCF" class="doc doc-heading">
 
 
 
-  <p><strong>Parameters:</strong></p>
+  <p><strong>Attributes:</strong></p>
   <table>
     <thead>
       <tr>
         <th>Name</th>
         <th>Type</th>
         <th>Description</th>
-        <th>Default</th>
       </tr>
     </thead>
     <tbody>
         <tr>
-          <td><code>gcf_id</code></td>
+          <td><code><a class="autorefs autorefs-internal" title="nplinker.genomics.GCF.gcf_id" href="#nplinker.genomics.GCF.gcf_id">gcf_id</a></code></td>
           <td>
-                <code><a class="autorefs autorefs-external" href="https://docs.python.org/3/library/stdtypes.html#str">str</a></code>
           </td>
           <td>
             <div class="doc-md-description">
               <p>id of the GCF object.</p>
             </div>
           </td>
+        </tr>
+        <tr>
+          <td><code><a class="autorefs autorefs-internal" title="nplinker.genomics.GCF.bgc_ids" href="#nplinker.genomics.GCF.bgc_ids">bgc_ids</a></code></td>
           <td>
-              <em>required</em>
+                <code><a class="autorefs autorefs-external" href="https://docs.python.org/3/library/stdtypes.html#set">set</a>[<a class="autorefs autorefs-external" href="https://docs.python.org/3/library/stdtypes.html#str">str</a>]</code>
+          </td>
+          <td>
+            <div class="doc-md-description">
+              <p>a set of BGC ids that belongs to the GCF.</p>
+            </div>
+          </td>
+        </tr>
+        <tr>
+          <td><code><a class="autorefs autorefs-internal" title="nplinker.genomics.GCF.bigscape_class" href="#nplinker.genomics.GCF.bigscape_class">bigscape_class</a></code></td>
+          <td>
+                <code><a class="autorefs autorefs-external" href="https://docs.python.org/3/library/stdtypes.html#str">str</a> | None</code>
+          </td>
+          <td>
+            <div class="doc-md-description">
+              <p>BiG-SCAPE's BGC class.
+BiG-SCAPE's BGC classes are similar to those defined in MiBIG
+but have more categories (7 classes). More details see:
+<a href="https://doi.org/10.1038%2Fs41589-019-0400-9">https://doi.org/10.1038%2Fs41589-019-0400-9</a>.</p>
+            </div>
           </td>
         </tr>
     </tbody>
   </table>
+  
 
 
 
-  <p><strong>Attributes:</strong></p>
+  <p><strong>Parameters:</strong></p>
   <table>
     <thead>
       <tr>
         <th>Name</th>
         <th>Type</th>
         <th>Description</th>
+        <th>Default</th>
       </tr>
     </thead>
     <tbody>
         <tr>
-          <td><code><span title="nplinker.genomics.GCF.gcf_id">gcf_id</span></code></td>
+          <td><code>gcf_id</code></td>
           <td>
+                <code><a class="autorefs autorefs-external" href="https://docs.python.org/3/library/stdtypes.html#str">str</a></code>
           </td>
           <td>
             <div class="doc-md-description">
               <p>id of the GCF object.</p>
             </div>
           </td>
-        </tr>
-        <tr>
-          <td><code><span title="nplinker.genomics.GCF.bgc_ids">bgc_ids</span></code></td>
-          <td>
-          </td>
-          <td>
-            <div class="doc-md-description">
-              <p>a set of BGC ids that belongs to the GCF.</p>
-            </div>
-          </td>
-        </tr>
-        <tr>
-          <td><code><span title="nplinker.genomics.GCF.bigscape_class">bigscape_class</span></code></td>
-          <td>
-          </td>
           <td>
-            <div class="doc-md-description">
-              <p>BiG-SCAPE's BGC class.
-BiG-SCAPE's BGC classes are similar to those defined in MiBIG
-but have more categories (7 classes). More details see:
-<a href="https://doi.org/10.1038%2Fs41589-019-0400-9">https://doi.org/10.1038%2Fs41589-019-0400-9</a>.</p>
-            </div>
+              <em>required</em>
           </td>
         </tr>
     </tbody>
@@ -2341,49 +2706,27 @@ <h3 id="nplinker.genomics.GCF" class="doc doc-heading">
 
                 <details class="quote">
                   <summary>Source code in <code>src/nplinker/genomics/gcf.py</code></summary>
-                  <div class="language-python highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal"><a href="#__codelineno-0-15">15</a></span>
-<span class="normal"><a href="#__codelineno-0-16">16</a></span>
-<span class="normal"><a href="#__codelineno-0-17">17</a></span>
-<span class="normal"><a href="#__codelineno-0-18">18</a></span>
-<span class="normal"><a href="#__codelineno-0-19">19</a></span>
-<span class="normal"><a href="#__codelineno-0-20">20</a></span>
-<span class="normal"><a href="#__codelineno-0-21">21</a></span>
-<span class="normal"><a href="#__codelineno-0-22">22</a></span>
-<span class="normal"><a href="#__codelineno-0-23">23</a></span>
-<span class="normal"><a href="#__codelineno-0-24">24</a></span>
-<span class="normal"><a href="#__codelineno-0-25">25</a></span>
-<span class="normal"><a href="#__codelineno-0-26">26</a></span>
-<span class="normal"><a href="#__codelineno-0-27">27</a></span>
-<span class="normal"><a href="#__codelineno-0-28">28</a></span>
-<span class="normal"><a href="#__codelineno-0-29">29</a></span>
+                  <div class="language-python highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal"><a href="#__codelineno-0-29">29</a></span>
 <span class="normal"><a href="#__codelineno-0-30">30</a></span>
 <span class="normal"><a href="#__codelineno-0-31">31</a></span>
 <span class="normal"><a href="#__codelineno-0-32">32</a></span>
 <span class="normal"><a href="#__codelineno-0-33">33</a></span>
 <span class="normal"><a href="#__codelineno-0-34">34</a></span>
 <span class="normal"><a href="#__codelineno-0-35">35</a></span>
-<span class="normal"><a href="#__codelineno-0-36">36</a></span></pre></div></td><td class="code"><div><pre><span></span><code><a id="__codelineno-0-15" name="__codelineno-0-15"></a><span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">gcf_id</span><span class="p">:</span> <span class="nb">str</span><span class="p">,</span> <span class="o">/</span><span class="p">)</span> <span class="o">-&gt;</span> <span class="kc">None</span><span class="p">:</span>
-<a id="__codelineno-0-16" name="__codelineno-0-16"></a><span class="w">    </span><span class="sd">&quot;&quot;&quot;Class to model gene cluster family (GCF).</span>
-<a id="__codelineno-0-17" name="__codelineno-0-17"></a>
-<a id="__codelineno-0-18" name="__codelineno-0-18"></a><span class="sd">    GCF is a group of similar BGCs and generated by clustering BGCs with</span>
-<a id="__codelineno-0-19" name="__codelineno-0-19"></a><span class="sd">    tools such as BiG-SCAPE and BiG-SLICE.</span>
-<a id="__codelineno-0-20" name="__codelineno-0-20"></a>
-<a id="__codelineno-0-21" name="__codelineno-0-21"></a><span class="sd">    Args:</span>
-<a id="__codelineno-0-22" name="__codelineno-0-22"></a><span class="sd">        gcf_id: id of the GCF object.</span>
-<a id="__codelineno-0-23" name="__codelineno-0-23"></a>
-<a id="__codelineno-0-24" name="__codelineno-0-24"></a><span class="sd">    Attributes:</span>
-<a id="__codelineno-0-25" name="__codelineno-0-25"></a><span class="sd">        gcf_id: id of the GCF object.</span>
-<a id="__codelineno-0-26" name="__codelineno-0-26"></a><span class="sd">        bgc_ids: a set of BGC ids that belongs to the GCF.</span>
-<a id="__codelineno-0-27" name="__codelineno-0-27"></a><span class="sd">        bigscape_class: BiG-SCAPE&#39;s BGC class.</span>
-<a id="__codelineno-0-28" name="__codelineno-0-28"></a><span class="sd">            BiG-SCAPE&#39;s BGC classes are similar to those defined in MiBIG</span>
-<a id="__codelineno-0-29" name="__codelineno-0-29"></a><span class="sd">            but have more categories (7 classes). More details see:</span>
-<a id="__codelineno-0-30" name="__codelineno-0-30"></a><span class="sd">            https://doi.org/10.1038%2Fs41589-019-0400-9.</span>
-<a id="__codelineno-0-31" name="__codelineno-0-31"></a><span class="sd">    &quot;&quot;&quot;</span>
-<a id="__codelineno-0-32" name="__codelineno-0-32"></a>    <span class="bp">self</span><span class="o">.</span><span class="n">gcf_id</span> <span class="o">=</span> <span class="n">gcf_id</span>
-<a id="__codelineno-0-33" name="__codelineno-0-33"></a>    <span class="bp">self</span><span class="o">.</span><span class="n">bgc_ids</span><span class="p">:</span> <span class="nb">set</span><span class="p">[</span><span class="nb">str</span><span class="p">]</span> <span class="o">=</span> <span class="nb">set</span><span class="p">()</span>
-<a id="__codelineno-0-34" name="__codelineno-0-34"></a>    <span class="bp">self</span><span class="o">.</span><span class="n">bigscape_class</span><span class="p">:</span> <span class="nb">str</span> <span class="o">|</span> <span class="kc">None</span> <span class="o">=</span> <span class="kc">None</span>
-<a id="__codelineno-0-35" name="__codelineno-0-35"></a>    <span class="bp">self</span><span class="o">.</span><span class="n">_bgcs</span><span class="p">:</span> <span class="nb">set</span><span class="p">[</span><span class="n">BGC</span><span class="p">]</span> <span class="o">=</span> <span class="nb">set</span><span class="p">()</span>
-<a id="__codelineno-0-36" name="__codelineno-0-36"></a>    <span class="bp">self</span><span class="o">.</span><span class="n">_strains</span><span class="p">:</span> <span class="n">StrainCollection</span> <span class="o">=</span> <span class="n">StrainCollection</span><span class="p">()</span>
+<span class="normal"><a href="#__codelineno-0-36">36</a></span>
+<span class="normal"><a href="#__codelineno-0-37">37</a></span>
+<span class="normal"><a href="#__codelineno-0-38">38</a></span>
+<span class="normal"><a href="#__codelineno-0-39">39</a></span></pre></div></td><td class="code"><div><pre><span></span><code><a id="__codelineno-0-29" name="__codelineno-0-29"></a><span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">gcf_id</span><span class="p">:</span> <span class="nb">str</span><span class="p">,</span> <span class="o">/</span><span class="p">)</span> <span class="o">-&gt;</span> <span class="kc">None</span><span class="p">:</span>
+<a id="__codelineno-0-30" name="__codelineno-0-30"></a><span class="w">    </span><span class="sd">&quot;&quot;&quot;Initialize the GCF object.</span>
+<a id="__codelineno-0-31" name="__codelineno-0-31"></a>
+<a id="__codelineno-0-32" name="__codelineno-0-32"></a><span class="sd">    Args:</span>
+<a id="__codelineno-0-33" name="__codelineno-0-33"></a><span class="sd">        gcf_id: id of the GCF object.</span>
+<a id="__codelineno-0-34" name="__codelineno-0-34"></a><span class="sd">    &quot;&quot;&quot;</span>
+<a id="__codelineno-0-35" name="__codelineno-0-35"></a>    <span class="bp">self</span><span class="o">.</span><span class="n">gcf_id</span> <span class="o">=</span> <span class="n">gcf_id</span>
+<a id="__codelineno-0-36" name="__codelineno-0-36"></a>    <span class="bp">self</span><span class="o">.</span><span class="n">bgc_ids</span><span class="p">:</span> <span class="nb">set</span><span class="p">[</span><span class="nb">str</span><span class="p">]</span> <span class="o">=</span> <span class="nb">set</span><span class="p">()</span>
+<a id="__codelineno-0-37" name="__codelineno-0-37"></a>    <span class="bp">self</span><span class="o">.</span><span class="n">bigscape_class</span><span class="p">:</span> <span class="nb">str</span> <span class="o">|</span> <span class="kc">None</span> <span class="o">=</span> <span class="kc">None</span>
+<a id="__codelineno-0-38" name="__codelineno-0-38"></a>    <span class="bp">self</span><span class="o">.</span><span class="n">_bgcs</span><span class="p">:</span> <span class="nb">set</span><span class="p">[</span><span class="n">BGC</span><span class="p">]</span> <span class="o">=</span> <span class="nb">set</span><span class="p">()</span>
+<a id="__codelineno-0-39" name="__codelineno-0-39"></a>    <span class="bp">self</span><span class="o">.</span><span class="n">_strains</span><span class="p">:</span> <span class="n">StrainCollection</span> <span class="o">=</span> <span class="n">StrainCollection</span><span class="p">()</span>
 </code></pre></div></td></tr></table></div>
                 </details>
 
@@ -2397,6 +2740,69 @@ <h3 id="nplinker.genomics.GCF" class="doc doc-heading">
 
 
 
+<div class="doc doc-object doc-attribute">
+
+
+
+<h4 id="nplinker.genomics.GCF.gcf_id" class="doc doc-heading">
+<code class="doc-symbol doc-symbol-heading doc-symbol-attribute"></code>          <span class="doc doc-object-name doc-attribute-name">gcf_id</span>
+
+  
+  <span class="doc doc-labels">
+      <small class="doc doc-label doc-label-instance-attribute"><code>instance-attribute</code></small>
+  </span>
+
+<a href="#nplinker.genomics.GCF.gcf_id" class="headerlink" title="Permanent link">&para;</a></h4>
+<div class="language-python doc-signature highlight"><pre><span></span><code><a id="__codelineno-0-1" name="__codelineno-0-1" href="#__codelineno-0-1"></a><span class="n">gcf_id</span> <span class="o">=</span> <span class="n"><a class="autorefs autorefs-internal" title="nplinker.genomics.gcf.GCF.gcf_id" href="#nplinker.genomics.GCF.gcf_id">gcf_id</a></span>
+</code></pre></div>
+
+  <div class="doc doc-contents ">
+  </div>
+
+</div>
+
+<div class="doc doc-object doc-attribute">
+
+
+
+<h4 id="nplinker.genomics.GCF.bgc_ids" class="doc doc-heading">
+<code class="doc-symbol doc-symbol-heading doc-symbol-attribute"></code>          <span class="doc doc-object-name doc-attribute-name">bgc_ids</span>
+
+  
+  <span class="doc doc-labels">
+      <small class="doc doc-label doc-label-instance-attribute"><code>instance-attribute</code></small>
+  </span>
+
+<a href="#nplinker.genomics.GCF.bgc_ids" class="headerlink" title="Permanent link">&para;</a></h4>
+<div class="language-python doc-signature highlight"><pre><span></span><code><a id="__codelineno-0-1" name="__codelineno-0-1" href="#__codelineno-0-1"></a><span class="n">bgc_ids</span><span class="p">:</span> <span class="n"><a class="autorefs autorefs-external" href="https://docs.python.org/3/library/stdtypes.html#set">set</a></span><span class="p">[</span><span class="n"><a class="autorefs autorefs-external" href="https://docs.python.org/3/library/stdtypes.html#str">str</a></span><span class="p">]</span> <span class="o">=</span> <span class="n"><a class="autorefs autorefs-external" href="https://docs.python.org/3/library/stdtypes.html#set">set</a></span><span class="p">()</span>
+</code></pre></div>
+
+  <div class="doc doc-contents ">
+  </div>
+
+</div>
+
+<div class="doc doc-object doc-attribute">
+
+
+
+<h4 id="nplinker.genomics.GCF.bigscape_class" class="doc doc-heading">
+<code class="doc-symbol doc-symbol-heading doc-symbol-attribute"></code>          <span class="doc doc-object-name doc-attribute-name">bigscape_class</span>
+
+  
+  <span class="doc doc-labels">
+      <small class="doc doc-label doc-label-instance-attribute"><code>instance-attribute</code></small>
+  </span>
+
+<a href="#nplinker.genomics.GCF.bigscape_class" class="headerlink" title="Permanent link">&para;</a></h4>
+<div class="language-python doc-signature highlight"><pre><span></span><code><a id="__codelineno-0-1" name="__codelineno-0-1" href="#__codelineno-0-1"></a><span class="n">bigscape_class</span><span class="p">:</span> <span class="n"><a class="autorefs autorefs-external" href="https://docs.python.org/3/library/stdtypes.html#str">str</a></span> <span class="o">|</span> <span class="kc">None</span> <span class="o">=</span> <span class="kc">None</span>
+</code></pre></div>
+
+  <div class="doc doc-contents ">
+  </div>
+
+</div>
+
 <div class="doc doc-object doc-attribute">
 
 
@@ -2464,23 +2870,23 @@ <h4 id="nplinker.genomics.GCF.add_bgc" class="doc doc-heading">
 
           <details class="quote">
             <summary>Source code in <code>src/nplinker/genomics/gcf.py</code></summary>
-            <div class="language-python highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal"><a href="#__codelineno-0-70">70</a></span>
-<span class="normal"><a href="#__codelineno-0-71">71</a></span>
-<span class="normal"><a href="#__codelineno-0-72">72</a></span>
-<span class="normal"><a href="#__codelineno-0-73">73</a></span>
+            <div class="language-python highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal"><a href="#__codelineno-0-73">73</a></span>
 <span class="normal"><a href="#__codelineno-0-74">74</a></span>
 <span class="normal"><a href="#__codelineno-0-75">75</a></span>
 <span class="normal"><a href="#__codelineno-0-76">76</a></span>
 <span class="normal"><a href="#__codelineno-0-77">77</a></span>
-<span class="normal"><a href="#__codelineno-0-78">78</a></span></pre></div></td><td class="code"><div><pre><span></span><code><a id="__codelineno-0-70" name="__codelineno-0-70"></a><span class="k">def</span> <span class="nf">add_bgc</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">bgc</span><span class="p">:</span> <span class="n">BGC</span><span class="p">)</span> <span class="o">-&gt;</span> <span class="kc">None</span><span class="p">:</span>
-<a id="__codelineno-0-71" name="__codelineno-0-71"></a><span class="w">    </span><span class="sd">&quot;&quot;&quot;Add a BGC object to the GCF.&quot;&quot;&quot;</span>
-<a id="__codelineno-0-72" name="__codelineno-0-72"></a>    <span class="n">bgc</span><span class="o">.</span><span class="n">parents</span><span class="o">.</span><span class="n">add</span><span class="p">(</span><span class="bp">self</span><span class="p">)</span>
-<a id="__codelineno-0-73" name="__codelineno-0-73"></a>    <span class="bp">self</span><span class="o">.</span><span class="n">_bgcs</span><span class="o">.</span><span class="n">add</span><span class="p">(</span><span class="n">bgc</span><span class="p">)</span>
-<a id="__codelineno-0-74" name="__codelineno-0-74"></a>    <span class="bp">self</span><span class="o">.</span><span class="n">bgc_ids</span><span class="o">.</span><span class="n">add</span><span class="p">(</span><span class="n">bgc</span><span class="o">.</span><span class="n">bgc_id</span><span class="p">)</span>
-<a id="__codelineno-0-75" name="__codelineno-0-75"></a>    <span class="k">if</span> <span class="n">bgc</span><span class="o">.</span><span class="n">strain</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span><span class="p">:</span>
-<a id="__codelineno-0-76" name="__codelineno-0-76"></a>        <span class="bp">self</span><span class="o">.</span><span class="n">_strains</span><span class="o">.</span><span class="n">add</span><span class="p">(</span><span class="n">bgc</span><span class="o">.</span><span class="n">strain</span><span class="p">)</span>
-<a id="__codelineno-0-77" name="__codelineno-0-77"></a>    <span class="k">else</span><span class="p">:</span>
-<a id="__codelineno-0-78" name="__codelineno-0-78"></a>        <span class="n">logger</span><span class="o">.</span><span class="n">warning</span><span class="p">(</span><span class="s2">&quot;No strain specified for the BGC </span><span class="si">%s</span><span class="s2">&quot;</span><span class="p">,</span> <span class="n">bgc</span><span class="o">.</span><span class="n">bgc_id</span><span class="p">)</span>
+<span class="normal"><a href="#__codelineno-0-78">78</a></span>
+<span class="normal"><a href="#__codelineno-0-79">79</a></span>
+<span class="normal"><a href="#__codelineno-0-80">80</a></span>
+<span class="normal"><a href="#__codelineno-0-81">81</a></span></pre></div></td><td class="code"><div><pre><span></span><code><a id="__codelineno-0-73" name="__codelineno-0-73"></a><span class="k">def</span> <span class="nf">add_bgc</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">bgc</span><span class="p">:</span> <span class="n">BGC</span><span class="p">)</span> <span class="o">-&gt;</span> <span class="kc">None</span><span class="p">:</span>
+<a id="__codelineno-0-74" name="__codelineno-0-74"></a><span class="w">    </span><span class="sd">&quot;&quot;&quot;Add a BGC object to the GCF.&quot;&quot;&quot;</span>
+<a id="__codelineno-0-75" name="__codelineno-0-75"></a>    <span class="n">bgc</span><span class="o">.</span><span class="n">parents</span><span class="o">.</span><span class="n">add</span><span class="p">(</span><span class="bp">self</span><span class="p">)</span>
+<a id="__codelineno-0-76" name="__codelineno-0-76"></a>    <span class="bp">self</span><span class="o">.</span><span class="n">_bgcs</span><span class="o">.</span><span class="n">add</span><span class="p">(</span><span class="n">bgc</span><span class="p">)</span>
+<a id="__codelineno-0-77" name="__codelineno-0-77"></a>    <span class="bp">self</span><span class="o">.</span><span class="n">bgc_ids</span><span class="o">.</span><span class="n">add</span><span class="p">(</span><span class="n">bgc</span><span class="o">.</span><span class="n">bgc_id</span><span class="p">)</span>
+<a id="__codelineno-0-78" name="__codelineno-0-78"></a>    <span class="k">if</span> <span class="n">bgc</span><span class="o">.</span><span class="n">strain</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span><span class="p">:</span>
+<a id="__codelineno-0-79" name="__codelineno-0-79"></a>        <span class="bp">self</span><span class="o">.</span><span class="n">_strains</span><span class="o">.</span><span class="n">add</span><span class="p">(</span><span class="n">bgc</span><span class="o">.</span><span class="n">strain</span><span class="p">)</span>
+<a id="__codelineno-0-80" name="__codelineno-0-80"></a>    <span class="k">else</span><span class="p">:</span>
+<a id="__codelineno-0-81" name="__codelineno-0-81"></a>        <span class="n">logger</span><span class="o">.</span><span class="n">warning</span><span class="p">(</span><span class="s2">&quot;No strain specified for the BGC </span><span class="si">%s</span><span class="s2">&quot;</span><span class="p">,</span> <span class="n">bgc</span><span class="o">.</span><span class="n">bgc_id</span><span class="p">)</span>
 </code></pre></div></td></tr></table></div>
           </details>
   </div>
@@ -2506,25 +2912,25 @@ <h4 id="nplinker.genomics.GCF.detach_bgc" class="doc doc-heading">
 
           <details class="quote">
             <summary>Source code in <code>src/nplinker/genomics/gcf.py</code></summary>
-            <div class="language-python highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal"><a href="#__codelineno-0-80">80</a></span>
-<span class="normal"><a href="#__codelineno-0-81">81</a></span>
-<span class="normal"><a href="#__codelineno-0-82">82</a></span>
-<span class="normal"><a href="#__codelineno-0-83">83</a></span>
+            <div class="language-python highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal"><a href="#__codelineno-0-83">83</a></span>
 <span class="normal"><a href="#__codelineno-0-84">84</a></span>
 <span class="normal"><a href="#__codelineno-0-85">85</a></span>
 <span class="normal"><a href="#__codelineno-0-86">86</a></span>
 <span class="normal"><a href="#__codelineno-0-87">87</a></span>
 <span class="normal"><a href="#__codelineno-0-88">88</a></span>
-<span class="normal"><a href="#__codelineno-0-89">89</a></span></pre></div></td><td class="code"><div><pre><span></span><code><a id="__codelineno-0-80" name="__codelineno-0-80"></a><span class="k">def</span> <span class="nf">detach_bgc</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">bgc</span><span class="p">:</span> <span class="n">BGC</span><span class="p">)</span> <span class="o">-&gt;</span> <span class="kc">None</span><span class="p">:</span>
-<a id="__codelineno-0-81" name="__codelineno-0-81"></a><span class="w">    </span><span class="sd">&quot;&quot;&quot;Remove a child BGC object.&quot;&quot;&quot;</span>
-<a id="__codelineno-0-82" name="__codelineno-0-82"></a>    <span class="n">bgc</span><span class="o">.</span><span class="n">parents</span><span class="o">.</span><span class="n">remove</span><span class="p">(</span><span class="bp">self</span><span class="p">)</span>
-<a id="__codelineno-0-83" name="__codelineno-0-83"></a>    <span class="bp">self</span><span class="o">.</span><span class="n">_bgcs</span><span class="o">.</span><span class="n">remove</span><span class="p">(</span><span class="n">bgc</span><span class="p">)</span>
-<a id="__codelineno-0-84" name="__codelineno-0-84"></a>    <span class="bp">self</span><span class="o">.</span><span class="n">bgc_ids</span><span class="o">.</span><span class="n">remove</span><span class="p">(</span><span class="n">bgc</span><span class="o">.</span><span class="n">bgc_id</span><span class="p">)</span>
-<a id="__codelineno-0-85" name="__codelineno-0-85"></a>    <span class="k">if</span> <span class="n">bgc</span><span class="o">.</span><span class="n">strain</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span><span class="p">:</span>
-<a id="__codelineno-0-86" name="__codelineno-0-86"></a>        <span class="k">for</span> <span class="n">other_bgc</span> <span class="ow">in</span> <span class="bp">self</span><span class="o">.</span><span class="n">_bgcs</span><span class="p">:</span>
-<a id="__codelineno-0-87" name="__codelineno-0-87"></a>            <span class="k">if</span> <span class="n">other_bgc</span><span class="o">.</span><span class="n">strain</span> <span class="o">==</span> <span class="n">bgc</span><span class="o">.</span><span class="n">strain</span><span class="p">:</span>
-<a id="__codelineno-0-88" name="__codelineno-0-88"></a>                <span class="k">return</span>
-<a id="__codelineno-0-89" name="__codelineno-0-89"></a>        <span class="bp">self</span><span class="o">.</span><span class="n">_strains</span><span class="o">.</span><span class="n">remove</span><span class="p">(</span><span class="n">bgc</span><span class="o">.</span><span class="n">strain</span><span class="p">)</span>
+<span class="normal"><a href="#__codelineno-0-89">89</a></span>
+<span class="normal"><a href="#__codelineno-0-90">90</a></span>
+<span class="normal"><a href="#__codelineno-0-91">91</a></span>
+<span class="normal"><a href="#__codelineno-0-92">92</a></span></pre></div></td><td class="code"><div><pre><span></span><code><a id="__codelineno-0-83" name="__codelineno-0-83"></a><span class="k">def</span> <span class="nf">detach_bgc</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">bgc</span><span class="p">:</span> <span class="n">BGC</span><span class="p">)</span> <span class="o">-&gt;</span> <span class="kc">None</span><span class="p">:</span>
+<a id="__codelineno-0-84" name="__codelineno-0-84"></a><span class="w">    </span><span class="sd">&quot;&quot;&quot;Remove a child BGC object.&quot;&quot;&quot;</span>
+<a id="__codelineno-0-85" name="__codelineno-0-85"></a>    <span class="n">bgc</span><span class="o">.</span><span class="n">parents</span><span class="o">.</span><span class="n">remove</span><span class="p">(</span><span class="bp">self</span><span class="p">)</span>
+<a id="__codelineno-0-86" name="__codelineno-0-86"></a>    <span class="bp">self</span><span class="o">.</span><span class="n">_bgcs</span><span class="o">.</span><span class="n">remove</span><span class="p">(</span><span class="n">bgc</span><span class="p">)</span>
+<a id="__codelineno-0-87" name="__codelineno-0-87"></a>    <span class="bp">self</span><span class="o">.</span><span class="n">bgc_ids</span><span class="o">.</span><span class="n">remove</span><span class="p">(</span><span class="n">bgc</span><span class="o">.</span><span class="n">bgc_id</span><span class="p">)</span>
+<a id="__codelineno-0-88" name="__codelineno-0-88"></a>    <span class="k">if</span> <span class="n">bgc</span><span class="o">.</span><span class="n">strain</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span><span class="p">:</span>
+<a id="__codelineno-0-89" name="__codelineno-0-89"></a>        <span class="k">for</span> <span class="n">other_bgc</span> <span class="ow">in</span> <span class="bp">self</span><span class="o">.</span><span class="n">_bgcs</span><span class="p">:</span>
+<a id="__codelineno-0-90" name="__codelineno-0-90"></a>            <span class="k">if</span> <span class="n">other_bgc</span><span class="o">.</span><span class="n">strain</span> <span class="o">==</span> <span class="n">bgc</span><span class="o">.</span><span class="n">strain</span><span class="p">:</span>
+<a id="__codelineno-0-91" name="__codelineno-0-91"></a>                <span class="k">return</span>
+<a id="__codelineno-0-92" name="__codelineno-0-92"></a>        <span class="bp">self</span><span class="o">.</span><span class="n">_strains</span><span class="o">.</span><span class="n">remove</span><span class="p">(</span><span class="n">bgc</span><span class="o">.</span><span class="n">strain</span><span class="p">)</span>
 </code></pre></div></td></tr></table></div>
           </details>
   </div>
@@ -2604,25 +3010,25 @@ <h4 id="nplinker.genomics.GCF.has_strain" class="doc doc-heading">
 
           <details class="quote">
             <summary>Source code in <code>src/nplinker/genomics/gcf.py</code></summary>
-            <div class="language-python highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal"><a href="#__codelineno-0-91"> 91</a></span>
-<span class="normal"><a href="#__codelineno-0-92"> 92</a></span>
-<span class="normal"><a href="#__codelineno-0-93"> 93</a></span>
-<span class="normal"><a href="#__codelineno-0-94"> 94</a></span>
+            <div class="language-python highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal"><a href="#__codelineno-0-94"> 94</a></span>
 <span class="normal"><a href="#__codelineno-0-95"> 95</a></span>
 <span class="normal"><a href="#__codelineno-0-96"> 96</a></span>
 <span class="normal"><a href="#__codelineno-0-97"> 97</a></span>
 <span class="normal"><a href="#__codelineno-0-98"> 98</a></span>
 <span class="normal"><a href="#__codelineno-0-99"> 99</a></span>
-<span class="normal"><a href="#__codelineno-0-100">100</a></span></pre></div></td><td class="code"><div><pre><span></span><code><a id="__codelineno-0-91" name="__codelineno-0-91"></a><span class="k">def</span> <span class="nf">has_strain</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">strain</span><span class="p">:</span> <span class="n">Strain</span><span class="p">)</span> <span class="o">-&gt;</span> <span class="nb">bool</span><span class="p">:</span>
-<a id="__codelineno-0-92" name="__codelineno-0-92"></a><span class="w">    </span><span class="sd">&quot;&quot;&quot;Check if the given strain exists.</span>
-<a id="__codelineno-0-93" name="__codelineno-0-93"></a>
-<a id="__codelineno-0-94" name="__codelineno-0-94"></a><span class="sd">    Args:</span>
-<a id="__codelineno-0-95" name="__codelineno-0-95"></a><span class="sd">        strain: `Strain` object.</span>
+<span class="normal"><a href="#__codelineno-0-100">100</a></span>
+<span class="normal"><a href="#__codelineno-0-101">101</a></span>
+<span class="normal"><a href="#__codelineno-0-102">102</a></span>
+<span class="normal"><a href="#__codelineno-0-103">103</a></span></pre></div></td><td class="code"><div><pre><span></span><code><a id="__codelineno-0-94" name="__codelineno-0-94"></a><span class="k">def</span> <span class="nf">has_strain</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">strain</span><span class="p">:</span> <span class="n">Strain</span><span class="p">)</span> <span class="o">-&gt;</span> <span class="nb">bool</span><span class="p">:</span>
+<a id="__codelineno-0-95" name="__codelineno-0-95"></a><span class="w">    </span><span class="sd">&quot;&quot;&quot;Check if the given strain exists.</span>
 <a id="__codelineno-0-96" name="__codelineno-0-96"></a>
-<a id="__codelineno-0-97" name="__codelineno-0-97"></a><span class="sd">    Returns:</span>
-<a id="__codelineno-0-98" name="__codelineno-0-98"></a><span class="sd">        True when the given strain exist.</span>
-<a id="__codelineno-0-99" name="__codelineno-0-99"></a><span class="sd">    &quot;&quot;&quot;</span>
-<a id="__codelineno-0-100" name="__codelineno-0-100"></a>    <span class="k">return</span> <span class="n">strain</span> <span class="ow">in</span> <span class="bp">self</span><span class="o">.</span><span class="n">_strains</span>
+<a id="__codelineno-0-97" name="__codelineno-0-97"></a><span class="sd">    Args:</span>
+<a id="__codelineno-0-98" name="__codelineno-0-98"></a><span class="sd">        strain: `Strain` object.</span>
+<a id="__codelineno-0-99" name="__codelineno-0-99"></a>
+<a id="__codelineno-0-100" name="__codelineno-0-100"></a><span class="sd">    Returns:</span>
+<a id="__codelineno-0-101" name="__codelineno-0-101"></a><span class="sd">        True when the given strain exist.</span>
+<a id="__codelineno-0-102" name="__codelineno-0-102"></a><span class="sd">    &quot;&quot;&quot;</span>
+<a id="__codelineno-0-103" name="__codelineno-0-103"></a>    <span class="k">return</span> <span class="n">strain</span> <span class="ow">in</span> <span class="bp">self</span><span class="o">.</span><span class="n">_strains</span>
 </code></pre></div></td></tr></table></div>
           </details>
   </div>
@@ -2672,19 +3078,19 @@ <h4 id="nplinker.genomics.GCF.has_mibig_only" class="doc doc-heading">
 
           <details class="quote">
             <summary>Source code in <code>src/nplinker/genomics/gcf.py</code></summary>
-            <div class="language-python highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal"><a href="#__codelineno-0-102">102</a></span>
-<span class="normal"><a href="#__codelineno-0-103">103</a></span>
-<span class="normal"><a href="#__codelineno-0-104">104</a></span>
-<span class="normal"><a href="#__codelineno-0-105">105</a></span>
+            <div class="language-python highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal"><a href="#__codelineno-0-105">105</a></span>
 <span class="normal"><a href="#__codelineno-0-106">106</a></span>
 <span class="normal"><a href="#__codelineno-0-107">107</a></span>
-<span class="normal"><a href="#__codelineno-0-108">108</a></span></pre></div></td><td class="code"><div><pre><span></span><code><a id="__codelineno-0-102" name="__codelineno-0-102"></a><span class="k">def</span> <span class="nf">has_mibig_only</span><span class="p">(</span><span class="bp">self</span><span class="p">)</span> <span class="o">-&gt;</span> <span class="nb">bool</span><span class="p">:</span>
-<a id="__codelineno-0-103" name="__codelineno-0-103"></a><span class="w">    </span><span class="sd">&quot;&quot;&quot;Check if the GCF&#39;s children are only MIBiG BGCs.</span>
-<a id="__codelineno-0-104" name="__codelineno-0-104"></a>
-<a id="__codelineno-0-105" name="__codelineno-0-105"></a><span class="sd">    Returns:</span>
-<a id="__codelineno-0-106" name="__codelineno-0-106"></a><span class="sd">        True if `GCF.bgc_ids` are only MIBiG BGC ids.</span>
-<a id="__codelineno-0-107" name="__codelineno-0-107"></a><span class="sd">    &quot;&quot;&quot;</span>
-<a id="__codelineno-0-108" name="__codelineno-0-108"></a>    <span class="k">return</span> <span class="nb">all</span><span class="p">(</span><span class="nb">map</span><span class="p">(</span><span class="k">lambda</span> <span class="nb">id</span><span class="p">:</span> <span class="nb">id</span><span class="o">.</span><span class="n">startswith</span><span class="p">(</span><span class="s2">&quot;BGC&quot;</span><span class="p">),</span> <span class="bp">self</span><span class="o">.</span><span class="n">bgc_ids</span><span class="p">))</span>
+<span class="normal"><a href="#__codelineno-0-108">108</a></span>
+<span class="normal"><a href="#__codelineno-0-109">109</a></span>
+<span class="normal"><a href="#__codelineno-0-110">110</a></span>
+<span class="normal"><a href="#__codelineno-0-111">111</a></span></pre></div></td><td class="code"><div><pre><span></span><code><a id="__codelineno-0-105" name="__codelineno-0-105"></a><span class="k">def</span> <span class="nf">has_mibig_only</span><span class="p">(</span><span class="bp">self</span><span class="p">)</span> <span class="o">-&gt;</span> <span class="nb">bool</span><span class="p">:</span>
+<a id="__codelineno-0-106" name="__codelineno-0-106"></a><span class="w">    </span><span class="sd">&quot;&quot;&quot;Check if the GCF&#39;s children are only MIBiG BGCs.</span>
+<a id="__codelineno-0-107" name="__codelineno-0-107"></a>
+<a id="__codelineno-0-108" name="__codelineno-0-108"></a><span class="sd">    Returns:</span>
+<a id="__codelineno-0-109" name="__codelineno-0-109"></a><span class="sd">        True if `GCF.bgc_ids` are only MIBiG BGC ids.</span>
+<a id="__codelineno-0-110" name="__codelineno-0-110"></a><span class="sd">    &quot;&quot;&quot;</span>
+<a id="__codelineno-0-111" name="__codelineno-0-111"></a>    <span class="k">return</span> <span class="nb">all</span><span class="p">(</span><span class="nb">map</span><span class="p">(</span><span class="k">lambda</span> <span class="nb">id</span><span class="p">:</span> <span class="nb">id</span><span class="o">.</span><span class="n">startswith</span><span class="p">(</span><span class="s2">&quot;BGC&quot;</span><span class="p">),</span> <span class="bp">self</span><span class="o">.</span><span class="n">bgc_ids</span><span class="p">))</span>
 </code></pre></div></td></tr></table></div>
           </details>
   </div>
@@ -2734,19 +3140,19 @@ <h4 id="nplinker.genomics.GCF.is_singleton" class="doc doc-heading">
 
           <details class="quote">
             <summary>Source code in <code>src/nplinker/genomics/gcf.py</code></summary>
-            <div class="language-python highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal"><a href="#__codelineno-0-110">110</a></span>
-<span class="normal"><a href="#__codelineno-0-111">111</a></span>
-<span class="normal"><a href="#__codelineno-0-112">112</a></span>
-<span class="normal"><a href="#__codelineno-0-113">113</a></span>
+            <div class="language-python highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal"><a href="#__codelineno-0-113">113</a></span>
 <span class="normal"><a href="#__codelineno-0-114">114</a></span>
 <span class="normal"><a href="#__codelineno-0-115">115</a></span>
-<span class="normal"><a href="#__codelineno-0-116">116</a></span></pre></div></td><td class="code"><div><pre><span></span><code><a id="__codelineno-0-110" name="__codelineno-0-110"></a><span class="k">def</span> <span class="nf">is_singleton</span><span class="p">(</span><span class="bp">self</span><span class="p">)</span> <span class="o">-&gt;</span> <span class="nb">bool</span><span class="p">:</span>
-<a id="__codelineno-0-111" name="__codelineno-0-111"></a><span class="w">    </span><span class="sd">&quot;&quot;&quot;Check if the GCF contains only one BGC.</span>
-<a id="__codelineno-0-112" name="__codelineno-0-112"></a>
-<a id="__codelineno-0-113" name="__codelineno-0-113"></a><span class="sd">    Returns:</span>
-<a id="__codelineno-0-114" name="__codelineno-0-114"></a><span class="sd">        True if `GCF.bgc_ids` contains only one BGC id.</span>
-<a id="__codelineno-0-115" name="__codelineno-0-115"></a><span class="sd">    &quot;&quot;&quot;</span>
-<a id="__codelineno-0-116" name="__codelineno-0-116"></a>    <span class="k">return</span> <span class="nb">len</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">bgc_ids</span><span class="p">)</span> <span class="o">==</span> <span class="mi">1</span>
+<span class="normal"><a href="#__codelineno-0-116">116</a></span>
+<span class="normal"><a href="#__codelineno-0-117">117</a></span>
+<span class="normal"><a href="#__codelineno-0-118">118</a></span>
+<span class="normal"><a href="#__codelineno-0-119">119</a></span></pre></div></td><td class="code"><div><pre><span></span><code><a id="__codelineno-0-113" name="__codelineno-0-113"></a><span class="k">def</span> <span class="nf">is_singleton</span><span class="p">(</span><span class="bp">self</span><span class="p">)</span> <span class="o">-&gt;</span> <span class="nb">bool</span><span class="p">:</span>
+<a id="__codelineno-0-114" name="__codelineno-0-114"></a><span class="w">    </span><span class="sd">&quot;&quot;&quot;Check if the GCF contains only one BGC.</span>
+<a id="__codelineno-0-115" name="__codelineno-0-115"></a>
+<a id="__codelineno-0-116" name="__codelineno-0-116"></a><span class="sd">    Returns:</span>
+<a id="__codelineno-0-117" name="__codelineno-0-117"></a><span class="sd">        True if `GCF.bgc_ids` contains only one BGC id.</span>
+<a id="__codelineno-0-118" name="__codelineno-0-118"></a><span class="sd">    &quot;&quot;&quot;</span>
+<a id="__codelineno-0-119" name="__codelineno-0-119"></a>    <span class="k">return</span> <span class="nb">len</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">bgc_ids</span><span class="p">)</span> <span class="o">==</span> <span class="mi">1</span>
 </code></pre></div></td></tr></table></div>
           </details>
   </div>
diff --git a/dev/api/genomics_abc/index.html b/dev/api/genomics_abc/index.html
index c09a69ba..85e153a8 100644
--- a/dev/api/genomics_abc/index.html
+++ b/dev/api/genomics_abc/index.html
@@ -875,6 +875,15 @@
     <nav class="md-nav" aria-label=" BGCLoaderBase">
       <ul class="md-nav__list">
         
+          <li class="md-nav__item">
+  <a href="#nplinker.genomics.abc.BGCLoaderBase.data_dir" class="md-nav__link">
+    <span class="md-ellipsis">
+      <code class="doc-symbol doc-symbol-toc doc-symbol-attribute"></code>&nbsp;data_dir
+    </span>
+  </a>
+  
+</li>
+        
           <li class="md-nav__item">
   <a href="#nplinker.genomics.abc.BGCLoaderBase.get_files" class="md-nav__link">
     <span class="md-ellipsis">
@@ -1360,6 +1369,15 @@
     <nav class="md-nav" aria-label=" BGCLoaderBase">
       <ul class="md-nav__list">
         
+          <li class="md-nav__item">
+  <a href="#nplinker.genomics.abc.BGCLoaderBase.data_dir" class="md-nav__link">
+    <span class="md-ellipsis">
+      <code class="doc-symbol doc-symbol-toc doc-symbol-attribute"></code>&nbsp;data_dir
+    </span>
+  </a>
+  
+</li>
+        
           <li class="md-nav__item">
   <a href="#nplinker.genomics.abc.BGCLoaderBase.get_files" class="md-nav__link">
     <span class="md-ellipsis">
@@ -1473,6 +1491,7 @@ <h3 id="nplinker.genomics.abc.BGCLoaderBase" class="doc doc-heading">
 
   
       <p>Abstract base class for BGC loader.</p>
+  
 
 
 
@@ -1507,21 +1526,21 @@ <h3 id="nplinker.genomics.abc.BGCLoaderBase" class="doc doc-heading">
 
                 <details class="quote">
                   <summary>Source code in <code>src/nplinker/genomics/abc.py</code></summary>
-                  <div class="language-python highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal"><a href="#__codelineno-0-9"> 9</a></span>
-<span class="normal"><a href="#__codelineno-0-10">10</a></span>
-<span class="normal"><a href="#__codelineno-0-11">11</a></span>
+                  <div class="language-python highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal"><a href="#__codelineno-0-11">11</a></span>
 <span class="normal"><a href="#__codelineno-0-12">12</a></span>
 <span class="normal"><a href="#__codelineno-0-13">13</a></span>
 <span class="normal"><a href="#__codelineno-0-14">14</a></span>
 <span class="normal"><a href="#__codelineno-0-15">15</a></span>
-<span class="normal"><a href="#__codelineno-0-16">16</a></span></pre></div></td><td class="code"><div><pre><span></span><code><a id="__codelineno-0-9" name="__codelineno-0-9"></a><span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">data_dir</span><span class="p">:</span> <span class="nb">str</span><span class="p">):</span>
-<a id="__codelineno-0-10" name="__codelineno-0-10"></a><span class="w">    </span><span class="sd">&quot;&quot;&quot;Abstract base class for BGC loader.</span>
-<a id="__codelineno-0-11" name="__codelineno-0-11"></a>
-<a id="__codelineno-0-12" name="__codelineno-0-12"></a><span class="sd">    Args:</span>
-<a id="__codelineno-0-13" name="__codelineno-0-13"></a><span class="sd">        data_dir: Path to directory that contains BGC metadata files</span>
-<a id="__codelineno-0-14" name="__codelineno-0-14"></a><span class="sd">            (.json) or full data genbank files (.gbk).</span>
-<a id="__codelineno-0-15" name="__codelineno-0-15"></a><span class="sd">    &quot;&quot;&quot;</span>
-<a id="__codelineno-0-16" name="__codelineno-0-16"></a>    <span class="bp">self</span><span class="o">.</span><span class="n">data_dir</span> <span class="o">=</span> <span class="n">data_dir</span>
+<span class="normal"><a href="#__codelineno-0-16">16</a></span>
+<span class="normal"><a href="#__codelineno-0-17">17</a></span>
+<span class="normal"><a href="#__codelineno-0-18">18</a></span></pre></div></td><td class="code"><div><pre><span></span><code><a id="__codelineno-0-11" name="__codelineno-0-11"></a><span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">data_dir</span><span class="p">:</span> <span class="nb">str</span><span class="p">):</span>
+<a id="__codelineno-0-12" name="__codelineno-0-12"></a><span class="w">    </span><span class="sd">&quot;&quot;&quot;Initialize the BGC loader.</span>
+<a id="__codelineno-0-13" name="__codelineno-0-13"></a>
+<a id="__codelineno-0-14" name="__codelineno-0-14"></a><span class="sd">    Args:</span>
+<a id="__codelineno-0-15" name="__codelineno-0-15"></a><span class="sd">        data_dir: Path to directory that contains BGC metadata files</span>
+<a id="__codelineno-0-16" name="__codelineno-0-16"></a><span class="sd">            (.json) or full data genbank files (.gbk).</span>
+<a id="__codelineno-0-17" name="__codelineno-0-17"></a><span class="sd">    &quot;&quot;&quot;</span>
+<a id="__codelineno-0-18" name="__codelineno-0-18"></a>    <span class="bp">self</span><span class="o">.</span><span class="n">data_dir</span> <span class="o">=</span> <span class="n">data_dir</span>
 </code></pre></div></td></tr></table></div>
                 </details>
 
@@ -1535,6 +1554,27 @@ <h3 id="nplinker.genomics.abc.BGCLoaderBase" class="doc doc-heading">
 
 
 
+<div class="doc doc-object doc-attribute">
+
+
+
+<h4 id="nplinker.genomics.abc.BGCLoaderBase.data_dir" class="doc doc-heading">
+<code class="doc-symbol doc-symbol-heading doc-symbol-attribute"></code>          <span class="doc doc-object-name doc-attribute-name">data_dir</span>
+
+  
+  <span class="doc doc-labels">
+      <small class="doc doc-label doc-label-instance-attribute"><code>instance-attribute</code></small>
+  </span>
+
+<a href="#nplinker.genomics.abc.BGCLoaderBase.data_dir" class="headerlink" title="Permanent link">&para;</a></h4>
+<div class="language-python doc-signature highlight"><pre><span></span><code><a id="__codelineno-0-1" name="__codelineno-0-1" href="#__codelineno-0-1"></a><span class="n">data_dir</span> <span class="o">=</span> <span class="n"><a class="autorefs autorefs-internal" title="nplinker.genomics.abc.BGCLoaderBase.data_dir" href="#nplinker.genomics.abc.BGCLoaderBase.data_dir">data_dir</a></span>
+</code></pre></div>
+
+  <div class="doc doc-contents ">
+  </div>
+
+</div>
+
 
 
 
@@ -1584,19 +1624,19 @@ <h4 id="nplinker.genomics.abc.BGCLoaderBase.get_files" class="doc doc-heading">
 
           <details class="quote">
             <summary>Source code in <code>src/nplinker/genomics/abc.py</code></summary>
-            <div class="language-python highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal"><a href="#__codelineno-0-18">18</a></span>
-<span class="normal"><a href="#__codelineno-0-19">19</a></span>
-<span class="normal"><a href="#__codelineno-0-20">20</a></span>
+            <div class="language-python highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal"><a href="#__codelineno-0-20">20</a></span>
 <span class="normal"><a href="#__codelineno-0-21">21</a></span>
 <span class="normal"><a href="#__codelineno-0-22">22</a></span>
 <span class="normal"><a href="#__codelineno-0-23">23</a></span>
-<span class="normal"><a href="#__codelineno-0-24">24</a></span></pre></div></td><td class="code"><div><pre><span></span><code><a id="__codelineno-0-18" name="__codelineno-0-18"></a><span class="nd">@abstractmethod</span>
-<a id="__codelineno-0-19" name="__codelineno-0-19"></a><span class="k">def</span> <span class="nf">get_files</span><span class="p">(</span><span class="bp">self</span><span class="p">)</span> <span class="o">-&gt;</span> <span class="nb">dict</span><span class="p">[</span><span class="nb">str</span><span class="p">,</span> <span class="nb">str</span><span class="p">]:</span>
-<a id="__codelineno-0-20" name="__codelineno-0-20"></a><span class="w">    </span><span class="sd">&quot;&quot;&quot;Get path to BGC files.</span>
-<a id="__codelineno-0-21" name="__codelineno-0-21"></a>
-<a id="__codelineno-0-22" name="__codelineno-0-22"></a><span class="sd">    Returns:</span>
-<a id="__codelineno-0-23" name="__codelineno-0-23"></a><span class="sd">        The key is BGC name and value is path to BGC file</span>
-<a id="__codelineno-0-24" name="__codelineno-0-24"></a><span class="sd">    &quot;&quot;&quot;</span>
+<span class="normal"><a href="#__codelineno-0-24">24</a></span>
+<span class="normal"><a href="#__codelineno-0-25">25</a></span>
+<span class="normal"><a href="#__codelineno-0-26">26</a></span></pre></div></td><td class="code"><div><pre><span></span><code><a id="__codelineno-0-20" name="__codelineno-0-20"></a><span class="nd">@abstractmethod</span>
+<a id="__codelineno-0-21" name="__codelineno-0-21"></a><span class="k">def</span> <span class="nf">get_files</span><span class="p">(</span><span class="bp">self</span><span class="p">)</span> <span class="o">-&gt;</span> <span class="nb">dict</span><span class="p">[</span><span class="nb">str</span><span class="p">,</span> <span class="nb">str</span><span class="p">]:</span>
+<a id="__codelineno-0-22" name="__codelineno-0-22"></a><span class="w">    </span><span class="sd">&quot;&quot;&quot;Get path to BGC files.</span>
+<a id="__codelineno-0-23" name="__codelineno-0-23"></a>
+<a id="__codelineno-0-24" name="__codelineno-0-24"></a><span class="sd">    Returns:</span>
+<a id="__codelineno-0-25" name="__codelineno-0-25"></a><span class="sd">        The key is BGC name and value is path to BGC file</span>
+<a id="__codelineno-0-26" name="__codelineno-0-26"></a><span class="sd">    &quot;&quot;&quot;</span>
 </code></pre></div></td></tr></table></div>
           </details>
   </div>
@@ -1650,19 +1690,19 @@ <h4 id="nplinker.genomics.abc.BGCLoaderBase.get_bgcs" class="doc doc-heading">
 
           <details class="quote">
             <summary>Source code in <code>src/nplinker/genomics/abc.py</code></summary>
-            <div class="language-python highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal"><a href="#__codelineno-0-26">26</a></span>
-<span class="normal"><a href="#__codelineno-0-27">27</a></span>
-<span class="normal"><a href="#__codelineno-0-28">28</a></span>
+            <div class="language-python highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal"><a href="#__codelineno-0-28">28</a></span>
 <span class="normal"><a href="#__codelineno-0-29">29</a></span>
 <span class="normal"><a href="#__codelineno-0-30">30</a></span>
 <span class="normal"><a href="#__codelineno-0-31">31</a></span>
-<span class="normal"><a href="#__codelineno-0-32">32</a></span></pre></div></td><td class="code"><div><pre><span></span><code><a id="__codelineno-0-26" name="__codelineno-0-26"></a><span class="nd">@abstractmethod</span>
-<a id="__codelineno-0-27" name="__codelineno-0-27"></a><span class="k">def</span> <span class="nf">get_bgcs</span><span class="p">(</span><span class="bp">self</span><span class="p">)</span> <span class="o">-&gt;</span> <span class="n">Sequence</span><span class="p">[</span><span class="n">BGC</span><span class="p">]:</span>
-<a id="__codelineno-0-28" name="__codelineno-0-28"></a><span class="w">    </span><span class="sd">&quot;&quot;&quot;Get BGC objects.</span>
-<a id="__codelineno-0-29" name="__codelineno-0-29"></a>
-<a id="__codelineno-0-30" name="__codelineno-0-30"></a><span class="sd">    Returns:</span>
-<a id="__codelineno-0-31" name="__codelineno-0-31"></a><span class="sd">        A list of BGC objects</span>
-<a id="__codelineno-0-32" name="__codelineno-0-32"></a><span class="sd">    &quot;&quot;&quot;</span>
+<span class="normal"><a href="#__codelineno-0-32">32</a></span>
+<span class="normal"><a href="#__codelineno-0-33">33</a></span>
+<span class="normal"><a href="#__codelineno-0-34">34</a></span></pre></div></td><td class="code"><div><pre><span></span><code><a id="__codelineno-0-28" name="__codelineno-0-28"></a><span class="nd">@abstractmethod</span>
+<a id="__codelineno-0-29" name="__codelineno-0-29"></a><span class="k">def</span> <span class="nf">get_bgcs</span><span class="p">(</span><span class="bp">self</span><span class="p">)</span> <span class="o">-&gt;</span> <span class="n">Sequence</span><span class="p">[</span><span class="n">BGC</span><span class="p">]:</span>
+<a id="__codelineno-0-30" name="__codelineno-0-30"></a><span class="w">    </span><span class="sd">&quot;&quot;&quot;Get BGC objects.</span>
+<a id="__codelineno-0-31" name="__codelineno-0-31"></a>
+<a id="__codelineno-0-32" name="__codelineno-0-32"></a><span class="sd">    Returns:</span>
+<a id="__codelineno-0-33" name="__codelineno-0-33"></a><span class="sd">        A list of BGC objects</span>
+<a id="__codelineno-0-34" name="__codelineno-0-34"></a><span class="sd">    &quot;&quot;&quot;</span>
 </code></pre></div></td></tr></table></div>
           </details>
   </div>
@@ -1693,6 +1733,8 @@ <h3 id="nplinker.genomics.abc.GCFLoaderBase" class="doc doc-heading">
           <p class="doc doc-class-bases">
             Bases: <code><a class="autorefs autorefs-external" title="abc.ABC" href="https://docs.python.org/3/library/abc.html#abc.ABC">ABC</a></code></p>
 
+  
+      <p>Abstract base class for GCF loader.</p>
 
 
   
@@ -1800,11 +1842,7 @@ <h4 id="nplinker.genomics.abc.GCFLoaderBase.get_gcfs" class="doc doc-heading">
 
           <details class="quote">
             <summary>Source code in <code>src/nplinker/genomics/abc.py</code></summary>
-            <div class="language-python highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal"><a href="#__codelineno-0-36">36</a></span>
-<span class="normal"><a href="#__codelineno-0-37">37</a></span>
-<span class="normal"><a href="#__codelineno-0-38">38</a></span>
-<span class="normal"><a href="#__codelineno-0-39">39</a></span>
-<span class="normal"><a href="#__codelineno-0-40">40</a></span>
+            <div class="language-python highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal"><a href="#__codelineno-0-40">40</a></span>
 <span class="normal"><a href="#__codelineno-0-41">41</a></span>
 <span class="normal"><a href="#__codelineno-0-42">42</a></span>
 <span class="normal"><a href="#__codelineno-0-43">43</a></span>
@@ -1812,19 +1850,23 @@ <h4 id="nplinker.genomics.abc.GCFLoaderBase.get_gcfs" class="doc doc-heading">
 <span class="normal"><a href="#__codelineno-0-45">45</a></span>
 <span class="normal"><a href="#__codelineno-0-46">46</a></span>
 <span class="normal"><a href="#__codelineno-0-47">47</a></span>
-<span class="normal"><a href="#__codelineno-0-48">48</a></span></pre></div></td><td class="code"><div><pre><span></span><code><a id="__codelineno-0-36" name="__codelineno-0-36"></a><span class="nd">@abstractmethod</span>
-<a id="__codelineno-0-37" name="__codelineno-0-37"></a><span class="k">def</span> <span class="nf">get_gcfs</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">keep_mibig_only</span><span class="p">:</span> <span class="nb">bool</span><span class="p">,</span> <span class="n">keep_singleton</span><span class="p">:</span> <span class="nb">bool</span><span class="p">)</span> <span class="o">-&gt;</span> <span class="n">Sequence</span><span class="p">[</span><span class="n">GCF</span><span class="p">]:</span>
-<a id="__codelineno-0-38" name="__codelineno-0-38"></a><span class="w">    </span><span class="sd">&quot;&quot;&quot;Get GCF objects.</span>
-<a id="__codelineno-0-39" name="__codelineno-0-39"></a>
-<a id="__codelineno-0-40" name="__codelineno-0-40"></a><span class="sd">    Args:</span>
-<a id="__codelineno-0-41" name="__codelineno-0-41"></a><span class="sd">        keep_mibig_only: True to keep GCFs that contain only MIBiG</span>
-<a id="__codelineno-0-42" name="__codelineno-0-42"></a><span class="sd">            BGCs.</span>
-<a id="__codelineno-0-43" name="__codelineno-0-43"></a><span class="sd">        keep_singleton: True to keep singleton GCFs. A singleton GCF</span>
-<a id="__codelineno-0-44" name="__codelineno-0-44"></a><span class="sd">            is a GCF that contains only one BGC.</span>
-<a id="__codelineno-0-45" name="__codelineno-0-45"></a>
-<a id="__codelineno-0-46" name="__codelineno-0-46"></a><span class="sd">    Returns:</span>
-<a id="__codelineno-0-47" name="__codelineno-0-47"></a><span class="sd">        A list of GCF objects</span>
-<a id="__codelineno-0-48" name="__codelineno-0-48"></a><span class="sd">    &quot;&quot;&quot;</span>
+<span class="normal"><a href="#__codelineno-0-48">48</a></span>
+<span class="normal"><a href="#__codelineno-0-49">49</a></span>
+<span class="normal"><a href="#__codelineno-0-50">50</a></span>
+<span class="normal"><a href="#__codelineno-0-51">51</a></span>
+<span class="normal"><a href="#__codelineno-0-52">52</a></span></pre></div></td><td class="code"><div><pre><span></span><code><a id="__codelineno-0-40" name="__codelineno-0-40"></a><span class="nd">@abstractmethod</span>
+<a id="__codelineno-0-41" name="__codelineno-0-41"></a><span class="k">def</span> <span class="nf">get_gcfs</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">keep_mibig_only</span><span class="p">:</span> <span class="nb">bool</span><span class="p">,</span> <span class="n">keep_singleton</span><span class="p">:</span> <span class="nb">bool</span><span class="p">)</span> <span class="o">-&gt;</span> <span class="n">Sequence</span><span class="p">[</span><span class="n">GCF</span><span class="p">]:</span>
+<a id="__codelineno-0-42" name="__codelineno-0-42"></a><span class="w">    </span><span class="sd">&quot;&quot;&quot;Get GCF objects.</span>
+<a id="__codelineno-0-43" name="__codelineno-0-43"></a>
+<a id="__codelineno-0-44" name="__codelineno-0-44"></a><span class="sd">    Args:</span>
+<a id="__codelineno-0-45" name="__codelineno-0-45"></a><span class="sd">        keep_mibig_only: True to keep GCFs that contain only MIBiG</span>
+<a id="__codelineno-0-46" name="__codelineno-0-46"></a><span class="sd">            BGCs.</span>
+<a id="__codelineno-0-47" name="__codelineno-0-47"></a><span class="sd">        keep_singleton: True to keep singleton GCFs. A singleton GCF</span>
+<a id="__codelineno-0-48" name="__codelineno-0-48"></a><span class="sd">            is a GCF that contains only one BGC.</span>
+<a id="__codelineno-0-49" name="__codelineno-0-49"></a>
+<a id="__codelineno-0-50" name="__codelineno-0-50"></a><span class="sd">    Returns:</span>
+<a id="__codelineno-0-51" name="__codelineno-0-51"></a><span class="sd">        A list of GCF objects</span>
+<a id="__codelineno-0-52" name="__codelineno-0-52"></a><span class="sd">    &quot;&quot;&quot;</span>
 </code></pre></div></td></tr></table></div>
           </details>
   </div>
diff --git a/dev/api/genomics_utils/index.html b/dev/api/genomics_utils/index.html
index 95ee7030..a6e2334b 100644
--- a/dev/api/genomics_utils/index.html
+++ b/dev/api/genomics_utils/index.html
@@ -949,6 +949,15 @@
     <nav class="md-nav" aria-label=" utils">
       <ul class="md-nav__list">
         
+          <li class="md-nav__item">
+  <a href="#nplinker.genomics.utils.logger" class="md-nav__link">
+    <span class="md-ellipsis">
+      <code class="doc-symbol doc-symbol-toc doc-symbol-attribute"></code>&nbsp;logger
+    </span>
+  </a>
+  
+</li>
+        
           <li class="md-nav__item">
   <a href="#nplinker.genomics.utils.generate_mappings_genome_id_bgc_id" class="md-nav__link">
     <span class="md-ellipsis">
@@ -1365,6 +1374,15 @@
     <nav class="md-nav" aria-label=" utils">
       <ul class="md-nav__list">
         
+          <li class="md-nav__item">
+  <a href="#nplinker.genomics.utils.logger" class="md-nav__link">
+    <span class="md-ellipsis">
+      <code class="doc-symbol doc-symbol-toc doc-symbol-attribute"></code>&nbsp;logger
+    </span>
+  </a>
+  
+</li>
+        
           <li class="md-nav__item">
   <a href="#nplinker.genomics.utils.generate_mappings_genome_id_bgc_id" class="md-nav__link">
     <span class="md-ellipsis">
@@ -1484,6 +1502,27 @@ <h2 id="nplinker.genomics.utils" class="doc doc-heading">
 
 
 
+<div class="doc doc-object doc-attribute">
+
+
+
+<h3 id="nplinker.genomics.utils.logger" class="doc doc-heading">
+<code class="doc-symbol doc-symbol-heading doc-symbol-attribute"></code>          <span class="doc doc-object-name doc-attribute-name">logger</span>
+
+  
+  <span class="doc doc-labels">
+      <small class="doc doc-label doc-label-module-attribute"><code>module-attribute</code></small>
+  </span>
+
+<a href="#nplinker.genomics.utils.logger" class="headerlink" title="Permanent link">&para;</a></h3>
+<div class="language-python doc-signature highlight"><pre><span></span><code><a id="__codelineno-0-1" name="__codelineno-0-1" href="#__codelineno-0-1"></a><span class="n">logger</span> <span class="o">=</span> <span class="n"><span title="nplinker.logconfig.LogConfig.getLogger">getLogger</span></span><span class="p">(</span><span class="n"><a class="autorefs autorefs-external" href="https://docs.python.org/3/reference/import.html#name__">__name__</a></span><span class="p">)</span>
+</code></pre></div>
+
+  <div class="doc doc-contents ">
+  </div>
+
+</div>
+
 
 
 
@@ -1634,8 +1673,8 @@ <h3 id="nplinker.genomics.utils.generate_mappings_genome_id_bgc_id" class="doc d
 <a id="__codelineno-0-52" name="__codelineno-0-52"></a>
 <a id="__codelineno-0-53" name="__codelineno-0-53"></a>    <span class="c1"># sort mappings by genome_id and construct json data</span>
 <a id="__codelineno-0-54" name="__codelineno-0-54"></a>    <span class="n">genome_bgc_mappings</span> <span class="o">=</span> <span class="nb">dict</span><span class="p">(</span><span class="nb">sorted</span><span class="p">(</span><span class="n">genome_bgc_mappings</span><span class="o">.</span><span class="n">items</span><span class="p">()))</span>
-<a id="__codelineno-0-55" name="__codelineno-0-55"></a>    <span class="n">json_data</span> <span class="o">=</span> <span class="p">[{</span><span class="s2">&quot;genome_ID&quot;</span><span class="p">:</span> <span class="n">k</span><span class="p">,</span> <span class="s2">&quot;BGC_ID&quot;</span><span class="p">:</span> <span class="n">v</span><span class="p">}</span> <span class="k">for</span> <span class="n">k</span><span class="p">,</span> <span class="n">v</span> <span class="ow">in</span> <span class="n">genome_bgc_mappings</span><span class="o">.</span><span class="n">items</span><span class="p">()]</span>
-<a id="__codelineno-0-56" name="__codelineno-0-56"></a>    <span class="n">json_data</span> <span class="o">=</span> <span class="p">{</span><span class="s2">&quot;mappings&quot;</span><span class="p">:</span> <span class="n">json_data</span><span class="p">,</span> <span class="s2">&quot;version&quot;</span><span class="p">:</span> <span class="s2">&quot;1.0&quot;</span><span class="p">}</span>
+<a id="__codelineno-0-55" name="__codelineno-0-55"></a>    <span class="n">json_data_mappings</span> <span class="o">=</span> <span class="p">[{</span><span class="s2">&quot;genome_ID&quot;</span><span class="p">:</span> <span class="n">k</span><span class="p">,</span> <span class="s2">&quot;BGC_ID&quot;</span><span class="p">:</span> <span class="n">v</span><span class="p">}</span> <span class="k">for</span> <span class="n">k</span><span class="p">,</span> <span class="n">v</span> <span class="ow">in</span> <span class="n">genome_bgc_mappings</span><span class="o">.</span><span class="n">items</span><span class="p">()]</span>
+<a id="__codelineno-0-56" name="__codelineno-0-56"></a>    <span class="n">json_data</span> <span class="o">=</span> <span class="p">{</span><span class="s2">&quot;mappings&quot;</span><span class="p">:</span> <span class="n">json_data_mappings</span><span class="p">,</span> <span class="s2">&quot;version&quot;</span><span class="p">:</span> <span class="s2">&quot;1.0&quot;</span><span class="p">}</span>
 <a id="__codelineno-0-57" name="__codelineno-0-57"></a>
 <a id="__codelineno-0-58" name="__codelineno-0-58"></a>    <span class="c1"># validate json data</span>
 <a id="__codelineno-0-59" name="__codelineno-0-59"></a>    <span class="n">validate</span><span class="p">(</span><span class="n">instance</span><span class="o">=</span><span class="n">json_data</span><span class="p">,</span> <span class="n">schema</span><span class="o">=</span><span class="n">GENOME_BGC_MAPPINGS_SCHEMA</span><span class="p">)</span>
@@ -1732,10 +1771,12 @@ <h3 id="nplinker.genomics.utils.add_strain_to_bgc" class="doc doc-heading">
           </td>
           <td>
             <div class="doc-md-description">
-              <p>A tuple of two lists of BGC objects. The
-first list contains BGC objects that are updated with Strain object;
-the second list contains BGC objects that are not updated with
-Strain object because no Strain object is found.</p>
+              <p>A tuple of two lists of BGC objects,</p>
+<ul>
+<li>the first list contains BGC objects that are updated with Strain object;</li>
+<li>the second list contains BGC objects that are not updated with
+    Strain object because no Strain object is found.</li>
+</ul>
             </div>
           </td>
         </tr>
@@ -1809,7 +1850,8 @@ <h3 id="nplinker.genomics.utils.add_strain_to_bgc" class="doc doc-heading">
 <span class="normal"><a href="#__codelineno-0-106">106</a></span>
 <span class="normal"><a href="#__codelineno-0-107">107</a></span>
 <span class="normal"><a href="#__codelineno-0-108">108</a></span>
-<span class="normal"><a href="#__codelineno-0-109">109</a></span></pre></div></td><td class="code"><div><pre><span></span><code><a id="__codelineno-0-68" name="__codelineno-0-68"></a><span class="k">def</span> <span class="nf">add_strain_to_bgc</span><span class="p">(</span><span class="n">strains</span><span class="p">:</span> <span class="n">StrainCollection</span><span class="p">,</span> <span class="n">bgcs</span><span class="p">:</span> <span class="nb">list</span><span class="p">[</span><span class="n">BGC</span><span class="p">])</span> <span class="o">-&gt;</span> <span class="nb">tuple</span><span class="p">[</span><span class="nb">list</span><span class="p">[</span><span class="n">BGC</span><span class="p">],</span> <span class="nb">list</span><span class="p">[</span><span class="n">BGC</span><span class="p">]]:</span>
+<span class="normal"><a href="#__codelineno-0-109">109</a></span>
+<span class="normal"><a href="#__codelineno-0-110">110</a></span></pre></div></td><td class="code"><div><pre><span></span><code><a id="__codelineno-0-68" name="__codelineno-0-68"></a><span class="k">def</span> <span class="nf">add_strain_to_bgc</span><span class="p">(</span><span class="n">strains</span><span class="p">:</span> <span class="n">StrainCollection</span><span class="p">,</span> <span class="n">bgcs</span><span class="p">:</span> <span class="nb">list</span><span class="p">[</span><span class="n">BGC</span><span class="p">])</span> <span class="o">-&gt;</span> <span class="nb">tuple</span><span class="p">[</span><span class="nb">list</span><span class="p">[</span><span class="n">BGC</span><span class="p">],</span> <span class="nb">list</span><span class="p">[</span><span class="n">BGC</span><span class="p">]]:</span>
 <a id="__codelineno-0-69" name="__codelineno-0-69"></a><span class="w">    </span><span class="sd">&quot;&quot;&quot;Assign a Strain object to `BGC.strain` for input BGCs.</span>
 <a id="__codelineno-0-70" name="__codelineno-0-70"></a>
 <a id="__codelineno-0-71" name="__codelineno-0-71"></a><span class="sd">    BGC id is used to find the corresponding Strain object. It&#39;s possible that</span>
@@ -1822,35 +1864,36 @@ <h3 id="nplinker.genomics.utils.add_strain_to_bgc" class="doc doc-heading">
 <a id="__codelineno-0-78" name="__codelineno-0-78"></a><span class="sd">        bgcs: A list of BGC objects.</span>
 <a id="__codelineno-0-79" name="__codelineno-0-79"></a>
 <a id="__codelineno-0-80" name="__codelineno-0-80"></a><span class="sd">    Returns:</span>
-<a id="__codelineno-0-81" name="__codelineno-0-81"></a><span class="sd">        A tuple of two lists of BGC objects. The</span>
-<a id="__codelineno-0-82" name="__codelineno-0-82"></a><span class="sd">            first list contains BGC objects that are updated with Strain object;</span>
-<a id="__codelineno-0-83" name="__codelineno-0-83"></a><span class="sd">            the second list contains BGC objects that are not updated with</span>
-<a id="__codelineno-0-84" name="__codelineno-0-84"></a><span class="sd">            Strain object because no Strain object is found.</span>
-<a id="__codelineno-0-85" name="__codelineno-0-85"></a>
-<a id="__codelineno-0-86" name="__codelineno-0-86"></a><span class="sd">    Raises:</span>
-<a id="__codelineno-0-87" name="__codelineno-0-87"></a><span class="sd">        ValueError: Multiple strain objects found for a BGC id.</span>
-<a id="__codelineno-0-88" name="__codelineno-0-88"></a><span class="sd">    &quot;&quot;&quot;</span>
-<a id="__codelineno-0-89" name="__codelineno-0-89"></a>    <span class="n">bgc_with_strain</span> <span class="o">=</span> <span class="p">[]</span>
-<a id="__codelineno-0-90" name="__codelineno-0-90"></a>    <span class="n">bgc_without_strain</span> <span class="o">=</span> <span class="p">[]</span>
-<a id="__codelineno-0-91" name="__codelineno-0-91"></a>    <span class="k">for</span> <span class="n">bgc</span> <span class="ow">in</span> <span class="n">bgcs</span><span class="p">:</span>
-<a id="__codelineno-0-92" name="__codelineno-0-92"></a>        <span class="k">try</span><span class="p">:</span>
-<a id="__codelineno-0-93" name="__codelineno-0-93"></a>            <span class="n">strain_list</span> <span class="o">=</span> <span class="n">strains</span><span class="o">.</span><span class="n">lookup</span><span class="p">(</span><span class="n">bgc</span><span class="o">.</span><span class="n">bgc_id</span><span class="p">)</span>
-<a id="__codelineno-0-94" name="__codelineno-0-94"></a>        <span class="k">except</span> <span class="ne">ValueError</span><span class="p">:</span>
-<a id="__codelineno-0-95" name="__codelineno-0-95"></a>            <span class="n">bgc_without_strain</span><span class="o">.</span><span class="n">append</span><span class="p">(</span><span class="n">bgc</span><span class="p">)</span>
-<a id="__codelineno-0-96" name="__codelineno-0-96"></a>            <span class="k">continue</span>
-<a id="__codelineno-0-97" name="__codelineno-0-97"></a>        <span class="k">if</span> <span class="nb">len</span><span class="p">(</span><span class="n">strain_list</span><span class="p">)</span> <span class="o">&gt;</span> <span class="mi">1</span><span class="p">:</span>
-<a id="__codelineno-0-98" name="__codelineno-0-98"></a>            <span class="k">raise</span> <span class="ne">ValueError</span><span class="p">(</span>
-<a id="__codelineno-0-99" name="__codelineno-0-99"></a>                <span class="sa">f</span><span class="s2">&quot;Multiple strain objects found for BGC id &#39;</span><span class="si">{</span><span class="n">bgc</span><span class="o">.</span><span class="n">bgc_id</span><span class="si">}</span><span class="s2">&#39;.&quot;</span>
-<a id="__codelineno-0-100" name="__codelineno-0-100"></a>                <span class="sa">f</span><span class="s2">&quot;BGC object accept only one strain.&quot;</span>
-<a id="__codelineno-0-101" name="__codelineno-0-101"></a>            <span class="p">)</span>
-<a id="__codelineno-0-102" name="__codelineno-0-102"></a>        <span class="n">bgc</span><span class="o">.</span><span class="n">strain</span> <span class="o">=</span> <span class="n">strain_list</span><span class="p">[</span><span class="mi">0</span><span class="p">]</span>
-<a id="__codelineno-0-103" name="__codelineno-0-103"></a>        <span class="n">bgc_with_strain</span><span class="o">.</span><span class="n">append</span><span class="p">(</span><span class="n">bgc</span><span class="p">)</span>
-<a id="__codelineno-0-104" name="__codelineno-0-104"></a>
-<a id="__codelineno-0-105" name="__codelineno-0-105"></a>    <span class="n">logger</span><span class="o">.</span><span class="n">info</span><span class="p">(</span>
-<a id="__codelineno-0-106" name="__codelineno-0-106"></a>        <span class="sa">f</span><span class="s2">&quot;</span><span class="si">{</span><span class="nb">len</span><span class="p">(</span><span class="n">bgc_with_strain</span><span class="p">)</span><span class="si">}</span><span class="s2"> BGC objects updated with Strain object.</span><span class="se">\n</span><span class="s2">&quot;</span>
-<a id="__codelineno-0-107" name="__codelineno-0-107"></a>        <span class="sa">f</span><span class="s2">&quot;</span><span class="si">{</span><span class="nb">len</span><span class="p">(</span><span class="n">bgc_without_strain</span><span class="p">)</span><span class="si">}</span><span class="s2"> BGC objects not updated with Strain object.&quot;</span>
-<a id="__codelineno-0-108" name="__codelineno-0-108"></a>    <span class="p">)</span>
-<a id="__codelineno-0-109" name="__codelineno-0-109"></a>    <span class="k">return</span> <span class="n">bgc_with_strain</span><span class="p">,</span> <span class="n">bgc_without_strain</span>
+<a id="__codelineno-0-81" name="__codelineno-0-81"></a><span class="sd">        A tuple of two lists of BGC objects,</span>
+<a id="__codelineno-0-82" name="__codelineno-0-82"></a>
+<a id="__codelineno-0-83" name="__codelineno-0-83"></a><span class="sd">            - the first list contains BGC objects that are updated with Strain object;</span>
+<a id="__codelineno-0-84" name="__codelineno-0-84"></a><span class="sd">            - the second list contains BGC objects that are not updated with</span>
+<a id="__codelineno-0-85" name="__codelineno-0-85"></a><span class="sd">                Strain object because no Strain object is found.</span>
+<a id="__codelineno-0-86" name="__codelineno-0-86"></a>
+<a id="__codelineno-0-87" name="__codelineno-0-87"></a><span class="sd">    Raises:</span>
+<a id="__codelineno-0-88" name="__codelineno-0-88"></a><span class="sd">        ValueError: Multiple strain objects found for a BGC id.</span>
+<a id="__codelineno-0-89" name="__codelineno-0-89"></a><span class="sd">    &quot;&quot;&quot;</span>
+<a id="__codelineno-0-90" name="__codelineno-0-90"></a>    <span class="n">bgc_with_strain</span> <span class="o">=</span> <span class="p">[]</span>
+<a id="__codelineno-0-91" name="__codelineno-0-91"></a>    <span class="n">bgc_without_strain</span> <span class="o">=</span> <span class="p">[]</span>
+<a id="__codelineno-0-92" name="__codelineno-0-92"></a>    <span class="k">for</span> <span class="n">bgc</span> <span class="ow">in</span> <span class="n">bgcs</span><span class="p">:</span>
+<a id="__codelineno-0-93" name="__codelineno-0-93"></a>        <span class="k">try</span><span class="p">:</span>
+<a id="__codelineno-0-94" name="__codelineno-0-94"></a>            <span class="n">strain_list</span> <span class="o">=</span> <span class="n">strains</span><span class="o">.</span><span class="n">lookup</span><span class="p">(</span><span class="n">bgc</span><span class="o">.</span><span class="n">bgc_id</span><span class="p">)</span>
+<a id="__codelineno-0-95" name="__codelineno-0-95"></a>        <span class="k">except</span> <span class="ne">ValueError</span><span class="p">:</span>
+<a id="__codelineno-0-96" name="__codelineno-0-96"></a>            <span class="n">bgc_without_strain</span><span class="o">.</span><span class="n">append</span><span class="p">(</span><span class="n">bgc</span><span class="p">)</span>
+<a id="__codelineno-0-97" name="__codelineno-0-97"></a>            <span class="k">continue</span>
+<a id="__codelineno-0-98" name="__codelineno-0-98"></a>        <span class="k">if</span> <span class="nb">len</span><span class="p">(</span><span class="n">strain_list</span><span class="p">)</span> <span class="o">&gt;</span> <span class="mi">1</span><span class="p">:</span>
+<a id="__codelineno-0-99" name="__codelineno-0-99"></a>            <span class="k">raise</span> <span class="ne">ValueError</span><span class="p">(</span>
+<a id="__codelineno-0-100" name="__codelineno-0-100"></a>                <span class="sa">f</span><span class="s2">&quot;Multiple strain objects found for BGC id &#39;</span><span class="si">{</span><span class="n">bgc</span><span class="o">.</span><span class="n">bgc_id</span><span class="si">}</span><span class="s2">&#39;.&quot;</span>
+<a id="__codelineno-0-101" name="__codelineno-0-101"></a>                <span class="sa">f</span><span class="s2">&quot;BGC object accept only one strain.&quot;</span>
+<a id="__codelineno-0-102" name="__codelineno-0-102"></a>            <span class="p">)</span>
+<a id="__codelineno-0-103" name="__codelineno-0-103"></a>        <span class="n">bgc</span><span class="o">.</span><span class="n">strain</span> <span class="o">=</span> <span class="n">strain_list</span><span class="p">[</span><span class="mi">0</span><span class="p">]</span>
+<a id="__codelineno-0-104" name="__codelineno-0-104"></a>        <span class="n">bgc_with_strain</span><span class="o">.</span><span class="n">append</span><span class="p">(</span><span class="n">bgc</span><span class="p">)</span>
+<a id="__codelineno-0-105" name="__codelineno-0-105"></a>
+<a id="__codelineno-0-106" name="__codelineno-0-106"></a>    <span class="n">logger</span><span class="o">.</span><span class="n">info</span><span class="p">(</span>
+<a id="__codelineno-0-107" name="__codelineno-0-107"></a>        <span class="sa">f</span><span class="s2">&quot;</span><span class="si">{</span><span class="nb">len</span><span class="p">(</span><span class="n">bgc_with_strain</span><span class="p">)</span><span class="si">}</span><span class="s2"> BGC objects updated with Strain object.</span><span class="se">\n</span><span class="s2">&quot;</span>
+<a id="__codelineno-0-108" name="__codelineno-0-108"></a>        <span class="sa">f</span><span class="s2">&quot;</span><span class="si">{</span><span class="nb">len</span><span class="p">(</span><span class="n">bgc_without_strain</span><span class="p">)</span><span class="si">}</span><span class="s2"> BGC objects not updated with Strain object.&quot;</span>
+<a id="__codelineno-0-109" name="__codelineno-0-109"></a>    <span class="p">)</span>
+<a id="__codelineno-0-110" name="__codelineno-0-110"></a>    <span class="k">return</span> <span class="n">bgc_with_strain</span><span class="p">,</span> <span class="n">bgc_without_strain</span>
 </code></pre></div></td></tr></table></div>
           </details>
   </div>
@@ -1941,11 +1984,14 @@ <h3 id="nplinker.genomics.utils.add_bgc_to_gcf" class="doc doc-heading">
           </td>
           <td>
             <div class="doc-md-description">
-              <p>The first list contains GCF objects that are updated with BGC objects;
-The second list contains GCF objects that are not updated with BGC objects
-because no BGC objects are found;
-The dictionary contains GCF objects as keys and a set of ids of missing
-BGC objects as values.</p>
+              <p>A tuple of two lists and a dictionary,</p>
+<ul>
+<li>The first list contains GCF objects that are updated with BGC objects;</li>
+<li>The second list contains GCF objects that are not updated with BGC objects
+    because no BGC objects are found;</li>
+<li>The dictionary contains GCF objects as keys and a set of ids of missing
+    BGC objects as values.</li>
+</ul>
             </div>
           </td>
         </tr>
@@ -1954,8 +2000,7 @@ <h3 id="nplinker.genomics.utils.add_bgc_to_gcf" class="doc doc-heading">
 
           <details class="quote">
             <summary>Source code in <code>src/nplinker/genomics/utils.py</code></summary>
-            <div class="language-python highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal"><a href="#__codelineno-0-112">112</a></span>
-<span class="normal"><a href="#__codelineno-0-113">113</a></span>
+            <div class="language-python highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal"><a href="#__codelineno-0-113">113</a></span>
 <span class="normal"><a href="#__codelineno-0-114">114</a></span>
 <span class="normal"><a href="#__codelineno-0-115">115</a></span>
 <span class="normal"><a href="#__codelineno-0-116">116</a></span>
@@ -2004,57 +2049,62 @@ <h3 id="nplinker.genomics.utils.add_bgc_to_gcf" class="doc doc-heading">
 <span class="normal"><a href="#__codelineno-0-159">159</a></span>
 <span class="normal"><a href="#__codelineno-0-160">160</a></span>
 <span class="normal"><a href="#__codelineno-0-161">161</a></span>
-<span class="normal"><a href="#__codelineno-0-162">162</a></span></pre></div></td><td class="code"><div><pre><span></span><code><a id="__codelineno-0-112" name="__codelineno-0-112"></a><span class="k">def</span> <span class="nf">add_bgc_to_gcf</span><span class="p">(</span>
-<a id="__codelineno-0-113" name="__codelineno-0-113"></a>    <span class="n">bgcs</span><span class="p">:</span> <span class="nb">list</span><span class="p">[</span><span class="n">BGC</span><span class="p">],</span> <span class="n">gcfs</span><span class="p">:</span> <span class="nb">list</span><span class="p">[</span><span class="n">GCF</span><span class="p">]</span>
-<a id="__codelineno-0-114" name="__codelineno-0-114"></a><span class="p">)</span> <span class="o">-&gt;</span> <span class="nb">tuple</span><span class="p">[</span><span class="nb">list</span><span class="p">[</span><span class="n">GCF</span><span class="p">],</span> <span class="nb">list</span><span class="p">[</span><span class="n">GCF</span><span class="p">],</span> <span class="nb">dict</span><span class="p">[</span><span class="n">GCF</span><span class="p">,</span> <span class="nb">set</span><span class="p">[</span><span class="nb">str</span><span class="p">]]]:</span>
-<a id="__codelineno-0-115" name="__codelineno-0-115"></a><span class="w">    </span><span class="sd">&quot;&quot;&quot;Add BGC objects to GCF object based on GCF&#39;s BGC ids.</span>
-<a id="__codelineno-0-116" name="__codelineno-0-116"></a>
-<a id="__codelineno-0-117" name="__codelineno-0-117"></a><span class="sd">    The attribute of `GCF.bgc_ids` contains the ids of BGC objects. These ids</span>
-<a id="__codelineno-0-118" name="__codelineno-0-118"></a><span class="sd">    are used to find BGC objects from the input `bgcs` list. The found BGC</span>
-<a id="__codelineno-0-119" name="__codelineno-0-119"></a><span class="sd">    objects are added to the `bgcs` attribute of GCF object. It is possible that</span>
-<a id="__codelineno-0-120" name="__codelineno-0-120"></a><span class="sd">    some BGC ids are not found in the input `bgcs` list, and so their BGC</span>
-<a id="__codelineno-0-121" name="__codelineno-0-121"></a><span class="sd">    objects are missing in the GCF object.</span>
-<a id="__codelineno-0-122" name="__codelineno-0-122"></a>
-<a id="__codelineno-0-123" name="__codelineno-0-123"></a><span class="sd">    This method changes the lists `bgcs` and `gcfs` in place.</span>
-<a id="__codelineno-0-124" name="__codelineno-0-124"></a>
-<a id="__codelineno-0-125" name="__codelineno-0-125"></a><span class="sd">    Args:</span>
-<a id="__codelineno-0-126" name="__codelineno-0-126"></a><span class="sd">        bgcs: A list of BGC objects.</span>
-<a id="__codelineno-0-127" name="__codelineno-0-127"></a><span class="sd">        gcfs: A list of GCF objects.</span>
-<a id="__codelineno-0-128" name="__codelineno-0-128"></a>
-<a id="__codelineno-0-129" name="__codelineno-0-129"></a><span class="sd">    Returns:</span>
-<a id="__codelineno-0-130" name="__codelineno-0-130"></a><span class="sd">        The first list contains GCF objects that are updated with BGC objects;</span>
-<a id="__codelineno-0-131" name="__codelineno-0-131"></a><span class="sd">            The second list contains GCF objects that are not updated with BGC objects</span>
-<a id="__codelineno-0-132" name="__codelineno-0-132"></a><span class="sd">            because no BGC objects are found;</span>
-<a id="__codelineno-0-133" name="__codelineno-0-133"></a><span class="sd">            The dictionary contains GCF objects as keys and a set of ids of missing</span>
-<a id="__codelineno-0-134" name="__codelineno-0-134"></a><span class="sd">            BGC objects as values.</span>
-<a id="__codelineno-0-135" name="__codelineno-0-135"></a><span class="sd">    &quot;&quot;&quot;</span>
-<a id="__codelineno-0-136" name="__codelineno-0-136"></a>    <span class="n">bgc_dict</span> <span class="o">=</span> <span class="p">{</span><span class="n">bgc</span><span class="o">.</span><span class="n">bgc_id</span><span class="p">:</span> <span class="n">bgc</span> <span class="k">for</span> <span class="n">bgc</span> <span class="ow">in</span> <span class="n">bgcs</span><span class="p">}</span>
-<a id="__codelineno-0-137" name="__codelineno-0-137"></a>    <span class="n">gcf_with_bgc</span> <span class="o">=</span> <span class="p">[]</span>
-<a id="__codelineno-0-138" name="__codelineno-0-138"></a>    <span class="n">gcf_without_bgc</span> <span class="o">=</span> <span class="p">[]</span>
-<a id="__codelineno-0-139" name="__codelineno-0-139"></a>    <span class="n">gcf_missing_bgc</span><span class="p">:</span> <span class="nb">dict</span><span class="p">[</span><span class="n">GCF</span><span class="p">,</span> <span class="nb">set</span><span class="p">[</span><span class="nb">str</span><span class="p">]]</span> <span class="o">=</span> <span class="p">{}</span>
-<a id="__codelineno-0-140" name="__codelineno-0-140"></a>    <span class="k">for</span> <span class="n">gcf</span> <span class="ow">in</span> <span class="n">gcfs</span><span class="p">:</span>
-<a id="__codelineno-0-141" name="__codelineno-0-141"></a>        <span class="k">for</span> <span class="n">bgc_id</span> <span class="ow">in</span> <span class="n">gcf</span><span class="o">.</span><span class="n">bgc_ids</span><span class="p">:</span>
-<a id="__codelineno-0-142" name="__codelineno-0-142"></a>            <span class="k">try</span><span class="p">:</span>
-<a id="__codelineno-0-143" name="__codelineno-0-143"></a>                <span class="n">bgc</span> <span class="o">=</span> <span class="n">bgc_dict</span><span class="p">[</span><span class="n">bgc_id</span><span class="p">]</span>
-<a id="__codelineno-0-144" name="__codelineno-0-144"></a>            <span class="k">except</span> <span class="ne">KeyError</span><span class="p">:</span>
-<a id="__codelineno-0-145" name="__codelineno-0-145"></a>                <span class="k">if</span> <span class="n">gcf</span> <span class="ow">not</span> <span class="ow">in</span> <span class="n">gcf_missing_bgc</span><span class="p">:</span>
-<a id="__codelineno-0-146" name="__codelineno-0-146"></a>                    <span class="n">gcf_missing_bgc</span><span class="p">[</span><span class="n">gcf</span><span class="p">]</span> <span class="o">=</span> <span class="p">{</span><span class="n">bgc_id</span><span class="p">}</span>
-<a id="__codelineno-0-147" name="__codelineno-0-147"></a>                <span class="k">else</span><span class="p">:</span>
-<a id="__codelineno-0-148" name="__codelineno-0-148"></a>                    <span class="n">gcf_missing_bgc</span><span class="p">[</span><span class="n">gcf</span><span class="p">]</span><span class="o">.</span><span class="n">add</span><span class="p">(</span><span class="n">bgc_id</span><span class="p">)</span>
-<a id="__codelineno-0-149" name="__codelineno-0-149"></a>                <span class="k">continue</span>
-<a id="__codelineno-0-150" name="__codelineno-0-150"></a>            <span class="n">gcf</span><span class="o">.</span><span class="n">add_bgc</span><span class="p">(</span><span class="n">bgc</span><span class="p">)</span>
-<a id="__codelineno-0-151" name="__codelineno-0-151"></a>
-<a id="__codelineno-0-152" name="__codelineno-0-152"></a>        <span class="k">if</span> <span class="n">gcf</span><span class="o">.</span><span class="n">bgcs</span><span class="p">:</span>
-<a id="__codelineno-0-153" name="__codelineno-0-153"></a>            <span class="n">gcf_with_bgc</span><span class="o">.</span><span class="n">append</span><span class="p">(</span><span class="n">gcf</span><span class="p">)</span>
-<a id="__codelineno-0-154" name="__codelineno-0-154"></a>        <span class="k">else</span><span class="p">:</span>
-<a id="__codelineno-0-155" name="__codelineno-0-155"></a>            <span class="n">gcf_without_bgc</span><span class="o">.</span><span class="n">append</span><span class="p">(</span><span class="n">gcf</span><span class="p">)</span>
-<a id="__codelineno-0-156" name="__codelineno-0-156"></a>
-<a id="__codelineno-0-157" name="__codelineno-0-157"></a>    <span class="n">logger</span><span class="o">.</span><span class="n">info</span><span class="p">(</span>
-<a id="__codelineno-0-158" name="__codelineno-0-158"></a>        <span class="sa">f</span><span class="s2">&quot;</span><span class="si">{</span><span class="nb">len</span><span class="p">(</span><span class="n">gcf_with_bgc</span><span class="p">)</span><span class="si">}</span><span class="s2"> GCF objects updated with BGC objects.</span><span class="se">\n</span><span class="s2">&quot;</span>
-<a id="__codelineno-0-159" name="__codelineno-0-159"></a>        <span class="sa">f</span><span class="s2">&quot;</span><span class="si">{</span><span class="nb">len</span><span class="p">(</span><span class="n">gcf_without_bgc</span><span class="p">)</span><span class="si">}</span><span class="s2"> GCF objects not updated with BGC objects.</span><span class="se">\n</span><span class="s2">&quot;</span>
-<a id="__codelineno-0-160" name="__codelineno-0-160"></a>        <span class="sa">f</span><span class="s2">&quot;</span><span class="si">{</span><span class="nb">len</span><span class="p">(</span><span class="n">gcf_missing_bgc</span><span class="p">)</span><span class="si">}</span><span class="s2"> GCF objects have missing BGC objects.&quot;</span>
-<a id="__codelineno-0-161" name="__codelineno-0-161"></a>    <span class="p">)</span>
-<a id="__codelineno-0-162" name="__codelineno-0-162"></a>    <span class="k">return</span> <span class="n">gcf_with_bgc</span><span class="p">,</span> <span class="n">gcf_without_bgc</span><span class="p">,</span> <span class="n">gcf_missing_bgc</span>
+<span class="normal"><a href="#__codelineno-0-162">162</a></span>
+<span class="normal"><a href="#__codelineno-0-163">163</a></span>
+<span class="normal"><a href="#__codelineno-0-164">164</a></span>
+<span class="normal"><a href="#__codelineno-0-165">165</a></span></pre></div></td><td class="code"><div><pre><span></span><code><a id="__codelineno-0-113" name="__codelineno-0-113"></a><span class="k">def</span> <span class="nf">add_bgc_to_gcf</span><span class="p">(</span>
+<a id="__codelineno-0-114" name="__codelineno-0-114"></a>    <span class="n">bgcs</span><span class="p">:</span> <span class="nb">list</span><span class="p">[</span><span class="n">BGC</span><span class="p">],</span> <span class="n">gcfs</span><span class="p">:</span> <span class="nb">list</span><span class="p">[</span><span class="n">GCF</span><span class="p">]</span>
+<a id="__codelineno-0-115" name="__codelineno-0-115"></a><span class="p">)</span> <span class="o">-&gt;</span> <span class="nb">tuple</span><span class="p">[</span><span class="nb">list</span><span class="p">[</span><span class="n">GCF</span><span class="p">],</span> <span class="nb">list</span><span class="p">[</span><span class="n">GCF</span><span class="p">],</span> <span class="nb">dict</span><span class="p">[</span><span class="n">GCF</span><span class="p">,</span> <span class="nb">set</span><span class="p">[</span><span class="nb">str</span><span class="p">]]]:</span>
+<a id="__codelineno-0-116" name="__codelineno-0-116"></a><span class="w">    </span><span class="sd">&quot;&quot;&quot;Add BGC objects to GCF object based on GCF&#39;s BGC ids.</span>
+<a id="__codelineno-0-117" name="__codelineno-0-117"></a>
+<a id="__codelineno-0-118" name="__codelineno-0-118"></a><span class="sd">    The attribute of `GCF.bgc_ids` contains the ids of BGC objects. These ids</span>
+<a id="__codelineno-0-119" name="__codelineno-0-119"></a><span class="sd">    are used to find BGC objects from the input `bgcs` list. The found BGC</span>
+<a id="__codelineno-0-120" name="__codelineno-0-120"></a><span class="sd">    objects are added to the `bgcs` attribute of GCF object. It is possible that</span>
+<a id="__codelineno-0-121" name="__codelineno-0-121"></a><span class="sd">    some BGC ids are not found in the input `bgcs` list, and so their BGC</span>
+<a id="__codelineno-0-122" name="__codelineno-0-122"></a><span class="sd">    objects are missing in the GCF object.</span>
+<a id="__codelineno-0-123" name="__codelineno-0-123"></a>
+<a id="__codelineno-0-124" name="__codelineno-0-124"></a><span class="sd">    This method changes the lists `bgcs` and `gcfs` in place.</span>
+<a id="__codelineno-0-125" name="__codelineno-0-125"></a>
+<a id="__codelineno-0-126" name="__codelineno-0-126"></a><span class="sd">    Args:</span>
+<a id="__codelineno-0-127" name="__codelineno-0-127"></a><span class="sd">        bgcs: A list of BGC objects.</span>
+<a id="__codelineno-0-128" name="__codelineno-0-128"></a><span class="sd">        gcfs: A list of GCF objects.</span>
+<a id="__codelineno-0-129" name="__codelineno-0-129"></a>
+<a id="__codelineno-0-130" name="__codelineno-0-130"></a><span class="sd">    Returns:</span>
+<a id="__codelineno-0-131" name="__codelineno-0-131"></a><span class="sd">        A tuple of two lists and a dictionary,</span>
+<a id="__codelineno-0-132" name="__codelineno-0-132"></a>
+<a id="__codelineno-0-133" name="__codelineno-0-133"></a><span class="sd">            - The first list contains GCF objects that are updated with BGC objects;</span>
+<a id="__codelineno-0-134" name="__codelineno-0-134"></a><span class="sd">            - The second list contains GCF objects that are not updated with BGC objects</span>
+<a id="__codelineno-0-135" name="__codelineno-0-135"></a><span class="sd">                because no BGC objects are found;</span>
+<a id="__codelineno-0-136" name="__codelineno-0-136"></a><span class="sd">            - The dictionary contains GCF objects as keys and a set of ids of missing</span>
+<a id="__codelineno-0-137" name="__codelineno-0-137"></a><span class="sd">                BGC objects as values.</span>
+<a id="__codelineno-0-138" name="__codelineno-0-138"></a><span class="sd">    &quot;&quot;&quot;</span>
+<a id="__codelineno-0-139" name="__codelineno-0-139"></a>    <span class="n">bgc_dict</span> <span class="o">=</span> <span class="p">{</span><span class="n">bgc</span><span class="o">.</span><span class="n">bgc_id</span><span class="p">:</span> <span class="n">bgc</span> <span class="k">for</span> <span class="n">bgc</span> <span class="ow">in</span> <span class="n">bgcs</span><span class="p">}</span>
+<a id="__codelineno-0-140" name="__codelineno-0-140"></a>    <span class="n">gcf_with_bgc</span> <span class="o">=</span> <span class="p">[]</span>
+<a id="__codelineno-0-141" name="__codelineno-0-141"></a>    <span class="n">gcf_without_bgc</span> <span class="o">=</span> <span class="p">[]</span>
+<a id="__codelineno-0-142" name="__codelineno-0-142"></a>    <span class="n">gcf_missing_bgc</span><span class="p">:</span> <span class="nb">dict</span><span class="p">[</span><span class="n">GCF</span><span class="p">,</span> <span class="nb">set</span><span class="p">[</span><span class="nb">str</span><span class="p">]]</span> <span class="o">=</span> <span class="p">{}</span>
+<a id="__codelineno-0-143" name="__codelineno-0-143"></a>    <span class="k">for</span> <span class="n">gcf</span> <span class="ow">in</span> <span class="n">gcfs</span><span class="p">:</span>
+<a id="__codelineno-0-144" name="__codelineno-0-144"></a>        <span class="k">for</span> <span class="n">bgc_id</span> <span class="ow">in</span> <span class="n">gcf</span><span class="o">.</span><span class="n">bgc_ids</span><span class="p">:</span>
+<a id="__codelineno-0-145" name="__codelineno-0-145"></a>            <span class="k">try</span><span class="p">:</span>
+<a id="__codelineno-0-146" name="__codelineno-0-146"></a>                <span class="n">bgc</span> <span class="o">=</span> <span class="n">bgc_dict</span><span class="p">[</span><span class="n">bgc_id</span><span class="p">]</span>
+<a id="__codelineno-0-147" name="__codelineno-0-147"></a>            <span class="k">except</span> <span class="ne">KeyError</span><span class="p">:</span>
+<a id="__codelineno-0-148" name="__codelineno-0-148"></a>                <span class="k">if</span> <span class="n">gcf</span> <span class="ow">not</span> <span class="ow">in</span> <span class="n">gcf_missing_bgc</span><span class="p">:</span>
+<a id="__codelineno-0-149" name="__codelineno-0-149"></a>                    <span class="n">gcf_missing_bgc</span><span class="p">[</span><span class="n">gcf</span><span class="p">]</span> <span class="o">=</span> <span class="p">{</span><span class="n">bgc_id</span><span class="p">}</span>
+<a id="__codelineno-0-150" name="__codelineno-0-150"></a>                <span class="k">else</span><span class="p">:</span>
+<a id="__codelineno-0-151" name="__codelineno-0-151"></a>                    <span class="n">gcf_missing_bgc</span><span class="p">[</span><span class="n">gcf</span><span class="p">]</span><span class="o">.</span><span class="n">add</span><span class="p">(</span><span class="n">bgc_id</span><span class="p">)</span>
+<a id="__codelineno-0-152" name="__codelineno-0-152"></a>                <span class="k">continue</span>
+<a id="__codelineno-0-153" name="__codelineno-0-153"></a>            <span class="n">gcf</span><span class="o">.</span><span class="n">add_bgc</span><span class="p">(</span><span class="n">bgc</span><span class="p">)</span>
+<a id="__codelineno-0-154" name="__codelineno-0-154"></a>
+<a id="__codelineno-0-155" name="__codelineno-0-155"></a>        <span class="k">if</span> <span class="n">gcf</span><span class="o">.</span><span class="n">bgcs</span><span class="p">:</span>
+<a id="__codelineno-0-156" name="__codelineno-0-156"></a>            <span class="n">gcf_with_bgc</span><span class="o">.</span><span class="n">append</span><span class="p">(</span><span class="n">gcf</span><span class="p">)</span>
+<a id="__codelineno-0-157" name="__codelineno-0-157"></a>        <span class="k">else</span><span class="p">:</span>
+<a id="__codelineno-0-158" name="__codelineno-0-158"></a>            <span class="n">gcf_without_bgc</span><span class="o">.</span><span class="n">append</span><span class="p">(</span><span class="n">gcf</span><span class="p">)</span>
+<a id="__codelineno-0-159" name="__codelineno-0-159"></a>
+<a id="__codelineno-0-160" name="__codelineno-0-160"></a>    <span class="n">logger</span><span class="o">.</span><span class="n">info</span><span class="p">(</span>
+<a id="__codelineno-0-161" name="__codelineno-0-161"></a>        <span class="sa">f</span><span class="s2">&quot;</span><span class="si">{</span><span class="nb">len</span><span class="p">(</span><span class="n">gcf_with_bgc</span><span class="p">)</span><span class="si">}</span><span class="s2"> GCF objects updated with BGC objects.</span><span class="se">\n</span><span class="s2">&quot;</span>
+<a id="__codelineno-0-162" name="__codelineno-0-162"></a>        <span class="sa">f</span><span class="s2">&quot;</span><span class="si">{</span><span class="nb">len</span><span class="p">(</span><span class="n">gcf_without_bgc</span><span class="p">)</span><span class="si">}</span><span class="s2"> GCF objects not updated with BGC objects.</span><span class="se">\n</span><span class="s2">&quot;</span>
+<a id="__codelineno-0-163" name="__codelineno-0-163"></a>        <span class="sa">f</span><span class="s2">&quot;</span><span class="si">{</span><span class="nb">len</span><span class="p">(</span><span class="n">gcf_missing_bgc</span><span class="p">)</span><span class="si">}</span><span class="s2"> GCF objects have missing BGC objects.&quot;</span>
+<a id="__codelineno-0-164" name="__codelineno-0-164"></a>    <span class="p">)</span>
+<a id="__codelineno-0-165" name="__codelineno-0-165"></a>    <span class="k">return</span> <span class="n">gcf_with_bgc</span><span class="p">,</span> <span class="n">gcf_without_bgc</span><span class="p">,</span> <span class="n">gcf_missing_bgc</span>
 </code></pre></div></td></tr></table></div>
           </details>
   </div>
@@ -2125,9 +2175,12 @@ <h3 id="nplinker.genomics.utils.get_mibig_from_gcf" class="doc doc-heading">
           </td>
           <td>
             <div class="doc-md-description">
-              <p>tuple[list[BGC], StrainCollection]: The first is a list of MIBiG BGC
-objects used in the GCFs; the second is a StrainCollection object
-that contains all Strain objects used in the GCFs.</p>
+              <p>A tuple of two objects,</p>
+<ul>
+<li>the first is a list of MIBiG BGC objects used in the GCFs;</li>
+<li>the second is a StrainCollection object that contains all Strain objects used in the
+GCFs.</li>
+</ul>
             </div>
           </td>
         </tr>
@@ -2136,10 +2189,7 @@ <h3 id="nplinker.genomics.utils.get_mibig_from_gcf" class="doc doc-heading">
 
           <details class="quote">
             <summary>Source code in <code>src/nplinker/genomics/utils.py</code></summary>
-            <div class="language-python highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal"><a href="#__codelineno-0-165">165</a></span>
-<span class="normal"><a href="#__codelineno-0-166">166</a></span>
-<span class="normal"><a href="#__codelineno-0-167">167</a></span>
-<span class="normal"><a href="#__codelineno-0-168">168</a></span>
+            <div class="language-python highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal"><a href="#__codelineno-0-168">168</a></span>
 <span class="normal"><a href="#__codelineno-0-169">169</a></span>
 <span class="normal"><a href="#__codelineno-0-170">170</a></span>
 <span class="normal"><a href="#__codelineno-0-171">171</a></span>
@@ -2155,26 +2205,33 @@ <h3 id="nplinker.genomics.utils.get_mibig_from_gcf" class="doc doc-heading">
 <span class="normal"><a href="#__codelineno-0-181">181</a></span>
 <span class="normal"><a href="#__codelineno-0-182">182</a></span>
 <span class="normal"><a href="#__codelineno-0-183">183</a></span>
-<span class="normal"><a href="#__codelineno-0-184">184</a></span></pre></div></td><td class="code"><div><pre><span></span><code><a id="__codelineno-0-165" name="__codelineno-0-165"></a><span class="k">def</span> <span class="nf">get_mibig_from_gcf</span><span class="p">(</span><span class="n">gcfs</span><span class="p">:</span> <span class="nb">list</span><span class="p">[</span><span class="n">GCF</span><span class="p">])</span> <span class="o">-&gt;</span> <span class="nb">tuple</span><span class="p">[</span><span class="nb">list</span><span class="p">[</span><span class="n">BGC</span><span class="p">],</span> <span class="n">StrainCollection</span><span class="p">]:</span>
-<a id="__codelineno-0-166" name="__codelineno-0-166"></a><span class="w">    </span><span class="sd">&quot;&quot;&quot;Get MIBiG BGCs and strains from GCF objects.</span>
-<a id="__codelineno-0-167" name="__codelineno-0-167"></a>
-<a id="__codelineno-0-168" name="__codelineno-0-168"></a><span class="sd">    Args:</span>
-<a id="__codelineno-0-169" name="__codelineno-0-169"></a><span class="sd">        gcfs: A list of GCF objects.</span>
+<span class="normal"><a href="#__codelineno-0-184">184</a></span>
+<span class="normal"><a href="#__codelineno-0-185">185</a></span>
+<span class="normal"><a href="#__codelineno-0-186">186</a></span>
+<span class="normal"><a href="#__codelineno-0-187">187</a></span>
+<span class="normal"><a href="#__codelineno-0-188">188</a></span>
+<span class="normal"><a href="#__codelineno-0-189">189</a></span></pre></div></td><td class="code"><div><pre><span></span><code><a id="__codelineno-0-168" name="__codelineno-0-168"></a><span class="k">def</span> <span class="nf">get_mibig_from_gcf</span><span class="p">(</span><span class="n">gcfs</span><span class="p">:</span> <span class="nb">list</span><span class="p">[</span><span class="n">GCF</span><span class="p">])</span> <span class="o">-&gt;</span> <span class="nb">tuple</span><span class="p">[</span><span class="nb">list</span><span class="p">[</span><span class="n">BGC</span><span class="p">],</span> <span class="n">StrainCollection</span><span class="p">]:</span>
+<a id="__codelineno-0-169" name="__codelineno-0-169"></a><span class="w">    </span><span class="sd">&quot;&quot;&quot;Get MIBiG BGCs and strains from GCF objects.</span>
 <a id="__codelineno-0-170" name="__codelineno-0-170"></a>
-<a id="__codelineno-0-171" name="__codelineno-0-171"></a><span class="sd">    Returns:</span>
-<a id="__codelineno-0-172" name="__codelineno-0-172"></a><span class="sd">        tuple[list[BGC], StrainCollection]: The first is a list of MIBiG BGC</span>
-<a id="__codelineno-0-173" name="__codelineno-0-173"></a><span class="sd">            objects used in the GCFs; the second is a StrainCollection object</span>
-<a id="__codelineno-0-174" name="__codelineno-0-174"></a><span class="sd">            that contains all Strain objects used in the GCFs.</span>
-<a id="__codelineno-0-175" name="__codelineno-0-175"></a><span class="sd">    &quot;&quot;&quot;</span>
-<a id="__codelineno-0-176" name="__codelineno-0-176"></a>    <span class="n">mibig_bgcs_in_use</span> <span class="o">=</span> <span class="p">[]</span>
-<a id="__codelineno-0-177" name="__codelineno-0-177"></a>    <span class="n">mibig_strains_in_use</span> <span class="o">=</span> <span class="n">StrainCollection</span><span class="p">()</span>
-<a id="__codelineno-0-178" name="__codelineno-0-178"></a>    <span class="k">for</span> <span class="n">gcf</span> <span class="ow">in</span> <span class="n">gcfs</span><span class="p">:</span>
-<a id="__codelineno-0-179" name="__codelineno-0-179"></a>        <span class="k">for</span> <span class="n">bgc</span> <span class="ow">in</span> <span class="n">gcf</span><span class="o">.</span><span class="n">bgcs</span><span class="p">:</span>
-<a id="__codelineno-0-180" name="__codelineno-0-180"></a>            <span class="k">if</span> <span class="n">bgc</span><span class="o">.</span><span class="n">is_mibig</span><span class="p">():</span>
-<a id="__codelineno-0-181" name="__codelineno-0-181"></a>                <span class="n">mibig_bgcs_in_use</span><span class="o">.</span><span class="n">append</span><span class="p">(</span><span class="n">bgc</span><span class="p">)</span>
-<a id="__codelineno-0-182" name="__codelineno-0-182"></a>                <span class="k">if</span> <span class="n">bgc</span><span class="o">.</span><span class="n">strain</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span><span class="p">:</span>
-<a id="__codelineno-0-183" name="__codelineno-0-183"></a>                    <span class="n">mibig_strains_in_use</span><span class="o">.</span><span class="n">add</span><span class="p">(</span><span class="n">bgc</span><span class="o">.</span><span class="n">strain</span><span class="p">)</span>
-<a id="__codelineno-0-184" name="__codelineno-0-184"></a>    <span class="k">return</span> <span class="n">mibig_bgcs_in_use</span><span class="p">,</span> <span class="n">mibig_strains_in_use</span>
+<a id="__codelineno-0-171" name="__codelineno-0-171"></a><span class="sd">    Args:</span>
+<a id="__codelineno-0-172" name="__codelineno-0-172"></a><span class="sd">        gcfs: A list of GCF objects.</span>
+<a id="__codelineno-0-173" name="__codelineno-0-173"></a>
+<a id="__codelineno-0-174" name="__codelineno-0-174"></a><span class="sd">    Returns:</span>
+<a id="__codelineno-0-175" name="__codelineno-0-175"></a><span class="sd">        A tuple of two objects,</span>
+<a id="__codelineno-0-176" name="__codelineno-0-176"></a>
+<a id="__codelineno-0-177" name="__codelineno-0-177"></a><span class="sd">            - the first is a list of MIBiG BGC objects used in the GCFs;</span>
+<a id="__codelineno-0-178" name="__codelineno-0-178"></a><span class="sd">            - the second is a StrainCollection object that contains all Strain objects used in the</span>
+<a id="__codelineno-0-179" name="__codelineno-0-179"></a><span class="sd">            GCFs.</span>
+<a id="__codelineno-0-180" name="__codelineno-0-180"></a><span class="sd">    &quot;&quot;&quot;</span>
+<a id="__codelineno-0-181" name="__codelineno-0-181"></a>    <span class="n">mibig_bgcs_in_use</span> <span class="o">=</span> <span class="p">[]</span>
+<a id="__codelineno-0-182" name="__codelineno-0-182"></a>    <span class="n">mibig_strains_in_use</span> <span class="o">=</span> <span class="n">StrainCollection</span><span class="p">()</span>
+<a id="__codelineno-0-183" name="__codelineno-0-183"></a>    <span class="k">for</span> <span class="n">gcf</span> <span class="ow">in</span> <span class="n">gcfs</span><span class="p">:</span>
+<a id="__codelineno-0-184" name="__codelineno-0-184"></a>        <span class="k">for</span> <span class="n">bgc</span> <span class="ow">in</span> <span class="n">gcf</span><span class="o">.</span><span class="n">bgcs</span><span class="p">:</span>
+<a id="__codelineno-0-185" name="__codelineno-0-185"></a>            <span class="k">if</span> <span class="n">bgc</span><span class="o">.</span><span class="n">is_mibig</span><span class="p">():</span>
+<a id="__codelineno-0-186" name="__codelineno-0-186"></a>                <span class="n">mibig_bgcs_in_use</span><span class="o">.</span><span class="n">append</span><span class="p">(</span><span class="n">bgc</span><span class="p">)</span>
+<a id="__codelineno-0-187" name="__codelineno-0-187"></a>                <span class="k">if</span> <span class="n">bgc</span><span class="o">.</span><span class="n">strain</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span><span class="p">:</span>
+<a id="__codelineno-0-188" name="__codelineno-0-188"></a>                    <span class="n">mibig_strains_in_use</span><span class="o">.</span><span class="n">add</span><span class="p">(</span><span class="n">bgc</span><span class="o">.</span><span class="n">strain</span><span class="p">)</span>
+<a id="__codelineno-0-189" name="__codelineno-0-189"></a>    <span class="k">return</span> <span class="n">mibig_bgcs_in_use</span><span class="p">,</span> <span class="n">mibig_strains_in_use</span>
 </code></pre></div></td></tr></table></div>
           </details>
   </div>
@@ -2261,12 +2318,7 @@ <h3 id="nplinker.genomics.utils.extract_mappings_strain_id_original_genome_id" c
 </details>
           <details class="quote">
             <summary>Source code in <code>src/nplinker/genomics/utils.py</code></summary>
-            <div class="language-python highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal"><a href="#__codelineno-0-191">191</a></span>
-<span class="normal"><a href="#__codelineno-0-192">192</a></span>
-<span class="normal"><a href="#__codelineno-0-193">193</a></span>
-<span class="normal"><a href="#__codelineno-0-194">194</a></span>
-<span class="normal"><a href="#__codelineno-0-195">195</a></span>
-<span class="normal"><a href="#__codelineno-0-196">196</a></span>
+            <div class="language-python highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal"><a href="#__codelineno-0-196">196</a></span>
 <span class="normal"><a href="#__codelineno-0-197">197</a></span>
 <span class="normal"><a href="#__codelineno-0-198">198</a></span>
 <span class="normal"><a href="#__codelineno-0-199">199</a></span>
@@ -2294,40 +2346,45 @@ <h3 id="nplinker.genomics.utils.extract_mappings_strain_id_original_genome_id" c
 <span class="normal"><a href="#__codelineno-0-221">221</a></span>
 <span class="normal"><a href="#__codelineno-0-222">222</a></span>
 <span class="normal"><a href="#__codelineno-0-223">223</a></span>
-<span class="normal"><a href="#__codelineno-0-224">224</a></span></pre></div></td><td class="code"><div><pre><span></span><code><a id="__codelineno-0-191" name="__codelineno-0-191"></a><span class="k">def</span> <span class="nf">extract_mappings_strain_id_original_genome_id</span><span class="p">(</span>
-<a id="__codelineno-0-192" name="__codelineno-0-192"></a>    <span class="n">podp_project_json_file</span><span class="p">:</span> <span class="nb">str</span> <span class="o">|</span> <span class="n">PathLike</span>
-<a id="__codelineno-0-193" name="__codelineno-0-193"></a><span class="p">)</span> <span class="o">-&gt;</span> <span class="nb">dict</span><span class="p">[</span><span class="nb">str</span><span class="p">,</span> <span class="nb">set</span><span class="p">[</span><span class="nb">str</span><span class="p">]]:</span>
-<a id="__codelineno-0-194" name="__codelineno-0-194"></a><span class="w">    </span><span class="sd">&quot;&quot;&quot;Extract mappings &quot;strain id &lt;-&gt; original genome id&quot;.</span>
-<a id="__codelineno-0-195" name="__codelineno-0-195"></a>
-<a id="__codelineno-0-196" name="__codelineno-0-196"></a><span class="sd">    Args:</span>
-<a id="__codelineno-0-197" name="__codelineno-0-197"></a><span class="sd">        podp_project_json_file: The path to the PODP project</span>
-<a id="__codelineno-0-198" name="__codelineno-0-198"></a><span class="sd">            JSON file.</span>
-<a id="__codelineno-0-199" name="__codelineno-0-199"></a>
-<a id="__codelineno-0-200" name="__codelineno-0-200"></a><span class="sd">    Returns:</span>
-<a id="__codelineno-0-201" name="__codelineno-0-201"></a><span class="sd">        Key is strain id and value is a set of original genome ids.</span>
-<a id="__codelineno-0-202" name="__codelineno-0-202"></a>
-<a id="__codelineno-0-203" name="__codelineno-0-203"></a><span class="sd">    Notes:</span>
-<a id="__codelineno-0-204" name="__codelineno-0-204"></a><span class="sd">        The `podp_project_json_file` is the project JSON file downloaded from</span>
-<a id="__codelineno-0-205" name="__codelineno-0-205"></a><span class="sd">        PODP platform. For example, for project MSV000079284, its json file is</span>
-<a id="__codelineno-0-206" name="__codelineno-0-206"></a><span class="sd">        https://pairedomicsdata.bioinformatics.nl/api/projects/4b29ddc3-26d0-40d7-80c5-44fb6631dbf9.4.</span>
-<a id="__codelineno-0-207" name="__codelineno-0-207"></a><span class="sd">    &quot;&quot;&quot;</span>
-<a id="__codelineno-0-208" name="__codelineno-0-208"></a>    <span class="n">mappings_dict</span> <span class="o">=</span> <span class="p">{}</span>
-<a id="__codelineno-0-209" name="__codelineno-0-209"></a>    <span class="k">with</span> <span class="nb">open</span><span class="p">(</span><span class="n">podp_project_json_file</span><span class="p">,</span> <span class="s2">&quot;r&quot;</span><span class="p">)</span> <span class="k">as</span> <span class="n">f</span><span class="p">:</span>
-<a id="__codelineno-0-210" name="__codelineno-0-210"></a>        <span class="n">json_data</span> <span class="o">=</span> <span class="n">json</span><span class="o">.</span><span class="n">load</span><span class="p">(</span><span class="n">f</span><span class="p">)</span>
-<a id="__codelineno-0-211" name="__codelineno-0-211"></a>
-<a id="__codelineno-0-212" name="__codelineno-0-212"></a>    <span class="n">validate_podp_json</span><span class="p">(</span><span class="n">json_data</span><span class="p">)</span>
-<a id="__codelineno-0-213" name="__codelineno-0-213"></a>
-<a id="__codelineno-0-214" name="__codelineno-0-214"></a>    <span class="k">for</span> <span class="n">record</span> <span class="ow">in</span> <span class="n">json_data</span><span class="p">[</span><span class="s2">&quot;genomes&quot;</span><span class="p">]:</span>
-<a id="__codelineno-0-215" name="__codelineno-0-215"></a>        <span class="n">strain_id</span> <span class="o">=</span> <span class="n">record</span><span class="p">[</span><span class="s2">&quot;genome_label&quot;</span><span class="p">]</span>
-<a id="__codelineno-0-216" name="__codelineno-0-216"></a>        <span class="n">genome_id</span> <span class="o">=</span> <span class="n">get_best_available_genome_id</span><span class="p">(</span><span class="n">record</span><span class="p">[</span><span class="s2">&quot;genome_ID&quot;</span><span class="p">])</span>
-<a id="__codelineno-0-217" name="__codelineno-0-217"></a>        <span class="k">if</span> <span class="n">genome_id</span> <span class="ow">is</span> <span class="kc">None</span><span class="p">:</span>
-<a id="__codelineno-0-218" name="__codelineno-0-218"></a>            <span class="n">logger</span><span class="o">.</span><span class="n">warning</span><span class="p">(</span><span class="s2">&quot;Failed to extract genome ID from genome with label </span><span class="si">%s</span><span class="s2">&quot;</span><span class="p">,</span> <span class="n">strain_id</span><span class="p">)</span>
-<a id="__codelineno-0-219" name="__codelineno-0-219"></a>            <span class="k">continue</span>
-<a id="__codelineno-0-220" name="__codelineno-0-220"></a>        <span class="k">if</span> <span class="n">strain_id</span> <span class="ow">in</span> <span class="n">mappings_dict</span><span class="p">:</span>
-<a id="__codelineno-0-221" name="__codelineno-0-221"></a>            <span class="n">mappings_dict</span><span class="p">[</span><span class="n">strain_id</span><span class="p">]</span><span class="o">.</span><span class="n">add</span><span class="p">(</span><span class="n">genome_id</span><span class="p">)</span>
-<a id="__codelineno-0-222" name="__codelineno-0-222"></a>        <span class="k">else</span><span class="p">:</span>
-<a id="__codelineno-0-223" name="__codelineno-0-223"></a>            <span class="n">mappings_dict</span><span class="p">[</span><span class="n">strain_id</span><span class="p">]</span> <span class="o">=</span> <span class="p">{</span><span class="n">genome_id</span><span class="p">}</span>
-<a id="__codelineno-0-224" name="__codelineno-0-224"></a>    <span class="k">return</span> <span class="n">mappings_dict</span>
+<span class="normal"><a href="#__codelineno-0-224">224</a></span>
+<span class="normal"><a href="#__codelineno-0-225">225</a></span>
+<span class="normal"><a href="#__codelineno-0-226">226</a></span>
+<span class="normal"><a href="#__codelineno-0-227">227</a></span>
+<span class="normal"><a href="#__codelineno-0-228">228</a></span>
+<span class="normal"><a href="#__codelineno-0-229">229</a></span></pre></div></td><td class="code"><div><pre><span></span><code><a id="__codelineno-0-196" name="__codelineno-0-196"></a><span class="k">def</span> <span class="nf">extract_mappings_strain_id_original_genome_id</span><span class="p">(</span>
+<a id="__codelineno-0-197" name="__codelineno-0-197"></a>    <span class="n">podp_project_json_file</span><span class="p">:</span> <span class="nb">str</span> <span class="o">|</span> <span class="n">PathLike</span><span class="p">,</span>
+<a id="__codelineno-0-198" name="__codelineno-0-198"></a><span class="p">)</span> <span class="o">-&gt;</span> <span class="nb">dict</span><span class="p">[</span><span class="nb">str</span><span class="p">,</span> <span class="nb">set</span><span class="p">[</span><span class="nb">str</span><span class="p">]]:</span>
+<a id="__codelineno-0-199" name="__codelineno-0-199"></a><span class="w">    </span><span class="sd">&quot;&quot;&quot;Extract mappings &quot;strain id &lt;-&gt; original genome id&quot;.</span>
+<a id="__codelineno-0-200" name="__codelineno-0-200"></a>
+<a id="__codelineno-0-201" name="__codelineno-0-201"></a><span class="sd">    Args:</span>
+<a id="__codelineno-0-202" name="__codelineno-0-202"></a><span class="sd">        podp_project_json_file: The path to the PODP project</span>
+<a id="__codelineno-0-203" name="__codelineno-0-203"></a><span class="sd">            JSON file.</span>
+<a id="__codelineno-0-204" name="__codelineno-0-204"></a>
+<a id="__codelineno-0-205" name="__codelineno-0-205"></a><span class="sd">    Returns:</span>
+<a id="__codelineno-0-206" name="__codelineno-0-206"></a><span class="sd">        Key is strain id and value is a set of original genome ids.</span>
+<a id="__codelineno-0-207" name="__codelineno-0-207"></a>
+<a id="__codelineno-0-208" name="__codelineno-0-208"></a><span class="sd">    Notes:</span>
+<a id="__codelineno-0-209" name="__codelineno-0-209"></a><span class="sd">        The `podp_project_json_file` is the project JSON file downloaded from</span>
+<a id="__codelineno-0-210" name="__codelineno-0-210"></a><span class="sd">        PODP platform. For example, for project MSV000079284, its json file is</span>
+<a id="__codelineno-0-211" name="__codelineno-0-211"></a><span class="sd">        https://pairedomicsdata.bioinformatics.nl/api/projects/4b29ddc3-26d0-40d7-80c5-44fb6631dbf9.4.</span>
+<a id="__codelineno-0-212" name="__codelineno-0-212"></a><span class="sd">    &quot;&quot;&quot;</span>
+<a id="__codelineno-0-213" name="__codelineno-0-213"></a>    <span class="n">mappings_dict</span><span class="p">:</span> <span class="nb">dict</span><span class="p">[</span><span class="nb">str</span><span class="p">,</span> <span class="nb">set</span><span class="p">[</span><span class="nb">str</span><span class="p">]]</span> <span class="o">=</span> <span class="p">{}</span>
+<a id="__codelineno-0-214" name="__codelineno-0-214"></a>    <span class="k">with</span> <span class="nb">open</span><span class="p">(</span><span class="n">podp_project_json_file</span><span class="p">,</span> <span class="s2">&quot;r&quot;</span><span class="p">)</span> <span class="k">as</span> <span class="n">f</span><span class="p">:</span>
+<a id="__codelineno-0-215" name="__codelineno-0-215"></a>        <span class="n">json_data</span> <span class="o">=</span> <span class="n">json</span><span class="o">.</span><span class="n">load</span><span class="p">(</span><span class="n">f</span><span class="p">)</span>
+<a id="__codelineno-0-216" name="__codelineno-0-216"></a>
+<a id="__codelineno-0-217" name="__codelineno-0-217"></a>    <span class="n">validate_podp_json</span><span class="p">(</span><span class="n">json_data</span><span class="p">)</span>
+<a id="__codelineno-0-218" name="__codelineno-0-218"></a>
+<a id="__codelineno-0-219" name="__codelineno-0-219"></a>    <span class="k">for</span> <span class="n">record</span> <span class="ow">in</span> <span class="n">json_data</span><span class="p">[</span><span class="s2">&quot;genomes&quot;</span><span class="p">]:</span>
+<a id="__codelineno-0-220" name="__codelineno-0-220"></a>        <span class="n">strain_id</span> <span class="o">=</span> <span class="n">record</span><span class="p">[</span><span class="s2">&quot;genome_label&quot;</span><span class="p">]</span>
+<a id="__codelineno-0-221" name="__codelineno-0-221"></a>        <span class="n">genome_id</span> <span class="o">=</span> <span class="n">get_best_available_genome_id</span><span class="p">(</span><span class="n">record</span><span class="p">[</span><span class="s2">&quot;genome_ID&quot;</span><span class="p">])</span>
+<a id="__codelineno-0-222" name="__codelineno-0-222"></a>        <span class="k">if</span> <span class="n">genome_id</span> <span class="ow">is</span> <span class="kc">None</span><span class="p">:</span>
+<a id="__codelineno-0-223" name="__codelineno-0-223"></a>            <span class="n">logger</span><span class="o">.</span><span class="n">warning</span><span class="p">(</span><span class="s2">&quot;Failed to extract genome ID from genome with label </span><span class="si">%s</span><span class="s2">&quot;</span><span class="p">,</span> <span class="n">strain_id</span><span class="p">)</span>
+<a id="__codelineno-0-224" name="__codelineno-0-224"></a>            <span class="k">continue</span>
+<a id="__codelineno-0-225" name="__codelineno-0-225"></a>        <span class="k">if</span> <span class="n">strain_id</span> <span class="ow">in</span> <span class="n">mappings_dict</span><span class="p">:</span>
+<a id="__codelineno-0-226" name="__codelineno-0-226"></a>            <span class="n">mappings_dict</span><span class="p">[</span><span class="n">strain_id</span><span class="p">]</span><span class="o">.</span><span class="n">add</span><span class="p">(</span><span class="n">genome_id</span><span class="p">)</span>
+<a id="__codelineno-0-227" name="__codelineno-0-227"></a>        <span class="k">else</span><span class="p">:</span>
+<a id="__codelineno-0-228" name="__codelineno-0-228"></a>            <span class="n">mappings_dict</span><span class="p">[</span><span class="n">strain_id</span><span class="p">]</span> <span class="o">=</span> <span class="p">{</span><span class="n">genome_id</span><span class="p">}</span>
+<a id="__codelineno-0-229" name="__codelineno-0-229"></a>    <span class="k">return</span> <span class="n">mappings_dict</span>
 </code></pre></div></td></tr></table></div>
           </details>
   </div>
@@ -2414,12 +2471,7 @@ <h3 id="nplinker.genomics.utils.extract_mappings_original_genome_id_resolved_gen
 </details>
           <details class="quote">
             <summary>Source code in <code>src/nplinker/genomics/utils.py</code></summary>
-            <div class="language-python highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal"><a href="#__codelineno-0-227">227</a></span>
-<span class="normal"><a href="#__codelineno-0-228">228</a></span>
-<span class="normal"><a href="#__codelineno-0-229">229</a></span>
-<span class="normal"><a href="#__codelineno-0-230">230</a></span>
-<span class="normal"><a href="#__codelineno-0-231">231</a></span>
-<span class="normal"><a href="#__codelineno-0-232">232</a></span>
+            <div class="language-python highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal"><a href="#__codelineno-0-232">232</a></span>
 <span class="normal"><a href="#__codelineno-0-233">233</a></span>
 <span class="normal"><a href="#__codelineno-0-234">234</a></span>
 <span class="normal"><a href="#__codelineno-0-235">235</a></span>
@@ -2432,25 +2484,30 @@ <h3 id="nplinker.genomics.utils.extract_mappings_original_genome_id_resolved_gen
 <span class="normal"><a href="#__codelineno-0-242">242</a></span>
 <span class="normal"><a href="#__codelineno-0-243">243</a></span>
 <span class="normal"><a href="#__codelineno-0-244">244</a></span>
-<span class="normal"><a href="#__codelineno-0-245">245</a></span></pre></div></td><td class="code"><div><pre><span></span><code><a id="__codelineno-0-227" name="__codelineno-0-227"></a><span class="k">def</span> <span class="nf">extract_mappings_original_genome_id_resolved_genome_id</span><span class="p">(</span>
-<a id="__codelineno-0-228" name="__codelineno-0-228"></a>    <span class="n">genome_status_json_file</span><span class="p">:</span> <span class="nb">str</span> <span class="o">|</span> <span class="n">PathLike</span>
-<a id="__codelineno-0-229" name="__codelineno-0-229"></a><span class="p">)</span> <span class="o">-&gt;</span> <span class="nb">dict</span><span class="p">[</span><span class="nb">str</span><span class="p">,</span> <span class="nb">str</span><span class="p">]:</span>
-<a id="__codelineno-0-230" name="__codelineno-0-230"></a><span class="w">    </span><span class="sd">&quot;&quot;&quot;Extract mappings &quot;original_genome_id &lt;-&gt; resolved_genome_id&quot;.</span>
-<a id="__codelineno-0-231" name="__codelineno-0-231"></a>
-<a id="__codelineno-0-232" name="__codelineno-0-232"></a><span class="sd">    Args:</span>
-<a id="__codelineno-0-233" name="__codelineno-0-233"></a><span class="sd">        genome_status_json_file: The path to the genome status</span>
-<a id="__codelineno-0-234" name="__codelineno-0-234"></a><span class="sd">            JSON file.</span>
-<a id="__codelineno-0-235" name="__codelineno-0-235"></a>
-<a id="__codelineno-0-236" name="__codelineno-0-236"></a><span class="sd">    Returns:</span>
-<a id="__codelineno-0-237" name="__codelineno-0-237"></a><span class="sd">        Key is original genome id and value is resolved genome id.</span>
-<a id="__codelineno-0-238" name="__codelineno-0-238"></a>
-<a id="__codelineno-0-239" name="__codelineno-0-239"></a><span class="sd">    Notes:</span>
-<a id="__codelineno-0-240" name="__codelineno-0-240"></a><span class="sd">        The `genome_status_json_file` is usually generated by the</span>
-<a id="__codelineno-0-241" name="__codelineno-0-241"></a><span class="sd">        `podp_download_and_extract_antismash_data` function with</span>
-<a id="__codelineno-0-242" name="__codelineno-0-242"></a><span class="sd">        a default file name defined in `nplinker.globals.GENOME_STATUS_FILENAME`.</span>
-<a id="__codelineno-0-243" name="__codelineno-0-243"></a><span class="sd">    &quot;&quot;&quot;</span>
-<a id="__codelineno-0-244" name="__codelineno-0-244"></a>    <span class="n">gs_mappings_dict</span> <span class="o">=</span> <span class="n">GenomeStatus</span><span class="o">.</span><span class="n">read_json</span><span class="p">(</span><span class="n">genome_status_json_file</span><span class="p">)</span>
-<a id="__codelineno-0-245" name="__codelineno-0-245"></a>    <span class="k">return</span> <span class="p">{</span><span class="n">gs</span><span class="o">.</span><span class="n">original_id</span><span class="p">:</span> <span class="n">gs</span><span class="o">.</span><span class="n">resolved_refseq_id</span> <span class="k">for</span> <span class="n">gs</span> <span class="ow">in</span> <span class="n">gs_mappings_dict</span><span class="o">.</span><span class="n">values</span><span class="p">()}</span>
+<span class="normal"><a href="#__codelineno-0-245">245</a></span>
+<span class="normal"><a href="#__codelineno-0-246">246</a></span>
+<span class="normal"><a href="#__codelineno-0-247">247</a></span>
+<span class="normal"><a href="#__codelineno-0-248">248</a></span>
+<span class="normal"><a href="#__codelineno-0-249">249</a></span>
+<span class="normal"><a href="#__codelineno-0-250">250</a></span></pre></div></td><td class="code"><div><pre><span></span><code><a id="__codelineno-0-232" name="__codelineno-0-232"></a><span class="k">def</span> <span class="nf">extract_mappings_original_genome_id_resolved_genome_id</span><span class="p">(</span>
+<a id="__codelineno-0-233" name="__codelineno-0-233"></a>    <span class="n">genome_status_json_file</span><span class="p">:</span> <span class="nb">str</span> <span class="o">|</span> <span class="n">PathLike</span><span class="p">,</span>
+<a id="__codelineno-0-234" name="__codelineno-0-234"></a><span class="p">)</span> <span class="o">-&gt;</span> <span class="nb">dict</span><span class="p">[</span><span class="nb">str</span><span class="p">,</span> <span class="nb">str</span><span class="p">]:</span>
+<a id="__codelineno-0-235" name="__codelineno-0-235"></a><span class="w">    </span><span class="sd">&quot;&quot;&quot;Extract mappings &quot;original_genome_id &lt;-&gt; resolved_genome_id&quot;.</span>
+<a id="__codelineno-0-236" name="__codelineno-0-236"></a>
+<a id="__codelineno-0-237" name="__codelineno-0-237"></a><span class="sd">    Args:</span>
+<a id="__codelineno-0-238" name="__codelineno-0-238"></a><span class="sd">        genome_status_json_file: The path to the genome status</span>
+<a id="__codelineno-0-239" name="__codelineno-0-239"></a><span class="sd">            JSON file.</span>
+<a id="__codelineno-0-240" name="__codelineno-0-240"></a>
+<a id="__codelineno-0-241" name="__codelineno-0-241"></a><span class="sd">    Returns:</span>
+<a id="__codelineno-0-242" name="__codelineno-0-242"></a><span class="sd">        Key is original genome id and value is resolved genome id.</span>
+<a id="__codelineno-0-243" name="__codelineno-0-243"></a>
+<a id="__codelineno-0-244" name="__codelineno-0-244"></a><span class="sd">    Notes:</span>
+<a id="__codelineno-0-245" name="__codelineno-0-245"></a><span class="sd">        The `genome_status_json_file` is usually generated by the</span>
+<a id="__codelineno-0-246" name="__codelineno-0-246"></a><span class="sd">        `podp_download_and_extract_antismash_data` function with</span>
+<a id="__codelineno-0-247" name="__codelineno-0-247"></a><span class="sd">        a default file name defined in `nplinker.globals.GENOME_STATUS_FILENAME`.</span>
+<a id="__codelineno-0-248" name="__codelineno-0-248"></a><span class="sd">    &quot;&quot;&quot;</span>
+<a id="__codelineno-0-249" name="__codelineno-0-249"></a>    <span class="n">gs_mappings_dict</span> <span class="o">=</span> <span class="n">GenomeStatus</span><span class="o">.</span><span class="n">read_json</span><span class="p">(</span><span class="n">genome_status_json_file</span><span class="p">)</span>
+<a id="__codelineno-0-250" name="__codelineno-0-250"></a>    <span class="k">return</span> <span class="p">{</span><span class="n">gs</span><span class="o">.</span><span class="n">original_id</span><span class="p">:</span> <span class="n">gs</span><span class="o">.</span><span class="n">resolved_refseq_id</span> <span class="k">for</span> <span class="n">gs</span> <span class="ow">in</span> <span class="n">gs_mappings_dict</span><span class="o">.</span><span class="n">values</span><span class="p">()}</span>
 </code></pre></div></td></tr></table></div>
           </details>
   </div>
@@ -2537,12 +2594,7 @@ <h3 id="nplinker.genomics.utils.extract_mappings_resolved_genome_id_bgc_id" clas
 </details>
           <details class="quote">
             <summary>Source code in <code>src/nplinker/genomics/utils.py</code></summary>
-            <div class="language-python highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal"><a href="#__codelineno-0-248">248</a></span>
-<span class="normal"><a href="#__codelineno-0-249">249</a></span>
-<span class="normal"><a href="#__codelineno-0-250">250</a></span>
-<span class="normal"><a href="#__codelineno-0-251">251</a></span>
-<span class="normal"><a href="#__codelineno-0-252">252</a></span>
-<span class="normal"><a href="#__codelineno-0-253">253</a></span>
+            <div class="language-python highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal"><a href="#__codelineno-0-253">253</a></span>
 <span class="normal"><a href="#__codelineno-0-254">254</a></span>
 <span class="normal"><a href="#__codelineno-0-255">255</a></span>
 <span class="normal"><a href="#__codelineno-0-256">256</a></span>
@@ -2560,30 +2612,35 @@ <h3 id="nplinker.genomics.utils.extract_mappings_resolved_genome_id_bgc_id" clas
 <span class="normal"><a href="#__codelineno-0-268">268</a></span>
 <span class="normal"><a href="#__codelineno-0-269">269</a></span>
 <span class="normal"><a href="#__codelineno-0-270">270</a></span>
-<span class="normal"><a href="#__codelineno-0-271">271</a></span></pre></div></td><td class="code"><div><pre><span></span><code><a id="__codelineno-0-248" name="__codelineno-0-248"></a><span class="k">def</span> <span class="nf">extract_mappings_resolved_genome_id_bgc_id</span><span class="p">(</span>
-<a id="__codelineno-0-249" name="__codelineno-0-249"></a>    <span class="n">genome_bgc_mappings_file</span><span class="p">:</span> <span class="nb">str</span> <span class="o">|</span> <span class="n">PathLike</span>
-<a id="__codelineno-0-250" name="__codelineno-0-250"></a><span class="p">)</span> <span class="o">-&gt;</span> <span class="nb">dict</span><span class="p">[</span><span class="nb">str</span><span class="p">,</span> <span class="nb">set</span><span class="p">[</span><span class="nb">str</span><span class="p">]]:</span>
-<a id="__codelineno-0-251" name="__codelineno-0-251"></a><span class="w">    </span><span class="sd">&quot;&quot;&quot;Extract mappings &quot;resolved_genome_id &lt;-&gt; bgc_id&quot;.</span>
-<a id="__codelineno-0-252" name="__codelineno-0-252"></a>
-<a id="__codelineno-0-253" name="__codelineno-0-253"></a><span class="sd">    Args:</span>
-<a id="__codelineno-0-254" name="__codelineno-0-254"></a><span class="sd">        genome_bgc_mappings_file: The path to the genome BGC</span>
-<a id="__codelineno-0-255" name="__codelineno-0-255"></a><span class="sd">            mappings JSON file.</span>
-<a id="__codelineno-0-256" name="__codelineno-0-256"></a>
-<a id="__codelineno-0-257" name="__codelineno-0-257"></a><span class="sd">    Returns:</span>
-<a id="__codelineno-0-258" name="__codelineno-0-258"></a><span class="sd">        Key is resolved genome id and value is a set of BGC ids.</span>
-<a id="__codelineno-0-259" name="__codelineno-0-259"></a>
-<a id="__codelineno-0-260" name="__codelineno-0-260"></a><span class="sd">    Notes:</span>
-<a id="__codelineno-0-261" name="__codelineno-0-261"></a><span class="sd">        The `genome_bgc_mappings_file` is usually generated by the</span>
-<a id="__codelineno-0-262" name="__codelineno-0-262"></a><span class="sd">        `generate_mappings_genome_id_bgc_id` function with a default file name</span>
-<a id="__codelineno-0-263" name="__codelineno-0-263"></a><span class="sd">        defined in `nplinker.globals.GENOME_BGC_MAPPINGS_FILENAME`.</span>
-<a id="__codelineno-0-264" name="__codelineno-0-264"></a><span class="sd">    &quot;&quot;&quot;</span>
-<a id="__codelineno-0-265" name="__codelineno-0-265"></a>    <span class="k">with</span> <span class="nb">open</span><span class="p">(</span><span class="n">genome_bgc_mappings_file</span><span class="p">,</span> <span class="s2">&quot;r&quot;</span><span class="p">)</span> <span class="k">as</span> <span class="n">f</span><span class="p">:</span>
-<a id="__codelineno-0-266" name="__codelineno-0-266"></a>        <span class="n">json_data</span> <span class="o">=</span> <span class="n">json</span><span class="o">.</span><span class="n">load</span><span class="p">(</span><span class="n">f</span><span class="p">)</span>
-<a id="__codelineno-0-267" name="__codelineno-0-267"></a>
-<a id="__codelineno-0-268" name="__codelineno-0-268"></a>    <span class="c1"># validate the JSON data</span>
-<a id="__codelineno-0-269" name="__codelineno-0-269"></a>    <span class="n">validate</span><span class="p">(</span><span class="n">json_data</span><span class="p">,</span> <span class="n">GENOME_BGC_MAPPINGS_SCHEMA</span><span class="p">)</span>
-<a id="__codelineno-0-270" name="__codelineno-0-270"></a>
-<a id="__codelineno-0-271" name="__codelineno-0-271"></a>    <span class="k">return</span> <span class="p">{</span><span class="n">mapping</span><span class="p">[</span><span class="s2">&quot;genome_ID&quot;</span><span class="p">]:</span> <span class="nb">set</span><span class="p">(</span><span class="n">mapping</span><span class="p">[</span><span class="s2">&quot;BGC_ID&quot;</span><span class="p">])</span> <span class="k">for</span> <span class="n">mapping</span> <span class="ow">in</span> <span class="n">json_data</span><span class="p">[</span><span class="s2">&quot;mappings&quot;</span><span class="p">]}</span>
+<span class="normal"><a href="#__codelineno-0-271">271</a></span>
+<span class="normal"><a href="#__codelineno-0-272">272</a></span>
+<span class="normal"><a href="#__codelineno-0-273">273</a></span>
+<span class="normal"><a href="#__codelineno-0-274">274</a></span>
+<span class="normal"><a href="#__codelineno-0-275">275</a></span>
+<span class="normal"><a href="#__codelineno-0-276">276</a></span></pre></div></td><td class="code"><div><pre><span></span><code><a id="__codelineno-0-253" name="__codelineno-0-253"></a><span class="k">def</span> <span class="nf">extract_mappings_resolved_genome_id_bgc_id</span><span class="p">(</span>
+<a id="__codelineno-0-254" name="__codelineno-0-254"></a>    <span class="n">genome_bgc_mappings_file</span><span class="p">:</span> <span class="nb">str</span> <span class="o">|</span> <span class="n">PathLike</span><span class="p">,</span>
+<a id="__codelineno-0-255" name="__codelineno-0-255"></a><span class="p">)</span> <span class="o">-&gt;</span> <span class="nb">dict</span><span class="p">[</span><span class="nb">str</span><span class="p">,</span> <span class="nb">set</span><span class="p">[</span><span class="nb">str</span><span class="p">]]:</span>
+<a id="__codelineno-0-256" name="__codelineno-0-256"></a><span class="w">    </span><span class="sd">&quot;&quot;&quot;Extract mappings &quot;resolved_genome_id &lt;-&gt; bgc_id&quot;.</span>
+<a id="__codelineno-0-257" name="__codelineno-0-257"></a>
+<a id="__codelineno-0-258" name="__codelineno-0-258"></a><span class="sd">    Args:</span>
+<a id="__codelineno-0-259" name="__codelineno-0-259"></a><span class="sd">        genome_bgc_mappings_file: The path to the genome BGC</span>
+<a id="__codelineno-0-260" name="__codelineno-0-260"></a><span class="sd">            mappings JSON file.</span>
+<a id="__codelineno-0-261" name="__codelineno-0-261"></a>
+<a id="__codelineno-0-262" name="__codelineno-0-262"></a><span class="sd">    Returns:</span>
+<a id="__codelineno-0-263" name="__codelineno-0-263"></a><span class="sd">        Key is resolved genome id and value is a set of BGC ids.</span>
+<a id="__codelineno-0-264" name="__codelineno-0-264"></a>
+<a id="__codelineno-0-265" name="__codelineno-0-265"></a><span class="sd">    Notes:</span>
+<a id="__codelineno-0-266" name="__codelineno-0-266"></a><span class="sd">        The `genome_bgc_mappings_file` is usually generated by the</span>
+<a id="__codelineno-0-267" name="__codelineno-0-267"></a><span class="sd">        `generate_mappings_genome_id_bgc_id` function with a default file name</span>
+<a id="__codelineno-0-268" name="__codelineno-0-268"></a><span class="sd">        defined in `nplinker.globals.GENOME_BGC_MAPPINGS_FILENAME`.</span>
+<a id="__codelineno-0-269" name="__codelineno-0-269"></a><span class="sd">    &quot;&quot;&quot;</span>
+<a id="__codelineno-0-270" name="__codelineno-0-270"></a>    <span class="k">with</span> <span class="nb">open</span><span class="p">(</span><span class="n">genome_bgc_mappings_file</span><span class="p">,</span> <span class="s2">&quot;r&quot;</span><span class="p">)</span> <span class="k">as</span> <span class="n">f</span><span class="p">:</span>
+<a id="__codelineno-0-271" name="__codelineno-0-271"></a>        <span class="n">json_data</span> <span class="o">=</span> <span class="n">json</span><span class="o">.</span><span class="n">load</span><span class="p">(</span><span class="n">f</span><span class="p">)</span>
+<a id="__codelineno-0-272" name="__codelineno-0-272"></a>
+<a id="__codelineno-0-273" name="__codelineno-0-273"></a>    <span class="c1"># validate the JSON data</span>
+<a id="__codelineno-0-274" name="__codelineno-0-274"></a>    <span class="n">validate</span><span class="p">(</span><span class="n">json_data</span><span class="p">,</span> <span class="n">GENOME_BGC_MAPPINGS_SCHEMA</span><span class="p">)</span>
+<a id="__codelineno-0-275" name="__codelineno-0-275"></a>
+<a id="__codelineno-0-276" name="__codelineno-0-276"></a>    <span class="k">return</span> <span class="p">{</span><span class="n">mapping</span><span class="p">[</span><span class="s2">&quot;genome_ID&quot;</span><span class="p">]:</span> <span class="nb">set</span><span class="p">(</span><span class="n">mapping</span><span class="p">[</span><span class="s2">&quot;BGC_ID&quot;</span><span class="p">])</span> <span class="k">for</span> <span class="n">mapping</span> <span class="ow">in</span> <span class="n">json_data</span><span class="p">[</span><span class="s2">&quot;mappings&quot;</span><span class="p">]}</span>
 </code></pre></div></td></tr></table></div>
           </details>
   </div>
@@ -2705,12 +2762,7 @@ <h3 id="nplinker.genomics.utils.get_mappings_strain_id_bgc_id" class="doc doc-he
 </details>
           <details class="quote">
             <summary>Source code in <code>src/nplinker/genomics/utils.py</code></summary>
-            <div class="language-python highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal"><a href="#__codelineno-0-274">274</a></span>
-<span class="normal"><a href="#__codelineno-0-275">275</a></span>
-<span class="normal"><a href="#__codelineno-0-276">276</a></span>
-<span class="normal"><a href="#__codelineno-0-277">277</a></span>
-<span class="normal"><a href="#__codelineno-0-278">278</a></span>
-<span class="normal"><a href="#__codelineno-0-279">279</a></span>
+            <div class="language-python highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal"><a href="#__codelineno-0-279">279</a></span>
 <span class="normal"><a href="#__codelineno-0-280">280</a></span>
 <span class="normal"><a href="#__codelineno-0-281">281</a></span>
 <span class="normal"><a href="#__codelineno-0-282">282</a></span>
@@ -2740,42 +2792,47 @@ <h3 id="nplinker.genomics.utils.get_mappings_strain_id_bgc_id" class="doc doc-he
 <span class="normal"><a href="#__codelineno-0-306">306</a></span>
 <span class="normal"><a href="#__codelineno-0-307">307</a></span>
 <span class="normal"><a href="#__codelineno-0-308">308</a></span>
-<span class="normal"><a href="#__codelineno-0-309">309</a></span></pre></div></td><td class="code"><div><pre><span></span><code><a id="__codelineno-0-274" name="__codelineno-0-274"></a><span class="k">def</span> <span class="nf">get_mappings_strain_id_bgc_id</span><span class="p">(</span>
-<a id="__codelineno-0-275" name="__codelineno-0-275"></a>    <span class="n">mappings_strain_id_original_genome_id</span><span class="p">:</span> <span class="nb">dict</span><span class="p">[</span><span class="nb">str</span><span class="p">,</span> <span class="nb">set</span><span class="p">[</span><span class="nb">str</span><span class="p">]],</span>
-<a id="__codelineno-0-276" name="__codelineno-0-276"></a>    <span class="n">mappings_original_genome_id_resolved_genome_id</span><span class="p">:</span> <span class="nb">dict</span><span class="p">[</span><span class="nb">str</span><span class="p">,</span> <span class="nb">str</span><span class="p">],</span>
-<a id="__codelineno-0-277" name="__codelineno-0-277"></a>    <span class="n">mappings_resolved_genome_id_bgc_id</span><span class="p">:</span> <span class="nb">dict</span><span class="p">[</span><span class="nb">str</span><span class="p">,</span> <span class="nb">set</span><span class="p">[</span><span class="nb">str</span><span class="p">]],</span>
-<a id="__codelineno-0-278" name="__codelineno-0-278"></a><span class="p">)</span> <span class="o">-&gt;</span> <span class="nb">dict</span><span class="p">[</span><span class="nb">str</span><span class="p">,</span> <span class="nb">set</span><span class="p">[</span><span class="nb">str</span><span class="p">]]:</span>
-<a id="__codelineno-0-279" name="__codelineno-0-279"></a><span class="w">    </span><span class="sd">&quot;&quot;&quot;Get mappings &quot;strain_id &lt;-&gt; bgc_id&quot;.</span>
-<a id="__codelineno-0-280" name="__codelineno-0-280"></a>
-<a id="__codelineno-0-281" name="__codelineno-0-281"></a><span class="sd">    Args:</span>
-<a id="__codelineno-0-282" name="__codelineno-0-282"></a><span class="sd">        mappings_strain_id_original_genome_id: Mappings</span>
-<a id="__codelineno-0-283" name="__codelineno-0-283"></a><span class="sd">            &quot;strain_id &lt;-&gt; original_genome_id&quot;.</span>
-<a id="__codelineno-0-284" name="__codelineno-0-284"></a><span class="sd">        mappings_original_genome_id_resolved_genome_id: Mappings</span>
-<a id="__codelineno-0-285" name="__codelineno-0-285"></a><span class="sd">            &quot;original_genome_id &lt;-&gt; resolved_genome_id&quot;.</span>
-<a id="__codelineno-0-286" name="__codelineno-0-286"></a><span class="sd">        mappings_resolved_genome_id_bgc_id: Mappings</span>
-<a id="__codelineno-0-287" name="__codelineno-0-287"></a><span class="sd">            &quot;resolved_genome_id &lt;-&gt; bgc_id&quot;.</span>
-<a id="__codelineno-0-288" name="__codelineno-0-288"></a>
-<a id="__codelineno-0-289" name="__codelineno-0-289"></a><span class="sd">    Returns:</span>
-<a id="__codelineno-0-290" name="__codelineno-0-290"></a><span class="sd">        Key is strain id and value is a set of BGC ids.</span>
-<a id="__codelineno-0-291" name="__codelineno-0-291"></a>
-<a id="__codelineno-0-292" name="__codelineno-0-292"></a><span class="sd">    See Also:</span>
-<a id="__codelineno-0-293" name="__codelineno-0-293"></a><span class="sd">        - `extract_mappings_strain_id_original_genome_id`: Extract mappings</span>
-<a id="__codelineno-0-294" name="__codelineno-0-294"></a><span class="sd">            &quot;strain_id &lt;-&gt; original_genome_id&quot;.</span>
-<a id="__codelineno-0-295" name="__codelineno-0-295"></a><span class="sd">        - `extract_mappings_original_genome_id_resolved_genome_id`: Extract mappings</span>
-<a id="__codelineno-0-296" name="__codelineno-0-296"></a><span class="sd">            &quot;original_genome_id &lt;-&gt; resolved_genome_id&quot;.</span>
-<a id="__codelineno-0-297" name="__codelineno-0-297"></a><span class="sd">        - `extract_mappings_resolved_genome_id_bgc_id`: Extract mappings</span>
-<a id="__codelineno-0-298" name="__codelineno-0-298"></a><span class="sd">            &quot;resolved_genome_id &lt;-&gt; bgc_id&quot;.</span>
-<a id="__codelineno-0-299" name="__codelineno-0-299"></a><span class="sd">    &quot;&quot;&quot;</span>
-<a id="__codelineno-0-300" name="__codelineno-0-300"></a>    <span class="n">mappings_dict</span> <span class="o">=</span> <span class="p">{}</span>
-<a id="__codelineno-0-301" name="__codelineno-0-301"></a>    <span class="k">for</span> <span class="n">strain_id</span><span class="p">,</span> <span class="n">original_genome_ids</span> <span class="ow">in</span> <span class="n">mappings_strain_id_original_genome_id</span><span class="o">.</span><span class="n">items</span><span class="p">():</span>
-<a id="__codelineno-0-302" name="__codelineno-0-302"></a>        <span class="n">bgc_ids</span> <span class="o">=</span> <span class="nb">set</span><span class="p">()</span>
-<a id="__codelineno-0-303" name="__codelineno-0-303"></a>        <span class="k">for</span> <span class="n">original_genome_id</span> <span class="ow">in</span> <span class="n">original_genome_ids</span><span class="p">:</span>
-<a id="__codelineno-0-304" name="__codelineno-0-304"></a>            <span class="n">resolved_genome_id</span> <span class="o">=</span> <span class="n">mappings_original_genome_id_resolved_genome_id</span><span class="p">[</span><span class="n">original_genome_id</span><span class="p">]</span>
-<a id="__codelineno-0-305" name="__codelineno-0-305"></a>            <span class="k">if</span> <span class="p">(</span><span class="n">bgc_id</span> <span class="o">:=</span> <span class="n">mappings_resolved_genome_id_bgc_id</span><span class="o">.</span><span class="n">get</span><span class="p">(</span><span class="n">resolved_genome_id</span><span class="p">))</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span><span class="p">:</span>
-<a id="__codelineno-0-306" name="__codelineno-0-306"></a>                <span class="n">bgc_ids</span><span class="o">.</span><span class="n">update</span><span class="p">(</span><span class="n">bgc_id</span><span class="p">)</span>
-<a id="__codelineno-0-307" name="__codelineno-0-307"></a>        <span class="k">if</span> <span class="n">bgc_ids</span><span class="p">:</span>
-<a id="__codelineno-0-308" name="__codelineno-0-308"></a>            <span class="n">mappings_dict</span><span class="p">[</span><span class="n">strain_id</span><span class="p">]</span> <span class="o">=</span> <span class="n">bgc_ids</span>
-<a id="__codelineno-0-309" name="__codelineno-0-309"></a>    <span class="k">return</span> <span class="n">mappings_dict</span>
+<span class="normal"><a href="#__codelineno-0-309">309</a></span>
+<span class="normal"><a href="#__codelineno-0-310">310</a></span>
+<span class="normal"><a href="#__codelineno-0-311">311</a></span>
+<span class="normal"><a href="#__codelineno-0-312">312</a></span>
+<span class="normal"><a href="#__codelineno-0-313">313</a></span>
+<span class="normal"><a href="#__codelineno-0-314">314</a></span></pre></div></td><td class="code"><div><pre><span></span><code><a id="__codelineno-0-279" name="__codelineno-0-279"></a><span class="k">def</span> <span class="nf">get_mappings_strain_id_bgc_id</span><span class="p">(</span>
+<a id="__codelineno-0-280" name="__codelineno-0-280"></a>    <span class="n">mappings_strain_id_original_genome_id</span><span class="p">:</span> <span class="nb">dict</span><span class="p">[</span><span class="nb">str</span><span class="p">,</span> <span class="nb">set</span><span class="p">[</span><span class="nb">str</span><span class="p">]],</span>
+<a id="__codelineno-0-281" name="__codelineno-0-281"></a>    <span class="n">mappings_original_genome_id_resolved_genome_id</span><span class="p">:</span> <span class="nb">dict</span><span class="p">[</span><span class="nb">str</span><span class="p">,</span> <span class="nb">str</span><span class="p">],</span>
+<a id="__codelineno-0-282" name="__codelineno-0-282"></a>    <span class="n">mappings_resolved_genome_id_bgc_id</span><span class="p">:</span> <span class="nb">dict</span><span class="p">[</span><span class="nb">str</span><span class="p">,</span> <span class="nb">set</span><span class="p">[</span><span class="nb">str</span><span class="p">]],</span>
+<a id="__codelineno-0-283" name="__codelineno-0-283"></a><span class="p">)</span> <span class="o">-&gt;</span> <span class="nb">dict</span><span class="p">[</span><span class="nb">str</span><span class="p">,</span> <span class="nb">set</span><span class="p">[</span><span class="nb">str</span><span class="p">]]:</span>
+<a id="__codelineno-0-284" name="__codelineno-0-284"></a><span class="w">    </span><span class="sd">&quot;&quot;&quot;Get mappings &quot;strain_id &lt;-&gt; bgc_id&quot;.</span>
+<a id="__codelineno-0-285" name="__codelineno-0-285"></a>
+<a id="__codelineno-0-286" name="__codelineno-0-286"></a><span class="sd">    Args:</span>
+<a id="__codelineno-0-287" name="__codelineno-0-287"></a><span class="sd">        mappings_strain_id_original_genome_id: Mappings</span>
+<a id="__codelineno-0-288" name="__codelineno-0-288"></a><span class="sd">            &quot;strain_id &lt;-&gt; original_genome_id&quot;.</span>
+<a id="__codelineno-0-289" name="__codelineno-0-289"></a><span class="sd">        mappings_original_genome_id_resolved_genome_id: Mappings</span>
+<a id="__codelineno-0-290" name="__codelineno-0-290"></a><span class="sd">            &quot;original_genome_id &lt;-&gt; resolved_genome_id&quot;.</span>
+<a id="__codelineno-0-291" name="__codelineno-0-291"></a><span class="sd">        mappings_resolved_genome_id_bgc_id: Mappings</span>
+<a id="__codelineno-0-292" name="__codelineno-0-292"></a><span class="sd">            &quot;resolved_genome_id &lt;-&gt; bgc_id&quot;.</span>
+<a id="__codelineno-0-293" name="__codelineno-0-293"></a>
+<a id="__codelineno-0-294" name="__codelineno-0-294"></a><span class="sd">    Returns:</span>
+<a id="__codelineno-0-295" name="__codelineno-0-295"></a><span class="sd">        Key is strain id and value is a set of BGC ids.</span>
+<a id="__codelineno-0-296" name="__codelineno-0-296"></a>
+<a id="__codelineno-0-297" name="__codelineno-0-297"></a><span class="sd">    See Also:</span>
+<a id="__codelineno-0-298" name="__codelineno-0-298"></a><span class="sd">        - `extract_mappings_strain_id_original_genome_id`: Extract mappings</span>
+<a id="__codelineno-0-299" name="__codelineno-0-299"></a><span class="sd">            &quot;strain_id &lt;-&gt; original_genome_id&quot;.</span>
+<a id="__codelineno-0-300" name="__codelineno-0-300"></a><span class="sd">        - `extract_mappings_original_genome_id_resolved_genome_id`: Extract mappings</span>
+<a id="__codelineno-0-301" name="__codelineno-0-301"></a><span class="sd">            &quot;original_genome_id &lt;-&gt; resolved_genome_id&quot;.</span>
+<a id="__codelineno-0-302" name="__codelineno-0-302"></a><span class="sd">        - `extract_mappings_resolved_genome_id_bgc_id`: Extract mappings</span>
+<a id="__codelineno-0-303" name="__codelineno-0-303"></a><span class="sd">            &quot;resolved_genome_id &lt;-&gt; bgc_id&quot;.</span>
+<a id="__codelineno-0-304" name="__codelineno-0-304"></a><span class="sd">    &quot;&quot;&quot;</span>
+<a id="__codelineno-0-305" name="__codelineno-0-305"></a>    <span class="n">mappings_dict</span> <span class="o">=</span> <span class="p">{}</span>
+<a id="__codelineno-0-306" name="__codelineno-0-306"></a>    <span class="k">for</span> <span class="n">strain_id</span><span class="p">,</span> <span class="n">original_genome_ids</span> <span class="ow">in</span> <span class="n">mappings_strain_id_original_genome_id</span><span class="o">.</span><span class="n">items</span><span class="p">():</span>
+<a id="__codelineno-0-307" name="__codelineno-0-307"></a>        <span class="n">bgc_ids</span> <span class="o">=</span> <span class="nb">set</span><span class="p">()</span>
+<a id="__codelineno-0-308" name="__codelineno-0-308"></a>        <span class="k">for</span> <span class="n">original_genome_id</span> <span class="ow">in</span> <span class="n">original_genome_ids</span><span class="p">:</span>
+<a id="__codelineno-0-309" name="__codelineno-0-309"></a>            <span class="n">resolved_genome_id</span> <span class="o">=</span> <span class="n">mappings_original_genome_id_resolved_genome_id</span><span class="p">[</span><span class="n">original_genome_id</span><span class="p">]</span>
+<a id="__codelineno-0-310" name="__codelineno-0-310"></a>            <span class="k">if</span> <span class="p">(</span><span class="n">bgc_id</span> <span class="o">:=</span> <span class="n">mappings_resolved_genome_id_bgc_id</span><span class="o">.</span><span class="n">get</span><span class="p">(</span><span class="n">resolved_genome_id</span><span class="p">))</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span><span class="p">:</span>
+<a id="__codelineno-0-311" name="__codelineno-0-311"></a>                <span class="n">bgc_ids</span><span class="o">.</span><span class="n">update</span><span class="p">(</span><span class="n">bgc_id</span><span class="p">)</span>
+<a id="__codelineno-0-312" name="__codelineno-0-312"></a>        <span class="k">if</span> <span class="n">bgc_ids</span><span class="p">:</span>
+<a id="__codelineno-0-313" name="__codelineno-0-313"></a>            <span class="n">mappings_dict</span><span class="p">[</span><span class="n">strain_id</span><span class="p">]</span> <span class="o">=</span> <span class="n">bgc_ids</span>
+<a id="__codelineno-0-314" name="__codelineno-0-314"></a>    <span class="k">return</span> <span class="n">mappings_dict</span>
 </code></pre></div></td></tr></table></div>
           </details>
   </div>
diff --git a/dev/api/gnps/index.html b/dev/api/gnps/index.html
index 7abc47dd..6dd02873 100644
--- a/dev/api/gnps/index.html
+++ b/dev/api/gnps/index.html
@@ -1065,6 +1065,48 @@
     </span>
   </a>
   
+    <nav class="md-nav" aria-label=" GNPSFormat">
+      <ul class="md-nav__list">
+        
+          <li class="md-nav__item">
+  <a href="#nplinker.metabolomics.gnps.GNPSFormat.SNETS" class="md-nav__link">
+    <span class="md-ellipsis">
+      <code class="doc-symbol doc-symbol-toc doc-symbol-attribute"></code>&nbsp;SNETS
+    </span>
+  </a>
+  
+</li>
+        
+          <li class="md-nav__item">
+  <a href="#nplinker.metabolomics.gnps.GNPSFormat.SNETSV2" class="md-nav__link">
+    <span class="md-ellipsis">
+      <code class="doc-symbol doc-symbol-toc doc-symbol-attribute"></code>&nbsp;SNETSV2
+    </span>
+  </a>
+  
+</li>
+        
+          <li class="md-nav__item">
+  <a href="#nplinker.metabolomics.gnps.GNPSFormat.FBMN" class="md-nav__link">
+    <span class="md-ellipsis">
+      <code class="doc-symbol doc-symbol-toc doc-symbol-attribute"></code>&nbsp;FBMN
+    </span>
+  </a>
+  
+</li>
+        
+          <li class="md-nav__item">
+  <a href="#nplinker.metabolomics.gnps.GNPSFormat.Unknown" class="md-nav__link">
+    <span class="md-ellipsis">
+      <code class="doc-symbol doc-symbol-toc doc-symbol-attribute"></code>&nbsp;Unknown
+    </span>
+  </a>
+  
+</li>
+        
+      </ul>
+    </nav>
+  
 </li>
         
           <li class="md-nav__item">
@@ -1077,6 +1119,24 @@
     <nav class="md-nav" aria-label=" GNPSDownloader">
       <ul class="md-nav__list">
         
+          <li class="md-nav__item">
+  <a href="#nplinker.metabolomics.gnps.GNPSDownloader.GNPS_DATA_DOWNLOAD_URL" class="md-nav__link">
+    <span class="md-ellipsis">
+      <code class="doc-symbol doc-symbol-toc doc-symbol-attribute"></code>&nbsp;GNPS_DATA_DOWNLOAD_URL
+    </span>
+  </a>
+  
+</li>
+        
+          <li class="md-nav__item">
+  <a href="#nplinker.metabolomics.gnps.GNPSDownloader.GNPS_DATA_DOWNLOAD_URL_FBMN" class="md-nav__link">
+    <span class="md-ellipsis">
+      <code class="doc-symbol doc-symbol-toc doc-symbol-attribute"></code>&nbsp;GNPS_DATA_DOWNLOAD_URL_FBMN
+    </span>
+  </a>
+  
+</li>
+        
           <li class="md-nav__item">
   <a href="#nplinker.metabolomics.gnps.GNPSDownloader.gnps_format" class="md-nav__link">
     <span class="md-ellipsis">
@@ -1534,6 +1594,48 @@
     </span>
   </a>
   
+    <nav class="md-nav" aria-label=" GNPSFormat">
+      <ul class="md-nav__list">
+        
+          <li class="md-nav__item">
+  <a href="#nplinker.metabolomics.gnps.GNPSFormat.SNETS" class="md-nav__link">
+    <span class="md-ellipsis">
+      <code class="doc-symbol doc-symbol-toc doc-symbol-attribute"></code>&nbsp;SNETS
+    </span>
+  </a>
+  
+</li>
+        
+          <li class="md-nav__item">
+  <a href="#nplinker.metabolomics.gnps.GNPSFormat.SNETSV2" class="md-nav__link">
+    <span class="md-ellipsis">
+      <code class="doc-symbol doc-symbol-toc doc-symbol-attribute"></code>&nbsp;SNETSV2
+    </span>
+  </a>
+  
+</li>
+        
+          <li class="md-nav__item">
+  <a href="#nplinker.metabolomics.gnps.GNPSFormat.FBMN" class="md-nav__link">
+    <span class="md-ellipsis">
+      <code class="doc-symbol doc-symbol-toc doc-symbol-attribute"></code>&nbsp;FBMN
+    </span>
+  </a>
+  
+</li>
+        
+          <li class="md-nav__item">
+  <a href="#nplinker.metabolomics.gnps.GNPSFormat.Unknown" class="md-nav__link">
+    <span class="md-ellipsis">
+      <code class="doc-symbol doc-symbol-toc doc-symbol-attribute"></code>&nbsp;Unknown
+    </span>
+  </a>
+  
+</li>
+        
+      </ul>
+    </nav>
+  
 </li>
         
           <li class="md-nav__item">
@@ -1546,6 +1648,24 @@
     <nav class="md-nav" aria-label=" GNPSDownloader">
       <ul class="md-nav__list">
         
+          <li class="md-nav__item">
+  <a href="#nplinker.metabolomics.gnps.GNPSDownloader.GNPS_DATA_DOWNLOAD_URL" class="md-nav__link">
+    <span class="md-ellipsis">
+      <code class="doc-symbol doc-symbol-toc doc-symbol-attribute"></code>&nbsp;GNPS_DATA_DOWNLOAD_URL
+    </span>
+  </a>
+  
+</li>
+        
+          <li class="md-nav__item">
+  <a href="#nplinker.metabolomics.gnps.GNPSDownloader.GNPS_DATA_DOWNLOAD_URL_FBMN" class="md-nav__link">
+    <span class="md-ellipsis">
+      <code class="doc-symbol doc-symbol-toc doc-symbol-attribute"></code>&nbsp;GNPS_DATA_DOWNLOAD_URL_FBMN
+    </span>
+  </a>
+  
+</li>
+        
           <li class="md-nav__item">
   <a href="#nplinker.metabolomics.gnps.GNPSDownloader.gnps_format" class="md-nav__link">
     <span class="md-ellipsis">
@@ -1841,6 +1961,94 @@ <h3 id="nplinker.metabolomics.gnps.GNPSFormat" class="doc doc-heading">
 
 
 
+<div class="doc doc-object doc-attribute">
+
+
+
+<h4 id="nplinker.metabolomics.gnps.GNPSFormat.SNETS" class="doc doc-heading">
+<code class="doc-symbol doc-symbol-heading doc-symbol-attribute"></code>          <span class="doc doc-object-name doc-attribute-name">SNETS</span>
+
+  
+  <span class="doc doc-labels">
+      <small class="doc doc-label doc-label-class-attribute"><code>class-attribute</code></small>
+      <small class="doc doc-label doc-label-instance-attribute"><code>instance-attribute</code></small>
+  </span>
+
+<a href="#nplinker.metabolomics.gnps.GNPSFormat.SNETS" class="headerlink" title="Permanent link">&para;</a></h4>
+<div class="language-python doc-signature highlight"><pre><span></span><code><a id="__codelineno-0-1" name="__codelineno-0-1" href="#__codelineno-0-1"></a><span class="n">SNETS</span> <span class="o">=</span> <span class="s1">&#39;METABOLOMICS-SNETS&#39;</span>
+</code></pre></div>
+
+  <div class="doc doc-contents ">
+  </div>
+
+</div>
+
+<div class="doc doc-object doc-attribute">
+
+
+
+<h4 id="nplinker.metabolomics.gnps.GNPSFormat.SNETSV2" class="doc doc-heading">
+<code class="doc-symbol doc-symbol-heading doc-symbol-attribute"></code>          <span class="doc doc-object-name doc-attribute-name">SNETSV2</span>
+
+  
+  <span class="doc doc-labels">
+      <small class="doc doc-label doc-label-class-attribute"><code>class-attribute</code></small>
+      <small class="doc doc-label doc-label-instance-attribute"><code>instance-attribute</code></small>
+  </span>
+
+<a href="#nplinker.metabolomics.gnps.GNPSFormat.SNETSV2" class="headerlink" title="Permanent link">&para;</a></h4>
+<div class="language-python doc-signature highlight"><pre><span></span><code><a id="__codelineno-0-1" name="__codelineno-0-1" href="#__codelineno-0-1"></a><span class="n">SNETSV2</span> <span class="o">=</span> <span class="s1">&#39;METABOLOMICS-SNETS-V2&#39;</span>
+</code></pre></div>
+
+  <div class="doc doc-contents ">
+  </div>
+
+</div>
+
+<div class="doc doc-object doc-attribute">
+
+
+
+<h4 id="nplinker.metabolomics.gnps.GNPSFormat.FBMN" class="doc doc-heading">
+<code class="doc-symbol doc-symbol-heading doc-symbol-attribute"></code>          <span class="doc doc-object-name doc-attribute-name">FBMN</span>
+
+  
+  <span class="doc doc-labels">
+      <small class="doc doc-label doc-label-class-attribute"><code>class-attribute</code></small>
+      <small class="doc doc-label doc-label-instance-attribute"><code>instance-attribute</code></small>
+  </span>
+
+<a href="#nplinker.metabolomics.gnps.GNPSFormat.FBMN" class="headerlink" title="Permanent link">&para;</a></h4>
+<div class="language-python doc-signature highlight"><pre><span></span><code><a id="__codelineno-0-1" name="__codelineno-0-1" href="#__codelineno-0-1"></a><span class="n">FBMN</span> <span class="o">=</span> <span class="s1">&#39;FEATURE-BASED-MOLECULAR-NETWORKING&#39;</span>
+</code></pre></div>
+
+  <div class="doc doc-contents ">
+  </div>
+
+</div>
+
+<div class="doc doc-object doc-attribute">
+
+
+
+<h4 id="nplinker.metabolomics.gnps.GNPSFormat.Unknown" class="doc doc-heading">
+<code class="doc-symbol doc-symbol-heading doc-symbol-attribute"></code>          <span class="doc doc-object-name doc-attribute-name">Unknown</span>
+
+  
+  <span class="doc doc-labels">
+      <small class="doc doc-label doc-label-class-attribute"><code>class-attribute</code></small>
+      <small class="doc doc-label doc-label-instance-attribute"><code>instance-attribute</code></small>
+  </span>
+
+<a href="#nplinker.metabolomics.gnps.GNPSFormat.Unknown" class="headerlink" title="Permanent link">&para;</a></h4>
+<div class="language-python doc-signature highlight"><pre><span></span><code><a id="__codelineno-0-1" name="__codelineno-0-1" href="#__codelineno-0-1"></a><span class="n">Unknown</span> <span class="o">=</span> <span class="s1">&#39;Unknown-GNPS-Workflow&#39;</span>
+</code></pre></div>
+
+  <div class="doc doc-contents ">
+  </div>
+
+</div>
+
 
 
 
@@ -1872,6 +2080,44 @@ <h3 id="nplinker.metabolomics.gnps.GNPSDownloader" class="doc doc-heading">
 
 
 
+  <p><strong>Attributes:</strong></p>
+  <table>
+    <thead>
+      <tr>
+        <th>Name</th>
+        <th>Type</th>
+        <th>Description</th>
+      </tr>
+    </thead>
+    <tbody>
+        <tr>
+          <td><code><a class="autorefs autorefs-internal" title="nplinker.metabolomics.gnps.GNPSDownloader.GNPS_DATA_DOWNLOAD_URL" href="#nplinker.metabolomics.gnps.GNPSDownloader.GNPS_DATA_DOWNLOAD_URL">GNPS_DATA_DOWNLOAD_URL</a></code></td>
+          <td>
+                <code><a class="autorefs autorefs-external" href="https://docs.python.org/3/library/stdtypes.html#str">str</a></code>
+          </td>
+          <td>
+            <div class="doc-md-description">
+              <p>URL template for downloading GNPS data.</p>
+            </div>
+          </td>
+        </tr>
+        <tr>
+          <td><code><a class="autorefs autorefs-internal" title="nplinker.metabolomics.gnps.GNPSDownloader.GNPS_DATA_DOWNLOAD_URL_FBMN" href="#nplinker.metabolomics.gnps.GNPSDownloader.GNPS_DATA_DOWNLOAD_URL_FBMN">GNPS_DATA_DOWNLOAD_URL_FBMN</a></code></td>
+          <td>
+                <code><a class="autorefs autorefs-external" href="https://docs.python.org/3/library/stdtypes.html#str">str</a></code>
+          </td>
+          <td>
+            <div class="doc-md-description">
+              <p>URL template for downloading GNPS data for FBMN.</p>
+            </div>
+          </td>
+        </tr>
+    </tbody>
+  </table>
+  
+
+
+
   <p><strong>Parameters:</strong></p>
   <table>
     <thead>
@@ -1947,16 +2193,7 @@ <h3 id="nplinker.metabolomics.gnps.GNPSDownloader" class="doc doc-heading">
 
                 <details class="quote">
                   <summary>Source code in <code>src/nplinker/metabolomics/gnps/gnps_downloader.py</code></summary>
-                  <div class="language-python highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal"><a href="#__codelineno-0-22">22</a></span>
-<span class="normal"><a href="#__codelineno-0-23">23</a></span>
-<span class="normal"><a href="#__codelineno-0-24">24</a></span>
-<span class="normal"><a href="#__codelineno-0-25">25</a></span>
-<span class="normal"><a href="#__codelineno-0-26">26</a></span>
-<span class="normal"><a href="#__codelineno-0-27">27</a></span>
-<span class="normal"><a href="#__codelineno-0-28">28</a></span>
-<span class="normal"><a href="#__codelineno-0-29">29</a></span>
-<span class="normal"><a href="#__codelineno-0-30">30</a></span>
-<span class="normal"><a href="#__codelineno-0-31">31</a></span>
+                  <div class="language-python highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal"><a href="#__codelineno-0-31">31</a></span>
 <span class="normal"><a href="#__codelineno-0-32">32</a></span>
 <span class="normal"><a href="#__codelineno-0-33">33</a></span>
 <span class="normal"><a href="#__codelineno-0-34">34</a></span>
@@ -1975,35 +2212,40 @@ <h3 id="nplinker.metabolomics.gnps.GNPSDownloader" class="doc doc-heading">
 <span class="normal"><a href="#__codelineno-0-47">47</a></span>
 <span class="normal"><a href="#__codelineno-0-48">48</a></span>
 <span class="normal"><a href="#__codelineno-0-49">49</a></span>
-<span class="normal"><a href="#__codelineno-0-50">50</a></span></pre></div></td><td class="code"><div><pre><span></span><code><a id="__codelineno-0-22" name="__codelineno-0-22"></a><span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">task_id</span><span class="p">:</span> <span class="nb">str</span><span class="p">,</span> <span class="n">download_root</span><span class="p">:</span> <span class="nb">str</span> <span class="o">|</span> <span class="n">PathLike</span><span class="p">):</span>
-<a id="__codelineno-0-23" name="__codelineno-0-23"></a><span class="w">    </span><span class="sd">&quot;&quot;&quot;Download GNPS zip archive for the given task id.</span>
-<a id="__codelineno-0-24" name="__codelineno-0-24"></a>
-<a id="__codelineno-0-25" name="__codelineno-0-25"></a><span class="sd">    Note that only GNPS workflows listed in the GNPSFormat enum are supported.</span>
-<a id="__codelineno-0-26" name="__codelineno-0-26"></a>
-<a id="__codelineno-0-27" name="__codelineno-0-27"></a><span class="sd">    Args:</span>
-<a id="__codelineno-0-28" name="__codelineno-0-28"></a><span class="sd">        task_id: GNPS task id, identifying the data to be downloaded.</span>
-<a id="__codelineno-0-29" name="__codelineno-0-29"></a><span class="sd">        download_root: Path where to store the downloaded archive.</span>
-<a id="__codelineno-0-30" name="__codelineno-0-30"></a>
-<a id="__codelineno-0-31" name="__codelineno-0-31"></a><span class="sd">    Raises:</span>
-<a id="__codelineno-0-32" name="__codelineno-0-32"></a><span class="sd">        ValueError: If the given task id does not correspond to a supported</span>
-<a id="__codelineno-0-33" name="__codelineno-0-33"></a><span class="sd">            GNPS workflow.</span>
-<a id="__codelineno-0-34" name="__codelineno-0-34"></a>
-<a id="__codelineno-0-35" name="__codelineno-0-35"></a><span class="sd">    Examples:</span>
-<a id="__codelineno-0-36" name="__codelineno-0-36"></a><span class="sd">        &gt;&gt;&gt; GNPSDownloader(&quot;c22f44b14a3d450eb836d607cb9521bb&quot;, &quot;~/downloads&quot;)</span>
-<a id="__codelineno-0-37" name="__codelineno-0-37"></a><span class="sd">    &quot;&quot;&quot;</span>
-<a id="__codelineno-0-38" name="__codelineno-0-38"></a>    <span class="n">gnps_format</span> <span class="o">=</span> <span class="n">gnps_format_from_task_id</span><span class="p">(</span><span class="n">task_id</span><span class="p">)</span>
-<a id="__codelineno-0-39" name="__codelineno-0-39"></a>    <span class="k">if</span> <span class="n">gnps_format</span> <span class="o">==</span> <span class="n">GNPSFormat</span><span class="o">.</span><span class="n">Unknown</span><span class="p">:</span>
-<a id="__codelineno-0-40" name="__codelineno-0-40"></a>        <span class="k">raise</span> <span class="ne">ValueError</span><span class="p">(</span>
-<a id="__codelineno-0-41" name="__codelineno-0-41"></a>            <span class="sa">f</span><span class="s2">&quot;Unknown workflow type for GNPS task &#39;</span><span class="si">{</span><span class="n">task_id</span><span class="si">}</span><span class="s2">&#39;.&quot;</span>
-<a id="__codelineno-0-42" name="__codelineno-0-42"></a>            <span class="sa">f</span><span class="s2">&quot;Supported GNPS workflows are described in the GNPSFormat enum, &quot;</span>
-<a id="__codelineno-0-43" name="__codelineno-0-43"></a>            <span class="sa">f</span><span class="s2">&quot;including such as &#39;METABOLOMICS-SNETS&#39;, &#39;METABOLOMICS-SNETS-V2&#39; &quot;</span>
-<a id="__codelineno-0-44" name="__codelineno-0-44"></a>            <span class="sa">f</span><span class="s2">&quot;and &#39;FEATURE-BASED-MOLECULAR-NETWORKING&#39;.&quot;</span>
-<a id="__codelineno-0-45" name="__codelineno-0-45"></a>        <span class="p">)</span>
-<a id="__codelineno-0-46" name="__codelineno-0-46"></a>
-<a id="__codelineno-0-47" name="__codelineno-0-47"></a>    <span class="bp">self</span><span class="o">.</span><span class="n">_task_id</span> <span class="o">=</span> <span class="n">task_id</span>
-<a id="__codelineno-0-48" name="__codelineno-0-48"></a>    <span class="bp">self</span><span class="o">.</span><span class="n">_download_root</span><span class="p">:</span> <span class="n">Path</span> <span class="o">=</span> <span class="n">Path</span><span class="p">(</span><span class="n">download_root</span><span class="p">)</span>
-<a id="__codelineno-0-49" name="__codelineno-0-49"></a>    <span class="bp">self</span><span class="o">.</span><span class="n">_gnps_format</span> <span class="o">=</span> <span class="n">gnps_format</span>
-<a id="__codelineno-0-50" name="__codelineno-0-50"></a>    <span class="bp">self</span><span class="o">.</span><span class="n">_file_name</span> <span class="o">=</span> <span class="n">gnps_format</span><span class="o">.</span><span class="n">value</span> <span class="o">+</span> <span class="s2">&quot;-&quot;</span> <span class="o">+</span> <span class="bp">self</span><span class="o">.</span><span class="n">_task_id</span> <span class="o">+</span> <span class="s2">&quot;.zip&quot;</span>
+<span class="normal"><a href="#__codelineno-0-50">50</a></span>
+<span class="normal"><a href="#__codelineno-0-51">51</a></span>
+<span class="normal"><a href="#__codelineno-0-52">52</a></span>
+<span class="normal"><a href="#__codelineno-0-53">53</a></span>
+<span class="normal"><a href="#__codelineno-0-54">54</a></span>
+<span class="normal"><a href="#__codelineno-0-55">55</a></span>
+<span class="normal"><a href="#__codelineno-0-56">56</a></span>
+<span class="normal"><a href="#__codelineno-0-57">57</a></span></pre></div></td><td class="code"><div><pre><span></span><code><a id="__codelineno-0-31" name="__codelineno-0-31"></a><span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">task_id</span><span class="p">:</span> <span class="nb">str</span><span class="p">,</span> <span class="n">download_root</span><span class="p">:</span> <span class="nb">str</span> <span class="o">|</span> <span class="n">PathLike</span><span class="p">):</span>
+<a id="__codelineno-0-32" name="__codelineno-0-32"></a><span class="w">    </span><span class="sd">&quot;&quot;&quot;Initialize the GNPSDownloader.</span>
+<a id="__codelineno-0-33" name="__codelineno-0-33"></a>
+<a id="__codelineno-0-34" name="__codelineno-0-34"></a><span class="sd">    Args:</span>
+<a id="__codelineno-0-35" name="__codelineno-0-35"></a><span class="sd">        task_id: GNPS task id, identifying the data to be downloaded.</span>
+<a id="__codelineno-0-36" name="__codelineno-0-36"></a><span class="sd">        download_root: Path where to store the downloaded archive.</span>
+<a id="__codelineno-0-37" name="__codelineno-0-37"></a>
+<a id="__codelineno-0-38" name="__codelineno-0-38"></a><span class="sd">    Raises:</span>
+<a id="__codelineno-0-39" name="__codelineno-0-39"></a><span class="sd">        ValueError: If the given task id does not correspond to a supported</span>
+<a id="__codelineno-0-40" name="__codelineno-0-40"></a><span class="sd">            GNPS workflow.</span>
+<a id="__codelineno-0-41" name="__codelineno-0-41"></a>
+<a id="__codelineno-0-42" name="__codelineno-0-42"></a><span class="sd">    Examples:</span>
+<a id="__codelineno-0-43" name="__codelineno-0-43"></a><span class="sd">        &gt;&gt;&gt; GNPSDownloader(&quot;c22f44b14a3d450eb836d607cb9521bb&quot;, &quot;~/downloads&quot;)</span>
+<a id="__codelineno-0-44" name="__codelineno-0-44"></a><span class="sd">    &quot;&quot;&quot;</span>
+<a id="__codelineno-0-45" name="__codelineno-0-45"></a>    <span class="n">gnps_format</span> <span class="o">=</span> <span class="n">gnps_format_from_task_id</span><span class="p">(</span><span class="n">task_id</span><span class="p">)</span>
+<a id="__codelineno-0-46" name="__codelineno-0-46"></a>    <span class="k">if</span> <span class="n">gnps_format</span> <span class="o">==</span> <span class="n">GNPSFormat</span><span class="o">.</span><span class="n">Unknown</span><span class="p">:</span>
+<a id="__codelineno-0-47" name="__codelineno-0-47"></a>        <span class="k">raise</span> <span class="ne">ValueError</span><span class="p">(</span>
+<a id="__codelineno-0-48" name="__codelineno-0-48"></a>            <span class="sa">f</span><span class="s2">&quot;Unknown workflow type for GNPS task &#39;</span><span class="si">{</span><span class="n">task_id</span><span class="si">}</span><span class="s2">&#39;.&quot;</span>
+<a id="__codelineno-0-49" name="__codelineno-0-49"></a>            <span class="sa">f</span><span class="s2">&quot;Supported GNPS workflows are described in the GNPSFormat enum, &quot;</span>
+<a id="__codelineno-0-50" name="__codelineno-0-50"></a>            <span class="sa">f</span><span class="s2">&quot;including such as &#39;METABOLOMICS-SNETS&#39;, &#39;METABOLOMICS-SNETS-V2&#39; &quot;</span>
+<a id="__codelineno-0-51" name="__codelineno-0-51"></a>            <span class="sa">f</span><span class="s2">&quot;and &#39;FEATURE-BASED-MOLECULAR-NETWORKING&#39;.&quot;</span>
+<a id="__codelineno-0-52" name="__codelineno-0-52"></a>        <span class="p">)</span>
+<a id="__codelineno-0-53" name="__codelineno-0-53"></a>
+<a id="__codelineno-0-54" name="__codelineno-0-54"></a>    <span class="bp">self</span><span class="o">.</span><span class="n">_task_id</span> <span class="o">=</span> <span class="n">task_id</span>
+<a id="__codelineno-0-55" name="__codelineno-0-55"></a>    <span class="bp">self</span><span class="o">.</span><span class="n">_download_root</span><span class="p">:</span> <span class="n">Path</span> <span class="o">=</span> <span class="n">Path</span><span class="p">(</span><span class="n">download_root</span><span class="p">)</span>
+<a id="__codelineno-0-56" name="__codelineno-0-56"></a>    <span class="bp">self</span><span class="o">.</span><span class="n">_gnps_format</span> <span class="o">=</span> <span class="n">gnps_format</span>
+<a id="__codelineno-0-57" name="__codelineno-0-57"></a>    <span class="bp">self</span><span class="o">.</span><span class="n">_file_name</span> <span class="o">=</span> <span class="n">gnps_format</span><span class="o">.</span><span class="n">value</span> <span class="o">+</span> <span class="s2">&quot;-&quot;</span> <span class="o">+</span> <span class="bp">self</span><span class="o">.</span><span class="n">_task_id</span> <span class="o">+</span> <span class="s2">&quot;.zip&quot;</span>
 </code></pre></div></td></tr></table></div>
                 </details>
 
@@ -2017,6 +2259,50 @@ <h3 id="nplinker.metabolomics.gnps.GNPSDownloader" class="doc doc-heading">
 
 
 
+<div class="doc doc-object doc-attribute">
+
+
+
+<h4 id="nplinker.metabolomics.gnps.GNPSDownloader.GNPS_DATA_DOWNLOAD_URL" class="doc doc-heading">
+<code class="doc-symbol doc-symbol-heading doc-symbol-attribute"></code>          <span class="doc doc-object-name doc-attribute-name">GNPS_DATA_DOWNLOAD_URL</span>
+
+  
+  <span class="doc doc-labels">
+      <small class="doc doc-label doc-label-class-attribute"><code>class-attribute</code></small>
+      <small class="doc doc-label doc-label-instance-attribute"><code>instance-attribute</code></small>
+  </span>
+
+<a href="#nplinker.metabolomics.gnps.GNPSDownloader.GNPS_DATA_DOWNLOAD_URL" class="headerlink" title="Permanent link">&para;</a></h4>
+<div class="language-python doc-signature highlight"><pre><span></span><code><a id="__codelineno-0-1" name="__codelineno-0-1" href="#__codelineno-0-1"></a><span class="n">GNPS_DATA_DOWNLOAD_URL</span><span class="p">:</span> <span class="n"><a class="autorefs autorefs-external" href="https://docs.python.org/3/library/stdtypes.html#str">str</a></span> <span class="o">=</span> <span class="s1">&#39;https://gnps.ucsd.edu/ProteoSAFe/DownloadResult?task=</span><span class="si">{}</span><span class="s1">&amp;view=download_clustered_spectra&#39;</span>
+</code></pre></div>
+
+  <div class="doc doc-contents ">
+  </div>
+
+</div>
+
+<div class="doc doc-object doc-attribute">
+
+
+
+<h4 id="nplinker.metabolomics.gnps.GNPSDownloader.GNPS_DATA_DOWNLOAD_URL_FBMN" class="doc doc-heading">
+<code class="doc-symbol doc-symbol-heading doc-symbol-attribute"></code>          <span class="doc doc-object-name doc-attribute-name">GNPS_DATA_DOWNLOAD_URL_FBMN</span>
+
+  
+  <span class="doc doc-labels">
+      <small class="doc doc-label doc-label-class-attribute"><code>class-attribute</code></small>
+      <small class="doc doc-label doc-label-instance-attribute"><code>instance-attribute</code></small>
+  </span>
+
+<a href="#nplinker.metabolomics.gnps.GNPSDownloader.GNPS_DATA_DOWNLOAD_URL_FBMN" class="headerlink" title="Permanent link">&para;</a></h4>
+<div class="language-python doc-signature highlight"><pre><span></span><code><a id="__codelineno-0-1" name="__codelineno-0-1" href="#__codelineno-0-1"></a><span class="n">GNPS_DATA_DOWNLOAD_URL_FBMN</span><span class="p">:</span> <span class="n"><a class="autorefs autorefs-external" href="https://docs.python.org/3/library/stdtypes.html#str">str</a></span> <span class="o">=</span> <span class="s1">&#39;https://gnps.ucsd.edu/ProteoSAFe/DownloadResult?task=</span><span class="si">{}</span><span class="s1">&amp;view=download_cytoscape_data&#39;</span>
+</code></pre></div>
+
+  <div class="doc doc-contents ">
+  </div>
+
+</div>
+
 <div class="doc doc-object doc-attribute">
 
 
@@ -2086,23 +2372,23 @@ <h4 id="nplinker.metabolomics.gnps.GNPSDownloader.download" class="doc doc-headi
 
           <details class="quote">
             <summary>Source code in <code>src/nplinker/metabolomics/gnps/gnps_downloader.py</code></summary>
-            <div class="language-python highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal"><a href="#__codelineno-0-61">61</a></span>
-<span class="normal"><a href="#__codelineno-0-62">62</a></span>
-<span class="normal"><a href="#__codelineno-0-63">63</a></span>
-<span class="normal"><a href="#__codelineno-0-64">64</a></span>
-<span class="normal"><a href="#__codelineno-0-65">65</a></span>
-<span class="normal"><a href="#__codelineno-0-66">66</a></span>
-<span class="normal"><a href="#__codelineno-0-67">67</a></span>
-<span class="normal"><a href="#__codelineno-0-68">68</a></span>
-<span class="normal"><a href="#__codelineno-0-69">69</a></span></pre></div></td><td class="code"><div><pre><span></span><code><a id="__codelineno-0-61" name="__codelineno-0-61"></a><span class="k">def</span> <span class="nf">download</span><span class="p">(</span><span class="bp">self</span><span class="p">)</span> <span class="o">-&gt;</span> <span class="s2">&quot;Self&quot;</span><span class="p">:</span>
-<a id="__codelineno-0-62" name="__codelineno-0-62"></a><span class="w">    </span><span class="sd">&quot;&quot;&quot;Execute the downloading process.</span>
-<a id="__codelineno-0-63" name="__codelineno-0-63"></a>
-<a id="__codelineno-0-64" name="__codelineno-0-64"></a><span class="sd">    Note: GNPS data is downloaded using the POST method (empty payload is OK).</span>
-<a id="__codelineno-0-65" name="__codelineno-0-65"></a><span class="sd">    &quot;&quot;&quot;</span>
-<a id="__codelineno-0-66" name="__codelineno-0-66"></a>    <span class="n">download_url</span><span class="p">(</span>
-<a id="__codelineno-0-67" name="__codelineno-0-67"></a>        <span class="bp">self</span><span class="o">.</span><span class="n">get_url</span><span class="p">(),</span> <span class="bp">self</span><span class="o">.</span><span class="n">_download_root</span><span class="p">,</span> <span class="n">filename</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">_file_name</span><span class="p">,</span> <span class="n">http_method</span><span class="o">=</span><span class="s2">&quot;POST&quot;</span>
-<a id="__codelineno-0-68" name="__codelineno-0-68"></a>    <span class="p">)</span>
-<a id="__codelineno-0-69" name="__codelineno-0-69"></a>    <span class="k">return</span> <span class="bp">self</span>
+            <div class="language-python highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal"><a href="#__codelineno-0-68">68</a></span>
+<span class="normal"><a href="#__codelineno-0-69">69</a></span>
+<span class="normal"><a href="#__codelineno-0-70">70</a></span>
+<span class="normal"><a href="#__codelineno-0-71">71</a></span>
+<span class="normal"><a href="#__codelineno-0-72">72</a></span>
+<span class="normal"><a href="#__codelineno-0-73">73</a></span>
+<span class="normal"><a href="#__codelineno-0-74">74</a></span>
+<span class="normal"><a href="#__codelineno-0-75">75</a></span>
+<span class="normal"><a href="#__codelineno-0-76">76</a></span></pre></div></td><td class="code"><div><pre><span></span><code><a id="__codelineno-0-68" name="__codelineno-0-68"></a><span class="k">def</span> <span class="nf">download</span><span class="p">(</span><span class="bp">self</span><span class="p">)</span> <span class="o">-&gt;</span> <span class="s2">&quot;Self&quot;</span><span class="p">:</span>
+<a id="__codelineno-0-69" name="__codelineno-0-69"></a><span class="w">    </span><span class="sd">&quot;&quot;&quot;Execute the downloading process.</span>
+<a id="__codelineno-0-70" name="__codelineno-0-70"></a>
+<a id="__codelineno-0-71" name="__codelineno-0-71"></a><span class="sd">    Note: GNPS data is downloaded using the POST method (empty payload is OK).</span>
+<a id="__codelineno-0-72" name="__codelineno-0-72"></a><span class="sd">    &quot;&quot;&quot;</span>
+<a id="__codelineno-0-73" name="__codelineno-0-73"></a>    <span class="n">download_url</span><span class="p">(</span>
+<a id="__codelineno-0-74" name="__codelineno-0-74"></a>        <span class="bp">self</span><span class="o">.</span><span class="n">get_url</span><span class="p">(),</span> <span class="bp">self</span><span class="o">.</span><span class="n">_download_root</span><span class="p">,</span> <span class="n">filename</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">_file_name</span><span class="p">,</span> <span class="n">http_method</span><span class="o">=</span><span class="s2">&quot;POST&quot;</span>
+<a id="__codelineno-0-75" name="__codelineno-0-75"></a>    <span class="p">)</span>
+<a id="__codelineno-0-76" name="__codelineno-0-76"></a>    <span class="k">return</span> <span class="bp">self</span>
 </code></pre></div></td></tr></table></div>
           </details>
   </div>
@@ -2152,19 +2438,19 @@ <h4 id="nplinker.metabolomics.gnps.GNPSDownloader.get_download_file" class="doc
 
           <details class="quote">
             <summary>Source code in <code>src/nplinker/metabolomics/gnps/gnps_downloader.py</code></summary>
-            <div class="language-python highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal"><a href="#__codelineno-0-71">71</a></span>
-<span class="normal"><a href="#__codelineno-0-72">72</a></span>
-<span class="normal"><a href="#__codelineno-0-73">73</a></span>
-<span class="normal"><a href="#__codelineno-0-74">74</a></span>
-<span class="normal"><a href="#__codelineno-0-75">75</a></span>
-<span class="normal"><a href="#__codelineno-0-76">76</a></span>
-<span class="normal"><a href="#__codelineno-0-77">77</a></span></pre></div></td><td class="code"><div><pre><span></span><code><a id="__codelineno-0-71" name="__codelineno-0-71"></a><span class="k">def</span> <span class="nf">get_download_file</span><span class="p">(</span><span class="bp">self</span><span class="p">)</span> <span class="o">-&gt;</span> <span class="nb">str</span><span class="p">:</span>
-<a id="__codelineno-0-72" name="__codelineno-0-72"></a><span class="w">    </span><span class="sd">&quot;&quot;&quot;Get the path to the zip file.</span>
-<a id="__codelineno-0-73" name="__codelineno-0-73"></a>
-<a id="__codelineno-0-74" name="__codelineno-0-74"></a><span class="sd">    Returns:</span>
-<a id="__codelineno-0-75" name="__codelineno-0-75"></a><span class="sd">        Download path as string</span>
-<a id="__codelineno-0-76" name="__codelineno-0-76"></a><span class="sd">    &quot;&quot;&quot;</span>
-<a id="__codelineno-0-77" name="__codelineno-0-77"></a>    <span class="k">return</span> <span class="nb">str</span><span class="p">(</span><span class="n">Path</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">_download_root</span><span class="p">)</span> <span class="o">/</span> <span class="bp">self</span><span class="o">.</span><span class="n">_file_name</span><span class="p">)</span>
+            <div class="language-python highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal"><a href="#__codelineno-0-78">78</a></span>
+<span class="normal"><a href="#__codelineno-0-79">79</a></span>
+<span class="normal"><a href="#__codelineno-0-80">80</a></span>
+<span class="normal"><a href="#__codelineno-0-81">81</a></span>
+<span class="normal"><a href="#__codelineno-0-82">82</a></span>
+<span class="normal"><a href="#__codelineno-0-83">83</a></span>
+<span class="normal"><a href="#__codelineno-0-84">84</a></span></pre></div></td><td class="code"><div><pre><span></span><code><a id="__codelineno-0-78" name="__codelineno-0-78"></a><span class="k">def</span> <span class="nf">get_download_file</span><span class="p">(</span><span class="bp">self</span><span class="p">)</span> <span class="o">-&gt;</span> <span class="nb">str</span><span class="p">:</span>
+<a id="__codelineno-0-79" name="__codelineno-0-79"></a><span class="w">    </span><span class="sd">&quot;&quot;&quot;Get the path to the zip file.</span>
+<a id="__codelineno-0-80" name="__codelineno-0-80"></a>
+<a id="__codelineno-0-81" name="__codelineno-0-81"></a><span class="sd">    Returns:</span>
+<a id="__codelineno-0-82" name="__codelineno-0-82"></a><span class="sd">        Download path as string</span>
+<a id="__codelineno-0-83" name="__codelineno-0-83"></a><span class="sd">    &quot;&quot;&quot;</span>
+<a id="__codelineno-0-84" name="__codelineno-0-84"></a>    <span class="k">return</span> <span class="nb">str</span><span class="p">(</span><span class="n">Path</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">_download_root</span><span class="p">)</span> <span class="o">/</span> <span class="bp">self</span><span class="o">.</span><span class="n">_file_name</span><span class="p">)</span>
 </code></pre></div></td></tr></table></div>
           </details>
   </div>
@@ -2214,19 +2500,19 @@ <h4 id="nplinker.metabolomics.gnps.GNPSDownloader.get_task_id" class="doc doc-he
 
           <details class="quote">
             <summary>Source code in <code>src/nplinker/metabolomics/gnps/gnps_downloader.py</code></summary>
-            <div class="language-python highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal"><a href="#__codelineno-0-79">79</a></span>
-<span class="normal"><a href="#__codelineno-0-80">80</a></span>
-<span class="normal"><a href="#__codelineno-0-81">81</a></span>
-<span class="normal"><a href="#__codelineno-0-82">82</a></span>
-<span class="normal"><a href="#__codelineno-0-83">83</a></span>
-<span class="normal"><a href="#__codelineno-0-84">84</a></span>
-<span class="normal"><a href="#__codelineno-0-85">85</a></span></pre></div></td><td class="code"><div><pre><span></span><code><a id="__codelineno-0-79" name="__codelineno-0-79"></a><span class="k">def</span> <span class="nf">get_task_id</span><span class="p">(</span><span class="bp">self</span><span class="p">)</span> <span class="o">-&gt;</span> <span class="nb">str</span><span class="p">:</span>
-<a id="__codelineno-0-80" name="__codelineno-0-80"></a><span class="w">    </span><span class="sd">&quot;&quot;&quot;Get the GNPS task id.</span>
-<a id="__codelineno-0-81" name="__codelineno-0-81"></a>
-<a id="__codelineno-0-82" name="__codelineno-0-82"></a><span class="sd">    Returns:</span>
-<a id="__codelineno-0-83" name="__codelineno-0-83"></a><span class="sd">        Task id as string.</span>
-<a id="__codelineno-0-84" name="__codelineno-0-84"></a><span class="sd">    &quot;&quot;&quot;</span>
-<a id="__codelineno-0-85" name="__codelineno-0-85"></a>    <span class="k">return</span> <span class="bp">self</span><span class="o">.</span><span class="n">_task_id</span>
+            <div class="language-python highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal"><a href="#__codelineno-0-86">86</a></span>
+<span class="normal"><a href="#__codelineno-0-87">87</a></span>
+<span class="normal"><a href="#__codelineno-0-88">88</a></span>
+<span class="normal"><a href="#__codelineno-0-89">89</a></span>
+<span class="normal"><a href="#__codelineno-0-90">90</a></span>
+<span class="normal"><a href="#__codelineno-0-91">91</a></span>
+<span class="normal"><a href="#__codelineno-0-92">92</a></span></pre></div></td><td class="code"><div><pre><span></span><code><a id="__codelineno-0-86" name="__codelineno-0-86"></a><span class="k">def</span> <span class="nf">get_task_id</span><span class="p">(</span><span class="bp">self</span><span class="p">)</span> <span class="o">-&gt;</span> <span class="nb">str</span><span class="p">:</span>
+<a id="__codelineno-0-87" name="__codelineno-0-87"></a><span class="w">    </span><span class="sd">&quot;&quot;&quot;Get the GNPS task id.</span>
+<a id="__codelineno-0-88" name="__codelineno-0-88"></a>
+<a id="__codelineno-0-89" name="__codelineno-0-89"></a><span class="sd">    Returns:</span>
+<a id="__codelineno-0-90" name="__codelineno-0-90"></a><span class="sd">        Task id as string.</span>
+<a id="__codelineno-0-91" name="__codelineno-0-91"></a><span class="sd">    &quot;&quot;&quot;</span>
+<a id="__codelineno-0-92" name="__codelineno-0-92"></a>    <span class="k">return</span> <span class="bp">self</span><span class="o">.</span><span class="n">_task_id</span>
 </code></pre></div></td></tr></table></div>
           </details>
   </div>
@@ -2276,23 +2562,23 @@ <h4 id="nplinker.metabolomics.gnps.GNPSDownloader.get_url" class="doc doc-headin
 
           <details class="quote">
             <summary>Source code in <code>src/nplinker/metabolomics/gnps/gnps_downloader.py</code></summary>
-            <div class="language-python highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal"><a href="#__codelineno-0-87">87</a></span>
-<span class="normal"><a href="#__codelineno-0-88">88</a></span>
-<span class="normal"><a href="#__codelineno-0-89">89</a></span>
-<span class="normal"><a href="#__codelineno-0-90">90</a></span>
-<span class="normal"><a href="#__codelineno-0-91">91</a></span>
-<span class="normal"><a href="#__codelineno-0-92">92</a></span>
-<span class="normal"><a href="#__codelineno-0-93">93</a></span>
-<span class="normal"><a href="#__codelineno-0-94">94</a></span>
-<span class="normal"><a href="#__codelineno-0-95">95</a></span></pre></div></td><td class="code"><div><pre><span></span><code><a id="__codelineno-0-87" name="__codelineno-0-87"></a><span class="k">def</span> <span class="nf">get_url</span><span class="p">(</span><span class="bp">self</span><span class="p">)</span> <span class="o">-&gt;</span> <span class="nb">str</span><span class="p">:</span>
-<a id="__codelineno-0-88" name="__codelineno-0-88"></a><span class="w">    </span><span class="sd">&quot;&quot;&quot;Get the full URL linking to GNPS data to be dowloaded.</span>
-<a id="__codelineno-0-89" name="__codelineno-0-89"></a>
-<a id="__codelineno-0-90" name="__codelineno-0-90"></a><span class="sd">    Returns:</span>
-<a id="__codelineno-0-91" name="__codelineno-0-91"></a><span class="sd">        URL pointing to the GNPS data to be downloaded.</span>
-<a id="__codelineno-0-92" name="__codelineno-0-92"></a><span class="sd">    &quot;&quot;&quot;</span>
-<a id="__codelineno-0-93" name="__codelineno-0-93"></a>    <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">gnps_format</span> <span class="o">==</span> <span class="n">GNPSFormat</span><span class="o">.</span><span class="n">FBMN</span><span class="p">:</span>
-<a id="__codelineno-0-94" name="__codelineno-0-94"></a>        <span class="k">return</span> <span class="n">GNPSDownloader</span><span class="o">.</span><span class="n">GNPS_DATA_DOWNLOAD_URL_FBMN</span><span class="o">.</span><span class="n">format</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">_task_id</span><span class="p">)</span>
-<a id="__codelineno-0-95" name="__codelineno-0-95"></a>    <span class="k">return</span> <span class="n">GNPSDownloader</span><span class="o">.</span><span class="n">GNPS_DATA_DOWNLOAD_URL</span><span class="o">.</span><span class="n">format</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">_task_id</span><span class="p">)</span>
+            <div class="language-python highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal"><a href="#__codelineno-0-94"> 94</a></span>
+<span class="normal"><a href="#__codelineno-0-95"> 95</a></span>
+<span class="normal"><a href="#__codelineno-0-96"> 96</a></span>
+<span class="normal"><a href="#__codelineno-0-97"> 97</a></span>
+<span class="normal"><a href="#__codelineno-0-98"> 98</a></span>
+<span class="normal"><a href="#__codelineno-0-99"> 99</a></span>
+<span class="normal"><a href="#__codelineno-0-100">100</a></span>
+<span class="normal"><a href="#__codelineno-0-101">101</a></span>
+<span class="normal"><a href="#__codelineno-0-102">102</a></span></pre></div></td><td class="code"><div><pre><span></span><code><a id="__codelineno-0-94" name="__codelineno-0-94"></a><span class="k">def</span> <span class="nf">get_url</span><span class="p">(</span><span class="bp">self</span><span class="p">)</span> <span class="o">-&gt;</span> <span class="nb">str</span><span class="p">:</span>
+<a id="__codelineno-0-95" name="__codelineno-0-95"></a><span class="w">    </span><span class="sd">&quot;&quot;&quot;Get the full URL linking to GNPS data to be dowloaded.</span>
+<a id="__codelineno-0-96" name="__codelineno-0-96"></a>
+<a id="__codelineno-0-97" name="__codelineno-0-97"></a><span class="sd">    Returns:</span>
+<a id="__codelineno-0-98" name="__codelineno-0-98"></a><span class="sd">        URL pointing to the GNPS data to be downloaded.</span>
+<a id="__codelineno-0-99" name="__codelineno-0-99"></a><span class="sd">    &quot;&quot;&quot;</span>
+<a id="__codelineno-0-100" name="__codelineno-0-100"></a>    <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">gnps_format</span> <span class="o">==</span> <span class="n">GNPSFormat</span><span class="o">.</span><span class="n">FBMN</span><span class="p">:</span>
+<a id="__codelineno-0-101" name="__codelineno-0-101"></a>        <span class="k">return</span> <span class="n">GNPSDownloader</span><span class="o">.</span><span class="n">GNPS_DATA_DOWNLOAD_URL_FBMN</span><span class="o">.</span><span class="n">format</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">_task_id</span><span class="p">)</span>
+<a id="__codelineno-0-102" name="__codelineno-0-102"></a>    <span class="k">return</span> <span class="n">GNPSDownloader</span><span class="o">.</span><span class="n">GNPS_DATA_DOWNLOAD_URL</span><span class="o">.</span><span class="n">format</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">_task_id</span><span class="p">)</span>
 </code></pre></div></td></tr></table></div>
           </details>
   </div>
@@ -2356,6 +2642,7 @@ <h3 id="nplinker.metabolomics.gnps.GNPSExtractor" class="doc doc-heading">
 </ul>
 </li>
 </ol>
+  
 
 
 
@@ -2437,36 +2724,7 @@ <h3 id="nplinker.metabolomics.gnps.GNPSExtractor" class="doc doc-heading">
 
                 <details class="quote">
                   <summary>Source code in <code>src/nplinker/metabolomics/gnps/gnps_extractor.py</code></summary>
-                  <div class="language-python highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal"><a href="#__codelineno-0-12">12</a></span>
-<span class="normal"><a href="#__codelineno-0-13">13</a></span>
-<span class="normal"><a href="#__codelineno-0-14">14</a></span>
-<span class="normal"><a href="#__codelineno-0-15">15</a></span>
-<span class="normal"><a href="#__codelineno-0-16">16</a></span>
-<span class="normal"><a href="#__codelineno-0-17">17</a></span>
-<span class="normal"><a href="#__codelineno-0-18">18</a></span>
-<span class="normal"><a href="#__codelineno-0-19">19</a></span>
-<span class="normal"><a href="#__codelineno-0-20">20</a></span>
-<span class="normal"><a href="#__codelineno-0-21">21</a></span>
-<span class="normal"><a href="#__codelineno-0-22">22</a></span>
-<span class="normal"><a href="#__codelineno-0-23">23</a></span>
-<span class="normal"><a href="#__codelineno-0-24">24</a></span>
-<span class="normal"><a href="#__codelineno-0-25">25</a></span>
-<span class="normal"><a href="#__codelineno-0-26">26</a></span>
-<span class="normal"><a href="#__codelineno-0-27">27</a></span>
-<span class="normal"><a href="#__codelineno-0-28">28</a></span>
-<span class="normal"><a href="#__codelineno-0-29">29</a></span>
-<span class="normal"><a href="#__codelineno-0-30">30</a></span>
-<span class="normal"><a href="#__codelineno-0-31">31</a></span>
-<span class="normal"><a href="#__codelineno-0-32">32</a></span>
-<span class="normal"><a href="#__codelineno-0-33">33</a></span>
-<span class="normal"><a href="#__codelineno-0-34">34</a></span>
-<span class="normal"><a href="#__codelineno-0-35">35</a></span>
-<span class="normal"><a href="#__codelineno-0-36">36</a></span>
-<span class="normal"><a href="#__codelineno-0-37">37</a></span>
-<span class="normal"><a href="#__codelineno-0-38">38</a></span>
-<span class="normal"><a href="#__codelineno-0-39">39</a></span>
-<span class="normal"><a href="#__codelineno-0-40">40</a></span>
-<span class="normal"><a href="#__codelineno-0-41">41</a></span>
+                  <div class="language-python highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal"><a href="#__codelineno-0-41">41</a></span>
 <span class="normal"><a href="#__codelineno-0-42">42</a></span>
 <span class="normal"><a href="#__codelineno-0-43">43</a></span>
 <span class="normal"><a href="#__codelineno-0-44">44</a></span>
@@ -2500,70 +2758,47 @@ <h3 id="nplinker.metabolomics.gnps.GNPSExtractor" class="doc doc-heading">
 <span class="normal"><a href="#__codelineno-0-72">72</a></span>
 <span class="normal"><a href="#__codelineno-0-73">73</a></span>
 <span class="normal"><a href="#__codelineno-0-74">74</a></span>
-<span class="normal"><a href="#__codelineno-0-75">75</a></span></pre></div></td><td class="code"><div><pre><span></span><code><a id="__codelineno-0-12" name="__codelineno-0-12"></a><span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">file</span><span class="p">:</span> <span class="nb">str</span> <span class="o">|</span> <span class="n">PathLike</span><span class="p">,</span> <span class="n">extract_dir</span><span class="p">:</span> <span class="nb">str</span> <span class="o">|</span> <span class="n">PathLike</span><span class="p">):</span>
-<a id="__codelineno-0-13" name="__codelineno-0-13"></a><span class="w">    </span><span class="sd">&quot;&quot;&quot;Class to extract files from a GNPS molecular networking archive(.zip).</span>
-<a id="__codelineno-0-14" name="__codelineno-0-14"></a>
-<a id="__codelineno-0-15" name="__codelineno-0-15"></a><span class="sd">    Four files are extracted and renamed to the following names:</span>
-<a id="__codelineno-0-16" name="__codelineno-0-16"></a>
-<a id="__codelineno-0-17" name="__codelineno-0-17"></a><span class="sd">    - file_mappings(.tsv/.csv)</span>
-<a id="__codelineno-0-18" name="__codelineno-0-18"></a><span class="sd">    - spectra.mgf</span>
-<a id="__codelineno-0-19" name="__codelineno-0-19"></a><span class="sd">    - molecular_families.tsv</span>
-<a id="__codelineno-0-20" name="__codelineno-0-20"></a><span class="sd">    - annotations.tsv</span>
-<a id="__codelineno-0-21" name="__codelineno-0-21"></a>
-<a id="__codelineno-0-22" name="__codelineno-0-22"></a><span class="sd">    The files to be extracted are selected based on the GNPS workflow type,</span>
-<a id="__codelineno-0-23" name="__codelineno-0-23"></a><span class="sd">    as desribed below (in the order of the files above):</span>
-<a id="__codelineno-0-24" name="__codelineno-0-24"></a>
-<a id="__codelineno-0-25" name="__codelineno-0-25"></a><span class="sd">    1. METABOLOMICS-SNETS</span>
-<a id="__codelineno-0-26" name="__codelineno-0-26"></a><span class="sd">        - clusterinfosummarygroup_attributes_withIDs_withcomponentID/*.tsv</span>
-<a id="__codelineno-0-27" name="__codelineno-0-27"></a><span class="sd">        - METABOLOMICS-SNETS*.mgf</span>
-<a id="__codelineno-0-28" name="__codelineno-0-28"></a><span class="sd">        - networkedges_selfloop/*.pairsinfo</span>
-<a id="__codelineno-0-29" name="__codelineno-0-29"></a><span class="sd">        - result_specnets_DB/*.tsv</span>
-<a id="__codelineno-0-30" name="__codelineno-0-30"></a><span class="sd">    2. METABOLOMICS-SNETS-V2</span>
-<a id="__codelineno-0-31" name="__codelineno-0-31"></a><span class="sd">        - clusterinfosummarygroup_attributes_withIDs_withcomponentID/*.clustersummary</span>
-<a id="__codelineno-0-32" name="__codelineno-0-32"></a><span class="sd">        - METABOLOMICS-SNETS-V2*.mgf</span>
-<a id="__codelineno-0-33" name="__codelineno-0-33"></a><span class="sd">        - networkedges_selfloop/*.selfloop</span>
-<a id="__codelineno-0-34" name="__codelineno-0-34"></a><span class="sd">        - result_specnets_DB/.tsv</span>
-<a id="__codelineno-0-35" name="__codelineno-0-35"></a><span class="sd">    3. FEATURE-BASED-MOLECULAR-NETWORKING</span>
-<a id="__codelineno-0-36" name="__codelineno-0-36"></a><span class="sd">        - quantification_table*/*.csv</span>
-<a id="__codelineno-0-37" name="__codelineno-0-37"></a><span class="sd">        - spectra/*.mgf</span>
-<a id="__codelineno-0-38" name="__codelineno-0-38"></a><span class="sd">        - networkedges_selfloop/*.selfloop</span>
-<a id="__codelineno-0-39" name="__codelineno-0-39"></a><span class="sd">        - DB_result/*.tsv</span>
-<a id="__codelineno-0-40" name="__codelineno-0-40"></a>
-<a id="__codelineno-0-41" name="__codelineno-0-41"></a><span class="sd">    Args:</span>
-<a id="__codelineno-0-42" name="__codelineno-0-42"></a><span class="sd">        file: The path to the GNPS zip file.</span>
-<a id="__codelineno-0-43" name="__codelineno-0-43"></a><span class="sd">        extract_dir: path to the directory where to extract the files to.</span>
-<a id="__codelineno-0-44" name="__codelineno-0-44"></a>
-<a id="__codelineno-0-45" name="__codelineno-0-45"></a><span class="sd">    Raises:</span>
-<a id="__codelineno-0-46" name="__codelineno-0-46"></a><span class="sd">        ValueError: If the given file is an invalid GNPS archive.</span>
+<span class="normal"><a href="#__codelineno-0-75">75</a></span>
+<span class="normal"><a href="#__codelineno-0-76">76</a></span>
+<span class="normal"><a href="#__codelineno-0-77">77</a></span>
+<span class="normal"><a href="#__codelineno-0-78">78</a></span></pre></div></td><td class="code"><div><pre><span></span><code><a id="__codelineno-0-41" name="__codelineno-0-41"></a><span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">file</span><span class="p">:</span> <span class="nb">str</span> <span class="o">|</span> <span class="n">PathLike</span><span class="p">,</span> <span class="n">extract_dir</span><span class="p">:</span> <span class="nb">str</span> <span class="o">|</span> <span class="n">PathLike</span><span class="p">):</span>
+<a id="__codelineno-0-42" name="__codelineno-0-42"></a><span class="w">    </span><span class="sd">&quot;&quot;&quot;Initialize the GNPSExtractor.</span>
+<a id="__codelineno-0-43" name="__codelineno-0-43"></a>
+<a id="__codelineno-0-44" name="__codelineno-0-44"></a><span class="sd">    Args:</span>
+<a id="__codelineno-0-45" name="__codelineno-0-45"></a><span class="sd">        file: The path to the GNPS zip file.</span>
+<a id="__codelineno-0-46" name="__codelineno-0-46"></a><span class="sd">        extract_dir: path to the directory where to extract the files to.</span>
 <a id="__codelineno-0-47" name="__codelineno-0-47"></a>
-<a id="__codelineno-0-48" name="__codelineno-0-48"></a><span class="sd">    Examples:</span>
-<a id="__codelineno-0-49" name="__codelineno-0-49"></a><span class="sd">        &gt;&gt;&gt; gnps_extractor = GNPSExtractor(&quot;path/to/gnps_archive.zip&quot;, &quot;path/to/extract_dir&quot;)</span>
-<a id="__codelineno-0-50" name="__codelineno-0-50"></a><span class="sd">        &gt;&gt;&gt; gnps_extractor.gnps_format</span>
-<a id="__codelineno-0-51" name="__codelineno-0-51"></a><span class="sd">        &lt;GNPSFormat.SNETS: &#39;METABOLOMICS-SNETS&#39;&gt;</span>
-<a id="__codelineno-0-52" name="__codelineno-0-52"></a><span class="sd">        &gt;&gt;&gt; gnps_extractor.extract_dir</span>
-<a id="__codelineno-0-53" name="__codelineno-0-53"></a><span class="sd">        &#39;path/to/extract_dir&#39;</span>
-<a id="__codelineno-0-54" name="__codelineno-0-54"></a><span class="sd">    &quot;&quot;&quot;</span>
-<a id="__codelineno-0-55" name="__codelineno-0-55"></a>    <span class="n">gnps_format</span> <span class="o">=</span> <span class="n">gnps_format_from_archive</span><span class="p">(</span><span class="n">file</span><span class="p">)</span>
-<a id="__codelineno-0-56" name="__codelineno-0-56"></a>    <span class="k">if</span> <span class="n">gnps_format</span> <span class="o">==</span> <span class="n">GNPSFormat</span><span class="o">.</span><span class="n">Unknown</span><span class="p">:</span>
-<a id="__codelineno-0-57" name="__codelineno-0-57"></a>        <span class="k">raise</span> <span class="ne">ValueError</span><span class="p">(</span>
-<a id="__codelineno-0-58" name="__codelineno-0-58"></a>            <span class="sa">f</span><span class="s2">&quot;Unknown workflow type for GNPS archive &#39;</span><span class="si">{</span><span class="n">file</span><span class="si">}</span><span class="s2">&#39;.&quot;</span>
-<a id="__codelineno-0-59" name="__codelineno-0-59"></a>            <span class="sa">f</span><span class="s2">&quot;Supported GNPS workflows are described in the GNPSFormat enum, &quot;</span>
-<a id="__codelineno-0-60" name="__codelineno-0-60"></a>            <span class="sa">f</span><span class="s2">&quot;including such as &#39;METABOLOMICS-SNETS&#39;, &#39;METABOLOMICS-SNETS-V2&#39; &quot;</span>
-<a id="__codelineno-0-61" name="__codelineno-0-61"></a>            <span class="sa">f</span><span class="s2">&quot;and &#39;FEATURE-BASED-MOLECULAR-NETWORKING&#39;.&quot;</span>
-<a id="__codelineno-0-62" name="__codelineno-0-62"></a>        <span class="p">)</span>
-<a id="__codelineno-0-63" name="__codelineno-0-63"></a>
-<a id="__codelineno-0-64" name="__codelineno-0-64"></a>    <span class="bp">self</span><span class="o">.</span><span class="n">_file</span> <span class="o">=</span> <span class="n">Path</span><span class="p">(</span><span class="n">file</span><span class="p">)</span>
-<a id="__codelineno-0-65" name="__codelineno-0-65"></a>    <span class="bp">self</span><span class="o">.</span><span class="n">_extract_path</span> <span class="o">=</span> <span class="n">Path</span><span class="p">(</span><span class="n">extract_dir</span><span class="p">)</span>
-<a id="__codelineno-0-66" name="__codelineno-0-66"></a>    <span class="bp">self</span><span class="o">.</span><span class="n">_gnps_format</span> <span class="o">=</span> <span class="n">gnps_format</span>
-<a id="__codelineno-0-67" name="__codelineno-0-67"></a>    <span class="c1"># the order of filenames matters</span>
-<a id="__codelineno-0-68" name="__codelineno-0-68"></a>    <span class="bp">self</span><span class="o">.</span><span class="n">_target_files</span> <span class="o">=</span> <span class="p">[</span>
-<a id="__codelineno-0-69" name="__codelineno-0-69"></a>        <span class="s2">&quot;file_mappings&quot;</span><span class="p">,</span>
-<a id="__codelineno-0-70" name="__codelineno-0-70"></a>        <span class="s2">&quot;spectra.mgf&quot;</span><span class="p">,</span>
-<a id="__codelineno-0-71" name="__codelineno-0-71"></a>        <span class="s2">&quot;molecular_families.tsv&quot;</span><span class="p">,</span>
-<a id="__codelineno-0-72" name="__codelineno-0-72"></a>        <span class="s2">&quot;annotations.tsv&quot;</span><span class="p">,</span>
-<a id="__codelineno-0-73" name="__codelineno-0-73"></a>    <span class="p">]</span>
-<a id="__codelineno-0-74" name="__codelineno-0-74"></a>
-<a id="__codelineno-0-75" name="__codelineno-0-75"></a>    <span class="bp">self</span><span class="o">.</span><span class="n">_extract</span><span class="p">()</span>
+<a id="__codelineno-0-48" name="__codelineno-0-48"></a><span class="sd">    Raises:</span>
+<a id="__codelineno-0-49" name="__codelineno-0-49"></a><span class="sd">        ValueError: If the given file is an invalid GNPS archive.</span>
+<a id="__codelineno-0-50" name="__codelineno-0-50"></a>
+<a id="__codelineno-0-51" name="__codelineno-0-51"></a><span class="sd">    Examples:</span>
+<a id="__codelineno-0-52" name="__codelineno-0-52"></a><span class="sd">        &gt;&gt;&gt; gnps_extractor = GNPSExtractor(&quot;path/to/gnps_archive.zip&quot;, &quot;path/to/extract_dir&quot;)</span>
+<a id="__codelineno-0-53" name="__codelineno-0-53"></a><span class="sd">        &gt;&gt;&gt; gnps_extractor.gnps_format</span>
+<a id="__codelineno-0-54" name="__codelineno-0-54"></a><span class="sd">        &lt;GNPSFormat.SNETS: &#39;METABOLOMICS-SNETS&#39;&gt;</span>
+<a id="__codelineno-0-55" name="__codelineno-0-55"></a><span class="sd">        &gt;&gt;&gt; gnps_extractor.extract_dir</span>
+<a id="__codelineno-0-56" name="__codelineno-0-56"></a><span class="sd">        &#39;path/to/extract_dir&#39;</span>
+<a id="__codelineno-0-57" name="__codelineno-0-57"></a><span class="sd">    &quot;&quot;&quot;</span>
+<a id="__codelineno-0-58" name="__codelineno-0-58"></a>    <span class="n">gnps_format</span> <span class="o">=</span> <span class="n">gnps_format_from_archive</span><span class="p">(</span><span class="n">file</span><span class="p">)</span>
+<a id="__codelineno-0-59" name="__codelineno-0-59"></a>    <span class="k">if</span> <span class="n">gnps_format</span> <span class="o">==</span> <span class="n">GNPSFormat</span><span class="o">.</span><span class="n">Unknown</span><span class="p">:</span>
+<a id="__codelineno-0-60" name="__codelineno-0-60"></a>        <span class="k">raise</span> <span class="ne">ValueError</span><span class="p">(</span>
+<a id="__codelineno-0-61" name="__codelineno-0-61"></a>            <span class="sa">f</span><span class="s2">&quot;Unknown workflow type for GNPS archive &#39;</span><span class="si">{</span><span class="n">file</span><span class="si">}</span><span class="s2">&#39;.&quot;</span>
+<a id="__codelineno-0-62" name="__codelineno-0-62"></a>            <span class="sa">f</span><span class="s2">&quot;Supported GNPS workflows are described in the GNPSFormat enum, &quot;</span>
+<a id="__codelineno-0-63" name="__codelineno-0-63"></a>            <span class="sa">f</span><span class="s2">&quot;including such as &#39;METABOLOMICS-SNETS&#39;, &#39;METABOLOMICS-SNETS-V2&#39; &quot;</span>
+<a id="__codelineno-0-64" name="__codelineno-0-64"></a>            <span class="sa">f</span><span class="s2">&quot;and &#39;FEATURE-BASED-MOLECULAR-NETWORKING&#39;.&quot;</span>
+<a id="__codelineno-0-65" name="__codelineno-0-65"></a>        <span class="p">)</span>
+<a id="__codelineno-0-66" name="__codelineno-0-66"></a>
+<a id="__codelineno-0-67" name="__codelineno-0-67"></a>    <span class="bp">self</span><span class="o">.</span><span class="n">_file</span> <span class="o">=</span> <span class="n">Path</span><span class="p">(</span><span class="n">file</span><span class="p">)</span>
+<a id="__codelineno-0-68" name="__codelineno-0-68"></a>    <span class="bp">self</span><span class="o">.</span><span class="n">_extract_path</span> <span class="o">=</span> <span class="n">Path</span><span class="p">(</span><span class="n">extract_dir</span><span class="p">)</span>
+<a id="__codelineno-0-69" name="__codelineno-0-69"></a>    <span class="bp">self</span><span class="o">.</span><span class="n">_gnps_format</span> <span class="o">=</span> <span class="n">gnps_format</span>
+<a id="__codelineno-0-70" name="__codelineno-0-70"></a>    <span class="c1"># the order of filenames matters</span>
+<a id="__codelineno-0-71" name="__codelineno-0-71"></a>    <span class="bp">self</span><span class="o">.</span><span class="n">_target_files</span> <span class="o">=</span> <span class="p">[</span>
+<a id="__codelineno-0-72" name="__codelineno-0-72"></a>        <span class="s2">&quot;file_mappings&quot;</span><span class="p">,</span>
+<a id="__codelineno-0-73" name="__codelineno-0-73"></a>        <span class="s2">&quot;spectra.mgf&quot;</span><span class="p">,</span>
+<a id="__codelineno-0-74" name="__codelineno-0-74"></a>        <span class="s2">&quot;molecular_families.tsv&quot;</span><span class="p">,</span>
+<a id="__codelineno-0-75" name="__codelineno-0-75"></a>        <span class="s2">&quot;annotations.tsv&quot;</span><span class="p">,</span>
+<a id="__codelineno-0-76" name="__codelineno-0-76"></a>    <span class="p">]</span>
+<a id="__codelineno-0-77" name="__codelineno-0-77"></a>
+<a id="__codelineno-0-78" name="__codelineno-0-78"></a>    <span class="bp">self</span><span class="o">.</span><span class="n">_extract</span><span class="p">()</span>
 </code></pre></div></td></tr></table></div>
                 </details>
 
@@ -2696,7 +2931,7 @@ <h3 id="nplinker.metabolomics.gnps.GNPSSpectrumLoader" class="doc doc-heading">
 
   <div class="doc doc-contents ">
           <p class="doc doc-class-bases">
-            Bases: <code><span title="nplinker.metabolomics.abc.SpectrumLoaderBase">SpectrumLoaderBase</span></code></p>
+            Bases: <code><a class="autorefs autorefs-internal" title="nplinker.metabolomics.abc.SpectrumLoaderBase" href="../metabolomics_abc/#nplinker.metabolomics.abc.SpectrumLoaderBase">SpectrumLoaderBase</a></code></p>
 
   
       <p>Class to load mass spectra from the given GNPS MGF file.</p>
@@ -2716,6 +2951,7 @@ <h3 id="nplinker.metabolomics.gnps.GNPSSpectrumLoader" class="doc doc-heading">
 </ul>
 </li>
 </ol>
+  
 
 
 
@@ -2771,33 +3007,16 @@ <h3 id="nplinker.metabolomics.gnps.GNPSSpectrumLoader" class="doc doc-heading">
     </tbody>
   </table>
 
-<details class="example" open>
-  <summary>Example</summary>
-  <blockquote>
-<blockquote>
-<blockquote>
-<p>loader = GNPSSpectrumLoader("gnps_spectra.mgf")
-print(loader.spectra[0])</p>
-</blockquote>
-</blockquote>
-</blockquote>
-</details>
+
+
+<p><strong>Examples:</strong></p>
+    <div class="language-pycon highlight"><pre><span></span><code><a id="__codelineno-0-1" name="__codelineno-0-1" href="#__codelineno-0-1"></a><span class="gp">&gt;&gt;&gt; </span><span class="n">loader</span> <span class="o">=</span> <span class="n">GNPSSpectrumLoader</span><span class="p">(</span><span class="s2">&quot;gnps_spectra.mgf&quot;</span><span class="p">)</span>
+<a id="__codelineno-0-2" name="__codelineno-0-2" href="#__codelineno-0-2"></a><span class="gp">&gt;&gt;&gt; </span><span class="nb">print</span><span class="p">(</span><span class="n">loader</span><span class="o">.</span><span class="n">spectra</span><span class="p">[</span><span class="mi">0</span><span class="p">])</span>
+</code></pre></div>
+
                 <details class="quote">
                   <summary>Source code in <code>src/nplinker/metabolomics/gnps/gnps_spectrum_loader.py</code></summary>
-                  <div class="language-python highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal"><a href="#__codelineno-0-13">13</a></span>
-<span class="normal"><a href="#__codelineno-0-14">14</a></span>
-<span class="normal"><a href="#__codelineno-0-15">15</a></span>
-<span class="normal"><a href="#__codelineno-0-16">16</a></span>
-<span class="normal"><a href="#__codelineno-0-17">17</a></span>
-<span class="normal"><a href="#__codelineno-0-18">18</a></span>
-<span class="normal"><a href="#__codelineno-0-19">19</a></span>
-<span class="normal"><a href="#__codelineno-0-20">20</a></span>
-<span class="normal"><a href="#__codelineno-0-21">21</a></span>
-<span class="normal"><a href="#__codelineno-0-22">22</a></span>
-<span class="normal"><a href="#__codelineno-0-23">23</a></span>
-<span class="normal"><a href="#__codelineno-0-24">24</a></span>
-<span class="normal"><a href="#__codelineno-0-25">25</a></span>
-<span class="normal"><a href="#__codelineno-0-26">26</a></span>
+                  <div class="language-python highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal"><a href="#__codelineno-0-26">26</a></span>
 <span class="normal"><a href="#__codelineno-0-27">27</a></span>
 <span class="normal"><a href="#__codelineno-0-28">28</a></span>
 <span class="normal"><a href="#__codelineno-0-29">29</a></span>
@@ -2811,34 +3030,27 @@ <h3 id="nplinker.metabolomics.gnps.GNPSSpectrumLoader" class="doc doc-heading">
 <span class="normal"><a href="#__codelineno-0-37">37</a></span>
 <span class="normal"><a href="#__codelineno-0-38">38</a></span>
 <span class="normal"><a href="#__codelineno-0-39">39</a></span>
-<span class="normal"><a href="#__codelineno-0-40">40</a></span></pre></div></td><td class="code"><div><pre><span></span><code><a id="__codelineno-0-13" name="__codelineno-0-13"></a><span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">file</span><span class="p">:</span> <span class="nb">str</span> <span class="o">|</span> <span class="n">PathLike</span><span class="p">):</span>
-<a id="__codelineno-0-14" name="__codelineno-0-14"></a><span class="w">    </span><span class="sd">&quot;&quot;&quot;Class to load mass spectra from the given GNPS MGF file.</span>
-<a id="__codelineno-0-15" name="__codelineno-0-15"></a>
-<a id="__codelineno-0-16" name="__codelineno-0-16"></a><span class="sd">    The file mappings file is from GNPS output archive, as described below</span>
-<a id="__codelineno-0-17" name="__codelineno-0-17"></a><span class="sd">    for each GNPS workflow type:</span>
-<a id="__codelineno-0-18" name="__codelineno-0-18"></a>
-<a id="__codelineno-0-19" name="__codelineno-0-19"></a><span class="sd">    1. METABOLOMICS-SNETS</span>
-<a id="__codelineno-0-20" name="__codelineno-0-20"></a><span class="sd">        - METABOLOMICS-SNETS*.mgf</span>
-<a id="__codelineno-0-21" name="__codelineno-0-21"></a><span class="sd">    2. METABOLOMICS-SNETS-V2</span>
-<a id="__codelineno-0-22" name="__codelineno-0-22"></a><span class="sd">        - METABOLOMICS-SNETS-V2*.mgf</span>
-<a id="__codelineno-0-23" name="__codelineno-0-23"></a><span class="sd">    3. FEATURE-BASED-MOLECULAR-NETWORKING</span>
-<a id="__codelineno-0-24" name="__codelineno-0-24"></a><span class="sd">        - spectra/*.mgf</span>
-<a id="__codelineno-0-25" name="__codelineno-0-25"></a>
-<a id="__codelineno-0-26" name="__codelineno-0-26"></a><span class="sd">    Args:</span>
-<a id="__codelineno-0-27" name="__codelineno-0-27"></a><span class="sd">        file: path to the MGF file.</span>
+<span class="normal"><a href="#__codelineno-0-40">40</a></span>
+<span class="normal"><a href="#__codelineno-0-41">41</a></span>
+<span class="normal"><a href="#__codelineno-0-42">42</a></span>
+<span class="normal"><a href="#__codelineno-0-43">43</a></span></pre></div></td><td class="code"><div><pre><span></span><code><a id="__codelineno-0-26" name="__codelineno-0-26"></a><span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">file</span><span class="p">:</span> <span class="nb">str</span> <span class="o">|</span> <span class="n">PathLike</span><span class="p">):</span>
+<a id="__codelineno-0-27" name="__codelineno-0-27"></a><span class="w">    </span><span class="sd">&quot;&quot;&quot;Initialize the GNPSSpectrumLoader.</span>
 <a id="__codelineno-0-28" name="__codelineno-0-28"></a>
-<a id="__codelineno-0-29" name="__codelineno-0-29"></a><span class="sd">    Raises:</span>
-<a id="__codelineno-0-30" name="__codelineno-0-30"></a><span class="sd">        ValueError: Raises ValueError if the file is not valid.</span>
+<a id="__codelineno-0-29" name="__codelineno-0-29"></a><span class="sd">    Args:</span>
+<a id="__codelineno-0-30" name="__codelineno-0-30"></a><span class="sd">        file: path to the MGF file.</span>
 <a id="__codelineno-0-31" name="__codelineno-0-31"></a>
-<a id="__codelineno-0-32" name="__codelineno-0-32"></a><span class="sd">    Example:</span>
-<a id="__codelineno-0-33" name="__codelineno-0-33"></a><span class="sd">        &gt;&gt;&gt; loader = GNPSSpectrumLoader(&quot;gnps_spectra.mgf&quot;)</span>
-<a id="__codelineno-0-34" name="__codelineno-0-34"></a><span class="sd">        &gt;&gt;&gt; print(loader.spectra[0])</span>
-<a id="__codelineno-0-35" name="__codelineno-0-35"></a><span class="sd">    &quot;&quot;&quot;</span>
-<a id="__codelineno-0-36" name="__codelineno-0-36"></a>    <span class="bp">self</span><span class="o">.</span><span class="n">_file</span> <span class="o">=</span> <span class="nb">str</span><span class="p">(</span><span class="n">file</span><span class="p">)</span>
-<a id="__codelineno-0-37" name="__codelineno-0-37"></a>    <span class="bp">self</span><span class="o">.</span><span class="n">_spectra</span><span class="p">:</span> <span class="nb">list</span><span class="p">[</span><span class="n">Spectrum</span><span class="p">]</span> <span class="o">=</span> <span class="p">[]</span>
-<a id="__codelineno-0-38" name="__codelineno-0-38"></a>
-<a id="__codelineno-0-39" name="__codelineno-0-39"></a>    <span class="bp">self</span><span class="o">.</span><span class="n">_validate</span><span class="p">()</span>
-<a id="__codelineno-0-40" name="__codelineno-0-40"></a>    <span class="bp">self</span><span class="o">.</span><span class="n">_load</span><span class="p">()</span>
+<a id="__codelineno-0-32" name="__codelineno-0-32"></a><span class="sd">    Raises:</span>
+<a id="__codelineno-0-33" name="__codelineno-0-33"></a><span class="sd">        ValueError: Raises ValueError if the file is not valid.</span>
+<a id="__codelineno-0-34" name="__codelineno-0-34"></a>
+<a id="__codelineno-0-35" name="__codelineno-0-35"></a><span class="sd">    Examples:</span>
+<a id="__codelineno-0-36" name="__codelineno-0-36"></a><span class="sd">        &gt;&gt;&gt; loader = GNPSSpectrumLoader(&quot;gnps_spectra.mgf&quot;)</span>
+<a id="__codelineno-0-37" name="__codelineno-0-37"></a><span class="sd">        &gt;&gt;&gt; print(loader.spectra[0])</span>
+<a id="__codelineno-0-38" name="__codelineno-0-38"></a><span class="sd">    &quot;&quot;&quot;</span>
+<a id="__codelineno-0-39" name="__codelineno-0-39"></a>    <span class="bp">self</span><span class="o">.</span><span class="n">_file</span> <span class="o">=</span> <span class="nb">str</span><span class="p">(</span><span class="n">file</span><span class="p">)</span>
+<a id="__codelineno-0-40" name="__codelineno-0-40"></a>    <span class="bp">self</span><span class="o">.</span><span class="n">_spectra</span><span class="p">:</span> <span class="nb">list</span><span class="p">[</span><span class="n">Spectrum</span><span class="p">]</span> <span class="o">=</span> <span class="p">[]</span>
+<a id="__codelineno-0-41" name="__codelineno-0-41"></a>
+<a id="__codelineno-0-42" name="__codelineno-0-42"></a>    <span class="bp">self</span><span class="o">.</span><span class="n">_validate</span><span class="p">()</span>
+<a id="__codelineno-0-43" name="__codelineno-0-43"></a>    <span class="bp">self</span><span class="o">.</span><span class="n">_load</span><span class="p">()</span>
 </code></pre></div></td></tr></table></div>
                 </details>
 
@@ -2929,19 +3141,28 @@ <h3 id="nplinker.metabolomics.gnps.GNPSMolecularFamilyLoader" class="doc doc-hea
   
       <p>Class to load molecular families from GNPS output file.</p>
 <p>The molecular family file is from GNPS output archive, as described below
-for each GNPS workflow type:
-1. METABOLOMICS-SNETS
-    - networkedges_selfloop/<em>.pairsinfo
-2. METABOLOMICS-SNETS-V2
-    - networkedges_selfloop/</em>.selfloop
-3. FEATURE-BASED-MOLECULAR-NETWORKING
-    - networkedges_selfloop/*.selfloop</p>
+for each GNPS workflow type:</p>
+<ol>
+<li>METABOLOMICS-SNETS<ul>
+<li>networkedges_selfloop/*.pairsinfo</li>
+</ul>
+</li>
+<li>METABOLOMICS-SNETS-V2<ul>
+<li>networkedges_selfloop/*.selfloop</li>
+</ul>
+</li>
+<li>FEATURE-BASED-MOLECULAR-NETWORKING<ul>
+<li>networkedges_selfloop/*.selfloop</li>
+</ul>
+</li>
+</ol>
 <p>The "ComponentIndex" column in the GNPS molecular family's file is treated
 as family id. But for molecular families that have only one member (i.e. spectrum),
 named singleton molecular families, their files have the same value of
 "-1" in the "ComponentIndex" column. To make the family id unique,the
-spectrum id plus a prefix "singleton-" is used as the family id of
+spectrum id plus a prefix <code>singleton-</code> is used as the family id of
 singleton molecular families.</p>
+  
 
 
 
@@ -2997,42 +3218,19 @@ <h3 id="nplinker.metabolomics.gnps.GNPSMolecularFamilyLoader" class="doc doc-hea
     </tbody>
   </table>
 
-<details class="example" open>
-  <summary>Example</summary>
-  <blockquote>
-<blockquote>
-<blockquote>
-<p _1_="'1'," _3_="'3'," _7_="'7'," class="..">loader = GNPSMolecularFamilyLoader("gnps_molecular_families.tsv")
-print(loader.families)
-[<MolecularFamily 1>, <MolecularFamily 2>, ...]
-print(loader.families[0].spectra_ids)</p>
-</blockquote>
-</blockquote>
-</blockquote>
-</details>
+
+
+<p><strong>Examples:</strong></p>
+    <div class="language-pycon highlight"><pre><span></span><code><a id="__codelineno-0-1" name="__codelineno-0-1" href="#__codelineno-0-1"></a><span class="gp">&gt;&gt;&gt; </span><span class="n">loader</span> <span class="o">=</span> <span class="n">GNPSMolecularFamilyLoader</span><span class="p">(</span><span class="s2">&quot;gnps_molecular_families.tsv&quot;</span><span class="p">)</span>
+<a id="__codelineno-0-2" name="__codelineno-0-2" href="#__codelineno-0-2"></a><span class="gp">&gt;&gt;&gt; </span><span class="nb">print</span><span class="p">(</span><span class="n">loader</span><span class="o">.</span><span class="n">families</span><span class="p">)</span>
+<a id="__codelineno-0-3" name="__codelineno-0-3" href="#__codelineno-0-3"></a><span class="go">[&lt;MolecularFamily 1&gt;, &lt;MolecularFamily 2&gt;, ...]</span>
+<a id="__codelineno-0-4" name="__codelineno-0-4" href="#__codelineno-0-4"></a><span class="gp">&gt;&gt;&gt; </span><span class="nb">print</span><span class="p">(</span><span class="n">loader</span><span class="o">.</span><span class="n">families</span><span class="p">[</span><span class="mi">0</span><span class="p">]</span><span class="o">.</span><span class="n">spectra_ids</span><span class="p">)</span>
+<a id="__codelineno-0-5" name="__codelineno-0-5" href="#__codelineno-0-5"></a><span class="go">{&#39;1&#39;, &#39;3&#39;, &#39;7&#39;, ...}</span>
+</code></pre></div>
+
                 <details class="quote">
                   <summary>Source code in <code>src/nplinker/metabolomics/gnps/gnps_molecular_family_loader.py</code></summary>
-                  <div class="language-python highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal"><a href="#__codelineno-0-10">10</a></span>
-<span class="normal"><a href="#__codelineno-0-11">11</a></span>
-<span class="normal"><a href="#__codelineno-0-12">12</a></span>
-<span class="normal"><a href="#__codelineno-0-13">13</a></span>
-<span class="normal"><a href="#__codelineno-0-14">14</a></span>
-<span class="normal"><a href="#__codelineno-0-15">15</a></span>
-<span class="normal"><a href="#__codelineno-0-16">16</a></span>
-<span class="normal"><a href="#__codelineno-0-17">17</a></span>
-<span class="normal"><a href="#__codelineno-0-18">18</a></span>
-<span class="normal"><a href="#__codelineno-0-19">19</a></span>
-<span class="normal"><a href="#__codelineno-0-20">20</a></span>
-<span class="normal"><a href="#__codelineno-0-21">21</a></span>
-<span class="normal"><a href="#__codelineno-0-22">22</a></span>
-<span class="normal"><a href="#__codelineno-0-23">23</a></span>
-<span class="normal"><a href="#__codelineno-0-24">24</a></span>
-<span class="normal"><a href="#__codelineno-0-25">25</a></span>
-<span class="normal"><a href="#__codelineno-0-26">26</a></span>
-<span class="normal"><a href="#__codelineno-0-27">27</a></span>
-<span class="normal"><a href="#__codelineno-0-28">28</a></span>
-<span class="normal"><a href="#__codelineno-0-29">29</a></span>
-<span class="normal"><a href="#__codelineno-0-30">30</a></span>
+                  <div class="language-python highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal"><a href="#__codelineno-0-30">30</a></span>
 <span class="normal"><a href="#__codelineno-0-31">31</a></span>
 <span class="normal"><a href="#__codelineno-0-32">32</a></span>
 <span class="normal"><a href="#__codelineno-0-33">33</a></span>
@@ -3048,43 +3246,31 @@ <h3 id="nplinker.metabolomics.gnps.GNPSMolecularFamilyLoader" class="doc doc-hea
 <span class="normal"><a href="#__codelineno-0-43">43</a></span>
 <span class="normal"><a href="#__codelineno-0-44">44</a></span>
 <span class="normal"><a href="#__codelineno-0-45">45</a></span>
-<span class="normal"><a href="#__codelineno-0-46">46</a></span></pre></div></td><td class="code"><div><pre><span></span><code><a id="__codelineno-0-10" name="__codelineno-0-10"></a><span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">file</span><span class="p">:</span> <span class="nb">str</span> <span class="o">|</span> <span class="n">PathLike</span><span class="p">):</span>
-<a id="__codelineno-0-11" name="__codelineno-0-11"></a><span class="w">    </span><span class="sd">&quot;&quot;&quot;Class to load molecular families from GNPS output file.</span>
-<a id="__codelineno-0-12" name="__codelineno-0-12"></a>
-<a id="__codelineno-0-13" name="__codelineno-0-13"></a><span class="sd">    The molecular family file is from GNPS output archive, as described below</span>
-<a id="__codelineno-0-14" name="__codelineno-0-14"></a><span class="sd">    for each GNPS workflow type:</span>
-<a id="__codelineno-0-15" name="__codelineno-0-15"></a><span class="sd">    1. METABOLOMICS-SNETS</span>
-<a id="__codelineno-0-16" name="__codelineno-0-16"></a><span class="sd">        - networkedges_selfloop/*.pairsinfo</span>
-<a id="__codelineno-0-17" name="__codelineno-0-17"></a><span class="sd">    2. METABOLOMICS-SNETS-V2</span>
-<a id="__codelineno-0-18" name="__codelineno-0-18"></a><span class="sd">        - networkedges_selfloop/*.selfloop</span>
-<a id="__codelineno-0-19" name="__codelineno-0-19"></a><span class="sd">    3. FEATURE-BASED-MOLECULAR-NETWORKING</span>
-<a id="__codelineno-0-20" name="__codelineno-0-20"></a><span class="sd">        - networkedges_selfloop/*.selfloop</span>
-<a id="__codelineno-0-21" name="__codelineno-0-21"></a>
-<a id="__codelineno-0-22" name="__codelineno-0-22"></a><span class="sd">    The &quot;ComponentIndex&quot; column in the GNPS molecular family&#39;s file is treated</span>
-<a id="__codelineno-0-23" name="__codelineno-0-23"></a><span class="sd">    as family id. But for molecular families that have only one member (i.e. spectrum),</span>
-<a id="__codelineno-0-24" name="__codelineno-0-24"></a><span class="sd">    named singleton molecular families, their files have the same value of</span>
-<a id="__codelineno-0-25" name="__codelineno-0-25"></a><span class="sd">    &quot;-1&quot; in the &quot;ComponentIndex&quot; column. To make the family id unique,the</span>
-<a id="__codelineno-0-26" name="__codelineno-0-26"></a><span class="sd">    spectrum id plus a prefix &quot;singleton-&quot; is used as the family id of</span>
-<a id="__codelineno-0-27" name="__codelineno-0-27"></a><span class="sd">    singleton molecular families.</span>
-<a id="__codelineno-0-28" name="__codelineno-0-28"></a>
-<a id="__codelineno-0-29" name="__codelineno-0-29"></a><span class="sd">    Args:</span>
-<a id="__codelineno-0-30" name="__codelineno-0-30"></a><span class="sd">        file: Path to the GNPS molecular family file.</span>
-<a id="__codelineno-0-31" name="__codelineno-0-31"></a>
-<a id="__codelineno-0-32" name="__codelineno-0-32"></a><span class="sd">    Raises:</span>
-<a id="__codelineno-0-33" name="__codelineno-0-33"></a><span class="sd">        ValueError: Raises ValueError if the file is not valid.</span>
-<a id="__codelineno-0-34" name="__codelineno-0-34"></a>
-<a id="__codelineno-0-35" name="__codelineno-0-35"></a><span class="sd">    Example:</span>
-<a id="__codelineno-0-36" name="__codelineno-0-36"></a><span class="sd">        &gt;&gt;&gt; loader = GNPSMolecularFamilyLoader(&quot;gnps_molecular_families.tsv&quot;)</span>
-<a id="__codelineno-0-37" name="__codelineno-0-37"></a><span class="sd">        &gt;&gt;&gt; print(loader.families)</span>
-<a id="__codelineno-0-38" name="__codelineno-0-38"></a><span class="sd">        [&lt;MolecularFamily 1&gt;, &lt;MolecularFamily 2&gt;, ...]</span>
-<a id="__codelineno-0-39" name="__codelineno-0-39"></a><span class="sd">        &gt;&gt;&gt; print(loader.families[0].spectra_ids)</span>
-<a id="__codelineno-0-40" name="__codelineno-0-40"></a><span class="sd">        {&#39;1&#39;, &#39;3&#39;, &#39;7&#39;, ...}</span>
-<a id="__codelineno-0-41" name="__codelineno-0-41"></a><span class="sd">    &quot;&quot;&quot;</span>
-<a id="__codelineno-0-42" name="__codelineno-0-42"></a>    <span class="bp">self</span><span class="o">.</span><span class="n">_mfs</span><span class="p">:</span> <span class="nb">list</span><span class="p">[</span><span class="n">MolecularFamily</span><span class="p">]</span> <span class="o">=</span> <span class="p">[]</span>
-<a id="__codelineno-0-43" name="__codelineno-0-43"></a>    <span class="bp">self</span><span class="o">.</span><span class="n">_file</span> <span class="o">=</span> <span class="n">file</span>
-<a id="__codelineno-0-44" name="__codelineno-0-44"></a>
-<a id="__codelineno-0-45" name="__codelineno-0-45"></a>    <span class="bp">self</span><span class="o">.</span><span class="n">_validate</span><span class="p">()</span>
-<a id="__codelineno-0-46" name="__codelineno-0-46"></a>    <span class="bp">self</span><span class="o">.</span><span class="n">_load</span><span class="p">()</span>
+<span class="normal"><a href="#__codelineno-0-46">46</a></span>
+<span class="normal"><a href="#__codelineno-0-47">47</a></span>
+<span class="normal"><a href="#__codelineno-0-48">48</a></span>
+<span class="normal"><a href="#__codelineno-0-49">49</a></span>
+<span class="normal"><a href="#__codelineno-0-50">50</a></span></pre></div></td><td class="code"><div><pre><span></span><code><a id="__codelineno-0-30" name="__codelineno-0-30"></a><span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">file</span><span class="p">:</span> <span class="nb">str</span> <span class="o">|</span> <span class="n">PathLike</span><span class="p">):</span>
+<a id="__codelineno-0-31" name="__codelineno-0-31"></a><span class="w">    </span><span class="sd">&quot;&quot;&quot;Initialize the GNPSMolecularFamilyLoader.</span>
+<a id="__codelineno-0-32" name="__codelineno-0-32"></a>
+<a id="__codelineno-0-33" name="__codelineno-0-33"></a><span class="sd">    Args:</span>
+<a id="__codelineno-0-34" name="__codelineno-0-34"></a><span class="sd">        file: Path to the GNPS molecular family file.</span>
+<a id="__codelineno-0-35" name="__codelineno-0-35"></a>
+<a id="__codelineno-0-36" name="__codelineno-0-36"></a><span class="sd">    Raises:</span>
+<a id="__codelineno-0-37" name="__codelineno-0-37"></a><span class="sd">        ValueError: Raises ValueError if the file is not valid.</span>
+<a id="__codelineno-0-38" name="__codelineno-0-38"></a>
+<a id="__codelineno-0-39" name="__codelineno-0-39"></a><span class="sd">    Examples:</span>
+<a id="__codelineno-0-40" name="__codelineno-0-40"></a><span class="sd">        &gt;&gt;&gt; loader = GNPSMolecularFamilyLoader(&quot;gnps_molecular_families.tsv&quot;)</span>
+<a id="__codelineno-0-41" name="__codelineno-0-41"></a><span class="sd">        &gt;&gt;&gt; print(loader.families)</span>
+<a id="__codelineno-0-42" name="__codelineno-0-42"></a><span class="sd">        [&lt;MolecularFamily 1&gt;, &lt;MolecularFamily 2&gt;, ...]</span>
+<a id="__codelineno-0-43" name="__codelineno-0-43"></a><span class="sd">        &gt;&gt;&gt; print(loader.families[0].spectra_ids)</span>
+<a id="__codelineno-0-44" name="__codelineno-0-44"></a><span class="sd">        {&#39;1&#39;, &#39;3&#39;, &#39;7&#39;, ...}</span>
+<a id="__codelineno-0-45" name="__codelineno-0-45"></a><span class="sd">    &quot;&quot;&quot;</span>
+<a id="__codelineno-0-46" name="__codelineno-0-46"></a>    <span class="bp">self</span><span class="o">.</span><span class="n">_mfs</span><span class="p">:</span> <span class="nb">list</span><span class="p">[</span><span class="n">MolecularFamily</span><span class="p">]</span> <span class="o">=</span> <span class="p">[]</span>
+<a id="__codelineno-0-47" name="__codelineno-0-47"></a>    <span class="bp">self</span><span class="o">.</span><span class="n">_file</span> <span class="o">=</span> <span class="n">file</span>
+<a id="__codelineno-0-48" name="__codelineno-0-48"></a>
+<a id="__codelineno-0-49" name="__codelineno-0-49"></a>    <span class="bp">self</span><span class="o">.</span><span class="n">_validate</span><span class="p">()</span>
+<a id="__codelineno-0-50" name="__codelineno-0-50"></a>    <span class="bp">self</span><span class="o">.</span><span class="n">_load</span><span class="p">()</span>
 </code></pre></div></td></tr></table></div>
                 </details>
 
@@ -3166,8 +3352,7 @@ <h4 id="nplinker.metabolomics.gnps.GNPSMolecularFamilyLoader.get_mfs" class="doc
           </td>
           <td>
             <div class="doc-md-description">
-              <p>list[MolecularFamily]: A list of MolecularFamily objects with their
-spectra ids.</p>
+              <p>A list of MolecularFamily objects with their spectra ids.</p>
             </div>
           </td>
         </tr>
@@ -3176,11 +3361,7 @@ <h4 id="nplinker.metabolomics.gnps.GNPSMolecularFamilyLoader.get_mfs" class="doc
 
           <details class="quote">
             <summary>Source code in <code>src/nplinker/metabolomics/gnps/gnps_molecular_family_loader.py</code></summary>
-            <div class="language-python highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal"><a href="#__codelineno-0-48">48</a></span>
-<span class="normal"><a href="#__codelineno-0-49">49</a></span>
-<span class="normal"><a href="#__codelineno-0-50">50</a></span>
-<span class="normal"><a href="#__codelineno-0-51">51</a></span>
-<span class="normal"><a href="#__codelineno-0-52">52</a></span>
+            <div class="language-python highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal"><a href="#__codelineno-0-52">52</a></span>
 <span class="normal"><a href="#__codelineno-0-53">53</a></span>
 <span class="normal"><a href="#__codelineno-0-54">54</a></span>
 <span class="normal"><a href="#__codelineno-0-55">55</a></span>
@@ -3191,22 +3372,24 @@ <h4 id="nplinker.metabolomics.gnps.GNPSMolecularFamilyLoader.get_mfs" class="doc
 <span class="normal"><a href="#__codelineno-0-60">60</a></span>
 <span class="normal"><a href="#__codelineno-0-61">61</a></span>
 <span class="normal"><a href="#__codelineno-0-62">62</a></span>
-<span class="normal"><a href="#__codelineno-0-63">63</a></span></pre></div></td><td class="code"><div><pre><span></span><code><a id="__codelineno-0-48" name="__codelineno-0-48"></a><span class="k">def</span> <span class="nf">get_mfs</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">keep_singleton</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">)</span> <span class="o">-&gt;</span> <span class="nb">list</span><span class="p">[</span><span class="n">MolecularFamily</span><span class="p">]:</span>
-<a id="__codelineno-0-49" name="__codelineno-0-49"></a><span class="w">    </span><span class="sd">&quot;&quot;&quot;Get MolecularFamily objects.</span>
-<a id="__codelineno-0-50" name="__codelineno-0-50"></a>
-<a id="__codelineno-0-51" name="__codelineno-0-51"></a><span class="sd">    Args:</span>
-<a id="__codelineno-0-52" name="__codelineno-0-52"></a><span class="sd">        keep_singleton: True to keep singleton molecular families. A</span>
-<a id="__codelineno-0-53" name="__codelineno-0-53"></a><span class="sd">            singleton molecular family is a molecular family that contains</span>
-<a id="__codelineno-0-54" name="__codelineno-0-54"></a><span class="sd">            only one spectrum.</span>
-<a id="__codelineno-0-55" name="__codelineno-0-55"></a>
-<a id="__codelineno-0-56" name="__codelineno-0-56"></a><span class="sd">    Returns:</span>
-<a id="__codelineno-0-57" name="__codelineno-0-57"></a><span class="sd">        list[MolecularFamily]: A list of MolecularFamily objects with their</span>
-<a id="__codelineno-0-58" name="__codelineno-0-58"></a><span class="sd">            spectra ids.</span>
-<a id="__codelineno-0-59" name="__codelineno-0-59"></a><span class="sd">    &quot;&quot;&quot;</span>
-<a id="__codelineno-0-60" name="__codelineno-0-60"></a>    <span class="n">mfs</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">_mfs</span>
-<a id="__codelineno-0-61" name="__codelineno-0-61"></a>    <span class="k">if</span> <span class="ow">not</span> <span class="n">keep_singleton</span><span class="p">:</span>
-<a id="__codelineno-0-62" name="__codelineno-0-62"></a>        <span class="n">mfs</span> <span class="o">=</span> <span class="p">[</span><span class="n">mf</span> <span class="k">for</span> <span class="n">mf</span> <span class="ow">in</span> <span class="n">mfs</span> <span class="k">if</span> <span class="ow">not</span> <span class="n">mf</span><span class="o">.</span><span class="n">is_singleton</span><span class="p">()]</span>
-<a id="__codelineno-0-63" name="__codelineno-0-63"></a>    <span class="k">return</span> <span class="n">mfs</span>
+<span class="normal"><a href="#__codelineno-0-63">63</a></span>
+<span class="normal"><a href="#__codelineno-0-64">64</a></span>
+<span class="normal"><a href="#__codelineno-0-65">65</a></span>
+<span class="normal"><a href="#__codelineno-0-66">66</a></span></pre></div></td><td class="code"><div><pre><span></span><code><a id="__codelineno-0-52" name="__codelineno-0-52"></a><span class="k">def</span> <span class="nf">get_mfs</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">keep_singleton</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">)</span> <span class="o">-&gt;</span> <span class="nb">list</span><span class="p">[</span><span class="n">MolecularFamily</span><span class="p">]:</span>
+<a id="__codelineno-0-53" name="__codelineno-0-53"></a><span class="w">    </span><span class="sd">&quot;&quot;&quot;Get MolecularFamily objects.</span>
+<a id="__codelineno-0-54" name="__codelineno-0-54"></a>
+<a id="__codelineno-0-55" name="__codelineno-0-55"></a><span class="sd">    Args:</span>
+<a id="__codelineno-0-56" name="__codelineno-0-56"></a><span class="sd">        keep_singleton: True to keep singleton molecular families. A</span>
+<a id="__codelineno-0-57" name="__codelineno-0-57"></a><span class="sd">            singleton molecular family is a molecular family that contains</span>
+<a id="__codelineno-0-58" name="__codelineno-0-58"></a><span class="sd">            only one spectrum.</span>
+<a id="__codelineno-0-59" name="__codelineno-0-59"></a>
+<a id="__codelineno-0-60" name="__codelineno-0-60"></a><span class="sd">    Returns:</span>
+<a id="__codelineno-0-61" name="__codelineno-0-61"></a><span class="sd">        A list of MolecularFamily objects with their spectra ids.</span>
+<a id="__codelineno-0-62" name="__codelineno-0-62"></a><span class="sd">    &quot;&quot;&quot;</span>
+<a id="__codelineno-0-63" name="__codelineno-0-63"></a>    <span class="n">mfs</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">_mfs</span>
+<a id="__codelineno-0-64" name="__codelineno-0-64"></a>    <span class="k">if</span> <span class="ow">not</span> <span class="n">keep_singleton</span><span class="p">:</span>
+<a id="__codelineno-0-65" name="__codelineno-0-65"></a>        <span class="n">mfs</span> <span class="o">=</span> <span class="p">[</span><span class="n">mf</span> <span class="k">for</span> <span class="n">mf</span> <span class="ow">in</span> <span class="n">mfs</span> <span class="k">if</span> <span class="ow">not</span> <span class="n">mf</span><span class="o">.</span><span class="n">is_singleton</span><span class="p">()]</span>
+<a id="__codelineno-0-66" name="__codelineno-0-66"></a>    <span class="k">return</span> <span class="n">mfs</span>
 </code></pre></div></td></tr></table></div>
           </details>
   </div>
@@ -3236,18 +3419,27 @@ <h3 id="nplinker.metabolomics.gnps.GNPSAnnotationLoader" class="doc doc-heading"
 
   <div class="doc doc-contents ">
           <p class="doc doc-class-bases">
-            Bases: <code><span title="nplinker.metabolomics.abc.AnnotationLoaderBase">AnnotationLoaderBase</span></code></p>
+            Bases: <code><a class="autorefs autorefs-internal" title="nplinker.metabolomics.abc.AnnotationLoaderBase" href="../metabolomics_abc/#nplinker.metabolomics.abc.AnnotationLoaderBase">AnnotationLoaderBase</a></code></p>
 
   
       <p>Load annotations from GNPS output file.</p>
 <p>The annotation file is a .tsv file from GNPS output archive, as described
-below for each GNPS workflow type:
-1. METABOLOMICS-SNETS
-    - result_specnets_DB/<em>.tsv
-2. METABOLOMICS-SNETS-V2
-    - result_specnets_DB/.tsv
-3. FEATURE-BASED-MOLECULAR-NETWORKING
-    - DB_result/</em>.tsv</p>
+below for each GNPS workflow type:</p>
+<ol>
+<li>METABOLOMICS-SNETS<ul>
+<li>result_specnets_DB/*.tsv</li>
+</ul>
+</li>
+<li>METABOLOMICS-SNETS-V2<ul>
+<li>result_specnets_DB/.tsv</li>
+</ul>
+</li>
+<li>FEATURE-BASED-MOLECULAR-NETWORKING<ul>
+<li>DB_result/*.tsv</li>
+</ul>
+</li>
+</ol>
+  
 
 
 
@@ -3279,71 +3471,54 @@ <h3 id="nplinker.metabolomics.gnps.GNPSAnnotationLoader" class="doc doc-heading"
     </tbody>
   </table>
 
-<details class="example" open>
-  <summary>Example</summary>
-  <blockquote>
-<blockquote>
-<blockquote>
-<p>loader = GNPSAnnotationLoader("gnps_annotations.tsv")
-print(loader.annotations["100"])
-{'#Scan#': '100',
-'Adduct': 'M+H',
-'CAS_Number': 'N/A',
-'Charge': '1',
-'Compound_Name': 'MLS002153841-01!Iobenguane sulfate',
-'Compound_Source': 'NIH Pharmacologically Active Library',
-'Data_Collector': 'VP/LMS',
-'ExactMass': '274.992',
-'INCHI': 'N/A',
-'INCHI_AUX': 'N/A',
-'Instrument': 'qTof',
-'IonMode': 'Positive',
-'Ion_Source': 'LC-ESI',
-'LibMZ': '276.003',
-'LibraryName': 'lib-00014.mgf',
-'LibraryQualityString': 'Gold',
-'Library_Class': '1',
-'MQScore': '0.704152',
-'MZErrorPPM': '405416',
-'MassDiff': '111.896',
-'Organism': 'GNPS-NIH-SMALLMOLECULEPHARMACOLOGICALLYACTIVE',
-'PI': 'Dorrestein',
-'Precursor_MZ': '276.003',
-'Pubmed_ID': 'N/A',
-'RT_Query': '795.979',
-'SharedPeaks': '7',
-'Smiles': 'NC(=N)NCc1cccc(I)c1.OS(=O)(=O)O',
-'SpecCharge': '1',
-'SpecMZ': '164.107',
-'SpectrumFile': 'spectra/specs_ms.pklbin',
-'SpectrumID': 'CCMSLIB00000086167',
-'TIC_Query': '986.997',
-'UpdateWorkflowName': 'UPDATE-SINGLE-ANNOTATED-GOLD',
-'tags': ' ',
-'png_url': '<a href="https://metabolomics-usi.gnps2.org/png/?usi1=mzspec:GNPS:GNPS-LIBRARY:accession:CCMSLIB00000086167">https://metabolomics-usi.gnps2.org/png/?usi1=mzspec:GNPS:GNPS-LIBRARY:accession:CCMSLIB00000086167</a>',
-'json_url': '<a href="https://metabolomics-usi.gnps2.org/json/?usi1=mzspec:GNPS:GNPS-LIBRARY:accession:CCMSLIB00000086167">https://metabolomics-usi.gnps2.org/json/?usi1=mzspec:GNPS:GNPS-LIBRARY:accession:CCMSLIB00000086167</a>',
-'svg_url': '<a href="https://metabolomics-usi.gnps2.org/svg/?usi1=mzspec:GNPS:GNPS-LIBRARY:accession:CCMSLIB00000086167">https://metabolomics-usi.gnps2.org/svg/?usi1=mzspec:GNPS:GNPS-LIBRARY:accession:CCMSLIB00000086167</a>',
-'spectrum_url': '<a href="https://metabolomics-usi.gnps2.org/spectrum/?usi1=mzspec:GNPS:GNPS-LIBRARY:accession:CCMSLIB00000086167">https://metabolomics-usi.gnps2.org/spectrum/?usi1=mzspec:GNPS:GNPS-LIBRARY:accession:CCMSLIB00000086167</a>'}</p>
-</blockquote>
-</blockquote>
-</blockquote>
-</details>
+
+
+<p><strong>Examples:</strong></p>
+    <div class="language-pycon highlight"><pre><span></span><code><a id="__codelineno-0-1" name="__codelineno-0-1" href="#__codelineno-0-1"></a><span class="gp">&gt;&gt;&gt; </span><span class="n">loader</span> <span class="o">=</span> <span class="n">GNPSAnnotationLoader</span><span class="p">(</span><span class="s2">&quot;gnps_annotations.tsv&quot;</span><span class="p">)</span>
+<a id="__codelineno-0-2" name="__codelineno-0-2" href="#__codelineno-0-2"></a><span class="gp">&gt;&gt;&gt; </span><span class="nb">print</span><span class="p">(</span><span class="n">loader</span><span class="o">.</span><span class="n">annotations</span><span class="p">[</span><span class="s2">&quot;100&quot;</span><span class="p">])</span>
+<a id="__codelineno-0-3" name="__codelineno-0-3" href="#__codelineno-0-3"></a><span class="go">{&#39;#Scan#&#39;: &#39;100&#39;,</span>
+<a id="__codelineno-0-4" name="__codelineno-0-4" href="#__codelineno-0-4"></a><span class="go">&#39;Adduct&#39;: &#39;M+H&#39;,</span>
+<a id="__codelineno-0-5" name="__codelineno-0-5" href="#__codelineno-0-5"></a><span class="go">&#39;CAS_Number&#39;: &#39;N/A&#39;,</span>
+<a id="__codelineno-0-6" name="__codelineno-0-6" href="#__codelineno-0-6"></a><span class="go">&#39;Charge&#39;: &#39;1&#39;,</span>
+<a id="__codelineno-0-7" name="__codelineno-0-7" href="#__codelineno-0-7"></a><span class="go">&#39;Compound_Name&#39;: &#39;MLS002153841-01!Iobenguane sulfate&#39;,</span>
+<a id="__codelineno-0-8" name="__codelineno-0-8" href="#__codelineno-0-8"></a><span class="go">&#39;Compound_Source&#39;: &#39;NIH Pharmacologically Active Library&#39;,</span>
+<a id="__codelineno-0-9" name="__codelineno-0-9" href="#__codelineno-0-9"></a><span class="go">&#39;Data_Collector&#39;: &#39;VP/LMS&#39;,</span>
+<a id="__codelineno-0-10" name="__codelineno-0-10" href="#__codelineno-0-10"></a><span class="go">&#39;ExactMass&#39;: &#39;274.992&#39;,</span>
+<a id="__codelineno-0-11" name="__codelineno-0-11" href="#__codelineno-0-11"></a><span class="go">&#39;INCHI&#39;: &#39;N/A&#39;,</span>
+<a id="__codelineno-0-12" name="__codelineno-0-12" href="#__codelineno-0-12"></a><span class="go">&#39;INCHI_AUX&#39;: &#39;N/A&#39;,</span>
+<a id="__codelineno-0-13" name="__codelineno-0-13" href="#__codelineno-0-13"></a><span class="go">&#39;Instrument&#39;: &#39;qTof&#39;,</span>
+<a id="__codelineno-0-14" name="__codelineno-0-14" href="#__codelineno-0-14"></a><span class="go">&#39;IonMode&#39;: &#39;Positive&#39;,</span>
+<a id="__codelineno-0-15" name="__codelineno-0-15" href="#__codelineno-0-15"></a><span class="go">&#39;Ion_Source&#39;: &#39;LC-ESI&#39;,</span>
+<a id="__codelineno-0-16" name="__codelineno-0-16" href="#__codelineno-0-16"></a><span class="go">&#39;LibMZ&#39;: &#39;276.003&#39;,</span>
+<a id="__codelineno-0-17" name="__codelineno-0-17" href="#__codelineno-0-17"></a><span class="go">&#39;LibraryName&#39;: &#39;lib-00014.mgf&#39;,</span>
+<a id="__codelineno-0-18" name="__codelineno-0-18" href="#__codelineno-0-18"></a><span class="go">&#39;LibraryQualityString&#39;: &#39;Gold&#39;,</span>
+<a id="__codelineno-0-19" name="__codelineno-0-19" href="#__codelineno-0-19"></a><span class="go">&#39;Library_Class&#39;: &#39;1&#39;,</span>
+<a id="__codelineno-0-20" name="__codelineno-0-20" href="#__codelineno-0-20"></a><span class="go">&#39;MQScore&#39;: &#39;0.704152&#39;,</span>
+<a id="__codelineno-0-21" name="__codelineno-0-21" href="#__codelineno-0-21"></a><span class="go">&#39;MZErrorPPM&#39;: &#39;405416&#39;,</span>
+<a id="__codelineno-0-22" name="__codelineno-0-22" href="#__codelineno-0-22"></a><span class="go">&#39;MassDiff&#39;: &#39;111.896&#39;,</span>
+<a id="__codelineno-0-23" name="__codelineno-0-23" href="#__codelineno-0-23"></a><span class="go">&#39;Organism&#39;: &#39;GNPS-NIH-SMALLMOLECULEPHARMACOLOGICALLYACTIVE&#39;,</span>
+<a id="__codelineno-0-24" name="__codelineno-0-24" href="#__codelineno-0-24"></a><span class="go">&#39;PI&#39;: &#39;Dorrestein&#39;,</span>
+<a id="__codelineno-0-25" name="__codelineno-0-25" href="#__codelineno-0-25"></a><span class="go">&#39;Precursor_MZ&#39;: &#39;276.003&#39;,</span>
+<a id="__codelineno-0-26" name="__codelineno-0-26" href="#__codelineno-0-26"></a><span class="go">&#39;Pubmed_ID&#39;: &#39;N/A&#39;,</span>
+<a id="__codelineno-0-27" name="__codelineno-0-27" href="#__codelineno-0-27"></a><span class="go">&#39;RT_Query&#39;: &#39;795.979&#39;,</span>
+<a id="__codelineno-0-28" name="__codelineno-0-28" href="#__codelineno-0-28"></a><span class="go">&#39;SharedPeaks&#39;: &#39;7&#39;,</span>
+<a id="__codelineno-0-29" name="__codelineno-0-29" href="#__codelineno-0-29"></a><span class="go">&#39;Smiles&#39;: &#39;NC(=N)NCc1cccc(I)c1.OS(=O)(=O)O&#39;,</span>
+<a id="__codelineno-0-30" name="__codelineno-0-30" href="#__codelineno-0-30"></a><span class="go">&#39;SpecCharge&#39;: &#39;1&#39;,</span>
+<a id="__codelineno-0-31" name="__codelineno-0-31" href="#__codelineno-0-31"></a><span class="go">&#39;SpecMZ&#39;: &#39;164.107&#39;,</span>
+<a id="__codelineno-0-32" name="__codelineno-0-32" href="#__codelineno-0-32"></a><span class="go">&#39;SpectrumFile&#39;: &#39;spectra/specs_ms.pklbin&#39;,</span>
+<a id="__codelineno-0-33" name="__codelineno-0-33" href="#__codelineno-0-33"></a><span class="go">&#39;SpectrumID&#39;: &#39;CCMSLIB00000086167&#39;,</span>
+<a id="__codelineno-0-34" name="__codelineno-0-34" href="#__codelineno-0-34"></a><span class="go">&#39;TIC_Query&#39;: &#39;986.997&#39;,</span>
+<a id="__codelineno-0-35" name="__codelineno-0-35" href="#__codelineno-0-35"></a><span class="go">&#39;UpdateWorkflowName&#39;: &#39;UPDATE-SINGLE-ANNOTATED-GOLD&#39;,</span>
+<a id="__codelineno-0-36" name="__codelineno-0-36" href="#__codelineno-0-36"></a><span class="go">&#39;tags&#39;: &#39; &#39;,</span>
+<a id="__codelineno-0-37" name="__codelineno-0-37" href="#__codelineno-0-37"></a><span class="go">&#39;png_url&#39;: &#39;https://metabolomics-usi.gnps2.org/png/?usi1=mzspec:GNPS:GNPS-LIBRARY:accession:CCMSLIB00000086167&#39;,</span>
+<a id="__codelineno-0-38" name="__codelineno-0-38" href="#__codelineno-0-38"></a><span class="go">&#39;json_url&#39;: &#39;https://metabolomics-usi.gnps2.org/json/?usi1=mzspec:GNPS:GNPS-LIBRARY:accession:CCMSLIB00000086167&#39;,</span>
+<a id="__codelineno-0-39" name="__codelineno-0-39" href="#__codelineno-0-39"></a><span class="go">&#39;svg_url&#39;: &#39;https://metabolomics-usi.gnps2.org/svg/?usi1=mzspec:GNPS:GNPS-LIBRARY:accession:CCMSLIB00000086167&#39;,</span>
+<a id="__codelineno-0-40" name="__codelineno-0-40" href="#__codelineno-0-40"></a><span class="go">&#39;spectrum_url&#39;: &#39;https://metabolomics-usi.gnps2.org/spectrum/?usi1=mzspec:GNPS:GNPS-LIBRARY:accession:CCMSLIB00000086167&#39;}</span>
+</code></pre></div>
+
                 <details class="quote">
                   <summary>Source code in <code>src/nplinker/metabolomics/gnps/gnps_annotation_loader.py</code></summary>
-                  <div class="language-python highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal"><a href="#__codelineno-0-15">15</a></span>
-<span class="normal"><a href="#__codelineno-0-16">16</a></span>
-<span class="normal"><a href="#__codelineno-0-17">17</a></span>
-<span class="normal"><a href="#__codelineno-0-18">18</a></span>
-<span class="normal"><a href="#__codelineno-0-19">19</a></span>
-<span class="normal"><a href="#__codelineno-0-20">20</a></span>
-<span class="normal"><a href="#__codelineno-0-21">21</a></span>
-<span class="normal"><a href="#__codelineno-0-22">22</a></span>
-<span class="normal"><a href="#__codelineno-0-23">23</a></span>
-<span class="normal"><a href="#__codelineno-0-24">24</a></span>
-<span class="normal"><a href="#__codelineno-0-25">25</a></span>
-<span class="normal"><a href="#__codelineno-0-26">26</a></span>
-<span class="normal"><a href="#__codelineno-0-27">27</a></span>
-<span class="normal"><a href="#__codelineno-0-28">28</a></span>
+                  <div class="language-python highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal"><a href="#__codelineno-0-28">28</a></span>
 <span class="normal"><a href="#__codelineno-0-29">29</a></span>
 <span class="normal"><a href="#__codelineno-0-30">30</a></span>
 <span class="normal"><a href="#__codelineno-0-31">31</a></span>
@@ -3391,68 +3566,63 @@ <h3 id="nplinker.metabolomics.gnps.GNPSAnnotationLoader" class="doc doc-heading"
 <span class="normal"><a href="#__codelineno-0-73">73</a></span>
 <span class="normal"><a href="#__codelineno-0-74">74</a></span>
 <span class="normal"><a href="#__codelineno-0-75">75</a></span>
-<span class="normal"><a href="#__codelineno-0-76">76</a></span></pre></div></td><td class="code"><div><pre><span></span><code><a id="__codelineno-0-15" name="__codelineno-0-15"></a><span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">file</span><span class="p">:</span> <span class="nb">str</span> <span class="o">|</span> <span class="n">PathLike</span><span class="p">):</span>
-<a id="__codelineno-0-16" name="__codelineno-0-16"></a><span class="w">    </span><span class="sd">&quot;&quot;&quot;Load annotations from GNPS output file.</span>
-<a id="__codelineno-0-17" name="__codelineno-0-17"></a>
-<a id="__codelineno-0-18" name="__codelineno-0-18"></a><span class="sd">    The annotation file is a .tsv file from GNPS output archive, as described</span>
-<a id="__codelineno-0-19" name="__codelineno-0-19"></a><span class="sd">    below for each GNPS workflow type:</span>
-<a id="__codelineno-0-20" name="__codelineno-0-20"></a><span class="sd">    1. METABOLOMICS-SNETS</span>
-<a id="__codelineno-0-21" name="__codelineno-0-21"></a><span class="sd">        - result_specnets_DB/*.tsv</span>
-<a id="__codelineno-0-22" name="__codelineno-0-22"></a><span class="sd">    2. METABOLOMICS-SNETS-V2</span>
-<a id="__codelineno-0-23" name="__codelineno-0-23"></a><span class="sd">        - result_specnets_DB/.tsv</span>
-<a id="__codelineno-0-24" name="__codelineno-0-24"></a><span class="sd">    3. FEATURE-BASED-MOLECULAR-NETWORKING</span>
-<a id="__codelineno-0-25" name="__codelineno-0-25"></a><span class="sd">        - DB_result/*.tsv</span>
-<a id="__codelineno-0-26" name="__codelineno-0-26"></a>
-<a id="__codelineno-0-27" name="__codelineno-0-27"></a><span class="sd">    Args:</span>
-<a id="__codelineno-0-28" name="__codelineno-0-28"></a><span class="sd">        file: The GNPS annotation file.</span>
-<a id="__codelineno-0-29" name="__codelineno-0-29"></a>
-<a id="__codelineno-0-30" name="__codelineno-0-30"></a><span class="sd">    Example:</span>
-<a id="__codelineno-0-31" name="__codelineno-0-31"></a><span class="sd">        &gt;&gt;&gt; loader = GNPSAnnotationLoader(&quot;gnps_annotations.tsv&quot;)</span>
-<a id="__codelineno-0-32" name="__codelineno-0-32"></a><span class="sd">        &gt;&gt;&gt; print(loader.annotations[&quot;100&quot;])</span>
-<a id="__codelineno-0-33" name="__codelineno-0-33"></a><span class="sd">        {&#39;#Scan#&#39;: &#39;100&#39;,</span>
-<a id="__codelineno-0-34" name="__codelineno-0-34"></a><span class="sd">        &#39;Adduct&#39;: &#39;M+H&#39;,</span>
-<a id="__codelineno-0-35" name="__codelineno-0-35"></a><span class="sd">        &#39;CAS_Number&#39;: &#39;N/A&#39;,</span>
-<a id="__codelineno-0-36" name="__codelineno-0-36"></a><span class="sd">        &#39;Charge&#39;: &#39;1&#39;,</span>
-<a id="__codelineno-0-37" name="__codelineno-0-37"></a><span class="sd">        &#39;Compound_Name&#39;: &#39;MLS002153841-01!Iobenguane sulfate&#39;,</span>
-<a id="__codelineno-0-38" name="__codelineno-0-38"></a><span class="sd">        &#39;Compound_Source&#39;: &#39;NIH Pharmacologically Active Library&#39;,</span>
-<a id="__codelineno-0-39" name="__codelineno-0-39"></a><span class="sd">        &#39;Data_Collector&#39;: &#39;VP/LMS&#39;,</span>
-<a id="__codelineno-0-40" name="__codelineno-0-40"></a><span class="sd">        &#39;ExactMass&#39;: &#39;274.992&#39;,</span>
-<a id="__codelineno-0-41" name="__codelineno-0-41"></a><span class="sd">        &#39;INCHI&#39;: &#39;N/A&#39;,</span>
-<a id="__codelineno-0-42" name="__codelineno-0-42"></a><span class="sd">        &#39;INCHI_AUX&#39;: &#39;N/A&#39;,</span>
-<a id="__codelineno-0-43" name="__codelineno-0-43"></a><span class="sd">        &#39;Instrument&#39;: &#39;qTof&#39;,</span>
-<a id="__codelineno-0-44" name="__codelineno-0-44"></a><span class="sd">        &#39;IonMode&#39;: &#39;Positive&#39;,</span>
-<a id="__codelineno-0-45" name="__codelineno-0-45"></a><span class="sd">        &#39;Ion_Source&#39;: &#39;LC-ESI&#39;,</span>
-<a id="__codelineno-0-46" name="__codelineno-0-46"></a><span class="sd">        &#39;LibMZ&#39;: &#39;276.003&#39;,</span>
-<a id="__codelineno-0-47" name="__codelineno-0-47"></a><span class="sd">        &#39;LibraryName&#39;: &#39;lib-00014.mgf&#39;,</span>
-<a id="__codelineno-0-48" name="__codelineno-0-48"></a><span class="sd">        &#39;LibraryQualityString&#39;: &#39;Gold&#39;,</span>
-<a id="__codelineno-0-49" name="__codelineno-0-49"></a><span class="sd">        &#39;Library_Class&#39;: &#39;1&#39;,</span>
-<a id="__codelineno-0-50" name="__codelineno-0-50"></a><span class="sd">        &#39;MQScore&#39;: &#39;0.704152&#39;,</span>
-<a id="__codelineno-0-51" name="__codelineno-0-51"></a><span class="sd">        &#39;MZErrorPPM&#39;: &#39;405416&#39;,</span>
-<a id="__codelineno-0-52" name="__codelineno-0-52"></a><span class="sd">        &#39;MassDiff&#39;: &#39;111.896&#39;,</span>
-<a id="__codelineno-0-53" name="__codelineno-0-53"></a><span class="sd">        &#39;Organism&#39;: &#39;GNPS-NIH-SMALLMOLECULEPHARMACOLOGICALLYACTIVE&#39;,</span>
-<a id="__codelineno-0-54" name="__codelineno-0-54"></a><span class="sd">        &#39;PI&#39;: &#39;Dorrestein&#39;,</span>
-<a id="__codelineno-0-55" name="__codelineno-0-55"></a><span class="sd">        &#39;Precursor_MZ&#39;: &#39;276.003&#39;,</span>
-<a id="__codelineno-0-56" name="__codelineno-0-56"></a><span class="sd">        &#39;Pubmed_ID&#39;: &#39;N/A&#39;,</span>
-<a id="__codelineno-0-57" name="__codelineno-0-57"></a><span class="sd">        &#39;RT_Query&#39;: &#39;795.979&#39;,</span>
-<a id="__codelineno-0-58" name="__codelineno-0-58"></a><span class="sd">        &#39;SharedPeaks&#39;: &#39;7&#39;,</span>
-<a id="__codelineno-0-59" name="__codelineno-0-59"></a><span class="sd">        &#39;Smiles&#39;: &#39;NC(=N)NCc1cccc(I)c1.OS(=O)(=O)O&#39;,</span>
-<a id="__codelineno-0-60" name="__codelineno-0-60"></a><span class="sd">        &#39;SpecCharge&#39;: &#39;1&#39;,</span>
-<a id="__codelineno-0-61" name="__codelineno-0-61"></a><span class="sd">        &#39;SpecMZ&#39;: &#39;164.107&#39;,</span>
-<a id="__codelineno-0-62" name="__codelineno-0-62"></a><span class="sd">        &#39;SpectrumFile&#39;: &#39;spectra/specs_ms.pklbin&#39;,</span>
-<a id="__codelineno-0-63" name="__codelineno-0-63"></a><span class="sd">        &#39;SpectrumID&#39;: &#39;CCMSLIB00000086167&#39;,</span>
-<a id="__codelineno-0-64" name="__codelineno-0-64"></a><span class="sd">        &#39;TIC_Query&#39;: &#39;986.997&#39;,</span>
-<a id="__codelineno-0-65" name="__codelineno-0-65"></a><span class="sd">        &#39;UpdateWorkflowName&#39;: &#39;UPDATE-SINGLE-ANNOTATED-GOLD&#39;,</span>
-<a id="__codelineno-0-66" name="__codelineno-0-66"></a><span class="sd">        &#39;tags&#39;: &#39; &#39;,</span>
-<a id="__codelineno-0-67" name="__codelineno-0-67"></a><span class="sd">        &#39;png_url&#39;: &#39;https://metabolomics-usi.gnps2.org/png/?usi1=mzspec:GNPS:GNPS-LIBRARY:accession:CCMSLIB00000086167&#39;,</span>
-<a id="__codelineno-0-68" name="__codelineno-0-68"></a><span class="sd">        &#39;json_url&#39;: &#39;https://metabolomics-usi.gnps2.org/json/?usi1=mzspec:GNPS:GNPS-LIBRARY:accession:CCMSLIB00000086167&#39;,</span>
-<a id="__codelineno-0-69" name="__codelineno-0-69"></a><span class="sd">        &#39;svg_url&#39;: &#39;https://metabolomics-usi.gnps2.org/svg/?usi1=mzspec:GNPS:GNPS-LIBRARY:accession:CCMSLIB00000086167&#39;,</span>
-<a id="__codelineno-0-70" name="__codelineno-0-70"></a><span class="sd">        &#39;spectrum_url&#39;: &#39;https://metabolomics-usi.gnps2.org/spectrum/?usi1=mzspec:GNPS:GNPS-LIBRARY:accession:CCMSLIB00000086167&#39;}</span>
-<a id="__codelineno-0-71" name="__codelineno-0-71"></a><span class="sd">    &quot;&quot;&quot;</span>
-<a id="__codelineno-0-72" name="__codelineno-0-72"></a>    <span class="bp">self</span><span class="o">.</span><span class="n">_file</span> <span class="o">=</span> <span class="n">Path</span><span class="p">(</span><span class="n">file</span><span class="p">)</span>
-<a id="__codelineno-0-73" name="__codelineno-0-73"></a>    <span class="bp">self</span><span class="o">.</span><span class="n">_annotations</span><span class="p">:</span> <span class="nb">dict</span><span class="p">[</span><span class="nb">str</span><span class="p">,</span> <span class="nb">dict</span><span class="p">]</span> <span class="o">=</span> <span class="p">{}</span>
-<a id="__codelineno-0-74" name="__codelineno-0-74"></a>
-<a id="__codelineno-0-75" name="__codelineno-0-75"></a>    <span class="bp">self</span><span class="o">.</span><span class="n">_validate</span><span class="p">()</span>
-<a id="__codelineno-0-76" name="__codelineno-0-76"></a>    <span class="bp">self</span><span class="o">.</span><span class="n">_load</span><span class="p">()</span>
+<span class="normal"><a href="#__codelineno-0-76">76</a></span>
+<span class="normal"><a href="#__codelineno-0-77">77</a></span>
+<span class="normal"><a href="#__codelineno-0-78">78</a></span>
+<span class="normal"><a href="#__codelineno-0-79">79</a></span>
+<span class="normal"><a href="#__codelineno-0-80">80</a></span></pre></div></td><td class="code"><div><pre><span></span><code><a id="__codelineno-0-28" name="__codelineno-0-28"></a><span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">file</span><span class="p">:</span> <span class="nb">str</span> <span class="o">|</span> <span class="n">PathLike</span><span class="p">):</span>
+<a id="__codelineno-0-29" name="__codelineno-0-29"></a><span class="w">    </span><span class="sd">&quot;&quot;&quot;Initialize the GNPSAnnotationLoader.</span>
+<a id="__codelineno-0-30" name="__codelineno-0-30"></a>
+<a id="__codelineno-0-31" name="__codelineno-0-31"></a><span class="sd">    Args:</span>
+<a id="__codelineno-0-32" name="__codelineno-0-32"></a><span class="sd">        file: The GNPS annotation file.</span>
+<a id="__codelineno-0-33" name="__codelineno-0-33"></a>
+<a id="__codelineno-0-34" name="__codelineno-0-34"></a><span class="sd">    Examples:</span>
+<a id="__codelineno-0-35" name="__codelineno-0-35"></a><span class="sd">        &gt;&gt;&gt; loader = GNPSAnnotationLoader(&quot;gnps_annotations.tsv&quot;)</span>
+<a id="__codelineno-0-36" name="__codelineno-0-36"></a><span class="sd">        &gt;&gt;&gt; print(loader.annotations[&quot;100&quot;])</span>
+<a id="__codelineno-0-37" name="__codelineno-0-37"></a><span class="sd">        {&#39;#Scan#&#39;: &#39;100&#39;,</span>
+<a id="__codelineno-0-38" name="__codelineno-0-38"></a><span class="sd">        &#39;Adduct&#39;: &#39;M+H&#39;,</span>
+<a id="__codelineno-0-39" name="__codelineno-0-39"></a><span class="sd">        &#39;CAS_Number&#39;: &#39;N/A&#39;,</span>
+<a id="__codelineno-0-40" name="__codelineno-0-40"></a><span class="sd">        &#39;Charge&#39;: &#39;1&#39;,</span>
+<a id="__codelineno-0-41" name="__codelineno-0-41"></a><span class="sd">        &#39;Compound_Name&#39;: &#39;MLS002153841-01!Iobenguane sulfate&#39;,</span>
+<a id="__codelineno-0-42" name="__codelineno-0-42"></a><span class="sd">        &#39;Compound_Source&#39;: &#39;NIH Pharmacologically Active Library&#39;,</span>
+<a id="__codelineno-0-43" name="__codelineno-0-43"></a><span class="sd">        &#39;Data_Collector&#39;: &#39;VP/LMS&#39;,</span>
+<a id="__codelineno-0-44" name="__codelineno-0-44"></a><span class="sd">        &#39;ExactMass&#39;: &#39;274.992&#39;,</span>
+<a id="__codelineno-0-45" name="__codelineno-0-45"></a><span class="sd">        &#39;INCHI&#39;: &#39;N/A&#39;,</span>
+<a id="__codelineno-0-46" name="__codelineno-0-46"></a><span class="sd">        &#39;INCHI_AUX&#39;: &#39;N/A&#39;,</span>
+<a id="__codelineno-0-47" name="__codelineno-0-47"></a><span class="sd">        &#39;Instrument&#39;: &#39;qTof&#39;,</span>
+<a id="__codelineno-0-48" name="__codelineno-0-48"></a><span class="sd">        &#39;IonMode&#39;: &#39;Positive&#39;,</span>
+<a id="__codelineno-0-49" name="__codelineno-0-49"></a><span class="sd">        &#39;Ion_Source&#39;: &#39;LC-ESI&#39;,</span>
+<a id="__codelineno-0-50" name="__codelineno-0-50"></a><span class="sd">        &#39;LibMZ&#39;: &#39;276.003&#39;,</span>
+<a id="__codelineno-0-51" name="__codelineno-0-51"></a><span class="sd">        &#39;LibraryName&#39;: &#39;lib-00014.mgf&#39;,</span>
+<a id="__codelineno-0-52" name="__codelineno-0-52"></a><span class="sd">        &#39;LibraryQualityString&#39;: &#39;Gold&#39;,</span>
+<a id="__codelineno-0-53" name="__codelineno-0-53"></a><span class="sd">        &#39;Library_Class&#39;: &#39;1&#39;,</span>
+<a id="__codelineno-0-54" name="__codelineno-0-54"></a><span class="sd">        &#39;MQScore&#39;: &#39;0.704152&#39;,</span>
+<a id="__codelineno-0-55" name="__codelineno-0-55"></a><span class="sd">        &#39;MZErrorPPM&#39;: &#39;405416&#39;,</span>
+<a id="__codelineno-0-56" name="__codelineno-0-56"></a><span class="sd">        &#39;MassDiff&#39;: &#39;111.896&#39;,</span>
+<a id="__codelineno-0-57" name="__codelineno-0-57"></a><span class="sd">        &#39;Organism&#39;: &#39;GNPS-NIH-SMALLMOLECULEPHARMACOLOGICALLYACTIVE&#39;,</span>
+<a id="__codelineno-0-58" name="__codelineno-0-58"></a><span class="sd">        &#39;PI&#39;: &#39;Dorrestein&#39;,</span>
+<a id="__codelineno-0-59" name="__codelineno-0-59"></a><span class="sd">        &#39;Precursor_MZ&#39;: &#39;276.003&#39;,</span>
+<a id="__codelineno-0-60" name="__codelineno-0-60"></a><span class="sd">        &#39;Pubmed_ID&#39;: &#39;N/A&#39;,</span>
+<a id="__codelineno-0-61" name="__codelineno-0-61"></a><span class="sd">        &#39;RT_Query&#39;: &#39;795.979&#39;,</span>
+<a id="__codelineno-0-62" name="__codelineno-0-62"></a><span class="sd">        &#39;SharedPeaks&#39;: &#39;7&#39;,</span>
+<a id="__codelineno-0-63" name="__codelineno-0-63"></a><span class="sd">        &#39;Smiles&#39;: &#39;NC(=N)NCc1cccc(I)c1.OS(=O)(=O)O&#39;,</span>
+<a id="__codelineno-0-64" name="__codelineno-0-64"></a><span class="sd">        &#39;SpecCharge&#39;: &#39;1&#39;,</span>
+<a id="__codelineno-0-65" name="__codelineno-0-65"></a><span class="sd">        &#39;SpecMZ&#39;: &#39;164.107&#39;,</span>
+<a id="__codelineno-0-66" name="__codelineno-0-66"></a><span class="sd">        &#39;SpectrumFile&#39;: &#39;spectra/specs_ms.pklbin&#39;,</span>
+<a id="__codelineno-0-67" name="__codelineno-0-67"></a><span class="sd">        &#39;SpectrumID&#39;: &#39;CCMSLIB00000086167&#39;,</span>
+<a id="__codelineno-0-68" name="__codelineno-0-68"></a><span class="sd">        &#39;TIC_Query&#39;: &#39;986.997&#39;,</span>
+<a id="__codelineno-0-69" name="__codelineno-0-69"></a><span class="sd">        &#39;UpdateWorkflowName&#39;: &#39;UPDATE-SINGLE-ANNOTATED-GOLD&#39;,</span>
+<a id="__codelineno-0-70" name="__codelineno-0-70"></a><span class="sd">        &#39;tags&#39;: &#39; &#39;,</span>
+<a id="__codelineno-0-71" name="__codelineno-0-71"></a><span class="sd">        &#39;png_url&#39;: &#39;https://metabolomics-usi.gnps2.org/png/?usi1=mzspec:GNPS:GNPS-LIBRARY:accession:CCMSLIB00000086167&#39;,</span>
+<a id="__codelineno-0-72" name="__codelineno-0-72"></a><span class="sd">        &#39;json_url&#39;: &#39;https://metabolomics-usi.gnps2.org/json/?usi1=mzspec:GNPS:GNPS-LIBRARY:accession:CCMSLIB00000086167&#39;,</span>
+<a id="__codelineno-0-73" name="__codelineno-0-73"></a><span class="sd">        &#39;svg_url&#39;: &#39;https://metabolomics-usi.gnps2.org/svg/?usi1=mzspec:GNPS:GNPS-LIBRARY:accession:CCMSLIB00000086167&#39;,</span>
+<a id="__codelineno-0-74" name="__codelineno-0-74"></a><span class="sd">        &#39;spectrum_url&#39;: &#39;https://metabolomics-usi.gnps2.org/spectrum/?usi1=mzspec:GNPS:GNPS-LIBRARY:accession:CCMSLIB00000086167&#39;}</span>
+<a id="__codelineno-0-75" name="__codelineno-0-75"></a><span class="sd">    &quot;&quot;&quot;</span>
+<a id="__codelineno-0-76" name="__codelineno-0-76"></a>    <span class="bp">self</span><span class="o">.</span><span class="n">_file</span> <span class="o">=</span> <span class="n">Path</span><span class="p">(</span><span class="n">file</span><span class="p">)</span>
+<a id="__codelineno-0-77" name="__codelineno-0-77"></a>    <span class="bp">self</span><span class="o">.</span><span class="n">_annotations</span><span class="p">:</span> <span class="nb">dict</span><span class="p">[</span><span class="nb">str</span><span class="p">,</span> <span class="nb">dict</span><span class="p">]</span> <span class="o">=</span> <span class="p">{}</span>
+<a id="__codelineno-0-78" name="__codelineno-0-78"></a>
+<a id="__codelineno-0-79" name="__codelineno-0-79"></a>    <span class="bp">self</span><span class="o">.</span><span class="n">_validate</span><span class="p">()</span>
+<a id="__codelineno-0-80" name="__codelineno-0-80"></a>    <span class="bp">self</span><span class="o">.</span><span class="n">_load</span><span class="p">()</span>
 </code></pre></div></td></tr></table></div>
                 </details>
 
@@ -3503,8 +3673,17 @@ <h4 id="nplinker.metabolomics.gnps.GNPSAnnotationLoader.annotations" class="doc
           </td>
           <td>
             <div class="doc-md-description">
-              <p>dict[str, dict]: Keys are spectrum ids ("#Scan#" in annotation file)
-and values are the annotations dict for each spectrum.</p>
+              <p>Keys are spectrum ids ("#Scan#" in annotation file) and values are the annotations dict</p>
+            </div>
+          </td>
+        </tr>
+        <tr>
+          <td>
+                <code><a class="autorefs autorefs-external" href="https://docs.python.org/3/library/stdtypes.html#dict">dict</a>[<a class="autorefs autorefs-external" href="https://docs.python.org/3/library/stdtypes.html#str">str</a>, <a class="autorefs autorefs-external" href="https://docs.python.org/3/library/stdtypes.html#dict">dict</a>]</code>
+          </td>
+          <td>
+            <div class="doc-md-description">
+              <p>for each spectrum.</p>
             </div>
           </td>
         </tr>
@@ -3539,7 +3718,7 @@ <h3 id="nplinker.metabolomics.gnps.GNPSFileMappingLoader" class="doc doc-heading
 
   <div class="doc doc-contents ">
           <p class="doc doc-class-bases">
-            Bases: <code><span title="nplinker.metabolomics.abc.FileMappingLoaderBase">FileMappingLoaderBase</span></code></p>
+            Bases: <code><a class="autorefs autorefs-internal" title="nplinker.metabolomics.abc.FileMappingLoaderBase" href="../metabolomics_abc/#nplinker.metabolomics.abc.FileMappingLoaderBase">FileMappingLoaderBase</a></code></p>
 
   
       <p>Class to load file mappings from GNPS output file.</p>
@@ -3561,6 +3740,7 @@ <h3 id="nplinker.metabolomics.gnps.GNPSFileMappingLoader" class="doc doc-heading
 </ul>
 </li>
 </ol>
+  
 
 
 
@@ -3628,23 +3808,7 @@ <h3 id="nplinker.metabolomics.gnps.GNPSFileMappingLoader" class="doc doc-heading
 
                 <details class="quote">
                   <summary>Source code in <code>src/nplinker/metabolomics/gnps/gnps_file_mapping_loader.py</code></summary>
-                  <div class="language-python highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal"><a href="#__codelineno-0-12">12</a></span>
-<span class="normal"><a href="#__codelineno-0-13">13</a></span>
-<span class="normal"><a href="#__codelineno-0-14">14</a></span>
-<span class="normal"><a href="#__codelineno-0-15">15</a></span>
-<span class="normal"><a href="#__codelineno-0-16">16</a></span>
-<span class="normal"><a href="#__codelineno-0-17">17</a></span>
-<span class="normal"><a href="#__codelineno-0-18">18</a></span>
-<span class="normal"><a href="#__codelineno-0-19">19</a></span>
-<span class="normal"><a href="#__codelineno-0-20">20</a></span>
-<span class="normal"><a href="#__codelineno-0-21">21</a></span>
-<span class="normal"><a href="#__codelineno-0-22">22</a></span>
-<span class="normal"><a href="#__codelineno-0-23">23</a></span>
-<span class="normal"><a href="#__codelineno-0-24">24</a></span>
-<span class="normal"><a href="#__codelineno-0-25">25</a></span>
-<span class="normal"><a href="#__codelineno-0-26">26</a></span>
-<span class="normal"><a href="#__codelineno-0-27">27</a></span>
-<span class="normal"><a href="#__codelineno-0-28">28</a></span>
+                  <div class="language-python highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal"><a href="#__codelineno-0-28">28</a></span>
 <span class="normal"><a href="#__codelineno-0-29">29</a></span>
 <span class="normal"><a href="#__codelineno-0-30">30</a></span>
 <span class="normal"><a href="#__codelineno-0-31">31</a></span>
@@ -3665,44 +3829,34 @@ <h3 id="nplinker.metabolomics.gnps.GNPSFileMappingLoader" class="doc doc-heading
 <span class="normal"><a href="#__codelineno-0-46">46</a></span>
 <span class="normal"><a href="#__codelineno-0-47">47</a></span>
 <span class="normal"><a href="#__codelineno-0-48">48</a></span>
-<span class="normal"><a href="#__codelineno-0-49">49</a></span></pre></div></td><td class="code"><div><pre><span></span><code><a id="__codelineno-0-12" name="__codelineno-0-12"></a><span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">file</span><span class="p">:</span> <span class="nb">str</span> <span class="o">|</span> <span class="n">PathLike</span><span class="p">):</span>
-<a id="__codelineno-0-13" name="__codelineno-0-13"></a><span class="w">    </span><span class="sd">&quot;&quot;&quot;Class to load file mappings from GNPS output file.</span>
-<a id="__codelineno-0-14" name="__codelineno-0-14"></a>
-<a id="__codelineno-0-15" name="__codelineno-0-15"></a><span class="sd">    File mappings refers to the mapping from spectrum id to files in which</span>
-<a id="__codelineno-0-16" name="__codelineno-0-16"></a><span class="sd">    this spectrum occurs.</span>
-<a id="__codelineno-0-17" name="__codelineno-0-17"></a>
-<a id="__codelineno-0-18" name="__codelineno-0-18"></a><span class="sd">    The file mappings file is from GNPS output archive, as described below</span>
-<a id="__codelineno-0-19" name="__codelineno-0-19"></a><span class="sd">    for each GNPS workflow type:</span>
-<a id="__codelineno-0-20" name="__codelineno-0-20"></a>
-<a id="__codelineno-0-21" name="__codelineno-0-21"></a><span class="sd">    1. METABOLOMICS-SNETS</span>
-<a id="__codelineno-0-22" name="__codelineno-0-22"></a><span class="sd">        - clusterinfosummarygroup_attributes_withIDs_withcomponentID/*.tsv</span>
-<a id="__codelineno-0-23" name="__codelineno-0-23"></a><span class="sd">    2. METABOLOMICS-SNETS-V2</span>
-<a id="__codelineno-0-24" name="__codelineno-0-24"></a><span class="sd">        - clusterinfosummarygroup_attributes_withIDs_withcomponentID/*.clustersummary</span>
-<a id="__codelineno-0-25" name="__codelineno-0-25"></a><span class="sd">    3. FEATURE-BASED-MOLECULAR-NETWORKING</span>
-<a id="__codelineno-0-26" name="__codelineno-0-26"></a><span class="sd">        - quantification_table*/*.csv</span>
-<a id="__codelineno-0-27" name="__codelineno-0-27"></a>
-<a id="__codelineno-0-28" name="__codelineno-0-28"></a><span class="sd">    Args:</span>
-<a id="__codelineno-0-29" name="__codelineno-0-29"></a><span class="sd">        file: Path to the GNPS file mappings file.</span>
+<span class="normal"><a href="#__codelineno-0-49">49</a></span>
+<span class="normal"><a href="#__codelineno-0-50">50</a></span>
+<span class="normal"><a href="#__codelineno-0-51">51</a></span>
+<span class="normal"><a href="#__codelineno-0-52">52</a></span></pre></div></td><td class="code"><div><pre><span></span><code><a id="__codelineno-0-28" name="__codelineno-0-28"></a><span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">file</span><span class="p">:</span> <span class="nb">str</span> <span class="o">|</span> <span class="n">PathLike</span><span class="p">):</span>
+<a id="__codelineno-0-29" name="__codelineno-0-29"></a><span class="w">    </span><span class="sd">&quot;&quot;&quot;Initialize the GNPSFileMappingLoader.</span>
 <a id="__codelineno-0-30" name="__codelineno-0-30"></a>
-<a id="__codelineno-0-31" name="__codelineno-0-31"></a><span class="sd">    Raises:</span>
-<a id="__codelineno-0-32" name="__codelineno-0-32"></a><span class="sd">        ValueError: Raises ValueError if the file is not valid.</span>
+<a id="__codelineno-0-31" name="__codelineno-0-31"></a><span class="sd">    Args:</span>
+<a id="__codelineno-0-32" name="__codelineno-0-32"></a><span class="sd">        file: Path to the GNPS file mappings file.</span>
 <a id="__codelineno-0-33" name="__codelineno-0-33"></a>
-<a id="__codelineno-0-34" name="__codelineno-0-34"></a><span class="sd">    Examples:</span>
-<a id="__codelineno-0-35" name="__codelineno-0-35"></a><span class="sd">        &gt;&gt;&gt; loader = GNPSFileMappingLoader(&quot;gnps_file_mappings.tsv&quot;)</span>
-<a id="__codelineno-0-36" name="__codelineno-0-36"></a><span class="sd">        &gt;&gt;&gt; print(loader.mappings[&quot;1&quot;])</span>
-<a id="__codelineno-0-37" name="__codelineno-0-37"></a><span class="sd">        [&#39;26c.mzXML&#39;]</span>
-<a id="__codelineno-0-38" name="__codelineno-0-38"></a><span class="sd">        &gt;&gt;&gt; print(loader.mapping_reversed[&quot;26c.mzXML&quot;])</span>
-<a id="__codelineno-0-39" name="__codelineno-0-39"></a><span class="sd">        {&#39;1&#39;, &#39;3&#39;, &#39;7&#39;, ...}</span>
-<a id="__codelineno-0-40" name="__codelineno-0-40"></a><span class="sd">    &quot;&quot;&quot;</span>
-<a id="__codelineno-0-41" name="__codelineno-0-41"></a>    <span class="bp">self</span><span class="o">.</span><span class="n">_gnps_format</span> <span class="o">=</span> <span class="n">gnps_format_from_file_mapping</span><span class="p">(</span><span class="n">file</span><span class="p">)</span>
-<a id="__codelineno-0-42" name="__codelineno-0-42"></a>    <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">_gnps_format</span> <span class="ow">is</span> <span class="n">GNPSFormat</span><span class="o">.</span><span class="n">Unknown</span><span class="p">:</span>
-<a id="__codelineno-0-43" name="__codelineno-0-43"></a>        <span class="k">raise</span> <span class="ne">ValueError</span><span class="p">(</span><span class="s2">&quot;Unknown workflow type for GNPS file mappings file &quot;</span><span class="p">)</span>
-<a id="__codelineno-0-44" name="__codelineno-0-44"></a>
-<a id="__codelineno-0-45" name="__codelineno-0-45"></a>    <span class="bp">self</span><span class="o">.</span><span class="n">_file</span> <span class="o">=</span> <span class="n">Path</span><span class="p">(</span><span class="n">file</span><span class="p">)</span>
-<a id="__codelineno-0-46" name="__codelineno-0-46"></a>    <span class="bp">self</span><span class="o">.</span><span class="n">_mapping</span><span class="p">:</span> <span class="nb">dict</span><span class="p">[</span><span class="nb">str</span><span class="p">,</span> <span class="nb">list</span><span class="p">[</span><span class="nb">str</span><span class="p">]]</span> <span class="o">=</span> <span class="p">{}</span>
+<a id="__codelineno-0-34" name="__codelineno-0-34"></a><span class="sd">    Raises:</span>
+<a id="__codelineno-0-35" name="__codelineno-0-35"></a><span class="sd">        ValueError: Raises ValueError if the file is not valid.</span>
+<a id="__codelineno-0-36" name="__codelineno-0-36"></a>
+<a id="__codelineno-0-37" name="__codelineno-0-37"></a><span class="sd">    Examples:</span>
+<a id="__codelineno-0-38" name="__codelineno-0-38"></a><span class="sd">        &gt;&gt;&gt; loader = GNPSFileMappingLoader(&quot;gnps_file_mappings.tsv&quot;)</span>
+<a id="__codelineno-0-39" name="__codelineno-0-39"></a><span class="sd">        &gt;&gt;&gt; print(loader.mappings[&quot;1&quot;])</span>
+<a id="__codelineno-0-40" name="__codelineno-0-40"></a><span class="sd">        [&#39;26c.mzXML&#39;]</span>
+<a id="__codelineno-0-41" name="__codelineno-0-41"></a><span class="sd">        &gt;&gt;&gt; print(loader.mapping_reversed[&quot;26c.mzXML&quot;])</span>
+<a id="__codelineno-0-42" name="__codelineno-0-42"></a><span class="sd">        {&#39;1&#39;, &#39;3&#39;, &#39;7&#39;, ...}</span>
+<a id="__codelineno-0-43" name="__codelineno-0-43"></a><span class="sd">    &quot;&quot;&quot;</span>
+<a id="__codelineno-0-44" name="__codelineno-0-44"></a>    <span class="bp">self</span><span class="o">.</span><span class="n">_gnps_format</span> <span class="o">=</span> <span class="n">gnps_format_from_file_mapping</span><span class="p">(</span><span class="n">file</span><span class="p">)</span>
+<a id="__codelineno-0-45" name="__codelineno-0-45"></a>    <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">_gnps_format</span> <span class="ow">is</span> <span class="n">GNPSFormat</span><span class="o">.</span><span class="n">Unknown</span><span class="p">:</span>
+<a id="__codelineno-0-46" name="__codelineno-0-46"></a>        <span class="k">raise</span> <span class="ne">ValueError</span><span class="p">(</span><span class="s2">&quot;Unknown workflow type for GNPS file mappings file &quot;</span><span class="p">)</span>
 <a id="__codelineno-0-47" name="__codelineno-0-47"></a>
-<a id="__codelineno-0-48" name="__codelineno-0-48"></a>    <span class="bp">self</span><span class="o">.</span><span class="n">_validate</span><span class="p">()</span>
-<a id="__codelineno-0-49" name="__codelineno-0-49"></a>    <span class="bp">self</span><span class="o">.</span><span class="n">_load</span><span class="p">()</span>
+<a id="__codelineno-0-48" name="__codelineno-0-48"></a>    <span class="bp">self</span><span class="o">.</span><span class="n">_file</span> <span class="o">=</span> <span class="n">Path</span><span class="p">(</span><span class="n">file</span><span class="p">)</span>
+<a id="__codelineno-0-49" name="__codelineno-0-49"></a>    <span class="bp">self</span><span class="o">.</span><span class="n">_mapping</span><span class="p">:</span> <span class="nb">dict</span><span class="p">[</span><span class="nb">str</span><span class="p">,</span> <span class="nb">list</span><span class="p">[</span><span class="nb">str</span><span class="p">]]</span> <span class="o">=</span> <span class="p">{}</span>
+<a id="__codelineno-0-50" name="__codelineno-0-50"></a>
+<a id="__codelineno-0-51" name="__codelineno-0-51"></a>    <span class="bp">self</span><span class="o">.</span><span class="n">_validate</span><span class="p">()</span>
+<a id="__codelineno-0-52" name="__codelineno-0-52"></a>    <span class="bp">self</span><span class="o">.</span><span class="n">_load</span><span class="p">()</span>
 </code></pre></div></td></tr></table></div>
                 </details>
 
@@ -3753,8 +3907,7 @@ <h4 id="nplinker.metabolomics.gnps.GNPSFileMappingLoader.mappings" class="doc do
           </td>
           <td>
             <div class="doc-md-description">
-              <p>dict[str, list[str]]: Mapping from spectrum id to names of all
-files in which this spectrum occurs.</p>
+              <p>Mapping from spectrum id to names of all files in which this spectrum occurs.</p>
             </div>
           </td>
         </tr>
@@ -3801,8 +3954,7 @@ <h4 id="nplinker.metabolomics.gnps.GNPSFileMappingLoader.mapping_reversed" class
           </td>
           <td>
             <div class="doc-md-description">
-              <p>dict[str, set[str]]: Mapping from file name to all spectra ids that
-occur in this file.</p>
+              <p>Mapping from file name to all spectra ids that occur in this file.</p>
             </div>
           </td>
         </tr>
@@ -3907,8 +4059,7 @@ <h3 id="nplinker.metabolomics.gnps.gnps_format_from_archive" class="doc doc-head
 
           <details class="quote">
             <summary>Source code in <code>src/nplinker/metabolomics/gnps/gnps_format.py</code></summary>
-            <div class="language-python highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal"><a href="#__codelineno-0-63"> 63</a></span>
-<span class="normal"><a href="#__codelineno-0-64"> 64</a></span>
+            <div class="language-python highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal"><a href="#__codelineno-0-64"> 64</a></span>
 <span class="normal"><a href="#__codelineno-0-65"> 65</a></span>
 <span class="normal"><a href="#__codelineno-0-66"> 66</a></span>
 <span class="normal"><a href="#__codelineno-0-67"> 67</a></span>
@@ -3945,45 +4096,46 @@ <h3 id="nplinker.metabolomics.gnps.gnps_format_from_archive" class="doc doc-head
 <span class="normal"><a href="#__codelineno-0-98"> 98</a></span>
 <span class="normal"><a href="#__codelineno-0-99"> 99</a></span>
 <span class="normal"><a href="#__codelineno-0-100">100</a></span>
-<span class="normal"><a href="#__codelineno-0-101">101</a></span></pre></div></td><td class="code"><div><pre><span></span><code><a id="__codelineno-0-63" name="__codelineno-0-63"></a><span class="k">def</span> <span class="nf">gnps_format_from_archive</span><span class="p">(</span><span class="n">zip_file</span><span class="p">:</span> <span class="nb">str</span> <span class="o">|</span> <span class="n">PathLike</span><span class="p">)</span> <span class="o">-&gt;</span> <span class="n">GNPSFormat</span><span class="p">:</span>
-<a id="__codelineno-0-64" name="__codelineno-0-64"></a><span class="w">    </span><span class="sd">&quot;&quot;&quot;Detect GNPS format from a downloaded GNPS zip archive.</span>
-<a id="__codelineno-0-65" name="__codelineno-0-65"></a>
-<a id="__codelineno-0-66" name="__codelineno-0-66"></a><span class="sd">    The detection is based on the filename of the zip file and the names of the</span>
-<a id="__codelineno-0-67" name="__codelineno-0-67"></a><span class="sd">    files contained in the zip file.</span>
-<a id="__codelineno-0-68" name="__codelineno-0-68"></a>
-<a id="__codelineno-0-69" name="__codelineno-0-69"></a><span class="sd">    Args:</span>
-<a id="__codelineno-0-70" name="__codelineno-0-70"></a><span class="sd">        zip_file: Path to the downloaded GNPS zip file.</span>
-<a id="__codelineno-0-71" name="__codelineno-0-71"></a>
-<a id="__codelineno-0-72" name="__codelineno-0-72"></a><span class="sd">    Returns:</span>
-<a id="__codelineno-0-73" name="__codelineno-0-73"></a><span class="sd">        The format identified in the GNPS zip file.</span>
-<a id="__codelineno-0-74" name="__codelineno-0-74"></a>
-<a id="__codelineno-0-75" name="__codelineno-0-75"></a><span class="sd">    Examples:</span>
-<a id="__codelineno-0-76" name="__codelineno-0-76"></a><span class="sd">        &gt;&gt;&gt; gnps_format_from_archive(&quot;downloads/ProteoSAFe-METABOLOMICS-SNETS-c22f44b1-download_clustered_spectra.zip&quot;) == GNPSFormat.SNETS</span>
-<a id="__codelineno-0-77" name="__codelineno-0-77"></a><span class="sd">        &gt;&gt;&gt; gnps_format_from_archive(&quot;downloads/ProteoSAFe-METABOLOMICS-SNETS-V2-189e8bf1-download_clustered_spectra.zip&quot;) == GNPSFormat.SNETSV2</span>
-<a id="__codelineno-0-78" name="__codelineno-0-78"></a><span class="sd">        &gt;&gt;&gt; gnps_format_from_archive(&quot;downloads/ProteoSAFe-FEATURE-BASED-MOLECULAR-NETWORKING-672d0a53-download_cytoscape_data.zip&quot;) == GNPSFormat.FBMN</span>
-<a id="__codelineno-0-79" name="__codelineno-0-79"></a><span class="sd">    &quot;&quot;&quot;</span>
-<a id="__codelineno-0-80" name="__codelineno-0-80"></a>    <span class="n">file</span> <span class="o">=</span> <span class="n">Path</span><span class="p">(</span><span class="n">zip_file</span><span class="p">)</span>
-<a id="__codelineno-0-81" name="__codelineno-0-81"></a>    <span class="c1"># Guess the format from the filename of the zip file</span>
-<a id="__codelineno-0-82" name="__codelineno-0-82"></a>    <span class="k">if</span> <span class="n">GNPSFormat</span><span class="o">.</span><span class="n">FBMN</span><span class="o">.</span><span class="n">value</span> <span class="ow">in</span> <span class="n">file</span><span class="o">.</span><span class="n">name</span><span class="p">:</span>
-<a id="__codelineno-0-83" name="__codelineno-0-83"></a>        <span class="k">return</span> <span class="n">GNPSFormat</span><span class="o">.</span><span class="n">FBMN</span>
-<a id="__codelineno-0-84" name="__codelineno-0-84"></a>    <span class="c1"># the order of the if statements matters for the following two</span>
-<a id="__codelineno-0-85" name="__codelineno-0-85"></a>    <span class="k">if</span> <span class="n">GNPSFormat</span><span class="o">.</span><span class="n">SNETSV2</span><span class="o">.</span><span class="n">value</span> <span class="ow">in</span> <span class="n">file</span><span class="o">.</span><span class="n">name</span><span class="p">:</span>
-<a id="__codelineno-0-86" name="__codelineno-0-86"></a>        <span class="k">return</span> <span class="n">GNPSFormat</span><span class="o">.</span><span class="n">SNETSV2</span>
-<a id="__codelineno-0-87" name="__codelineno-0-87"></a>    <span class="k">if</span> <span class="n">GNPSFormat</span><span class="o">.</span><span class="n">SNETS</span><span class="o">.</span><span class="n">value</span> <span class="ow">in</span> <span class="n">file</span><span class="o">.</span><span class="n">name</span><span class="p">:</span>
-<a id="__codelineno-0-88" name="__codelineno-0-88"></a>        <span class="k">return</span> <span class="n">GNPSFormat</span><span class="o">.</span><span class="n">SNETS</span>
-<a id="__codelineno-0-89" name="__codelineno-0-89"></a>
-<a id="__codelineno-0-90" name="__codelineno-0-90"></a>    <span class="c1"># Guess the format from the names of the files in the zip file</span>
-<a id="__codelineno-0-91" name="__codelineno-0-91"></a>    <span class="k">with</span> <span class="n">zipfile</span><span class="o">.</span><span class="n">ZipFile</span><span class="p">(</span><span class="n">file</span><span class="p">)</span> <span class="k">as</span> <span class="n">archive</span><span class="p">:</span>
-<a id="__codelineno-0-92" name="__codelineno-0-92"></a>        <span class="n">filenames</span> <span class="o">=</span> <span class="n">archive</span><span class="o">.</span><span class="n">namelist</span><span class="p">()</span>
-<a id="__codelineno-0-93" name="__codelineno-0-93"></a>    <span class="k">if</span> <span class="nb">any</span><span class="p">(</span><span class="n">GNPSFormat</span><span class="o">.</span><span class="n">FBMN</span><span class="o">.</span><span class="n">value</span> <span class="ow">in</span> <span class="n">x</span> <span class="k">for</span> <span class="n">x</span> <span class="ow">in</span> <span class="n">filenames</span><span class="p">):</span>
-<a id="__codelineno-0-94" name="__codelineno-0-94"></a>        <span class="k">return</span> <span class="n">GNPSFormat</span><span class="o">.</span><span class="n">FBMN</span>
-<a id="__codelineno-0-95" name="__codelineno-0-95"></a>    <span class="c1"># the order of the if statements matters for the following two</span>
-<a id="__codelineno-0-96" name="__codelineno-0-96"></a>    <span class="k">if</span> <span class="nb">any</span><span class="p">(</span><span class="n">GNPSFormat</span><span class="o">.</span><span class="n">SNETSV2</span><span class="o">.</span><span class="n">value</span> <span class="ow">in</span> <span class="n">x</span> <span class="k">for</span> <span class="n">x</span> <span class="ow">in</span> <span class="n">filenames</span><span class="p">):</span>
-<a id="__codelineno-0-97" name="__codelineno-0-97"></a>        <span class="k">return</span> <span class="n">GNPSFormat</span><span class="o">.</span><span class="n">SNETSV2</span>
-<a id="__codelineno-0-98" name="__codelineno-0-98"></a>    <span class="k">if</span> <span class="nb">any</span><span class="p">(</span><span class="n">GNPSFormat</span><span class="o">.</span><span class="n">SNETS</span><span class="o">.</span><span class="n">value</span> <span class="ow">in</span> <span class="n">x</span> <span class="k">for</span> <span class="n">x</span> <span class="ow">in</span> <span class="n">filenames</span><span class="p">):</span>
-<a id="__codelineno-0-99" name="__codelineno-0-99"></a>        <span class="k">return</span> <span class="n">GNPSFormat</span><span class="o">.</span><span class="n">SNETS</span>
-<a id="__codelineno-0-100" name="__codelineno-0-100"></a>
-<a id="__codelineno-0-101" name="__codelineno-0-101"></a>    <span class="k">return</span> <span class="n">GNPSFormat</span><span class="o">.</span><span class="n">Unknown</span>
+<span class="normal"><a href="#__codelineno-0-101">101</a></span>
+<span class="normal"><a href="#__codelineno-0-102">102</a></span></pre></div></td><td class="code"><div><pre><span></span><code><a id="__codelineno-0-64" name="__codelineno-0-64"></a><span class="k">def</span> <span class="nf">gnps_format_from_archive</span><span class="p">(</span><span class="n">zip_file</span><span class="p">:</span> <span class="nb">str</span> <span class="o">|</span> <span class="n">PathLike</span><span class="p">)</span> <span class="o">-&gt;</span> <span class="n">GNPSFormat</span><span class="p">:</span>
+<a id="__codelineno-0-65" name="__codelineno-0-65"></a><span class="w">    </span><span class="sd">&quot;&quot;&quot;Detect GNPS format from a downloaded GNPS zip archive.</span>
+<a id="__codelineno-0-66" name="__codelineno-0-66"></a>
+<a id="__codelineno-0-67" name="__codelineno-0-67"></a><span class="sd">    The detection is based on the filename of the zip file and the names of the</span>
+<a id="__codelineno-0-68" name="__codelineno-0-68"></a><span class="sd">    files contained in the zip file.</span>
+<a id="__codelineno-0-69" name="__codelineno-0-69"></a>
+<a id="__codelineno-0-70" name="__codelineno-0-70"></a><span class="sd">    Args:</span>
+<a id="__codelineno-0-71" name="__codelineno-0-71"></a><span class="sd">        zip_file: Path to the downloaded GNPS zip file.</span>
+<a id="__codelineno-0-72" name="__codelineno-0-72"></a>
+<a id="__codelineno-0-73" name="__codelineno-0-73"></a><span class="sd">    Returns:</span>
+<a id="__codelineno-0-74" name="__codelineno-0-74"></a><span class="sd">        The format identified in the GNPS zip file.</span>
+<a id="__codelineno-0-75" name="__codelineno-0-75"></a>
+<a id="__codelineno-0-76" name="__codelineno-0-76"></a><span class="sd">    Examples:</span>
+<a id="__codelineno-0-77" name="__codelineno-0-77"></a><span class="sd">        &gt;&gt;&gt; gnps_format_from_archive(&quot;downloads/ProteoSAFe-METABOLOMICS-SNETS-c22f44b1-download_clustered_spectra.zip&quot;) == GNPSFormat.SNETS</span>
+<a id="__codelineno-0-78" name="__codelineno-0-78"></a><span class="sd">        &gt;&gt;&gt; gnps_format_from_archive(&quot;downloads/ProteoSAFe-METABOLOMICS-SNETS-V2-189e8bf1-download_clustered_spectra.zip&quot;) == GNPSFormat.SNETSV2</span>
+<a id="__codelineno-0-79" name="__codelineno-0-79"></a><span class="sd">        &gt;&gt;&gt; gnps_format_from_archive(&quot;downloads/ProteoSAFe-FEATURE-BASED-MOLECULAR-NETWORKING-672d0a53-download_cytoscape_data.zip&quot;) == GNPSFormat.FBMN</span>
+<a id="__codelineno-0-80" name="__codelineno-0-80"></a><span class="sd">    &quot;&quot;&quot;</span>
+<a id="__codelineno-0-81" name="__codelineno-0-81"></a>    <span class="n">file</span> <span class="o">=</span> <span class="n">Path</span><span class="p">(</span><span class="n">zip_file</span><span class="p">)</span>
+<a id="__codelineno-0-82" name="__codelineno-0-82"></a>    <span class="c1"># Guess the format from the filename of the zip file</span>
+<a id="__codelineno-0-83" name="__codelineno-0-83"></a>    <span class="k">if</span> <span class="n">GNPSFormat</span><span class="o">.</span><span class="n">FBMN</span><span class="o">.</span><span class="n">value</span> <span class="ow">in</span> <span class="n">file</span><span class="o">.</span><span class="n">name</span><span class="p">:</span>
+<a id="__codelineno-0-84" name="__codelineno-0-84"></a>        <span class="k">return</span> <span class="n">GNPSFormat</span><span class="o">.</span><span class="n">FBMN</span>
+<a id="__codelineno-0-85" name="__codelineno-0-85"></a>    <span class="c1"># the order of the if statements matters for the following two</span>
+<a id="__codelineno-0-86" name="__codelineno-0-86"></a>    <span class="k">if</span> <span class="n">GNPSFormat</span><span class="o">.</span><span class="n">SNETSV2</span><span class="o">.</span><span class="n">value</span> <span class="ow">in</span> <span class="n">file</span><span class="o">.</span><span class="n">name</span><span class="p">:</span>
+<a id="__codelineno-0-87" name="__codelineno-0-87"></a>        <span class="k">return</span> <span class="n">GNPSFormat</span><span class="o">.</span><span class="n">SNETSV2</span>
+<a id="__codelineno-0-88" name="__codelineno-0-88"></a>    <span class="k">if</span> <span class="n">GNPSFormat</span><span class="o">.</span><span class="n">SNETS</span><span class="o">.</span><span class="n">value</span> <span class="ow">in</span> <span class="n">file</span><span class="o">.</span><span class="n">name</span><span class="p">:</span>
+<a id="__codelineno-0-89" name="__codelineno-0-89"></a>        <span class="k">return</span> <span class="n">GNPSFormat</span><span class="o">.</span><span class="n">SNETS</span>
+<a id="__codelineno-0-90" name="__codelineno-0-90"></a>
+<a id="__codelineno-0-91" name="__codelineno-0-91"></a>    <span class="c1"># Guess the format from the names of the files in the zip file</span>
+<a id="__codelineno-0-92" name="__codelineno-0-92"></a>    <span class="k">with</span> <span class="n">zipfile</span><span class="o">.</span><span class="n">ZipFile</span><span class="p">(</span><span class="n">file</span><span class="p">)</span> <span class="k">as</span> <span class="n">archive</span><span class="p">:</span>
+<a id="__codelineno-0-93" name="__codelineno-0-93"></a>        <span class="n">filenames</span> <span class="o">=</span> <span class="n">archive</span><span class="o">.</span><span class="n">namelist</span><span class="p">()</span>
+<a id="__codelineno-0-94" name="__codelineno-0-94"></a>    <span class="k">if</span> <span class="nb">any</span><span class="p">(</span><span class="n">GNPSFormat</span><span class="o">.</span><span class="n">FBMN</span><span class="o">.</span><span class="n">value</span> <span class="ow">in</span> <span class="n">x</span> <span class="k">for</span> <span class="n">x</span> <span class="ow">in</span> <span class="n">filenames</span><span class="p">):</span>
+<a id="__codelineno-0-95" name="__codelineno-0-95"></a>        <span class="k">return</span> <span class="n">GNPSFormat</span><span class="o">.</span><span class="n">FBMN</span>
+<a id="__codelineno-0-96" name="__codelineno-0-96"></a>    <span class="c1"># the order of the if statements matters for the following two</span>
+<a id="__codelineno-0-97" name="__codelineno-0-97"></a>    <span class="k">if</span> <span class="nb">any</span><span class="p">(</span><span class="n">GNPSFormat</span><span class="o">.</span><span class="n">SNETSV2</span><span class="o">.</span><span class="n">value</span> <span class="ow">in</span> <span class="n">x</span> <span class="k">for</span> <span class="n">x</span> <span class="ow">in</span> <span class="n">filenames</span><span class="p">):</span>
+<a id="__codelineno-0-98" name="__codelineno-0-98"></a>        <span class="k">return</span> <span class="n">GNPSFormat</span><span class="o">.</span><span class="n">SNETSV2</span>
+<a id="__codelineno-0-99" name="__codelineno-0-99"></a>    <span class="k">if</span> <span class="nb">any</span><span class="p">(</span><span class="n">GNPSFormat</span><span class="o">.</span><span class="n">SNETS</span><span class="o">.</span><span class="n">value</span> <span class="ow">in</span> <span class="n">x</span> <span class="k">for</span> <span class="n">x</span> <span class="ow">in</span> <span class="n">filenames</span><span class="p">):</span>
+<a id="__codelineno-0-100" name="__codelineno-0-100"></a>        <span class="k">return</span> <span class="n">GNPSFormat</span><span class="o">.</span><span class="n">SNETS</span>
+<a id="__codelineno-0-101" name="__codelineno-0-101"></a>
+<a id="__codelineno-0-102" name="__codelineno-0-102"></a>    <span class="k">return</span> <span class="n">GNPSFormat</span><span class="o">.</span><span class="n">Unknown</span>
 </code></pre></div></td></tr></table></div>
           </details>
   </div>
@@ -4070,8 +4222,7 @@ <h3 id="nplinker.metabolomics.gnps.gnps_format_from_file_mapping" class="doc doc
 
           <details class="quote">
             <summary>Source code in <code>src/nplinker/metabolomics/gnps/gnps_format.py</code></summary>
-            <div class="language-python highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal"><a href="#__codelineno-0-104">104</a></span>
-<span class="normal"><a href="#__codelineno-0-105">105</a></span>
+            <div class="language-python highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal"><a href="#__codelineno-0-105">105</a></span>
 <span class="normal"><a href="#__codelineno-0-106">106</a></span>
 <span class="normal"><a href="#__codelineno-0-107">107</a></span>
 <span class="normal"><a href="#__codelineno-0-108">108</a></span>
@@ -4093,30 +4244,31 @@ <h3 id="nplinker.metabolomics.gnps.gnps_format_from_file_mapping" class="doc doc
 <span class="normal"><a href="#__codelineno-0-124">124</a></span>
 <span class="normal"><a href="#__codelineno-0-125">125</a></span>
 <span class="normal"><a href="#__codelineno-0-126">126</a></span>
-<span class="normal"><a href="#__codelineno-0-127">127</a></span></pre></div></td><td class="code"><div><pre><span></span><code><a id="__codelineno-0-104" name="__codelineno-0-104"></a><span class="k">def</span> <span class="nf">gnps_format_from_file_mapping</span><span class="p">(</span><span class="n">file</span><span class="p">:</span> <span class="nb">str</span> <span class="o">|</span> <span class="n">PathLike</span><span class="p">)</span> <span class="o">-&gt;</span> <span class="n">GNPSFormat</span><span class="p">:</span>
-<a id="__codelineno-0-105" name="__codelineno-0-105"></a><span class="w">    </span><span class="sd">&quot;&quot;&quot;Detect GNPS format from the given file mapping file.</span>
-<a id="__codelineno-0-106" name="__codelineno-0-106"></a>
-<a id="__codelineno-0-107" name="__codelineno-0-107"></a><span class="sd">    The GNSP file mapping file is located in different folders depending on the</span>
-<a id="__codelineno-0-108" name="__codelineno-0-108"></a><span class="sd">    GNPS workflow. Here are the locations in corresponding GNPS zip archives:</span>
-<a id="__codelineno-0-109" name="__codelineno-0-109"></a>
-<a id="__codelineno-0-110" name="__codelineno-0-110"></a><span class="sd">    - METABOLOMICS-SNETS workflow: the .tsv file under folder &quot;clusterinfosummarygroup_attributes_withIDs_withcomponentID&quot;</span>
-<a id="__codelineno-0-111" name="__codelineno-0-111"></a><span class="sd">    - METABOLOMICS-SNETS-V2 workflow: the .clustersummary file (tsv) under folder &quot;clusterinfosummarygroup_attributes_withIDs_withcomponentID&quot;</span>
-<a id="__codelineno-0-112" name="__codelineno-0-112"></a><span class="sd">    - FEATURE-BASED-MOLECULAR-NETWORKING workflow: the .csv file under folder &quot;quantification_table&quot;</span>
-<a id="__codelineno-0-113" name="__codelineno-0-113"></a>
-<a id="__codelineno-0-114" name="__codelineno-0-114"></a><span class="sd">    Args:</span>
-<a id="__codelineno-0-115" name="__codelineno-0-115"></a><span class="sd">        file: Path to the file to peek the format for.</span>
-<a id="__codelineno-0-116" name="__codelineno-0-116"></a>
-<a id="__codelineno-0-117" name="__codelineno-0-117"></a><span class="sd">    Returns:</span>
-<a id="__codelineno-0-118" name="__codelineno-0-118"></a><span class="sd">        GNPS format identified in the file.</span>
-<a id="__codelineno-0-119" name="__codelineno-0-119"></a><span class="sd">    &quot;&quot;&quot;</span>
-<a id="__codelineno-0-120" name="__codelineno-0-120"></a>    <span class="n">headers</span> <span class="o">=</span> <span class="n">get_headers</span><span class="p">(</span><span class="n">file</span><span class="p">)</span>
-<a id="__codelineno-0-121" name="__codelineno-0-121"></a>    <span class="k">if</span> <span class="s2">&quot;AllFiles&quot;</span> <span class="ow">in</span> <span class="n">headers</span><span class="p">:</span>
-<a id="__codelineno-0-122" name="__codelineno-0-122"></a>        <span class="k">return</span> <span class="n">GNPSFormat</span><span class="o">.</span><span class="n">SNETS</span>
-<a id="__codelineno-0-123" name="__codelineno-0-123"></a>    <span class="k">if</span> <span class="s2">&quot;UniqueFileSources&quot;</span> <span class="ow">in</span> <span class="n">headers</span><span class="p">:</span>
-<a id="__codelineno-0-124" name="__codelineno-0-124"></a>        <span class="k">return</span> <span class="n">GNPSFormat</span><span class="o">.</span><span class="n">SNETSV2</span>
-<a id="__codelineno-0-125" name="__codelineno-0-125"></a>    <span class="k">if</span> <span class="s2">&quot;row ID&quot;</span> <span class="ow">in</span> <span class="n">headers</span><span class="p">:</span>
-<a id="__codelineno-0-126" name="__codelineno-0-126"></a>        <span class="k">return</span> <span class="n">GNPSFormat</span><span class="o">.</span><span class="n">FBMN</span>
-<a id="__codelineno-0-127" name="__codelineno-0-127"></a>    <span class="k">return</span> <span class="n">GNPSFormat</span><span class="o">.</span><span class="n">Unknown</span>
+<span class="normal"><a href="#__codelineno-0-127">127</a></span>
+<span class="normal"><a href="#__codelineno-0-128">128</a></span></pre></div></td><td class="code"><div><pre><span></span><code><a id="__codelineno-0-105" name="__codelineno-0-105"></a><span class="k">def</span> <span class="nf">gnps_format_from_file_mapping</span><span class="p">(</span><span class="n">file</span><span class="p">:</span> <span class="nb">str</span> <span class="o">|</span> <span class="n">PathLike</span><span class="p">)</span> <span class="o">-&gt;</span> <span class="n">GNPSFormat</span><span class="p">:</span>
+<a id="__codelineno-0-106" name="__codelineno-0-106"></a><span class="w">    </span><span class="sd">&quot;&quot;&quot;Detect GNPS format from the given file mapping file.</span>
+<a id="__codelineno-0-107" name="__codelineno-0-107"></a>
+<a id="__codelineno-0-108" name="__codelineno-0-108"></a><span class="sd">    The GNSP file mapping file is located in different folders depending on the</span>
+<a id="__codelineno-0-109" name="__codelineno-0-109"></a><span class="sd">    GNPS workflow. Here are the locations in corresponding GNPS zip archives:</span>
+<a id="__codelineno-0-110" name="__codelineno-0-110"></a>
+<a id="__codelineno-0-111" name="__codelineno-0-111"></a><span class="sd">    - METABOLOMICS-SNETS workflow: the .tsv file under folder &quot;clusterinfosummarygroup_attributes_withIDs_withcomponentID&quot;</span>
+<a id="__codelineno-0-112" name="__codelineno-0-112"></a><span class="sd">    - METABOLOMICS-SNETS-V2 workflow: the .clustersummary file (tsv) under folder &quot;clusterinfosummarygroup_attributes_withIDs_withcomponentID&quot;</span>
+<a id="__codelineno-0-113" name="__codelineno-0-113"></a><span class="sd">    - FEATURE-BASED-MOLECULAR-NETWORKING workflow: the .csv file under folder &quot;quantification_table&quot;</span>
+<a id="__codelineno-0-114" name="__codelineno-0-114"></a>
+<a id="__codelineno-0-115" name="__codelineno-0-115"></a><span class="sd">    Args:</span>
+<a id="__codelineno-0-116" name="__codelineno-0-116"></a><span class="sd">        file: Path to the file to peek the format for.</span>
+<a id="__codelineno-0-117" name="__codelineno-0-117"></a>
+<a id="__codelineno-0-118" name="__codelineno-0-118"></a><span class="sd">    Returns:</span>
+<a id="__codelineno-0-119" name="__codelineno-0-119"></a><span class="sd">        GNPS format identified in the file.</span>
+<a id="__codelineno-0-120" name="__codelineno-0-120"></a><span class="sd">    &quot;&quot;&quot;</span>
+<a id="__codelineno-0-121" name="__codelineno-0-121"></a>    <span class="n">headers</span> <span class="o">=</span> <span class="n">get_headers</span><span class="p">(</span><span class="n">file</span><span class="p">)</span>
+<a id="__codelineno-0-122" name="__codelineno-0-122"></a>    <span class="k">if</span> <span class="s2">&quot;AllFiles&quot;</span> <span class="ow">in</span> <span class="n">headers</span><span class="p">:</span>
+<a id="__codelineno-0-123" name="__codelineno-0-123"></a>        <span class="k">return</span> <span class="n">GNPSFormat</span><span class="o">.</span><span class="n">SNETS</span>
+<a id="__codelineno-0-124" name="__codelineno-0-124"></a>    <span class="k">if</span> <span class="s2">&quot;UniqueFileSources&quot;</span> <span class="ow">in</span> <span class="n">headers</span><span class="p">:</span>
+<a id="__codelineno-0-125" name="__codelineno-0-125"></a>        <span class="k">return</span> <span class="n">GNPSFormat</span><span class="o">.</span><span class="n">SNETSV2</span>
+<a id="__codelineno-0-126" name="__codelineno-0-126"></a>    <span class="k">if</span> <span class="s2">&quot;row ID&quot;</span> <span class="ow">in</span> <span class="n">headers</span><span class="p">:</span>
+<a id="__codelineno-0-127" name="__codelineno-0-127"></a>        <span class="k">return</span> <span class="n">GNPSFormat</span><span class="o">.</span><span class="n">FBMN</span>
+<a id="__codelineno-0-128" name="__codelineno-0-128"></a>    <span class="k">return</span> <span class="n">GNPSFormat</span><span class="o">.</span><span class="n">Unknown</span>
 </code></pre></div></td></tr></table></div>
           </details>
   </div>
@@ -4205,7 +4357,8 @@ <h3 id="nplinker.metabolomics.gnps.gnps_format_from_task_id" class="doc doc-head
 
           <details class="quote">
             <summary>Source code in <code>src/nplinker/metabolomics/gnps/gnps_format.py</code></summary>
-            <div class="language-python highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal"><a href="#__codelineno-0-32">32</a></span>
+            <div class="language-python highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal"><a href="#__codelineno-0-31">31</a></span>
+<span class="normal"><a href="#__codelineno-0-32">32</a></span>
 <span class="normal"><a href="#__codelineno-0-33">33</a></span>
 <span class="normal"><a href="#__codelineno-0-34">34</a></span>
 <span class="normal"><a href="#__codelineno-0-35">35</a></span>
@@ -4233,35 +4386,38 @@ <h3 id="nplinker.metabolomics.gnps.gnps_format_from_task_id" class="doc doc-head
 <span class="normal"><a href="#__codelineno-0-57">57</a></span>
 <span class="normal"><a href="#__codelineno-0-58">58</a></span>
 <span class="normal"><a href="#__codelineno-0-59">59</a></span>
-<span class="normal"><a href="#__codelineno-0-60">60</a></span></pre></div></td><td class="code"><div><pre><span></span><code><a id="__codelineno-0-32" name="__codelineno-0-32"></a><span class="k">def</span> <span class="nf">gnps_format_from_task_id</span><span class="p">(</span><span class="n">task_id</span><span class="p">:</span> <span class="nb">str</span><span class="p">)</span> <span class="o">-&gt;</span> <span class="n">GNPSFormat</span><span class="p">:</span>
-<a id="__codelineno-0-33" name="__codelineno-0-33"></a><span class="w">    </span><span class="sd">&quot;&quot;&quot;Detect GNPS format for the given task id.</span>
-<a id="__codelineno-0-34" name="__codelineno-0-34"></a>
-<a id="__codelineno-0-35" name="__codelineno-0-35"></a><span class="sd">    Args:</span>
-<a id="__codelineno-0-36" name="__codelineno-0-36"></a><span class="sd">        task_id: GNPS task id.</span>
-<a id="__codelineno-0-37" name="__codelineno-0-37"></a>
-<a id="__codelineno-0-38" name="__codelineno-0-38"></a><span class="sd">    Returns:</span>
-<a id="__codelineno-0-39" name="__codelineno-0-39"></a><span class="sd">        The format identified in the GNPS task.</span>
-<a id="__codelineno-0-40" name="__codelineno-0-40"></a>
-<a id="__codelineno-0-41" name="__codelineno-0-41"></a><span class="sd">    Examples:</span>
-<a id="__codelineno-0-42" name="__codelineno-0-42"></a><span class="sd">        &gt;&gt;&gt; gnps_format_from_task_id(&quot;c22f44b14a3d450eb836d607cb9521bb&quot;) == GNPSFormat.SNETS</span>
-<a id="__codelineno-0-43" name="__codelineno-0-43"></a><span class="sd">        &gt;&gt;&gt; gnps_format_from_task_id(&quot;189e8bf16af145758b0a900f1c44ff4a&quot;) == GNPSFormat.SNETSV2</span>
-<a id="__codelineno-0-44" name="__codelineno-0-44"></a><span class="sd">        &gt;&gt;&gt; gnps_format_from_task_id(&quot;92036537c21b44c29e509291e53f6382&quot;) == GNPSFormat.FBMN</span>
-<a id="__codelineno-0-45" name="__codelineno-0-45"></a><span class="sd">        &gt;&gt;&gt; gnps_format_from_task_id(&quot;0ad6535e34d449788f297e712f43068a&quot;) == GNPSFormat.Unknown</span>
-<a id="__codelineno-0-46" name="__codelineno-0-46"></a><span class="sd">    &quot;&quot;&quot;</span>
-<a id="__codelineno-0-47" name="__codelineno-0-47"></a>    <span class="n">task_html</span> <span class="o">=</span> <span class="n">httpx</span><span class="o">.</span><span class="n">get</span><span class="p">(</span><span class="n">GNPS_TASK_URL</span><span class="o">.</span><span class="n">format</span><span class="p">(</span><span class="n">task_id</span><span class="p">))</span>
-<a id="__codelineno-0-48" name="__codelineno-0-48"></a>    <span class="n">soup</span> <span class="o">=</span> <span class="n">BeautifulSoup</span><span class="p">(</span><span class="n">task_html</span><span class="o">.</span><span class="n">text</span><span class="p">,</span> <span class="n">features</span><span class="o">=</span><span class="s2">&quot;html.parser&quot;</span><span class="p">)</span>
-<a id="__codelineno-0-49" name="__codelineno-0-49"></a>    <span class="n">tags</span> <span class="o">=</span> <span class="n">soup</span><span class="o">.</span><span class="n">find_all</span><span class="p">(</span><span class="s2">&quot;th&quot;</span><span class="p">)</span>
-<a id="__codelineno-0-50" name="__codelineno-0-50"></a>    <span class="n">workflow_tag</span><span class="p">:</span> <span class="n">Tag</span> <span class="o">=</span> <span class="nb">list</span><span class="p">(</span><span class="nb">filter</span><span class="p">(</span><span class="k">lambda</span> <span class="n">x</span><span class="p">:</span> <span class="n">x</span><span class="o">.</span><span class="n">contents</span> <span class="o">==</span> <span class="p">[</span><span class="s2">&quot;Workflow&quot;</span><span class="p">],</span> <span class="n">tags</span><span class="p">))[</span><span class="mi">0</span><span class="p">]</span>
-<a id="__codelineno-0-51" name="__codelineno-0-51"></a>    <span class="n">workflow_format_tag</span><span class="p">:</span> <span class="n">Tag</span> <span class="o">=</span> <span class="n">workflow_tag</span><span class="o">.</span><span class="n">parent</span><span class="o">.</span><span class="n">contents</span><span class="p">[</span><span class="mi">3</span><span class="p">]</span>
-<a id="__codelineno-0-52" name="__codelineno-0-52"></a>    <span class="n">workflow_format</span> <span class="o">=</span> <span class="n">workflow_format_tag</span><span class="o">.</span><span class="n">contents</span><span class="p">[</span><span class="mi">0</span><span class="p">]</span><span class="o">.</span><span class="n">strip</span><span class="p">()</span>
-<a id="__codelineno-0-53" name="__codelineno-0-53"></a>
-<a id="__codelineno-0-54" name="__codelineno-0-54"></a>    <span class="k">if</span> <span class="n">workflow_format</span> <span class="o">==</span> <span class="n">GNPSFormat</span><span class="o">.</span><span class="n">FBMN</span><span class="o">.</span><span class="n">value</span><span class="p">:</span>
-<a id="__codelineno-0-55" name="__codelineno-0-55"></a>        <span class="k">return</span> <span class="n">GNPSFormat</span><span class="o">.</span><span class="n">FBMN</span>
-<a id="__codelineno-0-56" name="__codelineno-0-56"></a>    <span class="k">if</span> <span class="n">workflow_format</span> <span class="o">==</span> <span class="n">GNPSFormat</span><span class="o">.</span><span class="n">SNETSV2</span><span class="o">.</span><span class="n">value</span><span class="p">:</span>
-<a id="__codelineno-0-57" name="__codelineno-0-57"></a>        <span class="k">return</span> <span class="n">GNPSFormat</span><span class="o">.</span><span class="n">SNETSV2</span>
-<a id="__codelineno-0-58" name="__codelineno-0-58"></a>    <span class="k">if</span> <span class="n">workflow_format</span> <span class="o">==</span> <span class="n">GNPSFormat</span><span class="o">.</span><span class="n">SNETS</span><span class="o">.</span><span class="n">value</span><span class="p">:</span>
-<a id="__codelineno-0-59" name="__codelineno-0-59"></a>        <span class="k">return</span> <span class="n">GNPSFormat</span><span class="o">.</span><span class="n">SNETS</span>
-<a id="__codelineno-0-60" name="__codelineno-0-60"></a>    <span class="k">return</span> <span class="n">GNPSFormat</span><span class="o">.</span><span class="n">Unknown</span>
+<span class="normal"><a href="#__codelineno-0-60">60</a></span>
+<span class="normal"><a href="#__codelineno-0-61">61</a></span></pre></div></td><td class="code"><div><pre><span></span><code><a id="__codelineno-0-31" name="__codelineno-0-31"></a><span class="k">def</span> <span class="nf">gnps_format_from_task_id</span><span class="p">(</span><span class="n">task_id</span><span class="p">:</span> <span class="nb">str</span><span class="p">)</span> <span class="o">-&gt;</span> <span class="n">GNPSFormat</span><span class="p">:</span>
+<a id="__codelineno-0-32" name="__codelineno-0-32"></a><span class="w">    </span><span class="sd">&quot;&quot;&quot;Detect GNPS format for the given task id.</span>
+<a id="__codelineno-0-33" name="__codelineno-0-33"></a>
+<a id="__codelineno-0-34" name="__codelineno-0-34"></a><span class="sd">    Args:</span>
+<a id="__codelineno-0-35" name="__codelineno-0-35"></a><span class="sd">        task_id: GNPS task id.</span>
+<a id="__codelineno-0-36" name="__codelineno-0-36"></a>
+<a id="__codelineno-0-37" name="__codelineno-0-37"></a><span class="sd">    Returns:</span>
+<a id="__codelineno-0-38" name="__codelineno-0-38"></a><span class="sd">        The format identified in the GNPS task.</span>
+<a id="__codelineno-0-39" name="__codelineno-0-39"></a>
+<a id="__codelineno-0-40" name="__codelineno-0-40"></a><span class="sd">    Examples:</span>
+<a id="__codelineno-0-41" name="__codelineno-0-41"></a><span class="sd">        &gt;&gt;&gt; gnps_format_from_task_id(&quot;c22f44b14a3d450eb836d607cb9521bb&quot;) == GNPSFormat.SNETS</span>
+<a id="__codelineno-0-42" name="__codelineno-0-42"></a><span class="sd">        &gt;&gt;&gt; gnps_format_from_task_id(&quot;189e8bf16af145758b0a900f1c44ff4a&quot;) == GNPSFormat.SNETSV2</span>
+<a id="__codelineno-0-43" name="__codelineno-0-43"></a><span class="sd">        &gt;&gt;&gt; gnps_format_from_task_id(&quot;92036537c21b44c29e509291e53f6382&quot;) == GNPSFormat.FBMN</span>
+<a id="__codelineno-0-44" name="__codelineno-0-44"></a><span class="sd">        &gt;&gt;&gt; gnps_format_from_task_id(&quot;0ad6535e34d449788f297e712f43068a&quot;) == GNPSFormat.Unknown</span>
+<a id="__codelineno-0-45" name="__codelineno-0-45"></a><span class="sd">    &quot;&quot;&quot;</span>
+<a id="__codelineno-0-46" name="__codelineno-0-46"></a>    <span class="n">task_html</span> <span class="o">=</span> <span class="n">httpx</span><span class="o">.</span><span class="n">get</span><span class="p">(</span><span class="n">GNPS_TASK_URL</span><span class="o">.</span><span class="n">format</span><span class="p">(</span><span class="n">task_id</span><span class="p">))</span>
+<a id="__codelineno-0-47" name="__codelineno-0-47"></a>    <span class="n">soup</span> <span class="o">=</span> <span class="n">BeautifulSoup</span><span class="p">(</span><span class="n">task_html</span><span class="o">.</span><span class="n">text</span><span class="p">,</span> <span class="n">features</span><span class="o">=</span><span class="s2">&quot;html.parser&quot;</span><span class="p">)</span>
+<a id="__codelineno-0-48" name="__codelineno-0-48"></a>    <span class="k">try</span><span class="p">:</span>
+<a id="__codelineno-0-49" name="__codelineno-0-49"></a>        <span class="c1"># find the td tag that follows the th tag containing &#39;Workflow&#39;</span>
+<a id="__codelineno-0-50" name="__codelineno-0-50"></a>        <span class="n">workflow_tag</span> <span class="o">=</span> <span class="n">soup</span><span class="o">.</span><span class="n">find</span><span class="p">(</span><span class="s2">&quot;th&quot;</span><span class="p">,</span> <span class="n">string</span><span class="o">=</span><span class="s2">&quot;Workflow&quot;</span><span class="p">)</span><span class="o">.</span><span class="n">find_next_sibling</span><span class="p">(</span><span class="s2">&quot;td&quot;</span><span class="p">)</span>  <span class="c1"># type: ignore</span>
+<a id="__codelineno-0-51" name="__codelineno-0-51"></a>        <span class="n">workflow_format</span> <span class="o">=</span> <span class="n">workflow_tag</span><span class="o">.</span><span class="n">contents</span><span class="p">[</span><span class="mi">0</span><span class="p">]</span><span class="o">.</span><span class="n">strip</span><span class="p">()</span>  <span class="c1"># type: ignore</span>
+<a id="__codelineno-0-52" name="__codelineno-0-52"></a>    <span class="k">except</span> <span class="ne">AttributeError</span><span class="p">:</span>
+<a id="__codelineno-0-53" name="__codelineno-0-53"></a>        <span class="k">return</span> <span class="n">GNPSFormat</span><span class="o">.</span><span class="n">Unknown</span>
+<a id="__codelineno-0-54" name="__codelineno-0-54"></a>
+<a id="__codelineno-0-55" name="__codelineno-0-55"></a>    <span class="k">if</span> <span class="n">workflow_format</span> <span class="o">==</span> <span class="n">GNPSFormat</span><span class="o">.</span><span class="n">FBMN</span><span class="o">.</span><span class="n">value</span><span class="p">:</span>
+<a id="__codelineno-0-56" name="__codelineno-0-56"></a>        <span class="k">return</span> <span class="n">GNPSFormat</span><span class="o">.</span><span class="n">FBMN</span>
+<a id="__codelineno-0-57" name="__codelineno-0-57"></a>    <span class="k">if</span> <span class="n">workflow_format</span> <span class="o">==</span> <span class="n">GNPSFormat</span><span class="o">.</span><span class="n">SNETSV2</span><span class="o">.</span><span class="n">value</span><span class="p">:</span>
+<a id="__codelineno-0-58" name="__codelineno-0-58"></a>        <span class="k">return</span> <span class="n">GNPSFormat</span><span class="o">.</span><span class="n">SNETSV2</span>
+<a id="__codelineno-0-59" name="__codelineno-0-59"></a>    <span class="k">if</span> <span class="n">workflow_format</span> <span class="o">==</span> <span class="n">GNPSFormat</span><span class="o">.</span><span class="n">SNETS</span><span class="o">.</span><span class="n">value</span><span class="p">:</span>
+<a id="__codelineno-0-60" name="__codelineno-0-60"></a>        <span class="k">return</span> <span class="n">GNPSFormat</span><span class="o">.</span><span class="n">SNETS</span>
+<a id="__codelineno-0-61" name="__codelineno-0-61"></a>    <span class="k">return</span> <span class="n">GNPSFormat</span><span class="o">.</span><span class="n">Unknown</span>
 </code></pre></div></td></tr></table></div>
           </details>
   </div>
diff --git a/dev/api/loader/index.html b/dev/api/loader/index.html
index 17bcb135..c5524920 100644
--- a/dev/api/loader/index.html
+++ b/dev/api/loader/index.html
@@ -783,6 +783,24 @@
     <nav class="md-nav" aria-label=" loader">
       <ul class="md-nav__list">
         
+          <li class="md-nav__item">
+  <a href="#nplinker.loader.logger" class="md-nav__link">
+    <span class="md-ellipsis">
+      <code class="doc-symbol doc-symbol-toc doc-symbol-attribute"></code>&nbsp;logger
+    </span>
+  </a>
+  
+</li>
+        
+          <li class="md-nav__item">
+  <a href="#nplinker.loader.NPLINKER_APP_DATA_DIR" class="md-nav__link">
+    <span class="md-ellipsis">
+      <code class="doc-symbol doc-symbol-toc doc-symbol-attribute"></code>&nbsp;NPLINKER_APP_DATA_DIR
+    </span>
+  </a>
+  
+</li>
+        
           <li class="md-nav__item">
   <a href="#nplinker.loader.DatasetLoader" class="md-nav__link">
     <span class="md-ellipsis">
@@ -790,6 +808,111 @@
     </span>
   </a>
   
+    <nav class="md-nav" aria-label=" DatasetLoader">
+      <ul class="md-nav__list">
+        
+          <li class="md-nav__item">
+  <a href="#nplinker.loader.DatasetLoader.RUN_CANOPUS_DEFAULT" class="md-nav__link">
+    <span class="md-ellipsis">
+      <code class="doc-symbol doc-symbol-toc doc-symbol-attribute"></code>&nbsp;RUN_CANOPUS_DEFAULT
+    </span>
+  </a>
+  
+</li>
+        
+          <li class="md-nav__item">
+  <a href="#nplinker.loader.DatasetLoader.EXTRA_CANOPUS_PARAMS_DEFAULT" class="md-nav__link">
+    <span class="md-ellipsis">
+      <code class="doc-symbol doc-symbol-toc doc-symbol-attribute"></code>&nbsp;EXTRA_CANOPUS_PARAMS_DEFAULT
+    </span>
+  </a>
+  
+</li>
+        
+          <li class="md-nav__item">
+  <a href="#nplinker.loader.DatasetLoader.OR_CANOPUS" class="md-nav__link">
+    <span class="md-ellipsis">
+      <code class="doc-symbol doc-symbol-toc doc-symbol-attribute"></code>&nbsp;OR_CANOPUS
+    </span>
+  </a>
+  
+</li>
+        
+          <li class="md-nav__item">
+  <a href="#nplinker.loader.DatasetLoader.OR_MOLNETENHANCER" class="md-nav__link">
+    <span class="md-ellipsis">
+      <code class="doc-symbol doc-symbol-toc doc-symbol-attribute"></code>&nbsp;OR_MOLNETENHANCER
+    </span>
+  </a>
+  
+</li>
+        
+          <li class="md-nav__item">
+  <a href="#nplinker.loader.DatasetLoader.mibig_bgcs" class="md-nav__link">
+    <span class="md-ellipsis">
+      <code class="doc-symbol doc-symbol-toc doc-symbol-attribute"></code>&nbsp;mibig_bgcs
+    </span>
+  </a>
+  
+</li>
+        
+          <li class="md-nav__item">
+  <a href="#nplinker.loader.DatasetLoader.mibig_strains_in_use" class="md-nav__link">
+    <span class="md-ellipsis">
+      <code class="doc-symbol doc-symbol-toc doc-symbol-attribute"></code>&nbsp;mibig_strains_in_use
+    </span>
+  </a>
+  
+</li>
+        
+          <li class="md-nav__item">
+  <a href="#nplinker.loader.DatasetLoader.product_types" class="md-nav__link">
+    <span class="md-ellipsis">
+      <code class="doc-symbol doc-symbol-toc doc-symbol-attribute"></code>&nbsp;product_types
+    </span>
+  </a>
+  
+</li>
+        
+          <li class="md-nav__item">
+  <a href="#nplinker.loader.DatasetLoader.strains" class="md-nav__link">
+    <span class="md-ellipsis">
+      <code class="doc-symbol doc-symbol-toc doc-symbol-attribute"></code>&nbsp;strains
+    </span>
+  </a>
+  
+</li>
+        
+          <li class="md-nav__item">
+  <a href="#nplinker.loader.DatasetLoader.class_matches" class="md-nav__link">
+    <span class="md-ellipsis">
+      <code class="doc-symbol doc-symbol-toc doc-symbol-attribute"></code>&nbsp;class_matches
+    </span>
+  </a>
+  
+</li>
+        
+          <li class="md-nav__item">
+  <a href="#nplinker.loader.DatasetLoader.chem_classes" class="md-nav__link">
+    <span class="md-ellipsis">
+      <code class="doc-symbol doc-symbol-toc doc-symbol-attribute"></code>&nbsp;chem_classes
+    </span>
+  </a>
+  
+</li>
+        
+          <li class="md-nav__item">
+  <a href="#nplinker.loader.DatasetLoader.load" class="md-nav__link">
+    <span class="md-ellipsis">
+      <code class="doc-symbol doc-symbol-toc doc-symbol-method"></code>&nbsp;load
+    </span>
+  </a>
+  
+</li>
+        
+      </ul>
+    </nav>
+  
 </li>
         
       </ul>
@@ -1300,6 +1423,24 @@
     <nav class="md-nav" aria-label=" loader">
       <ul class="md-nav__list">
         
+          <li class="md-nav__item">
+  <a href="#nplinker.loader.logger" class="md-nav__link">
+    <span class="md-ellipsis">
+      <code class="doc-symbol doc-symbol-toc doc-symbol-attribute"></code>&nbsp;logger
+    </span>
+  </a>
+  
+</li>
+        
+          <li class="md-nav__item">
+  <a href="#nplinker.loader.NPLINKER_APP_DATA_DIR" class="md-nav__link">
+    <span class="md-ellipsis">
+      <code class="doc-symbol doc-symbol-toc doc-symbol-attribute"></code>&nbsp;NPLINKER_APP_DATA_DIR
+    </span>
+  </a>
+  
+</li>
+        
           <li class="md-nav__item">
   <a href="#nplinker.loader.DatasetLoader" class="md-nav__link">
     <span class="md-ellipsis">
@@ -1307,6 +1448,111 @@
     </span>
   </a>
   
+    <nav class="md-nav" aria-label=" DatasetLoader">
+      <ul class="md-nav__list">
+        
+          <li class="md-nav__item">
+  <a href="#nplinker.loader.DatasetLoader.RUN_CANOPUS_DEFAULT" class="md-nav__link">
+    <span class="md-ellipsis">
+      <code class="doc-symbol doc-symbol-toc doc-symbol-attribute"></code>&nbsp;RUN_CANOPUS_DEFAULT
+    </span>
+  </a>
+  
+</li>
+        
+          <li class="md-nav__item">
+  <a href="#nplinker.loader.DatasetLoader.EXTRA_CANOPUS_PARAMS_DEFAULT" class="md-nav__link">
+    <span class="md-ellipsis">
+      <code class="doc-symbol doc-symbol-toc doc-symbol-attribute"></code>&nbsp;EXTRA_CANOPUS_PARAMS_DEFAULT
+    </span>
+  </a>
+  
+</li>
+        
+          <li class="md-nav__item">
+  <a href="#nplinker.loader.DatasetLoader.OR_CANOPUS" class="md-nav__link">
+    <span class="md-ellipsis">
+      <code class="doc-symbol doc-symbol-toc doc-symbol-attribute"></code>&nbsp;OR_CANOPUS
+    </span>
+  </a>
+  
+</li>
+        
+          <li class="md-nav__item">
+  <a href="#nplinker.loader.DatasetLoader.OR_MOLNETENHANCER" class="md-nav__link">
+    <span class="md-ellipsis">
+      <code class="doc-symbol doc-symbol-toc doc-symbol-attribute"></code>&nbsp;OR_MOLNETENHANCER
+    </span>
+  </a>
+  
+</li>
+        
+          <li class="md-nav__item">
+  <a href="#nplinker.loader.DatasetLoader.mibig_bgcs" class="md-nav__link">
+    <span class="md-ellipsis">
+      <code class="doc-symbol doc-symbol-toc doc-symbol-attribute"></code>&nbsp;mibig_bgcs
+    </span>
+  </a>
+  
+</li>
+        
+          <li class="md-nav__item">
+  <a href="#nplinker.loader.DatasetLoader.mibig_strains_in_use" class="md-nav__link">
+    <span class="md-ellipsis">
+      <code class="doc-symbol doc-symbol-toc doc-symbol-attribute"></code>&nbsp;mibig_strains_in_use
+    </span>
+  </a>
+  
+</li>
+        
+          <li class="md-nav__item">
+  <a href="#nplinker.loader.DatasetLoader.product_types" class="md-nav__link">
+    <span class="md-ellipsis">
+      <code class="doc-symbol doc-symbol-toc doc-symbol-attribute"></code>&nbsp;product_types
+    </span>
+  </a>
+  
+</li>
+        
+          <li class="md-nav__item">
+  <a href="#nplinker.loader.DatasetLoader.strains" class="md-nav__link">
+    <span class="md-ellipsis">
+      <code class="doc-symbol doc-symbol-toc doc-symbol-attribute"></code>&nbsp;strains
+    </span>
+  </a>
+  
+</li>
+        
+          <li class="md-nav__item">
+  <a href="#nplinker.loader.DatasetLoader.class_matches" class="md-nav__link">
+    <span class="md-ellipsis">
+      <code class="doc-symbol doc-symbol-toc doc-symbol-attribute"></code>&nbsp;class_matches
+    </span>
+  </a>
+  
+</li>
+        
+          <li class="md-nav__item">
+  <a href="#nplinker.loader.DatasetLoader.chem_classes" class="md-nav__link">
+    <span class="md-ellipsis">
+      <code class="doc-symbol doc-symbol-toc doc-symbol-attribute"></code>&nbsp;chem_classes
+    </span>
+  </a>
+  
+</li>
+        
+          <li class="md-nav__item">
+  <a href="#nplinker.loader.DatasetLoader.load" class="md-nav__link">
+    <span class="md-ellipsis">
+      <code class="doc-symbol doc-symbol-toc doc-symbol-method"></code>&nbsp;load
+    </span>
+  </a>
+  
+</li>
+        
+      </ul>
+    </nav>
+  
 </li>
         
       </ul>
@@ -1356,6 +1602,48 @@ <h2 id="nplinker.loader" class="doc doc-heading">
 
 
 
+<div class="doc doc-object doc-attribute">
+
+
+
+<h3 id="nplinker.loader.logger" class="doc doc-heading">
+<code class="doc-symbol doc-symbol-heading doc-symbol-attribute"></code>          <span class="doc doc-object-name doc-attribute-name">logger</span>
+
+  
+  <span class="doc doc-labels">
+      <small class="doc doc-label doc-label-module-attribute"><code>module-attribute</code></small>
+  </span>
+
+<a href="#nplinker.loader.logger" class="headerlink" title="Permanent link">&para;</a></h3>
+<div class="language-python doc-signature highlight"><pre><span></span><code><a id="__codelineno-0-1" name="__codelineno-0-1" href="#__codelineno-0-1"></a><span class="n">logger</span> <span class="o">=</span> <span class="n"><span title="nplinker.logconfig.LogConfig.getLogger">getLogger</span></span><span class="p">(</span><span class="n"><a class="autorefs autorefs-external" href="https://docs.python.org/3/reference/import.html#name__">__name__</a></span><span class="p">)</span>
+</code></pre></div>
+
+  <div class="doc doc-contents ">
+  </div>
+
+</div>
+
+<div class="doc doc-object doc-attribute">
+
+
+
+<h3 id="nplinker.loader.NPLINKER_APP_DATA_DIR" class="doc doc-heading">
+<code class="doc-symbol doc-symbol-heading doc-symbol-attribute"></code>          <span class="doc doc-object-name doc-attribute-name">NPLINKER_APP_DATA_DIR</span>
+
+  
+  <span class="doc doc-labels">
+      <small class="doc doc-label doc-label-module-attribute"><code>module-attribute</code></small>
+  </span>
+
+<a href="#nplinker.loader.NPLINKER_APP_DATA_DIR" class="headerlink" title="Permanent link">&para;</a></h3>
+<div class="language-python doc-signature highlight"><pre><span></span><code><a id="__codelineno-0-1" name="__codelineno-0-1" href="#__codelineno-0-1"></a><span class="n">NPLINKER_APP_DATA_DIR</span> <span class="o">=</span> <span class="n">joinpath</span><span class="p">(</span><span class="s1">&#39;data&#39;</span><span class="p">)</span>
+</code></pre></div>
+
+  <div class="doc doc-contents ">
+  </div>
+
+</div>
+
 
 <div class="doc doc-object doc-class">
 
@@ -1371,10 +1659,13 @@ <h3 id="nplinker.loader.DatasetLoader" class="doc doc-heading">
 
   <div class="doc doc-contents ">
 
+  
+      <p>Class to load all data.</p>
 
                 <details class="quote">
                   <summary>Source code in <code>src/nplinker/loader.py</code></summary>
-                  <div class="language-python highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal"><a href="#__codelineno-0-46">46</a></span>
+                  <div class="language-python highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal"><a href="#__codelineno-0-45">45</a></span>
+<span class="normal"><a href="#__codelineno-0-46">46</a></span>
 <span class="normal"><a href="#__codelineno-0-47">47</a></span>
 <span class="normal"><a href="#__codelineno-0-48">48</a></span>
 <span class="normal"><a href="#__codelineno-0-49">49</a></span>
@@ -1382,17 +1673,16 @@ <h3 id="nplinker.loader.DatasetLoader" class="doc doc-heading">
 <span class="normal"><a href="#__codelineno-0-51">51</a></span>
 <span class="normal"><a href="#__codelineno-0-52">52</a></span>
 <span class="normal"><a href="#__codelineno-0-53">53</a></span>
-<span class="normal"><a href="#__codelineno-0-54">54</a></span>
-<span class="normal"><a href="#__codelineno-0-55">55</a></span></pre></div></td><td class="code"><div><pre><span></span><code><a id="__codelineno-0-46" name="__codelineno-0-46"></a><span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">):</span>
-<a id="__codelineno-0-47" name="__codelineno-0-47"></a>    <span class="c1"># set public attributes</span>
-<a id="__codelineno-0-48" name="__codelineno-0-48"></a>    <span class="bp">self</span><span class="o">.</span><span class="n">bgcs</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">gcfs</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">spectra</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">molfams</span> <span class="o">=</span> <span class="p">[],</span> <span class="p">[],</span> <span class="p">[],</span> <span class="p">[]</span>
-<a id="__codelineno-0-49" name="__codelineno-0-49"></a>    <span class="bp">self</span><span class="o">.</span><span class="n">mibig_bgcs</span> <span class="o">=</span> <span class="p">[]</span>
-<a id="__codelineno-0-50" name="__codelineno-0-50"></a>    <span class="bp">self</span><span class="o">.</span><span class="n">mibig_strains_in_use</span> <span class="o">=</span> <span class="n">StrainCollection</span><span class="p">()</span>
-<a id="__codelineno-0-51" name="__codelineno-0-51"></a>    <span class="bp">self</span><span class="o">.</span><span class="n">product_types</span> <span class="o">=</span> <span class="p">[]</span>
-<a id="__codelineno-0-52" name="__codelineno-0-52"></a>    <span class="bp">self</span><span class="o">.</span><span class="n">strains</span> <span class="o">=</span> <span class="n">StrainCollection</span><span class="p">()</span>
-<a id="__codelineno-0-53" name="__codelineno-0-53"></a>
-<a id="__codelineno-0-54" name="__codelineno-0-54"></a>    <span class="bp">self</span><span class="o">.</span><span class="n">class_matches</span> <span class="o">=</span> <span class="kc">None</span>
-<a id="__codelineno-0-55" name="__codelineno-0-55"></a>    <span class="bp">self</span><span class="o">.</span><span class="n">chem_classes</span> <span class="o">=</span> <span class="kc">None</span>
+<span class="normal"><a href="#__codelineno-0-54">54</a></span></pre></div></td><td class="code"><div><pre><span></span><code><a id="__codelineno-0-45" name="__codelineno-0-45"></a><span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">):</span>
+<a id="__codelineno-0-46" name="__codelineno-0-46"></a>    <span class="c1"># set public attributes</span>
+<a id="__codelineno-0-47" name="__codelineno-0-47"></a>    <span class="bp">self</span><span class="o">.</span><span class="n">bgcs</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">gcfs</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">spectra</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">molfams</span> <span class="o">=</span> <span class="p">[],</span> <span class="p">[],</span> <span class="p">[],</span> <span class="p">[]</span>
+<a id="__codelineno-0-48" name="__codelineno-0-48"></a>    <span class="bp">self</span><span class="o">.</span><span class="n">mibig_bgcs</span> <span class="o">=</span> <span class="p">[]</span>
+<a id="__codelineno-0-49" name="__codelineno-0-49"></a>    <span class="bp">self</span><span class="o">.</span><span class="n">mibig_strains_in_use</span> <span class="o">=</span> <span class="n">StrainCollection</span><span class="p">()</span>
+<a id="__codelineno-0-50" name="__codelineno-0-50"></a>    <span class="bp">self</span><span class="o">.</span><span class="n">product_types</span> <span class="o">=</span> <span class="p">[]</span>
+<a id="__codelineno-0-51" name="__codelineno-0-51"></a>    <span class="bp">self</span><span class="o">.</span><span class="n">strains</span> <span class="o">=</span> <span class="n">StrainCollection</span><span class="p">()</span>
+<a id="__codelineno-0-52" name="__codelineno-0-52"></a>
+<a id="__codelineno-0-53" name="__codelineno-0-53"></a>    <span class="bp">self</span><span class="o">.</span><span class="n">class_matches</span> <span class="o">=</span> <span class="kc">None</span>
+<a id="__codelineno-0-54" name="__codelineno-0-54"></a>    <span class="bp">self</span><span class="o">.</span><span class="n">chem_classes</span> <span class="o">=</span> <span class="kc">None</span>
 </code></pre></div></td></tr></table></div>
                 </details>
 
@@ -1406,7 +1696,281 @@ <h3 id="nplinker.loader.DatasetLoader" class="doc doc-heading">
 
 
 
+<div class="doc doc-object doc-attribute">
+
+
+
+<h4 id="nplinker.loader.DatasetLoader.RUN_CANOPUS_DEFAULT" class="doc doc-heading">
+<code class="doc-symbol doc-symbol-heading doc-symbol-attribute"></code>          <span class="doc doc-object-name doc-attribute-name">RUN_CANOPUS_DEFAULT</span>
+
+  
+  <span class="doc doc-labels">
+      <small class="doc doc-label doc-label-class-attribute"><code>class-attribute</code></small>
+      <small class="doc doc-label doc-label-instance-attribute"><code>instance-attribute</code></small>
+  </span>
+
+<a href="#nplinker.loader.DatasetLoader.RUN_CANOPUS_DEFAULT" class="headerlink" title="Permanent link">&para;</a></h4>
+<div class="language-python doc-signature highlight"><pre><span></span><code><a id="__codelineno-0-1" name="__codelineno-0-1" href="#__codelineno-0-1"></a><span class="n">RUN_CANOPUS_DEFAULT</span> <span class="o">=</span> <span class="kc">False</span>
+</code></pre></div>
+
+  <div class="doc doc-contents ">
+  </div>
+
+</div>
+
+<div class="doc doc-object doc-attribute">
+
+
+
+<h4 id="nplinker.loader.DatasetLoader.EXTRA_CANOPUS_PARAMS_DEFAULT" class="doc doc-heading">
+<code class="doc-symbol doc-symbol-heading doc-symbol-attribute"></code>          <span class="doc doc-object-name doc-attribute-name">EXTRA_CANOPUS_PARAMS_DEFAULT</span>
+
+  
+  <span class="doc doc-labels">
+      <small class="doc doc-label doc-label-class-attribute"><code>class-attribute</code></small>
+      <small class="doc doc-label doc-label-instance-attribute"><code>instance-attribute</code></small>
+  </span>
+
+<a href="#nplinker.loader.DatasetLoader.EXTRA_CANOPUS_PARAMS_DEFAULT" class="headerlink" title="Permanent link">&para;</a></h4>
+<div class="language-python doc-signature highlight"><pre><span></span><code><a id="__codelineno-0-1" name="__codelineno-0-1" href="#__codelineno-0-1"></a><span class="n">EXTRA_CANOPUS_PARAMS_DEFAULT</span> <span class="o">=</span> <span class="s1">&#39;--maxmz 600 formula zodiac structure canopus&#39;</span>
+</code></pre></div>
+
+  <div class="doc doc-contents ">
+  </div>
+
+</div>
+
+<div class="doc doc-object doc-attribute">
+
+
+
+<h4 id="nplinker.loader.DatasetLoader.OR_CANOPUS" class="doc doc-heading">
+<code class="doc-symbol doc-symbol-heading doc-symbol-attribute"></code>          <span class="doc doc-object-name doc-attribute-name">OR_CANOPUS</span>
+
+  
+  <span class="doc doc-labels">
+      <small class="doc doc-label doc-label-class-attribute"><code>class-attribute</code></small>
+      <small class="doc doc-label doc-label-instance-attribute"><code>instance-attribute</code></small>
+  </span>
+
+<a href="#nplinker.loader.DatasetLoader.OR_CANOPUS" class="headerlink" title="Permanent link">&para;</a></h4>
+<div class="language-python doc-signature highlight"><pre><span></span><code><a id="__codelineno-0-1" name="__codelineno-0-1" href="#__codelineno-0-1"></a><span class="n">OR_CANOPUS</span> <span class="o">=</span> <span class="s1">&#39;canopus_dir&#39;</span>
+</code></pre></div>
+
+  <div class="doc doc-contents ">
+  </div>
+
+</div>
+
+<div class="doc doc-object doc-attribute">
+
+
+
+<h4 id="nplinker.loader.DatasetLoader.OR_MOLNETENHANCER" class="doc doc-heading">
+<code class="doc-symbol doc-symbol-heading doc-symbol-attribute"></code>          <span class="doc doc-object-name doc-attribute-name">OR_MOLNETENHANCER</span>
+
+  
+  <span class="doc doc-labels">
+      <small class="doc doc-label doc-label-class-attribute"><code>class-attribute</code></small>
+      <small class="doc doc-label doc-label-instance-attribute"><code>instance-attribute</code></small>
+  </span>
+
+<a href="#nplinker.loader.DatasetLoader.OR_MOLNETENHANCER" class="headerlink" title="Permanent link">&para;</a></h4>
+<div class="language-python doc-signature highlight"><pre><span></span><code><a id="__codelineno-0-1" name="__codelineno-0-1" href="#__codelineno-0-1"></a><span class="n">OR_MOLNETENHANCER</span> <span class="o">=</span> <span class="s1">&#39;molnetenhancer_dir&#39;</span>
+</code></pre></div>
+
+  <div class="doc doc-contents ">
+  </div>
+
+</div>
+
+<div class="doc doc-object doc-attribute">
+
+
+
+<h4 id="nplinker.loader.DatasetLoader.mibig_bgcs" class="doc doc-heading">
+<code class="doc-symbol doc-symbol-heading doc-symbol-attribute"></code>          <span class="doc doc-object-name doc-attribute-name">mibig_bgcs</span>
+
+  
+  <span class="doc doc-labels">
+      <small class="doc doc-label doc-label-instance-attribute"><code>instance-attribute</code></small>
+  </span>
+
+<a href="#nplinker.loader.DatasetLoader.mibig_bgcs" class="headerlink" title="Permanent link">&para;</a></h4>
+<div class="language-python doc-signature highlight"><pre><span></span><code><a id="__codelineno-0-1" name="__codelineno-0-1" href="#__codelineno-0-1"></a><span class="n">mibig_bgcs</span> <span class="o">=</span> <span class="p">[]</span>
+</code></pre></div>
+
+  <div class="doc doc-contents ">
+  </div>
+
+</div>
+
+<div class="doc doc-object doc-attribute">
+
+
+
+<h4 id="nplinker.loader.DatasetLoader.mibig_strains_in_use" class="doc doc-heading">
+<code class="doc-symbol doc-symbol-heading doc-symbol-attribute"></code>          <span class="doc doc-object-name doc-attribute-name">mibig_strains_in_use</span>
+
+  
+  <span class="doc doc-labels">
+      <small class="doc doc-label doc-label-instance-attribute"><code>instance-attribute</code></small>
+  </span>
+
+<a href="#nplinker.loader.DatasetLoader.mibig_strains_in_use" class="headerlink" title="Permanent link">&para;</a></h4>
+<div class="language-python doc-signature highlight"><pre><span></span><code><a id="__codelineno-0-1" name="__codelineno-0-1" href="#__codelineno-0-1"></a><span class="n">mibig_strains_in_use</span> <span class="o">=</span> <span class="n"><a class="autorefs autorefs-internal" title="nplinker.strain.StrainCollection" href="../strain/#nplinker.strain.StrainCollection">StrainCollection</a></span><span class="p">()</span>
+</code></pre></div>
+
+  <div class="doc doc-contents ">
+  </div>
+
+</div>
+
+<div class="doc doc-object doc-attribute">
+
+
+
+<h4 id="nplinker.loader.DatasetLoader.product_types" class="doc doc-heading">
+<code class="doc-symbol doc-symbol-heading doc-symbol-attribute"></code>          <span class="doc doc-object-name doc-attribute-name">product_types</span>
+
+  
+  <span class="doc doc-labels">
+      <small class="doc doc-label doc-label-instance-attribute"><code>instance-attribute</code></small>
+  </span>
+
+<a href="#nplinker.loader.DatasetLoader.product_types" class="headerlink" title="Permanent link">&para;</a></h4>
+<div class="language-python doc-signature highlight"><pre><span></span><code><a id="__codelineno-0-1" name="__codelineno-0-1" href="#__codelineno-0-1"></a><span class="n">product_types</span> <span class="o">=</span> <span class="p">[]</span>
+</code></pre></div>
+
+  <div class="doc doc-contents ">
+  </div>
+
+</div>
+
+<div class="doc doc-object doc-attribute">
+
+
+
+<h4 id="nplinker.loader.DatasetLoader.strains" class="doc doc-heading">
+<code class="doc-symbol doc-symbol-heading doc-symbol-attribute"></code>          <span class="doc doc-object-name doc-attribute-name">strains</span>
+
+  
+  <span class="doc doc-labels">
+      <small class="doc doc-label doc-label-instance-attribute"><code>instance-attribute</code></small>
+  </span>
+
+<a href="#nplinker.loader.DatasetLoader.strains" class="headerlink" title="Permanent link">&para;</a></h4>
+<div class="language-python doc-signature highlight"><pre><span></span><code><a id="__codelineno-0-1" name="__codelineno-0-1" href="#__codelineno-0-1"></a><span class="n">strains</span> <span class="o">=</span> <span class="n"><a class="autorefs autorefs-internal" title="nplinker.strain.StrainCollection" href="../strain/#nplinker.strain.StrainCollection">StrainCollection</a></span><span class="p">()</span>
+</code></pre></div>
+
+  <div class="doc doc-contents ">
+  </div>
+
+</div>
+
+<div class="doc doc-object doc-attribute">
+
+
+
+<h4 id="nplinker.loader.DatasetLoader.class_matches" class="doc doc-heading">
+<code class="doc-symbol doc-symbol-heading doc-symbol-attribute"></code>          <span class="doc doc-object-name doc-attribute-name">class_matches</span>
+
+  
+  <span class="doc doc-labels">
+      <small class="doc doc-label doc-label-instance-attribute"><code>instance-attribute</code></small>
+  </span>
+
+<a href="#nplinker.loader.DatasetLoader.class_matches" class="headerlink" title="Permanent link">&para;</a></h4>
+<div class="language-python doc-signature highlight"><pre><span></span><code><a id="__codelineno-0-1" name="__codelineno-0-1" href="#__codelineno-0-1"></a><span class="n">class_matches</span> <span class="o">=</span> <span class="kc">None</span>
+</code></pre></div>
+
+  <div class="doc doc-contents ">
+  </div>
+
+</div>
+
+<div class="doc doc-object doc-attribute">
+
+
+
+<h4 id="nplinker.loader.DatasetLoader.chem_classes" class="doc doc-heading">
+<code class="doc-symbol doc-symbol-heading doc-symbol-attribute"></code>          <span class="doc doc-object-name doc-attribute-name">chem_classes</span>
+
+  
+  <span class="doc doc-labels">
+      <small class="doc doc-label doc-label-instance-attribute"><code>instance-attribute</code></small>
+  </span>
 
+<a href="#nplinker.loader.DatasetLoader.chem_classes" class="headerlink" title="Permanent link">&para;</a></h4>
+<div class="language-python doc-signature highlight"><pre><span></span><code><a id="__codelineno-0-1" name="__codelineno-0-1" href="#__codelineno-0-1"></a><span class="n">chem_classes</span> <span class="o">=</span> <span class="kc">None</span>
+</code></pre></div>
+
+  <div class="doc doc-contents ">
+  </div>
+
+</div>
+
+
+
+
+<div class="doc doc-object doc-function">
+
+
+
+<h4 id="nplinker.loader.DatasetLoader.load" class="doc doc-heading">
+<code class="doc-symbol doc-symbol-heading doc-symbol-method"></code>          <span class="doc doc-object-name doc-function-name">load</span>
+
+
+<a href="#nplinker.loader.DatasetLoader.load" class="headerlink" title="Permanent link">&para;</a></h4>
+<div class="language-python doc-signature highlight"><pre><span></span><code><a id="__codelineno-0-1" name="__codelineno-0-1" href="#__codelineno-0-1"></a><span class="n">load</span><span class="p">()</span>
+</code></pre></div>
+
+  <div class="doc doc-contents ">
+  
+      <p>Load all data.</p>
+
+          <details class="quote">
+            <summary>Source code in <code>src/nplinker/loader.py</code></summary>
+            <div class="language-python highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal"><a href="#__codelineno-0-56">56</a></span>
+<span class="normal"><a href="#__codelineno-0-57">57</a></span>
+<span class="normal"><a href="#__codelineno-0-58">58</a></span>
+<span class="normal"><a href="#__codelineno-0-59">59</a></span>
+<span class="normal"><a href="#__codelineno-0-60">60</a></span>
+<span class="normal"><a href="#__codelineno-0-61">61</a></span>
+<span class="normal"><a href="#__codelineno-0-62">62</a></span>
+<span class="normal"><a href="#__codelineno-0-63">63</a></span>
+<span class="normal"><a href="#__codelineno-0-64">64</a></span>
+<span class="normal"><a href="#__codelineno-0-65">65</a></span>
+<span class="normal"><a href="#__codelineno-0-66">66</a></span>
+<span class="normal"><a href="#__codelineno-0-67">67</a></span>
+<span class="normal"><a href="#__codelineno-0-68">68</a></span>
+<span class="normal"><a href="#__codelineno-0-69">69</a></span>
+<span class="normal"><a href="#__codelineno-0-70">70</a></span>
+<span class="normal"><a href="#__codelineno-0-71">71</a></span>
+<span class="normal"><a href="#__codelineno-0-72">72</a></span>
+<span class="normal"><a href="#__codelineno-0-73">73</a></span></pre></div></td><td class="code"><div><pre><span></span><code><a id="__codelineno-0-56" name="__codelineno-0-56"></a><span class="k">def</span> <span class="nf">load</span><span class="p">(</span><span class="bp">self</span><span class="p">):</span>
+<a id="__codelineno-0-57" name="__codelineno-0-57"></a><span class="w">    </span><span class="sd">&quot;&quot;&quot;Load all data.&quot;&quot;&quot;</span>
+<a id="__codelineno-0-58" name="__codelineno-0-58"></a>    <span class="k">if</span> <span class="ow">not</span> <span class="bp">self</span><span class="o">.</span><span class="n">_load_strain_mappings</span><span class="p">():</span>
+<a id="__codelineno-0-59" name="__codelineno-0-59"></a>        <span class="k">return</span> <span class="kc">False</span>
+<a id="__codelineno-0-60" name="__codelineno-0-60"></a>
+<a id="__codelineno-0-61" name="__codelineno-0-61"></a>    <span class="k">if</span> <span class="ow">not</span> <span class="bp">self</span><span class="o">.</span><span class="n">_load_metabolomics</span><span class="p">():</span>
+<a id="__codelineno-0-62" name="__codelineno-0-62"></a>        <span class="k">return</span> <span class="kc">False</span>
+<a id="__codelineno-0-63" name="__codelineno-0-63"></a>
+<a id="__codelineno-0-64" name="__codelineno-0-64"></a>    <span class="k">if</span> <span class="ow">not</span> <span class="bp">self</span><span class="o">.</span><span class="n">_load_genomics</span><span class="p">():</span>
+<a id="__codelineno-0-65" name="__codelineno-0-65"></a>        <span class="k">return</span> <span class="kc">False</span>
+<a id="__codelineno-0-66" name="__codelineno-0-66"></a>
+<a id="__codelineno-0-67" name="__codelineno-0-67"></a>    <span class="c1"># set self.strains with all strains from input plus mibig strains in use</span>
+<a id="__codelineno-0-68" name="__codelineno-0-68"></a>    <span class="bp">self</span><span class="o">.</span><span class="n">strains</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">strains</span> <span class="o">+</span> <span class="bp">self</span><span class="o">.</span><span class="n">mibig_strains_in_use</span>
+<a id="__codelineno-0-69" name="__codelineno-0-69"></a>
+<a id="__codelineno-0-70" name="__codelineno-0-70"></a>    <span class="k">if</span> <span class="nb">len</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">strains</span><span class="p">)</span> <span class="o">==</span> <span class="mi">0</span><span class="p">:</span>
+<a id="__codelineno-0-71" name="__codelineno-0-71"></a>        <span class="k">raise</span> <span class="ne">Exception</span><span class="p">(</span><span class="s2">&quot;Failed to find *ANY* strains.&quot;</span><span class="p">)</span>
+<a id="__codelineno-0-72" name="__codelineno-0-72"></a>
+<a id="__codelineno-0-73" name="__codelineno-0-73"></a>    <span class="k">return</span> <span class="kc">True</span>
+</code></pre></div></td></tr></table></div>
+          </details>
+  </div>
+
+</div>
 
 
 
diff --git a/dev/api/metabolomics/index.html b/dev/api/metabolomics/index.html
index 765c5fdb..c2b5fe34 100644
--- a/dev/api/metabolomics/index.html
+++ b/dev/api/metabolomics/index.html
@@ -1026,6 +1026,24 @@
     <nav class="md-nav" aria-label=" MolecularFamily">
       <ul class="md-nav__list">
         
+          <li class="md-nav__item">
+  <a href="#nplinker.metabolomics.MolecularFamily.family_id" class="md-nav__link">
+    <span class="md-ellipsis">
+      <code class="doc-symbol doc-symbol-toc doc-symbol-attribute"></code>&nbsp;family_id
+    </span>
+  </a>
+  
+</li>
+        
+          <li class="md-nav__item">
+  <a href="#nplinker.metabolomics.MolecularFamily.spectra_ids" class="md-nav__link">
+    <span class="md-ellipsis">
+      <code class="doc-symbol doc-symbol-toc doc-symbol-attribute"></code>&nbsp;spectra_ids
+    </span>
+  </a>
+  
+</li>
+        
           <li class="md-nav__item">
   <a href="#nplinker.metabolomics.MolecularFamily.spectra" class="md-nav__link">
     <span class="md-ellipsis">
@@ -1095,6 +1113,96 @@
     <nav class="md-nav" aria-label=" Spectrum">
       <ul class="md-nav__list">
         
+          <li class="md-nav__item">
+  <a href="#nplinker.metabolomics.Spectrum.spectrum_id" class="md-nav__link">
+    <span class="md-ellipsis">
+      <code class="doc-symbol doc-symbol-toc doc-symbol-attribute"></code>&nbsp;spectrum_id
+    </span>
+  </a>
+  
+</li>
+        
+          <li class="md-nav__item">
+  <a href="#nplinker.metabolomics.Spectrum.mz" class="md-nav__link">
+    <span class="md-ellipsis">
+      <code class="doc-symbol doc-symbol-toc doc-symbol-attribute"></code>&nbsp;mz
+    </span>
+  </a>
+  
+</li>
+        
+          <li class="md-nav__item">
+  <a href="#nplinker.metabolomics.Spectrum.intensity" class="md-nav__link">
+    <span class="md-ellipsis">
+      <code class="doc-symbol doc-symbol-toc doc-symbol-attribute"></code>&nbsp;intensity
+    </span>
+  </a>
+  
+</li>
+        
+          <li class="md-nav__item">
+  <a href="#nplinker.metabolomics.Spectrum.precursor_mz" class="md-nav__link">
+    <span class="md-ellipsis">
+      <code class="doc-symbol doc-symbol-toc doc-symbol-attribute"></code>&nbsp;precursor_mz
+    </span>
+  </a>
+  
+</li>
+        
+          <li class="md-nav__item">
+  <a href="#nplinker.metabolomics.Spectrum.rt" class="md-nav__link">
+    <span class="md-ellipsis">
+      <code class="doc-symbol doc-symbol-toc doc-symbol-attribute"></code>&nbsp;rt
+    </span>
+  </a>
+  
+</li>
+        
+          <li class="md-nav__item">
+  <a href="#nplinker.metabolomics.Spectrum.metadata" class="md-nav__link">
+    <span class="md-ellipsis">
+      <code class="doc-symbol doc-symbol-toc doc-symbol-attribute"></code>&nbsp;metadata
+    </span>
+  </a>
+  
+</li>
+        
+          <li class="md-nav__item">
+  <a href="#nplinker.metabolomics.Spectrum.gnps_annotations" class="md-nav__link">
+    <span class="md-ellipsis">
+      <code class="doc-symbol doc-symbol-toc doc-symbol-attribute"></code>&nbsp;gnps_annotations
+    </span>
+  </a>
+  
+</li>
+        
+          <li class="md-nav__item">
+  <a href="#nplinker.metabolomics.Spectrum.gnps_id" class="md-nav__link">
+    <span class="md-ellipsis">
+      <code class="doc-symbol doc-symbol-toc doc-symbol-attribute"></code>&nbsp;gnps_id
+    </span>
+  </a>
+  
+</li>
+        
+          <li class="md-nav__item">
+  <a href="#nplinker.metabolomics.Spectrum.strains" class="md-nav__link">
+    <span class="md-ellipsis">
+      <code class="doc-symbol doc-symbol-toc doc-symbol-attribute"></code>&nbsp;strains
+    </span>
+  </a>
+  
+</li>
+        
+          <li class="md-nav__item">
+  <a href="#nplinker.metabolomics.Spectrum.family" class="md-nav__link">
+    <span class="md-ellipsis">
+      <code class="doc-symbol doc-symbol-toc doc-symbol-attribute"></code>&nbsp;family
+    </span>
+  </a>
+  
+</li>
+        
           <li class="md-nav__item">
   <a href="#nplinker.metabolomics.Spectrum.peaks" class="md-nav__link">
     <span class="md-ellipsis">
@@ -1405,6 +1513,24 @@
     <nav class="md-nav" aria-label=" MolecularFamily">
       <ul class="md-nav__list">
         
+          <li class="md-nav__item">
+  <a href="#nplinker.metabolomics.MolecularFamily.family_id" class="md-nav__link">
+    <span class="md-ellipsis">
+      <code class="doc-symbol doc-symbol-toc doc-symbol-attribute"></code>&nbsp;family_id
+    </span>
+  </a>
+  
+</li>
+        
+          <li class="md-nav__item">
+  <a href="#nplinker.metabolomics.MolecularFamily.spectra_ids" class="md-nav__link">
+    <span class="md-ellipsis">
+      <code class="doc-symbol doc-symbol-toc doc-symbol-attribute"></code>&nbsp;spectra_ids
+    </span>
+  </a>
+  
+</li>
+        
           <li class="md-nav__item">
   <a href="#nplinker.metabolomics.MolecularFamily.spectra" class="md-nav__link">
     <span class="md-ellipsis">
@@ -1474,6 +1600,96 @@
     <nav class="md-nav" aria-label=" Spectrum">
       <ul class="md-nav__list">
         
+          <li class="md-nav__item">
+  <a href="#nplinker.metabolomics.Spectrum.spectrum_id" class="md-nav__link">
+    <span class="md-ellipsis">
+      <code class="doc-symbol doc-symbol-toc doc-symbol-attribute"></code>&nbsp;spectrum_id
+    </span>
+  </a>
+  
+</li>
+        
+          <li class="md-nav__item">
+  <a href="#nplinker.metabolomics.Spectrum.mz" class="md-nav__link">
+    <span class="md-ellipsis">
+      <code class="doc-symbol doc-symbol-toc doc-symbol-attribute"></code>&nbsp;mz
+    </span>
+  </a>
+  
+</li>
+        
+          <li class="md-nav__item">
+  <a href="#nplinker.metabolomics.Spectrum.intensity" class="md-nav__link">
+    <span class="md-ellipsis">
+      <code class="doc-symbol doc-symbol-toc doc-symbol-attribute"></code>&nbsp;intensity
+    </span>
+  </a>
+  
+</li>
+        
+          <li class="md-nav__item">
+  <a href="#nplinker.metabolomics.Spectrum.precursor_mz" class="md-nav__link">
+    <span class="md-ellipsis">
+      <code class="doc-symbol doc-symbol-toc doc-symbol-attribute"></code>&nbsp;precursor_mz
+    </span>
+  </a>
+  
+</li>
+        
+          <li class="md-nav__item">
+  <a href="#nplinker.metabolomics.Spectrum.rt" class="md-nav__link">
+    <span class="md-ellipsis">
+      <code class="doc-symbol doc-symbol-toc doc-symbol-attribute"></code>&nbsp;rt
+    </span>
+  </a>
+  
+</li>
+        
+          <li class="md-nav__item">
+  <a href="#nplinker.metabolomics.Spectrum.metadata" class="md-nav__link">
+    <span class="md-ellipsis">
+      <code class="doc-symbol doc-symbol-toc doc-symbol-attribute"></code>&nbsp;metadata
+    </span>
+  </a>
+  
+</li>
+        
+          <li class="md-nav__item">
+  <a href="#nplinker.metabolomics.Spectrum.gnps_annotations" class="md-nav__link">
+    <span class="md-ellipsis">
+      <code class="doc-symbol doc-symbol-toc doc-symbol-attribute"></code>&nbsp;gnps_annotations
+    </span>
+  </a>
+  
+</li>
+        
+          <li class="md-nav__item">
+  <a href="#nplinker.metabolomics.Spectrum.gnps_id" class="md-nav__link">
+    <span class="md-ellipsis">
+      <code class="doc-symbol doc-symbol-toc doc-symbol-attribute"></code>&nbsp;gnps_id
+    </span>
+  </a>
+  
+</li>
+        
+          <li class="md-nav__item">
+  <a href="#nplinker.metabolomics.Spectrum.strains" class="md-nav__link">
+    <span class="md-ellipsis">
+      <code class="doc-symbol doc-symbol-toc doc-symbol-attribute"></code>&nbsp;strains
+    </span>
+  </a>
+  
+</li>
+        
+          <li class="md-nav__item">
+  <a href="#nplinker.metabolomics.Spectrum.family" class="md-nav__link">
+    <span class="md-ellipsis">
+      <code class="doc-symbol doc-symbol-toc doc-symbol-attribute"></code>&nbsp;family
+    </span>
+  </a>
+  
+</li>
+        
           <li class="md-nav__item">
   <a href="#nplinker.metabolomics.Spectrum.peaks" class="md-nav__link">
     <span class="md-ellipsis">
@@ -1564,19 +1780,18 @@ <h3 id="nplinker.metabolomics.MolecularFamily" class="doc doc-heading">
 
 
 
-  <p><strong>Parameters:</strong></p>
+  <p><strong>Attributes:</strong></p>
   <table>
     <thead>
       <tr>
         <th>Name</th>
         <th>Type</th>
         <th>Description</th>
-        <th>Default</th>
       </tr>
     </thead>
     <tbody>
         <tr>
-          <td><code>family_id</code></td>
+          <td><code><a class="autorefs autorefs-internal" title="nplinker.metabolomics.MolecularFamily.family_id" href="#nplinker.metabolomics.MolecularFamily.family_id">family_id</a></code></td>
           <td>
                 <code><a class="autorefs autorefs-external" href="https://docs.python.org/3/library/stdtypes.html#str">str</a></code>
           </td>
@@ -1585,43 +1800,47 @@ <h3 id="nplinker.metabolomics.MolecularFamily" class="doc doc-heading">
               <p>Unique id for the molecular family.</p>
             </div>
           </td>
+        </tr>
+        <tr>
+          <td><code><a class="autorefs autorefs-internal" title="nplinker.metabolomics.MolecularFamily.spectra_ids" href="#nplinker.metabolomics.MolecularFamily.spectra_ids">spectra_ids</a></code></td>
+          <td>
+                <code><a class="autorefs autorefs-external" href="https://docs.python.org/3/library/stdtypes.html#set">set</a>[<a class="autorefs autorefs-external" href="https://docs.python.org/3/library/stdtypes.html#str">str</a>]</code>
+          </td>
           <td>
-              <em>required</em>
+            <div class="doc-md-description">
+              <p>Set of spectrum ids in the molecular family.</p>
+            </div>
           </td>
         </tr>
     </tbody>
   </table>
+  
 
 
 
-  <p><strong>Attributes:</strong></p>
+  <p><strong>Parameters:</strong></p>
   <table>
     <thead>
       <tr>
         <th>Name</th>
         <th>Type</th>
         <th>Description</th>
+        <th>Default</th>
       </tr>
     </thead>
     <tbody>
         <tr>
-          <td><code><span title="nplinker.metabolomics.MolecularFamily.family_id">family_id</span></code></td>
+          <td><code>family_id</code></td>
           <td>
+                <code><a class="autorefs autorefs-external" href="https://docs.python.org/3/library/stdtypes.html#str">str</a></code>
           </td>
           <td>
             <div class="doc-md-description">
               <p>Unique id for the molecular family.</p>
             </div>
           </td>
-        </tr>
-        <tr>
-          <td><code><span title="nplinker.metabolomics.MolecularFamily.spectra_ids">spectra_ids</span></code></td>
-          <td>
-          </td>
           <td>
-            <div class="doc-md-description">
-              <p>Set of spectrum ids in the molecular family.</p>
-            </div>
+              <em>required</em>
           </td>
         </tr>
     </tbody>
@@ -1629,33 +1848,25 @@ <h3 id="nplinker.metabolomics.MolecularFamily" class="doc doc-heading">
 
                 <details class="quote">
                   <summary>Source code in <code>src/nplinker/metabolomics/molecular_family.py</code></summary>
-                  <div class="language-python highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal"><a href="#__codelineno-0-12">12</a></span>
-<span class="normal"><a href="#__codelineno-0-13">13</a></span>
-<span class="normal"><a href="#__codelineno-0-14">14</a></span>
-<span class="normal"><a href="#__codelineno-0-15">15</a></span>
-<span class="normal"><a href="#__codelineno-0-16">16</a></span>
-<span class="normal"><a href="#__codelineno-0-17">17</a></span>
-<span class="normal"><a href="#__codelineno-0-18">18</a></span>
-<span class="normal"><a href="#__codelineno-0-19">19</a></span>
+                  <div class="language-python highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal"><a href="#__codelineno-0-19">19</a></span>
 <span class="normal"><a href="#__codelineno-0-20">20</a></span>
 <span class="normal"><a href="#__codelineno-0-21">21</a></span>
 <span class="normal"><a href="#__codelineno-0-22">22</a></span>
 <span class="normal"><a href="#__codelineno-0-23">23</a></span>
 <span class="normal"><a href="#__codelineno-0-24">24</a></span>
-<span class="normal"><a href="#__codelineno-0-25">25</a></span></pre></div></td><td class="code"><div><pre><span></span><code><a id="__codelineno-0-12" name="__codelineno-0-12"></a><span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">family_id</span><span class="p">:</span> <span class="nb">str</span><span class="p">):</span>
-<a id="__codelineno-0-13" name="__codelineno-0-13"></a><span class="w">    </span><span class="sd">&quot;&quot;&quot;Class to model molecular family.</span>
-<a id="__codelineno-0-14" name="__codelineno-0-14"></a>
-<a id="__codelineno-0-15" name="__codelineno-0-15"></a><span class="sd">    Args:</span>
-<a id="__codelineno-0-16" name="__codelineno-0-16"></a><span class="sd">        family_id: Unique id for the molecular family.</span>
-<a id="__codelineno-0-17" name="__codelineno-0-17"></a>
-<a id="__codelineno-0-18" name="__codelineno-0-18"></a><span class="sd">    Attributes:</span>
-<a id="__codelineno-0-19" name="__codelineno-0-19"></a><span class="sd">        family_id: Unique id for the molecular family.</span>
-<a id="__codelineno-0-20" name="__codelineno-0-20"></a><span class="sd">        spectra_ids: Set of spectrum ids in the molecular family.</span>
-<a id="__codelineno-0-21" name="__codelineno-0-21"></a><span class="sd">    &quot;&quot;&quot;</span>
-<a id="__codelineno-0-22" name="__codelineno-0-22"></a>    <span class="bp">self</span><span class="o">.</span><span class="n">family_id</span><span class="p">:</span> <span class="nb">str</span> <span class="o">=</span> <span class="n">family_id</span>
-<a id="__codelineno-0-23" name="__codelineno-0-23"></a>    <span class="bp">self</span><span class="o">.</span><span class="n">spectra_ids</span><span class="p">:</span> <span class="nb">set</span><span class="p">[</span><span class="nb">str</span><span class="p">]</span> <span class="o">=</span> <span class="nb">set</span><span class="p">()</span>
-<a id="__codelineno-0-24" name="__codelineno-0-24"></a>    <span class="bp">self</span><span class="o">.</span><span class="n">_spectra</span><span class="p">:</span> <span class="nb">set</span><span class="p">[</span><span class="n">Spectrum</span><span class="p">]</span> <span class="o">=</span> <span class="nb">set</span><span class="p">()</span>
-<a id="__codelineno-0-25" name="__codelineno-0-25"></a>    <span class="bp">self</span><span class="o">.</span><span class="n">_strains</span><span class="p">:</span> <span class="n">StrainCollection</span> <span class="o">=</span> <span class="n">StrainCollection</span><span class="p">()</span>
+<span class="normal"><a href="#__codelineno-0-25">25</a></span>
+<span class="normal"><a href="#__codelineno-0-26">26</a></span>
+<span class="normal"><a href="#__codelineno-0-27">27</a></span>
+<span class="normal"><a href="#__codelineno-0-28">28</a></span></pre></div></td><td class="code"><div><pre><span></span><code><a id="__codelineno-0-19" name="__codelineno-0-19"></a><span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">family_id</span><span class="p">:</span> <span class="nb">str</span><span class="p">):</span>
+<a id="__codelineno-0-20" name="__codelineno-0-20"></a><span class="w">    </span><span class="sd">&quot;&quot;&quot;Initialize the MolecularFamily.</span>
+<a id="__codelineno-0-21" name="__codelineno-0-21"></a>
+<a id="__codelineno-0-22" name="__codelineno-0-22"></a><span class="sd">    Args:</span>
+<a id="__codelineno-0-23" name="__codelineno-0-23"></a><span class="sd">        family_id: Unique id for the molecular family.</span>
+<a id="__codelineno-0-24" name="__codelineno-0-24"></a><span class="sd">    &quot;&quot;&quot;</span>
+<a id="__codelineno-0-25" name="__codelineno-0-25"></a>    <span class="bp">self</span><span class="o">.</span><span class="n">family_id</span><span class="p">:</span> <span class="nb">str</span> <span class="o">=</span> <span class="n">family_id</span>
+<a id="__codelineno-0-26" name="__codelineno-0-26"></a>    <span class="bp">self</span><span class="o">.</span><span class="n">spectra_ids</span><span class="p">:</span> <span class="nb">set</span><span class="p">[</span><span class="nb">str</span><span class="p">]</span> <span class="o">=</span> <span class="nb">set</span><span class="p">()</span>
+<a id="__codelineno-0-27" name="__codelineno-0-27"></a>    <span class="bp">self</span><span class="o">.</span><span class="n">_spectra</span><span class="p">:</span> <span class="nb">set</span><span class="p">[</span><span class="n">Spectrum</span><span class="p">]</span> <span class="o">=</span> <span class="nb">set</span><span class="p">()</span>
+<a id="__codelineno-0-28" name="__codelineno-0-28"></a>    <span class="bp">self</span><span class="o">.</span><span class="n">_strains</span><span class="p">:</span> <span class="n">StrainCollection</span> <span class="o">=</span> <span class="n">StrainCollection</span><span class="p">()</span>
 </code></pre></div></td></tr></table></div>
                 </details>
 
@@ -1669,6 +1880,48 @@ <h3 id="nplinker.metabolomics.MolecularFamily" class="doc doc-heading">
 
 
 
+<div class="doc doc-object doc-attribute">
+
+
+
+<h4 id="nplinker.metabolomics.MolecularFamily.family_id" class="doc doc-heading">
+<code class="doc-symbol doc-symbol-heading doc-symbol-attribute"></code>          <span class="doc doc-object-name doc-attribute-name">family_id</span>
+
+  
+  <span class="doc doc-labels">
+      <small class="doc doc-label doc-label-instance-attribute"><code>instance-attribute</code></small>
+  </span>
+
+<a href="#nplinker.metabolomics.MolecularFamily.family_id" class="headerlink" title="Permanent link">&para;</a></h4>
+<div class="language-python doc-signature highlight"><pre><span></span><code><a id="__codelineno-0-1" name="__codelineno-0-1" href="#__codelineno-0-1"></a><span class="n">family_id</span><span class="p">:</span> <span class="n"><a class="autorefs autorefs-external" href="https://docs.python.org/3/library/stdtypes.html#str">str</a></span> <span class="o">=</span> <span class="n"><a class="autorefs autorefs-internal" title="nplinker.metabolomics.molecular_family.MolecularFamily.family_id" href="#nplinker.metabolomics.MolecularFamily.family_id">family_id</a></span>
+</code></pre></div>
+
+  <div class="doc doc-contents ">
+  </div>
+
+</div>
+
+<div class="doc doc-object doc-attribute">
+
+
+
+<h4 id="nplinker.metabolomics.MolecularFamily.spectra_ids" class="doc doc-heading">
+<code class="doc-symbol doc-symbol-heading doc-symbol-attribute"></code>          <span class="doc doc-object-name doc-attribute-name">spectra_ids</span>
+
+  
+  <span class="doc doc-labels">
+      <small class="doc doc-label doc-label-instance-attribute"><code>instance-attribute</code></small>
+  </span>
+
+<a href="#nplinker.metabolomics.MolecularFamily.spectra_ids" class="headerlink" title="Permanent link">&para;</a></h4>
+<div class="language-python doc-signature highlight"><pre><span></span><code><a id="__codelineno-0-1" name="__codelineno-0-1" href="#__codelineno-0-1"></a><span class="n">spectra_ids</span><span class="p">:</span> <span class="n"><a class="autorefs autorefs-external" href="https://docs.python.org/3/library/stdtypes.html#set">set</a></span><span class="p">[</span><span class="n"><a class="autorefs autorefs-external" href="https://docs.python.org/3/library/stdtypes.html#str">str</a></span><span class="p">]</span> <span class="o">=</span> <span class="n"><a class="autorefs autorefs-external" href="https://docs.python.org/3/library/stdtypes.html#set">set</a></span><span class="p">()</span>
+</code></pre></div>
+
+  <div class="doc doc-contents ">
+  </div>
+
+</div>
+
 <div class="doc doc-object doc-attribute">
 
 
@@ -1766,27 +2019,27 @@ <h4 id="nplinker.metabolomics.MolecularFamily.add_spectrum" class="doc doc-headi
 
           <details class="quote">
             <summary>Source code in <code>src/nplinker/metabolomics/molecular_family.py</code></summary>
-            <div class="language-python highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal"><a href="#__codelineno-0-54">54</a></span>
-<span class="normal"><a href="#__codelineno-0-55">55</a></span>
-<span class="normal"><a href="#__codelineno-0-56">56</a></span>
-<span class="normal"><a href="#__codelineno-0-57">57</a></span>
+            <div class="language-python highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal"><a href="#__codelineno-0-57">57</a></span>
 <span class="normal"><a href="#__codelineno-0-58">58</a></span>
 <span class="normal"><a href="#__codelineno-0-59">59</a></span>
 <span class="normal"><a href="#__codelineno-0-60">60</a></span>
 <span class="normal"><a href="#__codelineno-0-61">61</a></span>
 <span class="normal"><a href="#__codelineno-0-62">62</a></span>
 <span class="normal"><a href="#__codelineno-0-63">63</a></span>
-<span class="normal"><a href="#__codelineno-0-64">64</a></span></pre></div></td><td class="code"><div><pre><span></span><code><a id="__codelineno-0-54" name="__codelineno-0-54"></a><span class="k">def</span> <span class="nf">add_spectrum</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">spectrum</span><span class="p">:</span> <span class="n">Spectrum</span><span class="p">)</span> <span class="o">-&gt;</span> <span class="kc">None</span><span class="p">:</span>
-<a id="__codelineno-0-55" name="__codelineno-0-55"></a><span class="w">    </span><span class="sd">&quot;&quot;&quot;Add a Spectrum object to the molecular family.</span>
-<a id="__codelineno-0-56" name="__codelineno-0-56"></a>
-<a id="__codelineno-0-57" name="__codelineno-0-57"></a><span class="sd">    Args:</span>
-<a id="__codelineno-0-58" name="__codelineno-0-58"></a><span class="sd">        spectrum: `Spectrum` object to add to the molecular family.</span>
-<a id="__codelineno-0-59" name="__codelineno-0-59"></a><span class="sd">    &quot;&quot;&quot;</span>
-<a id="__codelineno-0-60" name="__codelineno-0-60"></a>    <span class="bp">self</span><span class="o">.</span><span class="n">_spectra</span><span class="o">.</span><span class="n">add</span><span class="p">(</span><span class="n">spectrum</span><span class="p">)</span>
-<a id="__codelineno-0-61" name="__codelineno-0-61"></a>    <span class="bp">self</span><span class="o">.</span><span class="n">spectra_ids</span><span class="o">.</span><span class="n">add</span><span class="p">(</span><span class="n">spectrum</span><span class="o">.</span><span class="n">spectrum_id</span><span class="p">)</span>
-<a id="__codelineno-0-62" name="__codelineno-0-62"></a>    <span class="bp">self</span><span class="o">.</span><span class="n">_strains</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">_strains</span> <span class="o">+</span> <span class="n">spectrum</span><span class="o">.</span><span class="n">strains</span>
-<a id="__codelineno-0-63" name="__codelineno-0-63"></a>    <span class="c1"># add the molecular family to the spectrum</span>
-<a id="__codelineno-0-64" name="__codelineno-0-64"></a>    <span class="n">spectrum</span><span class="o">.</span><span class="n">family</span> <span class="o">=</span> <span class="bp">self</span>
+<span class="normal"><a href="#__codelineno-0-64">64</a></span>
+<span class="normal"><a href="#__codelineno-0-65">65</a></span>
+<span class="normal"><a href="#__codelineno-0-66">66</a></span>
+<span class="normal"><a href="#__codelineno-0-67">67</a></span></pre></div></td><td class="code"><div><pre><span></span><code><a id="__codelineno-0-57" name="__codelineno-0-57"></a><span class="k">def</span> <span class="nf">add_spectrum</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">spectrum</span><span class="p">:</span> <span class="n">Spectrum</span><span class="p">)</span> <span class="o">-&gt;</span> <span class="kc">None</span><span class="p">:</span>
+<a id="__codelineno-0-58" name="__codelineno-0-58"></a><span class="w">    </span><span class="sd">&quot;&quot;&quot;Add a Spectrum object to the molecular family.</span>
+<a id="__codelineno-0-59" name="__codelineno-0-59"></a>
+<a id="__codelineno-0-60" name="__codelineno-0-60"></a><span class="sd">    Args:</span>
+<a id="__codelineno-0-61" name="__codelineno-0-61"></a><span class="sd">        spectrum: `Spectrum` object to add to the molecular family.</span>
+<a id="__codelineno-0-62" name="__codelineno-0-62"></a><span class="sd">    &quot;&quot;&quot;</span>
+<a id="__codelineno-0-63" name="__codelineno-0-63"></a>    <span class="bp">self</span><span class="o">.</span><span class="n">_spectra</span><span class="o">.</span><span class="n">add</span><span class="p">(</span><span class="n">spectrum</span><span class="p">)</span>
+<a id="__codelineno-0-64" name="__codelineno-0-64"></a>    <span class="bp">self</span><span class="o">.</span><span class="n">spectra_ids</span><span class="o">.</span><span class="n">add</span><span class="p">(</span><span class="n">spectrum</span><span class="o">.</span><span class="n">spectrum_id</span><span class="p">)</span>
+<a id="__codelineno-0-65" name="__codelineno-0-65"></a>    <span class="bp">self</span><span class="o">.</span><span class="n">_strains</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">_strains</span> <span class="o">+</span> <span class="n">spectrum</span><span class="o">.</span><span class="n">strains</span>
+<a id="__codelineno-0-66" name="__codelineno-0-66"></a>    <span class="c1"># add the molecular family to the spectrum</span>
+<a id="__codelineno-0-67" name="__codelineno-0-67"></a>    <span class="n">spectrum</span><span class="o">.</span><span class="n">family</span> <span class="o">=</span> <span class="bp">self</span>
 </code></pre></div></td></tr></table></div>
           </details>
   </div>
@@ -1842,27 +2095,27 @@ <h4 id="nplinker.metabolomics.MolecularFamily.detach_spectrum" class="doc doc-he
 
           <details class="quote">
             <summary>Source code in <code>src/nplinker/metabolomics/molecular_family.py</code></summary>
-            <div class="language-python highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal"><a href="#__codelineno-0-66">66</a></span>
-<span class="normal"><a href="#__codelineno-0-67">67</a></span>
-<span class="normal"><a href="#__codelineno-0-68">68</a></span>
-<span class="normal"><a href="#__codelineno-0-69">69</a></span>
+            <div class="language-python highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal"><a href="#__codelineno-0-69">69</a></span>
 <span class="normal"><a href="#__codelineno-0-70">70</a></span>
 <span class="normal"><a href="#__codelineno-0-71">71</a></span>
 <span class="normal"><a href="#__codelineno-0-72">72</a></span>
 <span class="normal"><a href="#__codelineno-0-73">73</a></span>
 <span class="normal"><a href="#__codelineno-0-74">74</a></span>
 <span class="normal"><a href="#__codelineno-0-75">75</a></span>
-<span class="normal"><a href="#__codelineno-0-76">76</a></span></pre></div></td><td class="code"><div><pre><span></span><code><a id="__codelineno-0-66" name="__codelineno-0-66"></a><span class="k">def</span> <span class="nf">detach_spectrum</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">spectrum</span><span class="p">:</span> <span class="n">Spectrum</span><span class="p">)</span> <span class="o">-&gt;</span> <span class="kc">None</span><span class="p">:</span>
-<a id="__codelineno-0-67" name="__codelineno-0-67"></a><span class="w">    </span><span class="sd">&quot;&quot;&quot;Remove a Spectrum object from the molecular family.</span>
-<a id="__codelineno-0-68" name="__codelineno-0-68"></a>
-<a id="__codelineno-0-69" name="__codelineno-0-69"></a><span class="sd">    Args:</span>
-<a id="__codelineno-0-70" name="__codelineno-0-70"></a><span class="sd">        spectrum: `Spectrum` object to remove from the molecular family.</span>
-<a id="__codelineno-0-71" name="__codelineno-0-71"></a><span class="sd">    &quot;&quot;&quot;</span>
-<a id="__codelineno-0-72" name="__codelineno-0-72"></a>    <span class="bp">self</span><span class="o">.</span><span class="n">_spectra</span><span class="o">.</span><span class="n">remove</span><span class="p">(</span><span class="n">spectrum</span><span class="p">)</span>
-<a id="__codelineno-0-73" name="__codelineno-0-73"></a>    <span class="bp">self</span><span class="o">.</span><span class="n">spectra_ids</span><span class="o">.</span><span class="n">remove</span><span class="p">(</span><span class="n">spectrum</span><span class="o">.</span><span class="n">spectrum_id</span><span class="p">)</span>
-<a id="__codelineno-0-74" name="__codelineno-0-74"></a>    <span class="bp">self</span><span class="o">.</span><span class="n">_strains</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">_update_strains</span><span class="p">()</span>
-<a id="__codelineno-0-75" name="__codelineno-0-75"></a>    <span class="c1"># remove the molecular family from the spectrum</span>
-<a id="__codelineno-0-76" name="__codelineno-0-76"></a>    <span class="n">spectrum</span><span class="o">.</span><span class="n">family</span> <span class="o">=</span> <span class="kc">None</span>
+<span class="normal"><a href="#__codelineno-0-76">76</a></span>
+<span class="normal"><a href="#__codelineno-0-77">77</a></span>
+<span class="normal"><a href="#__codelineno-0-78">78</a></span>
+<span class="normal"><a href="#__codelineno-0-79">79</a></span></pre></div></td><td class="code"><div><pre><span></span><code><a id="__codelineno-0-69" name="__codelineno-0-69"></a><span class="k">def</span> <span class="nf">detach_spectrum</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">spectrum</span><span class="p">:</span> <span class="n">Spectrum</span><span class="p">)</span> <span class="o">-&gt;</span> <span class="kc">None</span><span class="p">:</span>
+<a id="__codelineno-0-70" name="__codelineno-0-70"></a><span class="w">    </span><span class="sd">&quot;&quot;&quot;Remove a Spectrum object from the molecular family.</span>
+<a id="__codelineno-0-71" name="__codelineno-0-71"></a>
+<a id="__codelineno-0-72" name="__codelineno-0-72"></a><span class="sd">    Args:</span>
+<a id="__codelineno-0-73" name="__codelineno-0-73"></a><span class="sd">        spectrum: `Spectrum` object to remove from the molecular family.</span>
+<a id="__codelineno-0-74" name="__codelineno-0-74"></a><span class="sd">    &quot;&quot;&quot;</span>
+<a id="__codelineno-0-75" name="__codelineno-0-75"></a>    <span class="bp">self</span><span class="o">.</span><span class="n">_spectra</span><span class="o">.</span><span class="n">remove</span><span class="p">(</span><span class="n">spectrum</span><span class="p">)</span>
+<a id="__codelineno-0-76" name="__codelineno-0-76"></a>    <span class="bp">self</span><span class="o">.</span><span class="n">spectra_ids</span><span class="o">.</span><span class="n">remove</span><span class="p">(</span><span class="n">spectrum</span><span class="o">.</span><span class="n">spectrum_id</span><span class="p">)</span>
+<a id="__codelineno-0-77" name="__codelineno-0-77"></a>    <span class="bp">self</span><span class="o">.</span><span class="n">_strains</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">_update_strains</span><span class="p">()</span>
+<a id="__codelineno-0-78" name="__codelineno-0-78"></a>    <span class="c1"># remove the molecular family from the spectrum</span>
+<a id="__codelineno-0-79" name="__codelineno-0-79"></a>    <span class="n">spectrum</span><span class="o">.</span><span class="n">family</span> <span class="o">=</span> <span class="kc">None</span>
 </code></pre></div></td></tr></table></div>
           </details>
   </div>
@@ -1942,25 +2195,25 @@ <h4 id="nplinker.metabolomics.MolecularFamily.has_strain" class="doc doc-heading
 
           <details class="quote">
             <summary>Source code in <code>src/nplinker/metabolomics/molecular_family.py</code></summary>
-            <div class="language-python highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal"><a href="#__codelineno-0-78">78</a></span>
-<span class="normal"><a href="#__codelineno-0-79">79</a></span>
-<span class="normal"><a href="#__codelineno-0-80">80</a></span>
-<span class="normal"><a href="#__codelineno-0-81">81</a></span>
+            <div class="language-python highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal"><a href="#__codelineno-0-81">81</a></span>
 <span class="normal"><a href="#__codelineno-0-82">82</a></span>
 <span class="normal"><a href="#__codelineno-0-83">83</a></span>
 <span class="normal"><a href="#__codelineno-0-84">84</a></span>
 <span class="normal"><a href="#__codelineno-0-85">85</a></span>
 <span class="normal"><a href="#__codelineno-0-86">86</a></span>
-<span class="normal"><a href="#__codelineno-0-87">87</a></span></pre></div></td><td class="code"><div><pre><span></span><code><a id="__codelineno-0-78" name="__codelineno-0-78"></a><span class="k">def</span> <span class="nf">has_strain</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">strain</span><span class="p">:</span> <span class="n">Strain</span><span class="p">)</span> <span class="o">-&gt;</span> <span class="nb">bool</span><span class="p">:</span>
-<a id="__codelineno-0-79" name="__codelineno-0-79"></a><span class="w">    </span><span class="sd">&quot;&quot;&quot;Check if the given strain exists.</span>
-<a id="__codelineno-0-80" name="__codelineno-0-80"></a>
-<a id="__codelineno-0-81" name="__codelineno-0-81"></a><span class="sd">    Args:</span>
-<a id="__codelineno-0-82" name="__codelineno-0-82"></a><span class="sd">        strain: `Strain` object.</span>
+<span class="normal"><a href="#__codelineno-0-87">87</a></span>
+<span class="normal"><a href="#__codelineno-0-88">88</a></span>
+<span class="normal"><a href="#__codelineno-0-89">89</a></span>
+<span class="normal"><a href="#__codelineno-0-90">90</a></span></pre></div></td><td class="code"><div><pre><span></span><code><a id="__codelineno-0-81" name="__codelineno-0-81"></a><span class="k">def</span> <span class="nf">has_strain</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">strain</span><span class="p">:</span> <span class="n">Strain</span><span class="p">)</span> <span class="o">-&gt;</span> <span class="nb">bool</span><span class="p">:</span>
+<a id="__codelineno-0-82" name="__codelineno-0-82"></a><span class="w">    </span><span class="sd">&quot;&quot;&quot;Check if the given strain exists.</span>
 <a id="__codelineno-0-83" name="__codelineno-0-83"></a>
-<a id="__codelineno-0-84" name="__codelineno-0-84"></a><span class="sd">    Returns:</span>
-<a id="__codelineno-0-85" name="__codelineno-0-85"></a><span class="sd">        True when the given strain exists.</span>
-<a id="__codelineno-0-86" name="__codelineno-0-86"></a><span class="sd">    &quot;&quot;&quot;</span>
-<a id="__codelineno-0-87" name="__codelineno-0-87"></a>    <span class="k">return</span> <span class="n">strain</span> <span class="ow">in</span> <span class="bp">self</span><span class="o">.</span><span class="n">_strains</span>
+<a id="__codelineno-0-84" name="__codelineno-0-84"></a><span class="sd">    Args:</span>
+<a id="__codelineno-0-85" name="__codelineno-0-85"></a><span class="sd">        strain: `Strain` object.</span>
+<a id="__codelineno-0-86" name="__codelineno-0-86"></a>
+<a id="__codelineno-0-87" name="__codelineno-0-87"></a><span class="sd">    Returns:</span>
+<a id="__codelineno-0-88" name="__codelineno-0-88"></a><span class="sd">        True when the given strain exists.</span>
+<a id="__codelineno-0-89" name="__codelineno-0-89"></a><span class="sd">    &quot;&quot;&quot;</span>
+<a id="__codelineno-0-90" name="__codelineno-0-90"></a>    <span class="k">return</span> <span class="n">strain</span> <span class="ow">in</span> <span class="bp">self</span><span class="o">.</span><span class="n">_strains</span>
 </code></pre></div></td></tr></table></div>
           </details>
   </div>
@@ -2010,19 +2263,19 @@ <h4 id="nplinker.metabolomics.MolecularFamily.is_singleton" class="doc doc-headi
 
           <details class="quote">
             <summary>Source code in <code>src/nplinker/metabolomics/molecular_family.py</code></summary>
-            <div class="language-python highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal"><a href="#__codelineno-0-89">89</a></span>
-<span class="normal"><a href="#__codelineno-0-90">90</a></span>
-<span class="normal"><a href="#__codelineno-0-91">91</a></span>
-<span class="normal"><a href="#__codelineno-0-92">92</a></span>
+            <div class="language-python highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal"><a href="#__codelineno-0-92">92</a></span>
 <span class="normal"><a href="#__codelineno-0-93">93</a></span>
 <span class="normal"><a href="#__codelineno-0-94">94</a></span>
-<span class="normal"><a href="#__codelineno-0-95">95</a></span></pre></div></td><td class="code"><div><pre><span></span><code><a id="__codelineno-0-89" name="__codelineno-0-89"></a><span class="k">def</span> <span class="nf">is_singleton</span><span class="p">(</span><span class="bp">self</span><span class="p">)</span> <span class="o">-&gt;</span> <span class="nb">bool</span><span class="p">:</span>
-<a id="__codelineno-0-90" name="__codelineno-0-90"></a><span class="w">    </span><span class="sd">&quot;&quot;&quot;Check if the molecular family contains only one spectrum.</span>
-<a id="__codelineno-0-91" name="__codelineno-0-91"></a>
-<a id="__codelineno-0-92" name="__codelineno-0-92"></a><span class="sd">    Returns:</span>
-<a id="__codelineno-0-93" name="__codelineno-0-93"></a><span class="sd">        True when `MolecularFamily.spectra_ids` contains only one spectrum id.</span>
-<a id="__codelineno-0-94" name="__codelineno-0-94"></a><span class="sd">    &quot;&quot;&quot;</span>
-<a id="__codelineno-0-95" name="__codelineno-0-95"></a>    <span class="k">return</span> <span class="nb">len</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">spectra_ids</span><span class="p">)</span> <span class="o">==</span> <span class="mi">1</span>
+<span class="normal"><a href="#__codelineno-0-95">95</a></span>
+<span class="normal"><a href="#__codelineno-0-96">96</a></span>
+<span class="normal"><a href="#__codelineno-0-97">97</a></span>
+<span class="normal"><a href="#__codelineno-0-98">98</a></span></pre></div></td><td class="code"><div><pre><span></span><code><a id="__codelineno-0-92" name="__codelineno-0-92"></a><span class="k">def</span> <span class="nf">is_singleton</span><span class="p">(</span><span class="bp">self</span><span class="p">)</span> <span class="o">-&gt;</span> <span class="nb">bool</span><span class="p">:</span>
+<a id="__codelineno-0-93" name="__codelineno-0-93"></a><span class="w">    </span><span class="sd">&quot;&quot;&quot;Check if the molecular family contains only one spectrum.</span>
+<a id="__codelineno-0-94" name="__codelineno-0-94"></a>
+<a id="__codelineno-0-95" name="__codelineno-0-95"></a><span class="sd">    Returns:</span>
+<a id="__codelineno-0-96" name="__codelineno-0-96"></a><span class="sd">        True when `MolecularFamily.spectra_ids` contains only one spectrum id.</span>
+<a id="__codelineno-0-97" name="__codelineno-0-97"></a><span class="sd">    &quot;&quot;&quot;</span>
+<a id="__codelineno-0-98" name="__codelineno-0-98"></a>    <span class="k">return</span> <span class="nb">len</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">spectra_ids</span><span class="p">)</span> <span class="o">==</span> <span class="mi">1</span>
 </code></pre></div></td></tr></table></div>
           </details>
   </div>
@@ -2057,251 +2310,240 @@ <h3 id="nplinker.metabolomics.Spectrum" class="doc doc-heading">
 
 
 
-  <p><strong>Parameters:</strong></p>
+  <p><strong>Attributes:</strong></p>
   <table>
     <thead>
       <tr>
         <th>Name</th>
         <th>Type</th>
         <th>Description</th>
-        <th>Default</th>
       </tr>
     </thead>
     <tbody>
         <tr>
-          <td><code>spectrum_id</code></td>
+          <td><code><a class="autorefs autorefs-internal" title="nplinker.metabolomics.Spectrum.spectrum_id" href="#nplinker.metabolomics.Spectrum.spectrum_id">spectrum_id</a></code></td>
           <td>
-                <code><a class="autorefs autorefs-external" href="https://docs.python.org/3/library/stdtypes.html#str">str</a></code>
           </td>
           <td>
             <div class="doc-md-description">
               <p>the spectrum ID.</p>
             </div>
           </td>
-          <td>
-              <em>required</em>
-          </td>
         </tr>
         <tr>
-          <td><code>mz</code></td>
+          <td><code><a class="autorefs autorefs-internal" title="nplinker.metabolomics.Spectrum.mz" href="#nplinker.metabolomics.Spectrum.mz">mz</a></code></td>
           <td>
-                <code><a class="autorefs autorefs-external" href="https://docs.python.org/3/library/stdtypes.html#list">list</a>[<a class="autorefs autorefs-external" href="https://docs.python.org/3/library/functions.html#float">float</a>]</code>
           </td>
           <td>
             <div class="doc-md-description">
               <p>the list of m/z values.</p>
             </div>
           </td>
-          <td>
-              <em>required</em>
-          </td>
         </tr>
         <tr>
-          <td><code>intensity</code></td>
+          <td><code><a class="autorefs autorefs-internal" title="nplinker.metabolomics.Spectrum.intensity" href="#nplinker.metabolomics.Spectrum.intensity">intensity</a></code></td>
           <td>
-                <code><a class="autorefs autorefs-external" href="https://docs.python.org/3/library/stdtypes.html#list">list</a>[<a class="autorefs autorefs-external" href="https://docs.python.org/3/library/functions.html#float">float</a>]</code>
           </td>
           <td>
             <div class="doc-md-description">
               <p>the list of intensity values.</p>
             </div>
           </td>
-          <td>
-              <em>required</em>
-          </td>
         </tr>
         <tr>
-          <td><code>precursor_mz</code></td>
+          <td><code><a class="autorefs autorefs-internal" title="nplinker.metabolomics.Spectrum.precursor_mz" href="#nplinker.metabolomics.Spectrum.precursor_mz">precursor_mz</a></code></td>
           <td>
-                <code><a class="autorefs autorefs-external" href="https://docs.python.org/3/library/functions.html#float">float</a></code>
           </td>
           <td>
             <div class="doc-md-description">
-              <p>the precursor m/z.</p>
+              <p>the m/z value of the precursor.</p>
             </div>
           </td>
-          <td>
-              <em>required</em>
-          </td>
         </tr>
         <tr>
-          <td><code>rt</code></td>
+          <td><code><a class="autorefs autorefs-internal" title="nplinker.metabolomics.Spectrum.rt" href="#nplinker.metabolomics.Spectrum.rt">rt</a></code></td>
           <td>
-                <code><a class="autorefs autorefs-external" href="https://docs.python.org/3/library/functions.html#float">float</a></code>
           </td>
           <td>
             <div class="doc-md-description">
-              <p>the retention time in seconds. Defaults to 0.</p>
+              <p>the retention time in seconds.</p>
             </div>
           </td>
-          <td>
-                <code>0</code>
-          </td>
         </tr>
         <tr>
-          <td><code>metadata</code></td>
+          <td><code><a class="autorefs autorefs-internal" title="nplinker.metabolomics.Spectrum.metadata" href="#nplinker.metabolomics.Spectrum.metadata">metadata</a></code></td>
           <td>
-                <code><a class="autorefs autorefs-external" href="https://docs.python.org/3/library/stdtypes.html#dict">dict</a> | None</code>
           </td>
           <td>
             <div class="doc-md-description">
-              <p>the metadata of the spectrum, i.e. the header infomation
-in the MGF file.</p>
+              <p>the metadata of the spectrum, i.e. the header infomation in the MGF
+file.</p>
             </div>
           </td>
-          <td>
-                <code>None</code>
-          </td>
         </tr>
-    </tbody>
-  </table>
-
-
-
-  <p><strong>Attributes:</strong></p>
-  <table>
-    <thead>
-      <tr>
-        <th>Name</th>
-        <th>Type</th>
-        <th>Description</th>
-      </tr>
-    </thead>
-    <tbody>
         <tr>
-          <td><code><span title="nplinker.metabolomics.Spectrum.spectrum_id">spectrum_id</span></code></td>
+          <td><code><a class="autorefs autorefs-internal" title="nplinker.metabolomics.Spectrum.gnps_annotations" href="#nplinker.metabolomics.Spectrum.gnps_annotations">gnps_annotations</a></code></td>
           <td>
+                <code><a class="autorefs autorefs-external" href="https://docs.python.org/3/library/stdtypes.html#dict">dict</a></code>
           </td>
           <td>
             <div class="doc-md-description">
-              <p>the spectrum ID.</p>
+              <p>the GNPS annotations of the spectrum.</p>
             </div>
           </td>
         </tr>
         <tr>
-          <td><code><span title="nplinker.metabolomics.Spectrum.mz">mz</span></code></td>
+          <td><code><a class="autorefs autorefs-internal" title="nplinker.metabolomics.Spectrum.gnps_id" href="#nplinker.metabolomics.Spectrum.gnps_id">gnps_id</a></code></td>
           <td>
+                <code><a class="autorefs autorefs-external" href="https://docs.python.org/3/library/stdtypes.html#str">str</a> | None</code>
           </td>
           <td>
             <div class="doc-md-description">
-              <p>the list of m/z values.</p>
+              <p>the GNPS ID of the spectrum.</p>
             </div>
           </td>
         </tr>
         <tr>
-          <td><code><span title="nplinker.metabolomics.Spectrum.intensity">intensity</span></code></td>
+          <td><code><a class="autorefs autorefs-internal" title="nplinker.metabolomics.Spectrum.strains" href="#nplinker.metabolomics.Spectrum.strains">strains</a></code></td>
           <td>
+                <code><a class="autorefs autorefs-internal" title="nplinker.strain.StrainCollection" href="../strain/#nplinker.strain.StrainCollection">StrainCollection</a></code>
           </td>
           <td>
             <div class="doc-md-description">
-              <p>the list of intensity values.</p>
+              <p>the strains that this spectrum belongs to.</p>
             </div>
           </td>
         </tr>
         <tr>
-          <td><code><span title="nplinker.metabolomics.Spectrum.precursor_mz">precursor_mz</span></code></td>
+          <td><code><a class="autorefs autorefs-internal" title="nplinker.metabolomics.Spectrum.family" href="#nplinker.metabolomics.Spectrum.family">family</a></code></td>
           <td>
+                <code><a class="autorefs autorefs-internal" title="nplinker.metabolomics.molecular_family.MolecularFamily" href="#nplinker.metabolomics.MolecularFamily">MolecularFamily</a> | None</code>
           </td>
           <td>
             <div class="doc-md-description">
-              <p>the m/z value of the precursor.</p>
+              <p>the molecular family that this spectrum belongs to.</p>
             </div>
           </td>
         </tr>
         <tr>
-          <td><code><span title="nplinker.metabolomics.Spectrum.rt">rt</span></code></td>
+          <td><code><a class="autorefs autorefs-internal" title="nplinker.metabolomics.Spectrum.peaks" href="#nplinker.metabolomics.Spectrum.peaks">peaks</a></code></td>
           <td>
+                <code><a class="autorefs autorefs-external" title="numpy.ndarray" href="https://numpy.org/doc/stable/reference/generated/numpy.ndarray.html#numpy.ndarray">ndarray</a></code>
           </td>
           <td>
             <div class="doc-md-description">
-              <p>the retention time in seconds.</p>
+              <p>2D array of peaks, each row is a peak of (m/z, intensity) values.</p>
             </div>
           </td>
         </tr>
+    </tbody>
+  </table>
+  
+
+
+
+  <p><strong>Parameters:</strong></p>
+  <table>
+    <thead>
+      <tr>
+        <th>Name</th>
+        <th>Type</th>
+        <th>Description</th>
+        <th>Default</th>
+      </tr>
+    </thead>
+    <tbody>
         <tr>
-          <td><code><span title="nplinker.metabolomics.Spectrum.metadata">metadata</span></code></td>
+          <td><code>spectrum_id</code></td>
           <td>
+                <code><a class="autorefs autorefs-external" href="https://docs.python.org/3/library/stdtypes.html#str">str</a></code>
           </td>
           <td>
             <div class="doc-md-description">
-              <p>the metadata of the spectrum, i.e. the header infomation in the MGF
-file.</p>
+              <p>the spectrum ID.</p>
             </div>
           </td>
+          <td>
+              <em>required</em>
+          </td>
         </tr>
         <tr>
-          <td><code><span title="nplinker.metabolomics.Spectrum.gnps_annotations">gnps_annotations</span></code></td>
+          <td><code>mz</code></td>
           <td>
+                <code><a class="autorefs autorefs-external" href="https://docs.python.org/3/library/stdtypes.html#list">list</a>[<a class="autorefs autorefs-external" href="https://docs.python.org/3/library/functions.html#float">float</a>]</code>
           </td>
           <td>
             <div class="doc-md-description">
-              <p>the GNPS annotations of the spectrum.</p>
+              <p>the list of m/z values.</p>
             </div>
           </td>
+          <td>
+              <em>required</em>
+          </td>
         </tr>
         <tr>
-          <td><code><span title="nplinker.metabolomics.Spectrum.gnps_id">gnps_id</span></code></td>
+          <td><code>intensity</code></td>
           <td>
+                <code><a class="autorefs autorefs-external" href="https://docs.python.org/3/library/stdtypes.html#list">list</a>[<a class="autorefs autorefs-external" href="https://docs.python.org/3/library/functions.html#float">float</a>]</code>
           </td>
           <td>
             <div class="doc-md-description">
-              <p>the GNPS ID of the spectrum.</p>
+              <p>the list of intensity values.</p>
             </div>
           </td>
+          <td>
+              <em>required</em>
+          </td>
         </tr>
         <tr>
-          <td><code><span title="nplinker.metabolomics.Spectrum.strains">strains</span></code></td>
+          <td><code>precursor_mz</code></td>
           <td>
+                <code><a class="autorefs autorefs-external" href="https://docs.python.org/3/library/functions.html#float">float</a></code>
           </td>
           <td>
             <div class="doc-md-description">
-              <p>the strains that this spectrum belongs to.</p>
+              <p>the precursor m/z.</p>
             </div>
           </td>
+          <td>
+              <em>required</em>
+          </td>
         </tr>
         <tr>
-          <td><code><span title="nplinker.metabolomics.Spectrum.family">family</span></code></td>
+          <td><code>rt</code></td>
           <td>
+                <code><a class="autorefs autorefs-external" href="https://docs.python.org/3/library/functions.html#float">float</a></code>
           </td>
           <td>
             <div class="doc-md-description">
-              <p>the molecular family that this spectrum belongs to.</p>
+              <p>the retention time in seconds. Defaults to 0.</p>
             </div>
           </td>
+          <td>
+                <code>0</code>
+          </td>
         </tr>
         <tr>
-          <td><code><a class="autorefs autorefs-internal" title="nplinker.metabolomics.Spectrum.peaks" href="#nplinker.metabolomics.Spectrum.peaks">peaks</a></code></td>
+          <td><code>metadata</code></td>
           <td>
+                <code><a class="autorefs autorefs-external" href="https://docs.python.org/3/library/stdtypes.html#dict">dict</a> | None</code>
           </td>
           <td>
             <div class="doc-md-description">
-              <p>2D array of peaks, each row is a peak of (m/z, intensity) values.</p>
+              <p>the metadata of the spectrum, i.e. the header infomation
+in the MGF file.</p>
             </div>
           </td>
+          <td>
+                <code>None</code>
+          </td>
         </tr>
     </tbody>
   </table>
 
                 <details class="quote">
                   <summary>Source code in <code>src/nplinker/metabolomics/spectrum.py</code></summary>
-                  <div class="language-python highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal"><a href="#__codelineno-0-14">14</a></span>
-<span class="normal"><a href="#__codelineno-0-15">15</a></span>
-<span class="normal"><a href="#__codelineno-0-16">16</a></span>
-<span class="normal"><a href="#__codelineno-0-17">17</a></span>
-<span class="normal"><a href="#__codelineno-0-18">18</a></span>
-<span class="normal"><a href="#__codelineno-0-19">19</a></span>
-<span class="normal"><a href="#__codelineno-0-20">20</a></span>
-<span class="normal"><a href="#__codelineno-0-21">21</a></span>
-<span class="normal"><a href="#__codelineno-0-22">22</a></span>
-<span class="normal"><a href="#__codelineno-0-23">23</a></span>
-<span class="normal"><a href="#__codelineno-0-24">24</a></span>
-<span class="normal"><a href="#__codelineno-0-25">25</a></span>
-<span class="normal"><a href="#__codelineno-0-26">26</a></span>
-<span class="normal"><a href="#__codelineno-0-27">27</a></span>
-<span class="normal"><a href="#__codelineno-0-28">28</a></span>
-<span class="normal"><a href="#__codelineno-0-29">29</a></span>
-<span class="normal"><a href="#__codelineno-0-30">30</a></span>
-<span class="normal"><a href="#__codelineno-0-31">31</a></span>
+                  <div class="language-python highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal"><a href="#__codelineno-0-31">31</a></span>
 <span class="normal"><a href="#__codelineno-0-32">32</a></span>
 <span class="normal"><a href="#__codelineno-0-33">33</a></span>
 <span class="normal"><a href="#__codelineno-0-34">34</a></span>
@@ -2328,51 +2570,40 @@ <h3 id="nplinker.metabolomics.Spectrum" class="doc doc-heading">
 <span class="normal"><a href="#__codelineno-0-55">55</a></span>
 <span class="normal"><a href="#__codelineno-0-56">56</a></span>
 <span class="normal"><a href="#__codelineno-0-57">57</a></span>
-<span class="normal"><a href="#__codelineno-0-58">58</a></span></pre></div></td><td class="code"><div><pre><span></span><code><a id="__codelineno-0-14" name="__codelineno-0-14"></a><span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span>
-<a id="__codelineno-0-15" name="__codelineno-0-15"></a>    <span class="bp">self</span><span class="p">,</span>
-<a id="__codelineno-0-16" name="__codelineno-0-16"></a>    <span class="n">spectrum_id</span><span class="p">:</span> <span class="nb">str</span><span class="p">,</span>
-<a id="__codelineno-0-17" name="__codelineno-0-17"></a>    <span class="n">mz</span><span class="p">:</span> <span class="nb">list</span><span class="p">[</span><span class="nb">float</span><span class="p">],</span>
-<a id="__codelineno-0-18" name="__codelineno-0-18"></a>    <span class="n">intensity</span><span class="p">:</span> <span class="nb">list</span><span class="p">[</span><span class="nb">float</span><span class="p">],</span>
-<a id="__codelineno-0-19" name="__codelineno-0-19"></a>    <span class="n">precursor_mz</span><span class="p">:</span> <span class="nb">float</span><span class="p">,</span>
-<a id="__codelineno-0-20" name="__codelineno-0-20"></a>    <span class="n">rt</span><span class="p">:</span> <span class="nb">float</span> <span class="o">=</span> <span class="mi">0</span><span class="p">,</span>
-<a id="__codelineno-0-21" name="__codelineno-0-21"></a>    <span class="n">metadata</span><span class="p">:</span> <span class="nb">dict</span> <span class="o">|</span> <span class="kc">None</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
-<a id="__codelineno-0-22" name="__codelineno-0-22"></a><span class="p">)</span> <span class="o">-&gt;</span> <span class="kc">None</span><span class="p">:</span>
-<a id="__codelineno-0-23" name="__codelineno-0-23"></a><span class="w">    </span><span class="sd">&quot;&quot;&quot;Class to model MS/MS Spectrum.</span>
-<a id="__codelineno-0-24" name="__codelineno-0-24"></a>
-<a id="__codelineno-0-25" name="__codelineno-0-25"></a><span class="sd">    Args:</span>
-<a id="__codelineno-0-26" name="__codelineno-0-26"></a><span class="sd">        spectrum_id: the spectrum ID.</span>
-<a id="__codelineno-0-27" name="__codelineno-0-27"></a><span class="sd">        mz: the list of m/z values.</span>
-<a id="__codelineno-0-28" name="__codelineno-0-28"></a><span class="sd">        intensity: the list of intensity values.</span>
-<a id="__codelineno-0-29" name="__codelineno-0-29"></a><span class="sd">        precursor_mz: the precursor m/z.</span>
-<a id="__codelineno-0-30" name="__codelineno-0-30"></a><span class="sd">        rt: the retention time in seconds. Defaults to 0.</span>
-<a id="__codelineno-0-31" name="__codelineno-0-31"></a><span class="sd">        metadata: the metadata of the spectrum, i.e. the header infomation</span>
-<a id="__codelineno-0-32" name="__codelineno-0-32"></a><span class="sd">            in the MGF file.</span>
-<a id="__codelineno-0-33" name="__codelineno-0-33"></a>
-<a id="__codelineno-0-34" name="__codelineno-0-34"></a><span class="sd">    Attributes:</span>
-<a id="__codelineno-0-35" name="__codelineno-0-35"></a><span class="sd">        spectrum_id: the spectrum ID.</span>
-<a id="__codelineno-0-36" name="__codelineno-0-36"></a><span class="sd">        mz: the list of m/z values.</span>
-<a id="__codelineno-0-37" name="__codelineno-0-37"></a><span class="sd">        intensity: the list of intensity values.</span>
-<a id="__codelineno-0-38" name="__codelineno-0-38"></a><span class="sd">        precursor_mz: the m/z value of the precursor.</span>
-<a id="__codelineno-0-39" name="__codelineno-0-39"></a><span class="sd">        rt: the retention time in seconds.</span>
-<a id="__codelineno-0-40" name="__codelineno-0-40"></a><span class="sd">        metadata: the metadata of the spectrum, i.e. the header infomation in the MGF</span>
-<a id="__codelineno-0-41" name="__codelineno-0-41"></a><span class="sd">            file.</span>
-<a id="__codelineno-0-42" name="__codelineno-0-42"></a><span class="sd">        gnps_annotations: the GNPS annotations of the spectrum.</span>
-<a id="__codelineno-0-43" name="__codelineno-0-43"></a><span class="sd">        gnps_id: the GNPS ID of the spectrum.</span>
-<a id="__codelineno-0-44" name="__codelineno-0-44"></a><span class="sd">        strains: the strains that this spectrum belongs to.</span>
-<a id="__codelineno-0-45" name="__codelineno-0-45"></a><span class="sd">        family: the molecular family that this spectrum belongs to.</span>
-<a id="__codelineno-0-46" name="__codelineno-0-46"></a><span class="sd">        peaks: 2D array of peaks, each row is a peak of (m/z, intensity) values.</span>
-<a id="__codelineno-0-47" name="__codelineno-0-47"></a><span class="sd">    &quot;&quot;&quot;</span>
-<a id="__codelineno-0-48" name="__codelineno-0-48"></a>    <span class="bp">self</span><span class="o">.</span><span class="n">spectrum_id</span> <span class="o">=</span> <span class="n">spectrum_id</span>
-<a id="__codelineno-0-49" name="__codelineno-0-49"></a>    <span class="bp">self</span><span class="o">.</span><span class="n">mz</span> <span class="o">=</span> <span class="n">mz</span>
-<a id="__codelineno-0-50" name="__codelineno-0-50"></a>    <span class="bp">self</span><span class="o">.</span><span class="n">intensity</span> <span class="o">=</span> <span class="n">intensity</span>
-<a id="__codelineno-0-51" name="__codelineno-0-51"></a>    <span class="bp">self</span><span class="o">.</span><span class="n">precursor_mz</span> <span class="o">=</span> <span class="n">precursor_mz</span>
-<a id="__codelineno-0-52" name="__codelineno-0-52"></a>    <span class="bp">self</span><span class="o">.</span><span class="n">rt</span> <span class="o">=</span> <span class="n">rt</span>
-<a id="__codelineno-0-53" name="__codelineno-0-53"></a>    <span class="bp">self</span><span class="o">.</span><span class="n">metadata</span> <span class="o">=</span> <span class="n">metadata</span> <span class="ow">or</span> <span class="p">{}</span>
-<a id="__codelineno-0-54" name="__codelineno-0-54"></a>
-<a id="__codelineno-0-55" name="__codelineno-0-55"></a>    <span class="bp">self</span><span class="o">.</span><span class="n">gnps_annotations</span><span class="p">:</span> <span class="nb">dict</span> <span class="o">=</span> <span class="p">{}</span>
-<a id="__codelineno-0-56" name="__codelineno-0-56"></a>    <span class="bp">self</span><span class="o">.</span><span class="n">gnps_id</span><span class="p">:</span> <span class="nb">str</span> <span class="o">|</span> <span class="kc">None</span> <span class="o">=</span> <span class="kc">None</span>
-<a id="__codelineno-0-57" name="__codelineno-0-57"></a>    <span class="bp">self</span><span class="o">.</span><span class="n">strains</span><span class="p">:</span> <span class="n">StrainCollection</span> <span class="o">=</span> <span class="n">StrainCollection</span><span class="p">()</span>
-<a id="__codelineno-0-58" name="__codelineno-0-58"></a>    <span class="bp">self</span><span class="o">.</span><span class="n">family</span><span class="p">:</span> <span class="n">MolecularFamily</span> <span class="o">|</span> <span class="kc">None</span> <span class="o">=</span> <span class="kc">None</span>
+<span class="normal"><a href="#__codelineno-0-58">58</a></span>
+<span class="normal"><a href="#__codelineno-0-59">59</a></span>
+<span class="normal"><a href="#__codelineno-0-60">60</a></span>
+<span class="normal"><a href="#__codelineno-0-61">61</a></span></pre></div></td><td class="code"><div><pre><span></span><code><a id="__codelineno-0-31" name="__codelineno-0-31"></a><span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span>
+<a id="__codelineno-0-32" name="__codelineno-0-32"></a>    <span class="bp">self</span><span class="p">,</span>
+<a id="__codelineno-0-33" name="__codelineno-0-33"></a>    <span class="n">spectrum_id</span><span class="p">:</span> <span class="nb">str</span><span class="p">,</span>
+<a id="__codelineno-0-34" name="__codelineno-0-34"></a>    <span class="n">mz</span><span class="p">:</span> <span class="nb">list</span><span class="p">[</span><span class="nb">float</span><span class="p">],</span>
+<a id="__codelineno-0-35" name="__codelineno-0-35"></a>    <span class="n">intensity</span><span class="p">:</span> <span class="nb">list</span><span class="p">[</span><span class="nb">float</span><span class="p">],</span>
+<a id="__codelineno-0-36" name="__codelineno-0-36"></a>    <span class="n">precursor_mz</span><span class="p">:</span> <span class="nb">float</span><span class="p">,</span>
+<a id="__codelineno-0-37" name="__codelineno-0-37"></a>    <span class="n">rt</span><span class="p">:</span> <span class="nb">float</span> <span class="o">=</span> <span class="mi">0</span><span class="p">,</span>
+<a id="__codelineno-0-38" name="__codelineno-0-38"></a>    <span class="n">metadata</span><span class="p">:</span> <span class="nb">dict</span> <span class="o">|</span> <span class="kc">None</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+<a id="__codelineno-0-39" name="__codelineno-0-39"></a><span class="p">)</span> <span class="o">-&gt;</span> <span class="kc">None</span><span class="p">:</span>
+<a id="__codelineno-0-40" name="__codelineno-0-40"></a><span class="w">    </span><span class="sd">&quot;&quot;&quot;Initialize the Spectrum.</span>
+<a id="__codelineno-0-41" name="__codelineno-0-41"></a>
+<a id="__codelineno-0-42" name="__codelineno-0-42"></a><span class="sd">    Args:</span>
+<a id="__codelineno-0-43" name="__codelineno-0-43"></a><span class="sd">        spectrum_id: the spectrum ID.</span>
+<a id="__codelineno-0-44" name="__codelineno-0-44"></a><span class="sd">        mz: the list of m/z values.</span>
+<a id="__codelineno-0-45" name="__codelineno-0-45"></a><span class="sd">        intensity: the list of intensity values.</span>
+<a id="__codelineno-0-46" name="__codelineno-0-46"></a><span class="sd">        precursor_mz: the precursor m/z.</span>
+<a id="__codelineno-0-47" name="__codelineno-0-47"></a><span class="sd">        rt: the retention time in seconds. Defaults to 0.</span>
+<a id="__codelineno-0-48" name="__codelineno-0-48"></a><span class="sd">        metadata: the metadata of the spectrum, i.e. the header infomation</span>
+<a id="__codelineno-0-49" name="__codelineno-0-49"></a><span class="sd">            in the MGF file.</span>
+<a id="__codelineno-0-50" name="__codelineno-0-50"></a><span class="sd">    &quot;&quot;&quot;</span>
+<a id="__codelineno-0-51" name="__codelineno-0-51"></a>    <span class="bp">self</span><span class="o">.</span><span class="n">spectrum_id</span> <span class="o">=</span> <span class="n">spectrum_id</span>
+<a id="__codelineno-0-52" name="__codelineno-0-52"></a>    <span class="bp">self</span><span class="o">.</span><span class="n">mz</span> <span class="o">=</span> <span class="n">mz</span>
+<a id="__codelineno-0-53" name="__codelineno-0-53"></a>    <span class="bp">self</span><span class="o">.</span><span class="n">intensity</span> <span class="o">=</span> <span class="n">intensity</span>
+<a id="__codelineno-0-54" name="__codelineno-0-54"></a>    <span class="bp">self</span><span class="o">.</span><span class="n">precursor_mz</span> <span class="o">=</span> <span class="n">precursor_mz</span>
+<a id="__codelineno-0-55" name="__codelineno-0-55"></a>    <span class="bp">self</span><span class="o">.</span><span class="n">rt</span> <span class="o">=</span> <span class="n">rt</span>
+<a id="__codelineno-0-56" name="__codelineno-0-56"></a>    <span class="bp">self</span><span class="o">.</span><span class="n">metadata</span> <span class="o">=</span> <span class="n">metadata</span> <span class="ow">or</span> <span class="p">{}</span>
+<a id="__codelineno-0-57" name="__codelineno-0-57"></a>
+<a id="__codelineno-0-58" name="__codelineno-0-58"></a>    <span class="bp">self</span><span class="o">.</span><span class="n">gnps_annotations</span><span class="p">:</span> <span class="nb">dict</span> <span class="o">=</span> <span class="p">{}</span>
+<a id="__codelineno-0-59" name="__codelineno-0-59"></a>    <span class="bp">self</span><span class="o">.</span><span class="n">gnps_id</span><span class="p">:</span> <span class="nb">str</span> <span class="o">|</span> <span class="kc">None</span> <span class="o">=</span> <span class="kc">None</span>
+<a id="__codelineno-0-60" name="__codelineno-0-60"></a>    <span class="bp">self</span><span class="o">.</span><span class="n">strains</span><span class="p">:</span> <span class="n">StrainCollection</span> <span class="o">=</span> <span class="n">StrainCollection</span><span class="p">()</span>
+<a id="__codelineno-0-61" name="__codelineno-0-61"></a>    <span class="bp">self</span><span class="o">.</span><span class="n">family</span><span class="p">:</span> <span class="n">MolecularFamily</span> <span class="o">|</span> <span class="kc">None</span> <span class="o">=</span> <span class="kc">None</span>
 </code></pre></div></td></tr></table></div>
                 </details>
 
@@ -2386,6 +2617,216 @@ <h3 id="nplinker.metabolomics.Spectrum" class="doc doc-heading">
 
 
 
+<div class="doc doc-object doc-attribute">
+
+
+
+<h4 id="nplinker.metabolomics.Spectrum.spectrum_id" class="doc doc-heading">
+<code class="doc-symbol doc-symbol-heading doc-symbol-attribute"></code>          <span class="doc doc-object-name doc-attribute-name">spectrum_id</span>
+
+  
+  <span class="doc doc-labels">
+      <small class="doc doc-label doc-label-instance-attribute"><code>instance-attribute</code></small>
+  </span>
+
+<a href="#nplinker.metabolomics.Spectrum.spectrum_id" class="headerlink" title="Permanent link">&para;</a></h4>
+<div class="language-python doc-signature highlight"><pre><span></span><code><a id="__codelineno-0-1" name="__codelineno-0-1" href="#__codelineno-0-1"></a><span class="n">spectrum_id</span> <span class="o">=</span> <span class="n"><a class="autorefs autorefs-internal" title="nplinker.metabolomics.spectrum.Spectrum.spectrum_id" href="#nplinker.metabolomics.Spectrum.spectrum_id">spectrum_id</a></span>
+</code></pre></div>
+
+  <div class="doc doc-contents ">
+  </div>
+
+</div>
+
+<div class="doc doc-object doc-attribute">
+
+
+
+<h4 id="nplinker.metabolomics.Spectrum.mz" class="doc doc-heading">
+<code class="doc-symbol doc-symbol-heading doc-symbol-attribute"></code>          <span class="doc doc-object-name doc-attribute-name">mz</span>
+
+  
+  <span class="doc doc-labels">
+      <small class="doc doc-label doc-label-instance-attribute"><code>instance-attribute</code></small>
+  </span>
+
+<a href="#nplinker.metabolomics.Spectrum.mz" class="headerlink" title="Permanent link">&para;</a></h4>
+<div class="language-python doc-signature highlight"><pre><span></span><code><a id="__codelineno-0-1" name="__codelineno-0-1" href="#__codelineno-0-1"></a><span class="n">mz</span> <span class="o">=</span> <span class="n"><a class="autorefs autorefs-internal" title="nplinker.metabolomics.spectrum.Spectrum.mz" href="#nplinker.metabolomics.Spectrum.mz">mz</a></span>
+</code></pre></div>
+
+  <div class="doc doc-contents ">
+  </div>
+
+</div>
+
+<div class="doc doc-object doc-attribute">
+
+
+
+<h4 id="nplinker.metabolomics.Spectrum.intensity" class="doc doc-heading">
+<code class="doc-symbol doc-symbol-heading doc-symbol-attribute"></code>          <span class="doc doc-object-name doc-attribute-name">intensity</span>
+
+  
+  <span class="doc doc-labels">
+      <small class="doc doc-label doc-label-instance-attribute"><code>instance-attribute</code></small>
+  </span>
+
+<a href="#nplinker.metabolomics.Spectrum.intensity" class="headerlink" title="Permanent link">&para;</a></h4>
+<div class="language-python doc-signature highlight"><pre><span></span><code><a id="__codelineno-0-1" name="__codelineno-0-1" href="#__codelineno-0-1"></a><span class="n">intensity</span> <span class="o">=</span> <span class="n"><a class="autorefs autorefs-internal" title="nplinker.metabolomics.spectrum.Spectrum.intensity" href="#nplinker.metabolomics.Spectrum.intensity">intensity</a></span>
+</code></pre></div>
+
+  <div class="doc doc-contents ">
+  </div>
+
+</div>
+
+<div class="doc doc-object doc-attribute">
+
+
+
+<h4 id="nplinker.metabolomics.Spectrum.precursor_mz" class="doc doc-heading">
+<code class="doc-symbol doc-symbol-heading doc-symbol-attribute"></code>          <span class="doc doc-object-name doc-attribute-name">precursor_mz</span>
+
+  
+  <span class="doc doc-labels">
+      <small class="doc doc-label doc-label-instance-attribute"><code>instance-attribute</code></small>
+  </span>
+
+<a href="#nplinker.metabolomics.Spectrum.precursor_mz" class="headerlink" title="Permanent link">&para;</a></h4>
+<div class="language-python doc-signature highlight"><pre><span></span><code><a id="__codelineno-0-1" name="__codelineno-0-1" href="#__codelineno-0-1"></a><span class="n">precursor_mz</span> <span class="o">=</span> <span class="n"><a class="autorefs autorefs-internal" title="nplinker.metabolomics.spectrum.Spectrum.precursor_mz" href="#nplinker.metabolomics.Spectrum.precursor_mz">precursor_mz</a></span>
+</code></pre></div>
+
+  <div class="doc doc-contents ">
+  </div>
+
+</div>
+
+<div class="doc doc-object doc-attribute">
+
+
+
+<h4 id="nplinker.metabolomics.Spectrum.rt" class="doc doc-heading">
+<code class="doc-symbol doc-symbol-heading doc-symbol-attribute"></code>          <span class="doc doc-object-name doc-attribute-name">rt</span>
+
+  
+  <span class="doc doc-labels">
+      <small class="doc doc-label doc-label-instance-attribute"><code>instance-attribute</code></small>
+  </span>
+
+<a href="#nplinker.metabolomics.Spectrum.rt" class="headerlink" title="Permanent link">&para;</a></h4>
+<div class="language-python doc-signature highlight"><pre><span></span><code><a id="__codelineno-0-1" name="__codelineno-0-1" href="#__codelineno-0-1"></a><span class="n">rt</span> <span class="o">=</span> <span class="n"><a class="autorefs autorefs-internal" title="nplinker.metabolomics.spectrum.Spectrum.rt" href="#nplinker.metabolomics.Spectrum.rt">rt</a></span>
+</code></pre></div>
+
+  <div class="doc doc-contents ">
+  </div>
+
+</div>
+
+<div class="doc doc-object doc-attribute">
+
+
+
+<h4 id="nplinker.metabolomics.Spectrum.metadata" class="doc doc-heading">
+<code class="doc-symbol doc-symbol-heading doc-symbol-attribute"></code>          <span class="doc doc-object-name doc-attribute-name">metadata</span>
+
+  
+  <span class="doc doc-labels">
+      <small class="doc doc-label doc-label-instance-attribute"><code>instance-attribute</code></small>
+  </span>
+
+<a href="#nplinker.metabolomics.Spectrum.metadata" class="headerlink" title="Permanent link">&para;</a></h4>
+<div class="language-python doc-signature highlight"><pre><span></span><code><a id="__codelineno-0-1" name="__codelineno-0-1" href="#__codelineno-0-1"></a><span class="n">metadata</span> <span class="o">=</span> <span class="n"><a class="autorefs autorefs-internal" title="nplinker.metabolomics.spectrum.Spectrum.metadata" href="#nplinker.metabolomics.Spectrum.metadata">metadata</a></span> <span class="ow">or</span> <span class="p">{}</span>
+</code></pre></div>
+
+  <div class="doc doc-contents ">
+  </div>
+
+</div>
+
+<div class="doc doc-object doc-attribute">
+
+
+
+<h4 id="nplinker.metabolomics.Spectrum.gnps_annotations" class="doc doc-heading">
+<code class="doc-symbol doc-symbol-heading doc-symbol-attribute"></code>          <span class="doc doc-object-name doc-attribute-name">gnps_annotations</span>
+
+  
+  <span class="doc doc-labels">
+      <small class="doc doc-label doc-label-instance-attribute"><code>instance-attribute</code></small>
+  </span>
+
+<a href="#nplinker.metabolomics.Spectrum.gnps_annotations" class="headerlink" title="Permanent link">&para;</a></h4>
+<div class="language-python doc-signature highlight"><pre><span></span><code><a id="__codelineno-0-1" name="__codelineno-0-1" href="#__codelineno-0-1"></a><span class="n">gnps_annotations</span><span class="p">:</span> <span class="n"><a class="autorefs autorefs-external" href="https://docs.python.org/3/library/stdtypes.html#dict">dict</a></span> <span class="o">=</span> <span class="p">{}</span>
+</code></pre></div>
+
+  <div class="doc doc-contents ">
+  </div>
+
+</div>
+
+<div class="doc doc-object doc-attribute">
+
+
+
+<h4 id="nplinker.metabolomics.Spectrum.gnps_id" class="doc doc-heading">
+<code class="doc-symbol doc-symbol-heading doc-symbol-attribute"></code>          <span class="doc doc-object-name doc-attribute-name">gnps_id</span>
+
+  
+  <span class="doc doc-labels">
+      <small class="doc doc-label doc-label-instance-attribute"><code>instance-attribute</code></small>
+  </span>
+
+<a href="#nplinker.metabolomics.Spectrum.gnps_id" class="headerlink" title="Permanent link">&para;</a></h4>
+<div class="language-python doc-signature highlight"><pre><span></span><code><a id="__codelineno-0-1" name="__codelineno-0-1" href="#__codelineno-0-1"></a><span class="n">gnps_id</span><span class="p">:</span> <span class="n"><a class="autorefs autorefs-external" href="https://docs.python.org/3/library/stdtypes.html#str">str</a></span> <span class="o">|</span> <span class="kc">None</span> <span class="o">=</span> <span class="kc">None</span>
+</code></pre></div>
+
+  <div class="doc doc-contents ">
+  </div>
+
+</div>
+
+<div class="doc doc-object doc-attribute">
+
+
+
+<h4 id="nplinker.metabolomics.Spectrum.strains" class="doc doc-heading">
+<code class="doc-symbol doc-symbol-heading doc-symbol-attribute"></code>          <span class="doc doc-object-name doc-attribute-name">strains</span>
+
+  
+  <span class="doc doc-labels">
+      <small class="doc doc-label doc-label-instance-attribute"><code>instance-attribute</code></small>
+  </span>
+
+<a href="#nplinker.metabolomics.Spectrum.strains" class="headerlink" title="Permanent link">&para;</a></h4>
+<div class="language-python doc-signature highlight"><pre><span></span><code><a id="__codelineno-0-1" name="__codelineno-0-1" href="#__codelineno-0-1"></a><span class="n">strains</span><span class="p">:</span> <span class="n"><a class="autorefs autorefs-internal" title="nplinker.strain.StrainCollection" href="../strain/#nplinker.strain.StrainCollection">StrainCollection</a></span> <span class="o">=</span> <span class="n"><a class="autorefs autorefs-internal" title="nplinker.strain.StrainCollection" href="../strain/#nplinker.strain.StrainCollection">StrainCollection</a></span><span class="p">()</span>
+</code></pre></div>
+
+  <div class="doc doc-contents ">
+  </div>
+
+</div>
+
+<div class="doc doc-object doc-attribute">
+
+
+
+<h4 id="nplinker.metabolomics.Spectrum.family" class="doc doc-heading">
+<code class="doc-symbol doc-symbol-heading doc-symbol-attribute"></code>          <span class="doc doc-object-name doc-attribute-name">family</span>
+
+  
+  <span class="doc doc-labels">
+      <small class="doc doc-label doc-label-instance-attribute"><code>instance-attribute</code></small>
+  </span>
+
+<a href="#nplinker.metabolomics.Spectrum.family" class="headerlink" title="Permanent link">&para;</a></h4>
+<div class="language-python doc-signature highlight"><pre><span></span><code><a id="__codelineno-0-1" name="__codelineno-0-1" href="#__codelineno-0-1"></a><span class="n">family</span><span class="p">:</span> <span class="n"><a class="autorefs autorefs-internal" title="nplinker.metabolomics.molecular_family.MolecularFamily" href="#nplinker.metabolomics.MolecularFamily">MolecularFamily</a></span> <span class="o">|</span> <span class="kc">None</span> <span class="o">=</span> <span class="kc">None</span>
+</code></pre></div>
+
+  <div class="doc doc-contents ">
+  </div>
+
+</div>
+
 <div class="doc doc-object doc-attribute">
 
 
@@ -2485,25 +2926,25 @@ <h4 id="nplinker.metabolomics.Spectrum.has_strain" class="doc doc-heading">
 
           <details class="quote">
             <summary>Source code in <code>src/nplinker/metabolomics/spectrum.py</code></summary>
-            <div class="language-python highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal"><a href="#__codelineno-0-79">79</a></span>
-<span class="normal"><a href="#__codelineno-0-80">80</a></span>
-<span class="normal"><a href="#__codelineno-0-81">81</a></span>
-<span class="normal"><a href="#__codelineno-0-82">82</a></span>
+            <div class="language-python highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal"><a href="#__codelineno-0-82">82</a></span>
 <span class="normal"><a href="#__codelineno-0-83">83</a></span>
 <span class="normal"><a href="#__codelineno-0-84">84</a></span>
 <span class="normal"><a href="#__codelineno-0-85">85</a></span>
 <span class="normal"><a href="#__codelineno-0-86">86</a></span>
 <span class="normal"><a href="#__codelineno-0-87">87</a></span>
-<span class="normal"><a href="#__codelineno-0-88">88</a></span></pre></div></td><td class="code"><div><pre><span></span><code><a id="__codelineno-0-79" name="__codelineno-0-79"></a><span class="k">def</span> <span class="nf">has_strain</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">strain</span><span class="p">:</span> <span class="n">Strain</span><span class="p">)</span> <span class="o">-&gt;</span> <span class="nb">bool</span><span class="p">:</span>
-<a id="__codelineno-0-80" name="__codelineno-0-80"></a><span class="w">    </span><span class="sd">&quot;&quot;&quot;Check if the given strain exists in the spectrum.</span>
-<a id="__codelineno-0-81" name="__codelineno-0-81"></a>
-<a id="__codelineno-0-82" name="__codelineno-0-82"></a><span class="sd">    Args:</span>
-<a id="__codelineno-0-83" name="__codelineno-0-83"></a><span class="sd">        strain: `Strain` object.</span>
+<span class="normal"><a href="#__codelineno-0-88">88</a></span>
+<span class="normal"><a href="#__codelineno-0-89">89</a></span>
+<span class="normal"><a href="#__codelineno-0-90">90</a></span>
+<span class="normal"><a href="#__codelineno-0-91">91</a></span></pre></div></td><td class="code"><div><pre><span></span><code><a id="__codelineno-0-82" name="__codelineno-0-82"></a><span class="k">def</span> <span class="nf">has_strain</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">strain</span><span class="p">:</span> <span class="n">Strain</span><span class="p">)</span> <span class="o">-&gt;</span> <span class="nb">bool</span><span class="p">:</span>
+<a id="__codelineno-0-83" name="__codelineno-0-83"></a><span class="w">    </span><span class="sd">&quot;&quot;&quot;Check if the given strain exists in the spectrum.</span>
 <a id="__codelineno-0-84" name="__codelineno-0-84"></a>
-<a id="__codelineno-0-85" name="__codelineno-0-85"></a><span class="sd">    Returns:</span>
-<a id="__codelineno-0-86" name="__codelineno-0-86"></a><span class="sd">        True when the given strain exist in the spectrum.</span>
-<a id="__codelineno-0-87" name="__codelineno-0-87"></a><span class="sd">    &quot;&quot;&quot;</span>
-<a id="__codelineno-0-88" name="__codelineno-0-88"></a>    <span class="k">return</span> <span class="n">strain</span> <span class="ow">in</span> <span class="bp">self</span><span class="o">.</span><span class="n">strains</span>
+<a id="__codelineno-0-85" name="__codelineno-0-85"></a><span class="sd">    Args:</span>
+<a id="__codelineno-0-86" name="__codelineno-0-86"></a><span class="sd">        strain: `Strain` object.</span>
+<a id="__codelineno-0-87" name="__codelineno-0-87"></a>
+<a id="__codelineno-0-88" name="__codelineno-0-88"></a><span class="sd">    Returns:</span>
+<a id="__codelineno-0-89" name="__codelineno-0-89"></a><span class="sd">        True when the given strain exist in the spectrum.</span>
+<a id="__codelineno-0-90" name="__codelineno-0-90"></a><span class="sd">    &quot;&quot;&quot;</span>
+<a id="__codelineno-0-91" name="__codelineno-0-91"></a>    <span class="k">return</span> <span class="n">strain</span> <span class="ow">in</span> <span class="bp">self</span><span class="o">.</span><span class="n">strains</span>
 </code></pre></div></td></tr></table></div>
           </details>
   </div>
diff --git a/dev/api/metabolomics_abc/index.html b/dev/api/metabolomics_abc/index.html
index 47483b03..4350fd4d 100644
--- a/dev/api/metabolomics_abc/index.html
+++ b/dev/api/metabolomics_abc/index.html
@@ -1037,6 +1037,30 @@
     <nav class="md-nav" aria-label=" abc">
       <ul class="md-nav__list">
         
+          <li class="md-nav__item">
+  <a href="#nplinker.metabolomics.abc.SpectrumLoaderBase" class="md-nav__link">
+    <span class="md-ellipsis">
+      <code class="doc-symbol doc-symbol-toc doc-symbol-class"></code>&nbsp;SpectrumLoaderBase
+    </span>
+  </a>
+  
+    <nav class="md-nav" aria-label=" SpectrumLoaderBase">
+      <ul class="md-nav__list">
+        
+          <li class="md-nav__item">
+  <a href="#nplinker.metabolomics.abc.SpectrumLoaderBase.spectra" class="md-nav__link">
+    <span class="md-ellipsis">
+      <code class="doc-symbol doc-symbol-toc doc-symbol-attribute"></code>&nbsp;spectra
+    </span>
+  </a>
+  
+</li>
+        
+      </ul>
+    </nav>
+  
+</li>
+        
           <li class="md-nav__item">
   <a href="#nplinker.metabolomics.abc.MolecularFamilyLoaderBase" class="md-nav__link">
     <span class="md-ellipsis">
@@ -1059,6 +1083,54 @@
       </ul>
     </nav>
   
+</li>
+        
+          <li class="md-nav__item">
+  <a href="#nplinker.metabolomics.abc.FileMappingLoaderBase" class="md-nav__link">
+    <span class="md-ellipsis">
+      <code class="doc-symbol doc-symbol-toc doc-symbol-class"></code>&nbsp;FileMappingLoaderBase
+    </span>
+  </a>
+  
+    <nav class="md-nav" aria-label=" FileMappingLoaderBase">
+      <ul class="md-nav__list">
+        
+          <li class="md-nav__item">
+  <a href="#nplinker.metabolomics.abc.FileMappingLoaderBase.mappings" class="md-nav__link">
+    <span class="md-ellipsis">
+      <code class="doc-symbol doc-symbol-toc doc-symbol-attribute"></code>&nbsp;mappings
+    </span>
+  </a>
+  
+</li>
+        
+      </ul>
+    </nav>
+  
+</li>
+        
+          <li class="md-nav__item">
+  <a href="#nplinker.metabolomics.abc.AnnotationLoaderBase" class="md-nav__link">
+    <span class="md-ellipsis">
+      <code class="doc-symbol doc-symbol-toc doc-symbol-class"></code>&nbsp;AnnotationLoaderBase
+    </span>
+  </a>
+  
+    <nav class="md-nav" aria-label=" AnnotationLoaderBase">
+      <ul class="md-nav__list">
+        
+          <li class="md-nav__item">
+  <a href="#nplinker.metabolomics.abc.AnnotationLoaderBase.annotations" class="md-nav__link">
+    <span class="md-ellipsis">
+      <code class="doc-symbol doc-symbol-toc doc-symbol-attribute"></code>&nbsp;annotations
+    </span>
+  </a>
+  
+</li>
+        
+      </ul>
+    </nav>
+  
 </li>
         
       </ul>
@@ -1317,6 +1389,30 @@
     <nav class="md-nav" aria-label=" abc">
       <ul class="md-nav__list">
         
+          <li class="md-nav__item">
+  <a href="#nplinker.metabolomics.abc.SpectrumLoaderBase" class="md-nav__link">
+    <span class="md-ellipsis">
+      <code class="doc-symbol doc-symbol-toc doc-symbol-class"></code>&nbsp;SpectrumLoaderBase
+    </span>
+  </a>
+  
+    <nav class="md-nav" aria-label=" SpectrumLoaderBase">
+      <ul class="md-nav__list">
+        
+          <li class="md-nav__item">
+  <a href="#nplinker.metabolomics.abc.SpectrumLoaderBase.spectra" class="md-nav__link">
+    <span class="md-ellipsis">
+      <code class="doc-symbol doc-symbol-toc doc-symbol-attribute"></code>&nbsp;spectra
+    </span>
+  </a>
+  
+</li>
+        
+      </ul>
+    </nav>
+  
+</li>
+        
           <li class="md-nav__item">
   <a href="#nplinker.metabolomics.abc.MolecularFamilyLoaderBase" class="md-nav__link">
     <span class="md-ellipsis">
@@ -1339,6 +1435,54 @@
       </ul>
     </nav>
   
+</li>
+        
+          <li class="md-nav__item">
+  <a href="#nplinker.metabolomics.abc.FileMappingLoaderBase" class="md-nav__link">
+    <span class="md-ellipsis">
+      <code class="doc-symbol doc-symbol-toc doc-symbol-class"></code>&nbsp;FileMappingLoaderBase
+    </span>
+  </a>
+  
+    <nav class="md-nav" aria-label=" FileMappingLoaderBase">
+      <ul class="md-nav__list">
+        
+          <li class="md-nav__item">
+  <a href="#nplinker.metabolomics.abc.FileMappingLoaderBase.mappings" class="md-nav__link">
+    <span class="md-ellipsis">
+      <code class="doc-symbol doc-symbol-toc doc-symbol-attribute"></code>&nbsp;mappings
+    </span>
+  </a>
+  
+</li>
+        
+      </ul>
+    </nav>
+  
+</li>
+        
+          <li class="md-nav__item">
+  <a href="#nplinker.metabolomics.abc.AnnotationLoaderBase" class="md-nav__link">
+    <span class="md-ellipsis">
+      <code class="doc-symbol doc-symbol-toc doc-symbol-class"></code>&nbsp;AnnotationLoaderBase
+    </span>
+  </a>
+  
+    <nav class="md-nav" aria-label=" AnnotationLoaderBase">
+      <ul class="md-nav__list">
+        
+          <li class="md-nav__item">
+  <a href="#nplinker.metabolomics.abc.AnnotationLoaderBase.annotations" class="md-nav__link">
+    <span class="md-ellipsis">
+      <code class="doc-symbol doc-symbol-toc doc-symbol-attribute"></code>&nbsp;annotations
+    </span>
+  </a>
+  
+</li>
+        
+      </ul>
+    </nav>
+  
 </li>
         
       </ul>
@@ -1389,6 +1533,66 @@ <h2 id="nplinker.metabolomics.abc" class="doc doc-heading">
 
 
 
+<div class="doc doc-object doc-class">
+
+
+
+<h3 id="nplinker.metabolomics.abc.SpectrumLoaderBase" class="doc doc-heading">
+<code class="doc-symbol doc-symbol-heading doc-symbol-class"></code>          <span class="doc doc-object-name doc-class-name">SpectrumLoaderBase</span>
+
+
+<a href="#nplinker.metabolomics.abc.SpectrumLoaderBase" class="headerlink" title="Permanent link">&para;</a></h3>
+
+
+  <div class="doc doc-contents ">
+          <p class="doc doc-class-bases">
+            Bases: <code><a class="autorefs autorefs-external" title="abc.ABC" href="https://docs.python.org/3/library/abc.html#abc.ABC">ABC</a></code></p>
+
+
+
+  
+
+  <div class="doc doc-children">
+
+
+
+
+
+
+
+<div class="doc doc-object doc-attribute">
+
+
+
+<h4 id="nplinker.metabolomics.abc.SpectrumLoaderBase.spectra" class="doc doc-heading">
+<code class="doc-symbol doc-symbol-heading doc-symbol-attribute"></code>          <span class="doc doc-object-name doc-attribute-name">spectra</span>
+
+  
+  <span class="doc doc-labels">
+      <small class="doc doc-label doc-label-abstractmethod"><code>abstractmethod</code></small>
+      <small class="doc doc-label doc-label-property"><code>property</code></small>
+  </span>
+
+<a href="#nplinker.metabolomics.abc.SpectrumLoaderBase.spectra" class="headerlink" title="Permanent link">&para;</a></h4>
+<div class="language-python doc-signature highlight"><pre><span></span><code><a id="__codelineno-0-1" name="__codelineno-0-1" href="#__codelineno-0-1"></a><span class="n">spectra</span><span class="p">:</span> <span class="n"><a class="autorefs autorefs-external" title="collections.abc.Sequence" href="https://docs.python.org/3/library/collections.abc.html#collections.abc.Sequence">Sequence</a></span><span class="p">[</span><span class="n"><a class="autorefs autorefs-internal" title="nplinker.metabolomics.spectrum.Spectrum" href="../metabolomics/#nplinker.metabolomics.Spectrum">Spectrum</a></span><span class="p">]</span>
+</code></pre></div>
+
+  <div class="doc doc-contents ">
+  </div>
+
+</div>
+
+
+
+
+
+  </div>
+
+  </div>
+
+
+</div>
+
 <div class="doc doc-object doc-class">
 
 
@@ -1488,7 +1692,7 @@ <h4 id="nplinker.metabolomics.abc.MolecularFamilyLoaderBase.get_mfs" class="doc
           </td>
           <td>
             <div class="doc-md-description">
-              <p>Sequence[MolecularFamily]: a list of MolecularFamily objects.</p>
+              <p>A list of MolecularFamily objects.</p>
             </div>
           </td>
         </tr>
@@ -1497,7 +1701,8 @@ <h4 id="nplinker.metabolomics.abc.MolecularFamilyLoaderBase.get_mfs" class="doc
 
           <details class="quote">
             <summary>Source code in <code>src/nplinker/metabolomics/abc.py</code></summary>
-            <div class="language-python highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal"><a href="#__codelineno-0-20">20</a></span>
+            <div class="language-python highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal"><a href="#__codelineno-0-19">19</a></span>
+<span class="normal"><a href="#__codelineno-0-20">20</a></span>
 <span class="normal"><a href="#__codelineno-0-21">21</a></span>
 <span class="normal"><a href="#__codelineno-0-22">22</a></span>
 <span class="normal"><a href="#__codelineno-0-23">23</a></span>
@@ -1507,19 +1712,18 @@ <h4 id="nplinker.metabolomics.abc.MolecularFamilyLoaderBase.get_mfs" class="doc
 <span class="normal"><a href="#__codelineno-0-27">27</a></span>
 <span class="normal"><a href="#__codelineno-0-28">28</a></span>
 <span class="normal"><a href="#__codelineno-0-29">29</a></span>
-<span class="normal"><a href="#__codelineno-0-30">30</a></span>
-<span class="normal"><a href="#__codelineno-0-31">31</a></span></pre></div></td><td class="code"><div><pre><span></span><code><a id="__codelineno-0-20" name="__codelineno-0-20"></a><span class="nd">@abstractmethod</span>
-<a id="__codelineno-0-21" name="__codelineno-0-21"></a><span class="k">def</span> <span class="nf">get_mfs</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">keep_singleton</span><span class="p">:</span> <span class="nb">bool</span><span class="p">)</span> <span class="o">-&gt;</span> <span class="n">Sequence</span><span class="p">[</span><span class="s2">&quot;MolecularFamily&quot;</span><span class="p">]:</span>
-<a id="__codelineno-0-22" name="__codelineno-0-22"></a><span class="w">    </span><span class="sd">&quot;&quot;&quot;Get MolecularFamily objects.</span>
-<a id="__codelineno-0-23" name="__codelineno-0-23"></a>
-<a id="__codelineno-0-24" name="__codelineno-0-24"></a><span class="sd">    Args:</span>
-<a id="__codelineno-0-25" name="__codelineno-0-25"></a><span class="sd">        keep_singleton: True to keep singleton molecular families. A</span>
-<a id="__codelineno-0-26" name="__codelineno-0-26"></a><span class="sd">            singleton molecular family is a molecular family that contains</span>
-<a id="__codelineno-0-27" name="__codelineno-0-27"></a><span class="sd">            only one spectrum.</span>
-<a id="__codelineno-0-28" name="__codelineno-0-28"></a>
-<a id="__codelineno-0-29" name="__codelineno-0-29"></a><span class="sd">    Returns:</span>
-<a id="__codelineno-0-30" name="__codelineno-0-30"></a><span class="sd">        Sequence[MolecularFamily]: a list of MolecularFamily objects.</span>
-<a id="__codelineno-0-31" name="__codelineno-0-31"></a><span class="sd">    &quot;&quot;&quot;</span>
+<span class="normal"><a href="#__codelineno-0-30">30</a></span></pre></div></td><td class="code"><div><pre><span></span><code><a id="__codelineno-0-19" name="__codelineno-0-19"></a><span class="nd">@abstractmethod</span>
+<a id="__codelineno-0-20" name="__codelineno-0-20"></a><span class="k">def</span> <span class="nf">get_mfs</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">keep_singleton</span><span class="p">:</span> <span class="nb">bool</span><span class="p">)</span> <span class="o">-&gt;</span> <span class="n">Sequence</span><span class="p">[</span><span class="s2">&quot;MolecularFamily&quot;</span><span class="p">]:</span>
+<a id="__codelineno-0-21" name="__codelineno-0-21"></a><span class="w">    </span><span class="sd">&quot;&quot;&quot;Get MolecularFamily objects.</span>
+<a id="__codelineno-0-22" name="__codelineno-0-22"></a>
+<a id="__codelineno-0-23" name="__codelineno-0-23"></a><span class="sd">    Args:</span>
+<a id="__codelineno-0-24" name="__codelineno-0-24"></a><span class="sd">        keep_singleton: True to keep singleton molecular families. A</span>
+<a id="__codelineno-0-25" name="__codelineno-0-25"></a><span class="sd">            singleton molecular family is a molecular family that contains</span>
+<a id="__codelineno-0-26" name="__codelineno-0-26"></a><span class="sd">            only one spectrum.</span>
+<a id="__codelineno-0-27" name="__codelineno-0-27"></a>
+<a id="__codelineno-0-28" name="__codelineno-0-28"></a><span class="sd">    Returns:</span>
+<a id="__codelineno-0-29" name="__codelineno-0-29"></a><span class="sd">        A list of MolecularFamily objects.</span>
+<a id="__codelineno-0-30" name="__codelineno-0-30"></a><span class="sd">    &quot;&quot;&quot;</span>
 </code></pre></div></td></tr></table></div>
           </details>
   </div>
@@ -1528,6 +1732,126 @@ <h4 id="nplinker.metabolomics.abc.MolecularFamilyLoaderBase.get_mfs" class="doc
 
 
 
+  </div>
+
+  </div>
+
+
+</div>
+
+<div class="doc doc-object doc-class">
+
+
+
+<h3 id="nplinker.metabolomics.abc.FileMappingLoaderBase" class="doc doc-heading">
+<code class="doc-symbol doc-symbol-heading doc-symbol-class"></code>          <span class="doc doc-object-name doc-class-name">FileMappingLoaderBase</span>
+
+
+<a href="#nplinker.metabolomics.abc.FileMappingLoaderBase" class="headerlink" title="Permanent link">&para;</a></h3>
+
+
+  <div class="doc doc-contents ">
+          <p class="doc doc-class-bases">
+            Bases: <code><a class="autorefs autorefs-external" title="abc.ABC" href="https://docs.python.org/3/library/abc.html#abc.ABC">ABC</a></code></p>
+
+
+
+  
+
+  <div class="doc doc-children">
+
+
+
+
+
+
+
+<div class="doc doc-object doc-attribute">
+
+
+
+<h4 id="nplinker.metabolomics.abc.FileMappingLoaderBase.mappings" class="doc doc-heading">
+<code class="doc-symbol doc-symbol-heading doc-symbol-attribute"></code>          <span class="doc doc-object-name doc-attribute-name">mappings</span>
+
+  
+  <span class="doc doc-labels">
+      <small class="doc doc-label doc-label-abstractmethod"><code>abstractmethod</code></small>
+      <small class="doc doc-label doc-label-property"><code>property</code></small>
+  </span>
+
+<a href="#nplinker.metabolomics.abc.FileMappingLoaderBase.mappings" class="headerlink" title="Permanent link">&para;</a></h4>
+<div class="language-python doc-signature highlight"><pre><span></span><code><a id="__codelineno-0-1" name="__codelineno-0-1" href="#__codelineno-0-1"></a><span class="n">mappings</span><span class="p">:</span> <span class="n"><a class="autorefs autorefs-external" href="https://docs.python.org/3/library/stdtypes.html#dict">dict</a></span><span class="p">[</span><span class="n"><a class="autorefs autorefs-external" href="https://docs.python.org/3/library/stdtypes.html#str">str</a></span><span class="p">,</span> <span class="n"><a class="autorefs autorefs-external" href="https://docs.python.org/3/library/stdtypes.html#list">list</a></span><span class="p">[</span><span class="n"><a class="autorefs autorefs-external" href="https://docs.python.org/3/library/stdtypes.html#str">str</a></span><span class="p">]]</span>
+</code></pre></div>
+
+  <div class="doc doc-contents ">
+  </div>
+
+</div>
+
+
+
+
+
+  </div>
+
+  </div>
+
+
+</div>
+
+<div class="doc doc-object doc-class">
+
+
+
+<h3 id="nplinker.metabolomics.abc.AnnotationLoaderBase" class="doc doc-heading">
+<code class="doc-symbol doc-symbol-heading doc-symbol-class"></code>          <span class="doc doc-object-name doc-class-name">AnnotationLoaderBase</span>
+
+
+<a href="#nplinker.metabolomics.abc.AnnotationLoaderBase" class="headerlink" title="Permanent link">&para;</a></h3>
+
+
+  <div class="doc doc-contents ">
+          <p class="doc doc-class-bases">
+            Bases: <code><a class="autorefs autorefs-external" title="abc.ABC" href="https://docs.python.org/3/library/abc.html#abc.ABC">ABC</a></code></p>
+
+
+
+  
+
+  <div class="doc doc-children">
+
+
+
+
+
+
+
+<div class="doc doc-object doc-attribute">
+
+
+
+<h4 id="nplinker.metabolomics.abc.AnnotationLoaderBase.annotations" class="doc doc-heading">
+<code class="doc-symbol doc-symbol-heading doc-symbol-attribute"></code>          <span class="doc doc-object-name doc-attribute-name">annotations</span>
+
+  
+  <span class="doc doc-labels">
+      <small class="doc doc-label doc-label-abstractmethod"><code>abstractmethod</code></small>
+      <small class="doc doc-label doc-label-property"><code>property</code></small>
+  </span>
+
+<a href="#nplinker.metabolomics.abc.AnnotationLoaderBase.annotations" class="headerlink" title="Permanent link">&para;</a></h4>
+<div class="language-python doc-signature highlight"><pre><span></span><code><a id="__codelineno-0-1" name="__codelineno-0-1" href="#__codelineno-0-1"></a><span class="n">annotations</span><span class="p">:</span> <span class="n"><a class="autorefs autorefs-external" href="https://docs.python.org/3/library/stdtypes.html#dict">dict</a></span><span class="p">[</span><span class="n"><a class="autorefs autorefs-external" href="https://docs.python.org/3/library/stdtypes.html#str">str</a></span><span class="p">,</span> <span class="n"><a class="autorefs autorefs-external" href="https://docs.python.org/3/library/stdtypes.html#dict">dict</a></span><span class="p">]</span>
+</code></pre></div>
+
+  <div class="doc doc-contents ">
+  </div>
+
+</div>
+
+
+
+
+
   </div>
 
   </div>
diff --git a/dev/api/metabolomics_utils/index.html b/dev/api/metabolomics_utils/index.html
index be57a244..d388b273 100644
--- a/dev/api/metabolomics_utils/index.html
+++ b/dev/api/metabolomics_utils/index.html
@@ -1079,6 +1079,15 @@
     <nav class="md-nav" aria-label=" utils">
       <ul class="md-nav__list">
         
+          <li class="md-nav__item">
+  <a href="#nplinker.metabolomics.utils.logger" class="md-nav__link">
+    <span class="md-ellipsis">
+      <code class="doc-symbol doc-symbol-toc doc-symbol-attribute"></code>&nbsp;logger
+    </span>
+  </a>
+  
+</li>
+        
           <li class="md-nav__item">
   <a href="#nplinker.metabolomics.utils.add_annotation_to_spectrum" class="md-nav__link">
     <span class="md-ellipsis">
@@ -1347,6 +1356,15 @@
     <nav class="md-nav" aria-label=" utils">
       <ul class="md-nav__list">
         
+          <li class="md-nav__item">
+  <a href="#nplinker.metabolomics.utils.logger" class="md-nav__link">
+    <span class="md-ellipsis">
+      <code class="doc-symbol doc-symbol-toc doc-symbol-attribute"></code>&nbsp;logger
+    </span>
+  </a>
+  
+</li>
+        
           <li class="md-nav__item">
   <a href="#nplinker.metabolomics.utils.add_annotation_to_spectrum" class="md-nav__link">
     <span class="md-ellipsis">
@@ -1448,6 +1466,27 @@ <h2 id="nplinker.metabolomics.utils" class="doc doc-heading">
 
 
 
+<div class="doc doc-object doc-attribute">
+
+
+
+<h3 id="nplinker.metabolomics.utils.logger" class="doc doc-heading">
+<code class="doc-symbol doc-symbol-heading doc-symbol-attribute"></code>          <span class="doc doc-object-name doc-attribute-name">logger</span>
+
+  
+  <span class="doc doc-labels">
+      <small class="doc doc-label doc-label-module-attribute"><code>module-attribute</code></small>
+  </span>
+
+<a href="#nplinker.metabolomics.utils.logger" class="headerlink" title="Permanent link">&para;</a></h3>
+<div class="language-python doc-signature highlight"><pre><span></span><code><a id="__codelineno-0-1" name="__codelineno-0-1" href="#__codelineno-0-1"></a><span class="n">logger</span> <span class="o">=</span> <span class="n"><span title="nplinker.logconfig.LogConfig.getLogger">getLogger</span></span><span class="p">(</span><span class="n"><a class="autorefs autorefs-external" href="https://docs.python.org/3/reference/import.html#name__">__name__</a></span><span class="p">)</span>
+</code></pre></div>
+
+  <div class="doc doc-contents ">
+  </div>
+
+</div>
+
 
 
 
@@ -1628,10 +1667,12 @@ <h3 id="nplinker.metabolomics.utils.add_strains_to_spectrum" class="doc doc-head
           </td>
           <td>
             <div class="doc-md-description">
-              <p>A tuple of two lists of Spectrum
-objects. The first list contains Spectrum objects that are updated
-with Strain objects; the second list contains Spectrum objects that
-are not updated with Strain objects becuase no Strain objects are found.</p>
+              <p>A tuple of two lists of Spectrum objects,</p>
+<ul>
+<li>the first list contains Spectrum objects that are updated with Strain objects;</li>
+<li>the second list contains Spectrum objects that are not updated with Strain objects
+becuase no Strain objects are found.</li>
+</ul>
             </div>
           </td>
         </tr>
@@ -1675,7 +1716,8 @@ <h3 id="nplinker.metabolomics.utils.add_strains_to_spectrum" class="doc doc-head
 <span class="normal"><a href="#__codelineno-0-64">64</a></span>
 <span class="normal"><a href="#__codelineno-0-65">65</a></span>
 <span class="normal"><a href="#__codelineno-0-66">66</a></span>
-<span class="normal"><a href="#__codelineno-0-67">67</a></span></pre></div></td><td class="code"><div><pre><span></span><code><a id="__codelineno-0-32" name="__codelineno-0-32"></a><span class="k">def</span> <span class="nf">add_strains_to_spectrum</span><span class="p">(</span>
+<span class="normal"><a href="#__codelineno-0-67">67</a></span>
+<span class="normal"><a href="#__codelineno-0-68">68</a></span></pre></div></td><td class="code"><div><pre><span></span><code><a id="__codelineno-0-32" name="__codelineno-0-32"></a><span class="k">def</span> <span class="nf">add_strains_to_spectrum</span><span class="p">(</span>
 <a id="__codelineno-0-33" name="__codelineno-0-33"></a>    <span class="n">strains</span><span class="p">:</span> <span class="n">StrainCollection</span><span class="p">,</span> <span class="n">spectra</span><span class="p">:</span> <span class="nb">list</span><span class="p">[</span><span class="n">Spectrum</span><span class="p">]</span>
 <a id="__codelineno-0-34" name="__codelineno-0-34"></a><span class="p">)</span> <span class="o">-&gt;</span> <span class="nb">tuple</span><span class="p">[</span><span class="nb">list</span><span class="p">[</span><span class="n">Spectrum</span><span class="p">],</span> <span class="nb">list</span><span class="p">[</span><span class="n">Spectrum</span><span class="p">]]:</span>
 <a id="__codelineno-0-35" name="__codelineno-0-35"></a><span class="w">    </span><span class="sd">&quot;&quot;&quot;Add `Strain` objects to the `Spectrum.strains` attribute for input spectra.</span>
@@ -1687,30 +1729,31 @@ <h3 id="nplinker.metabolomics.utils.add_strains_to_spectrum" class="doc doc-head
 <a id="__codelineno-0-41" name="__codelineno-0-41"></a><span class="sd">        spectra: A list of Spectrum objects.</span>
 <a id="__codelineno-0-42" name="__codelineno-0-42"></a>
 <a id="__codelineno-0-43" name="__codelineno-0-43"></a><span class="sd">    Returns:</span>
-<a id="__codelineno-0-44" name="__codelineno-0-44"></a><span class="sd">        A tuple of two lists of Spectrum</span>
-<a id="__codelineno-0-45" name="__codelineno-0-45"></a><span class="sd">            objects. The first list contains Spectrum objects that are updated</span>
-<a id="__codelineno-0-46" name="__codelineno-0-46"></a><span class="sd">            with Strain objects; the second list contains Spectrum objects that</span>
-<a id="__codelineno-0-47" name="__codelineno-0-47"></a><span class="sd">            are not updated with Strain objects becuase no Strain objects are found.</span>
-<a id="__codelineno-0-48" name="__codelineno-0-48"></a><span class="sd">    &quot;&quot;&quot;</span>
-<a id="__codelineno-0-49" name="__codelineno-0-49"></a>    <span class="n">spectra_with_strains</span> <span class="o">=</span> <span class="p">[]</span>
-<a id="__codelineno-0-50" name="__codelineno-0-50"></a>    <span class="n">spectra_without_strains</span> <span class="o">=</span> <span class="p">[]</span>
-<a id="__codelineno-0-51" name="__codelineno-0-51"></a>    <span class="k">for</span> <span class="n">spec</span> <span class="ow">in</span> <span class="n">spectra</span><span class="p">:</span>
-<a id="__codelineno-0-52" name="__codelineno-0-52"></a>        <span class="k">try</span><span class="p">:</span>
-<a id="__codelineno-0-53" name="__codelineno-0-53"></a>            <span class="n">strain_list</span> <span class="o">=</span> <span class="n">strains</span><span class="o">.</span><span class="n">lookup</span><span class="p">(</span><span class="n">spec</span><span class="o">.</span><span class="n">spectrum_id</span><span class="p">)</span>
-<a id="__codelineno-0-54" name="__codelineno-0-54"></a>        <span class="k">except</span> <span class="ne">ValueError</span><span class="p">:</span>
-<a id="__codelineno-0-55" name="__codelineno-0-55"></a>            <span class="n">spectra_without_strains</span><span class="o">.</span><span class="n">append</span><span class="p">(</span><span class="n">spec</span><span class="p">)</span>
-<a id="__codelineno-0-56" name="__codelineno-0-56"></a>            <span class="k">continue</span>
-<a id="__codelineno-0-57" name="__codelineno-0-57"></a>
-<a id="__codelineno-0-58" name="__codelineno-0-58"></a>        <span class="k">for</span> <span class="n">strain</span> <span class="ow">in</span> <span class="n">strain_list</span><span class="p">:</span>
-<a id="__codelineno-0-59" name="__codelineno-0-59"></a>            <span class="n">spec</span><span class="o">.</span><span class="n">strains</span><span class="o">.</span><span class="n">add</span><span class="p">(</span><span class="n">strain</span><span class="p">)</span>
-<a id="__codelineno-0-60" name="__codelineno-0-60"></a>        <span class="n">spectra_with_strains</span><span class="o">.</span><span class="n">append</span><span class="p">(</span><span class="n">spec</span><span class="p">)</span>
-<a id="__codelineno-0-61" name="__codelineno-0-61"></a>
-<a id="__codelineno-0-62" name="__codelineno-0-62"></a>    <span class="n">logger</span><span class="o">.</span><span class="n">info</span><span class="p">(</span>
-<a id="__codelineno-0-63" name="__codelineno-0-63"></a>        <span class="sa">f</span><span class="s2">&quot;</span><span class="si">{</span><span class="nb">len</span><span class="p">(</span><span class="n">spectra_with_strains</span><span class="p">)</span><span class="si">}</span><span class="s2"> Spectrum objects updated with Strain objects.</span><span class="se">\n</span><span class="s2">&quot;</span>
-<a id="__codelineno-0-64" name="__codelineno-0-64"></a>        <span class="sa">f</span><span class="s2">&quot;</span><span class="si">{</span><span class="nb">len</span><span class="p">(</span><span class="n">spectra_without_strains</span><span class="p">)</span><span class="si">}</span><span class="s2"> Spectrum objects not updated with Strain objects.&quot;</span>
-<a id="__codelineno-0-65" name="__codelineno-0-65"></a>    <span class="p">)</span>
-<a id="__codelineno-0-66" name="__codelineno-0-66"></a>
-<a id="__codelineno-0-67" name="__codelineno-0-67"></a>    <span class="k">return</span> <span class="n">spectra_with_strains</span><span class="p">,</span> <span class="n">spectra_without_strains</span>
+<a id="__codelineno-0-44" name="__codelineno-0-44"></a><span class="sd">        A tuple of two lists of Spectrum objects,</span>
+<a id="__codelineno-0-45" name="__codelineno-0-45"></a>
+<a id="__codelineno-0-46" name="__codelineno-0-46"></a><span class="sd">            - the first list contains Spectrum objects that are updated with Strain objects;</span>
+<a id="__codelineno-0-47" name="__codelineno-0-47"></a><span class="sd">            - the second list contains Spectrum objects that are not updated with Strain objects</span>
+<a id="__codelineno-0-48" name="__codelineno-0-48"></a><span class="sd">            becuase no Strain objects are found.</span>
+<a id="__codelineno-0-49" name="__codelineno-0-49"></a><span class="sd">    &quot;&quot;&quot;</span>
+<a id="__codelineno-0-50" name="__codelineno-0-50"></a>    <span class="n">spectra_with_strains</span> <span class="o">=</span> <span class="p">[]</span>
+<a id="__codelineno-0-51" name="__codelineno-0-51"></a>    <span class="n">spectra_without_strains</span> <span class="o">=</span> <span class="p">[]</span>
+<a id="__codelineno-0-52" name="__codelineno-0-52"></a>    <span class="k">for</span> <span class="n">spec</span> <span class="ow">in</span> <span class="n">spectra</span><span class="p">:</span>
+<a id="__codelineno-0-53" name="__codelineno-0-53"></a>        <span class="k">try</span><span class="p">:</span>
+<a id="__codelineno-0-54" name="__codelineno-0-54"></a>            <span class="n">strain_list</span> <span class="o">=</span> <span class="n">strains</span><span class="o">.</span><span class="n">lookup</span><span class="p">(</span><span class="n">spec</span><span class="o">.</span><span class="n">spectrum_id</span><span class="p">)</span>
+<a id="__codelineno-0-55" name="__codelineno-0-55"></a>        <span class="k">except</span> <span class="ne">ValueError</span><span class="p">:</span>
+<a id="__codelineno-0-56" name="__codelineno-0-56"></a>            <span class="n">spectra_without_strains</span><span class="o">.</span><span class="n">append</span><span class="p">(</span><span class="n">spec</span><span class="p">)</span>
+<a id="__codelineno-0-57" name="__codelineno-0-57"></a>            <span class="k">continue</span>
+<a id="__codelineno-0-58" name="__codelineno-0-58"></a>
+<a id="__codelineno-0-59" name="__codelineno-0-59"></a>        <span class="k">for</span> <span class="n">strain</span> <span class="ow">in</span> <span class="n">strain_list</span><span class="p">:</span>
+<a id="__codelineno-0-60" name="__codelineno-0-60"></a>            <span class="n">spec</span><span class="o">.</span><span class="n">strains</span><span class="o">.</span><span class="n">add</span><span class="p">(</span><span class="n">strain</span><span class="p">)</span>
+<a id="__codelineno-0-61" name="__codelineno-0-61"></a>        <span class="n">spectra_with_strains</span><span class="o">.</span><span class="n">append</span><span class="p">(</span><span class="n">spec</span><span class="p">)</span>
+<a id="__codelineno-0-62" name="__codelineno-0-62"></a>
+<a id="__codelineno-0-63" name="__codelineno-0-63"></a>    <span class="n">logger</span><span class="o">.</span><span class="n">info</span><span class="p">(</span>
+<a id="__codelineno-0-64" name="__codelineno-0-64"></a>        <span class="sa">f</span><span class="s2">&quot;</span><span class="si">{</span><span class="nb">len</span><span class="p">(</span><span class="n">spectra_with_strains</span><span class="p">)</span><span class="si">}</span><span class="s2"> Spectrum objects updated with Strain objects.</span><span class="se">\n</span><span class="s2">&quot;</span>
+<a id="__codelineno-0-65" name="__codelineno-0-65"></a>        <span class="sa">f</span><span class="s2">&quot;</span><span class="si">{</span><span class="nb">len</span><span class="p">(</span><span class="n">spectra_without_strains</span><span class="p">)</span><span class="si">}</span><span class="s2"> Spectrum objects not updated with Strain objects.&quot;</span>
+<a id="__codelineno-0-66" name="__codelineno-0-66"></a>    <span class="p">)</span>
+<a id="__codelineno-0-67" name="__codelineno-0-67"></a>
+<a id="__codelineno-0-68" name="__codelineno-0-68"></a>    <span class="k">return</span> <span class="n">spectra_with_strains</span><span class="p">,</span> <span class="n">spectra_without_strains</span>
 </code></pre></div></td></tr></table></div>
           </details>
   </div>
@@ -1790,22 +1833,25 @@ <h3 id="nplinker.metabolomics.utils.add_spectrum_to_mf" class="doc doc-heading">
   <table>
     <thead>
       <tr>
-<th>Name</th>        <th>Type</th>
+        <th>Type</th>
         <th>Description</th>
       </tr>
     </thead>
     <tbody>
         <tr>
-<td><code>tuple</code></td>          <td>
+          <td>
                 <code><a class="autorefs autorefs-external" href="https://docs.python.org/3/library/stdtypes.html#tuple">tuple</a>[<a class="autorefs autorefs-external" href="https://docs.python.org/3/library/stdtypes.html#list">list</a>[<a class="autorefs autorefs-internal" title="nplinker.metabolomics.molecular_family.MolecularFamily" href="../metabolomics/#nplinker.metabolomics.MolecularFamily">MolecularFamily</a>], <a class="autorefs autorefs-external" href="https://docs.python.org/3/library/stdtypes.html#list">list</a>[<a class="autorefs autorefs-internal" title="nplinker.metabolomics.molecular_family.MolecularFamily" href="../metabolomics/#nplinker.metabolomics.MolecularFamily">MolecularFamily</a>], <a class="autorefs autorefs-external" href="https://docs.python.org/3/library/stdtypes.html#dict">dict</a>[<a class="autorefs autorefs-internal" title="nplinker.metabolomics.molecular_family.MolecularFamily" href="../metabolomics/#nplinker.metabolomics.MolecularFamily">MolecularFamily</a>, <a class="autorefs autorefs-external" href="https://docs.python.org/3/library/stdtypes.html#set">set</a>[<a class="autorefs autorefs-external" href="https://docs.python.org/3/library/stdtypes.html#str">str</a>]]]</code>
           </td>
           <td>
             <div class="doc-md-description">
-              <p>The first list contains MolecularFamily objects that are updated with Spectrum objects.
-The second list contains MolecularFamily objects that are not updated with Spectrum
-objects (all Spectrum objects are missing).
-The dictionary contains MolecularFamily objects as keys and a set of ids of missing
-Spectrum objects as values.</p>
+              <p>A tuple of three elements,</p>
+<ul>
+<li>the first list contains MolecularFamily objects that are updated with Spectrum objects</li>
+<li>the second list contains MolecularFamily objects that are not updated with Spectrum
+objects (all Spectrum objects are missing).</li>
+<li>the third is a dictionary containing MolecularFamily objects as keys and a set of ids
+of missing Spectrum objects as values.</li>
+</ul>
             </div>
           </td>
         </tr>
@@ -1814,8 +1860,7 @@ <h3 id="nplinker.metabolomics.utils.add_spectrum_to_mf" class="doc doc-heading">
 
           <details class="quote">
             <summary>Source code in <code>src/nplinker/metabolomics/utils.py</code></summary>
-            <div class="language-python highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal"><a href="#__codelineno-0-70"> 70</a></span>
-<span class="normal"><a href="#__codelineno-0-71"> 71</a></span>
+            <div class="language-python highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal"><a href="#__codelineno-0-71"> 71</a></span>
 <span class="normal"><a href="#__codelineno-0-72"> 72</a></span>
 <span class="normal"><a href="#__codelineno-0-73"> 73</a></span>
 <span class="normal"><a href="#__codelineno-0-74"> 74</a></span>
@@ -1865,58 +1910,61 @@ <h3 id="nplinker.metabolomics.utils.add_spectrum_to_mf" class="doc doc-heading">
 <span class="normal"><a href="#__codelineno-0-118">118</a></span>
 <span class="normal"><a href="#__codelineno-0-119">119</a></span>
 <span class="normal"><a href="#__codelineno-0-120">120</a></span>
-<span class="normal"><a href="#__codelineno-0-121">121</a></span></pre></div></td><td class="code"><div><pre><span></span><code><a id="__codelineno-0-70" name="__codelineno-0-70"></a><span class="k">def</span> <span class="nf">add_spectrum_to_mf</span><span class="p">(</span>
-<a id="__codelineno-0-71" name="__codelineno-0-71"></a>    <span class="n">spectra</span><span class="p">:</span> <span class="nb">list</span><span class="p">[</span><span class="n">Spectrum</span><span class="p">],</span> <span class="n">mfs</span><span class="p">:</span> <span class="nb">list</span><span class="p">[</span><span class="n">MolecularFamily</span><span class="p">]</span>
-<a id="__codelineno-0-72" name="__codelineno-0-72"></a><span class="p">)</span> <span class="o">-&gt;</span> <span class="nb">tuple</span><span class="p">[</span><span class="nb">list</span><span class="p">[</span><span class="n">MolecularFamily</span><span class="p">],</span> <span class="nb">list</span><span class="p">[</span><span class="n">MolecularFamily</span><span class="p">],</span> <span class="nb">dict</span><span class="p">[</span><span class="n">MolecularFamily</span><span class="p">,</span> <span class="nb">set</span><span class="p">[</span><span class="nb">str</span><span class="p">]]]:</span>
-<a id="__codelineno-0-73" name="__codelineno-0-73"></a><span class="w">    </span><span class="sd">&quot;&quot;&quot;Add Spectrum objects to MolecularFamily objects.</span>
-<a id="__codelineno-0-74" name="__codelineno-0-74"></a>
-<a id="__codelineno-0-75" name="__codelineno-0-75"></a><span class="sd">    The attribute of `spectra_ids` of MolecularFamily object contains the ids of Spectrum objects.</span>
-<a id="__codelineno-0-76" name="__codelineno-0-76"></a><span class="sd">    These ids are used to find Spectrum objects from the input `spectra` list. The found Spectrum</span>
-<a id="__codelineno-0-77" name="__codelineno-0-77"></a><span class="sd">    objects are added to the `spectra` attribute of MolecularFamily object. It is possible that</span>
-<a id="__codelineno-0-78" name="__codelineno-0-78"></a><span class="sd">    some spectrum ids are not found in the input `spectra` list, and so their Spectrum objects are</span>
-<a id="__codelineno-0-79" name="__codelineno-0-79"></a><span class="sd">    missing in the MolecularFamily object.</span>
-<a id="__codelineno-0-80" name="__codelineno-0-80"></a>
-<a id="__codelineno-0-81" name="__codelineno-0-81"></a><span class="sd">    Note that the input `mfs` list is changed in place.</span>
-<a id="__codelineno-0-82" name="__codelineno-0-82"></a>
-<a id="__codelineno-0-83" name="__codelineno-0-83"></a><span class="sd">    Args:</span>
-<a id="__codelineno-0-84" name="__codelineno-0-84"></a><span class="sd">        spectra: A list of Spectrum objects.</span>
-<a id="__codelineno-0-85" name="__codelineno-0-85"></a><span class="sd">        mfs: A list of MolecularFamily objects.</span>
-<a id="__codelineno-0-86" name="__codelineno-0-86"></a>
-<a id="__codelineno-0-87" name="__codelineno-0-87"></a><span class="sd">    Returns:</span>
-<a id="__codelineno-0-88" name="__codelineno-0-88"></a><span class="sd">        tuple:</span>
-<a id="__codelineno-0-89" name="__codelineno-0-89"></a><span class="sd">            The first list contains MolecularFamily objects that are updated with Spectrum objects.</span>
-<a id="__codelineno-0-90" name="__codelineno-0-90"></a><span class="sd">            The second list contains MolecularFamily objects that are not updated with Spectrum</span>
-<a id="__codelineno-0-91" name="__codelineno-0-91"></a><span class="sd">            objects (all Spectrum objects are missing).</span>
-<a id="__codelineno-0-92" name="__codelineno-0-92"></a><span class="sd">            The dictionary contains MolecularFamily objects as keys and a set of ids of missing</span>
-<a id="__codelineno-0-93" name="__codelineno-0-93"></a><span class="sd">            Spectrum objects as values.</span>
-<a id="__codelineno-0-94" name="__codelineno-0-94"></a><span class="sd">    &quot;&quot;&quot;</span>
-<a id="__codelineno-0-95" name="__codelineno-0-95"></a>    <span class="n">spec_dict</span> <span class="o">=</span> <span class="p">{</span><span class="n">spec</span><span class="o">.</span><span class="n">spectrum_id</span><span class="p">:</span> <span class="n">spec</span> <span class="k">for</span> <span class="n">spec</span> <span class="ow">in</span> <span class="n">spectra</span><span class="p">}</span>
-<a id="__codelineno-0-96" name="__codelineno-0-96"></a>    <span class="n">mf_with_spec</span> <span class="o">=</span> <span class="p">[]</span>
-<a id="__codelineno-0-97" name="__codelineno-0-97"></a>    <span class="n">mf_without_spec</span> <span class="o">=</span> <span class="p">[]</span>
-<a id="__codelineno-0-98" name="__codelineno-0-98"></a>    <span class="n">mf_missing_spec</span><span class="p">:</span> <span class="nb">dict</span><span class="p">[</span><span class="n">MolecularFamily</span><span class="p">,</span> <span class="nb">set</span><span class="p">[</span><span class="nb">str</span><span class="p">]]</span> <span class="o">=</span> <span class="p">{}</span>
-<a id="__codelineno-0-99" name="__codelineno-0-99"></a>    <span class="k">for</span> <span class="n">mf</span> <span class="ow">in</span> <span class="n">mfs</span><span class="p">:</span>
-<a id="__codelineno-0-100" name="__codelineno-0-100"></a>        <span class="k">for</span> <span class="n">spec_id</span> <span class="ow">in</span> <span class="n">mf</span><span class="o">.</span><span class="n">spectra_ids</span><span class="p">:</span>
-<a id="__codelineno-0-101" name="__codelineno-0-101"></a>            <span class="k">try</span><span class="p">:</span>
-<a id="__codelineno-0-102" name="__codelineno-0-102"></a>                <span class="n">spec</span> <span class="o">=</span> <span class="n">spec_dict</span><span class="p">[</span><span class="n">spec_id</span><span class="p">]</span>
-<a id="__codelineno-0-103" name="__codelineno-0-103"></a>            <span class="k">except</span> <span class="ne">KeyError</span><span class="p">:</span>
-<a id="__codelineno-0-104" name="__codelineno-0-104"></a>                <span class="k">if</span> <span class="n">mf</span> <span class="ow">not</span> <span class="ow">in</span> <span class="n">mf_missing_spec</span><span class="p">:</span>
-<a id="__codelineno-0-105" name="__codelineno-0-105"></a>                    <span class="n">mf_missing_spec</span><span class="p">[</span><span class="n">mf</span><span class="p">]</span> <span class="o">=</span> <span class="p">{</span><span class="n">spec_id</span><span class="p">}</span>
-<a id="__codelineno-0-106" name="__codelineno-0-106"></a>                <span class="k">else</span><span class="p">:</span>
-<a id="__codelineno-0-107" name="__codelineno-0-107"></a>                    <span class="n">mf_missing_spec</span><span class="p">[</span><span class="n">mf</span><span class="p">]</span><span class="o">.</span><span class="n">add</span><span class="p">(</span><span class="n">spec_id</span><span class="p">)</span>
-<a id="__codelineno-0-108" name="__codelineno-0-108"></a>                <span class="k">continue</span>
-<a id="__codelineno-0-109" name="__codelineno-0-109"></a>            <span class="n">mf</span><span class="o">.</span><span class="n">add_spectrum</span><span class="p">(</span><span class="n">spec</span><span class="p">)</span>
-<a id="__codelineno-0-110" name="__codelineno-0-110"></a>
-<a id="__codelineno-0-111" name="__codelineno-0-111"></a>        <span class="k">if</span> <span class="n">mf</span><span class="o">.</span><span class="n">spectra</span><span class="p">:</span>
-<a id="__codelineno-0-112" name="__codelineno-0-112"></a>            <span class="n">mf_with_spec</span><span class="o">.</span><span class="n">append</span><span class="p">(</span><span class="n">mf</span><span class="p">)</span>
-<a id="__codelineno-0-113" name="__codelineno-0-113"></a>        <span class="k">else</span><span class="p">:</span>
-<a id="__codelineno-0-114" name="__codelineno-0-114"></a>            <span class="n">mf_without_spec</span><span class="o">.</span><span class="n">append</span><span class="p">(</span><span class="n">mf</span><span class="p">)</span>
-<a id="__codelineno-0-115" name="__codelineno-0-115"></a>
-<a id="__codelineno-0-116" name="__codelineno-0-116"></a>    <span class="n">logger</span><span class="o">.</span><span class="n">info</span><span class="p">(</span>
-<a id="__codelineno-0-117" name="__codelineno-0-117"></a>        <span class="sa">f</span><span class="s2">&quot;</span><span class="si">{</span><span class="nb">len</span><span class="p">(</span><span class="n">mf_with_spec</span><span class="p">)</span><span class="si">}</span><span class="s2"> MolecularFamily objects updated with Spectrum objects.</span><span class="se">\n</span><span class="s2">&quot;</span>
-<a id="__codelineno-0-118" name="__codelineno-0-118"></a>        <span class="sa">f</span><span class="s2">&quot;</span><span class="si">{</span><span class="nb">len</span><span class="p">(</span><span class="n">mf_without_spec</span><span class="p">)</span><span class="si">}</span><span class="s2"> MolecularFamily objects not updated with Spectrum objects.</span><span class="se">\n</span><span class="s2">&quot;</span>
-<a id="__codelineno-0-119" name="__codelineno-0-119"></a>        <span class="sa">f</span><span class="s2">&quot;</span><span class="si">{</span><span class="nb">len</span><span class="p">(</span><span class="n">mf_missing_spec</span><span class="p">)</span><span class="si">}</span><span class="s2"> MolecularFamily objects have missing Spectrum objects.&quot;</span>
-<a id="__codelineno-0-120" name="__codelineno-0-120"></a>    <span class="p">)</span>
-<a id="__codelineno-0-121" name="__codelineno-0-121"></a>    <span class="k">return</span> <span class="n">mf_with_spec</span><span class="p">,</span> <span class="n">mf_without_spec</span><span class="p">,</span> <span class="n">mf_missing_spec</span>
+<span class="normal"><a href="#__codelineno-0-121">121</a></span>
+<span class="normal"><a href="#__codelineno-0-122">122</a></span>
+<span class="normal"><a href="#__codelineno-0-123">123</a></span></pre></div></td><td class="code"><div><pre><span></span><code><a id="__codelineno-0-71" name="__codelineno-0-71"></a><span class="k">def</span> <span class="nf">add_spectrum_to_mf</span><span class="p">(</span>
+<a id="__codelineno-0-72" name="__codelineno-0-72"></a>    <span class="n">spectra</span><span class="p">:</span> <span class="nb">list</span><span class="p">[</span><span class="n">Spectrum</span><span class="p">],</span> <span class="n">mfs</span><span class="p">:</span> <span class="nb">list</span><span class="p">[</span><span class="n">MolecularFamily</span><span class="p">]</span>
+<a id="__codelineno-0-73" name="__codelineno-0-73"></a><span class="p">)</span> <span class="o">-&gt;</span> <span class="nb">tuple</span><span class="p">[</span><span class="nb">list</span><span class="p">[</span><span class="n">MolecularFamily</span><span class="p">],</span> <span class="nb">list</span><span class="p">[</span><span class="n">MolecularFamily</span><span class="p">],</span> <span class="nb">dict</span><span class="p">[</span><span class="n">MolecularFamily</span><span class="p">,</span> <span class="nb">set</span><span class="p">[</span><span class="nb">str</span><span class="p">]]]:</span>
+<a id="__codelineno-0-74" name="__codelineno-0-74"></a><span class="w">    </span><span class="sd">&quot;&quot;&quot;Add Spectrum objects to MolecularFamily objects.</span>
+<a id="__codelineno-0-75" name="__codelineno-0-75"></a>
+<a id="__codelineno-0-76" name="__codelineno-0-76"></a><span class="sd">    The attribute of `spectra_ids` of MolecularFamily object contains the ids of Spectrum objects.</span>
+<a id="__codelineno-0-77" name="__codelineno-0-77"></a><span class="sd">    These ids are used to find Spectrum objects from the input `spectra` list. The found Spectrum</span>
+<a id="__codelineno-0-78" name="__codelineno-0-78"></a><span class="sd">    objects are added to the `spectra` attribute of MolecularFamily object. It is possible that</span>
+<a id="__codelineno-0-79" name="__codelineno-0-79"></a><span class="sd">    some spectrum ids are not found in the input `spectra` list, and so their Spectrum objects are</span>
+<a id="__codelineno-0-80" name="__codelineno-0-80"></a><span class="sd">    missing in the MolecularFamily object.</span>
+<a id="__codelineno-0-81" name="__codelineno-0-81"></a>
+<a id="__codelineno-0-82" name="__codelineno-0-82"></a><span class="sd">    Note that the input `mfs` list is changed in place.</span>
+<a id="__codelineno-0-83" name="__codelineno-0-83"></a>
+<a id="__codelineno-0-84" name="__codelineno-0-84"></a><span class="sd">    Args:</span>
+<a id="__codelineno-0-85" name="__codelineno-0-85"></a><span class="sd">        spectra: A list of Spectrum objects.</span>
+<a id="__codelineno-0-86" name="__codelineno-0-86"></a><span class="sd">        mfs: A list of MolecularFamily objects.</span>
+<a id="__codelineno-0-87" name="__codelineno-0-87"></a>
+<a id="__codelineno-0-88" name="__codelineno-0-88"></a><span class="sd">    Returns:</span>
+<a id="__codelineno-0-89" name="__codelineno-0-89"></a><span class="sd">        A tuple of three elements,</span>
+<a id="__codelineno-0-90" name="__codelineno-0-90"></a>
+<a id="__codelineno-0-91" name="__codelineno-0-91"></a><span class="sd">            - the first list contains MolecularFamily objects that are updated with Spectrum objects</span>
+<a id="__codelineno-0-92" name="__codelineno-0-92"></a><span class="sd">            - the second list contains MolecularFamily objects that are not updated with Spectrum</span>
+<a id="__codelineno-0-93" name="__codelineno-0-93"></a><span class="sd">            objects (all Spectrum objects are missing).</span>
+<a id="__codelineno-0-94" name="__codelineno-0-94"></a><span class="sd">            - the third is a dictionary containing MolecularFamily objects as keys and a set of ids</span>
+<a id="__codelineno-0-95" name="__codelineno-0-95"></a><span class="sd">            of missing Spectrum objects as values.</span>
+<a id="__codelineno-0-96" name="__codelineno-0-96"></a><span class="sd">    &quot;&quot;&quot;</span>
+<a id="__codelineno-0-97" name="__codelineno-0-97"></a>    <span class="n">spec_dict</span> <span class="o">=</span> <span class="p">{</span><span class="n">spec</span><span class="o">.</span><span class="n">spectrum_id</span><span class="p">:</span> <span class="n">spec</span> <span class="k">for</span> <span class="n">spec</span> <span class="ow">in</span> <span class="n">spectra</span><span class="p">}</span>
+<a id="__codelineno-0-98" name="__codelineno-0-98"></a>    <span class="n">mf_with_spec</span> <span class="o">=</span> <span class="p">[]</span>
+<a id="__codelineno-0-99" name="__codelineno-0-99"></a>    <span class="n">mf_without_spec</span> <span class="o">=</span> <span class="p">[]</span>
+<a id="__codelineno-0-100" name="__codelineno-0-100"></a>    <span class="n">mf_missing_spec</span><span class="p">:</span> <span class="nb">dict</span><span class="p">[</span><span class="n">MolecularFamily</span><span class="p">,</span> <span class="nb">set</span><span class="p">[</span><span class="nb">str</span><span class="p">]]</span> <span class="o">=</span> <span class="p">{}</span>
+<a id="__codelineno-0-101" name="__codelineno-0-101"></a>    <span class="k">for</span> <span class="n">mf</span> <span class="ow">in</span> <span class="n">mfs</span><span class="p">:</span>
+<a id="__codelineno-0-102" name="__codelineno-0-102"></a>        <span class="k">for</span> <span class="n">spec_id</span> <span class="ow">in</span> <span class="n">mf</span><span class="o">.</span><span class="n">spectra_ids</span><span class="p">:</span>
+<a id="__codelineno-0-103" name="__codelineno-0-103"></a>            <span class="k">try</span><span class="p">:</span>
+<a id="__codelineno-0-104" name="__codelineno-0-104"></a>                <span class="n">spec</span> <span class="o">=</span> <span class="n">spec_dict</span><span class="p">[</span><span class="n">spec_id</span><span class="p">]</span>
+<a id="__codelineno-0-105" name="__codelineno-0-105"></a>            <span class="k">except</span> <span class="ne">KeyError</span><span class="p">:</span>
+<a id="__codelineno-0-106" name="__codelineno-0-106"></a>                <span class="k">if</span> <span class="n">mf</span> <span class="ow">not</span> <span class="ow">in</span> <span class="n">mf_missing_spec</span><span class="p">:</span>
+<a id="__codelineno-0-107" name="__codelineno-0-107"></a>                    <span class="n">mf_missing_spec</span><span class="p">[</span><span class="n">mf</span><span class="p">]</span> <span class="o">=</span> <span class="p">{</span><span class="n">spec_id</span><span class="p">}</span>
+<a id="__codelineno-0-108" name="__codelineno-0-108"></a>                <span class="k">else</span><span class="p">:</span>
+<a id="__codelineno-0-109" name="__codelineno-0-109"></a>                    <span class="n">mf_missing_spec</span><span class="p">[</span><span class="n">mf</span><span class="p">]</span><span class="o">.</span><span class="n">add</span><span class="p">(</span><span class="n">spec_id</span><span class="p">)</span>
+<a id="__codelineno-0-110" name="__codelineno-0-110"></a>                <span class="k">continue</span>
+<a id="__codelineno-0-111" name="__codelineno-0-111"></a>            <span class="n">mf</span><span class="o">.</span><span class="n">add_spectrum</span><span class="p">(</span><span class="n">spec</span><span class="p">)</span>
+<a id="__codelineno-0-112" name="__codelineno-0-112"></a>
+<a id="__codelineno-0-113" name="__codelineno-0-113"></a>        <span class="k">if</span> <span class="n">mf</span><span class="o">.</span><span class="n">spectra</span><span class="p">:</span>
+<a id="__codelineno-0-114" name="__codelineno-0-114"></a>            <span class="n">mf_with_spec</span><span class="o">.</span><span class="n">append</span><span class="p">(</span><span class="n">mf</span><span class="p">)</span>
+<a id="__codelineno-0-115" name="__codelineno-0-115"></a>        <span class="k">else</span><span class="p">:</span>
+<a id="__codelineno-0-116" name="__codelineno-0-116"></a>            <span class="n">mf_without_spec</span><span class="o">.</span><span class="n">append</span><span class="p">(</span><span class="n">mf</span><span class="p">)</span>
+<a id="__codelineno-0-117" name="__codelineno-0-117"></a>
+<a id="__codelineno-0-118" name="__codelineno-0-118"></a>    <span class="n">logger</span><span class="o">.</span><span class="n">info</span><span class="p">(</span>
+<a id="__codelineno-0-119" name="__codelineno-0-119"></a>        <span class="sa">f</span><span class="s2">&quot;</span><span class="si">{</span><span class="nb">len</span><span class="p">(</span><span class="n">mf_with_spec</span><span class="p">)</span><span class="si">}</span><span class="s2"> MolecularFamily objects updated with Spectrum objects.</span><span class="se">\n</span><span class="s2">&quot;</span>
+<a id="__codelineno-0-120" name="__codelineno-0-120"></a>        <span class="sa">f</span><span class="s2">&quot;</span><span class="si">{</span><span class="nb">len</span><span class="p">(</span><span class="n">mf_without_spec</span><span class="p">)</span><span class="si">}</span><span class="s2"> MolecularFamily objects not updated with Spectrum objects.</span><span class="se">\n</span><span class="s2">&quot;</span>
+<a id="__codelineno-0-121" name="__codelineno-0-121"></a>        <span class="sa">f</span><span class="s2">&quot;</span><span class="si">{</span><span class="nb">len</span><span class="p">(</span><span class="n">mf_missing_spec</span><span class="p">)</span><span class="si">}</span><span class="s2"> MolecularFamily objects have missing Spectrum objects.&quot;</span>
+<a id="__codelineno-0-122" name="__codelineno-0-122"></a>    <span class="p">)</span>
+<a id="__codelineno-0-123" name="__codelineno-0-123"></a>    <span class="k">return</span> <span class="n">mf_with_spec</span><span class="p">,</span> <span class="n">mf_without_spec</span><span class="p">,</span> <span class="n">mf_missing_spec</span>
 </code></pre></div></td></tr></table></div>
           </details>
   </div>
@@ -2003,9 +2051,7 @@ <h3 id="nplinker.metabolomics.utils.extract_mappings_strain_id_ms_filename" clas
 </details>
           <details class="quote">
             <summary>Source code in <code>src/nplinker/metabolomics/utils.py</code></summary>
-            <div class="language-python highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal"><a href="#__codelineno-0-128">128</a></span>
-<span class="normal"><a href="#__codelineno-0-129">129</a></span>
-<span class="normal"><a href="#__codelineno-0-130">130</a></span>
+            <div class="language-python highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal"><a href="#__codelineno-0-130">130</a></span>
 <span class="normal"><a href="#__codelineno-0-131">131</a></span>
 <span class="normal"><a href="#__codelineno-0-132">132</a></span>
 <span class="normal"><a href="#__codelineno-0-133">133</a></span>
@@ -2035,39 +2081,41 @@ <h3 id="nplinker.metabolomics.utils.extract_mappings_strain_id_ms_filename" clas
 <span class="normal"><a href="#__codelineno-0-157">157</a></span>
 <span class="normal"><a href="#__codelineno-0-158">158</a></span>
 <span class="normal"><a href="#__codelineno-0-159">159</a></span>
-<span class="normal"><a href="#__codelineno-0-160">160</a></span></pre></div></td><td class="code"><div><pre><span></span><code><a id="__codelineno-0-128" name="__codelineno-0-128"></a><span class="k">def</span> <span class="nf">extract_mappings_strain_id_ms_filename</span><span class="p">(</span>
-<a id="__codelineno-0-129" name="__codelineno-0-129"></a>    <span class="n">podp_project_json_file</span><span class="p">:</span> <span class="nb">str</span> <span class="o">|</span> <span class="n">PathLike</span>
-<a id="__codelineno-0-130" name="__codelineno-0-130"></a><span class="p">)</span> <span class="o">-&gt;</span> <span class="nb">dict</span><span class="p">[</span><span class="nb">str</span><span class="p">,</span> <span class="nb">set</span><span class="p">[</span><span class="nb">str</span><span class="p">]]:</span>
-<a id="__codelineno-0-131" name="__codelineno-0-131"></a><span class="w">    </span><span class="sd">&quot;&quot;&quot;Extract mappings &quot;strain_id &lt;-&gt; MS_filename&quot;.</span>
-<a id="__codelineno-0-132" name="__codelineno-0-132"></a>
-<a id="__codelineno-0-133" name="__codelineno-0-133"></a><span class="sd">    Args:</span>
-<a id="__codelineno-0-134" name="__codelineno-0-134"></a><span class="sd">        podp_project_json_file: The path to the PODP project</span>
-<a id="__codelineno-0-135" name="__codelineno-0-135"></a><span class="sd">            JSON file.</span>
-<a id="__codelineno-0-136" name="__codelineno-0-136"></a>
-<a id="__codelineno-0-137" name="__codelineno-0-137"></a><span class="sd">    Returns:</span>
-<a id="__codelineno-0-138" name="__codelineno-0-138"></a><span class="sd">        Key is strain id and value is a set of MS filenames.</span>
-<a id="__codelineno-0-139" name="__codelineno-0-139"></a>
-<a id="__codelineno-0-140" name="__codelineno-0-140"></a><span class="sd">    Notes:</span>
-<a id="__codelineno-0-141" name="__codelineno-0-141"></a><span class="sd">        The `podp_project_json_file` is the project JSON file downloaded from</span>
-<a id="__codelineno-0-142" name="__codelineno-0-142"></a><span class="sd">        PODP platform. For example, for project MSV000079284, its json file is</span>
-<a id="__codelineno-0-143" name="__codelineno-0-143"></a><span class="sd">        https://pairedomicsdata.bioinformatics.nl/api/projects/4b29ddc3-26d0-40d7-80c5-44fb6631dbf9.4.</span>
-<a id="__codelineno-0-144" name="__codelineno-0-144"></a><span class="sd">    &quot;&quot;&quot;</span>
-<a id="__codelineno-0-145" name="__codelineno-0-145"></a>    <span class="n">mappings_dict</span> <span class="o">=</span> <span class="p">{}</span>
-<a id="__codelineno-0-146" name="__codelineno-0-146"></a>    <span class="k">with</span> <span class="nb">open</span><span class="p">(</span><span class="n">podp_project_json_file</span><span class="p">,</span> <span class="s2">&quot;r&quot;</span><span class="p">)</span> <span class="k">as</span> <span class="n">f</span><span class="p">:</span>
-<a id="__codelineno-0-147" name="__codelineno-0-147"></a>        <span class="n">json_data</span> <span class="o">=</span> <span class="n">json</span><span class="o">.</span><span class="n">load</span><span class="p">(</span><span class="n">f</span><span class="p">)</span>
-<a id="__codelineno-0-148" name="__codelineno-0-148"></a>
-<a id="__codelineno-0-149" name="__codelineno-0-149"></a>    <span class="n">validate_podp_json</span><span class="p">(</span><span class="n">json_data</span><span class="p">)</span>
+<span class="normal"><a href="#__codelineno-0-160">160</a></span>
+<span class="normal"><a href="#__codelineno-0-161">161</a></span>
+<span class="normal"><a href="#__codelineno-0-162">162</a></span></pre></div></td><td class="code"><div><pre><span></span><code><a id="__codelineno-0-130" name="__codelineno-0-130"></a><span class="k">def</span> <span class="nf">extract_mappings_strain_id_ms_filename</span><span class="p">(</span>
+<a id="__codelineno-0-131" name="__codelineno-0-131"></a>    <span class="n">podp_project_json_file</span><span class="p">:</span> <span class="nb">str</span> <span class="o">|</span> <span class="n">PathLike</span><span class="p">,</span>
+<a id="__codelineno-0-132" name="__codelineno-0-132"></a><span class="p">)</span> <span class="o">-&gt;</span> <span class="nb">dict</span><span class="p">[</span><span class="nb">str</span><span class="p">,</span> <span class="nb">set</span><span class="p">[</span><span class="nb">str</span><span class="p">]]:</span>
+<a id="__codelineno-0-133" name="__codelineno-0-133"></a><span class="w">    </span><span class="sd">&quot;&quot;&quot;Extract mappings &quot;strain_id &lt;-&gt; MS_filename&quot;.</span>
+<a id="__codelineno-0-134" name="__codelineno-0-134"></a>
+<a id="__codelineno-0-135" name="__codelineno-0-135"></a><span class="sd">    Args:</span>
+<a id="__codelineno-0-136" name="__codelineno-0-136"></a><span class="sd">        podp_project_json_file: The path to the PODP project</span>
+<a id="__codelineno-0-137" name="__codelineno-0-137"></a><span class="sd">            JSON file.</span>
+<a id="__codelineno-0-138" name="__codelineno-0-138"></a>
+<a id="__codelineno-0-139" name="__codelineno-0-139"></a><span class="sd">    Returns:</span>
+<a id="__codelineno-0-140" name="__codelineno-0-140"></a><span class="sd">        Key is strain id and value is a set of MS filenames.</span>
+<a id="__codelineno-0-141" name="__codelineno-0-141"></a>
+<a id="__codelineno-0-142" name="__codelineno-0-142"></a><span class="sd">    Notes:</span>
+<a id="__codelineno-0-143" name="__codelineno-0-143"></a><span class="sd">        The `podp_project_json_file` is the project JSON file downloaded from</span>
+<a id="__codelineno-0-144" name="__codelineno-0-144"></a><span class="sd">        PODP platform. For example, for project MSV000079284, its json file is</span>
+<a id="__codelineno-0-145" name="__codelineno-0-145"></a><span class="sd">        https://pairedomicsdata.bioinformatics.nl/api/projects/4b29ddc3-26d0-40d7-80c5-44fb6631dbf9.4.</span>
+<a id="__codelineno-0-146" name="__codelineno-0-146"></a><span class="sd">    &quot;&quot;&quot;</span>
+<a id="__codelineno-0-147" name="__codelineno-0-147"></a>    <span class="n">mappings_dict</span><span class="p">:</span> <span class="nb">dict</span><span class="p">[</span><span class="nb">str</span><span class="p">,</span> <span class="nb">set</span><span class="p">[</span><span class="nb">str</span><span class="p">]]</span> <span class="o">=</span> <span class="p">{}</span>
+<a id="__codelineno-0-148" name="__codelineno-0-148"></a>    <span class="k">with</span> <span class="nb">open</span><span class="p">(</span><span class="n">podp_project_json_file</span><span class="p">,</span> <span class="s2">&quot;r&quot;</span><span class="p">)</span> <span class="k">as</span> <span class="n">f</span><span class="p">:</span>
+<a id="__codelineno-0-149" name="__codelineno-0-149"></a>        <span class="n">json_data</span> <span class="o">=</span> <span class="n">json</span><span class="o">.</span><span class="n">load</span><span class="p">(</span><span class="n">f</span><span class="p">)</span>
 <a id="__codelineno-0-150" name="__codelineno-0-150"></a>
-<a id="__codelineno-0-151" name="__codelineno-0-151"></a>    <span class="c1"># Extract mappings strain id &lt;-&gt; metabolomics filename</span>
-<a id="__codelineno-0-152" name="__codelineno-0-152"></a>    <span class="k">for</span> <span class="n">record</span> <span class="ow">in</span> <span class="n">json_data</span><span class="p">[</span><span class="s2">&quot;genome_metabolome_links&quot;</span><span class="p">]:</span>
-<a id="__codelineno-0-153" name="__codelineno-0-153"></a>        <span class="n">strain_id</span> <span class="o">=</span> <span class="n">record</span><span class="p">[</span><span class="s2">&quot;genome_label&quot;</span><span class="p">]</span>
-<a id="__codelineno-0-154" name="__codelineno-0-154"></a>        <span class="c1"># get the actual filename of the mzXML URL</span>
-<a id="__codelineno-0-155" name="__codelineno-0-155"></a>        <span class="n">filename</span> <span class="o">=</span> <span class="n">Path</span><span class="p">(</span><span class="n">record</span><span class="p">[</span><span class="s2">&quot;metabolomics_file&quot;</span><span class="p">])</span><span class="o">.</span><span class="n">name</span>
-<a id="__codelineno-0-156" name="__codelineno-0-156"></a>        <span class="k">if</span> <span class="n">strain_id</span> <span class="ow">in</span> <span class="n">mappings_dict</span><span class="p">:</span>
-<a id="__codelineno-0-157" name="__codelineno-0-157"></a>            <span class="n">mappings_dict</span><span class="p">[</span><span class="n">strain_id</span><span class="p">]</span><span class="o">.</span><span class="n">add</span><span class="p">(</span><span class="n">filename</span><span class="p">)</span>
-<a id="__codelineno-0-158" name="__codelineno-0-158"></a>        <span class="k">else</span><span class="p">:</span>
-<a id="__codelineno-0-159" name="__codelineno-0-159"></a>            <span class="n">mappings_dict</span><span class="p">[</span><span class="n">strain_id</span><span class="p">]</span> <span class="o">=</span> <span class="p">{</span><span class="n">filename</span><span class="p">}</span>
-<a id="__codelineno-0-160" name="__codelineno-0-160"></a>    <span class="k">return</span> <span class="n">mappings_dict</span>
+<a id="__codelineno-0-151" name="__codelineno-0-151"></a>    <span class="n">validate_podp_json</span><span class="p">(</span><span class="n">json_data</span><span class="p">)</span>
+<a id="__codelineno-0-152" name="__codelineno-0-152"></a>
+<a id="__codelineno-0-153" name="__codelineno-0-153"></a>    <span class="c1"># Extract mappings strain id &lt;-&gt; metabolomics filename</span>
+<a id="__codelineno-0-154" name="__codelineno-0-154"></a>    <span class="k">for</span> <span class="n">record</span> <span class="ow">in</span> <span class="n">json_data</span><span class="p">[</span><span class="s2">&quot;genome_metabolome_links&quot;</span><span class="p">]:</span>
+<a id="__codelineno-0-155" name="__codelineno-0-155"></a>        <span class="n">strain_id</span> <span class="o">=</span> <span class="n">record</span><span class="p">[</span><span class="s2">&quot;genome_label&quot;</span><span class="p">]</span>
+<a id="__codelineno-0-156" name="__codelineno-0-156"></a>        <span class="c1"># get the actual filename of the mzXML URL</span>
+<a id="__codelineno-0-157" name="__codelineno-0-157"></a>        <span class="n">filename</span> <span class="o">=</span> <span class="n">Path</span><span class="p">(</span><span class="n">record</span><span class="p">[</span><span class="s2">&quot;metabolomics_file&quot;</span><span class="p">])</span><span class="o">.</span><span class="n">name</span>
+<a id="__codelineno-0-158" name="__codelineno-0-158"></a>        <span class="k">if</span> <span class="n">strain_id</span> <span class="ow">in</span> <span class="n">mappings_dict</span><span class="p">:</span>
+<a id="__codelineno-0-159" name="__codelineno-0-159"></a>            <span class="n">mappings_dict</span><span class="p">[</span><span class="n">strain_id</span><span class="p">]</span><span class="o">.</span><span class="n">add</span><span class="p">(</span><span class="n">filename</span><span class="p">)</span>
+<a id="__codelineno-0-160" name="__codelineno-0-160"></a>        <span class="k">else</span><span class="p">:</span>
+<a id="__codelineno-0-161" name="__codelineno-0-161"></a>            <span class="n">mappings_dict</span><span class="p">[</span><span class="n">strain_id</span><span class="p">]</span> <span class="o">=</span> <span class="p">{</span><span class="n">filename</span><span class="p">}</span>
+<a id="__codelineno-0-162" name="__codelineno-0-162"></a>    <span class="k">return</span> <span class="n">mappings_dict</span>
 </code></pre></div></td></tr></table></div>
           </details>
   </div>
@@ -2157,9 +2205,7 @@ <h3 id="nplinker.metabolomics.utils.extract_mappings_ms_filename_spectrum_id" cl
 </details>
           <details class="quote">
             <summary>Source code in <code>src/nplinker/metabolomics/utils.py</code></summary>
-            <div class="language-python highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal"><a href="#__codelineno-0-163">163</a></span>
-<span class="normal"><a href="#__codelineno-0-164">164</a></span>
-<span class="normal"><a href="#__codelineno-0-165">165</a></span>
+            <div class="language-python highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal"><a href="#__codelineno-0-165">165</a></span>
 <span class="normal"><a href="#__codelineno-0-166">166</a></span>
 <span class="normal"><a href="#__codelineno-0-167">167</a></span>
 <span class="normal"><a href="#__codelineno-0-168">168</a></span>
@@ -2177,27 +2223,29 @@ <h3 id="nplinker.metabolomics.utils.extract_mappings_ms_filename_spectrum_id" cl
 <span class="normal"><a href="#__codelineno-0-180">180</a></span>
 <span class="normal"><a href="#__codelineno-0-181">181</a></span>
 <span class="normal"><a href="#__codelineno-0-182">182</a></span>
-<span class="normal"><a href="#__codelineno-0-183">183</a></span></pre></div></td><td class="code"><div><pre><span></span><code><a id="__codelineno-0-163" name="__codelineno-0-163"></a><span class="k">def</span> <span class="nf">extract_mappings_ms_filename_spectrum_id</span><span class="p">(</span>
-<a id="__codelineno-0-164" name="__codelineno-0-164"></a>    <span class="n">gnps_file_mappings_file</span><span class="p">:</span> <span class="nb">str</span> <span class="o">|</span> <span class="n">PathLike</span>
-<a id="__codelineno-0-165" name="__codelineno-0-165"></a><span class="p">)</span> <span class="o">-&gt;</span> <span class="nb">dict</span><span class="p">[</span><span class="nb">str</span><span class="p">,</span> <span class="nb">set</span><span class="p">[</span><span class="nb">str</span><span class="p">]]:</span>
-<a id="__codelineno-0-166" name="__codelineno-0-166"></a><span class="w">    </span><span class="sd">&quot;&quot;&quot;Extract mappings &quot;MS_filename &lt;-&gt; spectrum_id&quot;.</span>
-<a id="__codelineno-0-167" name="__codelineno-0-167"></a>
-<a id="__codelineno-0-168" name="__codelineno-0-168"></a><span class="sd">    Args:</span>
-<a id="__codelineno-0-169" name="__codelineno-0-169"></a><span class="sd">        gnps_file_mappings_file: The path to the GNPS file mappings file (csv or</span>
-<a id="__codelineno-0-170" name="__codelineno-0-170"></a><span class="sd">            tsv).</span>
-<a id="__codelineno-0-171" name="__codelineno-0-171"></a>
-<a id="__codelineno-0-172" name="__codelineno-0-172"></a><span class="sd">    Returns:</span>
-<a id="__codelineno-0-173" name="__codelineno-0-173"></a><span class="sd">        Key is MS filename and value is a set of spectrum ids.</span>
-<a id="__codelineno-0-174" name="__codelineno-0-174"></a>
-<a id="__codelineno-0-175" name="__codelineno-0-175"></a><span class="sd">    Notes:</span>
-<a id="__codelineno-0-176" name="__codelineno-0-176"></a><span class="sd">        The `gnps_file_mappings_file` is generated by GNPS molecular networking. It&#39;s downloaded</span>
-<a id="__codelineno-0-177" name="__codelineno-0-177"></a><span class="sd">        from GNPS website to a file with a default name defined in `GNPS_FILE_MAPPINGS_FILENAME`.</span>
-<a id="__codelineno-0-178" name="__codelineno-0-178"></a>
-<a id="__codelineno-0-179" name="__codelineno-0-179"></a><span class="sd">    See Also:</span>
-<a id="__codelineno-0-180" name="__codelineno-0-180"></a><span class="sd">        GNPSFileMappingLoader: A class to load GNPS file mappings file.</span>
-<a id="__codelineno-0-181" name="__codelineno-0-181"></a><span class="sd">    &quot;&quot;&quot;</span>
-<a id="__codelineno-0-182" name="__codelineno-0-182"></a>    <span class="n">loader</span> <span class="o">=</span> <span class="n">GNPSFileMappingLoader</span><span class="p">(</span><span class="n">gnps_file_mappings_file</span><span class="p">)</span>
-<a id="__codelineno-0-183" name="__codelineno-0-183"></a>    <span class="k">return</span> <span class="n">loader</span><span class="o">.</span><span class="n">mapping_reversed</span>
+<span class="normal"><a href="#__codelineno-0-183">183</a></span>
+<span class="normal"><a href="#__codelineno-0-184">184</a></span>
+<span class="normal"><a href="#__codelineno-0-185">185</a></span></pre></div></td><td class="code"><div><pre><span></span><code><a id="__codelineno-0-165" name="__codelineno-0-165"></a><span class="k">def</span> <span class="nf">extract_mappings_ms_filename_spectrum_id</span><span class="p">(</span>
+<a id="__codelineno-0-166" name="__codelineno-0-166"></a>    <span class="n">gnps_file_mappings_file</span><span class="p">:</span> <span class="nb">str</span> <span class="o">|</span> <span class="n">PathLike</span><span class="p">,</span>
+<a id="__codelineno-0-167" name="__codelineno-0-167"></a><span class="p">)</span> <span class="o">-&gt;</span> <span class="nb">dict</span><span class="p">[</span><span class="nb">str</span><span class="p">,</span> <span class="nb">set</span><span class="p">[</span><span class="nb">str</span><span class="p">]]:</span>
+<a id="__codelineno-0-168" name="__codelineno-0-168"></a><span class="w">    </span><span class="sd">&quot;&quot;&quot;Extract mappings &quot;MS_filename &lt;-&gt; spectrum_id&quot;.</span>
+<a id="__codelineno-0-169" name="__codelineno-0-169"></a>
+<a id="__codelineno-0-170" name="__codelineno-0-170"></a><span class="sd">    Args:</span>
+<a id="__codelineno-0-171" name="__codelineno-0-171"></a><span class="sd">        gnps_file_mappings_file: The path to the GNPS file mappings file (csv or</span>
+<a id="__codelineno-0-172" name="__codelineno-0-172"></a><span class="sd">            tsv).</span>
+<a id="__codelineno-0-173" name="__codelineno-0-173"></a>
+<a id="__codelineno-0-174" name="__codelineno-0-174"></a><span class="sd">    Returns:</span>
+<a id="__codelineno-0-175" name="__codelineno-0-175"></a><span class="sd">        Key is MS filename and value is a set of spectrum ids.</span>
+<a id="__codelineno-0-176" name="__codelineno-0-176"></a>
+<a id="__codelineno-0-177" name="__codelineno-0-177"></a><span class="sd">    Notes:</span>
+<a id="__codelineno-0-178" name="__codelineno-0-178"></a><span class="sd">        The `gnps_file_mappings_file` is generated by GNPS molecular networking. It&#39;s downloaded</span>
+<a id="__codelineno-0-179" name="__codelineno-0-179"></a><span class="sd">        from GNPS website to a file with a default name defined in `GNPS_FILE_MAPPINGS_FILENAME`.</span>
+<a id="__codelineno-0-180" name="__codelineno-0-180"></a>
+<a id="__codelineno-0-181" name="__codelineno-0-181"></a><span class="sd">    See Also:</span>
+<a id="__codelineno-0-182" name="__codelineno-0-182"></a><span class="sd">        GNPSFileMappingLoader: A class to load GNPS file mappings file.</span>
+<a id="__codelineno-0-183" name="__codelineno-0-183"></a><span class="sd">    &quot;&quot;&quot;</span>
+<a id="__codelineno-0-184" name="__codelineno-0-184"></a>    <span class="n">loader</span> <span class="o">=</span> <span class="n">GNPSFileMappingLoader</span><span class="p">(</span><span class="n">gnps_file_mappings_file</span><span class="p">)</span>
+<a id="__codelineno-0-185" name="__codelineno-0-185"></a>    <span class="k">return</span> <span class="n">loader</span><span class="o">.</span><span class="n">mapping_reversed</span>
 </code></pre></div></td></tr></table></div>
           </details>
   </div>
@@ -2300,9 +2348,7 @@ <h3 id="nplinker.metabolomics.utils.get_mappings_strain_id_spectrum_id" class="d
 </details>
           <details class="quote">
             <summary>Source code in <code>src/nplinker/metabolomics/utils.py</code></summary>
-            <div class="language-python highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal"><a href="#__codelineno-0-186">186</a></span>
-<span class="normal"><a href="#__codelineno-0-187">187</a></span>
-<span class="normal"><a href="#__codelineno-0-188">188</a></span>
+            <div class="language-python highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal"><a href="#__codelineno-0-188">188</a></span>
 <span class="normal"><a href="#__codelineno-0-189">189</a></span>
 <span class="normal"><a href="#__codelineno-0-190">190</a></span>
 <span class="normal"><a href="#__codelineno-0-191">191</a></span>
@@ -2330,37 +2376,39 @@ <h3 id="nplinker.metabolomics.utils.get_mappings_strain_id_spectrum_id" class="d
 <span class="normal"><a href="#__codelineno-0-213">213</a></span>
 <span class="normal"><a href="#__codelineno-0-214">214</a></span>
 <span class="normal"><a href="#__codelineno-0-215">215</a></span>
-<span class="normal"><a href="#__codelineno-0-216">216</a></span></pre></div></td><td class="code"><div><pre><span></span><code><a id="__codelineno-0-186" name="__codelineno-0-186"></a><span class="k">def</span> <span class="nf">get_mappings_strain_id_spectrum_id</span><span class="p">(</span>
-<a id="__codelineno-0-187" name="__codelineno-0-187"></a>    <span class="n">mappings_strain_id_ms_filename</span><span class="p">:</span> <span class="nb">dict</span><span class="p">[</span><span class="nb">str</span><span class="p">,</span> <span class="nb">set</span><span class="p">[</span><span class="nb">str</span><span class="p">]],</span>
-<a id="__codelineno-0-188" name="__codelineno-0-188"></a>    <span class="n">mappings_ms_filename_spectrum_id</span><span class="p">:</span> <span class="nb">dict</span><span class="p">[</span><span class="nb">str</span><span class="p">,</span> <span class="nb">set</span><span class="p">[</span><span class="nb">str</span><span class="p">]],</span>
-<a id="__codelineno-0-189" name="__codelineno-0-189"></a><span class="p">)</span> <span class="o">-&gt;</span> <span class="nb">dict</span><span class="p">[</span><span class="nb">str</span><span class="p">,</span> <span class="nb">set</span><span class="p">[</span><span class="nb">str</span><span class="p">]]:</span>
-<a id="__codelineno-0-190" name="__codelineno-0-190"></a><span class="w">    </span><span class="sd">&quot;&quot;&quot;Get mappings &quot;strain_id &lt;-&gt; spectrum_id&quot;.</span>
-<a id="__codelineno-0-191" name="__codelineno-0-191"></a>
-<a id="__codelineno-0-192" name="__codelineno-0-192"></a><span class="sd">    Args:</span>
-<a id="__codelineno-0-193" name="__codelineno-0-193"></a><span class="sd">        mappings_strain_id_ms_filename: Mappings</span>
-<a id="__codelineno-0-194" name="__codelineno-0-194"></a><span class="sd">            &quot;strain_id &lt;-&gt; MS_filename&quot;.</span>
-<a id="__codelineno-0-195" name="__codelineno-0-195"></a><span class="sd">        mappings_ms_filename_spectrum_id: Mappings</span>
-<a id="__codelineno-0-196" name="__codelineno-0-196"></a><span class="sd">            &quot;MS_filename &lt;-&gt; spectrum_id&quot;.</span>
-<a id="__codelineno-0-197" name="__codelineno-0-197"></a>
-<a id="__codelineno-0-198" name="__codelineno-0-198"></a><span class="sd">    Returns:</span>
-<a id="__codelineno-0-199" name="__codelineno-0-199"></a><span class="sd">        Key is strain id and value is a set of spectrum ids.</span>
-<a id="__codelineno-0-200" name="__codelineno-0-200"></a>
-<a id="__codelineno-0-201" name="__codelineno-0-201"></a>
-<a id="__codelineno-0-202" name="__codelineno-0-202"></a><span class="sd">    See Also:</span>
-<a id="__codelineno-0-203" name="__codelineno-0-203"></a><span class="sd">        `extract_mappings_strain_id_ms_filename`: Extract mappings</span>
-<a id="__codelineno-0-204" name="__codelineno-0-204"></a><span class="sd">            &quot;strain_id &lt;-&gt; MS_filename&quot;.</span>
-<a id="__codelineno-0-205" name="__codelineno-0-205"></a><span class="sd">        `extract_mappings_ms_filename_spectrum_id`: Extract mappings</span>
-<a id="__codelineno-0-206" name="__codelineno-0-206"></a><span class="sd">            &quot;MS_filename &lt;-&gt; spectrum_id&quot;.</span>
-<a id="__codelineno-0-207" name="__codelineno-0-207"></a><span class="sd">    &quot;&quot;&quot;</span>
-<a id="__codelineno-0-208" name="__codelineno-0-208"></a>    <span class="n">mappings_dict</span> <span class="o">=</span> <span class="p">{}</span>
-<a id="__codelineno-0-209" name="__codelineno-0-209"></a>    <span class="k">for</span> <span class="n">strain_id</span><span class="p">,</span> <span class="n">ms_filenames</span> <span class="ow">in</span> <span class="n">mappings_strain_id_ms_filename</span><span class="o">.</span><span class="n">items</span><span class="p">():</span>
-<a id="__codelineno-0-210" name="__codelineno-0-210"></a>        <span class="n">spectrum_ids</span> <span class="o">=</span> <span class="nb">set</span><span class="p">()</span>
-<a id="__codelineno-0-211" name="__codelineno-0-211"></a>        <span class="k">for</span> <span class="n">ms_filename</span> <span class="ow">in</span> <span class="n">ms_filenames</span><span class="p">:</span>
-<a id="__codelineno-0-212" name="__codelineno-0-212"></a>            <span class="k">if</span> <span class="p">(</span><span class="n">sid</span> <span class="o">:=</span> <span class="n">mappings_ms_filename_spectrum_id</span><span class="o">.</span><span class="n">get</span><span class="p">(</span><span class="n">ms_filename</span><span class="p">))</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span><span class="p">:</span>
-<a id="__codelineno-0-213" name="__codelineno-0-213"></a>                <span class="n">spectrum_ids</span><span class="o">.</span><span class="n">update</span><span class="p">(</span><span class="n">sid</span><span class="p">)</span>
-<a id="__codelineno-0-214" name="__codelineno-0-214"></a>        <span class="k">if</span> <span class="n">spectrum_ids</span><span class="p">:</span>
-<a id="__codelineno-0-215" name="__codelineno-0-215"></a>            <span class="n">mappings_dict</span><span class="p">[</span><span class="n">strain_id</span><span class="p">]</span> <span class="o">=</span> <span class="n">spectrum_ids</span>
-<a id="__codelineno-0-216" name="__codelineno-0-216"></a>    <span class="k">return</span> <span class="n">mappings_dict</span>
+<span class="normal"><a href="#__codelineno-0-216">216</a></span>
+<span class="normal"><a href="#__codelineno-0-217">217</a></span>
+<span class="normal"><a href="#__codelineno-0-218">218</a></span></pre></div></td><td class="code"><div><pre><span></span><code><a id="__codelineno-0-188" name="__codelineno-0-188"></a><span class="k">def</span> <span class="nf">get_mappings_strain_id_spectrum_id</span><span class="p">(</span>
+<a id="__codelineno-0-189" name="__codelineno-0-189"></a>    <span class="n">mappings_strain_id_ms_filename</span><span class="p">:</span> <span class="nb">dict</span><span class="p">[</span><span class="nb">str</span><span class="p">,</span> <span class="nb">set</span><span class="p">[</span><span class="nb">str</span><span class="p">]],</span>
+<a id="__codelineno-0-190" name="__codelineno-0-190"></a>    <span class="n">mappings_ms_filename_spectrum_id</span><span class="p">:</span> <span class="nb">dict</span><span class="p">[</span><span class="nb">str</span><span class="p">,</span> <span class="nb">set</span><span class="p">[</span><span class="nb">str</span><span class="p">]],</span>
+<a id="__codelineno-0-191" name="__codelineno-0-191"></a><span class="p">)</span> <span class="o">-&gt;</span> <span class="nb">dict</span><span class="p">[</span><span class="nb">str</span><span class="p">,</span> <span class="nb">set</span><span class="p">[</span><span class="nb">str</span><span class="p">]]:</span>
+<a id="__codelineno-0-192" name="__codelineno-0-192"></a><span class="w">    </span><span class="sd">&quot;&quot;&quot;Get mappings &quot;strain_id &lt;-&gt; spectrum_id&quot;.</span>
+<a id="__codelineno-0-193" name="__codelineno-0-193"></a>
+<a id="__codelineno-0-194" name="__codelineno-0-194"></a><span class="sd">    Args:</span>
+<a id="__codelineno-0-195" name="__codelineno-0-195"></a><span class="sd">        mappings_strain_id_ms_filename: Mappings</span>
+<a id="__codelineno-0-196" name="__codelineno-0-196"></a><span class="sd">            &quot;strain_id &lt;-&gt; MS_filename&quot;.</span>
+<a id="__codelineno-0-197" name="__codelineno-0-197"></a><span class="sd">        mappings_ms_filename_spectrum_id: Mappings</span>
+<a id="__codelineno-0-198" name="__codelineno-0-198"></a><span class="sd">            &quot;MS_filename &lt;-&gt; spectrum_id&quot;.</span>
+<a id="__codelineno-0-199" name="__codelineno-0-199"></a>
+<a id="__codelineno-0-200" name="__codelineno-0-200"></a><span class="sd">    Returns:</span>
+<a id="__codelineno-0-201" name="__codelineno-0-201"></a><span class="sd">        Key is strain id and value is a set of spectrum ids.</span>
+<a id="__codelineno-0-202" name="__codelineno-0-202"></a>
+<a id="__codelineno-0-203" name="__codelineno-0-203"></a>
+<a id="__codelineno-0-204" name="__codelineno-0-204"></a><span class="sd">    See Also:</span>
+<a id="__codelineno-0-205" name="__codelineno-0-205"></a><span class="sd">        `extract_mappings_strain_id_ms_filename`: Extract mappings</span>
+<a id="__codelineno-0-206" name="__codelineno-0-206"></a><span class="sd">            &quot;strain_id &lt;-&gt; MS_filename&quot;.</span>
+<a id="__codelineno-0-207" name="__codelineno-0-207"></a><span class="sd">        `extract_mappings_ms_filename_spectrum_id`: Extract mappings</span>
+<a id="__codelineno-0-208" name="__codelineno-0-208"></a><span class="sd">            &quot;MS_filename &lt;-&gt; spectrum_id&quot;.</span>
+<a id="__codelineno-0-209" name="__codelineno-0-209"></a><span class="sd">    &quot;&quot;&quot;</span>
+<a id="__codelineno-0-210" name="__codelineno-0-210"></a>    <span class="n">mappings_dict</span> <span class="o">=</span> <span class="p">{}</span>
+<a id="__codelineno-0-211" name="__codelineno-0-211"></a>    <span class="k">for</span> <span class="n">strain_id</span><span class="p">,</span> <span class="n">ms_filenames</span> <span class="ow">in</span> <span class="n">mappings_strain_id_ms_filename</span><span class="o">.</span><span class="n">items</span><span class="p">():</span>
+<a id="__codelineno-0-212" name="__codelineno-0-212"></a>        <span class="n">spectrum_ids</span> <span class="o">=</span> <span class="nb">set</span><span class="p">()</span>
+<a id="__codelineno-0-213" name="__codelineno-0-213"></a>        <span class="k">for</span> <span class="n">ms_filename</span> <span class="ow">in</span> <span class="n">ms_filenames</span><span class="p">:</span>
+<a id="__codelineno-0-214" name="__codelineno-0-214"></a>            <span class="k">if</span> <span class="p">(</span><span class="n">sid</span> <span class="o">:=</span> <span class="n">mappings_ms_filename_spectrum_id</span><span class="o">.</span><span class="n">get</span><span class="p">(</span><span class="n">ms_filename</span><span class="p">))</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span><span class="p">:</span>
+<a id="__codelineno-0-215" name="__codelineno-0-215"></a>                <span class="n">spectrum_ids</span><span class="o">.</span><span class="n">update</span><span class="p">(</span><span class="n">sid</span><span class="p">)</span>
+<a id="__codelineno-0-216" name="__codelineno-0-216"></a>        <span class="k">if</span> <span class="n">spectrum_ids</span><span class="p">:</span>
+<a id="__codelineno-0-217" name="__codelineno-0-217"></a>            <span class="n">mappings_dict</span><span class="p">[</span><span class="n">strain_id</span><span class="p">]</span> <span class="o">=</span> <span class="n">spectrum_ids</span>
+<a id="__codelineno-0-218" name="__codelineno-0-218"></a>    <span class="k">return</span> <span class="n">mappings_dict</span>
 </code></pre></div></td></tr></table></div>
           </details>
   </div>
diff --git a/dev/api/mibig/index.html b/dev/api/mibig/index.html
index 565ad7c2..38c0e1cf 100644
--- a/dev/api/mibig/index.html
+++ b/dev/api/mibig/index.html
@@ -896,6 +896,15 @@
     <nav class="md-nav" aria-label=" MibigLoader">
       <ul class="md-nav__list">
         
+          <li class="md-nav__item">
+  <a href="#nplinker.genomics.mibig.MibigLoader.data_dir" class="md-nav__link">
+    <span class="md-ellipsis">
+      <code class="doc-symbol doc-symbol-toc doc-symbol-attribute"></code>&nbsp;data_dir
+    </span>
+  </a>
+  
+</li>
+        
           <li class="md-nav__item">
   <a href="#nplinker.genomics.mibig.MibigLoader.get_files" class="md-nav__link">
     <span class="md-ellipsis">
@@ -947,6 +956,24 @@
     <nav class="md-nav" aria-label=" MibigMetadata">
       <ul class="md-nav__list">
         
+          <li class="md-nav__item">
+  <a href="#nplinker.genomics.mibig.MibigMetadata.file" class="md-nav__link">
+    <span class="md-ellipsis">
+      <code class="doc-symbol doc-symbol-toc doc-symbol-attribute"></code>&nbsp;file
+    </span>
+  </a>
+  
+</li>
+        
+          <li class="md-nav__item">
+  <a href="#nplinker.genomics.mibig.MibigMetadata.metadata" class="md-nav__link">
+    <span class="md-ellipsis">
+      <code class="doc-symbol doc-symbol-toc doc-symbol-attribute"></code>&nbsp;metadata
+    </span>
+  </a>
+  
+</li>
+        
           <li class="md-nav__item">
   <a href="#nplinker.genomics.mibig.MibigMetadata.mibig_accession" class="md-nav__link">
     <span class="md-ellipsis">
@@ -1405,6 +1432,15 @@
     <nav class="md-nav" aria-label=" MibigLoader">
       <ul class="md-nav__list">
         
+          <li class="md-nav__item">
+  <a href="#nplinker.genomics.mibig.MibigLoader.data_dir" class="md-nav__link">
+    <span class="md-ellipsis">
+      <code class="doc-symbol doc-symbol-toc doc-symbol-attribute"></code>&nbsp;data_dir
+    </span>
+  </a>
+  
+</li>
+        
           <li class="md-nav__item">
   <a href="#nplinker.genomics.mibig.MibigLoader.get_files" class="md-nav__link">
     <span class="md-ellipsis">
@@ -1456,6 +1492,24 @@
     <nav class="md-nav" aria-label=" MibigMetadata">
       <ul class="md-nav__list">
         
+          <li class="md-nav__item">
+  <a href="#nplinker.genomics.mibig.MibigMetadata.file" class="md-nav__link">
+    <span class="md-ellipsis">
+      <code class="doc-symbol doc-symbol-toc doc-symbol-attribute"></code>&nbsp;file
+    </span>
+  </a>
+  
+</li>
+        
+          <li class="md-nav__item">
+  <a href="#nplinker.genomics.mibig.MibigMetadata.metadata" class="md-nav__link">
+    <span class="md-ellipsis">
+      <code class="doc-symbol doc-symbol-toc doc-symbol-attribute"></code>&nbsp;metadata
+    </span>
+  </a>
+  
+</li>
+        
           <li class="md-nav__item">
   <a href="#nplinker.genomics.mibig.MibigMetadata.mibig_accession" class="md-nav__link">
     <span class="md-ellipsis">
@@ -1565,6 +1619,7 @@ <h3 id="nplinker.genomics.mibig.MibigLoader" class="doc doc-heading">
 for each BGC. See <a href="https://mibig.secondarymetabolites.org/download">https://mibig.secondarymetabolites.org/download</a>.</p>
 <p>The MiBIG accession is used as BGC id and strain name. The loaded BGC
 objects have Strain object as their strain attribute (i.e. <code>BGC.strain</code>).</p>
+  
 
 
 
@@ -1598,37 +1653,25 @@ <h3 id="nplinker.genomics.mibig.MibigLoader" class="doc doc-heading">
 
                 <details class="quote">
                   <summary>Source code in <code>src/nplinker/genomics/mibig/mibig_loader.py</code></summary>
-                  <div class="language-python highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal"><a href="#__codelineno-0-14">14</a></span>
-<span class="normal"><a href="#__codelineno-0-15">15</a></span>
-<span class="normal"><a href="#__codelineno-0-16">16</a></span>
-<span class="normal"><a href="#__codelineno-0-17">17</a></span>
-<span class="normal"><a href="#__codelineno-0-18">18</a></span>
-<span class="normal"><a href="#__codelineno-0-19">19</a></span>
-<span class="normal"><a href="#__codelineno-0-20">20</a></span>
-<span class="normal"><a href="#__codelineno-0-21">21</a></span>
-<span class="normal"><a href="#__codelineno-0-22">22</a></span>
-<span class="normal"><a href="#__codelineno-0-23">23</a></span>
+                  <div class="language-python highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal"><a href="#__codelineno-0-23">23</a></span>
 <span class="normal"><a href="#__codelineno-0-24">24</a></span>
 <span class="normal"><a href="#__codelineno-0-25">25</a></span>
 <span class="normal"><a href="#__codelineno-0-26">26</a></span>
 <span class="normal"><a href="#__codelineno-0-27">27</a></span>
 <span class="normal"><a href="#__codelineno-0-28">28</a></span>
-<span class="normal"><a href="#__codelineno-0-29">29</a></span></pre></div></td><td class="code"><div><pre><span></span><code><a id="__codelineno-0-14" name="__codelineno-0-14"></a><span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">data_dir</span><span class="p">:</span> <span class="nb">str</span><span class="p">):</span>
-<a id="__codelineno-0-15" name="__codelineno-0-15"></a><span class="w">    </span><span class="sd">&quot;&quot;&quot;Parse MIBiG metadata files and return BGC objects.</span>
-<a id="__codelineno-0-16" name="__codelineno-0-16"></a>
-<a id="__codelineno-0-17" name="__codelineno-0-17"></a><span class="sd">    MIBiG metadata file (json) contains annotations/metadata information</span>
-<a id="__codelineno-0-18" name="__codelineno-0-18"></a><span class="sd">    for each BGC. See https://mibig.secondarymetabolites.org/download.</span>
-<a id="__codelineno-0-19" name="__codelineno-0-19"></a>
-<a id="__codelineno-0-20" name="__codelineno-0-20"></a><span class="sd">    The MiBIG accession is used as BGC id and strain name. The loaded BGC</span>
-<a id="__codelineno-0-21" name="__codelineno-0-21"></a><span class="sd">    objects have Strain object as their strain attribute (i.e. `BGC.strain`).</span>
-<a id="__codelineno-0-22" name="__codelineno-0-22"></a>
-<a id="__codelineno-0-23" name="__codelineno-0-23"></a><span class="sd">    Args:</span>
-<a id="__codelineno-0-24" name="__codelineno-0-24"></a><span class="sd">        data_dir: Path to the directory of MIBiG metadata json files</span>
-<a id="__codelineno-0-25" name="__codelineno-0-25"></a><span class="sd">    &quot;&quot;&quot;</span>
-<a id="__codelineno-0-26" name="__codelineno-0-26"></a>    <span class="bp">self</span><span class="o">.</span><span class="n">data_dir</span> <span class="o">=</span> <span class="n">data_dir</span>
-<a id="__codelineno-0-27" name="__codelineno-0-27"></a>    <span class="bp">self</span><span class="o">.</span><span class="n">_file_dict</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">parse_data_dir</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">data_dir</span><span class="p">)</span>
-<a id="__codelineno-0-28" name="__codelineno-0-28"></a>    <span class="bp">self</span><span class="o">.</span><span class="n">_metadata_dict</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">_parse_metadatas</span><span class="p">()</span>
-<a id="__codelineno-0-29" name="__codelineno-0-29"></a>    <span class="bp">self</span><span class="o">.</span><span class="n">_bgcs</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">_parse_bgcs</span><span class="p">()</span>
+<span class="normal"><a href="#__codelineno-0-29">29</a></span>
+<span class="normal"><a href="#__codelineno-0-30">30</a></span>
+<span class="normal"><a href="#__codelineno-0-31">31</a></span>
+<span class="normal"><a href="#__codelineno-0-32">32</a></span></pre></div></td><td class="code"><div><pre><span></span><code><a id="__codelineno-0-23" name="__codelineno-0-23"></a><span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">data_dir</span><span class="p">:</span> <span class="nb">str</span><span class="p">):</span>
+<a id="__codelineno-0-24" name="__codelineno-0-24"></a><span class="w">    </span><span class="sd">&quot;&quot;&quot;Initialize the MIBiG metatdata loader.</span>
+<a id="__codelineno-0-25" name="__codelineno-0-25"></a>
+<a id="__codelineno-0-26" name="__codelineno-0-26"></a><span class="sd">    Args:</span>
+<a id="__codelineno-0-27" name="__codelineno-0-27"></a><span class="sd">        data_dir: Path to the directory of MIBiG metadata json files</span>
+<a id="__codelineno-0-28" name="__codelineno-0-28"></a><span class="sd">    &quot;&quot;&quot;</span>
+<a id="__codelineno-0-29" name="__codelineno-0-29"></a>    <span class="bp">self</span><span class="o">.</span><span class="n">data_dir</span> <span class="o">=</span> <span class="n">data_dir</span>
+<a id="__codelineno-0-30" name="__codelineno-0-30"></a>    <span class="bp">self</span><span class="o">.</span><span class="n">_file_dict</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">parse_data_dir</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">data_dir</span><span class="p">)</span>
+<a id="__codelineno-0-31" name="__codelineno-0-31"></a>    <span class="bp">self</span><span class="o">.</span><span class="n">_metadata_dict</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">_parse_metadatas</span><span class="p">()</span>
+<a id="__codelineno-0-32" name="__codelineno-0-32"></a>    <span class="bp">self</span><span class="o">.</span><span class="n">_bgcs</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">_parse_bgcs</span><span class="p">()</span>
 </code></pre></div></td></tr></table></div>
                 </details>
 
@@ -1642,6 +1685,27 @@ <h3 id="nplinker.genomics.mibig.MibigLoader" class="doc doc-heading">
 
 
 
+<div class="doc doc-object doc-attribute">
+
+
+
+<h4 id="nplinker.genomics.mibig.MibigLoader.data_dir" class="doc doc-heading">
+<code class="doc-symbol doc-symbol-heading doc-symbol-attribute"></code>          <span class="doc doc-object-name doc-attribute-name">data_dir</span>
+
+  
+  <span class="doc doc-labels">
+      <small class="doc doc-label doc-label-instance-attribute"><code>instance-attribute</code></small>
+  </span>
+
+<a href="#nplinker.genomics.mibig.MibigLoader.data_dir" class="headerlink" title="Permanent link">&para;</a></h4>
+<div class="language-python doc-signature highlight"><pre><span></span><code><a id="__codelineno-0-1" name="__codelineno-0-1" href="#__codelineno-0-1"></a><span class="n">data_dir</span> <span class="o">=</span> <span class="n"><a class="autorefs autorefs-internal" title="nplinker.genomics.mibig.mibig_loader.MibigLoader.data_dir" href="#nplinker.genomics.mibig.MibigLoader.data_dir">data_dir</a></span>
+</code></pre></div>
+
+  <div class="doc doc-contents ">
+  </div>
+
+</div>
+
 
 
 
@@ -1697,21 +1761,21 @@ <h4 id="nplinker.genomics.mibig.MibigLoader.get_files" class="doc doc-heading">
 
           <details class="quote">
             <summary>Source code in <code>src/nplinker/genomics/mibig/mibig_loader.py</code></summary>
-            <div class="language-python highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal"><a href="#__codelineno-0-31">31</a></span>
-<span class="normal"><a href="#__codelineno-0-32">32</a></span>
-<span class="normal"><a href="#__codelineno-0-33">33</a></span>
-<span class="normal"><a href="#__codelineno-0-34">34</a></span>
+            <div class="language-python highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal"><a href="#__codelineno-0-34">34</a></span>
 <span class="normal"><a href="#__codelineno-0-35">35</a></span>
 <span class="normal"><a href="#__codelineno-0-36">36</a></span>
 <span class="normal"><a href="#__codelineno-0-37">37</a></span>
-<span class="normal"><a href="#__codelineno-0-38">38</a></span></pre></div></td><td class="code"><div><pre><span></span><code><a id="__codelineno-0-31" name="__codelineno-0-31"></a><span class="k">def</span> <span class="nf">get_files</span><span class="p">(</span><span class="bp">self</span><span class="p">)</span> <span class="o">-&gt;</span> <span class="nb">dict</span><span class="p">[</span><span class="nb">str</span><span class="p">,</span> <span class="nb">str</span><span class="p">]:</span>
-<a id="__codelineno-0-32" name="__codelineno-0-32"></a><span class="w">    </span><span class="sd">&quot;&quot;&quot;Get the path of all MIBiG metadata json files.</span>
-<a id="__codelineno-0-33" name="__codelineno-0-33"></a>
-<a id="__codelineno-0-34" name="__codelineno-0-34"></a><span class="sd">    Returns:</span>
-<a id="__codelineno-0-35" name="__codelineno-0-35"></a><span class="sd">        The key is metadata file name (BGC accession), and the value is path to the metadata</span>
-<a id="__codelineno-0-36" name="__codelineno-0-36"></a><span class="sd">        json file</span>
-<a id="__codelineno-0-37" name="__codelineno-0-37"></a><span class="sd">    &quot;&quot;&quot;</span>
-<a id="__codelineno-0-38" name="__codelineno-0-38"></a>    <span class="k">return</span> <span class="bp">self</span><span class="o">.</span><span class="n">_file_dict</span>
+<span class="normal"><a href="#__codelineno-0-38">38</a></span>
+<span class="normal"><a href="#__codelineno-0-39">39</a></span>
+<span class="normal"><a href="#__codelineno-0-40">40</a></span>
+<span class="normal"><a href="#__codelineno-0-41">41</a></span></pre></div></td><td class="code"><div><pre><span></span><code><a id="__codelineno-0-34" name="__codelineno-0-34"></a><span class="k">def</span> <span class="nf">get_files</span><span class="p">(</span><span class="bp">self</span><span class="p">)</span> <span class="o">-&gt;</span> <span class="nb">dict</span><span class="p">[</span><span class="nb">str</span><span class="p">,</span> <span class="nb">str</span><span class="p">]:</span>
+<a id="__codelineno-0-35" name="__codelineno-0-35"></a><span class="w">    </span><span class="sd">&quot;&quot;&quot;Get the path of all MIBiG metadata json files.</span>
+<a id="__codelineno-0-36" name="__codelineno-0-36"></a>
+<a id="__codelineno-0-37" name="__codelineno-0-37"></a><span class="sd">    Returns:</span>
+<a id="__codelineno-0-38" name="__codelineno-0-38"></a><span class="sd">        The key is metadata file name (BGC accession), and the value is path to the metadata</span>
+<a id="__codelineno-0-39" name="__codelineno-0-39"></a><span class="sd">        json file</span>
+<a id="__codelineno-0-40" name="__codelineno-0-40"></a><span class="sd">    &quot;&quot;&quot;</span>
+<a id="__codelineno-0-41" name="__codelineno-0-41"></a>    <span class="k">return</span> <span class="bp">self</span><span class="o">.</span><span class="n">_file_dict</span>
 </code></pre></div></td></tr></table></div>
           </details>
   </div>
@@ -1805,10 +1869,7 @@ <h4 id="nplinker.genomics.mibig.MibigLoader.parse_data_dir" class="doc doc-headi
 
           <details class="quote">
             <summary>Source code in <code>src/nplinker/genomics/mibig/mibig_loader.py</code></summary>
-            <div class="language-python highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal"><a href="#__codelineno-0-40">40</a></span>
-<span class="normal"><a href="#__codelineno-0-41">41</a></span>
-<span class="normal"><a href="#__codelineno-0-42">42</a></span>
-<span class="normal"><a href="#__codelineno-0-43">43</a></span>
+            <div class="language-python highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal"><a href="#__codelineno-0-43">43</a></span>
 <span class="normal"><a href="#__codelineno-0-44">44</a></span>
 <span class="normal"><a href="#__codelineno-0-45">45</a></span>
 <span class="normal"><a href="#__codelineno-0-46">46</a></span>
@@ -1821,23 +1882,26 @@ <h4 id="nplinker.genomics.mibig.MibigLoader.parse_data_dir" class="doc doc-headi
 <span class="normal"><a href="#__codelineno-0-53">53</a></span>
 <span class="normal"><a href="#__codelineno-0-54">54</a></span>
 <span class="normal"><a href="#__codelineno-0-55">55</a></span>
-<span class="normal"><a href="#__codelineno-0-56">56</a></span></pre></div></td><td class="code"><div><pre><span></span><code><a id="__codelineno-0-40" name="__codelineno-0-40"></a><span class="nd">@staticmethod</span>
-<a id="__codelineno-0-41" name="__codelineno-0-41"></a><span class="k">def</span> <span class="nf">parse_data_dir</span><span class="p">(</span><span class="n">data_dir</span><span class="p">:</span> <span class="nb">str</span><span class="p">)</span> <span class="o">-&gt;</span> <span class="nb">dict</span><span class="p">[</span><span class="nb">str</span><span class="p">,</span> <span class="nb">str</span><span class="p">]:</span>
-<a id="__codelineno-0-42" name="__codelineno-0-42"></a><span class="w">    </span><span class="sd">&quot;&quot;&quot;Parse metadata directory and return paths to all metadata json files.</span>
-<a id="__codelineno-0-43" name="__codelineno-0-43"></a>
-<a id="__codelineno-0-44" name="__codelineno-0-44"></a><span class="sd">    Args:</span>
-<a id="__codelineno-0-45" name="__codelineno-0-45"></a><span class="sd">        data_dir: path to the directory of MIBiG metadata json files</span>
+<span class="normal"><a href="#__codelineno-0-56">56</a></span>
+<span class="normal"><a href="#__codelineno-0-57">57</a></span>
+<span class="normal"><a href="#__codelineno-0-58">58</a></span>
+<span class="normal"><a href="#__codelineno-0-59">59</a></span></pre></div></td><td class="code"><div><pre><span></span><code><a id="__codelineno-0-43" name="__codelineno-0-43"></a><span class="nd">@staticmethod</span>
+<a id="__codelineno-0-44" name="__codelineno-0-44"></a><span class="k">def</span> <span class="nf">parse_data_dir</span><span class="p">(</span><span class="n">data_dir</span><span class="p">:</span> <span class="nb">str</span><span class="p">)</span> <span class="o">-&gt;</span> <span class="nb">dict</span><span class="p">[</span><span class="nb">str</span><span class="p">,</span> <span class="nb">str</span><span class="p">]:</span>
+<a id="__codelineno-0-45" name="__codelineno-0-45"></a><span class="w">    </span><span class="sd">&quot;&quot;&quot;Parse metadata directory and return paths to all metadata json files.</span>
 <a id="__codelineno-0-46" name="__codelineno-0-46"></a>
-<a id="__codelineno-0-47" name="__codelineno-0-47"></a><span class="sd">    Returns:</span>
-<a id="__codelineno-0-48" name="__codelineno-0-48"></a><span class="sd">        The key is metadata file name (BGC accession), and the value is path to the metadata</span>
-<a id="__codelineno-0-49" name="__codelineno-0-49"></a><span class="sd">        json file</span>
-<a id="__codelineno-0-50" name="__codelineno-0-50"></a><span class="sd">    &quot;&quot;&quot;</span>
-<a id="__codelineno-0-51" name="__codelineno-0-51"></a>    <span class="n">file_dict</span> <span class="o">=</span> <span class="p">{}</span>
-<a id="__codelineno-0-52" name="__codelineno-0-52"></a>    <span class="n">json_files</span> <span class="o">=</span> <span class="n">list_files</span><span class="p">(</span><span class="n">data_dir</span><span class="p">,</span> <span class="n">prefix</span><span class="o">=</span><span class="s2">&quot;BGC&quot;</span><span class="p">,</span> <span class="n">suffix</span><span class="o">=</span><span class="s2">&quot;.json&quot;</span><span class="p">)</span>
-<a id="__codelineno-0-53" name="__codelineno-0-53"></a>    <span class="k">for</span> <span class="n">file</span> <span class="ow">in</span> <span class="n">json_files</span><span class="p">:</span>
-<a id="__codelineno-0-54" name="__codelineno-0-54"></a>        <span class="n">fname</span> <span class="o">=</span> <span class="n">os</span><span class="o">.</span><span class="n">path</span><span class="o">.</span><span class="n">splitext</span><span class="p">(</span><span class="n">os</span><span class="o">.</span><span class="n">path</span><span class="o">.</span><span class="n">basename</span><span class="p">(</span><span class="n">file</span><span class="p">))[</span><span class="mi">0</span><span class="p">]</span>
-<a id="__codelineno-0-55" name="__codelineno-0-55"></a>        <span class="n">file_dict</span><span class="p">[</span><span class="n">fname</span><span class="p">]</span> <span class="o">=</span> <span class="n">file</span>
-<a id="__codelineno-0-56" name="__codelineno-0-56"></a>    <span class="k">return</span> <span class="n">file_dict</span>
+<a id="__codelineno-0-47" name="__codelineno-0-47"></a><span class="sd">    Args:</span>
+<a id="__codelineno-0-48" name="__codelineno-0-48"></a><span class="sd">        data_dir: path to the directory of MIBiG metadata json files</span>
+<a id="__codelineno-0-49" name="__codelineno-0-49"></a>
+<a id="__codelineno-0-50" name="__codelineno-0-50"></a><span class="sd">    Returns:</span>
+<a id="__codelineno-0-51" name="__codelineno-0-51"></a><span class="sd">        The key is metadata file name (BGC accession), and the value is path to the metadata</span>
+<a id="__codelineno-0-52" name="__codelineno-0-52"></a><span class="sd">        json file</span>
+<a id="__codelineno-0-53" name="__codelineno-0-53"></a><span class="sd">    &quot;&quot;&quot;</span>
+<a id="__codelineno-0-54" name="__codelineno-0-54"></a>    <span class="n">file_dict</span> <span class="o">=</span> <span class="p">{}</span>
+<a id="__codelineno-0-55" name="__codelineno-0-55"></a>    <span class="n">json_files</span> <span class="o">=</span> <span class="n">list_files</span><span class="p">(</span><span class="n">data_dir</span><span class="p">,</span> <span class="n">prefix</span><span class="o">=</span><span class="s2">&quot;BGC&quot;</span><span class="p">,</span> <span class="n">suffix</span><span class="o">=</span><span class="s2">&quot;.json&quot;</span><span class="p">)</span>
+<a id="__codelineno-0-56" name="__codelineno-0-56"></a>    <span class="k">for</span> <span class="n">file</span> <span class="ow">in</span> <span class="n">json_files</span><span class="p">:</span>
+<a id="__codelineno-0-57" name="__codelineno-0-57"></a>        <span class="n">fname</span> <span class="o">=</span> <span class="n">os</span><span class="o">.</span><span class="n">path</span><span class="o">.</span><span class="n">splitext</span><span class="p">(</span><span class="n">os</span><span class="o">.</span><span class="n">path</span><span class="o">.</span><span class="n">basename</span><span class="p">(</span><span class="n">file</span><span class="p">))[</span><span class="mi">0</span><span class="p">]</span>
+<a id="__codelineno-0-58" name="__codelineno-0-58"></a>        <span class="n">file_dict</span><span class="p">[</span><span class="n">fname</span><span class="p">]</span> <span class="o">=</span> <span class="n">file</span>
+<a id="__codelineno-0-59" name="__codelineno-0-59"></a>    <span class="k">return</span> <span class="n">file_dict</span>
 </code></pre></div></td></tr></table></div>
           </details>
   </div>
@@ -1887,19 +1951,19 @@ <h4 id="nplinker.genomics.mibig.MibigLoader.get_metadatas" class="doc doc-headin
 
           <details class="quote">
             <summary>Source code in <code>src/nplinker/genomics/mibig/mibig_loader.py</code></summary>
-            <div class="language-python highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal"><a href="#__codelineno-0-58">58</a></span>
-<span class="normal"><a href="#__codelineno-0-59">59</a></span>
-<span class="normal"><a href="#__codelineno-0-60">60</a></span>
-<span class="normal"><a href="#__codelineno-0-61">61</a></span>
+            <div class="language-python highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal"><a href="#__codelineno-0-61">61</a></span>
 <span class="normal"><a href="#__codelineno-0-62">62</a></span>
 <span class="normal"><a href="#__codelineno-0-63">63</a></span>
-<span class="normal"><a href="#__codelineno-0-64">64</a></span></pre></div></td><td class="code"><div><pre><span></span><code><a id="__codelineno-0-58" name="__codelineno-0-58"></a><span class="k">def</span> <span class="nf">get_metadatas</span><span class="p">(</span><span class="bp">self</span><span class="p">)</span> <span class="o">-&gt;</span> <span class="nb">dict</span><span class="p">[</span><span class="nb">str</span><span class="p">,</span> <span class="n">MibigMetadata</span><span class="p">]:</span>
-<a id="__codelineno-0-59" name="__codelineno-0-59"></a><span class="w">    </span><span class="sd">&quot;&quot;&quot;Get MibigMetadata objects.</span>
-<a id="__codelineno-0-60" name="__codelineno-0-60"></a>
-<a id="__codelineno-0-61" name="__codelineno-0-61"></a><span class="sd">    Returns:</span>
-<a id="__codelineno-0-62" name="__codelineno-0-62"></a><span class="sd">        The key is BGC accession (file name) and the value is MibigMetadata object</span>
-<a id="__codelineno-0-63" name="__codelineno-0-63"></a><span class="sd">    &quot;&quot;&quot;</span>
-<a id="__codelineno-0-64" name="__codelineno-0-64"></a>    <span class="k">return</span> <span class="bp">self</span><span class="o">.</span><span class="n">_metadata_dict</span>
+<span class="normal"><a href="#__codelineno-0-64">64</a></span>
+<span class="normal"><a href="#__codelineno-0-65">65</a></span>
+<span class="normal"><a href="#__codelineno-0-66">66</a></span>
+<span class="normal"><a href="#__codelineno-0-67">67</a></span></pre></div></td><td class="code"><div><pre><span></span><code><a id="__codelineno-0-61" name="__codelineno-0-61"></a><span class="k">def</span> <span class="nf">get_metadatas</span><span class="p">(</span><span class="bp">self</span><span class="p">)</span> <span class="o">-&gt;</span> <span class="nb">dict</span><span class="p">[</span><span class="nb">str</span><span class="p">,</span> <span class="n">MibigMetadata</span><span class="p">]:</span>
+<a id="__codelineno-0-62" name="__codelineno-0-62"></a><span class="w">    </span><span class="sd">&quot;&quot;&quot;Get MibigMetadata objects.</span>
+<a id="__codelineno-0-63" name="__codelineno-0-63"></a>
+<a id="__codelineno-0-64" name="__codelineno-0-64"></a><span class="sd">    Returns:</span>
+<a id="__codelineno-0-65" name="__codelineno-0-65"></a><span class="sd">        The key is BGC accession (file name) and the value is MibigMetadata object</span>
+<a id="__codelineno-0-66" name="__codelineno-0-66"></a><span class="sd">    &quot;&quot;&quot;</span>
+<a id="__codelineno-0-67" name="__codelineno-0-67"></a>    <span class="k">return</span> <span class="bp">self</span><span class="o">.</span><span class="n">_metadata_dict</span>
 </code></pre></div></td></tr></table></div>
           </details>
   </div>
@@ -1952,27 +2016,27 @@ <h4 id="nplinker.genomics.mibig.MibigLoader.get_bgcs" class="doc doc-heading">
 
           <details class="quote">
             <summary>Source code in <code>src/nplinker/genomics/mibig/mibig_loader.py</code></summary>
-            <div class="language-python highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal"><a href="#__codelineno-0-78">78</a></span>
-<span class="normal"><a href="#__codelineno-0-79">79</a></span>
-<span class="normal"><a href="#__codelineno-0-80">80</a></span>
-<span class="normal"><a href="#__codelineno-0-81">81</a></span>
+            <div class="language-python highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal"><a href="#__codelineno-0-81">81</a></span>
 <span class="normal"><a href="#__codelineno-0-82">82</a></span>
 <span class="normal"><a href="#__codelineno-0-83">83</a></span>
 <span class="normal"><a href="#__codelineno-0-84">84</a></span>
 <span class="normal"><a href="#__codelineno-0-85">85</a></span>
 <span class="normal"><a href="#__codelineno-0-86">86</a></span>
 <span class="normal"><a href="#__codelineno-0-87">87</a></span>
-<span class="normal"><a href="#__codelineno-0-88">88</a></span></pre></div></td><td class="code"><div><pre><span></span><code><a id="__codelineno-0-78" name="__codelineno-0-78"></a><span class="k">def</span> <span class="nf">get_bgcs</span><span class="p">(</span><span class="bp">self</span><span class="p">)</span> <span class="o">-&gt;</span> <span class="nb">list</span><span class="p">[</span><span class="n">BGC</span><span class="p">]:</span>
-<a id="__codelineno-0-79" name="__codelineno-0-79"></a><span class="w">    </span><span class="sd">&quot;&quot;&quot;Get BGC objects.</span>
-<a id="__codelineno-0-80" name="__codelineno-0-80"></a>
-<a id="__codelineno-0-81" name="__codelineno-0-81"></a><span class="sd">    The BGC objects use MiBIG accession as id and have Strain object as</span>
-<a id="__codelineno-0-82" name="__codelineno-0-82"></a><span class="sd">    their strain attribute (i.e. `BGC.strain`), where the name of the Strain</span>
-<a id="__codelineno-0-83" name="__codelineno-0-83"></a><span class="sd">    object is also MiBIG accession.</span>
-<a id="__codelineno-0-84" name="__codelineno-0-84"></a>
-<a id="__codelineno-0-85" name="__codelineno-0-85"></a><span class="sd">    Returns:</span>
-<a id="__codelineno-0-86" name="__codelineno-0-86"></a><span class="sd">        A list of BGC objects</span>
-<a id="__codelineno-0-87" name="__codelineno-0-87"></a><span class="sd">    &quot;&quot;&quot;</span>
-<a id="__codelineno-0-88" name="__codelineno-0-88"></a>    <span class="k">return</span> <span class="bp">self</span><span class="o">.</span><span class="n">_bgcs</span>
+<span class="normal"><a href="#__codelineno-0-88">88</a></span>
+<span class="normal"><a href="#__codelineno-0-89">89</a></span>
+<span class="normal"><a href="#__codelineno-0-90">90</a></span>
+<span class="normal"><a href="#__codelineno-0-91">91</a></span></pre></div></td><td class="code"><div><pre><span></span><code><a id="__codelineno-0-81" name="__codelineno-0-81"></a><span class="k">def</span> <span class="nf">get_bgcs</span><span class="p">(</span><span class="bp">self</span><span class="p">)</span> <span class="o">-&gt;</span> <span class="nb">list</span><span class="p">[</span><span class="n">BGC</span><span class="p">]:</span>
+<a id="__codelineno-0-82" name="__codelineno-0-82"></a><span class="w">    </span><span class="sd">&quot;&quot;&quot;Get BGC objects.</span>
+<a id="__codelineno-0-83" name="__codelineno-0-83"></a>
+<a id="__codelineno-0-84" name="__codelineno-0-84"></a><span class="sd">    The BGC objects use MiBIG accession as id and have Strain object as</span>
+<a id="__codelineno-0-85" name="__codelineno-0-85"></a><span class="sd">    their strain attribute (i.e. `BGC.strain`), where the name of the Strain</span>
+<a id="__codelineno-0-86" name="__codelineno-0-86"></a><span class="sd">    object is also MiBIG accession.</span>
+<a id="__codelineno-0-87" name="__codelineno-0-87"></a>
+<a id="__codelineno-0-88" name="__codelineno-0-88"></a><span class="sd">    Returns:</span>
+<a id="__codelineno-0-89" name="__codelineno-0-89"></a><span class="sd">        A list of BGC objects</span>
+<a id="__codelineno-0-90" name="__codelineno-0-90"></a><span class="sd">    &quot;&quot;&quot;</span>
+<a id="__codelineno-0-91" name="__codelineno-0-91"></a>    <span class="k">return</span> <span class="bp">self</span><span class="o">.</span><span class="n">_bgcs</span>
 </code></pre></div></td></tr></table></div>
           </details>
   </div>
@@ -2007,6 +2071,7 @@ <h3 id="nplinker.genomics.mibig.MibigMetadata" class="doc doc-heading">
 <p>MIBiG is a specification of BGC metadata and use JSON schema to
 represent BGC metadata. More details see:
 <a href="https://mibig.secondarymetabolites.org/download">https://mibig.secondarymetabolites.org/download</a>.</p>
+  
 
 
 
@@ -2046,14 +2111,7 @@ <h3 id="nplinker.genomics.mibig.MibigMetadata" class="doc doc-heading">
 
                 <details class="quote">
                   <summary>Source code in <code>src/nplinker/genomics/mibig/mibig_metadata.py</code></summary>
-                  <div class="language-python highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal"><a href="#__codelineno-0-5"> 5</a></span>
-<span class="normal"><a href="#__codelineno-0-6"> 6</a></span>
-<span class="normal"><a href="#__codelineno-0-7"> 7</a></span>
-<span class="normal"><a href="#__codelineno-0-8"> 8</a></span>
-<span class="normal"><a href="#__codelineno-0-9"> 9</a></span>
-<span class="normal"><a href="#__codelineno-0-10">10</a></span>
-<span class="normal"><a href="#__codelineno-0-11">11</a></span>
-<span class="normal"><a href="#__codelineno-0-12">12</a></span>
+                  <div class="language-python highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal"><a href="#__codelineno-0-12">12</a></span>
 <span class="normal"><a href="#__codelineno-0-13">13</a></span>
 <span class="normal"><a href="#__codelineno-0-14">14</a></span>
 <span class="normal"><a href="#__codelineno-0-15">15</a></span>
@@ -2065,26 +2123,25 @@ <h3 id="nplinker.genomics.mibig.MibigMetadata" class="doc doc-heading">
 <span class="normal"><a href="#__codelineno-0-21">21</a></span>
 <span class="normal"><a href="#__codelineno-0-22">22</a></span>
 <span class="normal"><a href="#__codelineno-0-23">23</a></span>
-<span class="normal"><a href="#__codelineno-0-24">24</a></span></pre></div></td><td class="code"><div><pre><span></span><code><a id="__codelineno-0-5" name="__codelineno-0-5"></a><span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">file</span><span class="p">:</span> <span class="nb">str</span><span class="p">)</span> <span class="o">-&gt;</span> <span class="kc">None</span><span class="p">:</span>
-<a id="__codelineno-0-6" name="__codelineno-0-6"></a><span class="w">    </span><span class="sd">&quot;&quot;&quot;Class to model the BGC metadata/annotations defined in MIBiG.</span>
-<a id="__codelineno-0-7" name="__codelineno-0-7"></a>
-<a id="__codelineno-0-8" name="__codelineno-0-8"></a><span class="sd">    MIBiG is a specification of BGC metadata and use JSON schema to</span>
-<a id="__codelineno-0-9" name="__codelineno-0-9"></a><span class="sd">    represent BGC metadata. More details see:</span>
-<a id="__codelineno-0-10" name="__codelineno-0-10"></a><span class="sd">    https://mibig.secondarymetabolites.org/download.</span>
-<a id="__codelineno-0-11" name="__codelineno-0-11"></a>
-<a id="__codelineno-0-12" name="__codelineno-0-12"></a><span class="sd">    Args:</span>
-<a id="__codelineno-0-13" name="__codelineno-0-13"></a><span class="sd">        file: Path to the json file of MIBiG BGC metadata</span>
+<span class="normal"><a href="#__codelineno-0-24">24</a></span>
+<span class="normal"><a href="#__codelineno-0-25">25</a></span>
+<span class="normal"><a href="#__codelineno-0-26">26</a></span>
+<span class="normal"><a href="#__codelineno-0-27">27</a></span></pre></div></td><td class="code"><div><pre><span></span><code><a id="__codelineno-0-12" name="__codelineno-0-12"></a><span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">file</span><span class="p">:</span> <span class="nb">str</span><span class="p">)</span> <span class="o">-&gt;</span> <span class="kc">None</span><span class="p">:</span>
+<a id="__codelineno-0-13" name="__codelineno-0-13"></a><span class="w">    </span><span class="sd">&quot;&quot;&quot;Initialize the MIBiG metadata object.</span>
 <a id="__codelineno-0-14" name="__codelineno-0-14"></a>
-<a id="__codelineno-0-15" name="__codelineno-0-15"></a><span class="sd">    Examples:</span>
-<a id="__codelineno-0-16" name="__codelineno-0-16"></a><span class="sd">        &gt;&gt;&gt; metadata = MibigMetadata(&quot;/data/BGC0000001.json&quot;)</span>
-<a id="__codelineno-0-17" name="__codelineno-0-17"></a><span class="sd">    &quot;&quot;&quot;</span>
-<a id="__codelineno-0-18" name="__codelineno-0-18"></a>    <span class="bp">self</span><span class="o">.</span><span class="n">file</span> <span class="o">=</span> <span class="n">file</span>
-<a id="__codelineno-0-19" name="__codelineno-0-19"></a>    <span class="k">with</span> <span class="nb">open</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">file</span><span class="p">,</span> <span class="s2">&quot;rb&quot;</span><span class="p">)</span> <span class="k">as</span> <span class="n">f</span><span class="p">:</span>
-<a id="__codelineno-0-20" name="__codelineno-0-20"></a>        <span class="bp">self</span><span class="o">.</span><span class="n">metadata</span> <span class="o">=</span> <span class="n">json</span><span class="o">.</span><span class="n">load</span><span class="p">(</span><span class="n">f</span><span class="p">)</span>
-<a id="__codelineno-0-21" name="__codelineno-0-21"></a>
-<a id="__codelineno-0-22" name="__codelineno-0-22"></a>    <span class="bp">self</span><span class="o">.</span><span class="n">_mibig_accession</span><span class="p">:</span> <span class="nb">str</span>
-<a id="__codelineno-0-23" name="__codelineno-0-23"></a>    <span class="bp">self</span><span class="o">.</span><span class="n">_biosyn_class</span><span class="p">:</span> <span class="nb">tuple</span><span class="p">[</span><span class="nb">str</span><span class="p">]</span>
-<a id="__codelineno-0-24" name="__codelineno-0-24"></a>    <span class="bp">self</span><span class="o">.</span><span class="n">_parse_metadata</span><span class="p">()</span>
+<a id="__codelineno-0-15" name="__codelineno-0-15"></a><span class="sd">    Args:</span>
+<a id="__codelineno-0-16" name="__codelineno-0-16"></a><span class="sd">        file: Path to the json file of MIBiG BGC metadata</span>
+<a id="__codelineno-0-17" name="__codelineno-0-17"></a>
+<a id="__codelineno-0-18" name="__codelineno-0-18"></a><span class="sd">    Examples:</span>
+<a id="__codelineno-0-19" name="__codelineno-0-19"></a><span class="sd">        &gt;&gt;&gt; metadata = MibigMetadata(&quot;/data/BGC0000001.json&quot;)</span>
+<a id="__codelineno-0-20" name="__codelineno-0-20"></a><span class="sd">    &quot;&quot;&quot;</span>
+<a id="__codelineno-0-21" name="__codelineno-0-21"></a>    <span class="bp">self</span><span class="o">.</span><span class="n">file</span> <span class="o">=</span> <span class="n">file</span>
+<a id="__codelineno-0-22" name="__codelineno-0-22"></a>    <span class="k">with</span> <span class="nb">open</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">file</span><span class="p">,</span> <span class="s2">&quot;rb&quot;</span><span class="p">)</span> <span class="k">as</span> <span class="n">f</span><span class="p">:</span>
+<a id="__codelineno-0-23" name="__codelineno-0-23"></a>        <span class="bp">self</span><span class="o">.</span><span class="n">metadata</span> <span class="o">=</span> <span class="n">json</span><span class="o">.</span><span class="n">load</span><span class="p">(</span><span class="n">f</span><span class="p">)</span>
+<a id="__codelineno-0-24" name="__codelineno-0-24"></a>
+<a id="__codelineno-0-25" name="__codelineno-0-25"></a>    <span class="bp">self</span><span class="o">.</span><span class="n">_mibig_accession</span><span class="p">:</span> <span class="nb">str</span>
+<a id="__codelineno-0-26" name="__codelineno-0-26"></a>    <span class="bp">self</span><span class="o">.</span><span class="n">_biosyn_class</span><span class="p">:</span> <span class="nb">tuple</span><span class="p">[</span><span class="nb">str</span><span class="p">]</span>
+<a id="__codelineno-0-27" name="__codelineno-0-27"></a>    <span class="bp">self</span><span class="o">.</span><span class="n">_parse_metadata</span><span class="p">()</span>
 </code></pre></div></td></tr></table></div>
                 </details>
 
@@ -2098,6 +2155,48 @@ <h3 id="nplinker.genomics.mibig.MibigMetadata" class="doc doc-heading">
 
 
 
+<div class="doc doc-object doc-attribute">
+
+
+
+<h4 id="nplinker.genomics.mibig.MibigMetadata.file" class="doc doc-heading">
+<code class="doc-symbol doc-symbol-heading doc-symbol-attribute"></code>          <span class="doc doc-object-name doc-attribute-name">file</span>
+
+  
+  <span class="doc doc-labels">
+      <small class="doc doc-label doc-label-instance-attribute"><code>instance-attribute</code></small>
+  </span>
+
+<a href="#nplinker.genomics.mibig.MibigMetadata.file" class="headerlink" title="Permanent link">&para;</a></h4>
+<div class="language-python doc-signature highlight"><pre><span></span><code><a id="__codelineno-0-1" name="__codelineno-0-1" href="#__codelineno-0-1"></a><span class="n">file</span> <span class="o">=</span> <span class="n"><a class="autorefs autorefs-internal" title="nplinker.genomics.mibig.mibig_metadata.MibigMetadata.file" href="#nplinker.genomics.mibig.MibigMetadata.file">file</a></span>
+</code></pre></div>
+
+  <div class="doc doc-contents ">
+  </div>
+
+</div>
+
+<div class="doc doc-object doc-attribute">
+
+
+
+<h4 id="nplinker.genomics.mibig.MibigMetadata.metadata" class="doc doc-heading">
+<code class="doc-symbol doc-symbol-heading doc-symbol-attribute"></code>          <span class="doc doc-object-name doc-attribute-name">metadata</span>
+
+  
+  <span class="doc doc-labels">
+      <small class="doc doc-label doc-label-instance-attribute"><code>instance-attribute</code></small>
+  </span>
+
+<a href="#nplinker.genomics.mibig.MibigMetadata.metadata" class="headerlink" title="Permanent link">&para;</a></h4>
+<div class="language-python doc-signature highlight"><pre><span></span><code><a id="__codelineno-0-1" name="__codelineno-0-1" href="#__codelineno-0-1"></a><span class="n">metadata</span> <span class="o">=</span> <span class="n"><a class="autorefs autorefs-external" title="json.load" href="https://docs.python.org/3/library/json.html#json.load">load</a></span><span class="p">(</span><span class="n">f</span><span class="p">)</span>
+</code></pre></div>
+
+  <div class="doc doc-contents ">
+  </div>
+
+</div>
+
 <div class="doc doc-object doc-attribute">
 
 
@@ -2440,10 +2539,7 @@ <h3 id="nplinker.genomics.mibig.parse_bgc_metadata_json" class="doc doc-heading"
 
           <details class="quote">
             <summary>Source code in <code>src/nplinker/genomics/mibig/mibig_loader.py</code></summary>
-            <div class="language-python highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal"><a href="#__codelineno-0-99"> 99</a></span>
-<span class="normal"><a href="#__codelineno-0-100">100</a></span>
-<span class="normal"><a href="#__codelineno-0-101">101</a></span>
-<span class="normal"><a href="#__codelineno-0-102">102</a></span>
+            <div class="language-python highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal"><a href="#__codelineno-0-102">102</a></span>
 <span class="normal"><a href="#__codelineno-0-103">103</a></span>
 <span class="normal"><a href="#__codelineno-0-104">104</a></span>
 <span class="normal"><a href="#__codelineno-0-105">105</a></span>
@@ -2456,23 +2552,26 @@ <h3 id="nplinker.genomics.mibig.parse_bgc_metadata_json" class="doc doc-heading"
 <span class="normal"><a href="#__codelineno-0-112">112</a></span>
 <span class="normal"><a href="#__codelineno-0-113">113</a></span>
 <span class="normal"><a href="#__codelineno-0-114">114</a></span>
-<span class="normal"><a href="#__codelineno-0-115">115</a></span></pre></div></td><td class="code"><div><pre><span></span><code><a id="__codelineno-0-99" name="__codelineno-0-99"></a><span class="k">def</span> <span class="nf">parse_bgc_metadata_json</span><span class="p">(</span><span class="n">file</span><span class="p">:</span> <span class="nb">str</span><span class="p">)</span> <span class="o">-&gt;</span> <span class="n">BGC</span><span class="p">:</span>
-<a id="__codelineno-0-100" name="__codelineno-0-100"></a><span class="w">    </span><span class="sd">&quot;&quot;&quot;Parse MIBiG metadata file and return BGC object.</span>
-<a id="__codelineno-0-101" name="__codelineno-0-101"></a>
-<a id="__codelineno-0-102" name="__codelineno-0-102"></a><span class="sd">    Note that the MiBIG accession is used as the BGC id and strain name. The BGC</span>
-<a id="__codelineno-0-103" name="__codelineno-0-103"></a><span class="sd">    object has Strain object as its strain attribute.</span>
+<span class="normal"><a href="#__codelineno-0-115">115</a></span>
+<span class="normal"><a href="#__codelineno-0-116">116</a></span>
+<span class="normal"><a href="#__codelineno-0-117">117</a></span>
+<span class="normal"><a href="#__codelineno-0-118">118</a></span></pre></div></td><td class="code"><div><pre><span></span><code><a id="__codelineno-0-102" name="__codelineno-0-102"></a><span class="k">def</span> <span class="nf">parse_bgc_metadata_json</span><span class="p">(</span><span class="n">file</span><span class="p">:</span> <span class="nb">str</span><span class="p">)</span> <span class="o">-&gt;</span> <span class="n">BGC</span><span class="p">:</span>
+<a id="__codelineno-0-103" name="__codelineno-0-103"></a><span class="w">    </span><span class="sd">&quot;&quot;&quot;Parse MIBiG metadata file and return BGC object.</span>
 <a id="__codelineno-0-104" name="__codelineno-0-104"></a>
-<a id="__codelineno-0-105" name="__codelineno-0-105"></a><span class="sd">    Args:</span>
-<a id="__codelineno-0-106" name="__codelineno-0-106"></a><span class="sd">        file: Path to the MIBiG metadata json file</span>
+<a id="__codelineno-0-105" name="__codelineno-0-105"></a><span class="sd">    Note that the MiBIG accession is used as the BGC id and strain name. The BGC</span>
+<a id="__codelineno-0-106" name="__codelineno-0-106"></a><span class="sd">    object has Strain object as its strain attribute.</span>
 <a id="__codelineno-0-107" name="__codelineno-0-107"></a>
-<a id="__codelineno-0-108" name="__codelineno-0-108"></a><span class="sd">    Returns:</span>
-<a id="__codelineno-0-109" name="__codelineno-0-109"></a><span class="sd">        BGC object</span>
-<a id="__codelineno-0-110" name="__codelineno-0-110"></a><span class="sd">    &quot;&quot;&quot;</span>
-<a id="__codelineno-0-111" name="__codelineno-0-111"></a>    <span class="n">metadata</span> <span class="o">=</span> <span class="n">MibigMetadata</span><span class="p">(</span><span class="n">file</span><span class="p">)</span>
-<a id="__codelineno-0-112" name="__codelineno-0-112"></a>    <span class="n">mibig_bgc</span> <span class="o">=</span> <span class="n">BGC</span><span class="p">(</span><span class="n">metadata</span><span class="o">.</span><span class="n">mibig_accession</span><span class="p">,</span> <span class="o">*</span><span class="n">metadata</span><span class="o">.</span><span class="n">biosyn_class</span><span class="p">)</span>
-<a id="__codelineno-0-113" name="__codelineno-0-113"></a>    <span class="n">mibig_bgc</span><span class="o">.</span><span class="n">mibig_bgc_class</span> <span class="o">=</span> <span class="n">metadata</span><span class="o">.</span><span class="n">biosyn_class</span>
-<a id="__codelineno-0-114" name="__codelineno-0-114"></a>    <span class="n">mibig_bgc</span><span class="o">.</span><span class="n">strain</span> <span class="o">=</span> <span class="n">Strain</span><span class="p">(</span><span class="n">metadata</span><span class="o">.</span><span class="n">mibig_accession</span><span class="p">)</span>
-<a id="__codelineno-0-115" name="__codelineno-0-115"></a>    <span class="k">return</span> <span class="n">mibig_bgc</span>
+<a id="__codelineno-0-108" name="__codelineno-0-108"></a><span class="sd">    Args:</span>
+<a id="__codelineno-0-109" name="__codelineno-0-109"></a><span class="sd">        file: Path to the MIBiG metadata json file</span>
+<a id="__codelineno-0-110" name="__codelineno-0-110"></a>
+<a id="__codelineno-0-111" name="__codelineno-0-111"></a><span class="sd">    Returns:</span>
+<a id="__codelineno-0-112" name="__codelineno-0-112"></a><span class="sd">        BGC object</span>
+<a id="__codelineno-0-113" name="__codelineno-0-113"></a><span class="sd">    &quot;&quot;&quot;</span>
+<a id="__codelineno-0-114" name="__codelineno-0-114"></a>    <span class="n">metadata</span> <span class="o">=</span> <span class="n">MibigMetadata</span><span class="p">(</span><span class="n">file</span><span class="p">)</span>
+<a id="__codelineno-0-115" name="__codelineno-0-115"></a>    <span class="n">mibig_bgc</span> <span class="o">=</span> <span class="n">BGC</span><span class="p">(</span><span class="n">metadata</span><span class="o">.</span><span class="n">mibig_accession</span><span class="p">,</span> <span class="o">*</span><span class="n">metadata</span><span class="o">.</span><span class="n">biosyn_class</span><span class="p">)</span>
+<a id="__codelineno-0-116" name="__codelineno-0-116"></a>    <span class="n">mibig_bgc</span><span class="o">.</span><span class="n">mibig_bgc_class</span> <span class="o">=</span> <span class="n">metadata</span><span class="o">.</span><span class="n">biosyn_class</span>
+<a id="__codelineno-0-117" name="__codelineno-0-117"></a>    <span class="n">mibig_bgc</span><span class="o">.</span><span class="n">strain</span> <span class="o">=</span> <span class="n">Strain</span><span class="p">(</span><span class="n">metadata</span><span class="o">.</span><span class="n">mibig_accession</span><span class="p">)</span>
+<a id="__codelineno-0-118" name="__codelineno-0-118"></a>    <span class="k">return</span> <span class="n">mibig_bgc</span>
 </code></pre></div></td></tr></table></div>
           </details>
   </div>
diff --git a/dev/api/nplinker/index.html b/dev/api/nplinker/index.html
index cd00c621..30e83574 100644
--- a/dev/api/nplinker/index.html
+++ b/dev/api/nplinker/index.html
@@ -741,6 +741,15 @@
     <nav class="md-nav" aria-label=" nplinker">
       <ul class="md-nav__list">
         
+          <li class="md-nav__item">
+  <a href="#nplinker.nplinker.logger" class="md-nav__link">
+    <span class="md-ellipsis">
+      <code class="doc-symbol doc-symbol-toc doc-symbol-attribute"></code>&nbsp;logger
+    </span>
+  </a>
+  
+</li>
+        
           <li class="md-nav__item">
   <a href="#nplinker.nplinker.NPLinker" class="md-nav__link">
     <span class="md-ellipsis">
@@ -751,6 +760,24 @@
     <nav class="md-nav" aria-label=" NPLinker">
       <ul class="md-nav__list">
         
+          <li class="md-nav__item">
+  <a href="#nplinker.nplinker.NPLinker.OBJ_CLASSES" class="md-nav__link">
+    <span class="md-ellipsis">
+      <code class="doc-symbol doc-symbol-toc doc-symbol-attribute"></code>&nbsp;OBJ_CLASSES
+    </span>
+  </a>
+  
+</li>
+        
+          <li class="md-nav__item">
+  <a href="#nplinker.nplinker.NPLinker.SCORING_METHODS" class="md-nav__link">
+    <span class="md-ellipsis">
+      <code class="doc-symbol doc-symbol-toc doc-symbol-attribute"></code>&nbsp;SCORING_METHODS
+    </span>
+  </a>
+  
+</li>
+        
           <li class="md-nav__item">
   <a href="#nplinker.nplinker.NPLinker.root_dir" class="md-nav__link">
     <span class="md-ellipsis">
@@ -821,6 +848,15 @@
     </span>
   </a>
   
+</li>
+        
+          <li class="md-nav__item">
+  <a href="#nplinker.nplinker.NPLinker.metadata" class="md-nav__link">
+    <span class="md-ellipsis">
+      <code class="doc-symbol doc-symbol-toc doc-symbol-attribute"></code>&nbsp;metadata
+    </span>
+  </a>
+  
 </li>
         
           <li class="md-nav__item">
@@ -875,6 +911,15 @@
     </span>
   </a>
   
+</li>
+        
+          <li class="md-nav__item">
+  <a href="#nplinker.nplinker.NPLinker.save_repro_data" class="md-nav__link">
+    <span class="md-ellipsis">
+      <code class="doc-symbol doc-symbol-toc doc-symbol-method"></code>&nbsp;save_repro_data
+    </span>
+  </a>
+  
 </li>
         
           <li class="md-nav__item">
@@ -1513,6 +1558,15 @@
     <nav class="md-nav" aria-label=" nplinker">
       <ul class="md-nav__list">
         
+          <li class="md-nav__item">
+  <a href="#nplinker.nplinker.logger" class="md-nav__link">
+    <span class="md-ellipsis">
+      <code class="doc-symbol doc-symbol-toc doc-symbol-attribute"></code>&nbsp;logger
+    </span>
+  </a>
+  
+</li>
+        
           <li class="md-nav__item">
   <a href="#nplinker.nplinker.NPLinker" class="md-nav__link">
     <span class="md-ellipsis">
@@ -1523,6 +1577,24 @@
     <nav class="md-nav" aria-label=" NPLinker">
       <ul class="md-nav__list">
         
+          <li class="md-nav__item">
+  <a href="#nplinker.nplinker.NPLinker.OBJ_CLASSES" class="md-nav__link">
+    <span class="md-ellipsis">
+      <code class="doc-symbol doc-symbol-toc doc-symbol-attribute"></code>&nbsp;OBJ_CLASSES
+    </span>
+  </a>
+  
+</li>
+        
+          <li class="md-nav__item">
+  <a href="#nplinker.nplinker.NPLinker.SCORING_METHODS" class="md-nav__link">
+    <span class="md-ellipsis">
+      <code class="doc-symbol doc-symbol-toc doc-symbol-attribute"></code>&nbsp;SCORING_METHODS
+    </span>
+  </a>
+  
+</li>
+        
           <li class="md-nav__item">
   <a href="#nplinker.nplinker.NPLinker.root_dir" class="md-nav__link">
     <span class="md-ellipsis">
@@ -1593,6 +1665,15 @@
     </span>
   </a>
   
+</li>
+        
+          <li class="md-nav__item">
+  <a href="#nplinker.nplinker.NPLinker.metadata" class="md-nav__link">
+    <span class="md-ellipsis">
+      <code class="doc-symbol doc-symbol-toc doc-symbol-attribute"></code>&nbsp;metadata
+    </span>
+  </a>
+  
 </li>
         
           <li class="md-nav__item">
@@ -1647,6 +1728,15 @@
     </span>
   </a>
   
+</li>
+        
+          <li class="md-nav__item">
+  <a href="#nplinker.nplinker.NPLinker.save_repro_data" class="md-nav__link">
+    <span class="md-ellipsis">
+      <code class="doc-symbol doc-symbol-toc doc-symbol-method"></code>&nbsp;save_repro_data
+    </span>
+  </a>
+  
 </li>
         
           <li class="md-nav__item">
@@ -1782,6 +1872,27 @@ <h2 id="nplinker.nplinker" class="doc doc-heading">
 
 
 
+<div class="doc doc-object doc-attribute">
+
+
+
+<h3 id="nplinker.nplinker.logger" class="doc doc-heading">
+<code class="doc-symbol doc-symbol-heading doc-symbol-attribute"></code>          <span class="doc doc-object-name doc-attribute-name">logger</span>
+
+  
+  <span class="doc doc-labels">
+      <small class="doc doc-label doc-label-module-attribute"><code>module-attribute</code></small>
+  </span>
+
+<a href="#nplinker.nplinker.logger" class="headerlink" title="Permanent link">&para;</a></h3>
+<div class="language-python doc-signature highlight"><pre><span></span><code><a id="__codelineno-0-1" name="__codelineno-0-1" href="#__codelineno-0-1"></a><span class="n">logger</span> <span class="o">=</span> <span class="n"><span title="nplinker.logconfig.LogConfig.getLogger">getLogger</span></span><span class="p">(</span><span class="n"><a class="autorefs autorefs-external" href="https://docs.python.org/3/reference/import.html#name__">__name__</a></span><span class="p">)</span>
+</code></pre></div>
+
+  <div class="doc doc-contents ">
+  </div>
+
+</div>
+
 
 <div class="doc doc-object doc-class">
 
@@ -1797,8 +1908,6 @@ <h3 id="nplinker.nplinker.NPLinker" class="doc doc-heading">
 
   <div class="doc doc-contents ">
 
-  
-      <p>Initialise an NPLinker instance.</p>
 
                 <details class="quote">
                   <summary>Source code in <code>src/nplinker/nplinker.py</code></summary>
@@ -1910,6 +2019,50 @@ <h3 id="nplinker.nplinker.NPLinker" class="doc doc-heading">
 
 
 
+<div class="doc doc-object doc-attribute">
+
+
+
+<h4 id="nplinker.nplinker.NPLinker.OBJ_CLASSES" class="doc doc-heading">
+<code class="doc-symbol doc-symbol-heading doc-symbol-attribute"></code>          <span class="doc doc-object-name doc-attribute-name">OBJ_CLASSES</span>
+
+  
+  <span class="doc doc-labels">
+      <small class="doc doc-label doc-label-class-attribute"><code>class-attribute</code></small>
+      <small class="doc doc-label doc-label-instance-attribute"><code>instance-attribute</code></small>
+  </span>
+
+<a href="#nplinker.nplinker.NPLinker.OBJ_CLASSES" class="headerlink" title="Permanent link">&para;</a></h4>
+<div class="language-python doc-signature highlight"><pre><span></span><code><a id="__codelineno-0-1" name="__codelineno-0-1" href="#__codelineno-0-1"></a><span class="n">OBJ_CLASSES</span> <span class="o">=</span> <span class="p">[</span><span class="n"><a class="autorefs autorefs-internal" title="nplinker.metabolomics.Spectrum" href="../metabolomics/#nplinker.metabolomics.Spectrum">Spectrum</a></span><span class="p">,</span> <span class="n"><a class="autorefs autorefs-internal" title="nplinker.metabolomics.MolecularFamily" href="../metabolomics/#nplinker.metabolomics.MolecularFamily">MolecularFamily</a></span><span class="p">,</span> <span class="n"><a class="autorefs autorefs-internal" title="nplinker.genomics.GCF" href="../genomics/#nplinker.genomics.GCF">GCF</a></span><span class="p">,</span> <span class="n"><a class="autorefs autorefs-internal" title="nplinker.genomics.BGC" href="../genomics/#nplinker.genomics.BGC">BGC</a></span><span class="p">]</span>
+</code></pre></div>
+
+  <div class="doc doc-contents ">
+  </div>
+
+</div>
+
+<div class="doc doc-object doc-attribute">
+
+
+
+<h4 id="nplinker.nplinker.NPLinker.SCORING_METHODS" class="doc doc-heading">
+<code class="doc-symbol doc-symbol-heading doc-symbol-attribute"></code>          <span class="doc doc-object-name doc-attribute-name">SCORING_METHODS</span>
+
+  
+  <span class="doc doc-labels">
+      <small class="doc doc-label doc-label-class-attribute"><code>class-attribute</code></small>
+      <small class="doc doc-label doc-label-instance-attribute"><code>instance-attribute</code></small>
+  </span>
+
+<a href="#nplinker.nplinker.NPLinker.SCORING_METHODS" class="headerlink" title="Permanent link">&para;</a></h4>
+<div class="language-python doc-signature highlight"><pre><span></span><code><a id="__codelineno-0-1" name="__codelineno-0-1" href="#__codelineno-0-1"></a><span class="n">SCORING_METHODS</span> <span class="o">=</span> <span class="p">{</span><span class="n"><a class="autorefs autorefs-internal" title="nplinker.scoring.metcalf_scoring.MetcalfScoring.NAME" href="../scoring/#nplinker.scoring.MetcalfScoring.NAME">NAME</a></span><span class="p">:</span> <span class="n"><a class="autorefs autorefs-internal" title="nplinker.scoring.metcalf_scoring.MetcalfScoring" href="../scoring/#nplinker.scoring.MetcalfScoring">MetcalfScoring</a></span><span class="p">,</span> <span class="n"><span title="nplinker.scoring.rosetta_scoring.RosettaScoring.NAME">NAME</span></span><span class="p">:</span> <span class="n"><span title="nplinker.scoring.rosetta_scoring.RosettaScoring">RosettaScoring</span></span><span class="p">,</span> <span class="n"><span title="nplinker.scoring.np_class_scoring.NPClassScoring.NAME">NAME</span></span><span class="p">:</span> <span class="n"><span title="nplinker.scoring.np_class_scoring.NPClassScoring">NPClassScoring</span></span><span class="p">}</span>
+</code></pre></div>
+
+  <div class="doc doc-contents ">
+  </div>
+
+</div>
+
 <div class="doc doc-object doc-attribute">
 
 
@@ -2122,6 +2275,27 @@ <h4 id="nplinker.nplinker.NPLinker.molfams" class="doc doc-heading">
 
 
 
+<h4 id="nplinker.nplinker.NPLinker.metadata" class="doc doc-heading">
+<code class="doc-symbol doc-symbol-heading doc-symbol-attribute"></code>          <span class="doc doc-object-name doc-attribute-name">metadata</span>
+
+  
+  <span class="doc doc-labels">
+      <small class="doc doc-label doc-label-property"><code>property</code></small>
+  </span>
+
+<a href="#nplinker.nplinker.NPLinker.metadata" class="headerlink" title="Permanent link">&para;</a></h4>
+<div class="language-python doc-signature highlight"><pre><span></span><code><a id="__codelineno-0-1" name="__codelineno-0-1" href="#__codelineno-0-1"></a><span class="n">metadata</span>
+</code></pre></div>
+
+  <div class="doc doc-contents ">
+  </div>
+
+</div>
+
+<div class="doc doc-object doc-attribute">
+
+
+
 <h4 id="nplinker.nplinker.NPLinker.mibig_bgcs" class="doc doc-heading">
 <code class="doc-symbol doc-symbol-heading doc-symbol-attribute"></code>          <span class="doc doc-object-name doc-attribute-name">mibig_bgcs</span>
 
@@ -2263,6 +2437,40 @@ <h4 id="nplinker.nplinker.NPLinker.class_matches" class="doc doc-heading">
 
 
 
+<h4 id="nplinker.nplinker.NPLinker.save_repro_data" class="doc doc-heading">
+<code class="doc-symbol doc-symbol-heading doc-symbol-method"></code>          <span class="doc doc-object-name doc-function-name">save_repro_data</span>
+
+
+<a href="#nplinker.nplinker.NPLinker.save_repro_data" class="headerlink" title="Permanent link">&para;</a></h4>
+<div class="language-python doc-signature highlight"><pre><span></span><code><a id="__codelineno-0-1" name="__codelineno-0-1" href="#__codelineno-0-1"></a><span class="n">save_repro_data</span><span class="p">(</span><span class="n">filename</span><span class="p">)</span>
+</code></pre></div>
+
+  <div class="doc doc-contents ">
+
+          <details class="quote">
+            <summary>Source code in <code>src/nplinker/nplinker.py</code></summary>
+            <div class="language-python highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal"><a href="#__codelineno-0-115">115</a></span>
+<span class="normal"><a href="#__codelineno-0-116">116</a></span>
+<span class="normal"><a href="#__codelineno-0-117">117</a></span>
+<span class="normal"><a href="#__codelineno-0-118">118</a></span>
+<span class="normal"><a href="#__codelineno-0-119">119</a></span>
+<span class="normal"><a href="#__codelineno-0-120">120</a></span></pre></div></td><td class="code"><div><pre><span></span><code><a id="__codelineno-0-115" name="__codelineno-0-115"></a><span class="k">def</span> <span class="nf">save_repro_data</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">filename</span><span class="p">):</span>
+<a id="__codelineno-0-116" name="__codelineno-0-116"></a>    <span class="bp">self</span><span class="o">.</span><span class="n">_collect_repro_data</span><span class="p">()</span>
+<a id="__codelineno-0-117" name="__codelineno-0-117"></a>    <span class="k">with</span> <span class="nb">open</span><span class="p">(</span><span class="n">filename</span><span class="p">,</span> <span class="s2">&quot;wb&quot;</span><span class="p">)</span> <span class="k">as</span> <span class="n">repro_file</span><span class="p">:</span>
+<a id="__codelineno-0-118" name="__codelineno-0-118"></a>        <span class="c1"># TODO is pickle the best format to use?</span>
+<a id="__codelineno-0-119" name="__codelineno-0-119"></a>        <span class="n">save_pickled_data</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">_repro_data</span><span class="p">,</span> <span class="n">repro_file</span><span class="p">)</span>
+<a id="__codelineno-0-120" name="__codelineno-0-120"></a>        <span class="n">logger</span><span class="o">.</span><span class="n">info</span><span class="p">(</span><span class="sa">f</span><span class="s2">&quot;Saving reproducibility data to </span><span class="si">{</span><span class="n">filename</span><span class="si">}</span><span class="s2">&quot;</span><span class="p">)</span>
+</code></pre></div></td></tr></table></div>
+          </details>
+  </div>
+
+</div>
+
+
+<div class="doc doc-object doc-function">
+
+
+
 <h4 id="nplinker.nplinker.NPLinker.load_data" class="doc doc-heading">
 <code class="doc-symbol doc-symbol-heading doc-symbol-method"></code>          <span class="doc doc-object-name doc-function-name">load_data</span>
 
diff --git a/dev/api/schema/index.html b/dev/api/schema/index.html
index c4e30732..243be52e 100644
--- a/dev/api/schema/index.html
+++ b/dev/api/schema/index.html
@@ -1215,6 +1215,60 @@
     <nav class="md-nav" aria-label=" schemas">
       <ul class="md-nav__list">
         
+          <li class="md-nav__item">
+  <a href="#nplinker.schemas.PODP_ADAPTED_SCHEMA" class="md-nav__link">
+    <span class="md-ellipsis">
+      <code class="doc-symbol doc-symbol-toc doc-symbol-attribute"></code>&nbsp;PODP_ADAPTED_SCHEMA
+    </span>
+  </a>
+  
+</li>
+        
+          <li class="md-nav__item">
+  <a href="#nplinker.schemas.SCHEMA_DIR" class="md-nav__link">
+    <span class="md-ellipsis">
+      <code class="doc-symbol doc-symbol-toc doc-symbol-attribute"></code>&nbsp;SCHEMA_DIR
+    </span>
+  </a>
+  
+</li>
+        
+          <li class="md-nav__item">
+  <a href="#nplinker.schemas.GENOME_STATUS_SCHEMA" class="md-nav__link">
+    <span class="md-ellipsis">
+      <code class="doc-symbol doc-symbol-toc doc-symbol-attribute"></code>&nbsp;GENOME_STATUS_SCHEMA
+    </span>
+  </a>
+  
+</li>
+        
+          <li class="md-nav__item">
+  <a href="#nplinker.schemas.GENOME_BGC_MAPPINGS_SCHEMA" class="md-nav__link">
+    <span class="md-ellipsis">
+      <code class="doc-symbol doc-symbol-toc doc-symbol-attribute"></code>&nbsp;GENOME_BGC_MAPPINGS_SCHEMA
+    </span>
+  </a>
+  
+</li>
+        
+          <li class="md-nav__item">
+  <a href="#nplinker.schemas.STRAIN_MAPPINGS_SCHEMA" class="md-nav__link">
+    <span class="md-ellipsis">
+      <code class="doc-symbol doc-symbol-toc doc-symbol-attribute"></code>&nbsp;STRAIN_MAPPINGS_SCHEMA
+    </span>
+  </a>
+  
+</li>
+        
+          <li class="md-nav__item">
+  <a href="#nplinker.schemas.USER_STRAINS_SCHEMA" class="md-nav__link">
+    <span class="md-ellipsis">
+      <code class="doc-symbol doc-symbol-toc doc-symbol-attribute"></code>&nbsp;USER_STRAINS_SCHEMA
+    </span>
+  </a>
+  
+</li>
+        
           <li class="md-nav__item">
   <a href="#nplinker.schemas.validate_podp_json" class="md-nav__link">
     <span class="md-ellipsis">
@@ -1300,6 +1354,60 @@
     <nav class="md-nav" aria-label=" schemas">
       <ul class="md-nav__list">
         
+          <li class="md-nav__item">
+  <a href="#nplinker.schemas.PODP_ADAPTED_SCHEMA" class="md-nav__link">
+    <span class="md-ellipsis">
+      <code class="doc-symbol doc-symbol-toc doc-symbol-attribute"></code>&nbsp;PODP_ADAPTED_SCHEMA
+    </span>
+  </a>
+  
+</li>
+        
+          <li class="md-nav__item">
+  <a href="#nplinker.schemas.SCHEMA_DIR" class="md-nav__link">
+    <span class="md-ellipsis">
+      <code class="doc-symbol doc-symbol-toc doc-symbol-attribute"></code>&nbsp;SCHEMA_DIR
+    </span>
+  </a>
+  
+</li>
+        
+          <li class="md-nav__item">
+  <a href="#nplinker.schemas.GENOME_STATUS_SCHEMA" class="md-nav__link">
+    <span class="md-ellipsis">
+      <code class="doc-symbol doc-symbol-toc doc-symbol-attribute"></code>&nbsp;GENOME_STATUS_SCHEMA
+    </span>
+  </a>
+  
+</li>
+        
+          <li class="md-nav__item">
+  <a href="#nplinker.schemas.GENOME_BGC_MAPPINGS_SCHEMA" class="md-nav__link">
+    <span class="md-ellipsis">
+      <code class="doc-symbol doc-symbol-toc doc-symbol-attribute"></code>&nbsp;GENOME_BGC_MAPPINGS_SCHEMA
+    </span>
+  </a>
+  
+</li>
+        
+          <li class="md-nav__item">
+  <a href="#nplinker.schemas.STRAIN_MAPPINGS_SCHEMA" class="md-nav__link">
+    <span class="md-ellipsis">
+      <code class="doc-symbol doc-symbol-toc doc-symbol-attribute"></code>&nbsp;STRAIN_MAPPINGS_SCHEMA
+    </span>
+  </a>
+  
+</li>
+        
+          <li class="md-nav__item">
+  <a href="#nplinker.schemas.USER_STRAINS_SCHEMA" class="md-nav__link">
+    <span class="md-ellipsis">
+      <code class="doc-symbol doc-symbol-toc doc-symbol-attribute"></code>&nbsp;USER_STRAINS_SCHEMA
+    </span>
+  </a>
+  
+</li>
+        
           <li class="md-nav__item">
   <a href="#nplinker.schemas.validate_podp_json" class="md-nav__link">
     <span class="md-ellipsis">
@@ -1356,6 +1464,132 @@ <h2 id="nplinker.schemas" class="doc doc-heading">
 
 
 
+<div class="doc doc-object doc-attribute">
+
+
+
+<h3 id="nplinker.schemas.PODP_ADAPTED_SCHEMA" class="doc doc-heading">
+<code class="doc-symbol doc-symbol-heading doc-symbol-attribute"></code>          <span class="doc doc-object-name doc-attribute-name">PODP_ADAPTED_SCHEMA</span>
+
+  
+  <span class="doc doc-labels">
+      <small class="doc doc-label doc-label-module-attribute"><code>module-attribute</code></small>
+  </span>
+
+<a href="#nplinker.schemas.PODP_ADAPTED_SCHEMA" class="headerlink" title="Permanent link">&para;</a></h3>
+<div class="language-python doc-signature highlight"><pre><span></span><code><a id="__codelineno-0-1" name="__codelineno-0-1" href="#__codelineno-0-1"></a><span class="n">PODP_ADAPTED_SCHEMA</span> <span class="o">=</span> <span class="n"><a class="autorefs autorefs-external" title="json.load" href="https://docs.python.org/3/library/json.html#json.load">load</a></span><span class="p">(</span><span class="n">f</span><span class="p">)</span>
+</code></pre></div>
+
+  <div class="doc doc-contents ">
+  </div>
+
+</div>
+
+<div class="doc doc-object doc-attribute">
+
+
+
+<h3 id="nplinker.schemas.SCHEMA_DIR" class="doc doc-heading">
+<code class="doc-symbol doc-symbol-heading doc-symbol-attribute"></code>          <span class="doc doc-object-name doc-attribute-name">SCHEMA_DIR</span>
+
+  
+  <span class="doc doc-labels">
+      <small class="doc doc-label doc-label-module-attribute"><code>module-attribute</code></small>
+  </span>
+
+<a href="#nplinker.schemas.SCHEMA_DIR" class="headerlink" title="Permanent link">&para;</a></h3>
+<div class="language-python doc-signature highlight"><pre><span></span><code><a id="__codelineno-0-1" name="__codelineno-0-1" href="#__codelineno-0-1"></a><span class="n">SCHEMA_DIR</span> <span class="o">=</span> <span class="n">parent</span>
+</code></pre></div>
+
+  <div class="doc doc-contents ">
+  </div>
+
+</div>
+
+<div class="doc doc-object doc-attribute">
+
+
+
+<h3 id="nplinker.schemas.GENOME_STATUS_SCHEMA" class="doc doc-heading">
+<code class="doc-symbol doc-symbol-heading doc-symbol-attribute"></code>          <span class="doc doc-object-name doc-attribute-name">GENOME_STATUS_SCHEMA</span>
+
+  
+  <span class="doc doc-labels">
+      <small class="doc doc-label doc-label-module-attribute"><code>module-attribute</code></small>
+  </span>
+
+<a href="#nplinker.schemas.GENOME_STATUS_SCHEMA" class="headerlink" title="Permanent link">&para;</a></h3>
+<div class="language-python doc-signature highlight"><pre><span></span><code><a id="__codelineno-0-1" name="__codelineno-0-1" href="#__codelineno-0-1"></a><span class="n">GENOME_STATUS_SCHEMA</span> <span class="o">=</span> <span class="n"><a class="autorefs autorefs-external" title="json.load" href="https://docs.python.org/3/library/json.html#json.load">load</a></span><span class="p">(</span><span class="n">f</span><span class="p">)</span>
+</code></pre></div>
+
+  <div class="doc doc-contents ">
+  </div>
+
+</div>
+
+<div class="doc doc-object doc-attribute">
+
+
+
+<h3 id="nplinker.schemas.GENOME_BGC_MAPPINGS_SCHEMA" class="doc doc-heading">
+<code class="doc-symbol doc-symbol-heading doc-symbol-attribute"></code>          <span class="doc doc-object-name doc-attribute-name">GENOME_BGC_MAPPINGS_SCHEMA</span>
+
+  
+  <span class="doc doc-labels">
+      <small class="doc doc-label doc-label-module-attribute"><code>module-attribute</code></small>
+  </span>
+
+<a href="#nplinker.schemas.GENOME_BGC_MAPPINGS_SCHEMA" class="headerlink" title="Permanent link">&para;</a></h3>
+<div class="language-python doc-signature highlight"><pre><span></span><code><a id="__codelineno-0-1" name="__codelineno-0-1" href="#__codelineno-0-1"></a><span class="n">GENOME_BGC_MAPPINGS_SCHEMA</span> <span class="o">=</span> <span class="n"><a class="autorefs autorefs-external" title="json.load" href="https://docs.python.org/3/library/json.html#json.load">load</a></span><span class="p">(</span><span class="n">f</span><span class="p">)</span>
+</code></pre></div>
+
+  <div class="doc doc-contents ">
+  </div>
+
+</div>
+
+<div class="doc doc-object doc-attribute">
+
+
+
+<h3 id="nplinker.schemas.STRAIN_MAPPINGS_SCHEMA" class="doc doc-heading">
+<code class="doc-symbol doc-symbol-heading doc-symbol-attribute"></code>          <span class="doc doc-object-name doc-attribute-name">STRAIN_MAPPINGS_SCHEMA</span>
+
+  
+  <span class="doc doc-labels">
+      <small class="doc doc-label doc-label-module-attribute"><code>module-attribute</code></small>
+  </span>
+
+<a href="#nplinker.schemas.STRAIN_MAPPINGS_SCHEMA" class="headerlink" title="Permanent link">&para;</a></h3>
+<div class="language-python doc-signature highlight"><pre><span></span><code><a id="__codelineno-0-1" name="__codelineno-0-1" href="#__codelineno-0-1"></a><span class="n">STRAIN_MAPPINGS_SCHEMA</span> <span class="o">=</span> <span class="n"><a class="autorefs autorefs-external" title="json.load" href="https://docs.python.org/3/library/json.html#json.load">load</a></span><span class="p">(</span><span class="n">f</span><span class="p">)</span>
+</code></pre></div>
+
+  <div class="doc doc-contents ">
+  </div>
+
+</div>
+
+<div class="doc doc-object doc-attribute">
+
+
+
+<h3 id="nplinker.schemas.USER_STRAINS_SCHEMA" class="doc doc-heading">
+<code class="doc-symbol doc-symbol-heading doc-symbol-attribute"></code>          <span class="doc doc-object-name doc-attribute-name">USER_STRAINS_SCHEMA</span>
+
+  
+  <span class="doc doc-labels">
+      <small class="doc doc-label doc-label-module-attribute"><code>module-attribute</code></small>
+  </span>
+
+<a href="#nplinker.schemas.USER_STRAINS_SCHEMA" class="headerlink" title="Permanent link">&para;</a></h3>
+<div class="language-python doc-signature highlight"><pre><span></span><code><a id="__codelineno-0-1" name="__codelineno-0-1" href="#__codelineno-0-1"></a><span class="n">USER_STRAINS_SCHEMA</span> <span class="o">=</span> <span class="n"><a class="autorefs autorefs-external" title="json.load" href="https://docs.python.org/3/library/json.html#json.load">load</a></span><span class="p">(</span><span class="n">f</span><span class="p">)</span>
+</code></pre></div>
+
+  <div class="doc doc-contents ">
+  </div>
+
+</div>
+
 
 
 
diff --git a/dev/api/scoring/index.html b/dev/api/scoring/index.html
index 5975f897..fbc06de9 100644
--- a/dev/api/scoring/index.html
+++ b/dev/api/scoring/index.html
@@ -1204,6 +1204,33 @@
     <nav class="md-nav" aria-label=" ScoringMethod">
       <ul class="md-nav__list">
         
+          <li class="md-nav__item">
+  <a href="#nplinker.scoring.ScoringMethod.NAME" class="md-nav__link">
+    <span class="md-ellipsis">
+      <code class="doc-symbol doc-symbol-toc doc-symbol-attribute"></code>&nbsp;NAME
+    </span>
+  </a>
+  
+</li>
+        
+          <li class="md-nav__item">
+  <a href="#nplinker.scoring.ScoringMethod.npl" class="md-nav__link">
+    <span class="md-ellipsis">
+      <code class="doc-symbol doc-symbol-toc doc-symbol-attribute"></code>&nbsp;npl
+    </span>
+  </a>
+  
+</li>
+        
+          <li class="md-nav__item">
+  <a href="#nplinker.scoring.ScoringMethod.name" class="md-nav__link">
+    <span class="md-ellipsis">
+      <code class="doc-symbol doc-symbol-toc doc-symbol-attribute"></code>&nbsp;name
+    </span>
+  </a>
+  
+</li>
+        
           <li class="md-nav__item">
   <a href="#nplinker.scoring.ScoringMethod.setup" class="md-nav__link">
     <span class="md-ellipsis">
@@ -1255,6 +1282,60 @@
     <nav class="md-nav" aria-label=" MetcalfScoring">
       <ul class="md-nav__list">
         
+          <li class="md-nav__item">
+  <a href="#nplinker.scoring.MetcalfScoring.DATALINKS" class="md-nav__link">
+    <span class="md-ellipsis">
+      <code class="doc-symbol doc-symbol-toc doc-symbol-attribute"></code>&nbsp;DATALINKS
+    </span>
+  </a>
+  
+</li>
+        
+          <li class="md-nav__item">
+  <a href="#nplinker.scoring.MetcalfScoring.LINKFINDER" class="md-nav__link">
+    <span class="md-ellipsis">
+      <code class="doc-symbol doc-symbol-toc doc-symbol-attribute"></code>&nbsp;LINKFINDER
+    </span>
+  </a>
+  
+</li>
+        
+          <li class="md-nav__item">
+  <a href="#nplinker.scoring.MetcalfScoring.NAME" class="md-nav__link">
+    <span class="md-ellipsis">
+      <code class="doc-symbol doc-symbol-toc doc-symbol-attribute"></code>&nbsp;NAME
+    </span>
+  </a>
+  
+</li>
+        
+          <li class="md-nav__item">
+  <a href="#nplinker.scoring.MetcalfScoring.cutoff" class="md-nav__link">
+    <span class="md-ellipsis">
+      <code class="doc-symbol doc-symbol-toc doc-symbol-attribute"></code>&nbsp;cutoff
+    </span>
+  </a>
+  
+</li>
+        
+          <li class="md-nav__item">
+  <a href="#nplinker.scoring.MetcalfScoring.standardised" class="md-nav__link">
+    <span class="md-ellipsis">
+      <code class="doc-symbol doc-symbol-toc doc-symbol-attribute"></code>&nbsp;standardised
+    </span>
+  </a>
+  
+</li>
+        
+          <li class="md-nav__item">
+  <a href="#nplinker.scoring.MetcalfScoring.datalinks" class="md-nav__link">
+    <span class="md-ellipsis">
+      <code class="doc-symbol doc-symbol-toc doc-symbol-attribute"></code>&nbsp;datalinks
+    </span>
+  </a>
+  
+</li>
+        
           <li class="md-nav__item">
   <a href="#nplinker.scoring.MetcalfScoring.setup" class="md-nav__link">
     <span class="md-ellipsis">
@@ -1271,6 +1352,24 @@
     </span>
   </a>
   
+</li>
+        
+          <li class="md-nav__item">
+  <a href="#nplinker.scoring.MetcalfScoring.format_data" class="md-nav__link">
+    <span class="md-ellipsis">
+      <code class="doc-symbol doc-symbol-toc doc-symbol-method"></code>&nbsp;format_data
+    </span>
+  </a>
+  
+</li>
+        
+          <li class="md-nav__item">
+  <a href="#nplinker.scoring.MetcalfScoring.sort" class="md-nav__link">
+    <span class="md-ellipsis">
+      <code class="doc-symbol doc-symbol-toc doc-symbol-method"></code>&nbsp;sort
+    </span>
+  </a>
+  
 </li>
         
       </ul>
@@ -1285,6 +1384,111 @@
     </span>
   </a>
   
+    <nav class="md-nav" aria-label=" LinkCollection">
+      <ul class="md-nav__list">
+        
+          <li class="md-nav__item">
+  <a href="#nplinker.scoring.LinkCollection.methods" class="md-nav__link">
+    <span class="md-ellipsis">
+      <code class="doc-symbol doc-symbol-toc doc-symbol-attribute"></code>&nbsp;methods
+    </span>
+  </a>
+  
+</li>
+        
+          <li class="md-nav__item">
+  <a href="#nplinker.scoring.LinkCollection.sources" class="md-nav__link">
+    <span class="md-ellipsis">
+      <code class="doc-symbol doc-symbol-toc doc-symbol-attribute"></code>&nbsp;sources
+    </span>
+  </a>
+  
+</li>
+        
+          <li class="md-nav__item">
+  <a href="#nplinker.scoring.LinkCollection.links" class="md-nav__link">
+    <span class="md-ellipsis">
+      <code class="doc-symbol doc-symbol-toc doc-symbol-attribute"></code>&nbsp;links
+    </span>
+  </a>
+  
+</li>
+        
+          <li class="md-nav__item">
+  <a href="#nplinker.scoring.LinkCollection.source_count" class="md-nav__link">
+    <span class="md-ellipsis">
+      <code class="doc-symbol doc-symbol-toc doc-symbol-attribute"></code>&nbsp;source_count
+    </span>
+  </a>
+  
+</li>
+        
+          <li class="md-nav__item">
+  <a href="#nplinker.scoring.LinkCollection.method_count" class="md-nav__link">
+    <span class="md-ellipsis">
+      <code class="doc-symbol doc-symbol-toc doc-symbol-attribute"></code>&nbsp;method_count
+    </span>
+  </a>
+  
+</li>
+        
+          <li class="md-nav__item">
+  <a href="#nplinker.scoring.LinkCollection.filter_no_shared_strains" class="md-nav__link">
+    <span class="md-ellipsis">
+      <code class="doc-symbol doc-symbol-toc doc-symbol-method"></code>&nbsp;filter_no_shared_strains
+    </span>
+  </a>
+  
+</li>
+        
+          <li class="md-nav__item">
+  <a href="#nplinker.scoring.LinkCollection.filter_sources" class="md-nav__link">
+    <span class="md-ellipsis">
+      <code class="doc-symbol doc-symbol-toc doc-symbol-method"></code>&nbsp;filter_sources
+    </span>
+  </a>
+  
+</li>
+        
+          <li class="md-nav__item">
+  <a href="#nplinker.scoring.LinkCollection.filter_targets" class="md-nav__link">
+    <span class="md-ellipsis">
+      <code class="doc-symbol doc-symbol-toc doc-symbol-method"></code>&nbsp;filter_targets
+    </span>
+  </a>
+  
+</li>
+        
+          <li class="md-nav__item">
+  <a href="#nplinker.scoring.LinkCollection.filter_links" class="md-nav__link">
+    <span class="md-ellipsis">
+      <code class="doc-symbol doc-symbol-toc doc-symbol-method"></code>&nbsp;filter_links
+    </span>
+  </a>
+  
+</li>
+        
+          <li class="md-nav__item">
+  <a href="#nplinker.scoring.LinkCollection.get_sorted_links" class="md-nav__link">
+    <span class="md-ellipsis">
+      <code class="doc-symbol doc-symbol-toc doc-symbol-method"></code>&nbsp;get_sorted_links
+    </span>
+  </a>
+  
+</li>
+        
+          <li class="md-nav__item">
+  <a href="#nplinker.scoring.LinkCollection.get_all_targets" class="md-nav__link">
+    <span class="md-ellipsis">
+      <code class="doc-symbol doc-symbol-toc doc-symbol-method"></code>&nbsp;get_all_targets
+    </span>
+  </a>
+  
+</li>
+        
+      </ul>
+    </nav>
+  
 </li>
         
           <li class="md-nav__item">
@@ -1294,6 +1498,75 @@
     </span>
   </a>
   
+    <nav class="md-nav" aria-label=" ObjectLink">
+      <ul class="md-nav__list">
+        
+          <li class="md-nav__item">
+  <a href="#nplinker.scoring.ObjectLink.source" class="md-nav__link">
+    <span class="md-ellipsis">
+      <code class="doc-symbol doc-symbol-toc doc-symbol-attribute"></code>&nbsp;source
+    </span>
+  </a>
+  
+</li>
+        
+          <li class="md-nav__item">
+  <a href="#nplinker.scoring.ObjectLink.target" class="md-nav__link">
+    <span class="md-ellipsis">
+      <code class="doc-symbol doc-symbol-toc doc-symbol-attribute"></code>&nbsp;target
+    </span>
+  </a>
+  
+</li>
+        
+          <li class="md-nav__item">
+  <a href="#nplinker.scoring.ObjectLink.shared_strains" class="md-nav__link">
+    <span class="md-ellipsis">
+      <code class="doc-symbol doc-symbol-toc doc-symbol-attribute"></code>&nbsp;shared_strains
+    </span>
+  </a>
+  
+</li>
+        
+          <li class="md-nav__item">
+  <a href="#nplinker.scoring.ObjectLink.method_count" class="md-nav__link">
+    <span class="md-ellipsis">
+      <code class="doc-symbol doc-symbol-toc doc-symbol-attribute"></code>&nbsp;method_count
+    </span>
+  </a>
+  
+</li>
+        
+          <li class="md-nav__item">
+  <a href="#nplinker.scoring.ObjectLink.methods" class="md-nav__link">
+    <span class="md-ellipsis">
+      <code class="doc-symbol doc-symbol-toc doc-symbol-attribute"></code>&nbsp;methods
+    </span>
+  </a>
+  
+</li>
+        
+          <li class="md-nav__item">
+  <a href="#nplinker.scoring.ObjectLink.set_data" class="md-nav__link">
+    <span class="md-ellipsis">
+      <code class="doc-symbol doc-symbol-toc doc-symbol-method"></code>&nbsp;set_data
+    </span>
+  </a>
+  
+</li>
+        
+          <li class="md-nav__item">
+  <a href="#nplinker.scoring.ObjectLink.data" class="md-nav__link">
+    <span class="md-ellipsis">
+      <code class="doc-symbol doc-symbol-toc doc-symbol-method"></code>&nbsp;data
+    </span>
+  </a>
+  
+</li>
+        
+      </ul>
+    </nav>
+  
 </li>
         
       </ul>
@@ -1403,6 +1676,33 @@
     <nav class="md-nav" aria-label=" ScoringMethod">
       <ul class="md-nav__list">
         
+          <li class="md-nav__item">
+  <a href="#nplinker.scoring.ScoringMethod.NAME" class="md-nav__link">
+    <span class="md-ellipsis">
+      <code class="doc-symbol doc-symbol-toc doc-symbol-attribute"></code>&nbsp;NAME
+    </span>
+  </a>
+  
+</li>
+        
+          <li class="md-nav__item">
+  <a href="#nplinker.scoring.ScoringMethod.npl" class="md-nav__link">
+    <span class="md-ellipsis">
+      <code class="doc-symbol doc-symbol-toc doc-symbol-attribute"></code>&nbsp;npl
+    </span>
+  </a>
+  
+</li>
+        
+          <li class="md-nav__item">
+  <a href="#nplinker.scoring.ScoringMethod.name" class="md-nav__link">
+    <span class="md-ellipsis">
+      <code class="doc-symbol doc-symbol-toc doc-symbol-attribute"></code>&nbsp;name
+    </span>
+  </a>
+  
+</li>
+        
           <li class="md-nav__item">
   <a href="#nplinker.scoring.ScoringMethod.setup" class="md-nav__link">
     <span class="md-ellipsis">
@@ -1455,48 +1755,294 @@
       <ul class="md-nav__list">
         
           <li class="md-nav__item">
-  <a href="#nplinker.scoring.MetcalfScoring.setup" class="md-nav__link">
+  <a href="#nplinker.scoring.MetcalfScoring.DATALINKS" class="md-nav__link">
     <span class="md-ellipsis">
-      <code class="doc-symbol doc-symbol-toc doc-symbol-method"></code>&nbsp;setup
+      <code class="doc-symbol doc-symbol-toc doc-symbol-attribute"></code>&nbsp;DATALINKS
     </span>
   </a>
   
 </li>
         
           <li class="md-nav__item">
-  <a href="#nplinker.scoring.MetcalfScoring.get_links" class="md-nav__link">
+  <a href="#nplinker.scoring.MetcalfScoring.LINKFINDER" class="md-nav__link">
     <span class="md-ellipsis">
-      <code class="doc-symbol doc-symbol-toc doc-symbol-method"></code>&nbsp;get_links
+      <code class="doc-symbol doc-symbol-toc doc-symbol-attribute"></code>&nbsp;LINKFINDER
     </span>
   </a>
   
 </li>
         
-      </ul>
-    </nav>
+          <li class="md-nav__item">
+  <a href="#nplinker.scoring.MetcalfScoring.NAME" class="md-nav__link">
+    <span class="md-ellipsis">
+      <code class="doc-symbol doc-symbol-toc doc-symbol-attribute"></code>&nbsp;NAME
+    </span>
+  </a>
   
 </li>
         
           <li class="md-nav__item">
-  <a href="#nplinker.scoring.LinkCollection" class="md-nav__link">
+  <a href="#nplinker.scoring.MetcalfScoring.cutoff" class="md-nav__link">
     <span class="md-ellipsis">
-      <code class="doc-symbol doc-symbol-toc doc-symbol-class"></code>&nbsp;LinkCollection
+      <code class="doc-symbol doc-symbol-toc doc-symbol-attribute"></code>&nbsp;cutoff
     </span>
   </a>
   
 </li>
         
           <li class="md-nav__item">
-  <a href="#nplinker.scoring.ObjectLink" class="md-nav__link">
+  <a href="#nplinker.scoring.MetcalfScoring.standardised" class="md-nav__link">
     <span class="md-ellipsis">
-      <code class="doc-symbol doc-symbol-toc doc-symbol-class"></code>&nbsp;ObjectLink
+      <code class="doc-symbol doc-symbol-toc doc-symbol-attribute"></code>&nbsp;standardised
     </span>
   </a>
   
 </li>
         
-      </ul>
-    </nav>
+          <li class="md-nav__item">
+  <a href="#nplinker.scoring.MetcalfScoring.datalinks" class="md-nav__link">
+    <span class="md-ellipsis">
+      <code class="doc-symbol doc-symbol-toc doc-symbol-attribute"></code>&nbsp;datalinks
+    </span>
+  </a>
+  
+</li>
+        
+          <li class="md-nav__item">
+  <a href="#nplinker.scoring.MetcalfScoring.setup" class="md-nav__link">
+    <span class="md-ellipsis">
+      <code class="doc-symbol doc-symbol-toc doc-symbol-method"></code>&nbsp;setup
+    </span>
+  </a>
+  
+</li>
+        
+          <li class="md-nav__item">
+  <a href="#nplinker.scoring.MetcalfScoring.get_links" class="md-nav__link">
+    <span class="md-ellipsis">
+      <code class="doc-symbol doc-symbol-toc doc-symbol-method"></code>&nbsp;get_links
+    </span>
+  </a>
+  
+</li>
+        
+          <li class="md-nav__item">
+  <a href="#nplinker.scoring.MetcalfScoring.format_data" class="md-nav__link">
+    <span class="md-ellipsis">
+      <code class="doc-symbol doc-symbol-toc doc-symbol-method"></code>&nbsp;format_data
+    </span>
+  </a>
+  
+</li>
+        
+          <li class="md-nav__item">
+  <a href="#nplinker.scoring.MetcalfScoring.sort" class="md-nav__link">
+    <span class="md-ellipsis">
+      <code class="doc-symbol doc-symbol-toc doc-symbol-method"></code>&nbsp;sort
+    </span>
+  </a>
+  
+</li>
+        
+      </ul>
+    </nav>
+  
+</li>
+        
+          <li class="md-nav__item">
+  <a href="#nplinker.scoring.LinkCollection" class="md-nav__link">
+    <span class="md-ellipsis">
+      <code class="doc-symbol doc-symbol-toc doc-symbol-class"></code>&nbsp;LinkCollection
+    </span>
+  </a>
+  
+    <nav class="md-nav" aria-label=" LinkCollection">
+      <ul class="md-nav__list">
+        
+          <li class="md-nav__item">
+  <a href="#nplinker.scoring.LinkCollection.methods" class="md-nav__link">
+    <span class="md-ellipsis">
+      <code class="doc-symbol doc-symbol-toc doc-symbol-attribute"></code>&nbsp;methods
+    </span>
+  </a>
+  
+</li>
+        
+          <li class="md-nav__item">
+  <a href="#nplinker.scoring.LinkCollection.sources" class="md-nav__link">
+    <span class="md-ellipsis">
+      <code class="doc-symbol doc-symbol-toc doc-symbol-attribute"></code>&nbsp;sources
+    </span>
+  </a>
+  
+</li>
+        
+          <li class="md-nav__item">
+  <a href="#nplinker.scoring.LinkCollection.links" class="md-nav__link">
+    <span class="md-ellipsis">
+      <code class="doc-symbol doc-symbol-toc doc-symbol-attribute"></code>&nbsp;links
+    </span>
+  </a>
+  
+</li>
+        
+          <li class="md-nav__item">
+  <a href="#nplinker.scoring.LinkCollection.source_count" class="md-nav__link">
+    <span class="md-ellipsis">
+      <code class="doc-symbol doc-symbol-toc doc-symbol-attribute"></code>&nbsp;source_count
+    </span>
+  </a>
+  
+</li>
+        
+          <li class="md-nav__item">
+  <a href="#nplinker.scoring.LinkCollection.method_count" class="md-nav__link">
+    <span class="md-ellipsis">
+      <code class="doc-symbol doc-symbol-toc doc-symbol-attribute"></code>&nbsp;method_count
+    </span>
+  </a>
+  
+</li>
+        
+          <li class="md-nav__item">
+  <a href="#nplinker.scoring.LinkCollection.filter_no_shared_strains" class="md-nav__link">
+    <span class="md-ellipsis">
+      <code class="doc-symbol doc-symbol-toc doc-symbol-method"></code>&nbsp;filter_no_shared_strains
+    </span>
+  </a>
+  
+</li>
+        
+          <li class="md-nav__item">
+  <a href="#nplinker.scoring.LinkCollection.filter_sources" class="md-nav__link">
+    <span class="md-ellipsis">
+      <code class="doc-symbol doc-symbol-toc doc-symbol-method"></code>&nbsp;filter_sources
+    </span>
+  </a>
+  
+</li>
+        
+          <li class="md-nav__item">
+  <a href="#nplinker.scoring.LinkCollection.filter_targets" class="md-nav__link">
+    <span class="md-ellipsis">
+      <code class="doc-symbol doc-symbol-toc doc-symbol-method"></code>&nbsp;filter_targets
+    </span>
+  </a>
+  
+</li>
+        
+          <li class="md-nav__item">
+  <a href="#nplinker.scoring.LinkCollection.filter_links" class="md-nav__link">
+    <span class="md-ellipsis">
+      <code class="doc-symbol doc-symbol-toc doc-symbol-method"></code>&nbsp;filter_links
+    </span>
+  </a>
+  
+</li>
+        
+          <li class="md-nav__item">
+  <a href="#nplinker.scoring.LinkCollection.get_sorted_links" class="md-nav__link">
+    <span class="md-ellipsis">
+      <code class="doc-symbol doc-symbol-toc doc-symbol-method"></code>&nbsp;get_sorted_links
+    </span>
+  </a>
+  
+</li>
+        
+          <li class="md-nav__item">
+  <a href="#nplinker.scoring.LinkCollection.get_all_targets" class="md-nav__link">
+    <span class="md-ellipsis">
+      <code class="doc-symbol doc-symbol-toc doc-symbol-method"></code>&nbsp;get_all_targets
+    </span>
+  </a>
+  
+</li>
+        
+      </ul>
+    </nav>
+  
+</li>
+        
+          <li class="md-nav__item">
+  <a href="#nplinker.scoring.ObjectLink" class="md-nav__link">
+    <span class="md-ellipsis">
+      <code class="doc-symbol doc-symbol-toc doc-symbol-class"></code>&nbsp;ObjectLink
+    </span>
+  </a>
+  
+    <nav class="md-nav" aria-label=" ObjectLink">
+      <ul class="md-nav__list">
+        
+          <li class="md-nav__item">
+  <a href="#nplinker.scoring.ObjectLink.source" class="md-nav__link">
+    <span class="md-ellipsis">
+      <code class="doc-symbol doc-symbol-toc doc-symbol-attribute"></code>&nbsp;source
+    </span>
+  </a>
+  
+</li>
+        
+          <li class="md-nav__item">
+  <a href="#nplinker.scoring.ObjectLink.target" class="md-nav__link">
+    <span class="md-ellipsis">
+      <code class="doc-symbol doc-symbol-toc doc-symbol-attribute"></code>&nbsp;target
+    </span>
+  </a>
+  
+</li>
+        
+          <li class="md-nav__item">
+  <a href="#nplinker.scoring.ObjectLink.shared_strains" class="md-nav__link">
+    <span class="md-ellipsis">
+      <code class="doc-symbol doc-symbol-toc doc-symbol-attribute"></code>&nbsp;shared_strains
+    </span>
+  </a>
+  
+</li>
+        
+          <li class="md-nav__item">
+  <a href="#nplinker.scoring.ObjectLink.method_count" class="md-nav__link">
+    <span class="md-ellipsis">
+      <code class="doc-symbol doc-symbol-toc doc-symbol-attribute"></code>&nbsp;method_count
+    </span>
+  </a>
+  
+</li>
+        
+          <li class="md-nav__item">
+  <a href="#nplinker.scoring.ObjectLink.methods" class="md-nav__link">
+    <span class="md-ellipsis">
+      <code class="doc-symbol doc-symbol-toc doc-symbol-attribute"></code>&nbsp;methods
+    </span>
+  </a>
+  
+</li>
+        
+          <li class="md-nav__item">
+  <a href="#nplinker.scoring.ObjectLink.set_data" class="md-nav__link">
+    <span class="md-ellipsis">
+      <code class="doc-symbol doc-symbol-toc doc-symbol-method"></code>&nbsp;set_data
+    </span>
+  </a>
+  
+</li>
+        
+          <li class="md-nav__item">
+  <a href="#nplinker.scoring.ObjectLink.data" class="md-nav__link">
+    <span class="md-ellipsis">
+      <code class="doc-symbol doc-symbol-toc doc-symbol-method"></code>&nbsp;data
+    </span>
+  </a>
+  
+</li>
+        
+      </ul>
+    </nav>
+  
+</li>
+        
+      </ul>
+    </nav>
   
 </li>
       
@@ -1580,6 +2126,70 @@ <h3 id="nplinker.scoring.ScoringMethod" class="doc doc-heading">
 
 
 
+<div class="doc doc-object doc-attribute">
+
+
+
+<h4 id="nplinker.scoring.ScoringMethod.NAME" class="doc doc-heading">
+<code class="doc-symbol doc-symbol-heading doc-symbol-attribute"></code>          <span class="doc doc-object-name doc-attribute-name">NAME</span>
+
+  
+  <span class="doc doc-labels">
+      <small class="doc doc-label doc-label-class-attribute"><code>class-attribute</code></small>
+      <small class="doc doc-label doc-label-instance-attribute"><code>instance-attribute</code></small>
+  </span>
+
+<a href="#nplinker.scoring.ScoringMethod.NAME" class="headerlink" title="Permanent link">&para;</a></h4>
+<div class="language-python doc-signature highlight"><pre><span></span><code><a id="__codelineno-0-1" name="__codelineno-0-1" href="#__codelineno-0-1"></a><span class="n">NAME</span> <span class="o">=</span> <span class="s1">&#39;ScoringMethod&#39;</span>
+</code></pre></div>
+
+  <div class="doc doc-contents ">
+  </div>
+
+</div>
+
+<div class="doc doc-object doc-attribute">
+
+
+
+<h4 id="nplinker.scoring.ScoringMethod.npl" class="doc doc-heading">
+<code class="doc-symbol doc-symbol-heading doc-symbol-attribute"></code>          <span class="doc doc-object-name doc-attribute-name">npl</span>
+
+  
+  <span class="doc doc-labels">
+      <small class="doc doc-label doc-label-instance-attribute"><code>instance-attribute</code></small>
+  </span>
+
+<a href="#nplinker.scoring.ScoringMethod.npl" class="headerlink" title="Permanent link">&para;</a></h4>
+<div class="language-python doc-signature highlight"><pre><span></span><code><a id="__codelineno-0-1" name="__codelineno-0-1" href="#__codelineno-0-1"></a><span class="n">npl</span> <span class="o">=</span> <span class="n"><a class="autorefs autorefs-internal" title="nplinker.scoring.methods.ScoringMethod.npl" href="#nplinker.scoring.ScoringMethod.npl">npl</a></span>
+</code></pre></div>
+
+  <div class="doc doc-contents ">
+  </div>
+
+</div>
+
+<div class="doc doc-object doc-attribute">
+
+
+
+<h4 id="nplinker.scoring.ScoringMethod.name" class="doc doc-heading">
+<code class="doc-symbol doc-symbol-heading doc-symbol-attribute"></code>          <span class="doc doc-object-name doc-attribute-name">name</span>
+
+  
+  <span class="doc doc-labels">
+      <small class="doc doc-label doc-label-instance-attribute"><code>instance-attribute</code></small>
+  </span>
+
+<a href="#nplinker.scoring.ScoringMethod.name" class="headerlink" title="Permanent link">&para;</a></h4>
+<div class="language-python doc-signature highlight"><pre><span></span><code><a id="__codelineno-0-1" name="__codelineno-0-1" href="#__codelineno-0-1"></a><span class="n">name</span> <span class="o">=</span> <span class="n"><span title="self.__class__.NAME">NAME</span></span>
+</code></pre></div>
+
+  <div class="doc doc-contents ">
+  </div>
+
+</div>
+
 
 
 
@@ -1749,7 +2359,7 @@ <h3 id="nplinker.scoring.MetcalfScoring" class="doc doc-heading">
     </thead>
     <tbody>
         <tr>
-          <td><code><span title="nplinker.scoring.MetcalfScoring.DATALINKS">DATALINKS</span></code></td>
+          <td><code><a class="autorefs autorefs-internal" title="nplinker.scoring.MetcalfScoring.DATALINKS" href="#nplinker.scoring.MetcalfScoring.DATALINKS">DATALINKS</a></code></td>
           <td>
           </td>
           <td>
@@ -1759,7 +2369,7 @@ <h3 id="nplinker.scoring.MetcalfScoring" class="doc doc-heading">
           </td>
         </tr>
         <tr>
-          <td><code><span title="nplinker.scoring.MetcalfScoring.LINKFINDER">LINKFINDER</span></code></td>
+          <td><code><a class="autorefs autorefs-internal" title="nplinker.scoring.MetcalfScoring.LINKFINDER" href="#nplinker.scoring.MetcalfScoring.LINKFINDER">LINKFINDER</a></code></td>
           <td>
           </td>
           <td>
@@ -1769,7 +2379,7 @@ <h3 id="nplinker.scoring.MetcalfScoring" class="doc doc-heading">
           </td>
         </tr>
         <tr>
-          <td><code><span title="nplinker.scoring.MetcalfScoring.NAME">NAME</span></code></td>
+          <td><code><a class="autorefs autorefs-internal" title="nplinker.scoring.MetcalfScoring.NAME" href="#nplinker.scoring.MetcalfScoring.NAME">NAME</a></code></td>
           <td>
           </td>
           <td>
@@ -1781,7 +2391,6 @@ <h3 id="nplinker.scoring.MetcalfScoring" class="doc doc-heading">
     </tbody>
   </table>
   
-      <p>Create a MetcalfScoring object.</p>
 
 
 
@@ -1826,7 +2435,7 @@ <h3 id="nplinker.scoring.MetcalfScoring" class="doc doc-heading">
     </thead>
     <tbody>
         <tr>
-          <td><code><span title="nplinker.scoring.MetcalfScoring.cutoff">cutoff</span></code></td>
+          <td><code><a class="autorefs autorefs-internal" title="nplinker.scoring.MetcalfScoring.cutoff" href="#nplinker.scoring.MetcalfScoring.cutoff">cutoff</a></code></td>
           <td>
           </td>
           <td>
@@ -1837,7 +2446,7 @@ <h3 id="nplinker.scoring.MetcalfScoring" class="doc doc-heading">
           </td>
         </tr>
         <tr>
-          <td><code><span title="nplinker.scoring.MetcalfScoring.standardised">standardised</span></code></td>
+          <td><code><a class="autorefs autorefs-internal" title="nplinker.scoring.MetcalfScoring.standardised" href="#nplinker.scoring.MetcalfScoring.standardised">standardised</a></code></td>
           <td>
           </td>
           <td>
@@ -1848,7 +2457,7 @@ <h3 id="nplinker.scoring.MetcalfScoring" class="doc doc-heading">
           </td>
         </tr>
         <tr>
-          <td><code><span title="nplinker.scoring.MetcalfScoring.name">name</span></code></td>
+          <td><code><a class="autorefs autorefs-internal" title="nplinker.scoring.MetcalfScoring.name" href="#nplinker.scoring.ScoringMethod.name">name</a></code></td>
           <td>
           </td>
           <td>
@@ -1909,29 +2518,158 @@ <h3 id="nplinker.scoring.MetcalfScoring" class="doc doc-heading">
 
 
 
+<div class="doc doc-object doc-attribute">
 
 
 
-<div class="doc doc-object doc-function">
-
-
-
-<h4 id="nplinker.scoring.MetcalfScoring.setup" class="doc doc-heading">
-<code class="doc-symbol doc-symbol-heading doc-symbol-method"></code>          <span class="doc doc-object-name doc-function-name">setup</span>
+<h4 id="nplinker.scoring.MetcalfScoring.DATALINKS" class="doc doc-heading">
+<code class="doc-symbol doc-symbol-heading doc-symbol-attribute"></code>          <span class="doc doc-object-name doc-attribute-name">DATALINKS</span>
 
   
   <span class="doc doc-labels">
-      <small class="doc doc-label doc-label-staticmethod"><code>staticmethod</code></small>
+      <small class="doc doc-label doc-label-class-attribute"><code>class-attribute</code></small>
+      <small class="doc doc-label doc-label-instance-attribute"><code>instance-attribute</code></small>
   </span>
 
-<a href="#nplinker.scoring.MetcalfScoring.setup" class="headerlink" title="Permanent link">&para;</a></h4>
-<div class="language-python doc-signature highlight"><pre><span></span><code><a id="__codelineno-0-1" name="__codelineno-0-1" href="#__codelineno-0-1"></a><span class="n">setup</span><span class="p">(</span><span class="n">npl</span><span class="p">:</span> <span class="n"><a class="autorefs autorefs-internal" title="nplinker.nplinker.NPLinker" href="../nplinker/#nplinker.nplinker.NPLinker">NPLinker</a></span><span class="p">)</span>
+<a href="#nplinker.scoring.MetcalfScoring.DATALINKS" class="headerlink" title="Permanent link">&para;</a></h4>
+<div class="language-python doc-signature highlight"><pre><span></span><code><a id="__codelineno-0-1" name="__codelineno-0-1" href="#__codelineno-0-1"></a><span class="n">DATALINKS</span> <span class="o">=</span> <span class="kc">None</span>
 </code></pre></div>
 
   <div class="doc doc-contents ">
-  
-      <p>Setup the MetcalfScoring object.</p>
-<p>DataLinks and LinkFinder objects are created and cached for later use.</p>
+  </div>
+
+</div>
+
+<div class="doc doc-object doc-attribute">
+
+
+
+<h4 id="nplinker.scoring.MetcalfScoring.LINKFINDER" class="doc doc-heading">
+<code class="doc-symbol doc-symbol-heading doc-symbol-attribute"></code>          <span class="doc doc-object-name doc-attribute-name">LINKFINDER</span>
+
+  
+  <span class="doc doc-labels">
+      <small class="doc doc-label doc-label-class-attribute"><code>class-attribute</code></small>
+      <small class="doc doc-label doc-label-instance-attribute"><code>instance-attribute</code></small>
+  </span>
+
+<a href="#nplinker.scoring.MetcalfScoring.LINKFINDER" class="headerlink" title="Permanent link">&para;</a></h4>
+<div class="language-python doc-signature highlight"><pre><span></span><code><a id="__codelineno-0-1" name="__codelineno-0-1" href="#__codelineno-0-1"></a><span class="n">LINKFINDER</span> <span class="o">=</span> <span class="kc">None</span>
+</code></pre></div>
+
+  <div class="doc doc-contents ">
+  </div>
+
+</div>
+
+<div class="doc doc-object doc-attribute">
+
+
+
+<h4 id="nplinker.scoring.MetcalfScoring.NAME" class="doc doc-heading">
+<code class="doc-symbol doc-symbol-heading doc-symbol-attribute"></code>          <span class="doc doc-object-name doc-attribute-name">NAME</span>
+
+  
+  <span class="doc doc-labels">
+      <small class="doc doc-label doc-label-class-attribute"><code>class-attribute</code></small>
+      <small class="doc doc-label doc-label-instance-attribute"><code>instance-attribute</code></small>
+  </span>
+
+<a href="#nplinker.scoring.MetcalfScoring.NAME" class="headerlink" title="Permanent link">&para;</a></h4>
+<div class="language-python doc-signature highlight"><pre><span></span><code><a id="__codelineno-0-1" name="__codelineno-0-1" href="#__codelineno-0-1"></a><span class="n">NAME</span> <span class="o">=</span> <span class="s1">&#39;metcalf&#39;</span>
+</code></pre></div>
+
+  <div class="doc doc-contents ">
+  </div>
+
+</div>
+
+<div class="doc doc-object doc-attribute">
+
+
+
+<h4 id="nplinker.scoring.MetcalfScoring.cutoff" class="doc doc-heading">
+<code class="doc-symbol doc-symbol-heading doc-symbol-attribute"></code>          <span class="doc doc-object-name doc-attribute-name">cutoff</span>
+
+  
+  <span class="doc doc-labels">
+      <small class="doc doc-label doc-label-instance-attribute"><code>instance-attribute</code></small>
+  </span>
+
+<a href="#nplinker.scoring.MetcalfScoring.cutoff" class="headerlink" title="Permanent link">&para;</a></h4>
+<div class="language-python doc-signature highlight"><pre><span></span><code><a id="__codelineno-0-1" name="__codelineno-0-1" href="#__codelineno-0-1"></a><span class="n">cutoff</span> <span class="o">=</span> <span class="mf">1.0</span>
+</code></pre></div>
+
+  <div class="doc doc-contents ">
+  </div>
+
+</div>
+
+<div class="doc doc-object doc-attribute">
+
+
+
+<h4 id="nplinker.scoring.MetcalfScoring.standardised" class="doc doc-heading">
+<code class="doc-symbol doc-symbol-heading doc-symbol-attribute"></code>          <span class="doc doc-object-name doc-attribute-name">standardised</span>
+
+  
+  <span class="doc doc-labels">
+      <small class="doc doc-label doc-label-instance-attribute"><code>instance-attribute</code></small>
+  </span>
+
+<a href="#nplinker.scoring.MetcalfScoring.standardised" class="headerlink" title="Permanent link">&para;</a></h4>
+<div class="language-python doc-signature highlight"><pre><span></span><code><a id="__codelineno-0-1" name="__codelineno-0-1" href="#__codelineno-0-1"></a><span class="n">standardised</span> <span class="o">=</span> <span class="kc">True</span>
+</code></pre></div>
+
+  <div class="doc doc-contents ">
+  </div>
+
+</div>
+
+<div class="doc doc-object doc-attribute">
+
+
+
+<h4 id="nplinker.scoring.MetcalfScoring.datalinks" class="doc doc-heading">
+<code class="doc-symbol doc-symbol-heading doc-symbol-attribute"></code>          <span class="doc doc-object-name doc-attribute-name">datalinks</span>
+
+  
+  <span class="doc doc-labels">
+      <small class="doc doc-label doc-label-property"><code>property</code></small>
+  </span>
+
+<a href="#nplinker.scoring.MetcalfScoring.datalinks" class="headerlink" title="Permanent link">&para;</a></h4>
+<div class="language-python doc-signature highlight"><pre><span></span><code><a id="__codelineno-0-1" name="__codelineno-0-1" href="#__codelineno-0-1"></a><span class="n">datalinks</span><span class="p">:</span> <span class="n"><span title="nplinker.scoring.linking.DataLinks">DataLinks</span></span>
+</code></pre></div>
+
+  <div class="doc doc-contents ">
+  </div>
+
+</div>
+
+
+
+
+<div class="doc doc-object doc-function">
+
+
+
+<h4 id="nplinker.scoring.MetcalfScoring.setup" class="doc doc-heading">
+<code class="doc-symbol doc-symbol-heading doc-symbol-method"></code>          <span class="doc doc-object-name doc-function-name">setup</span>
+
+  
+  <span class="doc doc-labels">
+      <small class="doc doc-label doc-label-staticmethod"><code>staticmethod</code></small>
+  </span>
+
+<a href="#nplinker.scoring.MetcalfScoring.setup" class="headerlink" title="Permanent link">&para;</a></h4>
+<div class="language-python doc-signature highlight"><pre><span></span><code><a id="__codelineno-0-1" name="__codelineno-0-1" href="#__codelineno-0-1"></a><span class="n">setup</span><span class="p">(</span><span class="n">npl</span><span class="p">:</span> <span class="n"><a class="autorefs autorefs-internal" title="nplinker.nplinker.NPLinker" href="../nplinker/#nplinker.nplinker.NPLinker">NPLinker</a></span><span class="p">)</span>
+</code></pre></div>
+
+  <div class="doc doc-contents ">
+  
+      <p>Setup the MetcalfScoring object.</p>
+<p>DataLinks and LinkFinder objects are created and cached for later use.</p>
 
           <details class="quote">
             <summary>Source code in <code>src/nplinker/scoring/metcalf_scoring.py</code></summary>
@@ -2407,6 +3145,62 @@ <h4 id="nplinker.scoring.MetcalfScoring.get_links" class="doc doc-heading">
 </div>
 
 
+<div class="doc doc-object doc-function">
+
+
+
+<h4 id="nplinker.scoring.MetcalfScoring.format_data" class="doc doc-heading">
+<code class="doc-symbol doc-symbol-heading doc-symbol-method"></code>          <span class="doc doc-object-name doc-function-name">format_data</span>
+
+
+<a href="#nplinker.scoring.MetcalfScoring.format_data" class="headerlink" title="Permanent link">&para;</a></h4>
+<div class="language-python doc-signature highlight"><pre><span></span><code><a id="__codelineno-0-1" name="__codelineno-0-1" href="#__codelineno-0-1"></a><span class="n">format_data</span><span class="p">(</span><span class="n">data</span><span class="p">)</span>
+</code></pre></div>
+
+  <div class="doc doc-contents ">
+
+          <details class="quote">
+            <summary>Source code in <code>src/nplinker/scoring/metcalf_scoring.py</code></summary>
+            <div class="language-python highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal"><a href="#__codelineno-0-311">311</a></span>
+<span class="normal"><a href="#__codelineno-0-312">312</a></span>
+<span class="normal"><a href="#__codelineno-0-313">313</a></span></pre></div></td><td class="code"><div><pre><span></span><code><a id="__codelineno-0-311" name="__codelineno-0-311"></a><span class="k">def</span> <span class="nf">format_data</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">data</span><span class="p">):</span>
+<a id="__codelineno-0-312" name="__codelineno-0-312"></a>    <span class="c1"># for metcalf the data will just be a floating point value (i.e. the score)</span>
+<a id="__codelineno-0-313" name="__codelineno-0-313"></a>    <span class="k">return</span> <span class="sa">f</span><span class="s2">&quot;</span><span class="si">{</span><span class="n">data</span><span class="si">:</span><span class="s2">.4f</span><span class="si">}</span><span class="s2">&quot;</span>
+</code></pre></div></td></tr></table></div>
+          </details>
+  </div>
+
+</div>
+
+
+<div class="doc doc-object doc-function">
+
+
+
+<h4 id="nplinker.scoring.MetcalfScoring.sort" class="doc doc-heading">
+<code class="doc-symbol doc-symbol-heading doc-symbol-method"></code>          <span class="doc doc-object-name doc-function-name">sort</span>
+
+
+<a href="#nplinker.scoring.MetcalfScoring.sort" class="headerlink" title="Permanent link">&para;</a></h4>
+<div class="language-python doc-signature highlight"><pre><span></span><code><a id="__codelineno-0-1" name="__codelineno-0-1" href="#__codelineno-0-1"></a><span class="n">sort</span><span class="p">(</span><span class="n">objects</span><span class="p">,</span> <span class="n">reverse</span><span class="o">=</span><span class="kc">True</span><span class="p">)</span>
+</code></pre></div>
+
+  <div class="doc doc-contents ">
+
+          <details class="quote">
+            <summary>Source code in <code>src/nplinker/scoring/metcalf_scoring.py</code></summary>
+            <div class="language-python highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal"><a href="#__codelineno-0-316">316</a></span>
+<span class="normal"><a href="#__codelineno-0-317">317</a></span>
+<span class="normal"><a href="#__codelineno-0-318">318</a></span></pre></div></td><td class="code"><div><pre><span></span><code><a id="__codelineno-0-316" name="__codelineno-0-316"></a><span class="k">def</span> <span class="nf">sort</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">objects</span><span class="p">,</span> <span class="n">reverse</span><span class="o">=</span><span class="kc">True</span><span class="p">):</span>
+<a id="__codelineno-0-317" name="__codelineno-0-317"></a>    <span class="c1"># sort based on score</span>
+<a id="__codelineno-0-318" name="__codelineno-0-318"></a>    <span class="k">return</span> <span class="nb">sorted</span><span class="p">(</span><span class="n">objects</span><span class="p">,</span> <span class="n">key</span><span class="o">=</span><span class="k">lambda</span> <span class="n">objlink</span><span class="p">:</span> <span class="n">objlink</span><span class="p">[</span><span class="bp">self</span><span class="p">],</span> <span class="n">reverse</span><span class="o">=</span><span class="n">reverse</span><span class="p">)</span>
+</code></pre></div></td></tr></table></div>
+          </details>
+  </div>
+
+</div>
+
+
 
   </div>
 
@@ -2460,9 +3254,378 @@ <h3 id="nplinker.scoring.LinkCollection" class="doc doc-heading">
 
 
 
+<div class="doc doc-object doc-attribute">
 
 
 
+<h4 id="nplinker.scoring.LinkCollection.methods" class="doc doc-heading">
+<code class="doc-symbol doc-symbol-heading doc-symbol-attribute"></code>          <span class="doc doc-object-name doc-attribute-name">methods</span>
+
+  
+  <span class="doc doc-labels">
+      <small class="doc doc-label doc-label-property"><code>property</code></small>
+  </span>
+
+<a href="#nplinker.scoring.LinkCollection.methods" class="headerlink" title="Permanent link">&para;</a></h4>
+<div class="language-python doc-signature highlight"><pre><span></span><code><a id="__codelineno-0-1" name="__codelineno-0-1" href="#__codelineno-0-1"></a><span class="n">methods</span>
+</code></pre></div>
+
+  <div class="doc doc-contents ">
+  </div>
+
+</div>
+
+<div class="doc doc-object doc-attribute">
+
+
+
+<h4 id="nplinker.scoring.LinkCollection.sources" class="doc doc-heading">
+<code class="doc-symbol doc-symbol-heading doc-symbol-attribute"></code>          <span class="doc doc-object-name doc-attribute-name">sources</span>
+
+  
+  <span class="doc doc-labels">
+      <small class="doc doc-label doc-label-property"><code>property</code></small>
+  </span>
+
+<a href="#nplinker.scoring.LinkCollection.sources" class="headerlink" title="Permanent link">&para;</a></h4>
+<div class="language-python doc-signature highlight"><pre><span></span><code><a id="__codelineno-0-1" name="__codelineno-0-1" href="#__codelineno-0-1"></a><span class="n">sources</span>
+</code></pre></div>
+
+  <div class="doc doc-contents ">
+  </div>
+
+</div>
+
+<div class="doc doc-object doc-attribute">
+
+
+
+<h4 id="nplinker.scoring.LinkCollection.links" class="doc doc-heading">
+<code class="doc-symbol doc-symbol-heading doc-symbol-attribute"></code>          <span class="doc doc-object-name doc-attribute-name">links</span>
+
+  
+  <span class="doc doc-labels">
+      <small class="doc doc-label doc-label-property"><code>property</code></small>
+  </span>
+
+<a href="#nplinker.scoring.LinkCollection.links" class="headerlink" title="Permanent link">&para;</a></h4>
+<div class="language-python doc-signature highlight"><pre><span></span><code><a id="__codelineno-0-1" name="__codelineno-0-1" href="#__codelineno-0-1"></a><span class="n">links</span>
+</code></pre></div>
+
+  <div class="doc doc-contents ">
+  </div>
+
+</div>
+
+<div class="doc doc-object doc-attribute">
+
+
+
+<h4 id="nplinker.scoring.LinkCollection.source_count" class="doc doc-heading">
+<code class="doc-symbol doc-symbol-heading doc-symbol-attribute"></code>          <span class="doc doc-object-name doc-attribute-name">source_count</span>
+
+  
+  <span class="doc doc-labels">
+      <small class="doc doc-label doc-label-property"><code>property</code></small>
+  </span>
+
+<a href="#nplinker.scoring.LinkCollection.source_count" class="headerlink" title="Permanent link">&para;</a></h4>
+<div class="language-python doc-signature highlight"><pre><span></span><code><a id="__codelineno-0-1" name="__codelineno-0-1" href="#__codelineno-0-1"></a><span class="n">source_count</span>
+</code></pre></div>
+
+  <div class="doc doc-contents ">
+  </div>
+
+</div>
+
+<div class="doc doc-object doc-attribute">
+
+
+
+<h4 id="nplinker.scoring.LinkCollection.method_count" class="doc doc-heading">
+<code class="doc-symbol doc-symbol-heading doc-symbol-attribute"></code>          <span class="doc doc-object-name doc-attribute-name">method_count</span>
+
+  
+  <span class="doc doc-labels">
+      <small class="doc doc-label doc-label-property"><code>property</code></small>
+  </span>
+
+<a href="#nplinker.scoring.LinkCollection.method_count" class="headerlink" title="Permanent link">&para;</a></h4>
+<div class="language-python doc-signature highlight"><pre><span></span><code><a id="__codelineno-0-1" name="__codelineno-0-1" href="#__codelineno-0-1"></a><span class="n">method_count</span>
+</code></pre></div>
+
+  <div class="doc doc-contents ">
+  </div>
+
+</div>
+
+
+
+
+<div class="doc doc-object doc-function">
+
+
+
+<h4 id="nplinker.scoring.LinkCollection.filter_no_shared_strains" class="doc doc-heading">
+<code class="doc-symbol doc-symbol-heading doc-symbol-method"></code>          <span class="doc doc-object-name doc-function-name">filter_no_shared_strains</span>
+
+
+<a href="#nplinker.scoring.LinkCollection.filter_no_shared_strains" class="headerlink" title="Permanent link">&para;</a></h4>
+<div class="language-python doc-signature highlight"><pre><span></span><code><a id="__codelineno-0-1" name="__codelineno-0-1" href="#__codelineno-0-1"></a><span class="n">filter_no_shared_strains</span><span class="p">()</span>
+</code></pre></div>
+
+  <div class="doc doc-contents ">
+
+          <details class="quote">
+            <summary>Source code in <code>src/nplinker/scoring/link_collection.py</code></summary>
+            <div class="language-python highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal"><a href="#__codelineno-0-98"> 98</a></span>
+<span class="normal"><a href="#__codelineno-0-99"> 99</a></span>
+<span class="normal"><a href="#__codelineno-0-100">100</a></span>
+<span class="normal"><a href="#__codelineno-0-101">101</a></span></pre></div></td><td class="code"><div><pre><span></span><code><a id="__codelineno-0-98" name="__codelineno-0-98"></a><span class="k">def</span> <span class="nf">filter_no_shared_strains</span><span class="p">(</span><span class="bp">self</span><span class="p">):</span>
+<a id="__codelineno-0-99" name="__codelineno-0-99"></a>    <span class="n">len_before</span> <span class="o">=</span> <span class="nb">len</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">_link_data</span><span class="p">)</span>
+<a id="__codelineno-0-100" name="__codelineno-0-100"></a>    <span class="bp">self</span><span class="o">.</span><span class="n">filter_links</span><span class="p">(</span><span class="k">lambda</span> <span class="n">x</span><span class="p">:</span> <span class="nb">len</span><span class="p">(</span><span class="n">x</span><span class="o">.</span><span class="n">shared_strains</span><span class="p">)</span> <span class="o">&gt;</span> <span class="mi">0</span><span class="p">)</span>
+<a id="__codelineno-0-101" name="__codelineno-0-101"></a>    <span class="n">logger</span><span class="o">.</span><span class="n">debug</span><span class="p">(</span><span class="s2">&quot;filter_no_shared_strains: </span><span class="si">{}</span><span class="s2"> =&gt; </span><span class="si">{}</span><span class="s2">&quot;</span><span class="o">.</span><span class="n">format</span><span class="p">(</span><span class="n">len_before</span><span class="p">,</span> <span class="nb">len</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">_link_data</span><span class="p">)))</span>
+</code></pre></div></td></tr></table></div>
+          </details>
+  </div>
+
+</div>
+
+
+<div class="doc doc-object doc-function">
+
+
+
+<h4 id="nplinker.scoring.LinkCollection.filter_sources" class="doc doc-heading">
+<code class="doc-symbol doc-symbol-heading doc-symbol-method"></code>          <span class="doc doc-object-name doc-function-name">filter_sources</span>
+
+
+<a href="#nplinker.scoring.LinkCollection.filter_sources" class="headerlink" title="Permanent link">&para;</a></h4>
+<div class="language-python doc-signature highlight"><pre><span></span><code><a id="__codelineno-0-1" name="__codelineno-0-1" href="#__codelineno-0-1"></a><span class="n">filter_sources</span><span class="p">(</span><span class="n">callable_obj</span><span class="p">)</span>
+</code></pre></div>
+
+  <div class="doc doc-contents ">
+
+          <details class="quote">
+            <summary>Source code in <code>src/nplinker/scoring/link_collection.py</code></summary>
+            <div class="language-python highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal"><a href="#__codelineno-0-103">103</a></span>
+<span class="normal"><a href="#__codelineno-0-104">104</a></span>
+<span class="normal"><a href="#__codelineno-0-105">105</a></span>
+<span class="normal"><a href="#__codelineno-0-106">106</a></span></pre></div></td><td class="code"><div><pre><span></span><code><a id="__codelineno-0-103" name="__codelineno-0-103"></a><span class="k">def</span> <span class="nf">filter_sources</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">callable_obj</span><span class="p">):</span>
+<a id="__codelineno-0-104" name="__codelineno-0-104"></a>    <span class="n">len_before</span> <span class="o">=</span> <span class="nb">len</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">_link_data</span><span class="p">)</span>
+<a id="__codelineno-0-105" name="__codelineno-0-105"></a>    <span class="bp">self</span><span class="o">.</span><span class="n">_link_data</span> <span class="o">=</span> <span class="p">{</span><span class="n">k</span><span class="p">:</span> <span class="n">v</span> <span class="k">for</span> <span class="n">k</span><span class="p">,</span> <span class="n">v</span> <span class="ow">in</span> <span class="bp">self</span><span class="o">.</span><span class="n">_link_data</span><span class="o">.</span><span class="n">items</span><span class="p">()</span> <span class="k">if</span> <span class="n">callable_obj</span><span class="p">(</span><span class="n">k</span><span class="p">)}</span>
+<a id="__codelineno-0-106" name="__codelineno-0-106"></a>    <span class="n">logger</span><span class="o">.</span><span class="n">debug</span><span class="p">(</span><span class="s2">&quot;filter_sources: </span><span class="si">{}</span><span class="s2"> =&gt; </span><span class="si">{}</span><span class="s2">&quot;</span><span class="o">.</span><span class="n">format</span><span class="p">(</span><span class="n">len_before</span><span class="p">,</span> <span class="nb">len</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">_link_data</span><span class="p">)))</span>
+</code></pre></div></td></tr></table></div>
+          </details>
+  </div>
+
+</div>
+
+
+<div class="doc doc-object doc-function">
+
+
+
+<h4 id="nplinker.scoring.LinkCollection.filter_targets" class="doc doc-heading">
+<code class="doc-symbol doc-symbol-heading doc-symbol-method"></code>          <span class="doc doc-object-name doc-function-name">filter_targets</span>
+
+
+<a href="#nplinker.scoring.LinkCollection.filter_targets" class="headerlink" title="Permanent link">&para;</a></h4>
+<div class="language-python doc-signature highlight"><pre><span></span><code><a id="__codelineno-0-1" name="__codelineno-0-1" href="#__codelineno-0-1"></a><span class="n">filter_targets</span><span class="p">(</span><span class="n">callable_obj</span><span class="p">,</span> <span class="n">sources</span><span class="o">=</span><span class="kc">None</span><span class="p">)</span>
+</code></pre></div>
+
+  <div class="doc doc-contents ">
+
+          <details class="quote">
+            <summary>Source code in <code>src/nplinker/scoring/link_collection.py</code></summary>
+            <div class="language-python highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal"><a href="#__codelineno-0-108">108</a></span>
+<span class="normal"><a href="#__codelineno-0-109">109</a></span>
+<span class="normal"><a href="#__codelineno-0-110">110</a></span>
+<span class="normal"><a href="#__codelineno-0-111">111</a></span>
+<span class="normal"><a href="#__codelineno-0-112">112</a></span>
+<span class="normal"><a href="#__codelineno-0-113">113</a></span>
+<span class="normal"><a href="#__codelineno-0-114">114</a></span>
+<span class="normal"><a href="#__codelineno-0-115">115</a></span>
+<span class="normal"><a href="#__codelineno-0-116">116</a></span>
+<span class="normal"><a href="#__codelineno-0-117">117</a></span>
+<span class="normal"><a href="#__codelineno-0-118">118</a></span>
+<span class="normal"><a href="#__codelineno-0-119">119</a></span>
+<span class="normal"><a href="#__codelineno-0-120">120</a></span></pre></div></td><td class="code"><div><pre><span></span><code><a id="__codelineno-0-108" name="__codelineno-0-108"></a><span class="k">def</span> <span class="nf">filter_targets</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">callable_obj</span><span class="p">,</span> <span class="n">sources</span><span class="o">=</span><span class="kc">None</span><span class="p">):</span>
+<a id="__codelineno-0-109" name="__codelineno-0-109"></a>    <span class="n">to_remove</span> <span class="o">=</span> <span class="p">[]</span>
+<a id="__codelineno-0-110" name="__codelineno-0-110"></a>    <span class="n">sources_list</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">_link_data</span><span class="o">.</span><span class="n">keys</span><span class="p">()</span> <span class="k">if</span> <span class="n">sources</span> <span class="ow">is</span> <span class="kc">None</span> <span class="k">else</span> <span class="n">sources</span>
+<a id="__codelineno-0-111" name="__codelineno-0-111"></a>    <span class="k">for</span> <span class="n">source</span> <span class="ow">in</span> <span class="n">sources_list</span><span class="p">:</span>
+<a id="__codelineno-0-112" name="__codelineno-0-112"></a>        <span class="bp">self</span><span class="o">.</span><span class="n">_link_data</span><span class="p">[</span><span class="n">source</span><span class="p">]</span> <span class="o">=</span> <span class="p">{</span>
+<a id="__codelineno-0-113" name="__codelineno-0-113"></a>            <span class="n">k</span><span class="p">:</span> <span class="n">v</span> <span class="k">for</span> <span class="n">k</span><span class="p">,</span> <span class="n">v</span> <span class="ow">in</span> <span class="bp">self</span><span class="o">.</span><span class="n">_link_data</span><span class="p">[</span><span class="n">source</span><span class="p">]</span><span class="o">.</span><span class="n">items</span><span class="p">()</span> <span class="k">if</span> <span class="n">callable_obj</span><span class="p">(</span><span class="n">k</span><span class="p">)</span>
+<a id="__codelineno-0-114" name="__codelineno-0-114"></a>        <span class="p">}</span>
+<a id="__codelineno-0-115" name="__codelineno-0-115"></a>        <span class="c1"># if there are now no links for this source, remove it completely</span>
+<a id="__codelineno-0-116" name="__codelineno-0-116"></a>        <span class="k">if</span> <span class="nb">len</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">_link_data</span><span class="p">[</span><span class="n">source</span><span class="p">])</span> <span class="o">==</span> <span class="mi">0</span><span class="p">:</span>
+<a id="__codelineno-0-117" name="__codelineno-0-117"></a>            <span class="n">to_remove</span><span class="o">.</span><span class="n">append</span><span class="p">(</span><span class="n">source</span><span class="p">)</span>
+<a id="__codelineno-0-118" name="__codelineno-0-118"></a>
+<a id="__codelineno-0-119" name="__codelineno-0-119"></a>    <span class="k">for</span> <span class="n">source</span> <span class="ow">in</span> <span class="n">to_remove</span><span class="p">:</span>
+<a id="__codelineno-0-120" name="__codelineno-0-120"></a>        <span class="k">del</span> <span class="bp">self</span><span class="o">.</span><span class="n">_link_data</span><span class="p">[</span><span class="n">source</span><span class="p">]</span>
+</code></pre></div></td></tr></table></div>
+          </details>
+  </div>
+
+</div>
+
+
+<div class="doc doc-object doc-function">
+
+
+
+<h4 id="nplinker.scoring.LinkCollection.filter_links" class="doc doc-heading">
+<code class="doc-symbol doc-symbol-heading doc-symbol-method"></code>          <span class="doc doc-object-name doc-function-name">filter_links</span>
+
+
+<a href="#nplinker.scoring.LinkCollection.filter_links" class="headerlink" title="Permanent link">&para;</a></h4>
+<div class="language-python doc-signature highlight"><pre><span></span><code><a id="__codelineno-0-1" name="__codelineno-0-1" href="#__codelineno-0-1"></a><span class="n">filter_links</span><span class="p">(</span><span class="n">callable_obj</span><span class="p">,</span> <span class="n">sources</span><span class="o">=</span><span class="kc">None</span><span class="p">)</span>
+</code></pre></div>
+
+  <div class="doc doc-contents ">
+
+          <details class="quote">
+            <summary>Source code in <code>src/nplinker/scoring/link_collection.py</code></summary>
+            <div class="language-python highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal"><a href="#__codelineno-0-122">122</a></span>
+<span class="normal"><a href="#__codelineno-0-123">123</a></span>
+<span class="normal"><a href="#__codelineno-0-124">124</a></span>
+<span class="normal"><a href="#__codelineno-0-125">125</a></span>
+<span class="normal"><a href="#__codelineno-0-126">126</a></span>
+<span class="normal"><a href="#__codelineno-0-127">127</a></span>
+<span class="normal"><a href="#__codelineno-0-128">128</a></span>
+<span class="normal"><a href="#__codelineno-0-129">129</a></span>
+<span class="normal"><a href="#__codelineno-0-130">130</a></span>
+<span class="normal"><a href="#__codelineno-0-131">131</a></span>
+<span class="normal"><a href="#__codelineno-0-132">132</a></span>
+<span class="normal"><a href="#__codelineno-0-133">133</a></span>
+<span class="normal"><a href="#__codelineno-0-134">134</a></span></pre></div></td><td class="code"><div><pre><span></span><code><a id="__codelineno-0-122" name="__codelineno-0-122"></a><span class="k">def</span> <span class="nf">filter_links</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">callable_obj</span><span class="p">,</span> <span class="n">sources</span><span class="o">=</span><span class="kc">None</span><span class="p">):</span>
+<a id="__codelineno-0-123" name="__codelineno-0-123"></a>    <span class="n">to_remove</span> <span class="o">=</span> <span class="p">[]</span>
+<a id="__codelineno-0-124" name="__codelineno-0-124"></a>    <span class="n">sources_list</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">_link_data</span><span class="o">.</span><span class="n">keys</span><span class="p">()</span> <span class="k">if</span> <span class="n">sources</span> <span class="ow">is</span> <span class="kc">None</span> <span class="k">else</span> <span class="n">sources</span>
+<a id="__codelineno-0-125" name="__codelineno-0-125"></a>    <span class="k">for</span> <span class="n">source</span> <span class="ow">in</span> <span class="n">sources_list</span><span class="p">:</span>
+<a id="__codelineno-0-126" name="__codelineno-0-126"></a>        <span class="bp">self</span><span class="o">.</span><span class="n">_link_data</span><span class="p">[</span><span class="n">source</span><span class="p">]</span> <span class="o">=</span> <span class="p">{</span>
+<a id="__codelineno-0-127" name="__codelineno-0-127"></a>            <span class="n">k</span><span class="p">:</span> <span class="n">v</span> <span class="k">for</span> <span class="n">k</span><span class="p">,</span> <span class="n">v</span> <span class="ow">in</span> <span class="bp">self</span><span class="o">.</span><span class="n">_link_data</span><span class="p">[</span><span class="n">source</span><span class="p">]</span><span class="o">.</span><span class="n">items</span><span class="p">()</span> <span class="k">if</span> <span class="n">callable_obj</span><span class="p">(</span><span class="n">v</span><span class="p">)</span>
+<a id="__codelineno-0-128" name="__codelineno-0-128"></a>        <span class="p">}</span>
+<a id="__codelineno-0-129" name="__codelineno-0-129"></a>        <span class="c1"># if there are now no links for this source, remove it completely</span>
+<a id="__codelineno-0-130" name="__codelineno-0-130"></a>        <span class="k">if</span> <span class="nb">len</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">_link_data</span><span class="p">[</span><span class="n">source</span><span class="p">])</span> <span class="o">==</span> <span class="mi">0</span><span class="p">:</span>
+<a id="__codelineno-0-131" name="__codelineno-0-131"></a>            <span class="n">to_remove</span><span class="o">.</span><span class="n">append</span><span class="p">(</span><span class="n">source</span><span class="p">)</span>
+<a id="__codelineno-0-132" name="__codelineno-0-132"></a>
+<a id="__codelineno-0-133" name="__codelineno-0-133"></a>    <span class="k">for</span> <span class="n">source</span> <span class="ow">in</span> <span class="n">to_remove</span><span class="p">:</span>
+<a id="__codelineno-0-134" name="__codelineno-0-134"></a>        <span class="k">del</span> <span class="bp">self</span><span class="o">.</span><span class="n">_link_data</span><span class="p">[</span><span class="n">source</span><span class="p">]</span>
+</code></pre></div></td></tr></table></div>
+          </details>
+  </div>
+
+</div>
+
+
+<div class="doc doc-object doc-function">
+
+
+
+<h4 id="nplinker.scoring.LinkCollection.get_sorted_links" class="doc doc-heading">
+<code class="doc-symbol doc-symbol-heading doc-symbol-method"></code>          <span class="doc doc-object-name doc-function-name">get_sorted_links</span>
+
+
+<a href="#nplinker.scoring.LinkCollection.get_sorted_links" class="headerlink" title="Permanent link">&para;</a></h4>
+<div class="language-python doc-signature highlight"><pre><span></span><code><a id="__codelineno-0-1" name="__codelineno-0-1" href="#__codelineno-0-1"></a><span class="n">get_sorted_links</span><span class="p">(</span><span class="n">method</span><span class="p">,</span> <span class="n">source</span><span class="p">,</span> <span class="n">reverse</span><span class="o">=</span><span class="kc">True</span><span class="p">,</span> <span class="n">strict</span><span class="o">=</span><span class="kc">False</span><span class="p">)</span>
+</code></pre></div>
+
+  <div class="doc doc-contents ">
+
+          <details class="quote">
+            <summary>Source code in <code>src/nplinker/scoring/link_collection.py</code></summary>
+            <div class="language-python highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal"><a href="#__codelineno-0-136">136</a></span>
+<span class="normal"><a href="#__codelineno-0-137">137</a></span>
+<span class="normal"><a href="#__codelineno-0-138">138</a></span>
+<span class="normal"><a href="#__codelineno-0-139">139</a></span>
+<span class="normal"><a href="#__codelineno-0-140">140</a></span>
+<span class="normal"><a href="#__codelineno-0-141">141</a></span>
+<span class="normal"><a href="#__codelineno-0-142">142</a></span>
+<span class="normal"><a href="#__codelineno-0-143">143</a></span>
+<span class="normal"><a href="#__codelineno-0-144">144</a></span>
+<span class="normal"><a href="#__codelineno-0-145">145</a></span>
+<span class="normal"><a href="#__codelineno-0-146">146</a></span>
+<span class="normal"><a href="#__codelineno-0-147">147</a></span>
+<span class="normal"><a href="#__codelineno-0-148">148</a></span>
+<span class="normal"><a href="#__codelineno-0-149">149</a></span>
+<span class="normal"><a href="#__codelineno-0-150">150</a></span>
+<span class="normal"><a href="#__codelineno-0-151">151</a></span>
+<span class="normal"><a href="#__codelineno-0-152">152</a></span>
+<span class="normal"><a href="#__codelineno-0-153">153</a></span>
+<span class="normal"><a href="#__codelineno-0-154">154</a></span>
+<span class="normal"><a href="#__codelineno-0-155">155</a></span>
+<span class="normal"><a href="#__codelineno-0-156">156</a></span>
+<span class="normal"><a href="#__codelineno-0-157">157</a></span>
+<span class="normal"><a href="#__codelineno-0-158">158</a></span>
+<span class="normal"><a href="#__codelineno-0-159">159</a></span></pre></div></td><td class="code"><div><pre><span></span><code><a id="__codelineno-0-136" name="__codelineno-0-136"></a><span class="k">def</span> <span class="nf">get_sorted_links</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">method</span><span class="p">,</span> <span class="n">source</span><span class="p">,</span> <span class="n">reverse</span><span class="o">=</span><span class="kc">True</span><span class="p">,</span> <span class="n">strict</span><span class="o">=</span><span class="kc">False</span><span class="p">):</span>
+<a id="__codelineno-0-137" name="__codelineno-0-137"></a>    <span class="c1"># This method allows for the sorting of a set of links according to the</span>
+<a id="__codelineno-0-138" name="__codelineno-0-138"></a>    <span class="c1"># sorting implemented by a specific method. However because there may be</span>
+<a id="__codelineno-0-139" name="__codelineno-0-139"></a>    <span class="c1"># links from multiple methods present in the collection, it isn&#39;t as simple</span>
+<a id="__codelineno-0-140" name="__codelineno-0-140"></a>    <span class="c1"># as running &lt;method&gt;.sort(links) and returning the result, because that</span>
+<a id="__codelineno-0-141" name="__codelineno-0-141"></a>    <span class="c1"># will only work on links which have the expected method data. To get around</span>
+<a id="__codelineno-0-142" name="__codelineno-0-142"></a>    <span class="c1"># this, the &quot;strict&quot; parameter is used. If set to True, it simply returns</span>
+<a id="__codelineno-0-143" name="__codelineno-0-143"></a>    <span class="c1"># the sorted links *for the specific method only*, which may be a subset</span>
+<a id="__codelineno-0-144" name="__codelineno-0-144"></a>    <span class="c1"># of the total collection if multiple methods were used to generate it. If</span>
+<a id="__codelineno-0-145" name="__codelineno-0-145"></a>    <span class="c1"># set to False, it will return a list consisting of the sorted links for</span>
+<a id="__codelineno-0-146" name="__codelineno-0-146"></a>    <span class="c1"># the given method, with any remaining links appended in arbitrary order.</span>
+<a id="__codelineno-0-147" name="__codelineno-0-147"></a>
+<a id="__codelineno-0-148" name="__codelineno-0-148"></a>    <span class="c1"># run &lt;method&gt;.sort on the links found by that method</span>
+<a id="__codelineno-0-149" name="__codelineno-0-149"></a>    <span class="n">sorted_links_for_method</span> <span class="o">=</span> <span class="n">method</span><span class="o">.</span><span class="n">sort</span><span class="p">(</span>
+<a id="__codelineno-0-150" name="__codelineno-0-150"></a>        <span class="p">[</span><span class="n">link</span> <span class="k">for</span> <span class="n">link</span> <span class="ow">in</span> <span class="bp">self</span><span class="o">.</span><span class="n">_link_data</span><span class="p">[</span><span class="n">source</span><span class="p">]</span><span class="o">.</span><span class="n">values</span><span class="p">()</span> <span class="k">if</span> <span class="n">method</span> <span class="ow">in</span> <span class="n">link</span><span class="o">.</span><span class="n">methods</span><span class="p">],</span> <span class="n">reverse</span>
+<a id="__codelineno-0-151" name="__codelineno-0-151"></a>    <span class="p">)</span>
+<a id="__codelineno-0-152" name="__codelineno-0-152"></a>
+<a id="__codelineno-0-153" name="__codelineno-0-153"></a>    <span class="k">if</span> <span class="ow">not</span> <span class="n">strict</span><span class="p">:</span>
+<a id="__codelineno-0-154" name="__codelineno-0-154"></a>        <span class="c1"># append any remaining links</span>
+<a id="__codelineno-0-155" name="__codelineno-0-155"></a>        <span class="n">sorted_links_for_method</span><span class="o">.</span><span class="n">extend</span><span class="p">(</span>
+<a id="__codelineno-0-156" name="__codelineno-0-156"></a>            <span class="p">[</span><span class="n">link</span> <span class="k">for</span> <span class="n">link</span> <span class="ow">in</span> <span class="bp">self</span><span class="o">.</span><span class="n">_link_data</span><span class="p">[</span><span class="n">source</span><span class="p">]</span><span class="o">.</span><span class="n">values</span><span class="p">()</span> <span class="k">if</span> <span class="n">method</span> <span class="ow">not</span> <span class="ow">in</span> <span class="n">link</span><span class="o">.</span><span class="n">methods</span><span class="p">]</span>
+<a id="__codelineno-0-157" name="__codelineno-0-157"></a>        <span class="p">)</span>
+<a id="__codelineno-0-158" name="__codelineno-0-158"></a>
+<a id="__codelineno-0-159" name="__codelineno-0-159"></a>    <span class="k">return</span> <span class="n">sorted_links_for_method</span>
+</code></pre></div></td></tr></table></div>
+          </details>
+  </div>
+
+</div>
+
+
+<div class="doc doc-object doc-function">
+
+
+
+<h4 id="nplinker.scoring.LinkCollection.get_all_targets" class="doc doc-heading">
+<code class="doc-symbol doc-symbol-heading doc-symbol-method"></code>          <span class="doc doc-object-name doc-function-name">get_all_targets</span>
+
+
+<a href="#nplinker.scoring.LinkCollection.get_all_targets" class="headerlink" title="Permanent link">&para;</a></h4>
+<div class="language-python doc-signature highlight"><pre><span></span><code><a id="__codelineno-0-1" name="__codelineno-0-1" href="#__codelineno-0-1"></a><span class="n">get_all_targets</span><span class="p">()</span>
+</code></pre></div>
+
+  <div class="doc doc-contents ">
+
+          <details class="quote">
+            <summary>Source code in <code>src/nplinker/scoring/link_collection.py</code></summary>
+            <div class="language-python highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal"><a href="#__codelineno-0-161">161</a></span>
+<span class="normal"><a href="#__codelineno-0-162">162</a></span>
+<span class="normal"><a href="#__codelineno-0-163">163</a></span>
+<span class="normal"><a href="#__codelineno-0-164">164</a></span>
+<span class="normal"><a href="#__codelineno-0-165">165</a></span>
+<span class="normal"><a href="#__codelineno-0-166">166</a></span>
+<span class="normal"><a href="#__codelineno-0-167">167</a></span>
+<span class="normal"><a href="#__codelineno-0-168">168</a></span></pre></div></td><td class="code"><div><pre><span></span><code><a id="__codelineno-0-161" name="__codelineno-0-161"></a><span class="k">def</span> <span class="nf">get_all_targets</span><span class="p">(</span><span class="bp">self</span><span class="p">):</span>
+<a id="__codelineno-0-162" name="__codelineno-0-162"></a>    <span class="k">return</span> <span class="nb">list</span><span class="p">(</span>
+<a id="__codelineno-0-163" name="__codelineno-0-163"></a>        <span class="nb">set</span><span class="p">(</span>
+<a id="__codelineno-0-164" name="__codelineno-0-164"></a>            <span class="n">itertools</span><span class="o">.</span><span class="n">chain</span><span class="o">.</span><span class="n">from_iterable</span><span class="p">(</span>
+<a id="__codelineno-0-165" name="__codelineno-0-165"></a>                <span class="bp">self</span><span class="o">.</span><span class="n">_link_data</span><span class="p">[</span><span class="n">x</span><span class="p">]</span><span class="o">.</span><span class="n">keys</span><span class="p">()</span> <span class="k">for</span> <span class="n">x</span> <span class="ow">in</span> <span class="bp">self</span><span class="o">.</span><span class="n">_link_data</span><span class="o">.</span><span class="n">keys</span><span class="p">()</span>
+<a id="__codelineno-0-166" name="__codelineno-0-166"></a>            <span class="p">)</span>
+<a id="__codelineno-0-167" name="__codelineno-0-167"></a>        <span class="p">)</span>
+<a id="__codelineno-0-168" name="__codelineno-0-168"></a>    <span class="p">)</span>
+</code></pre></div></td></tr></table></div>
+          </details>
+  </div>
+
+</div>
+
+
 
   </div>
 
@@ -2527,7 +3690,164 @@ <h3 id="nplinker.scoring.ObjectLink" class="doc doc-heading">
 
 
 
+<div class="doc doc-object doc-attribute">
+
+
 
+<h4 id="nplinker.scoring.ObjectLink.source" class="doc doc-heading">
+<code class="doc-symbol doc-symbol-heading doc-symbol-attribute"></code>          <span class="doc doc-object-name doc-attribute-name">source</span>
+
+  
+  <span class="doc doc-labels">
+      <small class="doc doc-label doc-label-instance-attribute"><code>instance-attribute</code></small>
+  </span>
+
+<a href="#nplinker.scoring.ObjectLink.source" class="headerlink" title="Permanent link">&para;</a></h4>
+<div class="language-python doc-signature highlight"><pre><span></span><code><a id="__codelineno-0-1" name="__codelineno-0-1" href="#__codelineno-0-1"></a><span class="n">source</span> <span class="o">=</span> <span class="n"><a class="autorefs autorefs-internal" title="nplinker.scoring.object_link.ObjectLink.source" href="#nplinker.scoring.ObjectLink.source">source</a></span>
+</code></pre></div>
+
+  <div class="doc doc-contents ">
+  </div>
+
+</div>
+
+<div class="doc doc-object doc-attribute">
+
+
+
+<h4 id="nplinker.scoring.ObjectLink.target" class="doc doc-heading">
+<code class="doc-symbol doc-symbol-heading doc-symbol-attribute"></code>          <span class="doc doc-object-name doc-attribute-name">target</span>
+
+  
+  <span class="doc doc-labels">
+      <small class="doc doc-label doc-label-instance-attribute"><code>instance-attribute</code></small>
+  </span>
+
+<a href="#nplinker.scoring.ObjectLink.target" class="headerlink" title="Permanent link">&para;</a></h4>
+<div class="language-python doc-signature highlight"><pre><span></span><code><a id="__codelineno-0-1" name="__codelineno-0-1" href="#__codelineno-0-1"></a><span class="n">target</span> <span class="o">=</span> <span class="n"><a class="autorefs autorefs-internal" title="nplinker.scoring.object_link.ObjectLink.target" href="#nplinker.scoring.ObjectLink.target">target</a></span>
+</code></pre></div>
+
+  <div class="doc doc-contents ">
+  </div>
+
+</div>
+
+<div class="doc doc-object doc-attribute">
+
+
+
+<h4 id="nplinker.scoring.ObjectLink.shared_strains" class="doc doc-heading">
+<code class="doc-symbol doc-symbol-heading doc-symbol-attribute"></code>          <span class="doc doc-object-name doc-attribute-name">shared_strains</span>
+
+  
+  <span class="doc doc-labels">
+      <small class="doc doc-label doc-label-instance-attribute"><code>instance-attribute</code></small>
+  </span>
+
+<a href="#nplinker.scoring.ObjectLink.shared_strains" class="headerlink" title="Permanent link">&para;</a></h4>
+<div class="language-python doc-signature highlight"><pre><span></span><code><a id="__codelineno-0-1" name="__codelineno-0-1" href="#__codelineno-0-1"></a><span class="n">shared_strains</span> <span class="o">=</span> <span class="n"><a class="autorefs autorefs-internal" title="nplinker.scoring.object_link.ObjectLink.shared_strains" href="#nplinker.scoring.ObjectLink.shared_strains">shared_strains</a></span>
+</code></pre></div>
+
+  <div class="doc doc-contents ">
+  </div>
+
+</div>
+
+<div class="doc doc-object doc-attribute">
+
+
+
+<h4 id="nplinker.scoring.ObjectLink.method_count" class="doc doc-heading">
+<code class="doc-symbol doc-symbol-heading doc-symbol-attribute"></code>          <span class="doc doc-object-name doc-attribute-name">method_count</span>
+
+  
+  <span class="doc doc-labels">
+      <small class="doc doc-label doc-label-property"><code>property</code></small>
+  </span>
+
+<a href="#nplinker.scoring.ObjectLink.method_count" class="headerlink" title="Permanent link">&para;</a></h4>
+<div class="language-python doc-signature highlight"><pre><span></span><code><a id="__codelineno-0-1" name="__codelineno-0-1" href="#__codelineno-0-1"></a><span class="n">method_count</span>
+</code></pre></div>
+
+  <div class="doc doc-contents ">
+  </div>
+
+</div>
+
+<div class="doc doc-object doc-attribute">
+
+
+
+<h4 id="nplinker.scoring.ObjectLink.methods" class="doc doc-heading">
+<code class="doc-symbol doc-symbol-heading doc-symbol-attribute"></code>          <span class="doc doc-object-name doc-attribute-name">methods</span>
+
+  
+  <span class="doc doc-labels">
+      <small class="doc doc-label doc-label-property"><code>property</code></small>
+  </span>
+
+<a href="#nplinker.scoring.ObjectLink.methods" class="headerlink" title="Permanent link">&para;</a></h4>
+<div class="language-python doc-signature highlight"><pre><span></span><code><a id="__codelineno-0-1" name="__codelineno-0-1" href="#__codelineno-0-1"></a><span class="n">methods</span>
+</code></pre></div>
+
+  <div class="doc doc-contents ">
+  </div>
+
+</div>
+
+
+
+
+<div class="doc doc-object doc-function">
+
+
+
+<h4 id="nplinker.scoring.ObjectLink.set_data" class="doc doc-heading">
+<code class="doc-symbol doc-symbol-heading doc-symbol-method"></code>          <span class="doc doc-object-name doc-function-name">set_data</span>
+
+
+<a href="#nplinker.scoring.ObjectLink.set_data" class="headerlink" title="Permanent link">&para;</a></h4>
+<div class="language-python doc-signature highlight"><pre><span></span><code><a id="__codelineno-0-1" name="__codelineno-0-1" href="#__codelineno-0-1"></a><span class="n">set_data</span><span class="p">(</span><span class="n">method</span><span class="p">,</span> <span class="n">newdata</span><span class="p">)</span>
+</code></pre></div>
+
+  <div class="doc doc-contents ">
+
+          <details class="quote">
+            <summary>Source code in <code>src/nplinker/scoring/object_link.py</code></summary>
+            <div class="language-python highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal"><a href="#__codelineno-0-28">28</a></span>
+<span class="normal"><a href="#__codelineno-0-29">29</a></span></pre></div></td><td class="code"><div><pre><span></span><code><a id="__codelineno-0-28" name="__codelineno-0-28"></a><span class="k">def</span> <span class="nf">set_data</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">method</span><span class="p">,</span> <span class="n">newdata</span><span class="p">):</span>
+<a id="__codelineno-0-29" name="__codelineno-0-29"></a>    <span class="bp">self</span><span class="o">.</span><span class="n">_method_data</span><span class="p">[</span><span class="n">method</span><span class="p">]</span> <span class="o">=</span> <span class="n">newdata</span>
+</code></pre></div></td></tr></table></div>
+          </details>
+  </div>
+
+</div>
+
+
+<div class="doc doc-object doc-function">
+
+
+
+<h4 id="nplinker.scoring.ObjectLink.data" class="doc doc-heading">
+<code class="doc-symbol doc-symbol-heading doc-symbol-method"></code>          <span class="doc doc-object-name doc-function-name">data</span>
+
+
+<a href="#nplinker.scoring.ObjectLink.data" class="headerlink" title="Permanent link">&para;</a></h4>
+<div class="language-python doc-signature highlight"><pre><span></span><code><a id="__codelineno-0-1" name="__codelineno-0-1" href="#__codelineno-0-1"></a><span class="n">data</span><span class="p">(</span><span class="n">method</span><span class="p">)</span>
+</code></pre></div>
+
+  <div class="doc doc-contents ">
+
+          <details class="quote">
+            <summary>Source code in <code>src/nplinker/scoring/object_link.py</code></summary>
+            <div class="language-python highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal"><a href="#__codelineno-0-39">39</a></span>
+<span class="normal"><a href="#__codelineno-0-40">40</a></span></pre></div></td><td class="code"><div><pre><span></span><code><a id="__codelineno-0-39" name="__codelineno-0-39"></a><span class="k">def</span> <span class="nf">data</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">method</span><span class="p">):</span>
+<a id="__codelineno-0-40" name="__codelineno-0-40"></a>    <span class="k">return</span> <span class="bp">self</span><span class="o">.</span><span class="n">_method_data</span><span class="p">[</span><span class="n">method</span><span class="p">]</span>
+</code></pre></div></td></tr></table></div>
+          </details>
+  </div>
+
+</div>
 
 
 
diff --git a/dev/api/strain/index.html b/dev/api/strain/index.html
index b45cbcaf..e700c62e 100644
--- a/dev/api/strain/index.html
+++ b/dev/api/strain/index.html
@@ -1156,6 +1156,15 @@
     <nav class="md-nav" aria-label=" Strain">
       <ul class="md-nav__list">
         
+          <li class="md-nav__item">
+  <a href="#nplinker.strain.Strain.id" class="md-nav__link">
+    <span class="md-ellipsis">
+      <code class="doc-symbol doc-symbol-toc doc-symbol-attribute"></code>&nbsp;id
+    </span>
+  </a>
+  
+</li>
+        
           <li class="md-nav__item">
   <a href="#nplinker.strain.Strain.names" class="md-nav__link">
     <span class="md-ellipsis">
@@ -1423,6 +1432,15 @@
     <nav class="md-nav" aria-label=" Strain">
       <ul class="md-nav__list">
         
+          <li class="md-nav__item">
+  <a href="#nplinker.strain.Strain.id" class="md-nav__link">
+    <span class="md-ellipsis">
+      <code class="doc-symbol doc-symbol-toc doc-symbol-attribute"></code>&nbsp;id
+    </span>
+  </a>
+  
+</li>
+        
           <li class="md-nav__item">
   <a href="#nplinker.strain.Strain.names" class="md-nav__link">
     <span class="md-ellipsis">
@@ -1599,6 +1617,7 @@ <h3 id="nplinker.strain.Strain" class="doc doc-heading">
       <p>To model the mapping between strain id and its aliases.</p>
 <p>It's recommended to use NCBI taxonomy strain id or name as the primary
 id.</p>
+  
 
 
 
@@ -1632,27 +1651,21 @@ <h3 id="nplinker.strain.Strain" class="doc doc-heading">
 
                 <details class="quote">
                   <summary>Source code in <code>src/nplinker/strain/strain.py</code></summary>
-                  <div class="language-python highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal"><a href="#__codelineno-0-9"> 9</a></span>
-<span class="normal"><a href="#__codelineno-0-10">10</a></span>
-<span class="normal"><a href="#__codelineno-0-11">11</a></span>
-<span class="normal"><a href="#__codelineno-0-12">12</a></span>
-<span class="normal"><a href="#__codelineno-0-13">13</a></span>
-<span class="normal"><a href="#__codelineno-0-14">14</a></span>
-<span class="normal"><a href="#__codelineno-0-15">15</a></span>
+                  <div class="language-python highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal"><a href="#__codelineno-0-15">15</a></span>
 <span class="normal"><a href="#__codelineno-0-16">16</a></span>
 <span class="normal"><a href="#__codelineno-0-17">17</a></span>
 <span class="normal"><a href="#__codelineno-0-18">18</a></span>
-<span class="normal"><a href="#__codelineno-0-19">19</a></span></pre></div></td><td class="code"><div><pre><span></span><code><a id="__codelineno-0-9" name="__codelineno-0-9"></a><span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">primary_id</span><span class="p">:</span> <span class="nb">str</span><span class="p">)</span> <span class="o">-&gt;</span> <span class="kc">None</span><span class="p">:</span>
-<a id="__codelineno-0-10" name="__codelineno-0-10"></a><span class="w">    </span><span class="sd">&quot;&quot;&quot;To model the mapping between strain id and its aliases.</span>
-<a id="__codelineno-0-11" name="__codelineno-0-11"></a>
-<a id="__codelineno-0-12" name="__codelineno-0-12"></a><span class="sd">    It&#39;s recommended to use NCBI taxonomy strain id or name as the primary</span>
-<a id="__codelineno-0-13" name="__codelineno-0-13"></a><span class="sd">    id.</span>
-<a id="__codelineno-0-14" name="__codelineno-0-14"></a>
-<a id="__codelineno-0-15" name="__codelineno-0-15"></a><span class="sd">    Args:</span>
-<a id="__codelineno-0-16" name="__codelineno-0-16"></a><span class="sd">        primary_id: the representative id of the strain.</span>
-<a id="__codelineno-0-17" name="__codelineno-0-17"></a><span class="sd">    &quot;&quot;&quot;</span>
-<a id="__codelineno-0-18" name="__codelineno-0-18"></a>    <span class="bp">self</span><span class="o">.</span><span class="n">id</span><span class="p">:</span> <span class="nb">str</span> <span class="o">=</span> <span class="n">primary_id</span>
-<a id="__codelineno-0-19" name="__codelineno-0-19"></a>    <span class="bp">self</span><span class="o">.</span><span class="n">_aliases</span><span class="p">:</span> <span class="nb">set</span><span class="p">[</span><span class="nb">str</span><span class="p">]</span> <span class="o">=</span> <span class="nb">set</span><span class="p">()</span>
+<span class="normal"><a href="#__codelineno-0-19">19</a></span>
+<span class="normal"><a href="#__codelineno-0-20">20</a></span>
+<span class="normal"><a href="#__codelineno-0-21">21</a></span>
+<span class="normal"><a href="#__codelineno-0-22">22</a></span></pre></div></td><td class="code"><div><pre><span></span><code><a id="__codelineno-0-15" name="__codelineno-0-15"></a><span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">primary_id</span><span class="p">:</span> <span class="nb">str</span><span class="p">)</span> <span class="o">-&gt;</span> <span class="kc">None</span><span class="p">:</span>
+<a id="__codelineno-0-16" name="__codelineno-0-16"></a><span class="w">    </span><span class="sd">&quot;&quot;&quot;To model the mapping between strain id and its aliases.</span>
+<a id="__codelineno-0-17" name="__codelineno-0-17"></a>
+<a id="__codelineno-0-18" name="__codelineno-0-18"></a><span class="sd">    Args:</span>
+<a id="__codelineno-0-19" name="__codelineno-0-19"></a><span class="sd">        primary_id: the representative id of the strain.</span>
+<a id="__codelineno-0-20" name="__codelineno-0-20"></a><span class="sd">    &quot;&quot;&quot;</span>
+<a id="__codelineno-0-21" name="__codelineno-0-21"></a>    <span class="bp">self</span><span class="o">.</span><span class="n">id</span><span class="p">:</span> <span class="nb">str</span> <span class="o">=</span> <span class="n">primary_id</span>
+<a id="__codelineno-0-22" name="__codelineno-0-22"></a>    <span class="bp">self</span><span class="o">.</span><span class="n">_aliases</span><span class="p">:</span> <span class="nb">set</span><span class="p">[</span><span class="nb">str</span><span class="p">]</span> <span class="o">=</span> <span class="nb">set</span><span class="p">()</span>
 </code></pre></div></td></tr></table></div>
                 </details>
 
@@ -1666,6 +1679,27 @@ <h3 id="nplinker.strain.Strain" class="doc doc-heading">
 
 
 
+<div class="doc doc-object doc-attribute">
+
+
+
+<h4 id="nplinker.strain.Strain.id" class="doc doc-heading">
+<code class="doc-symbol doc-symbol-heading doc-symbol-attribute"></code>          <span class="doc doc-object-name doc-attribute-name">id</span>
+
+  
+  <span class="doc doc-labels">
+      <small class="doc doc-label doc-label-instance-attribute"><code>instance-attribute</code></small>
+  </span>
+
+<a href="#nplinker.strain.Strain.id" class="headerlink" title="Permanent link">&para;</a></h4>
+<div class="language-python doc-signature highlight"><pre><span></span><code><a id="__codelineno-0-1" name="__codelineno-0-1" href="#__codelineno-0-1"></a><span class="nb">id</span><span class="p">:</span> <span class="n"><a class="autorefs autorefs-external" href="https://docs.python.org/3/library/stdtypes.html#str">str</a></span> <span class="o">=</span> <span class="n">primary_id</span>
+</code></pre></div>
+
+  <div class="doc doc-contents ">
+  </div>
+
+</div>
+
 <div class="doc doc-object doc-attribute">
 
 
@@ -1703,7 +1737,7 @@ <h4 id="nplinker.strain.Strain.names" class="doc doc-heading">
           </td>
           <td>
             <div class="doc-md-description">
-              <p>set[str]: A set of names associated with the strain.</p>
+              <p>A set of names associated with the strain.</p>
             </div>
           </td>
         </tr>
@@ -1750,7 +1784,7 @@ <h4 id="nplinker.strain.Strain.aliases" class="doc doc-heading">
           </td>
           <td>
             <div class="doc-md-description">
-              <p>set[str]: A set of aliases associated with the strain.</p>
+              <p>A set of aliases associated with the strain.</p>
             </div>
           </td>
         </tr>
@@ -1811,10 +1845,7 @@ <h4 id="nplinker.strain.Strain.add_alias" class="doc doc-heading">
 
           <details class="quote">
             <summary>Source code in <code>src/nplinker/strain/strain.py</code></summary>
-            <div class="language-python highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal"><a href="#__codelineno-0-63">63</a></span>
-<span class="normal"><a href="#__codelineno-0-64">64</a></span>
-<span class="normal"><a href="#__codelineno-0-65">65</a></span>
-<span class="normal"><a href="#__codelineno-0-66">66</a></span>
+            <div class="language-python highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal"><a href="#__codelineno-0-66">66</a></span>
 <span class="normal"><a href="#__codelineno-0-67">67</a></span>
 <span class="normal"><a href="#__codelineno-0-68">68</a></span>
 <span class="normal"><a href="#__codelineno-0-69">69</a></span>
@@ -1822,18 +1853,21 @@ <h4 id="nplinker.strain.Strain.add_alias" class="doc doc-heading">
 <span class="normal"><a href="#__codelineno-0-71">71</a></span>
 <span class="normal"><a href="#__codelineno-0-72">72</a></span>
 <span class="normal"><a href="#__codelineno-0-73">73</a></span>
-<span class="normal"><a href="#__codelineno-0-74">74</a></span></pre></div></td><td class="code"><div><pre><span></span><code><a id="__codelineno-0-63" name="__codelineno-0-63"></a><span class="k">def</span> <span class="nf">add_alias</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">alias</span><span class="p">:</span> <span class="nb">str</span><span class="p">)</span> <span class="o">-&gt;</span> <span class="kc">None</span><span class="p">:</span>
-<a id="__codelineno-0-64" name="__codelineno-0-64"></a><span class="w">    </span><span class="sd">&quot;&quot;&quot;Add an alias to the list of known aliases.</span>
-<a id="__codelineno-0-65" name="__codelineno-0-65"></a>
-<a id="__codelineno-0-66" name="__codelineno-0-66"></a><span class="sd">    Args:</span>
-<a id="__codelineno-0-67" name="__codelineno-0-67"></a><span class="sd">        alias: The alias to add to the list of known aliases.</span>
-<a id="__codelineno-0-68" name="__codelineno-0-68"></a><span class="sd">    &quot;&quot;&quot;</span>
-<a id="__codelineno-0-69" name="__codelineno-0-69"></a>    <span class="k">if</span> <span class="ow">not</span> <span class="nb">isinstance</span><span class="p">(</span><span class="n">alias</span><span class="p">,</span> <span class="nb">str</span><span class="p">):</span>
-<a id="__codelineno-0-70" name="__codelineno-0-70"></a>        <span class="k">raise</span> <span class="ne">TypeError</span><span class="p">(</span><span class="sa">f</span><span class="s2">&quot;Expected str, got </span><span class="si">{</span><span class="nb">type</span><span class="p">(</span><span class="n">alias</span><span class="p">)</span><span class="si">}</span><span class="s2">&quot;</span><span class="p">)</span>
-<a id="__codelineno-0-71" name="__codelineno-0-71"></a>    <span class="k">if</span> <span class="nb">len</span><span class="p">(</span><span class="n">alias</span><span class="p">)</span> <span class="o">==</span> <span class="mi">0</span><span class="p">:</span>
-<a id="__codelineno-0-72" name="__codelineno-0-72"></a>        <span class="n">logger</span><span class="o">.</span><span class="n">warning</span><span class="p">(</span><span class="s2">&quot;Refusing to add an empty-string alias to strain {</span><span class="si">%s</span><span class="s2">}&quot;</span><span class="p">,</span> <span class="bp">self</span><span class="p">)</span>
-<a id="__codelineno-0-73" name="__codelineno-0-73"></a>    <span class="k">else</span><span class="p">:</span>
-<a id="__codelineno-0-74" name="__codelineno-0-74"></a>        <span class="bp">self</span><span class="o">.</span><span class="n">_aliases</span><span class="o">.</span><span class="n">add</span><span class="p">(</span><span class="n">alias</span><span class="p">)</span>
+<span class="normal"><a href="#__codelineno-0-74">74</a></span>
+<span class="normal"><a href="#__codelineno-0-75">75</a></span>
+<span class="normal"><a href="#__codelineno-0-76">76</a></span>
+<span class="normal"><a href="#__codelineno-0-77">77</a></span></pre></div></td><td class="code"><div><pre><span></span><code><a id="__codelineno-0-66" name="__codelineno-0-66"></a><span class="k">def</span> <span class="nf">add_alias</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">alias</span><span class="p">:</span> <span class="nb">str</span><span class="p">)</span> <span class="o">-&gt;</span> <span class="kc">None</span><span class="p">:</span>
+<a id="__codelineno-0-67" name="__codelineno-0-67"></a><span class="w">    </span><span class="sd">&quot;&quot;&quot;Add an alias to the list of known aliases.</span>
+<a id="__codelineno-0-68" name="__codelineno-0-68"></a>
+<a id="__codelineno-0-69" name="__codelineno-0-69"></a><span class="sd">    Args:</span>
+<a id="__codelineno-0-70" name="__codelineno-0-70"></a><span class="sd">        alias: The alias to add to the list of known aliases.</span>
+<a id="__codelineno-0-71" name="__codelineno-0-71"></a><span class="sd">    &quot;&quot;&quot;</span>
+<a id="__codelineno-0-72" name="__codelineno-0-72"></a>    <span class="k">if</span> <span class="ow">not</span> <span class="nb">isinstance</span><span class="p">(</span><span class="n">alias</span><span class="p">,</span> <span class="nb">str</span><span class="p">):</span>
+<a id="__codelineno-0-73" name="__codelineno-0-73"></a>        <span class="k">raise</span> <span class="ne">TypeError</span><span class="p">(</span><span class="sa">f</span><span class="s2">&quot;Expected str, got </span><span class="si">{</span><span class="nb">type</span><span class="p">(</span><span class="n">alias</span><span class="p">)</span><span class="si">}</span><span class="s2">&quot;</span><span class="p">)</span>
+<a id="__codelineno-0-74" name="__codelineno-0-74"></a>    <span class="k">if</span> <span class="nb">len</span><span class="p">(</span><span class="n">alias</span><span class="p">)</span> <span class="o">==</span> <span class="mi">0</span><span class="p">:</span>
+<a id="__codelineno-0-75" name="__codelineno-0-75"></a>        <span class="n">logger</span><span class="o">.</span><span class="n">warning</span><span class="p">(</span><span class="s2">&quot;Refusing to add an empty-string alias to strain {</span><span class="si">%s</span><span class="s2">}&quot;</span><span class="p">,</span> <span class="bp">self</span><span class="p">)</span>
+<a id="__codelineno-0-76" name="__codelineno-0-76"></a>    <span class="k">else</span><span class="p">:</span>
+<a id="__codelineno-0-77" name="__codelineno-0-77"></a>        <span class="bp">self</span><span class="o">.</span><span class="n">_aliases</span><span class="o">.</span><span class="n">add</span><span class="p">(</span><span class="n">alias</span><span class="p">)</span>
 </code></pre></div></td></tr></table></div>
           </details>
   </div>
@@ -1868,15 +1902,13 @@ <h3 id="nplinker.strain.StrainCollection" class="doc doc-heading">
 
                 <details class="quote">
                   <summary>Source code in <code>src/nplinker/strain/strain_collection.py</code></summary>
-                  <div class="language-python highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal"><a href="#__codelineno-0-15">15</a></span>
-<span class="normal"><a href="#__codelineno-0-16">16</a></span>
-<span class="normal"><a href="#__codelineno-0-17">17</a></span>
+                  <div class="language-python highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal"><a href="#__codelineno-0-17">17</a></span>
 <span class="normal"><a href="#__codelineno-0-18">18</a></span>
-<span class="normal"><a href="#__codelineno-0-19">19</a></span></pre></div></td><td class="code"><div><pre><span></span><code><a id="__codelineno-0-15" name="__codelineno-0-15"></a><span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">):</span>
-<a id="__codelineno-0-16" name="__codelineno-0-16"></a><span class="w">    </span><span class="sd">&quot;&quot;&quot;A collection of Strain objects.&quot;&quot;&quot;</span>
-<a id="__codelineno-0-17" name="__codelineno-0-17"></a>    <span class="c1"># the order of strains is needed for scoring part, so use a list</span>
-<a id="__codelineno-0-18" name="__codelineno-0-18"></a>    <span class="bp">self</span><span class="o">.</span><span class="n">_strains</span><span class="p">:</span> <span class="nb">list</span><span class="p">[</span><span class="n">Strain</span><span class="p">]</span> <span class="o">=</span> <span class="p">[]</span>
-<a id="__codelineno-0-19" name="__codelineno-0-19"></a>    <span class="bp">self</span><span class="o">.</span><span class="n">_strain_dict_name</span><span class="p">:</span> <span class="nb">dict</span><span class="p">[</span><span class="nb">str</span><span class="p">,</span> <span class="nb">list</span><span class="p">[</span><span class="n">Strain</span><span class="p">]]</span> <span class="o">=</span> <span class="p">{}</span>
+<span class="normal"><a href="#__codelineno-0-19">19</a></span>
+<span class="normal"><a href="#__codelineno-0-20">20</a></span></pre></div></td><td class="code"><div><pre><span></span><code><a id="__codelineno-0-17" name="__codelineno-0-17"></a><span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">):</span>
+<a id="__codelineno-0-18" name="__codelineno-0-18"></a>    <span class="c1"># the order of strains is needed for scoring part, so use a list</span>
+<a id="__codelineno-0-19" name="__codelineno-0-19"></a>    <span class="bp">self</span><span class="o">.</span><span class="n">_strains</span><span class="p">:</span> <span class="nb">list</span><span class="p">[</span><span class="n">Strain</span><span class="p">]</span> <span class="o">=</span> <span class="p">[]</span>
+<a id="__codelineno-0-20" name="__codelineno-0-20"></a>    <span class="bp">self</span><span class="o">.</span><span class="n">_strain_dict_name</span><span class="p">:</span> <span class="nb">dict</span><span class="p">[</span><span class="nb">str</span><span class="p">,</span> <span class="nb">list</span><span class="p">[</span><span class="n">Strain</span><span class="p">]]</span> <span class="o">=</span> <span class="p">{}</span>
 </code></pre></div></td></tr></table></div>
                 </details>
 
@@ -1942,8 +1974,7 @@ <h4 id="nplinker.strain.StrainCollection.add" class="doc doc-heading">
 
           <details class="quote">
             <summary>Source code in <code>src/nplinker/strain/strain_collection.py</code></summary>
-            <div class="language-python highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal"><a href="#__codelineno-0-60">60</a></span>
-<span class="normal"><a href="#__codelineno-0-61">61</a></span>
+            <div class="language-python highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal"><a href="#__codelineno-0-61">61</a></span>
 <span class="normal"><a href="#__codelineno-0-62">62</a></span>
 <span class="normal"><a href="#__codelineno-0-63">63</a></span>
 <span class="normal"><a href="#__codelineno-0-64">64</a></span>
@@ -1966,31 +1997,32 @@ <h4 id="nplinker.strain.StrainCollection.add" class="doc doc-heading">
 <span class="normal"><a href="#__codelineno-0-81">81</a></span>
 <span class="normal"><a href="#__codelineno-0-82">82</a></span>
 <span class="normal"><a href="#__codelineno-0-83">83</a></span>
-<span class="normal"><a href="#__codelineno-0-84">84</a></span></pre></div></td><td class="code"><div><pre><span></span><code><a id="__codelineno-0-60" name="__codelineno-0-60"></a><span class="k">def</span> <span class="nf">add</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">strain</span><span class="p">:</span> <span class="n">Strain</span><span class="p">)</span> <span class="o">-&gt;</span> <span class="kc">None</span><span class="p">:</span>
-<a id="__codelineno-0-61" name="__codelineno-0-61"></a><span class="w">    </span><span class="sd">&quot;&quot;&quot;Add strain to the collection.</span>
-<a id="__codelineno-0-62" name="__codelineno-0-62"></a>
-<a id="__codelineno-0-63" name="__codelineno-0-63"></a><span class="sd">    If the strain already exists, merge the aliases.</span>
-<a id="__codelineno-0-64" name="__codelineno-0-64"></a>
-<a id="__codelineno-0-65" name="__codelineno-0-65"></a><span class="sd">    Args:</span>
-<a id="__codelineno-0-66" name="__codelineno-0-66"></a><span class="sd">        strain: The strain to add.</span>
-<a id="__codelineno-0-67" name="__codelineno-0-67"></a><span class="sd">    &quot;&quot;&quot;</span>
-<a id="__codelineno-0-68" name="__codelineno-0-68"></a>    <span class="k">if</span> <span class="n">strain</span> <span class="ow">in</span> <span class="bp">self</span><span class="o">.</span><span class="n">_strains</span><span class="p">:</span>
-<a id="__codelineno-0-69" name="__codelineno-0-69"></a>        <span class="c1"># only one strain object per id</span>
-<a id="__codelineno-0-70" name="__codelineno-0-70"></a>        <span class="n">strain_ref</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">_strain_dict_name</span><span class="p">[</span><span class="n">strain</span><span class="o">.</span><span class="n">id</span><span class="p">][</span><span class="mi">0</span><span class="p">]</span>
-<a id="__codelineno-0-71" name="__codelineno-0-71"></a>        <span class="n">new_aliases</span> <span class="o">=</span> <span class="p">[</span><span class="n">alias</span> <span class="k">for</span> <span class="n">alias</span> <span class="ow">in</span> <span class="n">strain</span><span class="o">.</span><span class="n">aliases</span> <span class="k">if</span> <span class="n">alias</span> <span class="ow">not</span> <span class="ow">in</span> <span class="n">strain_ref</span><span class="o">.</span><span class="n">aliases</span><span class="p">]</span>
-<a id="__codelineno-0-72" name="__codelineno-0-72"></a>        <span class="k">for</span> <span class="n">alias</span> <span class="ow">in</span> <span class="n">new_aliases</span><span class="p">:</span>
-<a id="__codelineno-0-73" name="__codelineno-0-73"></a>            <span class="n">strain_ref</span><span class="o">.</span><span class="n">add_alias</span><span class="p">(</span><span class="n">alias</span><span class="p">)</span>
-<a id="__codelineno-0-74" name="__codelineno-0-74"></a>            <span class="k">if</span> <span class="n">alias</span> <span class="ow">not</span> <span class="ow">in</span> <span class="bp">self</span><span class="o">.</span><span class="n">_strain_dict_name</span><span class="p">:</span>
-<a id="__codelineno-0-75" name="__codelineno-0-75"></a>                <span class="bp">self</span><span class="o">.</span><span class="n">_strain_dict_name</span><span class="p">[</span><span class="n">alias</span><span class="p">]</span> <span class="o">=</span> <span class="p">[</span><span class="n">strain_ref</span><span class="p">]</span>
-<a id="__codelineno-0-76" name="__codelineno-0-76"></a>            <span class="k">else</span><span class="p">:</span>
-<a id="__codelineno-0-77" name="__codelineno-0-77"></a>                <span class="bp">self</span><span class="o">.</span><span class="n">_strain_dict_name</span><span class="p">[</span><span class="n">alias</span><span class="p">]</span><span class="o">.</span><span class="n">append</span><span class="p">(</span><span class="n">strain_ref</span><span class="p">)</span>
-<a id="__codelineno-0-78" name="__codelineno-0-78"></a>    <span class="k">else</span><span class="p">:</span>
-<a id="__codelineno-0-79" name="__codelineno-0-79"></a>        <span class="bp">self</span><span class="o">.</span><span class="n">_strains</span><span class="o">.</span><span class="n">append</span><span class="p">(</span><span class="n">strain</span><span class="p">)</span>
-<a id="__codelineno-0-80" name="__codelineno-0-80"></a>        <span class="k">for</span> <span class="n">name</span> <span class="ow">in</span> <span class="n">strain</span><span class="o">.</span><span class="n">names</span><span class="p">:</span>
-<a id="__codelineno-0-81" name="__codelineno-0-81"></a>            <span class="k">if</span> <span class="n">name</span> <span class="ow">not</span> <span class="ow">in</span> <span class="bp">self</span><span class="o">.</span><span class="n">_strain_dict_name</span><span class="p">:</span>
-<a id="__codelineno-0-82" name="__codelineno-0-82"></a>                <span class="bp">self</span><span class="o">.</span><span class="n">_strain_dict_name</span><span class="p">[</span><span class="n">name</span><span class="p">]</span> <span class="o">=</span> <span class="p">[</span><span class="n">strain</span><span class="p">]</span>
-<a id="__codelineno-0-83" name="__codelineno-0-83"></a>            <span class="k">else</span><span class="p">:</span>
-<a id="__codelineno-0-84" name="__codelineno-0-84"></a>                <span class="bp">self</span><span class="o">.</span><span class="n">_strain_dict_name</span><span class="p">[</span><span class="n">name</span><span class="p">]</span><span class="o">.</span><span class="n">append</span><span class="p">(</span><span class="n">strain</span><span class="p">)</span>
+<span class="normal"><a href="#__codelineno-0-84">84</a></span>
+<span class="normal"><a href="#__codelineno-0-85">85</a></span></pre></div></td><td class="code"><div><pre><span></span><code><a id="__codelineno-0-61" name="__codelineno-0-61"></a><span class="k">def</span> <span class="nf">add</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">strain</span><span class="p">:</span> <span class="n">Strain</span><span class="p">)</span> <span class="o">-&gt;</span> <span class="kc">None</span><span class="p">:</span>
+<a id="__codelineno-0-62" name="__codelineno-0-62"></a><span class="w">    </span><span class="sd">&quot;&quot;&quot;Add strain to the collection.</span>
+<a id="__codelineno-0-63" name="__codelineno-0-63"></a>
+<a id="__codelineno-0-64" name="__codelineno-0-64"></a><span class="sd">    If the strain already exists, merge the aliases.</span>
+<a id="__codelineno-0-65" name="__codelineno-0-65"></a>
+<a id="__codelineno-0-66" name="__codelineno-0-66"></a><span class="sd">    Args:</span>
+<a id="__codelineno-0-67" name="__codelineno-0-67"></a><span class="sd">        strain: The strain to add.</span>
+<a id="__codelineno-0-68" name="__codelineno-0-68"></a><span class="sd">    &quot;&quot;&quot;</span>
+<a id="__codelineno-0-69" name="__codelineno-0-69"></a>    <span class="k">if</span> <span class="n">strain</span> <span class="ow">in</span> <span class="bp">self</span><span class="o">.</span><span class="n">_strains</span><span class="p">:</span>
+<a id="__codelineno-0-70" name="__codelineno-0-70"></a>        <span class="c1"># only one strain object per id</span>
+<a id="__codelineno-0-71" name="__codelineno-0-71"></a>        <span class="n">strain_ref</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">_strain_dict_name</span><span class="p">[</span><span class="n">strain</span><span class="o">.</span><span class="n">id</span><span class="p">][</span><span class="mi">0</span><span class="p">]</span>
+<a id="__codelineno-0-72" name="__codelineno-0-72"></a>        <span class="n">new_aliases</span> <span class="o">=</span> <span class="p">[</span><span class="n">alias</span> <span class="k">for</span> <span class="n">alias</span> <span class="ow">in</span> <span class="n">strain</span><span class="o">.</span><span class="n">aliases</span> <span class="k">if</span> <span class="n">alias</span> <span class="ow">not</span> <span class="ow">in</span> <span class="n">strain_ref</span><span class="o">.</span><span class="n">aliases</span><span class="p">]</span>
+<a id="__codelineno-0-73" name="__codelineno-0-73"></a>        <span class="k">for</span> <span class="n">alias</span> <span class="ow">in</span> <span class="n">new_aliases</span><span class="p">:</span>
+<a id="__codelineno-0-74" name="__codelineno-0-74"></a>            <span class="n">strain_ref</span><span class="o">.</span><span class="n">add_alias</span><span class="p">(</span><span class="n">alias</span><span class="p">)</span>
+<a id="__codelineno-0-75" name="__codelineno-0-75"></a>            <span class="k">if</span> <span class="n">alias</span> <span class="ow">not</span> <span class="ow">in</span> <span class="bp">self</span><span class="o">.</span><span class="n">_strain_dict_name</span><span class="p">:</span>
+<a id="__codelineno-0-76" name="__codelineno-0-76"></a>                <span class="bp">self</span><span class="o">.</span><span class="n">_strain_dict_name</span><span class="p">[</span><span class="n">alias</span><span class="p">]</span> <span class="o">=</span> <span class="p">[</span><span class="n">strain_ref</span><span class="p">]</span>
+<a id="__codelineno-0-77" name="__codelineno-0-77"></a>            <span class="k">else</span><span class="p">:</span>
+<a id="__codelineno-0-78" name="__codelineno-0-78"></a>                <span class="bp">self</span><span class="o">.</span><span class="n">_strain_dict_name</span><span class="p">[</span><span class="n">alias</span><span class="p">]</span><span class="o">.</span><span class="n">append</span><span class="p">(</span><span class="n">strain_ref</span><span class="p">)</span>
+<a id="__codelineno-0-79" name="__codelineno-0-79"></a>    <span class="k">else</span><span class="p">:</span>
+<a id="__codelineno-0-80" name="__codelineno-0-80"></a>        <span class="bp">self</span><span class="o">.</span><span class="n">_strains</span><span class="o">.</span><span class="n">append</span><span class="p">(</span><span class="n">strain</span><span class="p">)</span>
+<a id="__codelineno-0-81" name="__codelineno-0-81"></a>        <span class="k">for</span> <span class="n">name</span> <span class="ow">in</span> <span class="n">strain</span><span class="o">.</span><span class="n">names</span><span class="p">:</span>
+<a id="__codelineno-0-82" name="__codelineno-0-82"></a>            <span class="k">if</span> <span class="n">name</span> <span class="ow">not</span> <span class="ow">in</span> <span class="bp">self</span><span class="o">.</span><span class="n">_strain_dict_name</span><span class="p">:</span>
+<a id="__codelineno-0-83" name="__codelineno-0-83"></a>                <span class="bp">self</span><span class="o">.</span><span class="n">_strain_dict_name</span><span class="p">[</span><span class="n">name</span><span class="p">]</span> <span class="o">=</span> <span class="p">[</span><span class="n">strain</span><span class="p">]</span>
+<a id="__codelineno-0-84" name="__codelineno-0-84"></a>            <span class="k">else</span><span class="p">:</span>
+<a id="__codelineno-0-85" name="__codelineno-0-85"></a>                <span class="bp">self</span><span class="o">.</span><span class="n">_strain_dict_name</span><span class="p">[</span><span class="n">name</span><span class="p">]</span><span class="o">.</span><span class="n">append</span><span class="p">(</span><span class="n">strain</span><span class="p">)</span>
 </code></pre></div></td></tr></table></div>
           </details>
   </div>
@@ -2072,8 +2104,7 @@ <h4 id="nplinker.strain.StrainCollection.remove" class="doc doc-heading">
 
           <details class="quote">
             <summary>Source code in <code>src/nplinker/strain/strain_collection.py</code></summary>
-            <div class="language-python highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal"><a href="#__codelineno-0-86"> 86</a></span>
-<span class="normal"><a href="#__codelineno-0-87"> 87</a></span>
+            <div class="language-python highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal"><a href="#__codelineno-0-87"> 87</a></span>
 <span class="normal"><a href="#__codelineno-0-88"> 88</a></span>
 <span class="normal"><a href="#__codelineno-0-89"> 89</a></span>
 <span class="normal"><a href="#__codelineno-0-90"> 90</a></span>
@@ -2096,31 +2127,32 @@ <h4 id="nplinker.strain.StrainCollection.remove" class="doc doc-heading">
 <span class="normal"><a href="#__codelineno-0-107">107</a></span>
 <span class="normal"><a href="#__codelineno-0-108">108</a></span>
 <span class="normal"><a href="#__codelineno-0-109">109</a></span>
-<span class="normal"><a href="#__codelineno-0-110">110</a></span></pre></div></td><td class="code"><div><pre><span></span><code><a id="__codelineno-0-86" name="__codelineno-0-86"></a><span class="k">def</span> <span class="nf">remove</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">strain</span><span class="p">:</span> <span class="n">Strain</span><span class="p">):</span>
-<a id="__codelineno-0-87" name="__codelineno-0-87"></a><span class="w">    </span><span class="sd">&quot;&quot;&quot;Remove a strain from the collection.</span>
-<a id="__codelineno-0-88" name="__codelineno-0-88"></a>
-<a id="__codelineno-0-89" name="__codelineno-0-89"></a><span class="sd">    It removes the given strain object from the collection by strain id.</span>
-<a id="__codelineno-0-90" name="__codelineno-0-90"></a><span class="sd">    If the strain id is not found, raise ValueError.</span>
-<a id="__codelineno-0-91" name="__codelineno-0-91"></a>
-<a id="__codelineno-0-92" name="__codelineno-0-92"></a><span class="sd">    Args:</span>
-<a id="__codelineno-0-93" name="__codelineno-0-93"></a><span class="sd">        strain: The strain to remove.</span>
-<a id="__codelineno-0-94" name="__codelineno-0-94"></a>
-<a id="__codelineno-0-95" name="__codelineno-0-95"></a><span class="sd">    Raises:</span>
-<a id="__codelineno-0-96" name="__codelineno-0-96"></a><span class="sd">        ValueError: If the strain is not found in the collection.</span>
-<a id="__codelineno-0-97" name="__codelineno-0-97"></a><span class="sd">    &quot;&quot;&quot;</span>
-<a id="__codelineno-0-98" name="__codelineno-0-98"></a>    <span class="k">if</span> <span class="n">strain</span> <span class="ow">in</span> <span class="bp">self</span><span class="o">.</span><span class="n">_strains</span><span class="p">:</span>
-<a id="__codelineno-0-99" name="__codelineno-0-99"></a>        <span class="bp">self</span><span class="o">.</span><span class="n">_strains</span><span class="o">.</span><span class="n">remove</span><span class="p">(</span><span class="n">strain</span><span class="p">)</span>
-<a id="__codelineno-0-100" name="__codelineno-0-100"></a>        <span class="c1"># only one strain object per id</span>
-<a id="__codelineno-0-101" name="__codelineno-0-101"></a>        <span class="n">strain_ref</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">_strain_dict_name</span><span class="p">[</span><span class="n">strain</span><span class="o">.</span><span class="n">id</span><span class="p">][</span><span class="mi">0</span><span class="p">]</span>
-<a id="__codelineno-0-102" name="__codelineno-0-102"></a>        <span class="k">for</span> <span class="n">name</span> <span class="ow">in</span> <span class="n">strain_ref</span><span class="o">.</span><span class="n">names</span><span class="p">:</span>
-<a id="__codelineno-0-103" name="__codelineno-0-103"></a>            <span class="k">if</span> <span class="n">name</span> <span class="ow">in</span> <span class="bp">self</span><span class="o">.</span><span class="n">_strain_dict_name</span><span class="p">:</span>
-<a id="__codelineno-0-104" name="__codelineno-0-104"></a>                <span class="n">new_strain_list</span> <span class="o">=</span> <span class="p">[</span><span class="n">s</span> <span class="k">for</span> <span class="n">s</span> <span class="ow">in</span> <span class="bp">self</span><span class="o">.</span><span class="n">_strain_dict_name</span><span class="p">[</span><span class="n">name</span><span class="p">]</span> <span class="k">if</span> <span class="n">s</span><span class="o">.</span><span class="n">id</span> <span class="o">!=</span> <span class="n">strain</span><span class="o">.</span><span class="n">id</span><span class="p">]</span>
-<a id="__codelineno-0-105" name="__codelineno-0-105"></a>                <span class="k">if</span> <span class="ow">not</span> <span class="n">new_strain_list</span><span class="p">:</span>
-<a id="__codelineno-0-106" name="__codelineno-0-106"></a>                    <span class="k">del</span> <span class="bp">self</span><span class="o">.</span><span class="n">_strain_dict_name</span><span class="p">[</span><span class="n">name</span><span class="p">]</span>
-<a id="__codelineno-0-107" name="__codelineno-0-107"></a>                <span class="k">else</span><span class="p">:</span>
-<a id="__codelineno-0-108" name="__codelineno-0-108"></a>                    <span class="bp">self</span><span class="o">.</span><span class="n">_strain_dict_name</span><span class="p">[</span><span class="n">name</span><span class="p">]</span> <span class="o">=</span> <span class="n">new_strain_list</span>
-<a id="__codelineno-0-109" name="__codelineno-0-109"></a>    <span class="k">else</span><span class="p">:</span>
-<a id="__codelineno-0-110" name="__codelineno-0-110"></a>        <span class="k">raise</span> <span class="ne">ValueError</span><span class="p">(</span><span class="sa">f</span><span class="s2">&quot;Strain </span><span class="si">{</span><span class="n">strain</span><span class="si">}</span><span class="s2"> not found in strain collection.&quot;</span><span class="p">)</span>
+<span class="normal"><a href="#__codelineno-0-110">110</a></span>
+<span class="normal"><a href="#__codelineno-0-111">111</a></span></pre></div></td><td class="code"><div><pre><span></span><code><a id="__codelineno-0-87" name="__codelineno-0-87"></a><span class="k">def</span> <span class="nf">remove</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">strain</span><span class="p">:</span> <span class="n">Strain</span><span class="p">):</span>
+<a id="__codelineno-0-88" name="__codelineno-0-88"></a><span class="w">    </span><span class="sd">&quot;&quot;&quot;Remove a strain from the collection.</span>
+<a id="__codelineno-0-89" name="__codelineno-0-89"></a>
+<a id="__codelineno-0-90" name="__codelineno-0-90"></a><span class="sd">    It removes the given strain object from the collection by strain id.</span>
+<a id="__codelineno-0-91" name="__codelineno-0-91"></a><span class="sd">    If the strain id is not found, raise ValueError.</span>
+<a id="__codelineno-0-92" name="__codelineno-0-92"></a>
+<a id="__codelineno-0-93" name="__codelineno-0-93"></a><span class="sd">    Args:</span>
+<a id="__codelineno-0-94" name="__codelineno-0-94"></a><span class="sd">        strain: The strain to remove.</span>
+<a id="__codelineno-0-95" name="__codelineno-0-95"></a>
+<a id="__codelineno-0-96" name="__codelineno-0-96"></a><span class="sd">    Raises:</span>
+<a id="__codelineno-0-97" name="__codelineno-0-97"></a><span class="sd">        ValueError: If the strain is not found in the collection.</span>
+<a id="__codelineno-0-98" name="__codelineno-0-98"></a><span class="sd">    &quot;&quot;&quot;</span>
+<a id="__codelineno-0-99" name="__codelineno-0-99"></a>    <span class="k">if</span> <span class="n">strain</span> <span class="ow">in</span> <span class="bp">self</span><span class="o">.</span><span class="n">_strains</span><span class="p">:</span>
+<a id="__codelineno-0-100" name="__codelineno-0-100"></a>        <span class="bp">self</span><span class="o">.</span><span class="n">_strains</span><span class="o">.</span><span class="n">remove</span><span class="p">(</span><span class="n">strain</span><span class="p">)</span>
+<a id="__codelineno-0-101" name="__codelineno-0-101"></a>        <span class="c1"># only one strain object per id</span>
+<a id="__codelineno-0-102" name="__codelineno-0-102"></a>        <span class="n">strain_ref</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">_strain_dict_name</span><span class="p">[</span><span class="n">strain</span><span class="o">.</span><span class="n">id</span><span class="p">][</span><span class="mi">0</span><span class="p">]</span>
+<a id="__codelineno-0-103" name="__codelineno-0-103"></a>        <span class="k">for</span> <span class="n">name</span> <span class="ow">in</span> <span class="n">strain_ref</span><span class="o">.</span><span class="n">names</span><span class="p">:</span>
+<a id="__codelineno-0-104" name="__codelineno-0-104"></a>            <span class="k">if</span> <span class="n">name</span> <span class="ow">in</span> <span class="bp">self</span><span class="o">.</span><span class="n">_strain_dict_name</span><span class="p">:</span>
+<a id="__codelineno-0-105" name="__codelineno-0-105"></a>                <span class="n">new_strain_list</span> <span class="o">=</span> <span class="p">[</span><span class="n">s</span> <span class="k">for</span> <span class="n">s</span> <span class="ow">in</span> <span class="bp">self</span><span class="o">.</span><span class="n">_strain_dict_name</span><span class="p">[</span><span class="n">name</span><span class="p">]</span> <span class="k">if</span> <span class="n">s</span><span class="o">.</span><span class="n">id</span> <span class="o">!=</span> <span class="n">strain</span><span class="o">.</span><span class="n">id</span><span class="p">]</span>
+<a id="__codelineno-0-106" name="__codelineno-0-106"></a>                <span class="k">if</span> <span class="ow">not</span> <span class="n">new_strain_list</span><span class="p">:</span>
+<a id="__codelineno-0-107" name="__codelineno-0-107"></a>                    <span class="k">del</span> <span class="bp">self</span><span class="o">.</span><span class="n">_strain_dict_name</span><span class="p">[</span><span class="n">name</span><span class="p">]</span>
+<a id="__codelineno-0-108" name="__codelineno-0-108"></a>                <span class="k">else</span><span class="p">:</span>
+<a id="__codelineno-0-109" name="__codelineno-0-109"></a>                    <span class="bp">self</span><span class="o">.</span><span class="n">_strain_dict_name</span><span class="p">[</span><span class="n">name</span><span class="p">]</span> <span class="o">=</span> <span class="n">new_strain_list</span>
+<a id="__codelineno-0-110" name="__codelineno-0-110"></a>    <span class="k">else</span><span class="p">:</span>
+<a id="__codelineno-0-111" name="__codelineno-0-111"></a>        <span class="k">raise</span> <span class="ne">ValueError</span><span class="p">(</span><span class="sa">f</span><span class="s2">&quot;Strain </span><span class="si">{</span><span class="n">strain</span><span class="si">}</span><span class="s2"> not found in strain collection.&quot;</span><span class="p">)</span>
 </code></pre></div></td></tr></table></div>
           </details>
   </div>
@@ -2176,8 +2208,7 @@ <h4 id="nplinker.strain.StrainCollection.filter" class="doc doc-heading">
 
           <details class="quote">
             <summary>Source code in <code>src/nplinker/strain/strain_collection.py</code></summary>
-            <div class="language-python highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal"><a href="#__codelineno-0-112">112</a></span>
-<span class="normal"><a href="#__codelineno-0-113">113</a></span>
+            <div class="language-python highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal"><a href="#__codelineno-0-113">113</a></span>
 <span class="normal"><a href="#__codelineno-0-114">114</a></span>
 <span class="normal"><a href="#__codelineno-0-115">115</a></span>
 <span class="normal"><a href="#__codelineno-0-116">116</a></span>
@@ -2185,16 +2216,17 @@ <h4 id="nplinker.strain.StrainCollection.filter" class="doc doc-heading">
 <span class="normal"><a href="#__codelineno-0-118">118</a></span>
 <span class="normal"><a href="#__codelineno-0-119">119</a></span>
 <span class="normal"><a href="#__codelineno-0-120">120</a></span>
-<span class="normal"><a href="#__codelineno-0-121">121</a></span></pre></div></td><td class="code"><div><pre><span></span><code><a id="__codelineno-0-112" name="__codelineno-0-112"></a><span class="k">def</span> <span class="nf">filter</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">strain_set</span><span class="p">:</span> <span class="nb">set</span><span class="p">[</span><span class="n">Strain</span><span class="p">]):</span>
-<a id="__codelineno-0-113" name="__codelineno-0-113"></a><span class="w">    </span><span class="sd">&quot;&quot;&quot;Remove all strains that are not in strain_set from the strain collection.</span>
-<a id="__codelineno-0-114" name="__codelineno-0-114"></a>
-<a id="__codelineno-0-115" name="__codelineno-0-115"></a><span class="sd">    Args:</span>
-<a id="__codelineno-0-116" name="__codelineno-0-116"></a><span class="sd">        strain_set: Set of strains to keep.</span>
-<a id="__codelineno-0-117" name="__codelineno-0-117"></a><span class="sd">    &quot;&quot;&quot;</span>
-<a id="__codelineno-0-118" name="__codelineno-0-118"></a>    <span class="c1"># note that we need to copy the list of strains, as we are modifying it</span>
-<a id="__codelineno-0-119" name="__codelineno-0-119"></a>    <span class="k">for</span> <span class="n">strain</span> <span class="ow">in</span> <span class="bp">self</span><span class="o">.</span><span class="n">_strains</span><span class="o">.</span><span class="n">copy</span><span class="p">():</span>
-<a id="__codelineno-0-120" name="__codelineno-0-120"></a>        <span class="k">if</span> <span class="n">strain</span> <span class="ow">not</span> <span class="ow">in</span> <span class="n">strain_set</span><span class="p">:</span>
-<a id="__codelineno-0-121" name="__codelineno-0-121"></a>            <span class="bp">self</span><span class="o">.</span><span class="n">remove</span><span class="p">(</span><span class="n">strain</span><span class="p">)</span>
+<span class="normal"><a href="#__codelineno-0-121">121</a></span>
+<span class="normal"><a href="#__codelineno-0-122">122</a></span></pre></div></td><td class="code"><div><pre><span></span><code><a id="__codelineno-0-113" name="__codelineno-0-113"></a><span class="k">def</span> <span class="nf">filter</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">strain_set</span><span class="p">:</span> <span class="nb">set</span><span class="p">[</span><span class="n">Strain</span><span class="p">]):</span>
+<a id="__codelineno-0-114" name="__codelineno-0-114"></a><span class="w">    </span><span class="sd">&quot;&quot;&quot;Remove all strains that are not in strain_set from the strain collection.</span>
+<a id="__codelineno-0-115" name="__codelineno-0-115"></a>
+<a id="__codelineno-0-116" name="__codelineno-0-116"></a><span class="sd">    Args:</span>
+<a id="__codelineno-0-117" name="__codelineno-0-117"></a><span class="sd">        strain_set: Set of strains to keep.</span>
+<a id="__codelineno-0-118" name="__codelineno-0-118"></a><span class="sd">    &quot;&quot;&quot;</span>
+<a id="__codelineno-0-119" name="__codelineno-0-119"></a>    <span class="c1"># note that we need to copy the list of strains, as we are modifying it</span>
+<a id="__codelineno-0-120" name="__codelineno-0-120"></a>    <span class="k">for</span> <span class="n">strain</span> <span class="ow">in</span> <span class="bp">self</span><span class="o">.</span><span class="n">_strains</span><span class="o">.</span><span class="n">copy</span><span class="p">():</span>
+<a id="__codelineno-0-121" name="__codelineno-0-121"></a>        <span class="k">if</span> <span class="n">strain</span> <span class="ow">not</span> <span class="ow">in</span> <span class="n">strain_set</span><span class="p">:</span>
+<a id="__codelineno-0-122" name="__codelineno-0-122"></a>            <span class="bp">self</span><span class="o">.</span><span class="n">remove</span><span class="p">(</span><span class="n">strain</span><span class="p">)</span>
 </code></pre></div></td></tr></table></div>
           </details>
   </div>
@@ -2274,8 +2306,7 @@ <h4 id="nplinker.strain.StrainCollection.has_name" class="doc doc-heading">
 
           <details class="quote">
             <summary>Source code in <code>src/nplinker/strain/strain_collection.py</code></summary>
-            <div class="language-python highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal"><a href="#__codelineno-0-123">123</a></span>
-<span class="normal"><a href="#__codelineno-0-124">124</a></span>
+            <div class="language-python highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal"><a href="#__codelineno-0-124">124</a></span>
 <span class="normal"><a href="#__codelineno-0-125">125</a></span>
 <span class="normal"><a href="#__codelineno-0-126">126</a></span>
 <span class="normal"><a href="#__codelineno-0-127">127</a></span>
@@ -2283,16 +2314,17 @@ <h4 id="nplinker.strain.StrainCollection.has_name" class="doc doc-heading">
 <span class="normal"><a href="#__codelineno-0-129">129</a></span>
 <span class="normal"><a href="#__codelineno-0-130">130</a></span>
 <span class="normal"><a href="#__codelineno-0-131">131</a></span>
-<span class="normal"><a href="#__codelineno-0-132">132</a></span></pre></div></td><td class="code"><div><pre><span></span><code><a id="__codelineno-0-123" name="__codelineno-0-123"></a><span class="k">def</span> <span class="nf">has_name</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">name</span><span class="p">:</span> <span class="nb">str</span><span class="p">)</span> <span class="o">-&gt;</span> <span class="nb">bool</span><span class="p">:</span>
-<a id="__codelineno-0-124" name="__codelineno-0-124"></a><span class="w">    </span><span class="sd">&quot;&quot;&quot;Check if the strain collection contains the given strain name (id or alias).</span>
-<a id="__codelineno-0-125" name="__codelineno-0-125"></a>
-<a id="__codelineno-0-126" name="__codelineno-0-126"></a><span class="sd">    Args:</span>
-<a id="__codelineno-0-127" name="__codelineno-0-127"></a><span class="sd">        name: Strain name (id or alias) to check.</span>
-<a id="__codelineno-0-128" name="__codelineno-0-128"></a>
-<a id="__codelineno-0-129" name="__codelineno-0-129"></a><span class="sd">    Returns:</span>
-<a id="__codelineno-0-130" name="__codelineno-0-130"></a><span class="sd">        True if the strain name is in the collection, False otherwise.</span>
-<a id="__codelineno-0-131" name="__codelineno-0-131"></a><span class="sd">    &quot;&quot;&quot;</span>
-<a id="__codelineno-0-132" name="__codelineno-0-132"></a>    <span class="k">return</span> <span class="n">name</span> <span class="ow">in</span> <span class="bp">self</span><span class="o">.</span><span class="n">_strain_dict_name</span>
+<span class="normal"><a href="#__codelineno-0-132">132</a></span>
+<span class="normal"><a href="#__codelineno-0-133">133</a></span></pre></div></td><td class="code"><div><pre><span></span><code><a id="__codelineno-0-124" name="__codelineno-0-124"></a><span class="k">def</span> <span class="nf">has_name</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">name</span><span class="p">:</span> <span class="nb">str</span><span class="p">)</span> <span class="o">-&gt;</span> <span class="nb">bool</span><span class="p">:</span>
+<a id="__codelineno-0-125" name="__codelineno-0-125"></a><span class="w">    </span><span class="sd">&quot;&quot;&quot;Check if the strain collection contains the given strain name (id or alias).</span>
+<a id="__codelineno-0-126" name="__codelineno-0-126"></a>
+<a id="__codelineno-0-127" name="__codelineno-0-127"></a><span class="sd">    Args:</span>
+<a id="__codelineno-0-128" name="__codelineno-0-128"></a><span class="sd">        name: Strain name (id or alias) to check.</span>
+<a id="__codelineno-0-129" name="__codelineno-0-129"></a>
+<a id="__codelineno-0-130" name="__codelineno-0-130"></a><span class="sd">    Returns:</span>
+<a id="__codelineno-0-131" name="__codelineno-0-131"></a><span class="sd">        True if the strain name is in the collection, False otherwise.</span>
+<a id="__codelineno-0-132" name="__codelineno-0-132"></a><span class="sd">    &quot;&quot;&quot;</span>
+<a id="__codelineno-0-133" name="__codelineno-0-133"></a>    <span class="k">return</span> <span class="n">name</span> <span class="ow">in</span> <span class="bp">self</span><span class="o">.</span><span class="n">_strain_dict_name</span>
 </code></pre></div></td></tr></table></div>
           </details>
   </div>
@@ -2396,8 +2428,7 @@ <h4 id="nplinker.strain.StrainCollection.lookup" class="doc doc-heading">
 
           <details class="quote">
             <summary>Source code in <code>src/nplinker/strain/strain_collection.py</code></summary>
-            <div class="language-python highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal"><a href="#__codelineno-0-134">134</a></span>
-<span class="normal"><a href="#__codelineno-0-135">135</a></span>
+            <div class="language-python highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal"><a href="#__codelineno-0-135">135</a></span>
 <span class="normal"><a href="#__codelineno-0-136">136</a></span>
 <span class="normal"><a href="#__codelineno-0-137">137</a></span>
 <span class="normal"><a href="#__codelineno-0-138">138</a></span>
@@ -2410,21 +2441,22 @@ <h4 id="nplinker.strain.StrainCollection.lookup" class="doc doc-heading">
 <span class="normal"><a href="#__codelineno-0-145">145</a></span>
 <span class="normal"><a href="#__codelineno-0-146">146</a></span>
 <span class="normal"><a href="#__codelineno-0-147">147</a></span>
-<span class="normal"><a href="#__codelineno-0-148">148</a></span></pre></div></td><td class="code"><div><pre><span></span><code><a id="__codelineno-0-134" name="__codelineno-0-134"></a><span class="k">def</span> <span class="nf">lookup</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">name</span><span class="p">:</span> <span class="nb">str</span><span class="p">)</span> <span class="o">-&gt;</span> <span class="nb">list</span><span class="p">[</span><span class="n">Strain</span><span class="p">]:</span>
-<a id="__codelineno-0-135" name="__codelineno-0-135"></a><span class="w">    </span><span class="sd">&quot;&quot;&quot;Lookup a strain by name (id or alias).</span>
-<a id="__codelineno-0-136" name="__codelineno-0-136"></a>
-<a id="__codelineno-0-137" name="__codelineno-0-137"></a><span class="sd">    Args:</span>
-<a id="__codelineno-0-138" name="__codelineno-0-138"></a><span class="sd">        name: Strain name (id or alias) to lookup.</span>
-<a id="__codelineno-0-139" name="__codelineno-0-139"></a>
-<a id="__codelineno-0-140" name="__codelineno-0-140"></a><span class="sd">    Returns:</span>
-<a id="__codelineno-0-141" name="__codelineno-0-141"></a><span class="sd">        List of Strain objects with the given name.</span>
-<a id="__codelineno-0-142" name="__codelineno-0-142"></a>
-<a id="__codelineno-0-143" name="__codelineno-0-143"></a><span class="sd">    Raises:</span>
-<a id="__codelineno-0-144" name="__codelineno-0-144"></a><span class="sd">        ValueError: If the strain name is not found.</span>
-<a id="__codelineno-0-145" name="__codelineno-0-145"></a><span class="sd">    &quot;&quot;&quot;</span>
-<a id="__codelineno-0-146" name="__codelineno-0-146"></a>    <span class="k">if</span> <span class="n">name</span> <span class="ow">in</span> <span class="bp">self</span><span class="o">.</span><span class="n">_strain_dict_name</span><span class="p">:</span>
-<a id="__codelineno-0-147" name="__codelineno-0-147"></a>        <span class="k">return</span> <span class="bp">self</span><span class="o">.</span><span class="n">_strain_dict_name</span><span class="p">[</span><span class="n">name</span><span class="p">]</span>
-<a id="__codelineno-0-148" name="__codelineno-0-148"></a>    <span class="k">raise</span> <span class="ne">ValueError</span><span class="p">(</span><span class="sa">f</span><span class="s2">&quot;Strain </span><span class="si">{</span><span class="n">name</span><span class="si">}</span><span class="s2"> not found in the strain collection.&quot;</span><span class="p">)</span>
+<span class="normal"><a href="#__codelineno-0-148">148</a></span>
+<span class="normal"><a href="#__codelineno-0-149">149</a></span></pre></div></td><td class="code"><div><pre><span></span><code><a id="__codelineno-0-135" name="__codelineno-0-135"></a><span class="k">def</span> <span class="nf">lookup</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">name</span><span class="p">:</span> <span class="nb">str</span><span class="p">)</span> <span class="o">-&gt;</span> <span class="nb">list</span><span class="p">[</span><span class="n">Strain</span><span class="p">]:</span>
+<a id="__codelineno-0-136" name="__codelineno-0-136"></a><span class="w">    </span><span class="sd">&quot;&quot;&quot;Lookup a strain by name (id or alias).</span>
+<a id="__codelineno-0-137" name="__codelineno-0-137"></a>
+<a id="__codelineno-0-138" name="__codelineno-0-138"></a><span class="sd">    Args:</span>
+<a id="__codelineno-0-139" name="__codelineno-0-139"></a><span class="sd">        name: Strain name (id or alias) to lookup.</span>
+<a id="__codelineno-0-140" name="__codelineno-0-140"></a>
+<a id="__codelineno-0-141" name="__codelineno-0-141"></a><span class="sd">    Returns:</span>
+<a id="__codelineno-0-142" name="__codelineno-0-142"></a><span class="sd">        List of Strain objects with the given name.</span>
+<a id="__codelineno-0-143" name="__codelineno-0-143"></a>
+<a id="__codelineno-0-144" name="__codelineno-0-144"></a><span class="sd">    Raises:</span>
+<a id="__codelineno-0-145" name="__codelineno-0-145"></a><span class="sd">        ValueError: If the strain name is not found.</span>
+<a id="__codelineno-0-146" name="__codelineno-0-146"></a><span class="sd">    &quot;&quot;&quot;</span>
+<a id="__codelineno-0-147" name="__codelineno-0-147"></a>    <span class="k">if</span> <span class="n">name</span> <span class="ow">in</span> <span class="bp">self</span><span class="o">.</span><span class="n">_strain_dict_name</span><span class="p">:</span>
+<a id="__codelineno-0-148" name="__codelineno-0-148"></a>        <span class="k">return</span> <span class="bp">self</span><span class="o">.</span><span class="n">_strain_dict_name</span><span class="p">[</span><span class="n">name</span><span class="p">]</span>
+<a id="__codelineno-0-149" name="__codelineno-0-149"></a>    <span class="k">raise</span> <span class="ne">ValueError</span><span class="p">(</span><span class="sa">f</span><span class="s2">&quot;Strain </span><span class="si">{</span><span class="n">name</span><span class="si">}</span><span class="s2"> not found in the strain collection.&quot;</span><span class="p">)</span>
 </code></pre></div></td></tr></table></div>
           </details>
   </div>
@@ -2508,8 +2540,7 @@ <h4 id="nplinker.strain.StrainCollection.read_json" class="doc doc-heading">
 
           <details class="quote">
             <summary>Source code in <code>src/nplinker/strain/strain_collection.py</code></summary>
-            <div class="language-python highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal"><a href="#__codelineno-0-150">150</a></span>
-<span class="normal"><a href="#__codelineno-0-151">151</a></span>
+            <div class="language-python highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal"><a href="#__codelineno-0-151">151</a></span>
 <span class="normal"><a href="#__codelineno-0-152">152</a></span>
 <span class="normal"><a href="#__codelineno-0-153">153</a></span>
 <span class="normal"><a href="#__codelineno-0-154">154</a></span>
@@ -2530,29 +2561,30 @@ <h4 id="nplinker.strain.StrainCollection.read_json" class="doc doc-heading">
 <span class="normal"><a href="#__codelineno-0-169">169</a></span>
 <span class="normal"><a href="#__codelineno-0-170">170</a></span>
 <span class="normal"><a href="#__codelineno-0-171">171</a></span>
-<span class="normal"><a href="#__codelineno-0-172">172</a></span></pre></div></td><td class="code"><div><pre><span></span><code><a id="__codelineno-0-150" name="__codelineno-0-150"></a><span class="nd">@staticmethod</span>
-<a id="__codelineno-0-151" name="__codelineno-0-151"></a><span class="k">def</span> <span class="nf">read_json</span><span class="p">(</span><span class="n">file</span><span class="p">:</span> <span class="nb">str</span> <span class="o">|</span> <span class="n">PathLike</span><span class="p">)</span> <span class="o">-&gt;</span> <span class="s2">&quot;StrainCollection&quot;</span><span class="p">:</span>
-<a id="__codelineno-0-152" name="__codelineno-0-152"></a><span class="w">    </span><span class="sd">&quot;&quot;&quot;Read a strain mappings JSON file and return a StrainCollection object.</span>
-<a id="__codelineno-0-153" name="__codelineno-0-153"></a>
-<a id="__codelineno-0-154" name="__codelineno-0-154"></a><span class="sd">    Args:</span>
-<a id="__codelineno-0-155" name="__codelineno-0-155"></a><span class="sd">        file: Path to the strain mappings JSON file.</span>
-<a id="__codelineno-0-156" name="__codelineno-0-156"></a>
-<a id="__codelineno-0-157" name="__codelineno-0-157"></a><span class="sd">    Returns:</span>
-<a id="__codelineno-0-158" name="__codelineno-0-158"></a><span class="sd">        StrainCollection object.</span>
-<a id="__codelineno-0-159" name="__codelineno-0-159"></a><span class="sd">    &quot;&quot;&quot;</span>
-<a id="__codelineno-0-160" name="__codelineno-0-160"></a>    <span class="k">with</span> <span class="nb">open</span><span class="p">(</span><span class="n">file</span><span class="p">,</span> <span class="s2">&quot;r&quot;</span><span class="p">)</span> <span class="k">as</span> <span class="n">f</span><span class="p">:</span>
-<a id="__codelineno-0-161" name="__codelineno-0-161"></a>        <span class="n">json_data</span> <span class="o">=</span> <span class="n">json</span><span class="o">.</span><span class="n">load</span><span class="p">(</span><span class="n">f</span><span class="p">)</span>
-<a id="__codelineno-0-162" name="__codelineno-0-162"></a>
-<a id="__codelineno-0-163" name="__codelineno-0-163"></a>    <span class="c1"># validate json data</span>
-<a id="__codelineno-0-164" name="__codelineno-0-164"></a>    <span class="n">validate</span><span class="p">(</span><span class="n">instance</span><span class="o">=</span><span class="n">json_data</span><span class="p">,</span> <span class="n">schema</span><span class="o">=</span><span class="n">STRAIN_MAPPINGS_SCHEMA</span><span class="p">)</span>
-<a id="__codelineno-0-165" name="__codelineno-0-165"></a>
-<a id="__codelineno-0-166" name="__codelineno-0-166"></a>    <span class="n">strain_collection</span> <span class="o">=</span> <span class="n">StrainCollection</span><span class="p">()</span>
-<a id="__codelineno-0-167" name="__codelineno-0-167"></a>    <span class="k">for</span> <span class="n">data</span> <span class="ow">in</span> <span class="n">json_data</span><span class="p">[</span><span class="s2">&quot;strain_mappings&quot;</span><span class="p">]:</span>
-<a id="__codelineno-0-168" name="__codelineno-0-168"></a>        <span class="n">strain</span> <span class="o">=</span> <span class="n">Strain</span><span class="p">(</span><span class="n">data</span><span class="p">[</span><span class="s2">&quot;strain_id&quot;</span><span class="p">])</span>
-<a id="__codelineno-0-169" name="__codelineno-0-169"></a>        <span class="k">for</span> <span class="n">alias</span> <span class="ow">in</span> <span class="n">data</span><span class="p">[</span><span class="s2">&quot;strain_alias&quot;</span><span class="p">]:</span>
-<a id="__codelineno-0-170" name="__codelineno-0-170"></a>            <span class="n">strain</span><span class="o">.</span><span class="n">add_alias</span><span class="p">(</span><span class="n">alias</span><span class="p">)</span>
-<a id="__codelineno-0-171" name="__codelineno-0-171"></a>        <span class="n">strain_collection</span><span class="o">.</span><span class="n">add</span><span class="p">(</span><span class="n">strain</span><span class="p">)</span>
-<a id="__codelineno-0-172" name="__codelineno-0-172"></a>    <span class="k">return</span> <span class="n">strain_collection</span>
+<span class="normal"><a href="#__codelineno-0-172">172</a></span>
+<span class="normal"><a href="#__codelineno-0-173">173</a></span></pre></div></td><td class="code"><div><pre><span></span><code><a id="__codelineno-0-151" name="__codelineno-0-151"></a><span class="nd">@staticmethod</span>
+<a id="__codelineno-0-152" name="__codelineno-0-152"></a><span class="k">def</span> <span class="nf">read_json</span><span class="p">(</span><span class="n">file</span><span class="p">:</span> <span class="nb">str</span> <span class="o">|</span> <span class="n">PathLike</span><span class="p">)</span> <span class="o">-&gt;</span> <span class="s2">&quot;StrainCollection&quot;</span><span class="p">:</span>
+<a id="__codelineno-0-153" name="__codelineno-0-153"></a><span class="w">    </span><span class="sd">&quot;&quot;&quot;Read a strain mappings JSON file and return a StrainCollection object.</span>
+<a id="__codelineno-0-154" name="__codelineno-0-154"></a>
+<a id="__codelineno-0-155" name="__codelineno-0-155"></a><span class="sd">    Args:</span>
+<a id="__codelineno-0-156" name="__codelineno-0-156"></a><span class="sd">        file: Path to the strain mappings JSON file.</span>
+<a id="__codelineno-0-157" name="__codelineno-0-157"></a>
+<a id="__codelineno-0-158" name="__codelineno-0-158"></a><span class="sd">    Returns:</span>
+<a id="__codelineno-0-159" name="__codelineno-0-159"></a><span class="sd">        StrainCollection object.</span>
+<a id="__codelineno-0-160" name="__codelineno-0-160"></a><span class="sd">    &quot;&quot;&quot;</span>
+<a id="__codelineno-0-161" name="__codelineno-0-161"></a>    <span class="k">with</span> <span class="nb">open</span><span class="p">(</span><span class="n">file</span><span class="p">,</span> <span class="s2">&quot;r&quot;</span><span class="p">)</span> <span class="k">as</span> <span class="n">f</span><span class="p">:</span>
+<a id="__codelineno-0-162" name="__codelineno-0-162"></a>        <span class="n">json_data</span> <span class="o">=</span> <span class="n">json</span><span class="o">.</span><span class="n">load</span><span class="p">(</span><span class="n">f</span><span class="p">)</span>
+<a id="__codelineno-0-163" name="__codelineno-0-163"></a>
+<a id="__codelineno-0-164" name="__codelineno-0-164"></a>    <span class="c1"># validate json data</span>
+<a id="__codelineno-0-165" name="__codelineno-0-165"></a>    <span class="n">validate</span><span class="p">(</span><span class="n">instance</span><span class="o">=</span><span class="n">json_data</span><span class="p">,</span> <span class="n">schema</span><span class="o">=</span><span class="n">STRAIN_MAPPINGS_SCHEMA</span><span class="p">)</span>
+<a id="__codelineno-0-166" name="__codelineno-0-166"></a>
+<a id="__codelineno-0-167" name="__codelineno-0-167"></a>    <span class="n">strain_collection</span> <span class="o">=</span> <span class="n">StrainCollection</span><span class="p">()</span>
+<a id="__codelineno-0-168" name="__codelineno-0-168"></a>    <span class="k">for</span> <span class="n">data</span> <span class="ow">in</span> <span class="n">json_data</span><span class="p">[</span><span class="s2">&quot;strain_mappings&quot;</span><span class="p">]:</span>
+<a id="__codelineno-0-169" name="__codelineno-0-169"></a>        <span class="n">strain</span> <span class="o">=</span> <span class="n">Strain</span><span class="p">(</span><span class="n">data</span><span class="p">[</span><span class="s2">&quot;strain_id&quot;</span><span class="p">])</span>
+<a id="__codelineno-0-170" name="__codelineno-0-170"></a>        <span class="k">for</span> <span class="n">alias</span> <span class="ow">in</span> <span class="n">data</span><span class="p">[</span><span class="s2">&quot;strain_alias&quot;</span><span class="p">]:</span>
+<a id="__codelineno-0-171" name="__codelineno-0-171"></a>            <span class="n">strain</span><span class="o">.</span><span class="n">add_alias</span><span class="p">(</span><span class="n">alias</span><span class="p">)</span>
+<a id="__codelineno-0-172" name="__codelineno-0-172"></a>        <span class="n">strain_collection</span><span class="o">.</span><span class="n">add</span><span class="p">(</span><span class="n">strain</span><span class="p">)</span>
+<a id="__codelineno-0-173" name="__codelineno-0-173"></a>    <span class="k">return</span> <span class="n">strain_collection</span>
 </code></pre></div></td></tr></table></div>
           </details>
   </div>
@@ -2643,8 +2675,7 @@ <h4 id="nplinker.strain.StrainCollection.to_json" class="doc doc-heading">
 
           <details class="quote">
             <summary>Source code in <code>src/nplinker/strain/strain_collection.py</code></summary>
-            <div class="language-python highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal"><a href="#__codelineno-0-174">174</a></span>
-<span class="normal"><a href="#__codelineno-0-175">175</a></span>
+            <div class="language-python highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal"><a href="#__codelineno-0-175">175</a></span>
 <span class="normal"><a href="#__codelineno-0-176">176</a></span>
 <span class="normal"><a href="#__codelineno-0-177">177</a></span>
 <span class="normal"><a href="#__codelineno-0-178">178</a></span>
@@ -2666,30 +2697,31 @@ <h4 id="nplinker.strain.StrainCollection.to_json" class="doc doc-heading">
 <span class="normal"><a href="#__codelineno-0-194">194</a></span>
 <span class="normal"><a href="#__codelineno-0-195">195</a></span>
 <span class="normal"><a href="#__codelineno-0-196">196</a></span>
-<span class="normal"><a href="#__codelineno-0-197">197</a></span></pre></div></td><td class="code"><div><pre><span></span><code><a id="__codelineno-0-174" name="__codelineno-0-174"></a><span class="k">def</span> <span class="nf">to_json</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">file</span><span class="p">:</span> <span class="nb">str</span> <span class="o">|</span> <span class="n">PathLike</span> <span class="o">|</span> <span class="kc">None</span> <span class="o">=</span> <span class="kc">None</span><span class="p">)</span> <span class="o">-&gt;</span> <span class="nb">str</span> <span class="o">|</span> <span class="kc">None</span><span class="p">:</span>
-<a id="__codelineno-0-175" name="__codelineno-0-175"></a><span class="w">    </span><span class="sd">&quot;&quot;&quot;Convert the StrainCollection object to a JSON string.</span>
-<a id="__codelineno-0-176" name="__codelineno-0-176"></a>
-<a id="__codelineno-0-177" name="__codelineno-0-177"></a><span class="sd">    Args:</span>
-<a id="__codelineno-0-178" name="__codelineno-0-178"></a><span class="sd">        file: Path to output JSON file. If None,</span>
-<a id="__codelineno-0-179" name="__codelineno-0-179"></a><span class="sd">            return the JSON string instead.</span>
-<a id="__codelineno-0-180" name="__codelineno-0-180"></a>
-<a id="__codelineno-0-181" name="__codelineno-0-181"></a><span class="sd">    Returns:</span>
-<a id="__codelineno-0-182" name="__codelineno-0-182"></a><span class="sd">        If `file` is None, return the JSON string. Otherwise, write the JSON string to the given</span>
-<a id="__codelineno-0-183" name="__codelineno-0-183"></a><span class="sd">        file.</span>
-<a id="__codelineno-0-184" name="__codelineno-0-184"></a><span class="sd">    &quot;&quot;&quot;</span>
-<a id="__codelineno-0-185" name="__codelineno-0-185"></a>    <span class="n">data_list</span> <span class="o">=</span> <span class="p">[</span>
-<a id="__codelineno-0-186" name="__codelineno-0-186"></a>        <span class="p">{</span><span class="s2">&quot;strain_id&quot;</span><span class="p">:</span> <span class="n">strain</span><span class="o">.</span><span class="n">id</span><span class="p">,</span> <span class="s2">&quot;strain_alias&quot;</span><span class="p">:</span> <span class="nb">list</span><span class="p">(</span><span class="n">strain</span><span class="o">.</span><span class="n">aliases</span><span class="p">)}</span> <span class="k">for</span> <span class="n">strain</span> <span class="ow">in</span> <span class="bp">self</span>
-<a id="__codelineno-0-187" name="__codelineno-0-187"></a>    <span class="p">]</span>
-<a id="__codelineno-0-188" name="__codelineno-0-188"></a>    <span class="n">json_data</span> <span class="o">=</span> <span class="p">{</span><span class="s2">&quot;strain_mappings&quot;</span><span class="p">:</span> <span class="n">data_list</span><span class="p">,</span> <span class="s2">&quot;version&quot;</span><span class="p">:</span> <span class="s2">&quot;1.0&quot;</span><span class="p">}</span>
-<a id="__codelineno-0-189" name="__codelineno-0-189"></a>
-<a id="__codelineno-0-190" name="__codelineno-0-190"></a>    <span class="c1"># validate json data</span>
-<a id="__codelineno-0-191" name="__codelineno-0-191"></a>    <span class="n">validate</span><span class="p">(</span><span class="n">instance</span><span class="o">=</span><span class="n">json_data</span><span class="p">,</span> <span class="n">schema</span><span class="o">=</span><span class="n">STRAIN_MAPPINGS_SCHEMA</span><span class="p">)</span>
-<a id="__codelineno-0-192" name="__codelineno-0-192"></a>
-<a id="__codelineno-0-193" name="__codelineno-0-193"></a>    <span class="k">if</span> <span class="n">file</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span><span class="p">:</span>
-<a id="__codelineno-0-194" name="__codelineno-0-194"></a>        <span class="k">with</span> <span class="nb">open</span><span class="p">(</span><span class="n">file</span><span class="p">,</span> <span class="s2">&quot;w&quot;</span><span class="p">)</span> <span class="k">as</span> <span class="n">f</span><span class="p">:</span>
-<a id="__codelineno-0-195" name="__codelineno-0-195"></a>            <span class="n">json</span><span class="o">.</span><span class="n">dump</span><span class="p">(</span><span class="n">json_data</span><span class="p">,</span> <span class="n">f</span><span class="p">)</span>
-<a id="__codelineno-0-196" name="__codelineno-0-196"></a>        <span class="k">return</span> <span class="kc">None</span>
-<a id="__codelineno-0-197" name="__codelineno-0-197"></a>    <span class="k">return</span> <span class="n">json</span><span class="o">.</span><span class="n">dumps</span><span class="p">(</span><span class="n">json_data</span><span class="p">)</span>
+<span class="normal"><a href="#__codelineno-0-197">197</a></span>
+<span class="normal"><a href="#__codelineno-0-198">198</a></span></pre></div></td><td class="code"><div><pre><span></span><code><a id="__codelineno-0-175" name="__codelineno-0-175"></a><span class="k">def</span> <span class="nf">to_json</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">file</span><span class="p">:</span> <span class="nb">str</span> <span class="o">|</span> <span class="n">PathLike</span> <span class="o">|</span> <span class="kc">None</span> <span class="o">=</span> <span class="kc">None</span><span class="p">)</span> <span class="o">-&gt;</span> <span class="nb">str</span> <span class="o">|</span> <span class="kc">None</span><span class="p">:</span>
+<a id="__codelineno-0-176" name="__codelineno-0-176"></a><span class="w">    </span><span class="sd">&quot;&quot;&quot;Convert the StrainCollection object to a JSON string.</span>
+<a id="__codelineno-0-177" name="__codelineno-0-177"></a>
+<a id="__codelineno-0-178" name="__codelineno-0-178"></a><span class="sd">    Args:</span>
+<a id="__codelineno-0-179" name="__codelineno-0-179"></a><span class="sd">        file: Path to output JSON file. If None,</span>
+<a id="__codelineno-0-180" name="__codelineno-0-180"></a><span class="sd">            return the JSON string instead.</span>
+<a id="__codelineno-0-181" name="__codelineno-0-181"></a>
+<a id="__codelineno-0-182" name="__codelineno-0-182"></a><span class="sd">    Returns:</span>
+<a id="__codelineno-0-183" name="__codelineno-0-183"></a><span class="sd">        If `file` is None, return the JSON string. Otherwise, write the JSON string to the given</span>
+<a id="__codelineno-0-184" name="__codelineno-0-184"></a><span class="sd">        file.</span>
+<a id="__codelineno-0-185" name="__codelineno-0-185"></a><span class="sd">    &quot;&quot;&quot;</span>
+<a id="__codelineno-0-186" name="__codelineno-0-186"></a>    <span class="n">data_list</span> <span class="o">=</span> <span class="p">[</span>
+<a id="__codelineno-0-187" name="__codelineno-0-187"></a>        <span class="p">{</span><span class="s2">&quot;strain_id&quot;</span><span class="p">:</span> <span class="n">strain</span><span class="o">.</span><span class="n">id</span><span class="p">,</span> <span class="s2">&quot;strain_alias&quot;</span><span class="p">:</span> <span class="nb">list</span><span class="p">(</span><span class="n">strain</span><span class="o">.</span><span class="n">aliases</span><span class="p">)}</span> <span class="k">for</span> <span class="n">strain</span> <span class="ow">in</span> <span class="bp">self</span>
+<a id="__codelineno-0-188" name="__codelineno-0-188"></a>    <span class="p">]</span>
+<a id="__codelineno-0-189" name="__codelineno-0-189"></a>    <span class="n">json_data</span> <span class="o">=</span> <span class="p">{</span><span class="s2">&quot;strain_mappings&quot;</span><span class="p">:</span> <span class="n">data_list</span><span class="p">,</span> <span class="s2">&quot;version&quot;</span><span class="p">:</span> <span class="s2">&quot;1.0&quot;</span><span class="p">}</span>
+<a id="__codelineno-0-190" name="__codelineno-0-190"></a>
+<a id="__codelineno-0-191" name="__codelineno-0-191"></a>    <span class="c1"># validate json data</span>
+<a id="__codelineno-0-192" name="__codelineno-0-192"></a>    <span class="n">validate</span><span class="p">(</span><span class="n">instance</span><span class="o">=</span><span class="n">json_data</span><span class="p">,</span> <span class="n">schema</span><span class="o">=</span><span class="n">STRAIN_MAPPINGS_SCHEMA</span><span class="p">)</span>
+<a id="__codelineno-0-193" name="__codelineno-0-193"></a>
+<a id="__codelineno-0-194" name="__codelineno-0-194"></a>    <span class="k">if</span> <span class="n">file</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span><span class="p">:</span>
+<a id="__codelineno-0-195" name="__codelineno-0-195"></a>        <span class="k">with</span> <span class="nb">open</span><span class="p">(</span><span class="n">file</span><span class="p">,</span> <span class="s2">&quot;w&quot;</span><span class="p">)</span> <span class="k">as</span> <span class="n">f</span><span class="p">:</span>
+<a id="__codelineno-0-196" name="__codelineno-0-196"></a>            <span class="n">json</span><span class="o">.</span><span class="n">dump</span><span class="p">(</span><span class="n">json_data</span><span class="p">,</span> <span class="n">f</span><span class="p">)</span>
+<a id="__codelineno-0-197" name="__codelineno-0-197"></a>        <span class="k">return</span> <span class="kc">None</span>
+<a id="__codelineno-0-198" name="__codelineno-0-198"></a>    <span class="k">return</span> <span class="n">json</span><span class="o">.</span><span class="n">dumps</span><span class="p">(</span><span class="n">json_data</span><span class="p">)</span>
 </code></pre></div></td></tr></table></div>
           </details>
   </div>
diff --git a/dev/api/strain_utils/index.html b/dev/api/strain_utils/index.html
index 1b0856d5..f91fff16 100644
--- a/dev/api/strain_utils/index.html
+++ b/dev/api/strain_utils/index.html
@@ -1167,6 +1167,15 @@
     <nav class="md-nav" aria-label=" utils">
       <ul class="md-nav__list">
         
+          <li class="md-nav__item">
+  <a href="#nplinker.strain.utils.logger" class="md-nav__link">
+    <span class="md-ellipsis">
+      <code class="doc-symbol doc-symbol-toc doc-symbol-attribute"></code>&nbsp;logger
+    </span>
+  </a>
+  
+</li>
+        
           <li class="md-nav__item">
   <a href="#nplinker.strain.utils.load_user_strains" class="md-nav__link">
     <span class="md-ellipsis">
@@ -1311,6 +1320,15 @@
     <nav class="md-nav" aria-label=" utils">
       <ul class="md-nav__list">
         
+          <li class="md-nav__item">
+  <a href="#nplinker.strain.utils.logger" class="md-nav__link">
+    <span class="md-ellipsis">
+      <code class="doc-symbol doc-symbol-toc doc-symbol-attribute"></code>&nbsp;logger
+    </span>
+  </a>
+  
+</li>
+        
           <li class="md-nav__item">
   <a href="#nplinker.strain.utils.load_user_strains" class="md-nav__link">
     <span class="md-ellipsis">
@@ -1376,6 +1394,27 @@ <h2 id="nplinker.strain.utils" class="doc doc-heading">
 
 
 
+<div class="doc doc-object doc-attribute">
+
+
+
+<h3 id="nplinker.strain.utils.logger" class="doc doc-heading">
+<code class="doc-symbol doc-symbol-heading doc-symbol-attribute"></code>          <span class="doc doc-object-name doc-attribute-name">logger</span>
+
+  
+  <span class="doc doc-labels">
+      <small class="doc doc-label doc-label-module-attribute"><code>module-attribute</code></small>
+  </span>
+
+<a href="#nplinker.strain.utils.logger" class="headerlink" title="Permanent link">&para;</a></h3>
+<div class="language-python doc-signature highlight"><pre><span></span><code><a id="__codelineno-0-1" name="__codelineno-0-1" href="#__codelineno-0-1"></a><span class="n">logger</span> <span class="o">=</span> <span class="n"><span title="nplinker.logconfig.LogConfig.getLogger">getLogger</span></span><span class="p">(</span><span class="n"><a class="autorefs autorefs-external" href="https://docs.python.org/3/reference/import.html#name__">__name__</a></span><span class="p">)</span>
+</code></pre></div>
+
+  <div class="doc doc-contents ">
+  </div>
+
+</div>
+
 
 
 
@@ -1448,7 +1487,7 @@ <h3 id="nplinker.strain.utils.load_user_strains" class="doc doc-heading">
           </td>
           <td>
             <div class="doc-md-description">
-              <p>set[Strain]: A set of user specified strains.</p>
+              <p>A set of user specified strains.</p>
             </div>
           </td>
         </tr>
@@ -1497,7 +1536,7 @@ <h3 id="nplinker.strain.utils.load_user_strains" class="doc doc-heading">
 <a id="__codelineno-0-32" name="__codelineno-0-32"></a><span class="sd">        json_file: Path to the JSON file containing user specified strains.</span>
 <a id="__codelineno-0-33" name="__codelineno-0-33"></a>
 <a id="__codelineno-0-34" name="__codelineno-0-34"></a><span class="sd">    Returns:</span>
-<a id="__codelineno-0-35" name="__codelineno-0-35"></a><span class="sd">        set[Strain]: A set of user specified strains.</span>
+<a id="__codelineno-0-35" name="__codelineno-0-35"></a><span class="sd">        A set of user specified strains.</span>
 <a id="__codelineno-0-36" name="__codelineno-0-36"></a><span class="sd">    &quot;&quot;&quot;</span>
 <a id="__codelineno-0-37" name="__codelineno-0-37"></a>    <span class="k">with</span> <span class="nb">open</span><span class="p">(</span><span class="n">json_file</span><span class="p">,</span> <span class="s2">&quot;r&quot;</span><span class="p">)</span> <span class="k">as</span> <span class="n">f</span><span class="p">:</span>
 <a id="__codelineno-0-38" name="__codelineno-0-38"></a>        <span class="n">json_data</span> <span class="o">=</span> <span class="n">json</span><span class="o">.</span><span class="n">load</span><span class="p">(</span><span class="n">f</span><span class="p">)</span>
diff --git a/dev/api/utils/index.html b/dev/api/utils/index.html
index 7e418d8f..16d8e9c9 100644
--- a/dev/api/utils/index.html
+++ b/dev/api/utils/index.html
@@ -1234,6 +1234,24 @@
     <nav class="md-nav" aria-label=" utils">
       <ul class="md-nav__list">
         
+          <li class="md-nav__item">
+  <a href="#nplinker.utils.calculate_md5" class="md-nav__link">
+    <span class="md-ellipsis">
+      <code class="doc-symbol doc-symbol-toc doc-symbol-function"></code>&nbsp;calculate_md5
+    </span>
+  </a>
+  
+</li>
+        
+          <li class="md-nav__item">
+  <a href="#nplinker.utils.check_md5" class="md-nav__link">
+    <span class="md-ellipsis">
+      <code class="doc-symbol doc-symbol-toc doc-symbol-function"></code>&nbsp;check_md5
+    </span>
+  </a>
+  
+</li>
+        
           <li class="md-nav__item">
   <a href="#nplinker.utils.download_and_extract_archive" class="md-nav__link">
     <span class="md-ellipsis">
@@ -1370,6 +1388,24 @@
     <nav class="md-nav" aria-label=" utils">
       <ul class="md-nav__list">
         
+          <li class="md-nav__item">
+  <a href="#nplinker.utils.calculate_md5" class="md-nav__link">
+    <span class="md-ellipsis">
+      <code class="doc-symbol doc-symbol-toc doc-symbol-function"></code>&nbsp;calculate_md5
+    </span>
+  </a>
+  
+</li>
+        
+          <li class="md-nav__item">
+  <a href="#nplinker.utils.check_md5" class="md-nav__link">
+    <span class="md-ellipsis">
+      <code class="doc-symbol doc-symbol-toc doc-symbol-function"></code>&nbsp;check_md5
+    </span>
+  </a>
+  
+</li>
+        
           <li class="md-nav__item">
   <a href="#nplinker.utils.download_and_extract_archive" class="md-nav__link">
     <span class="md-ellipsis">
@@ -1501,6 +1537,72 @@ <h2 id="nplinker.utils" class="doc doc-heading">
 
 
 
+<div class="doc doc-object doc-function">
+
+
+
+<h3 id="nplinker.utils.calculate_md5" class="doc doc-heading">
+<code class="doc-symbol doc-symbol-heading doc-symbol-function"></code>          <span class="doc doc-object-name doc-function-name">calculate_md5</span>
+
+
+<a href="#nplinker.utils.calculate_md5" class="headerlink" title="Permanent link">&para;</a></h3>
+<div class="language-python doc-signature highlight"><pre><span></span><code><a id="__codelineno-0-1" name="__codelineno-0-1" href="#__codelineno-0-1"></a><span class="n">calculate_md5</span><span class="p">(</span><span class="n">fpath</span><span class="p">:</span> <span class="n"><a class="autorefs autorefs-external" href="https://docs.python.org/3/library/stdtypes.html#str">str</a></span> <span class="o">|</span> <span class="n"><a class="autorefs autorefs-external" title="os.PathLike" href="https://docs.python.org/3/library/os.html#os.PathLike">PathLike</a></span><span class="p">,</span> <span class="n">chunk_size</span><span class="p">:</span> <span class="n"><a class="autorefs autorefs-external" href="https://docs.python.org/3/library/functions.html#int">int</a></span> <span class="o">=</span> <span class="mi">1024</span> <span class="o">*</span> <span class="mi">1024</span><span class="p">)</span> <span class="o">-&gt;</span> <span class="n"><a class="autorefs autorefs-external" href="https://docs.python.org/3/library/stdtypes.html#str">str</a></span>
+</code></pre></div>
+
+  <div class="doc doc-contents ">
+
+          <details class="quote">
+            <summary>Source code in <code>src/nplinker/utils.py</code></summary>
+            <div class="language-python highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal"><a href="#__codelineno-0-101">101</a></span>
+<span class="normal"><a href="#__codelineno-0-102">102</a></span>
+<span class="normal"><a href="#__codelineno-0-103">103</a></span>
+<span class="normal"><a href="#__codelineno-0-104">104</a></span>
+<span class="normal"><a href="#__codelineno-0-105">105</a></span>
+<span class="normal"><a href="#__codelineno-0-106">106</a></span>
+<span class="normal"><a href="#__codelineno-0-107">107</a></span>
+<span class="normal"><a href="#__codelineno-0-108">108</a></span>
+<span class="normal"><a href="#__codelineno-0-109">109</a></span></pre></div></td><td class="code"><div><pre><span></span><code><a id="__codelineno-0-101" name="__codelineno-0-101"></a><span class="k">def</span> <span class="nf">calculate_md5</span><span class="p">(</span><span class="n">fpath</span><span class="p">:</span> <span class="nb">str</span> <span class="o">|</span> <span class="n">PathLike</span><span class="p">,</span> <span class="n">chunk_size</span><span class="p">:</span> <span class="nb">int</span> <span class="o">=</span> <span class="mi">1024</span> <span class="o">*</span> <span class="mi">1024</span><span class="p">)</span> <span class="o">-&gt;</span> <span class="nb">str</span><span class="p">:</span>
+<a id="__codelineno-0-102" name="__codelineno-0-102"></a>    <span class="k">if</span> <span class="n">sys</span><span class="o">.</span><span class="n">version_info</span> <span class="o">&gt;=</span> <span class="p">(</span><span class="mi">3</span><span class="p">,</span> <span class="mi">9</span><span class="p">):</span>
+<a id="__codelineno-0-103" name="__codelineno-0-103"></a>        <span class="n">md5</span> <span class="o">=</span> <span class="n">hashlib</span><span class="o">.</span><span class="n">md5</span><span class="p">(</span><span class="n">usedforsecurity</span><span class="o">=</span><span class="kc">False</span><span class="p">)</span>
+<a id="__codelineno-0-104" name="__codelineno-0-104"></a>    <span class="k">else</span><span class="p">:</span>
+<a id="__codelineno-0-105" name="__codelineno-0-105"></a>        <span class="n">md5</span> <span class="o">=</span> <span class="n">hashlib</span><span class="o">.</span><span class="n">md5</span><span class="p">()</span>
+<a id="__codelineno-0-106" name="__codelineno-0-106"></a>    <span class="k">with</span> <span class="nb">open</span><span class="p">(</span><span class="n">fpath</span><span class="p">,</span> <span class="s2">&quot;rb&quot;</span><span class="p">)</span> <span class="k">as</span> <span class="n">f</span><span class="p">:</span>
+<a id="__codelineno-0-107" name="__codelineno-0-107"></a>        <span class="k">for</span> <span class="n">chunk</span> <span class="ow">in</span> <span class="nb">iter</span><span class="p">(</span><span class="k">lambda</span><span class="p">:</span> <span class="n">f</span><span class="o">.</span><span class="n">read</span><span class="p">(</span><span class="n">chunk_size</span><span class="p">),</span> <span class="sa">b</span><span class="s2">&quot;&quot;</span><span class="p">):</span>
+<a id="__codelineno-0-108" name="__codelineno-0-108"></a>            <span class="n">md5</span><span class="o">.</span><span class="n">update</span><span class="p">(</span><span class="n">chunk</span><span class="p">)</span>
+<a id="__codelineno-0-109" name="__codelineno-0-109"></a>    <span class="k">return</span> <span class="n">md5</span><span class="o">.</span><span class="n">hexdigest</span><span class="p">()</span>
+</code></pre></div></td></tr></table></div>
+          </details>
+  </div>
+
+</div>
+
+
+<div class="doc doc-object doc-function">
+
+
+
+<h3 id="nplinker.utils.check_md5" class="doc doc-heading">
+<code class="doc-symbol doc-symbol-heading doc-symbol-function"></code>          <span class="doc doc-object-name doc-function-name">check_md5</span>
+
+
+<a href="#nplinker.utils.check_md5" class="headerlink" title="Permanent link">&para;</a></h3>
+<div class="language-python doc-signature highlight"><pre><span></span><code><a id="__codelineno-0-1" name="__codelineno-0-1" href="#__codelineno-0-1"></a><span class="n">check_md5</span><span class="p">(</span><span class="n">fpath</span><span class="p">:</span> <span class="n"><a class="autorefs autorefs-external" href="https://docs.python.org/3/library/stdtypes.html#str">str</a></span> <span class="o">|</span> <span class="n"><a class="autorefs autorefs-external" title="os.PathLike" href="https://docs.python.org/3/library/os.html#os.PathLike">PathLike</a></span><span class="p">,</span> <span class="n">md5</span><span class="p">:</span> <span class="n"><a class="autorefs autorefs-external" href="https://docs.python.org/3/library/stdtypes.html#str">str</a></span><span class="p">)</span> <span class="o">-&gt;</span> <span class="n"><a class="autorefs autorefs-external" href="https://docs.python.org/3/library/functions.html#bool">bool</a></span>
+</code></pre></div>
+
+  <div class="doc doc-contents ">
+
+          <details class="quote">
+            <summary>Source code in <code>src/nplinker/utils.py</code></summary>
+            <div class="language-python highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal"><a href="#__codelineno-0-112">112</a></span>
+<span class="normal"><a href="#__codelineno-0-113">113</a></span></pre></div></td><td class="code"><div><pre><span></span><code><a id="__codelineno-0-112" name="__codelineno-0-112"></a><span class="k">def</span> <span class="nf">check_md5</span><span class="p">(</span><span class="n">fpath</span><span class="p">:</span> <span class="nb">str</span> <span class="o">|</span> <span class="n">PathLike</span><span class="p">,</span> <span class="n">md5</span><span class="p">:</span> <span class="nb">str</span><span class="p">)</span> <span class="o">-&gt;</span> <span class="nb">bool</span><span class="p">:</span>
+<a id="__codelineno-0-113" name="__codelineno-0-113"></a>    <span class="k">return</span> <span class="n">md5</span> <span class="o">==</span> <span class="n">calculate_md5</span><span class="p">(</span><span class="n">fpath</span><span class="p">)</span>
+</code></pre></div></td></tr></table></div>
+          </details>
+  </div>
+
+</div>
+
+
 <div class="doc doc-object doc-function">
 
 
@@ -2347,7 +2449,7 @@ <h3 id="nplinker.utils.get_headers" class="doc doc-heading">
           </td>
           <td>
             <div class="doc-md-description">
-              <p>list[str]: list of column names from the header.</p>
+              <p>A list of column names from the header.</p>
             </div>
           </td>
         </tr>
@@ -2375,7 +2477,7 @@ <h3 id="nplinker.utils.get_headers" class="doc doc-heading">
 <a id="__codelineno-0-56" name="__codelineno-0-56"></a><span class="sd">        file: Path to the file to read the header from.</span>
 <a id="__codelineno-0-57" name="__codelineno-0-57"></a>
 <a id="__codelineno-0-58" name="__codelineno-0-58"></a><span class="sd">    Returns:</span>
-<a id="__codelineno-0-59" name="__codelineno-0-59"></a><span class="sd">        list[str]: list of column names from the header.</span>
+<a id="__codelineno-0-59" name="__codelineno-0-59"></a><span class="sd">        A list of column names from the header.</span>
 <a id="__codelineno-0-60" name="__codelineno-0-60"></a><span class="sd">    &quot;&quot;&quot;</span>
 <a id="__codelineno-0-61" name="__codelineno-0-61"></a>    <span class="k">with</span> <span class="nb">open</span><span class="p">(</span><span class="n">file</span><span class="p">)</span> <span class="k">as</span> <span class="n">f</span><span class="p">:</span>
 <a id="__codelineno-0-62" name="__codelineno-0-62"></a>        <span class="n">headers</span> <span class="o">=</span> <span class="n">f</span><span class="o">.</span><span class="n">readline</span><span class="p">()</span><span class="o">.</span><span class="n">strip</span><span class="p">()</span>
diff --git a/dev/install/index.html b/dev/install/index.html
index 76002324..fbd0814c 100644
--- a/dev/install/index.html
+++ b/dev/install/index.html
@@ -1324,7 +1324,7 @@ <h1>Installation</h1>
 <a id="__codelineno-0-6" name="__codelineno-0-6" href="#__codelineno-0-6"></a><span class="nb">source</span><span class="w"> </span>env/bin/activate
 <a id="__codelineno-0-7" name="__codelineno-0-7" href="#__codelineno-0-7"></a>
 <a id="__codelineno-0-8" name="__codelineno-0-8" href="#__codelineno-0-8"></a><span class="c1"># install nplinker package</span>
-<a id="__codelineno-0-9" name="__codelineno-0-9" href="#__codelineno-0-9"></a>pip<span class="w"> </span>install<span class="w"> </span><span class="nv">nplinker</span><span class="o">==</span><span class="m">2</span>.0.0a1
+<a id="__codelineno-0-9" name="__codelineno-0-9" href="#__codelineno-0-9"></a>pip<span class="w"> </span>install<span class="w"> </span>nplinker
 <a id="__codelineno-0-10" name="__codelineno-0-10" href="#__codelineno-0-10"></a>
 <a id="__codelineno-0-11" name="__codelineno-0-11" href="#__codelineno-0-11"></a><span class="c1"># install nplinker non-pypi dependencies and databases</span>
 <a id="__codelineno-0-12" name="__codelineno-0-12" href="#__codelineno-0-12"></a>install-nplinker-deps
diff --git a/dev/objects.inv b/dev/objects.inv
index 343fa31094a38177859bee4264ba2772a21499d8..4787c8951214bd8d6b7205c68d8642a53ff5e609 100644
GIT binary patch
delta 4233
zcmV;45O(i^7TzI{eSgbx<G2-u_j!u0n%+iJ>8fn9Q`@q~6H9VQ_DpsxTB2-@DN-RR
zCp}LefH#4_0eH><l+BFW()s?MAnrHkr!37sl5!T8Wt_hy<(Jcse;kYbIZM9$?Mr-0
zf9^l{`KPa6{`!|(|NiVYuH!1H=Suu8i>rzk-hUu5hjYHG(|;oOBSmpur`0j8-UBjU
z)3<6DpF-Mv%THB6+%Xj%1M*JA{uG_c;*VrkM}Jg;7mi)kWt`^GF+QEr{H+R3uA(Z*
zgzsd}K;N&PwztK9@~nvWYWDutM9a7K^G`$6F{$I%A}fyRuA0fu^l+QP;=jV_t}b{2
zmuQIpw7z|co_{v$Ul%ve(aYvhO6)~~AroNxyqQ0&qUHSQ>0x!hjkY(xESB>D(%P(c
z@5wP%jJCh1Y|)U=%XYDe+V4|UpioF+-@OS@DeR-9O|`bDL^5R?DK(3<vdtG1)wd*X
zUqJH#3hFd-E;B&&T&J1(>YIO$gCMFfmy~gx48<vG?0+Uvx{qGpcH)14R{uniE;>AF
ztB!y}p0c#6qkURd=*PT7Sb2vuONhWW1R^%o+wgR*3aQJ9?KgC-_Sc=Hn+drn&pF(*
zw4(h-(EI5>8#5r0&p1o>(veTYI6ypF!hykT`iA%>p^Y|aqRIfG6_Gw&jqXtYfo5uW
z58v-^^nWf8B4ifFqH#_3X=A-njqAFk0QURn6qiX}11X6D^tquaB^(C>psixq;broc
zw(pXNxKwY{z%CO<&1*|I>Az2^U74P0p7XtECwA|CFEFjFojy!>+hEBgZ1XPtAzJsW
z$WjzB(P&<Z00UAT`v!p;*woC#!26p!YB?7nO@A>JY0P*>GP=#+72T?gWQC0i1_RJ#
zZ2lv^?GE%ZEd$@<t~^9Vp8a5|OUNaAFaV-ZR-(DjlDgm`x-kqf3F6nCwe5<;hmJT|
zC?1>P%6BoSvgL9TWF|YovOi~e3L5M!siQtaTN0EGG`o{DqIgyQi8g{XwnYACyHfji
z<9|7w{*%ej*}VU0NHJrE#|LK17=F+$gY<)wuFnm1F+<2yR{`7dBY}M1JpQ(h>vQGt
z)>KT>1fAmgo&UZ@xS~wo(mc-0I-W}`6EQfpO;E9!Rgry)5mQ|!$5S_t6vS)8-HR^o
zp-TQ8E)nV?KoVSf<ojU)3!dyyz6sBuD1WLhMGPG4x%2C)zewHykhc}H_VcuK0s4DG
zRHD9aEfT@JSJ!Y`1@dQ`zw$F^OmSfxijiBD^l#!d&Oi9JOqAOTwLT%&V$EAiDgphB
z(=2|?lFOW>AK9I1bex=r0_$A39Vfk(5h8>Svm?Ovb3p|$26ZX;-c(u;dvO1RZ-4N@
z3uMpM)$y^YGecU1dQaY7RcH{iP>+o7vZryap({m_MJJVOwfW?#y-u_O;t{UYoQWE8
zyt433n*@RvA{;2&iUSI)2Rn7(g$bn2CD^F}uU#ND#=$rpqprcLSjvK_p{;{Zb-Hku
zmbPGmQ!v+gO|ES{1*xEiyR@K%7k`|L8tGQBEzV$d)OeQ?xP*ff8A4rr+Zqo}LXUPS
z>1#nag+9tjwyzZ-MNEK8Pg_>PX>>tO?s(M+$!&u`uCfq6n(V#o8u;oAoPF<p7$%|h
zIYT~aw#&{{os`hpvIo^MK~ARr_AT6VE3Dc6HOND&$PkY`)UjPR%klCFn}1JCik}HM
z-}o3B6FuF5FT%^+Kx8=s^Dx7Y%JDT~6aYUz1J2u5sFw#ao$jpLyohC3aHg37wvG+o
z6puFE_%PjS$*((5;D!hkb%=D)^$im^avwE8W?(0n@NNqveH`r4v24n~=_tW24Q<~B
zj@<>hxQ=ZdI1LRjr3LK%z<=vFx@*0Lb%O{_Wfbnx(RY#H@O>0S9!4so-e$K~`l~%;
zwv_*cds?(;+vWix#j%XfAlcUK8K{2ucmQ0xR-vXBlebj1$#dRZA1~^wqWY188_UQn
zpo2|jsQdrDI8EIW?{-O5nHw1qIO-V%G`M9<t>yopPeXtnJAYtBfqycgM$*M>%kp?p
z_d5K9x?}O0;J~?Bjc{OFo+etbuSX+1z!f0N#|6dk;;22zW;7Pk&1J2*e-PVp(u5To
zXv#<bZCfjVPlqM87Jwz;hJ!9Y<}keg16z^@>qr)%Z8TU6{iEl*ur+oZD;mn~2vZgi
zjbd|1%f3gtJKE)loqydgR_o;=`hI`IJss&F*k!j(r~IbK<eAnk)zw1ScG}HTX-1q~
zq8nRBbs?uST>Fm^$s}Rj={Lc19|gehhE7F)265P<aXE}QEaSWO`gn<&3efS&076~T
z3BLK9o?67Sq8tJ6LBg?{O5;!##{l^>&?!}j8se;~&Mn@$>wgxMv)q)&z2@=B%VGIZ
z<=XyQv(@!*x+DDXyZ}0Iw)ofcW**(lSL>&jZS*wX%$M8fc5yd<d3@H!VtD9!(-VCV
z%k|@G@w{05GGE;+Hf+-7Wi>pX?}N#gX*u*rfXH}J%xgj8Q{*p!0*nU?%hP-hEuz0P
zLZ0ug5;m+~XMe7LoIH{RKK<p24?b${xT~kfht)q9n@Dt2qTBiNJi2|@X!VcF*EPB=
z9a{D<;yf?vSbjnFGOCmKa(O;N10>}N4dVd+=zfh$_r(H-o%A2euO1J99B5FBa+h<%
zCjdk?J+v27R7n{r*_Ls0g2{ojfc6i}f9fNd^VQ0Sj(@n>vJlztoW<o`d`#Pghtc#W
z4>NkT&;W*s?G|aSKt448GfygUdCn8IT<FB9TQ0Uu&N$GMcQoKYH=78y6<FF<$t;|#
z-N$!X#M4D{xsg)uRzY~|Y&&3r<kx|g=5>-+Y3-d_w$%$V=TBe4DTzP4U)HG<8M~~C
zGV(W6)_=Z)q3!k0K7K_MI@CXE&CS!`di-oY6e;_0^$^S%uIys)cVZ~KY-bU|c?O{~
z^~xs?$6C!C&b1ZXPKSVd0;w8(W)0`sBqG|<DR6&l)Oh-~xh~Hg)LfaTXIbOM1}?~v
z@6k-?zCkvk`DZs^TmQa#T+eU&TLAsMS-{cV_kZOo0KH#GhGz8`I9Wc1wdsD{CJ<K)
z*gq^2noOd8C7=gQ_InORd5mlBO93vY<PwJIZQw2#IxN7m8O;Fu84Xh3m_%jrnUs}r
zYlJ_UUBTQ9X~uihCVb{o&^yF-wRql!VEp#Ylk$>(<f7DYDPY6QPGFGcXyVb}aZAkh
zH-E-h8gmp)8|Fny(_(L;30LD9kWg;GcHYC-h&OF=KW>Jvazimyda9?vGGv2>_c`vk
zgf!cdeH??GA)dtn<>SZQo8lQWnZ6F8ei`3ePxEyJU-!&$q}>5ccLVgFm~Ir(w4-F`
z!CmR@bDA#LDdkugf%tYjUkePHwj+yNzkgdpZTTEsWP&S`63~&otL@{^q+Y>t71S!G
z>(FKha2!CffX-IB+>G1Ks^J{n@nC~4+{Uw&l_3gKTM#(v`p|~1-V@O3%Fpfgthn60
zr=P5Df|bR0qn6SjmPSCnFOLq3m4$U<e^1om94e)Kpq}$>4e!_wv7>HDTdAxk27mK}
z@&l8u;0~M|@HIL>rwtElWQtMSWCOvLh6v%qn5|&j8Avu;`dhT`BKZca1L8KKaJB7Q
zPuO0@NVYN8<`up-oyxXn?ttN&y0F-GoQIS-p5TMaG*c6&nmM*?C!J}=;Ihy0<6HK@
z{XgDz^m_}4mcT>eEIa1Dz0vpkVt)wiI>L)?r^>RSqVG+jYxM-Yq;(?`L)>5yZLlgW
z1A!OyuACqeUf$eZ#ZbOL@WQsUc@$mfY~GaYpI(B05~Rl4yclXNfFKBM3FGLh9K3v4
z`-qk`K?>S##?VwT1aWo~U?6Ow@WD%HSNc~s<0?lAXeR(Bc3UBzW8&0+Cx3Y2PynB9
z992BF^PhQqOd>58UqkM4pimJGBxX6e82+iia||5NHP7?)KNzL9|3I@h{O~CL=O~}M
zq7(@{veW!VkAu+5q~68ZVcSOF(OMjYUOhbykE`yFn0neiZnpmZYjpEC-)<NB<`y(!
zd$Zm=tnQ=b;`x{LEgJ)zhkwJz4p)ku>*8?WVjPDI@eIcqLo~#4T@*ULzb%jzE9#S7
zaXgCl13DYUpvm8PL1dR2K8=q?G)wiC8;J;z;^Tbsx6)AHW8hTEF$BcX+M-dGa~=42
z+o4!Ip~%FLmmTgp1&fB1iNHiY=};C$?Njut_%n&dHn^{}Ylr0JC4cY5J{*aiy72Bj
zd^mWdWh%UDewRZc;2Q677ziGw8}K6m5CnG2ERWUoqKxiQ-`#?~jJZArPuV`tpI<of
zPwU&KXns3?dS2Wz!rKVoD7ZW7c{6`l`8@W^cCm?C3@5zpGP|CAqQ4A<T6M13HFtc=
ztXeE-GW4Le%-fYh=zrVRo;^KQ-hw4><hFHaIILU@cHiSN**kh$9Bx&d%Uu$RR>!62
z$$8UcZ!pfXkhrQSYms<CUdaGang<e~ZQn%q`JC7O94{;F`}en^<Rdh~HsGbl&g2ed
zd7H=9!@x`e?jBaR#$7ff%4)t`_{4)_QxZW|_w+ofLAvcJmVeG63FR8xkwE=)m@<)z
z>{+#;2!&I|6*y%GewEbclW#J}y3CtV$N4@k_o;b|%gtH8{vnFIEd8_sdx@K|@{|(K
zu09P$#SO0#X3<a?Mtjb3(p0?M=(dF=MOy|s<WPD=IS%)!pvEMA{RGr8{0CC&9(pvd
zX3-d&ibeiYlz+vcClG#y9H(UOb<>o`9JUR2hn;81WU}o+{eGUQp2W5S_40XEdJ^4=
zYs5kHqN8|btm74in-Pm{XWW$}>T^ZGHlC<GVsI@~e(IcO2ghVY^$~+>q4HA)pZ(bO
zL!+rdAb-^prvwZcX_5+nE)EPeiRuc0E<fse5rvyrx__iLtR;$e(R5jJEKF3s0O;bj
zE-KN2ilLi;d$&Xj7YN<J6-Mn-ilImG6MAOfo0z;UfFZ1R*r~cjS#xBe$pfmi%787%
z<}>)Znv+kf7=ci<5VvZuQ_#}93c<!e%U-7%fP}74`T-ewp@-t}a@3*@gacwlGZ)mn
zOK@s$N`FO(LDOgCT(8ICrC8$#TRc^^;wx4JF>o@Hpg6=6B;mPBis<A-hD~}r;YpEf
zBk@w&>?lF1i&UkCZ5-n@>24p#SM$5Z&JS!vyT3b2!N0SJ374VfTHbV^ah)t8M%L|g
zDaS%RAyy_7D~XJ$Ctr%(x@g(#P2#jW^?WI15`XWlJ1%ITWAW+zP<6pEV<|+`?NboV
zQot~1C3I3mD~33H7c>Poj^a#k$7gOp<hUfGsBMT1tj<qe<75n4%%~@5noT%M7pPo_
z(j9@N4pvG;{ei)9090p0{f@v=hpR!NfeVD`!KgvW1{wlO9jbYW@;$=ThmXyT|D4KK
zTYucdpJt)5fSs|};AVT`@Q3HRDD^HZyeT+EtlymN;!K`Vmw)eW|93#j5&53%KFCqv
zpF*}@u!8`>*FxI^eMAqbaJ^5m^q9guHhZX??s!k+6)6=dF7575yWD+;4u$`CA1ccB
f7u)S&B2n{7nv{ns59ch4PI3M2M*I(r-~ua8vSxL{

delta 2721
zcmV;S3SRZzA%Yf=eSgi8+cpx%@B0+4%3LE?eB7JutbOrhQ#B93!idleGyE!&nq9wr
z01|*evKwqPpj>QOWdHh)??w}p+rF;aH#wZdFo^a=4j=lT|8BbSTFVc=eGq;1(O&rY
z%fp9X|J82qKm9HyG0N$)XMe86IP%Qx1&z5}+w)X)Z5pW%?SE8_jTm1uGM}rL@htkB
zGGE$$%!q3$r7<I~@5;XDhwd+Vo{GOl#mmPYr$JP0(TKjU+Ltjqc`Qa*E8VhWpuhj|
z=hN@q|Ju3}rQf|j&DOfrKK|mY8aavQuI`%ZJf8HmtvTl5KmS)s&r`>9aI=Q^rE#xD
zLRrY=)}?<G8h=-+x?9!D;&{Hn^ZX*)#p`^51PzM04mIHQI#sn_-ud5aBZ#WR$w5rg
z^`T;xD~qZuo?p)DFTj^AQL%OEin@3wz#&a_HBLoY4I{ajHw%<^scIPsTudP1Jf>ag
zLZfhTV(!@bTD~?e!%RrUaBboFba84gLG5F&tr?J$cYje=rB;-(8aPP8^zRtV`QF*j
z6}_8?O+%euWh4A1n!gw!YtM<T*If)?FKk4)cKGuB>vr8In4E-AD~c?uS^Df%Ow$kp
zD9fT3gKQ_DCMf{hki{%rax|1`wmZM3$*4wjy*@Jk{`FgI)hm;^=G5H9b9hpgu~ntb
zOjYsyzJCf+QAO9*KNBF!yu<{k)*97pR?Dg5B1~KoS%>2Jj1J90T@2XiZuVmiLB6O!
z3F|RY5OrxPY)?SyARf41;Npm?cGJtbg3PjB&KI^Sf5lmEt?ZRU)6-}B$<^3yqm=@)
zZD}JLvtUE(Qw}%dUBFn^i6DQUi~lr<={hD<uz!y^4N?WJ*p7+GoVpA|_o*n|1_h4m
zy*uH}g6B2lkpib`HhMz?BT5?pN|r(yR*51p7umFr_fR`#(uZw_(gf~yOcaGG034-l
ziD%Ki@n!8%VJ)#^HhQL*TTQCHq<9xqEuL$6+XAPN!?hNV)7u(wUV~@$sAgFqa_B&o
z27k6FkC#Orw94?sSsGUwxf4c73{tsL=PP$zNy#1vMYz-Sp$7FjG4N@#$$|3-0Th-n
zAc42WK|gR_f#~OE9P)vt9%x>6<{@8rj)LZFZ6ERkW-@3_oGHlnGH$Cq)Ga;u5Hvh}
zF(2ICZX4h8NueDgnd%zU%pn225sA?~C4Wr>T+|dnH)2p3nk9~`X2m&XX2?9dJ5|xv
zNxI|Fpl=VLz~mi?>MTR_RdSDpMI(C4L^6Lgx@R2n5l9Zw{A>V6zJMGe-H$O2`9RZ*
zG%qXjke_WXl7_cd5ZSE&tC`w7P<+5mPLKLecy^An4kelxBrLPUK-q_*8F0(qNq@ui
zL&F5#qxTe;Q|H!R&5GUlvt2@xO>R4ywTwh@KFe{emJtw#i+$`(1}}`GoY_D8fF0Cm
z^nt^QB*M3hcNR(^(H)0#Mg#>|k|<IFo)sc!fQLOx#|_2M5|}fh#cWtaHMfk9EeMum
zIFN#Yj&#_&vAK_450BJw2)l%*%YS(HYYtNjHr+DhY*Dx(N?#yM%k#+-{K=>}uM)65
zJ<ZX~*RIyb#7y!1-mpYF`!g>)JKTi{y^E>SyPeRpM1o!oGiPfQFZ@8A!gK43J>k?1
z)l1ci+B@nr$g!*6Wf@HUCOO@EfDUhEaAc}Z@%QCS^c8s$jpG0;NIv#FdVeoN*JS9Y
zna;pL)Ep<_Hr#ujt-2i_T}@KU*PBW-E2TNq3h#$PhS}pi!@b8WY0!E?6K&f~Lf@b#
zwXs(>57!0?47@|IyVHoP6SBA25`n`?>}7pxbIGJ&14TTW1Izg<03z=-ET?QoITT)6
zfN>0T&+&Zu3ioLO@8YI=uYXGR*s0!ht;O(7G}V&tS?yhUm{m(baR?J@a#(jD2amIH
zp$A9YxY(umV!M~;(!fJ>RN9l*6r7G@?ejE%qxDj}af<|<4_r+Z`%`LL`)wuTXX&zm
zm#71LcoO5oo~K^#0p_<S!bbBO6rbJl057*}(CN1D?2da<nb7MeY=4AHEJ2|i1E*Wh
z<*Iaqm65CBpEo3`WfHe<og~oIcg3X}8ZmL(6?o}~OK^J}lhsL*lcQ|kR8M$Zwke4t
zYDYSm?T^|ozRO`;-s;Mt@#Me!!XmmlV-*#gBlFS%vn?5H7pp{lYYY+`kZ5y%^&)(G
zm?=21N4#IRgXB^Ju73^*!dARvk^aH2d%flu>l$94STb&?6g}Yujwfu-OjQUim3(cM
zmZ}PV$&;gK^X6x~8emCds_{t2ilkdq@AR5)oL?|b;7C}3_;M1P1qL0<(L>H=QT_Qj
z5Vb_8+EX$r!lR!Qg?s89B#&98QWm(SLx7=Kj0AGGTHJY`mw!aM7|yTNJ8R)US$s8q
zyJeBI0`hewEMX{%ss?YT*f5k-(<#uzP4UcY?AD;T%zFcW_#SLRBE}6&x`R4!Q<Eyx
zL5~Hy)V?Pa+ayKE+8}c1*zK~|avTYhwQWT_WB&=ra?+CiT;F(_pRHw$WD5&DDBx?`
zQrYr?2VXhL;D5ugaiR`R%5r33r)T4Y!Gn#XCv~tPr+isb!VmOLwvz!*Sm;ilj(Y0O
zOM2IYNObq>2R96_3jlKnpK*d71V4lscX^5*_t5>|K@YJU2M_8K!3WRb`Sjgkq-NPk
zwW5)?@__MO7I(KJL!RSI&XBW7`Ac=rlREapZm`)48-IE3!w>aWU|5~ILDkDj&iu{R
z4njZ5=`8BY(_%qKZ|orSAAkOE#r4zpN2RrP(2oJpZQWap*QvW)xES58$WJ)Y8QNU+
z-bumO5dUB`$KJkK$Ffy}@7y(wnrxx7I}DosE(xL+QuuHx88K(bk#{vBAl=)wPnR-N
z;8T&Ylz%1%B(OA*QOkMHltHXwPZe~s&HF)3vTB8ze)jx<H%NtX{e(s6x+!JonkiSG
zWPk0-lonZ&*i`~QPo<lKr>l<4%}Vp=DuK36t<6BNi|pyKst+=2|87yYLBa!Y^FI)5
z1n%1RAVjN+2{r{Yl?~mE#wrwBEEtKm4X!d#pnp+L*FGBZ-)H@E#=0)zN`dt9Xw#F)
z>muu042fTpYYwj>H;itWq7nL^Dt@tD@($6oy`x#WPI1(q`N1{K6VhgJZaql6fPG^}
zI$r>=W4(4|Uk`$ObT~!1TT#fad2NX?$Zq3X5VEJc+m7r=Z`vGi*3I+qTy}6yKJwz(
z_<wX4GOQOy6Ei&Q@7+ZiREs6sRaf9^{S<R;x{H1ZhB|o@Zx&ejBW!h{S;h4bm#UuR
zkV?_}OeBpJ#aXshsg%$Uenx_t?mf9s_-}=VFvx(24!Z#wGFT{R&-BpAW=PTS#^?yX
z9(E-3VuFGF$mbpjda|?KppNr7o3s1^Gk-y(YeQgp2WOB-|Bk^@0L(p+{tbcUJ@iYI
zWC7sMPsV82O?S}(W&+DQ{$rP9_rNb)`Y%NykqG$A<KSgVY%V`$(f`knLoQq>^iJew
zYSANC1Q7f-4{n&^^inC+rL3!_f+H5(RLAwNQXiTbqwFek#`1PPmTU^Ycu%szej4lw
bH&d0`j#{LCTza|Ib<vCIHH`QhGm0E;b=_PK

diff --git a/dev/search/search_index.json b/dev/search/search_index.json
index 62824265..db7bca45 100644
--- a/dev/search/search_index.json
+++ b/dev/search/search_index.json
@@ -1 +1 @@
-{"config":{"lang":["en"],"separator":"[\\s\\-]+","pipeline":["stopWordFilter"]},"docs":[{"location":"","title":"NPLinker","text":"<p>NPLinker is a python framework for data mining microbial natural products by integrating genomics and metabolomics data.</p> <p>For a deep understanding of NPLinker, please refer to the original paper.</p> <p>Under Development</p> <p>NPLinker v2 is under active development. The documentation is not complete yet. If you have any  questions, please contact us via GitHub Issues</p>"},{"location":"install/","title":"Installation","text":"Requirements <ul> <li>Linux, MacOS, or WSL on Windows<ul> <li>For Windows without WSL enabled, please use NPLinker docker image</li> </ul> </li> <li>Python version \u22653.9</li> </ul> <p>NPLinker is a python package that has both pypi packages and non-pypi packages as dependencies. Install <code>nplinker</code> package as following:</p> Install nplinker package<pre><code># Check python version (\u22653.9)\npython --version\n\n# Create a new virtual environment\npython -m venv env          # (1)!\nsource env/bin/activate\n\n# install nplinker package\npip install nplinker==2.0.0a1\n\n# install nplinker non-pypi dependencies and databases\ninstall-nplinker-deps\n</code></pre> <ol> <li>A virtual environment is required to install the the non-pypi dependencies. You can also use <code>conda</code> to create a new environment. But NPLinker is not available on conda yet.</li> </ol>"},{"location":"install/#install-from-source-code","title":"Install from source code","text":"<p>You can also install NPLinker from source code:</p> Install from latest source code<pre><code>pip install git+https://github.com/nplinker/nplinker@dev  # (1)!\ninstall-nplinker-deps\n</code></pre> <ol> <li>The <code>@dev</code> is the branch name. You can replace it with the branch name, commit or tag.</li> </ol>"},{"location":"quickstart/","title":"Quickstart","text":"<p>NPLinker allows you to run in two modes:</p> <code>local</code> mode<code>podp</code> mode <p>The <code>local</code> mode assumes that the data required by NPLinker is available on your local machine.</p> <p>The required input data includes:</p> <ul> <li>GNPS molecular networking data from one of the following GNPS workflows<ul> <li><code>METABOLOMICS-SNETS</code>,</li> <li><code>METABOLOMICS-SNETS-V2</code></li> <li><code>FEATURE-BASED-MOLECULAR-NETWORKING</code></li> </ul> </li> <li>AntiSMASH BGC data</li> <li>BigScape data (optional)</li> </ul> <p>The <code>podp</code> mode assumes that you use an identifier of Paired Omics Data Platform (PODP) as the input for NPLinker. Then NPLinker will download and prepare all data necessary based on the PODP id which refers to the metadata of the dataset.</p> <p>So, which mode will you use? The answer is important for the next steps.</p>"},{"location":"quickstart/#1-create-a-working-directory","title":"1. Create a working directory","text":"<p>The working directory is used to store all input and output data for NPLinker. You can name this directory as you like, for example <code>nplinker_quickstart</code>:</p> Create a working directory<pre><code>mkdir nplinker_quickstart\n</code></pre> <p>Important</p> <p>Before going to the next step, make sure you get familiar with how NPLinker organizes data in the working directory, see Working Directory Structure page.</p>"},{"location":"quickstart/#2-prepare-input-data-local-mode-only","title":"2. Prepare input data (<code>local</code> mode only)","text":"Details <p>Skip this step if you choose to use the <code>podp</code> mode.</p> <p>If you choose to use the <code>local</code> mode, meaning you have input data of NPLinker stored on your local machine, you need to move the input data to the working directory created in the previous step.</p>"},{"location":"quickstart/#gnps-data","title":"GNPS data","text":"<p>NPLinker accepts data from the output of the following GNPS workflows:</p> <ul> <li><code>METABOLOMICS-SNETS</code></li> <li><code>METABOLOMICS-SNETS-V2</code></li> <li><code>FEATURE-BASED-MOLECULAR-NETWORKING</code>.</li> </ul> <p>NPLinker provides the tools <code>GNPSDownloader</code> and <code>GNPSExtractor</code> to download and extract the GNPS data with ease. What you need to give is a valid GNPS task ID, referring to a task of the GNPS workflows supported by NPLinker.</p> GNPS task id and workflow <p>Given an example of GNPS task at https://gnps.ucsd.edu/ProteoSAFe/status.jsp?task=c22f44b14a3d450eb836d607cb9521bb, the task id is the last part of this url, i.e. <code>c22f44b14a3d450eb836d607cb9521bb</code>. Open this link, you can find the worklow info at the row \"Workflow\" of the table \"Job Status\", for this case, it is <code>METABOLOMICS-SNETS</code>.</p> Download &amp; Extract GNPS data<pre><code>from nplinker.metabolomics.gnps import GNPSDownloader, GNPSExtractor\n\n# Go to the working directory\ncd nplinker_quickstart\n\n# Download GNPS data &amp; get the path to the downloaded archive\ndownloader = GNPSDownloader(\"gnps_task_id\", \"downloads\") # (1)!\ndownloaded_archive = downloader.download().get_download_file()\n\n# Extract GNPS data to `gnps` directory\nextractor = GNPSExtractor(downloaded_archive, \"gnps\") # (2)!\n</code></pre> <ol> <li>If you already have the downloaded archive of GNPS data, you can skip the download steps.</li> <li>Replace <code>downloaded_archive</code> with the actuall path to your GNPS data archive if you skipped the download steps.</li> </ol> <p>The required data for NPLinker will be extracted to the <code>gnps</code> subdirectory of the working directory.</p> <p>Info</p> <p>Not all GNPS data are required by NPLinker, and only the necessary data will be extracted. During the extraction, these data will be renamed to the standard names used by NPLinker. See the page GNPS Data for more information.</p> Prepare GNPS data manually <p>If you have GNPS data but it is not the archive format as downloaded from GNPS, it's recommended to re-download the data from GNPS.</p> <p>If (re-)downloading is not possible, you could manually prepare data for the <code>gnps</code> directory. In this case, you must make sure that the data is organized as expected by NPLinker. See the page GNPS Data for examples of how to prepare the data.</p>"},{"location":"quickstart/#antismash-data","title":"AntiSMASH data","text":"<p>NPLinker requires AntiSMASH BGC data as input, which are organized in the <code>antismash</code> subdirectory of  the working directory.</p> <p>For each output of AntiSMASH run, the BGC data must be stored in a subdirectory named after the NCBI accession number (e.g. <code>GCF_000514975.1</code>). And only the <code>*.region*.gbk</code> files are required by NPLinker.</p> <p>When manually preparing AntiSMASH data for NPLinker, you must make sure that the data is organized as expected by NPLinker. See the page Working Directory Structure for more information.</p>"},{"location":"quickstart/#bigscape-data-optional","title":"BigScape data (optional)","text":"<p>It is optional to provide the output of BigScape to NPLinker. If the output of BigScape is not provided, NPLinker will run BigScape automatically to generate the data using the AntiSMASH BGC data.</p> <p>If you have the output of BigScape, you can put its <code>mix_clustering_c{cutoff}.tsv</code> file in the <code>bigscape</code> subdirectory of the NPLinker working directory, where <code>{cutoff}</code> is the cutoff value used in the BigScape run.</p>"},{"location":"quickstart/#strain-mappings-file","title":"Strain mappings file","text":"<p>The strain mappings file <code>strain_mapping.json</code> is required by NPLinker to map the strain to genomics and metabolomics data. </p> `strain_mappings.json` example<pre><code>{\n    \"strain_mappings\": [\n        {\n            \"strain_id\": \"strain_id_1\", # (1)!\n            \"strain_alias\": [\"bgc_id_1\", \"spectrum_id_1\", ...] # (2)!\n        },\n        {\n            \"strain_id\": \"strain_id_2\",\n            \"strain_alias\": [\"bgc_id_2\", \"spectrum_id_2\", ...]\n        },\n        ...\n    ],\n    \"version\": \"1.0\" # (3)!\n}\n</code></pre> <ol> <li><code>strain_id</code> is the unique identifier of the strain.</li> <li><code>strain_alias</code> is a list of aliases of the strain, which are the identifiers of the BGCs and spectra of the strain.</li> <li><code>version</code> is the schema version of this file. It is recommended to use the latest version of the schema. The current latest version is <code>1.0</code>. </li> </ol> <p>The BGC id is same as the name of the BGC file in the <code>antismash</code> directory, for example, given a  BGC file <code>xxxx.region001.gbk</code>, the BGC id is <code>xxxx.region001</code>.</p> <p>The spectrum id is same as the scan number in the <code>spectra.mgf</code> file in the <code>gnps</code> directory,  for example, given a spectrum in the mgf file with a scan <code>SCANS=1</code>, the spectrum id is <code>1</code>. </p> <p>If you labelled the mzXML files (input for GNPS) with the strain id, you may need the function  extract_mappings_ms_filename_spectrum_id  to extract the mappings from mzXML files to the spectrum ids.</p> <p>For the <code>local</code> mode, you need to create this file manually and put it in the working directory. It takes some effort to prepare this file manually, especially when you have a large number of strains.</p>"},{"location":"quickstart/#3-prepare-config-file","title":"3. Prepare config file","text":"<p>The configuration file <code>nplinker.toml</code> is required by NPLinker to specify the working directory, mode, and other settings for the run of NPLinker. </p> <p>Once prepared, the <code>nplinker.toml</code> file must be put in the working directory created in step 2.</p> <p>The details of all settings can be found at this page Config File.</p> <p>To keep it simple, default settings will be used  automatically by NPLinker if you don't set them in your <code>nplinker.toml</code> config file.</p> <p>What you need to do is to set the <code>root_dir</code> and <code>mode</code> in the <code>nplinker.toml</code> file.</p> <code>local</code> mode<code>podp</code> mode nplinker.toml<pre><code>root_dir = \"absolute/path/to/working/directory\" # (1)!\nmode = \"local\"\n# and other settings you want to override the default settings \n</code></pre> <ol> <li>Replace <code>absolute/path/to/working/directory</code> with the absolute path to the working directory    created in step 2.</li> </ol> nplinker.toml<pre><code>root_dir = \"absolute/path/to/working/directory\" # (1)!\nmode = \"podp\"\npodp_id = \"podp_id\" # (2)!\n# and other settings you want to override the default settings \n</code></pre> <ol> <li>Replace <code>absolute/path/to/working/directory</code> with the absolute path to the working directory    created in step 2.</li> <li>Replace <code>podp_id</code> with the identifier of the dataset in the Paired Omics Data Platform (PODP).</li> </ol>"},{"location":"quickstart/#4-run-nplinker","title":"4. Run NPLinker","text":"<p>Before running NPLinker, make sure your working directory containing input data and config file has the correct directory structure and names described in the Working Directory Structure page.</p> <p>You need to run NPlinker in the working directory where the <code>nplinker.toml</code> file is located, and NPLinker will automatically load the config file and run in the mode specified in the config file. If NPLinker cannot find the <code>nplinker.toml</code> file, you will get an error message.</p> Run NPLinker in your working directory<pre><code>from nplinker.nplinker import NPLinker\n\n# create an instance of NPLinker\nnpl = NPLinker()\n\n# load data\nnpl.load_data()\n\n# check loaded data\nprint(npl.bgcs)\nprint(npl.gcfs)\nprint(npl.spectra)\nprint(npl.molfams)\nprint(npl.strains)\n\n# get the links generated by metcalf scoring\nnpl.get_links(input_objects=npl.gcfs, scoring_method=\"metcalf\")\n</code></pre> <p>For more info about the classes and methods, see the API Documentation.</p>"},{"location":"api/antismash/","title":"AntiSMASH","text":""},{"location":"api/antismash/#nplinker.genomics.antismash","title":"antismash","text":""},{"location":"api/antismash/#nplinker.genomics.antismash.AntismashBGCLoader","title":"AntismashBGCLoader","text":"<pre><code>AntismashBGCLoader(data_dir: str)\n</code></pre> <p>Build a loader for AntiSMASH BGC genbank (.gbk) files.</p> Note <p>AntiSMASH BGC directory must follow the structure below: <pre><code>antismash\n    \u251c\u2500\u2500 genome_id_1 (one AntiSMASH output, e.g. GCF_000514775.1)\n    \u2502\u00a0 \u251c\u2500\u2500 GCF_000514775.1.gbk\n    \u2502\u00a0 \u251c\u2500\u2500 NZ_AZWO01000004.region001.gbk\n    \u2502\u00a0 \u2514\u2500\u2500 ...\n    \u251c\u2500\u2500 genome_id_2\n    \u2502\u00a0 \u251c\u2500\u2500 ...\n    \u2514\u2500\u2500 ...\n</code></pre></p> <p>Parameters:</p> Name Type Description Default <code>data_dir</code> <code>str</code> <p>Path to AntiSMASH directory that contains a collection of AntiSMASH outputs.</p> required Source code in <code>src/nplinker/genomics/antismash/antismash_loader.py</code> <pre><code>def __init__(self, data_dir: str) -&gt; None:\n    \"\"\"Build a loader for AntiSMASH BGC genbank (.gbk) files.\n\n    Note:\n        AntiSMASH BGC directory must follow the structure below:\n        ```\n        antismash\n            \u251c\u2500\u2500 genome_id_1 (one AntiSMASH output, e.g. GCF_000514775.1)\n            \u2502\u00a0 \u251c\u2500\u2500 GCF_000514775.1.gbk\n            \u2502\u00a0 \u251c\u2500\u2500 NZ_AZWO01000004.region001.gbk\n            \u2502\u00a0 \u2514\u2500\u2500 ...\n            \u251c\u2500\u2500 genome_id_2\n            \u2502\u00a0 \u251c\u2500\u2500 ...\n            \u2514\u2500\u2500 ...\n        ```\n\n    Args:\n        data_dir: Path to AntiSMASH directory that contains a\n            collection of AntiSMASH outputs.\n    \"\"\"\n    self.data_dir = data_dir\n    self._file_dict = self._parse_data_dir(self.data_dir)\n    self._bgcs = self._parse_bgcs(self._file_dict)\n</code></pre>"},{"location":"api/antismash/#nplinker.genomics.antismash.AntismashBGCLoader.get_bgc_genome_mapping","title":"get_bgc_genome_mapping","text":"<pre><code>get_bgc_genome_mapping() -&gt; dict[str, str]\n</code></pre> <p>Get the mapping from BGC to genome.</p> <p>Note that the directory name of the gbk file is treated as genome id.</p> <p>Returns:</p> Type Description <code>dict[str, str]</code> <p>The key is BGC name (gbk file name) and value is genome id (the directory name of the</p> <code>dict[str, str]</code> <p>gbk file).</p> Source code in <code>src/nplinker/genomics/antismash/antismash_loader.py</code> <pre><code>def get_bgc_genome_mapping(self) -&gt; dict[str, str]:\n    \"\"\"Get the mapping from BGC to genome.\n\n    Note that the directory name of the gbk file is treated as genome id.\n\n    Returns:\n        The key is BGC name (gbk file name) and value is genome id (the directory name of the\n        gbk file).\n    \"\"\"\n    return {\n        bid: os.path.basename(os.path.dirname(bpath)) for bid, bpath in self._file_dict.items()\n    }\n</code></pre>"},{"location":"api/antismash/#nplinker.genomics.antismash.AntismashBGCLoader.get_files","title":"get_files","text":"<pre><code>get_files() -&gt; dict[str, str]\n</code></pre> <p>Get BGC gbk files.</p> <p>Returns:</p> Type Description <code>dict[str, str]</code> <p>The key is BGC name (gbk file name) and value is path to the gbk file.</p> Source code in <code>src/nplinker/genomics/antismash/antismash_loader.py</code> <pre><code>def get_files(self) -&gt; dict[str, str]:\n    \"\"\"Get BGC gbk files.\n\n    Returns:\n        The key is BGC name (gbk file name) and value is path to the gbk file.\n    \"\"\"\n    return self._file_dict\n</code></pre>"},{"location":"api/antismash/#nplinker.genomics.antismash.AntismashBGCLoader.get_bgcs","title":"get_bgcs","text":"<pre><code>get_bgcs() -&gt; list[BGC]\n</code></pre> <p>Get all BGC objects.</p> <p>Returns:</p> Type Description <code>list[BGC]</code> <p>A list of BGC objects</p> Source code in <code>src/nplinker/genomics/antismash/antismash_loader.py</code> <pre><code>def get_bgcs(self) -&gt; list[BGC]:\n    \"\"\"Get all BGC objects.\n\n    Returns:\n        A list of BGC objects\n    \"\"\"\n    return self._bgcs\n</code></pre>"},{"location":"api/antismash/#nplinker.genomics.antismash.GenomeStatus","title":"GenomeStatus","text":"<pre><code>GenomeStatus(original_id: str, resolved_refseq_id: str = '', resolve_attempted: bool = False, bgc_path: str = '')\n</code></pre> <p>A class to represent the status of a single genome.</p> <p>The status of genomes is tracked in a JSON file which has a name defined in variable <code>GENOME_STATUS_FILENAME</code>.</p> <p>Initialize a GenomeStatus object for the given genome.</p> <p>Parameters:</p> Name Type Description Default <code>original_id</code> <code>str</code> <p>The original ID of the genome.</p> required <code>resolved_refseq_id</code> <code>str</code> <p>The resolved RefSeq ID of the genome. Defaults to \"\".</p> <code>''</code> <code>resolve_attempted</code> <code>bool</code> <p>A flag indicating whether an attempt to resolve the RefSeq ID has been made. Defaults to False.</p> <code>False</code> <code>bgc_path</code> <code>str</code> <p>The path to the downloaded BGC file for the genome. Defaults to \"\".</p> <code>''</code> Source code in <code>src/nplinker/genomics/antismash/podp_antismash_downloader.py</code> <pre><code>def __init__(\n    self,\n    original_id: str,\n    resolved_refseq_id: str = \"\",\n    resolve_attempted: bool = False,\n    bgc_path: str = \"\",\n):\n    \"\"\"Initialize a GenomeStatus object for the given genome.\n\n    Args:\n        original_id: The original ID of the genome.\n        resolved_refseq_id: The resolved RefSeq ID of the\n            genome. Defaults to \"\".\n        resolve_attempted: A flag indicating whether an\n            attempt to resolve the RefSeq ID has been made. Defaults to False.\n        bgc_path: The path to the downloaded BGC file for\n            the genome. Defaults to \"\".\n    \"\"\"\n    self.original_id = original_id\n    self.resolved_refseq_id = \"\" if resolved_refseq_id == \"None\" else resolved_refseq_id\n    self.resolve_attempted = resolve_attempted\n    self.bgc_path = bgc_path\n</code></pre>"},{"location":"api/antismash/#nplinker.genomics.antismash.GenomeStatus.read_json","title":"read_json  <code>staticmethod</code>","text":"<pre><code>read_json(file: str | PathLike) -&gt; dict[str, 'GenomeStatus']\n</code></pre> <p>Get a dict of GenomeStatus objects by loading given genome status file.</p> <p>Note that an empty dict is returned if the given file doesn't exist.</p> <p>Parameters:</p> Name Type Description Default <code>file</code> <code>str | PathLike</code> <p>Path to genome status file.</p> required <p>Returns:</p> Type Description <code>dict[str, 'GenomeStatus']</code> <p>Dict keys are genome original id and values are GenomeStatus objects. An empty dict is returned if the given file doesn't exist.</p> Source code in <code>src/nplinker/genomics/antismash/podp_antismash_downloader.py</code> <pre><code>@staticmethod\ndef read_json(file: str | PathLike) -&gt; dict[str, \"GenomeStatus\"]:\n    \"\"\"Get a dict of GenomeStatus objects by loading given genome status file.\n\n    Note that an empty dict is returned if the given file doesn't exist.\n\n    Args:\n        file: Path to genome status file.\n\n    Returns:\n        Dict keys are genome original id and values are GenomeStatus\n            objects. An empty dict is returned if the given file doesn't exist.\n    \"\"\"\n    genome_status_dict = {}\n    if Path(file).exists():\n        with open(file, \"r\") as f:\n            data = json.load(f)\n\n        # validate json data before using it\n        validate(data, schema=GENOME_STATUS_SCHEMA)\n\n        genome_status_dict = {\n            gs[\"original_id\"]: GenomeStatus(**gs) for gs in data[\"genome_status\"]\n        }\n    return genome_status_dict\n</code></pre>"},{"location":"api/antismash/#nplinker.genomics.antismash.GenomeStatus.to_json","title":"to_json  <code>staticmethod</code>","text":"<pre><code>to_json(genome_status_dict: dict[str, 'GenomeStatus'], file: str | PathLike | None = None) -&gt; str | None\n</code></pre> <p>Convert the genome status dictionary to a JSON string.</p> <p>If a file path is provided, the JSON string is written to the file. If the file already exists, it is overwritten.</p> <p>Parameters:</p> Name Type Description Default <code>genome_status_dict</code> <code>dict[str, 'GenomeStatus']</code> <p>A dictionary of genome status objects. The keys are the original genome IDs and the values are GenomeStatus objects.</p> required <code>file</code> <code>str | PathLike | None</code> <p>The path to the output JSON file. If None, the JSON string is returned but not written to a file.</p> <code>None</code> <p>Returns:</p> Type Description <code>str | None</code> <p>The JSON string if <code>file</code> is None, otherwise None.</p> Source code in <code>src/nplinker/genomics/antismash/podp_antismash_downloader.py</code> <pre><code>@staticmethod\ndef to_json(\n    genome_status_dict: dict[str, \"GenomeStatus\"], file: str | PathLike | None = None\n) -&gt; str | None:\n    \"\"\"Convert the genome status dictionary to a JSON string.\n\n    If a file path is provided, the JSON string is written to the file. If\n    the file already exists, it is overwritten.\n\n    Args:\n        genome_status_dict: A dictionary of genome\n            status objects. The keys are the original genome IDs and the values\n            are GenomeStatus objects.\n        file: The path to the output JSON file.\n            If None, the JSON string is returned but not written to a file.\n\n    Returns:\n        The JSON string if `file` is None, otherwise None.\n    \"\"\"\n    gs_list = [gs._to_dict() for gs in genome_status_dict.values()]\n    json_data = {\"genome_status\": gs_list, \"version\": \"1.0\"}\n\n    # validate json object before dumping\n    validate(json_data, schema=GENOME_STATUS_SCHEMA)\n\n    if file is not None:\n        with open(file, \"w\") as f:\n            json.dump(json_data, f)\n        return None\n    return json.dumps(json_data)\n</code></pre>"},{"location":"api/antismash/#nplinker.genomics.antismash.download_and_extract_antismash_data","title":"download_and_extract_antismash_data","text":"<pre><code>download_and_extract_antismash_data(antismash_id: str, download_root: str | PathLike, extract_root: str | PathLike) -&gt; None\n</code></pre> <p>Download and extract antiSMASH BGC archive for a specified genome.</p> <p>The antiSMASH database (https://antismash-db.secondarymetabolites.org/) is used to download the BGC archive. And antiSMASH use RefSeq assembly id of a genome as the id of the archive.</p> <p>Parameters:</p> Name Type Description Default <code>antismash_id</code> <code>str</code> <p>The id used to download BGC archive from antiSMASH database. If the id is versioned (e.g., \"GCF_004339725.1\") please be sure to specify the version as well.</p> required <code>download_root</code> <code>str | PathLike</code> <p>Path to the directory to place downloaded archive in.</p> required <code>extract_root</code> <code>str | PathLike</code> <p>Path to the directory data files will be extracted to. Note that an <code>antismash</code> directory will be created in the specified <code>extract_root</code> if it doesn't exist. The files will be extracted to <code>&lt;extract_root&gt;/antismash/&lt;antismash_id&gt;</code> directory.</p> required <p>Raises:</p> Type Description <code>ValueError</code> <p>if download_root and extract_root dirs are the same.</p> <code>ValueError</code> <p>if /antismash/ dir is not empty. <p>Examples:</p> <pre><code>&gt;&gt;&gt; download_and_extract_antismash_metadata(\"GCF_004339725.1\", \"/data/download\", \"/data/extracted\")\n</code></pre> Source code in <code>src/nplinker/genomics/antismash/antismash_downloader.py</code> <pre><code>def download_and_extract_antismash_data(\n    antismash_id: str, download_root: str | PathLike, extract_root: str | PathLike\n) -&gt; None:\n    \"\"\"Download and extract antiSMASH BGC archive for a specified genome.\n\n    The antiSMASH database (https://antismash-db.secondarymetabolites.org/)\n    is used to download the BGC archive. And antiSMASH use RefSeq assembly id\n    of a genome as the id of the archive.\n\n    Args:\n        antismash_id: The id used to download BGC archive from antiSMASH database.\n            If the id is versioned (e.g., \"GCF_004339725.1\") please be sure to\n            specify the version as well.\n        download_root: Path to the directory to place downloaded archive in.\n        extract_root: Path to the directory data files will be extracted to.\n            Note that an `antismash` directory will be created in the specified `extract_root` if\n            it doesn't exist. The files will be extracted to `&lt;extract_root&gt;/antismash/&lt;antismash_id&gt;` directory.\n\n    Raises:\n        ValueError: if download_root and extract_root dirs are the same.\n        ValueError: if &lt;extract_root&gt;/antismash/&lt;refseq_assembly_id&gt; dir is not empty.\n\n    Examples:\n        &gt;&gt;&gt; download_and_extract_antismash_metadata(\"GCF_004339725.1\", \"/data/download\", \"/data/extracted\")\n    \"\"\"\n    download_root = Path(download_root)\n    extract_root = Path(extract_root)\n    extract_path = extract_root / \"antismash\" / antismash_id\n    _check_roots(download_root, extract_root)\n\n    try:\n        if extract_path.exists():\n            _check_extract_path(extract_path)\n        else:\n            extract_path.mkdir(parents=True, exist_ok=True)\n\n        for base_url in [ANTISMASH_DB_DOWNLOAD_URL, ANTISMASH_DBV2_DOWNLOAD_URL]:\n            url = base_url.format(antismash_id, antismash_id + \".zip\")\n            download_and_extract_archive(url, download_root, extract_path, antismash_id + \".zip\")\n            break\n\n        # delete subdirs\n        for subdir_path in list_dirs(extract_path):\n            shutil.rmtree(subdir_path)\n\n        # delete unnecessary files\n        files_to_keep = list_files(extract_path, suffix=(\".json\", \".gbk\"))\n        for file in list_files(extract_path):\n            if file not in files_to_keep:\n                os.remove(file)\n\n        logger.info(\"antiSMASH BGC data of %s is downloaded and extracted.\", antismash_id)\n\n    except Exception as e:\n        shutil.rmtree(extract_path)\n        logger.warning(e)\n        raise e\n</code></pre>"},{"location":"api/antismash/#nplinker.genomics.antismash.parse_bgc_genbank","title":"parse_bgc_genbank","text":"<pre><code>parse_bgc_genbank(file: str) -&gt; BGC\n</code></pre> <p>Parse a single BGC gbk file to BGC object.</p> <p>Parameters:</p> Name Type Description Default <code>file</code> <code>str</code> <p>Path to BGC gbk file</p> required <p>Returns:</p> Type Description <code>BGC</code> <p>BGC object</p> <p>Examples:</p> <pre><code>&gt;&gt;&gt; bgc = AntismashBGCLoader.parse_bgc(\n...    \"/data/antismash/GCF_000016425.1/NC_009380.1.region001.gbk\")\n</code></pre> Source code in <code>src/nplinker/genomics/antismash/antismash_loader.py</code> <pre><code>def parse_bgc_genbank(file: str) -&gt; BGC:\n    \"\"\"Parse a single BGC gbk file to BGC object.\n\n    Args:\n        file: Path to BGC gbk file\n\n    Returns:\n        BGC object\n\n    Examples:\n        &gt;&gt;&gt; bgc = AntismashBGCLoader.parse_bgc(\n        ...    \"/data/antismash/GCF_000016425.1/NC_009380.1.region001.gbk\")\n    \"\"\"\n    fname = os.path.splitext(os.path.basename(file))[0]\n\n    record = SeqIO.read(file, format=\"genbank\")\n    description = record.description  # \"DEFINITION\" in gbk file\n    antismash_id = record.id  # \"VERSION\" in gbk file\n    features = _parse_antismash_genbank(record)\n    product_prediction = features.get(\"product\")\n    if product_prediction is None:\n        raise ValueError(f\"Not found product prediction in antiSMASH Genbank file {file}\")\n\n    # init BGC\n    bgc = BGC(fname, *product_prediction)\n    bgc.description = description\n    bgc.antismash_id = antismash_id\n    bgc.antismash_file = file\n    bgc.antismash_region = features.get(\"region_number\")\n    bgc.smiles = features.get(\"smiles\")\n    bgc.strain = Strain(fname)\n    return bgc\n</code></pre>"},{"location":"api/antismash/#nplinker.genomics.antismash.get_best_available_genome_id","title":"get_best_available_genome_id","text":"<pre><code>get_best_available_genome_id(genome_id_data: dict[str, str]) -&gt; str | None\n</code></pre> <p>Get the best available ID from genome_id_data dict.</p> <p>Parameters:</p> Name Type Description Default <code>genome_id_data</code> <code>dict[str, str]</code> <p>dictionary containing information for each genome record present.</p> required <p>Returns:</p> Type Description <code>str | None</code> <p>ID for the genome, if present, otherwise None.</p> Source code in <code>src/nplinker/genomics/antismash/podp_antismash_downloader.py</code> <pre><code>def get_best_available_genome_id(genome_id_data: dict[str, str]) -&gt; str | None:\n    \"\"\"Get the best available ID from genome_id_data dict.\n\n    Args:\n        genome_id_data: dictionary containing information for each genome record present.\n\n    Returns:\n        ID for the genome, if present, otherwise None.\n    \"\"\"\n    if \"RefSeq_accession\" in genome_id_data:\n        best_id = genome_id_data[\"RefSeq_accession\"]\n    elif \"GenBank_accession\" in genome_id_data:\n        best_id = genome_id_data[\"GenBank_accession\"]\n    elif \"JGI_Genome_ID\" in genome_id_data:\n        best_id = genome_id_data[\"JGI_Genome_ID\"]\n    else:\n        best_id = None\n\n    if best_id is None or len(best_id) == 0:\n        logger.warning(f\"Failed to get valid genome ID in genome data: {genome_id_data}\")\n        return None\n    return best_id\n</code></pre>"},{"location":"api/antismash/#nplinker.genomics.antismash.podp_download_and_extract_antismash_data","title":"podp_download_and_extract_antismash_data","text":"<pre><code>podp_download_and_extract_antismash_data(genome_records: list[dict[str, dict[str, str]]], project_download_root: str | PathLike, project_extract_root: str | PathLike)\n</code></pre> <p>Download and extract antiSMASH BGC archive for the given genome records.</p> <p>Parameters:</p> Name Type Description Default <code>genome_records</code> <code>list[dict[str, dict[str, str]]]</code> <p>list of dicts representing genome records. The dict of each genome record contains     - key(str): \"genome_ID\"     - value(dict[str, str]): a dict containing information about genome     type, label and accession ids (RefSeq, GenBank, and/or JGI).</p> required <code>project_download_root</code> <code>str | PathLike</code> <p>Path to the directory to place downloaded archive in.</p> required <code>project_extract_root</code> <code>str | PathLike</code> <p>Path to the directory downloaded archive will be extracted to. Note that an <code>antismash</code> directory will be created in the specified <code>extract_root</code> if it doesn't exist. The files will be extracted to <code>&lt;extract_root&gt;/antismash/&lt;antismash_id&gt;</code> directory.</p> required Source code in <code>src/nplinker/genomics/antismash/podp_antismash_downloader.py</code> <pre><code>def podp_download_and_extract_antismash_data(\n    genome_records: list[dict[str, dict[str, str]]],\n    project_download_root: str | PathLike,\n    project_extract_root: str | PathLike,\n):\n    \"\"\"Download and extract antiSMASH BGC archive for the given genome records.\n\n    Args:\n        genome_records: list of dicts\n            representing genome records. The dict of each genome record contains\n                - key(str): \"genome_ID\"\n                - value(dict[str, str]): a dict containing information about genome\n                type, label and accession ids (RefSeq, GenBank, and/or JGI).\n        project_download_root: Path to the directory to place\n            downloaded archive in.\n        project_extract_root: Path to the directory downloaded archive\n            will be extracted to.\n            Note that an `antismash` directory will be created in the specified\n            `extract_root` if it doesn't exist. The files will be extracted to\n            `&lt;extract_root&gt;/antismash/&lt;antismash_id&gt;` directory.\n    \"\"\"\n    if not Path(project_download_root).exists():\n        # otherwise in case of failed first download, the folder doesn't exist and\n        # genome_status_file can't be written\n        Path(project_download_root).mkdir(parents=True, exist_ok=True)\n\n    gs_file = Path(project_download_root, GENOME_STATUS_FILENAME)\n    gs_dict = GenomeStatus.read_json(gs_file)\n\n    for i, genome_record in enumerate(genome_records):\n        # get the best available ID from the dict\n        genome_id_data = genome_record[\"genome_ID\"]\n        raw_genome_id = get_best_available_genome_id(genome_id_data)\n        if raw_genome_id is None or len(raw_genome_id) == 0:\n            logger.warning(\n                f'Ignoring genome record \"{genome_record}\" due to missing genome ID field'\n            )\n            continue\n\n        # check if genome ID exist in the genome status file\n        if raw_genome_id not in gs_dict:\n            gs_dict[raw_genome_id] = GenomeStatus(raw_genome_id)\n\n        gs_obj = gs_dict[raw_genome_id]\n\n        logger.info(\n            f\"Checking for antismash data {i + 1}/{len(genome_records)}, \"\n            f\"current genome ID={raw_genome_id}\"\n        )\n        # first, check if BGC data is downloaded\n        if gs_obj.bgc_path and Path(gs_obj.bgc_path).exists():\n            logger.info(f\"Genome ID {raw_genome_id} already downloaded to {gs_obj.bgc_path}\")\n            continue\n        # second, check if lookup attempted previously\n        if gs_obj.resolve_attempted:\n            logger.info(f\"Genome ID {raw_genome_id} skipped due to previous failure\")\n            continue\n\n        # if not downloaded or lookup attempted, then try to resolve the ID\n        # and download\n        logger.info(f\"Beginning lookup process for genome ID {raw_genome_id}\")\n        gs_obj.resolved_refseq_id = _resolve_refseq_id(genome_id_data)\n        gs_obj.resolve_attempted = True\n\n        if gs_obj.resolved_refseq_id == \"\":\n            # give up on this one\n            logger.warning(f\"Failed lookup for genome ID {raw_genome_id}\")\n            continue\n\n        # if resolved id is valid, try to download and extract antismash data\n        try:\n            download_and_extract_antismash_data(\n                gs_obj.resolved_refseq_id, project_download_root, project_extract_root\n            )\n\n            gs_obj.bgc_path = str(\n                Path(project_download_root, gs_obj.resolved_refseq_id + \".zip\").absolute()\n            )\n\n            output_path = Path(project_extract_root, \"antismash\", gs_obj.resolved_refseq_id)\n            if output_path.exists():\n                Path.touch(output_path / \"completed\", exist_ok=True)\n\n        except Exception:\n            gs_obj.bgc_path = \"\"\n\n    missing = len([gs for gs in gs_dict.values() if not gs.bgc_path])\n    logger.info(\n        f\"Dataset has {missing} missing sets of antiSMASH data \"\n        f\" (from a total of {len(genome_records)}).\"\n    )\n\n    # save updated genome status to json file\n    GenomeStatus.to_json(gs_dict, gs_file)\n\n    if missing == len(genome_records):\n        raise ValueError(\"No antiSMASH data found for any genome\")\n</code></pre>"},{"location":"api/arranger/","title":"Dataset Arranger","text":""},{"location":"api/arranger/#nplinker.arranger","title":"arranger","text":""},{"location":"api/arranger/#nplinker.arranger.DatasetArranger","title":"DatasetArranger","text":"<pre><code>DatasetArranger()\n</code></pre> <p>Arrange the dataset required by NPLinker.</p> <p>This class is used to arrange the datasets required by NPLinker according to the configuration. The datasets include MIBiG, GNPS, antiSMASH, and BiG-SCAPE.</p> <p>If <code>config.mode</code> is \"local\", the datasets are validated. If <code>config.mode</code> is \"podp\", the datasets are downloaded or generated.</p> <p>It uses the default downloads directory <code>globals.DOWNLOADS_DEFAULT_PATH</code> to store the downloaded files. Default data paths for MIBiG, GNPS, antiSMASH, and BiG-SCAPE are defined in <code>nplinker.globals</code>.</p> Source code in <code>src/nplinker/arranger.py</code> <pre><code>def __init__(self) -&gt; None:\n    \"\"\"Arrange the dataset required by NPLinker.\n\n    This class is used to arrange the datasets required by NPLinker according to the\n    configuration. The datasets include MIBiG, GNPS, antiSMASH, and BiG-SCAPE.\n\n    If `config.mode` is \"local\", the datasets are validated.\n    If `config.mode` is \"podp\", the datasets are downloaded or generated.\n\n    It uses the default downloads directory `globals.DOWNLOADS_DEFAULT_PATH` to store the\n    downloaded files. Default data paths for MIBiG, GNPS, antiSMASH, and BiG-SCAPE are defined\n    in `nplinker.globals`.\n    \"\"\"\n    # Prepare the downloads directory and/or PODP json file which are required for other methods\n    globals.DOWNLOADS_DEFAULT_PATH.mkdir(exist_ok=True)\n    self.arrange_podp_project_json()\n</code></pre>"},{"location":"api/arranger/#nplinker.arranger.DatasetArranger.arrange","title":"arrange","text":"<pre><code>arrange() -&gt; None\n</code></pre> <p>Arrange the datasets according to the configuration.</p> <p>The datasets include MIBiG, GNPS, antiSMASH, and BiG-SCAPE.</p> Source code in <code>src/nplinker/arranger.py</code> <pre><code>def arrange(self) -&gt; None:\n    \"\"\"Arrange the datasets according to the configuration.\n\n    The datasets include MIBiG, GNPS, antiSMASH, and BiG-SCAPE.\n    \"\"\"\n    # The order of arranging the datasets matters, as some datasets depend on others\n    self.arrange_mibig()\n    self.arrange_gnps()\n    self.arrange_antismash()\n    self.arrange_bigscape()\n    self.arrange_strain_mappings()\n    self.arrange_strains_selected()\n</code></pre>"},{"location":"api/arranger/#nplinker.arranger.DatasetArranger.arrange_podp_project_json","title":"arrange_podp_project_json","text":"<pre><code>arrange_podp_project_json() -&gt; None\n</code></pre> <p>Arrange the PODP project JSON file.</p> <p>If <code>config.mode</code> is \"podp\", download the PODP project JSON file if it doesn't exist. Then validate the PODP project JSON file if it exists or is downloaded.</p> <p>The validation is controlled by the json schema <code>schemas/podp_adapted_schema.json</code>.</p> Source code in <code>src/nplinker/arranger.py</code> <pre><code>def arrange_podp_project_json(self) -&gt; None:\n    \"\"\"Arrange the PODP project JSON file.\n\n    If `config.mode` is \"podp\", download the PODP project JSON file if it doesn't exist. Then\n    validate the PODP project JSON file if it exists or is downloaded.\n\n    The validation is controlled by the json schema `schemas/podp_adapted_schema.json`.\n    \"\"\"\n    if config.mode == \"podp\":\n        file_name = f\"paired_datarecord_{config.podp_id}.json\"\n        podp_file = globals.DOWNLOADS_DEFAULT_PATH / file_name\n        if not podp_file.exists():\n            download_url(\n                PODP_PROJECT_URL.format(config.podp_id),\n                globals.DOWNLOADS_DEFAULT_PATH,\n                file_name,\n            )\n\n        with open(podp_file, \"r\") as f:\n            json_data = json.load(f)\n        validate_podp_json(json_data)\n</code></pre>"},{"location":"api/arranger/#nplinker.arranger.DatasetArranger.arrange_mibig","title":"arrange_mibig","text":"<pre><code>arrange_mibig() -&gt; None\n</code></pre> <p>Arrange the MIBiG metadata.</p> <p>Always download and extract the MIBiG metadata if <code>config.mibig.to_use</code> is True. If the default directory has already existed, it will be removed and re-downloaded to ensure the latest version is used. So it's not allowed to manually put MIBiG metadata in the default directory.</p> Source code in <code>src/nplinker/arranger.py</code> <pre><code>def arrange_mibig(self) -&gt; None:\n    \"\"\"Arrange the MIBiG metadata.\n\n    Always download and extract the MIBiG metadata if `config.mibig.to_use` is True.\n    If the default directory has already existed, it will be removed and re-downloaded to ensure\n    the latest version is used. So it's not allowed to manually put MIBiG metadata in the\n    default directory.\n    \"\"\"\n    if config.mibig.to_use:\n        if globals.MIBIG_DEFAULT_PATH.exists():\n            # remove existing mibig data\n            shutil.rmtree(globals.MIBIG_DEFAULT_PATH)\n        download_and_extract_mibig_metadata(\n            globals.DOWNLOADS_DEFAULT_PATH,\n            globals.MIBIG_DEFAULT_PATH,\n            version=config.mibig.version,\n        )\n</code></pre>"},{"location":"api/arranger/#nplinker.arranger.DatasetArranger.arrange_gnps","title":"arrange_gnps","text":"<pre><code>arrange_gnps() -&gt; None\n</code></pre> <p>Arrange the GNPS data.</p> <p>If <code>config.mode</code> is \"local\", validate the GNPS data directory. If <code>config.mode</code> is \"podp\", download the GNPS data if it doesn't exist or remove the existing GNPS data and re-download it if it is invalid.</p> <p>The validation process includes:</p> <ul> <li>Check if the GNPS data directory exists.</li> <li>Check if the required files exist in the GNPS data directory, including:<ul> <li>file_mappings.tsv or file_mappings.csv</li> <li>spectra.mgf</li> <li>molecular_families.tsv</li> <li>annotations.tsv</li> </ul> </li> </ul> Source code in <code>src/nplinker/arranger.py</code> <pre><code>def arrange_gnps(self) -&gt; None:\n    \"\"\"Arrange the GNPS data.\n\n    If `config.mode` is \"local\", validate the GNPS data directory.\n    If `config.mode` is \"podp\", download the GNPS data if it doesn't exist or remove the\n    existing GNPS data and re-download it if it is invalid.\n\n    The validation process includes:\n\n    - Check if the GNPS data directory exists.\n    - Check if the required files exist in the GNPS data directory, including:\n        - file_mappings.tsv or file_mappings.csv\n        - spectra.mgf\n        - molecular_families.tsv\n        - annotations.tsv\n    \"\"\"\n    pass_validation = False\n    if config.mode == \"podp\":\n        # retry downloading at most 3 times if downloaded data has problems\n        for _ in range(3):\n            try:\n                validate_gnps(globals.GNPS_DEFAULT_PATH)\n                pass_validation = True\n                break\n            except (FileNotFoundError, ValueError):\n                # Don't need to remove downloaded archive, as it'll be overwritten\n                shutil.rmtree(globals.GNPS_DEFAULT_PATH, ignore_errors=True)\n                self._download_and_extract_gnps()\n\n    if not pass_validation:\n        validate_gnps(globals.GNPS_DEFAULT_PATH)\n\n    # get the path to file_mappings file (csv or tsv)\n    self.gnps_file_mappings_file = self._get_gnps_file_mappings_file()\n</code></pre>"},{"location":"api/arranger/#nplinker.arranger.DatasetArranger.arrange_antismash","title":"arrange_antismash","text":"<pre><code>arrange_antismash() -&gt; None\n</code></pre> <p>Arrange the antiSMASH data.</p> <p>If <code>config.mode</code> is \"local\", validate the antiSMASH data directory. If <code>config.mode</code> is \"podp\", download the antiSMASH data if it doesn't exist or remove the existing antiSMASH data and re-download it if it is invalid.</p> <p>The validation process includes: - Check if the antiSMASH data directory exists. - Check if the antiSMASH data directory contains at least one sub-directory, and each     sub-directory contains at least one BGC file (with the suffix \".region???.gbk\" where ???     is a number).</p> <p>AntiSMASH BGC directory must follow the structure below: <pre><code>antismash\n    \u251c\u2500\u2500 genome_id_1 (one AntiSMASH output, e.g. GCF_000514775.1)\n    \u2502\u00a0 \u251c\u2500\u2500 GCF_000514775.1.gbk\n    \u2502\u00a0 \u251c\u2500\u2500 NZ_AZWO01000004.region001.gbk\n    \u2502\u00a0 \u2514\u2500\u2500 ...\n    \u251c\u2500\u2500 genome_id_2\n    \u2502\u00a0 \u251c\u2500\u2500 ...\n    \u2514\u2500\u2500 ...\n</code></pre></p> Source code in <code>src/nplinker/arranger.py</code> <pre><code>def arrange_antismash(self) -&gt; None:\n    \"\"\"Arrange the antiSMASH data.\n\n    If `config.mode` is \"local\", validate the antiSMASH data directory.\n    If `config.mode` is \"podp\", download the antiSMASH data if it doesn't exist or remove the\n    existing antiSMASH data and re-download it if it is invalid.\n\n    The validation process includes:\n    - Check if the antiSMASH data directory exists.\n    - Check if the antiSMASH data directory contains at least one sub-directory, and each\n        sub-directory contains at least one BGC file (with the suffix \".region???.gbk\" where ???\n        is a number).\n\n    AntiSMASH BGC directory must follow the structure below:\n    ```\n    antismash\n        \u251c\u2500\u2500 genome_id_1 (one AntiSMASH output, e.g. GCF_000514775.1)\n        \u2502\u00a0 \u251c\u2500\u2500 GCF_000514775.1.gbk\n        \u2502\u00a0 \u251c\u2500\u2500 NZ_AZWO01000004.region001.gbk\n        \u2502\u00a0 \u2514\u2500\u2500 ...\n        \u251c\u2500\u2500 genome_id_2\n        \u2502\u00a0 \u251c\u2500\u2500 ...\n        \u2514\u2500\u2500 ...\n    ```\n    \"\"\"\n    pass_validation = False\n    if config.mode == \"podp\":\n        for _ in range(3):\n            try:\n                validate_antismash(globals.ANTISMASH_DEFAULT_PATH)\n                pass_validation = True\n                break\n            except FileNotFoundError:\n                shutil.rmtree(globals.ANTISMASH_DEFAULT_PATH, ignore_errors=True)\n                self._download_and_extract_antismash()\n\n    if not pass_validation:\n        validate_antismash(globals.ANTISMASH_DEFAULT_PATH)\n</code></pre>"},{"location":"api/arranger/#nplinker.arranger.DatasetArranger.arrange_bigscape","title":"arrange_bigscape","text":"<pre><code>arrange_bigscape() -&gt; None\n</code></pre> <p>Arrange the BiG-SCAPE data.</p> <p>If <code>config.mode</code> is \"local\", validate the BiG-SCAPE data directory. If <code>config.mode</code> is \"podp\", run BiG-SCAPE to generate the clustering file if it doesn't exist or remove the existing BiG-SCAPE data and re-run BiG-SCAPE if it is invalid. The running output of BiG-SCAPE will be saved to the directory \"bigscape_running_output\" in the default BiG-SCAPE directory, and the clustering file \"mix_clustering_c{config.bigscape.cutoff}.tsv\" will be copied to the default BiG-SCAPE directory.</p> <p>The validation process includes:</p> <ul> <li>Check if the default BiG-SCAPE data directory exists.</li> <li>Check if the clustering file \"mix_clustering_c{config.bigscape.cutoff}.tsv\" exists in the         BiG-SCAPE data directory.</li> </ul> Source code in <code>src/nplinker/arranger.py</code> <pre><code>def arrange_bigscape(self) -&gt; None:\n    \"\"\"Arrange the BiG-SCAPE data.\n\n    If `config.mode` is \"local\", validate the BiG-SCAPE data directory.\n    If `config.mode` is \"podp\", run BiG-SCAPE to generate the clustering file if it doesn't\n    exist or remove the existing BiG-SCAPE data and re-run BiG-SCAPE if it is invalid.\n    The running output of BiG-SCAPE will be saved to the directory \"bigscape_running_output\"\n    in the default BiG-SCAPE directory, and the clustering file \"mix_clustering_c{config.bigscape.cutoff}.tsv\"\n    will be copied to the default BiG-SCAPE directory.\n\n    The validation process includes:\n\n    - Check if the default BiG-SCAPE data directory exists.\n    - Check if the clustering file \"mix_clustering_c{config.bigscape.cutoff}.tsv\" exists in the\n            BiG-SCAPE data directory.\n    \"\"\"\n    pass_validation = False\n    if config.mode == \"podp\":\n        for _ in range(3):\n            try:\n                validate_bigscape(globals.BIGSCAPE_DEFAULT_PATH)\n                pass_validation = True\n                break\n            except FileNotFoundError:\n                shutil.rmtree(globals.BIGSCAPE_DEFAULT_PATH, ignore_errors=True)\n                self._run_bigscape()\n\n    if not pass_validation:\n        validate_bigscape(globals.BIGSCAPE_DEFAULT_PATH)\n</code></pre>"},{"location":"api/arranger/#nplinker.arranger.DatasetArranger.arrange_strain_mappings","title":"arrange_strain_mappings","text":"<pre><code>arrange_strain_mappings() -&gt; None\n</code></pre> <p>Arrange the strain mappings file.</p> <p>If <code>config.mode</code> is \"local\", validate the strain mappings file. If <code>config.mode</code> is \"podp\", always generate the strain mappings file and validate it.</p> <p>The valiation checks if the strain mappings file exists and if it is a valid JSON file according to the schema defined in <code>schemas/strain_mappings_schema.json</code>.</p> Source code in <code>src/nplinker/arranger.py</code> <pre><code>def arrange_strain_mappings(self) -&gt; None:\n    \"\"\"Arrange the strain mappings file.\n\n    If `config.mode` is \"local\", validate the strain mappings file.\n    If `config.mode` is \"podp\", always generate the strain mappings file and validate it.\n\n    The valiation checks if the strain mappings file exists and if it is a valid JSON file\n    according to the schema defined in `schemas/strain_mappings_schema.json`.\n    \"\"\"\n    if config.mode == \"podp\":\n        self._generate_strain_mappings()\n\n    self._validate_strain_mappings()\n</code></pre>"},{"location":"api/arranger/#nplinker.arranger.DatasetArranger.arrange_strains_selected","title":"arrange_strains_selected","text":"<pre><code>arrange_strains_selected() -&gt; None\n</code></pre> <p>Arrange the strains selected file.</p> <p>Validate the strains selected file if it exists. The validation checks if the strains selected file is a valid JSON file according to the schema defined in <code>schemas/user_strains.json</code>.</p> Source code in <code>src/nplinker/arranger.py</code> <pre><code>def arrange_strains_selected(self) -&gt; None:\n    \"\"\"Arrange the strains selected file.\n\n    Validate the strains selected file if it exists.\n    The validation checks if the strains selected file is a valid JSON file according to the\n    schema defined in `schemas/user_strains.json`.\n    \"\"\"\n    strains_selected_file = config.root_dir / globals.STRAINS_SELECTED_FILENAME\n    if strains_selected_file.exists():\n        with open(strains_selected_file, \"r\") as f:\n            json_data = json.load(f)\n        validate(instance=json_data, schema=USER_STRAINS_SCHEMA)\n</code></pre>"},{"location":"api/arranger/#nplinker.arranger.validate_gnps","title":"validate_gnps","text":"<pre><code>validate_gnps(gnps_dir: Path) -&gt; None\n</code></pre> <p>Validate the GNPS data directory and its contents.</p> <p>The GNPS data directory must contain the following files:</p> <ul> <li>file_mappings.tsv or file_mappings.csv</li> <li>spectra.mgf</li> <li>molecular_families.tsv</li> <li>annotations.tsv</li> </ul> <p>Parameters:</p> Name Type Description Default <code>gnps_dir</code> <code>Path</code> <p>Path to the GNPS data directory.</p> required <p>Raises:</p> Type Description <code>FileNotFoundError</code> <p>If the GNPS data directory is not found or any of the required files is not found.</p> <code>ValueError</code> <p>If both file_mappings.tsv and file_mapping.csv are found.</p> Source code in <code>src/nplinker/arranger.py</code> <pre><code>def validate_gnps(gnps_dir: Path) -&gt; None:\n    \"\"\"Validate the GNPS data directory and its contents.\n\n    The GNPS data directory must contain the following files:\n\n    - file_mappings.tsv or file_mappings.csv\n    - spectra.mgf\n    - molecular_families.tsv\n    - annotations.tsv\n\n    Args:\n        gnps_dir: Path to the GNPS data directory.\n\n    Raises:\n        FileNotFoundError: If the GNPS data directory is not found or any of the required files\n            is not found.\n        ValueError: If both file_mappings.tsv and file_mapping.csv are found.\n    \"\"\"\n    if not gnps_dir.exists():\n        raise FileNotFoundError(f\"GNPS data directory not found at {gnps_dir}\")\n\n    file_mappings_tsv = gnps_dir / globals.GNPS_FILE_MAPPINGS_TSV\n    file_mappings_csv = gnps_dir / globals.GNPS_FILE_MAPPINGS_CSV\n    if file_mappings_tsv.exists() and file_mappings_csv.exists():\n        raise ValueError(\n            f\"Both {file_mappings_tsv.name} and {file_mappings_csv.name} found in GNPS directory \"\n            f\"{gnps_dir}, only one is allowed.\"\n        )\n    elif not file_mappings_tsv.exists() and not file_mappings_csv.exists():\n        raise FileNotFoundError(\n            f\"Neither {file_mappings_tsv.name} nor {file_mappings_csv.name} found in GNPS directory\"\n            f\" {gnps_dir}\"\n        )\n\n    required_files = [\n        gnps_dir / globals.GNPS_SPECTRA_FILENAME,\n        gnps_dir / globals.GNPS_MOLECULAR_FAMILY_FILENAME,\n        gnps_dir / globals.GNPS_ANNOTATIONS_FILENAME,\n    ]\n    list_not_found = [f.name for f in required_files if not f.exists()]\n    if list_not_found:\n        raise FileNotFoundError(\n            f\"Files not found in GNPS directory {gnps_dir}: ', '.join({list_not_found})\"\n        )\n</code></pre>"},{"location":"api/arranger/#nplinker.arranger.validate_antismash","title":"validate_antismash","text":"<pre><code>validate_antismash(antismash_dir: Path) -&gt; None\n</code></pre> <p>Validate the antiSMASH data directory and its contents.</p> <p>The validation only checks the structure of the antiSMASH data directory and file names. It does not check</p> <ul> <li>the content of the BGC files</li> <li>the consistency between the antiSMASH data and the PODP project JSON file for the PODP     mode</li> </ul> <p>The antiSMASH data directory must exist and contain at least one sub-directory. The name of the sub-directories must not contain any space. Each sub-directory must contain at least one BGC file (with the suffix \".region???.gbk\" where ??? is the region number).</p> <p>Parameters:</p> Name Type Description Default <code>antismash_dir</code> <code>Path</code> <p>Path to the antiSMASH data directory.</p> required <p>Raises:</p> Type Description <code>FileNotFoundError</code> <p>If the antiSMASH data directory is not found, or no sub-directories are found in the antiSMASH data directory, or no BGC files are found in any sub-directory.</p> <code>ValueError</code> <p>If any sub-directory name contains a space.</p> Source code in <code>src/nplinker/arranger.py</code> <pre><code>def validate_antismash(antismash_dir: Path) -&gt; None:\n    \"\"\"Validate the antiSMASH data directory and its contents.\n\n    The validation only checks the structure of the antiSMASH data directory and file names.\n    It does not check\n\n    - the content of the BGC files\n    - the consistency between the antiSMASH data and the PODP project JSON file for the PODP\n        mode\n\n    The antiSMASH data directory must exist and contain at least one sub-directory. The name of the\n    sub-directories must not contain any space. Each sub-directory must contain at least one BGC\n    file (with the suffix \".region???.gbk\" where ??? is the region number).\n\n    Args:\n        antismash_dir: Path to the antiSMASH data directory.\n\n    Raises:\n        FileNotFoundError: If the antiSMASH data directory is not found, or no sub-directories\n            are found in the antiSMASH data directory, or no BGC files are found in any\n            sub-directory.\n        ValueError: If any sub-directory name contains a space.\n    \"\"\"\n    if not antismash_dir.exists():\n        raise FileNotFoundError(f\"antiSMASH data directory not found at {antismash_dir}\")\n\n    sub_dirs = list_dirs(antismash_dir)\n    if not sub_dirs:\n        raise FileNotFoundError(\n            \"No BGC directories found in antiSMASH data directory {antismash_dir}\"\n        )\n\n    for sub_dir in sub_dirs:\n        dir_name = Path(sub_dir).name\n        if \" \" in dir_name:\n            raise ValueError(\n                f\"antiSMASH sub-directory name {dir_name} contains space, which is not allowed\"\n            )\n\n        gbk_files = list_files(sub_dir, suffix=\".gbk\", keep_parent=False)\n        bgc_files = fnmatch.filter(gbk_files, \"*.region???.gbk\")\n        if not bgc_files:\n            raise FileNotFoundError(f\"No BGC files found in antiSMASH sub-directory {sub_dir}\")\n</code></pre>"},{"location":"api/arranger/#nplinker.arranger.validate_bigscape","title":"validate_bigscape","text":"<pre><code>validate_bigscape(bigscape_dir: Path) -&gt; None\n</code></pre> <p>Validate the BiG-SCAPE data directory and its contents.</p> <p>The BiG-SCAPE data directory must exist and contain the clustering file \"mix_clustering_c{config.bigscape.cutoff}.tsv\" where {config.bigscape.cutoff} is the bigscape cutoff value set in the config file.</p> <p>Parameters:</p> Name Type Description Default <code>bigscape_dir</code> <code>Path</code> <p>Path to the BiG-SCAPE data directory.</p> required <p>Raises:</p> Type Description <code>FileNotFoundError</code> <p>If the BiG-SCAPE data directory or the clustering file is not found.</p> Source code in <code>src/nplinker/arranger.py</code> <pre><code>def validate_bigscape(bigscape_dir: Path) -&gt; None:\n    \"\"\"Validate the BiG-SCAPE data directory and its contents.\n\n    The BiG-SCAPE data directory must exist and contain the clustering file\n    \"mix_clustering_c{config.bigscape.cutoff}.tsv\" where {config.bigscape.cutoff} is the\n    bigscape cutoff value set in the config file.\n\n    Args:\n        bigscape_dir: Path to the BiG-SCAPE data directory.\n\n    Raises:\n        FileNotFoundError: If the BiG-SCAPE data directory or the clustering file is not found.\n    \"\"\"\n    if not bigscape_dir.exists():\n        raise FileNotFoundError(f\"BiG-SCAPE data directory not found at {bigscape_dir}\")\n\n    clustering_file = bigscape_dir / f\"mix_clustering_c{config.bigscape.cutoff}.tsv\"\n    if not clustering_file.exists():\n        raise FileNotFoundError(f\"BiG-SCAPE clustering file not found: {clustering_file}\")\n</code></pre>"},{"location":"api/bigscape/","title":"BigScape","text":""},{"location":"api/bigscape/#nplinker.genomics.bigscape","title":"bigscape","text":""},{"location":"api/bigscape/#nplinker.genomics.bigscape.BigscapeGCFLoader","title":"BigscapeGCFLoader","text":"<pre><code>BigscapeGCFLoader(cluster_file: str | PathLike)\n</code></pre> <p>Build a loader for BiG-SCAPE GCF cluster file.</p> <p>Parameters:</p> Name Type Description Default <code>cluster_file</code> <code>str | PathLike</code> <p>Path to the BiG-SCAPE cluster file, the filename has a pattern of \"_clustering_c0.xx.tsv\". required <p>Attributes:</p> Name Type Description <code>cluster_file</code> <p>path to the BiG-SCAPE cluster file.</p> Source code in <code>src/nplinker/genomics/bigscape/bigscape_loader.py</code> <pre><code>def __init__(self, cluster_file: str | PathLike, /) -&gt; None:\n    \"\"\"Build a loader for BiG-SCAPE GCF cluster file.\n\n    Args:\n        cluster_file: Path to the BiG-SCAPE cluster file,\n            the filename has a pattern of \"&lt;class&gt;_clustering_c0.xx.tsv\".\n\n    Attributes:\n        cluster_file: path to the BiG-SCAPE cluster file.\n    \"\"\"\n    self.cluster_file = str(cluster_file)\n    self._gcf_list = self._parse_gcf(self.cluster_file)\n</code></pre>"},{"location":"api/bigscape/#nplinker.genomics.bigscape.BigscapeGCFLoader.get_gcfs","title":"get_gcfs","text":"<pre><code>get_gcfs(keep_mibig_only: bool = False, keep_singleton: bool = False) -&gt; list[GCF]\n</code></pre> <p>Get all GCF objects.</p> <p>Parameters:</p> Name Type Description Default <code>keep_mibig_only</code> <code>bool</code> <p>True to keep GCFs that contain only MIBiG BGCs.</p> <code>False</code> <code>keep_singleton</code> <code>bool</code> <p>True to keep singleton GCFs. A singleton GCF is a GCF that contains only one BGC.</p> <code>False</code> <p>Returns:</p> Type Description <code>list[GCF]</code> <p>list[GCF]: a list of GCF objects.</p> Source code in <code>src/nplinker/genomics/bigscape/bigscape_loader.py</code> <pre><code>def get_gcfs(self, keep_mibig_only: bool = False, keep_singleton: bool = False) -&gt; list[GCF]:\n    \"\"\"Get all GCF objects.\n\n    Args:\n        keep_mibig_only: True to keep GCFs that contain only MIBiG\n            BGCs.\n        keep_singleton: True to keep singleton GCFs. A singleton GCF\n            is a GCF that contains only one BGC.\n\n    Returns:\n        list[GCF]: a list of GCF objects.\n    \"\"\"\n    gcf_list = self._gcf_list\n    if not keep_mibig_only:\n        gcf_list = [gcf for gcf in gcf_list if not gcf.has_mibig_only()]\n    if not keep_singleton:\n        gcf_list = [gcf for gcf in gcf_list if not gcf.is_singleton()]\n    return gcf_list\n</code></pre>"},{"location":"api/bigscape/#nplinker.genomics.bigscape.run_bigscape","title":"run_bigscape","text":"<pre><code>run_bigscape(antismash_path: str | PathLike, output_path: str | PathLike, extra_params: str)\n</code></pre> Source code in <code>src/nplinker/genomics/bigscape/runbigscape.py</code> <pre><code>def run_bigscape(\n    antismash_path: str | PathLike,\n    output_path: str | PathLike,\n    extra_params: str,\n):\n    bigscape_py_path = \"bigscape.py\"\n    logger.info(\n        f'run_bigscape: input=\"{antismash_path}\", output=\"{output_path}\", extra_params={extra_params}\"'\n    )\n\n    try:\n        subprocess.run([bigscape_py_path, \"-h\"], capture_output=True, check=True)\n    except Exception as e:\n        raise Exception(f\"Failed to find/run bigscape.py (path={bigscape_py_path}, err={e})\") from e\n\n    if not os.path.exists(antismash_path):\n        raise Exception(f'antismash_path \"{antismash_path}\" does not exist!')\n\n    # configure the IO-related parameters, including pfam_dir\n    args = [bigscape_py_path, \"-i\", antismash_path, \"-o\", output_path, \"--pfam_dir\", PFAM_PATH]\n\n    # append the user supplied params, if any\n    if len(extra_params) &gt; 0:\n        args.extend(extra_params.split(\" \"))\n\n    logger.info(f\"BiG-SCAPE command: {args}\")\n    result = subprocess.run(args, stdout=sys.stdout, stderr=sys.stderr, check=True)\n    logger.info(f\"BiG-SCAPE completed with return code {result.returncode}\")\n    # use subprocess.CompletedProcess.check_returncode() to test if the BiG-SCAPE\n    # process exited successfully. This throws an exception for non-zero returncodes\n    # which will indicate to the PODPDownloader module that something went wrong.\n    result.check_returncode()\n\n    return True\n</code></pre>"},{"location":"api/genomics/","title":"Data Models","text":""},{"location":"api/genomics/#nplinker.genomics","title":"genomics","text":""},{"location":"api/genomics/#nplinker.genomics.BGC","title":"BGC","text":"<pre><code>BGC(bgc_id: str, /, *product_prediction: str)\n</code></pre> <p>Class to model BGC (biosynthetic gene cluster) data.</p> <p>BGC data include both annotations and sequence data. This class is mainly designed to model the annotations or metadata.</p> <p>The raw BGC data is stored in GenBank format (.gbk). Additional <code>GenBank features</code>_ could be added to the GenBank file to annotate BGCs, e.g. antiSMASH has some self-defined features (like \"region\") in its output GenBank files.</p> <p>The annotations of BGC can be stored in JSON format, which is defined and used by MIBiG.</p> <p>Parameters:</p> Name Type Description Default <code>bgc_id</code> <code>str</code> <p>BGC identifier, e.g. MIBiG accession, GenBank accession.</p> required <code>product_prediction</code> <code>str</code> <p>BGC's (predicted) natural products or product classes.</p> <code>()</code> <p>Attributes:</p> Name Type Description <code>bgc_id</code> <p>BGC identifier, e.g. MIBiG accession, GenBank accession.</p> <code>product_prediction</code> <p>A tuple of (predicted) natural products or product classes of the BGC. For antiSMASH's GenBank data, the feature <code>region /product</code> gives product information. For MIBiG metadata, its biosynthetic class provides such info.</p> <code>mibig_bgc_class</code> <p>A tuple of MIBiG biosynthetic classes to which the BGC belongs. Defaults to None. MIBiG defines 6 major biosynthetic classes for natural products, including \"NRP\", \"Polyketide\", \"RiPP\", \"Terpene\", \"Saccharide\" and \"Alkaloid\". Note that natural products created by all other biosynthetic mechanisms fall under the category \"Other\". More details see the publication: https://doi.org/10.1186/s40793-018-0318-y.</p> <code>description</code> <p>Brief description of the BGC. Defaults to None.</p> <code>smiles</code> <p>A tuple of SMILES formulas of the BGC's products. Defaults to None.</p> <code>antismash_file</code> <p>The path to the antiSMASH GenBank file. Defaults to None.</p> <code>antismash_id</code> <p>Identifier of the antiSMASH BGC, referring to the feature <code>VERSION</code> of GenBank file. Defaults to None.</p> <code>antismash_region</code> <p>AntiSMASH BGC region number, referring to the feature <code>region</code> of GenBank file. Defaults to None.</p> <code>parents</code> <p>The set of GCFs that contain the BGC.</p> <code>strain</code> <p>The strain of the BGC.</p> <p>.. GenBank features:     https://www.insdc.org/submitting-standards/feature-table/</p> Source code in <code>src/nplinker/genomics/bgc.py</code> <pre><code>def __init__(self, bgc_id: str, /, *product_prediction: str):\n    \"\"\"Class to model BGC (biosynthetic gene cluster) data.\n\n    BGC data include both annotations and sequence data. This class is\n    mainly designed to model the annotations or metadata.\n\n    The raw BGC data is stored in GenBank format (.gbk). Additional\n    `GenBank features`_ could be added to the GenBank file to annotate\n    BGCs, e.g. antiSMASH has some self-defined features (like \"region\") in\n    its output GenBank files.\n\n    The annotations of BGC can be stored in JSON format, which is defined\n    and used by MIBiG.\n\n    Args:\n        bgc_id: BGC identifier, e.g. MIBiG accession, GenBank accession.\n        product_prediction: BGC's (predicted) natural products\n            or product classes.\n\n    Attributes:\n        bgc_id: BGC identifier, e.g. MIBiG accession, GenBank accession.\n        product_prediction: A tuple of (predicted) natural\n            products or product classes of the BGC.\n            For antiSMASH's GenBank data, the feature `region /product`\n            gives product information.\n            For MIBiG metadata, its biosynthetic class provides such info.\n        mibig_bgc_class: A tuple of MIBiG biosynthetic\n            classes to which the BGC belongs.\n            Defaults to None.\n            MIBiG defines 6 major biosynthetic classes for natural products,\n            including \"NRP\", \"Polyketide\", \"RiPP\", \"Terpene\", \"Saccharide\"\n            and \"Alkaloid\". Note that natural products created by all other\n            biosynthetic mechanisms fall under the category \"Other\".\n            More details see the publication: https://doi.org/10.1186/s40793-018-0318-y.\n        description: Brief description of the BGC.\n            Defaults to None.\n        smiles: A tuple of SMILES formulas of the BGC's\n            products.\n            Defaults to None.\n        antismash_file: The path to the antiSMASH GenBank file.\n            Defaults to None.\n        antismash_id: Identifier of the antiSMASH BGC, referring\n            to the feature `VERSION` of GenBank file.\n            Defaults to None.\n        antismash_region: AntiSMASH BGC region number, referring\n            to the feature `region` of GenBank file.\n            Defaults to None.\n        parents: The set of GCFs that contain the BGC.\n        strain: The strain of the BGC.\n\n    .. GenBank features:\n        https://www.insdc.org/submitting-standards/feature-table/\n    \"\"\"\n    # BGC metadata\n    self.bgc_id = bgc_id\n    self.product_prediction = product_prediction\n\n    self.mibig_bgc_class: tuple[str] | None = None\n    self.description: str | None = None\n    self.smiles: tuple[str] | None = None\n\n    # antismash related attributes\n    self.antismash_file: str | None = None\n    self.antismash_id: str | None = None  # version in .gbk, id in SeqRecord\n    self.antismash_region: int | None = None  # antismash region number\n\n    # other attributes\n    self.parents: set[GCF] = set()\n    self._strain: Strain | None = None\n</code></pre>"},{"location":"api/genomics/#nplinker.genomics.BGC.bigscape_classes","title":"bigscape_classes  <code>property</code>","text":"<pre><code>bigscape_classes: set[str | None]\n</code></pre> <p>Get BiG-SCAPE's BGC classes.</p> <p>BiG-SCAPE's BGC classes are similar to those defined in MiBIG but have more categories (7 classes). More details see: https://doi.org/10.1038%2Fs41589-019-0400-9.</p>"},{"location":"api/genomics/#nplinker.genomics.BGC.aa_predictions","title":"aa_predictions  <code>property</code>","text":"<pre><code>aa_predictions: list\n</code></pre> <p>Amino acids as predicted monomers of product.</p> <p>Returns:</p> Type Description <code>list</code> <p>list of dicts with key as amino acid and value as prediction</p> <code>list</code> <p>probability.</p>"},{"location":"api/genomics/#nplinker.genomics.BGC.add_parent","title":"add_parent","text":"<pre><code>add_parent(gcf: GCF) -&gt; None\n</code></pre> <p>Add a parent GCF to the BGC.</p> <p>Parameters:</p> Name Type Description Default <code>gcf</code> <code>GCF</code> <p>gene cluster family</p> required Source code in <code>src/nplinker/genomics/bgc.py</code> <pre><code>def add_parent(self, gcf: GCF) -&gt; None:\n    \"\"\"Add a parent GCF to the BGC.\n\n    Args:\n        gcf: gene cluster family\n    \"\"\"\n    gcf.add_bgc(self)\n</code></pre>"},{"location":"api/genomics/#nplinker.genomics.BGC.detach_parent","title":"detach_parent","text":"<pre><code>detach_parent(gcf: GCF) -&gt; None\n</code></pre> <p>Remove a parent GCF.</p> Source code in <code>src/nplinker/genomics/bgc.py</code> <pre><code>def detach_parent(self, gcf: GCF) -&gt; None:\n    \"\"\"Remove a parent GCF.\"\"\"\n    gcf.detach_bgc(self)\n</code></pre>"},{"location":"api/genomics/#nplinker.genomics.BGC.is_mibig","title":"is_mibig","text":"<pre><code>is_mibig() -&gt; bool\n</code></pre> <p>Check if the BGC is MIBiG reference BGC or not.</p> Note <p>This method evaluates MIBiG BGC based on the pattern that MIBiG BGC names start with \"BGC\". It might give false positive result.</p> <p>Returns:</p> Type Description <code>bool</code> <p>True if it's MIBiG reference BGC</p> Source code in <code>src/nplinker/genomics/bgc.py</code> <pre><code>def is_mibig(self) -&gt; bool:\n    \"\"\"Check if the BGC is MIBiG reference BGC or not.\n\n    Note:\n        This method evaluates MIBiG BGC based on the pattern that MIBiG\n        BGC names start with \"BGC\". It might give false positive result.\n\n    Returns:\n        True if it's MIBiG reference BGC\n    \"\"\"\n    return self.bgc_id.startswith(\"BGC\")\n</code></pre>"},{"location":"api/genomics/#nplinker.genomics.GCF","title":"GCF","text":"<pre><code>GCF(gcf_id: str)\n</code></pre> <p>Class to model gene cluster family (GCF).</p> <p>GCF is a group of similar BGCs and generated by clustering BGCs with tools such as BiG-SCAPE and BiG-SLICE.</p> <p>Parameters:</p> Name Type Description Default <code>gcf_id</code> <code>str</code> <p>id of the GCF object.</p> required <p>Attributes:</p> Name Type Description <code>gcf_id</code> <p>id of the GCF object.</p> <code>bgc_ids</code> <p>a set of BGC ids that belongs to the GCF.</p> <code>bigscape_class</code> <p>BiG-SCAPE's BGC class. BiG-SCAPE's BGC classes are similar to those defined in MiBIG but have more categories (7 classes). More details see: https://doi.org/10.1038%2Fs41589-019-0400-9.</p> Source code in <code>src/nplinker/genomics/gcf.py</code> <pre><code>def __init__(self, gcf_id: str, /) -&gt; None:\n    \"\"\"Class to model gene cluster family (GCF).\n\n    GCF is a group of similar BGCs and generated by clustering BGCs with\n    tools such as BiG-SCAPE and BiG-SLICE.\n\n    Args:\n        gcf_id: id of the GCF object.\n\n    Attributes:\n        gcf_id: id of the GCF object.\n        bgc_ids: a set of BGC ids that belongs to the GCF.\n        bigscape_class: BiG-SCAPE's BGC class.\n            BiG-SCAPE's BGC classes are similar to those defined in MiBIG\n            but have more categories (7 classes). More details see:\n            https://doi.org/10.1038%2Fs41589-019-0400-9.\n    \"\"\"\n    self.gcf_id = gcf_id\n    self.bgc_ids: set[str] = set()\n    self.bigscape_class: str | None = None\n    self._bgcs: set[BGC] = set()\n    self._strains: StrainCollection = StrainCollection()\n</code></pre>"},{"location":"api/genomics/#nplinker.genomics.GCF.bgcs","title":"bgcs  <code>property</code>","text":"<pre><code>bgcs: set[BGC]\n</code></pre> <p>Get the BGC objects.</p>"},{"location":"api/genomics/#nplinker.genomics.GCF.strains","title":"strains  <code>property</code>","text":"<pre><code>strains: StrainCollection\n</code></pre> <p>Get the strains in the GCF.</p>"},{"location":"api/genomics/#nplinker.genomics.GCF.add_bgc","title":"add_bgc","text":"<pre><code>add_bgc(bgc: BGC) -&gt; None\n</code></pre> <p>Add a BGC object to the GCF.</p> Source code in <code>src/nplinker/genomics/gcf.py</code> <pre><code>def add_bgc(self, bgc: BGC) -&gt; None:\n    \"\"\"Add a BGC object to the GCF.\"\"\"\n    bgc.parents.add(self)\n    self._bgcs.add(bgc)\n    self.bgc_ids.add(bgc.bgc_id)\n    if bgc.strain is not None:\n        self._strains.add(bgc.strain)\n    else:\n        logger.warning(\"No strain specified for the BGC %s\", bgc.bgc_id)\n</code></pre>"},{"location":"api/genomics/#nplinker.genomics.GCF.detach_bgc","title":"detach_bgc","text":"<pre><code>detach_bgc(bgc: BGC) -&gt; None\n</code></pre> <p>Remove a child BGC object.</p> Source code in <code>src/nplinker/genomics/gcf.py</code> <pre><code>def detach_bgc(self, bgc: BGC) -&gt; None:\n    \"\"\"Remove a child BGC object.\"\"\"\n    bgc.parents.remove(self)\n    self._bgcs.remove(bgc)\n    self.bgc_ids.remove(bgc.bgc_id)\n    if bgc.strain is not None:\n        for other_bgc in self._bgcs:\n            if other_bgc.strain == bgc.strain:\n                return\n        self._strains.remove(bgc.strain)\n</code></pre>"},{"location":"api/genomics/#nplinker.genomics.GCF.has_strain","title":"has_strain","text":"<pre><code>has_strain(strain: Strain) -&gt; bool\n</code></pre> <p>Check if the given strain exists.</p> <p>Parameters:</p> Name Type Description Default <code>strain</code> <code>Strain</code> <p><code>Strain</code> object.</p> required <p>Returns:</p> Type Description <code>bool</code> <p>True when the given strain exist.</p> Source code in <code>src/nplinker/genomics/gcf.py</code> <pre><code>def has_strain(self, strain: Strain) -&gt; bool:\n    \"\"\"Check if the given strain exists.\n\n    Args:\n        strain: `Strain` object.\n\n    Returns:\n        True when the given strain exist.\n    \"\"\"\n    return strain in self._strains\n</code></pre>"},{"location":"api/genomics/#nplinker.genomics.GCF.has_mibig_only","title":"has_mibig_only","text":"<pre><code>has_mibig_only() -&gt; bool\n</code></pre> <p>Check if the GCF's children are only MIBiG BGCs.</p> <p>Returns:</p> Type Description <code>bool</code> <p>True if <code>GCF.bgc_ids</code> are only MIBiG BGC ids.</p> Source code in <code>src/nplinker/genomics/gcf.py</code> <pre><code>def has_mibig_only(self) -&gt; bool:\n    \"\"\"Check if the GCF's children are only MIBiG BGCs.\n\n    Returns:\n        True if `GCF.bgc_ids` are only MIBiG BGC ids.\n    \"\"\"\n    return all(map(lambda id: id.startswith(\"BGC\"), self.bgc_ids))\n</code></pre>"},{"location":"api/genomics/#nplinker.genomics.GCF.is_singleton","title":"is_singleton","text":"<pre><code>is_singleton() -&gt; bool\n</code></pre> <p>Check if the GCF contains only one BGC.</p> <p>Returns:</p> Type Description <code>bool</code> <p>True if <code>GCF.bgc_ids</code> contains only one BGC id.</p> Source code in <code>src/nplinker/genomics/gcf.py</code> <pre><code>def is_singleton(self) -&gt; bool:\n    \"\"\"Check if the GCF contains only one BGC.\n\n    Returns:\n        True if `GCF.bgc_ids` contains only one BGC id.\n    \"\"\"\n    return len(self.bgc_ids) == 1\n</code></pre>"},{"location":"api/genomics_abc/","title":"Base Classes","text":""},{"location":"api/genomics_abc/#nplinker.genomics.abc","title":"abc","text":""},{"location":"api/genomics_abc/#nplinker.genomics.abc.BGCLoaderBase","title":"BGCLoaderBase","text":"<pre><code>BGCLoaderBase(data_dir: str)\n</code></pre> <p>             Bases: <code>ABC</code></p> <p>Abstract base class for BGC loader.</p> <p>Parameters:</p> Name Type Description Default <code>data_dir</code> <code>str</code> <p>Path to directory that contains BGC metadata files (.json) or full data genbank files (.gbk).</p> required Source code in <code>src/nplinker/genomics/abc.py</code> <pre><code>def __init__(self, data_dir: str):\n    \"\"\"Abstract base class for BGC loader.\n\n    Args:\n        data_dir: Path to directory that contains BGC metadata files\n            (.json) or full data genbank files (.gbk).\n    \"\"\"\n    self.data_dir = data_dir\n</code></pre>"},{"location":"api/genomics_abc/#nplinker.genomics.abc.BGCLoaderBase.get_files","title":"get_files  <code>abstractmethod</code>","text":"<pre><code>get_files() -&gt; dict[str, str]\n</code></pre> <p>Get path to BGC files.</p> <p>Returns:</p> Type Description <code>dict[str, str]</code> <p>The key is BGC name and value is path to BGC file</p> Source code in <code>src/nplinker/genomics/abc.py</code> <pre><code>@abstractmethod\ndef get_files(self) -&gt; dict[str, str]:\n    \"\"\"Get path to BGC files.\n\n    Returns:\n        The key is BGC name and value is path to BGC file\n    \"\"\"\n</code></pre>"},{"location":"api/genomics_abc/#nplinker.genomics.abc.BGCLoaderBase.get_bgcs","title":"get_bgcs  <code>abstractmethod</code>","text":"<pre><code>get_bgcs() -&gt; Sequence[BGC]\n</code></pre> <p>Get BGC objects.</p> <p>Returns:</p> Type Description <code>Sequence[BGC]</code> <p>A list of BGC objects</p> Source code in <code>src/nplinker/genomics/abc.py</code> <pre><code>@abstractmethod\ndef get_bgcs(self) -&gt; Sequence[BGC]:\n    \"\"\"Get BGC objects.\n\n    Returns:\n        A list of BGC objects\n    \"\"\"\n</code></pre>"},{"location":"api/genomics_abc/#nplinker.genomics.abc.GCFLoaderBase","title":"GCFLoaderBase","text":"<p>             Bases: <code>ABC</code></p>"},{"location":"api/genomics_abc/#nplinker.genomics.abc.GCFLoaderBase.get_gcfs","title":"get_gcfs  <code>abstractmethod</code>","text":"<pre><code>get_gcfs(keep_mibig_only: bool, keep_singleton: bool) -&gt; Sequence[GCF]\n</code></pre> <p>Get GCF objects.</p> <p>Parameters:</p> Name Type Description Default <code>keep_mibig_only</code> <code>bool</code> <p>True to keep GCFs that contain only MIBiG BGCs.</p> required <code>keep_singleton</code> <code>bool</code> <p>True to keep singleton GCFs. A singleton GCF is a GCF that contains only one BGC.</p> required <p>Returns:</p> Type Description <code>Sequence[GCF]</code> <p>A list of GCF objects</p> Source code in <code>src/nplinker/genomics/abc.py</code> <pre><code>@abstractmethod\ndef get_gcfs(self, keep_mibig_only: bool, keep_singleton: bool) -&gt; Sequence[GCF]:\n    \"\"\"Get GCF objects.\n\n    Args:\n        keep_mibig_only: True to keep GCFs that contain only MIBiG\n            BGCs.\n        keep_singleton: True to keep singleton GCFs. A singleton GCF\n            is a GCF that contains only one BGC.\n\n    Returns:\n        A list of GCF objects\n    \"\"\"\n</code></pre>"},{"location":"api/genomics_utils/","title":"Utilities","text":""},{"location":"api/genomics_utils/#nplinker.genomics.utils","title":"utils","text":""},{"location":"api/genomics_utils/#nplinker.genomics.utils.generate_mappings_genome_id_bgc_id","title":"generate_mappings_genome_id_bgc_id","text":"<pre><code>generate_mappings_genome_id_bgc_id(bgc_dir: str | PathLike, output_file: str | PathLike | None = None) -&gt; None\n</code></pre> <p>Generate a file that maps genome id to BGC id.</p> <p>Note that the <code>output_file</code> will be overwritten if it already exists.</p> <p>Parameters:</p> Name Type Description Default <code>bgc_dir</code> <code>str | PathLike</code> <p>The directory has one-layer of subfolders and each subfolder contains BGC files in <code>.gbk</code> format. It assumes that - the subfolder name is the genome id (e.g. refseq), - the BGC file name is the BGC id.</p> required <code>output_file</code> <code>str | PathLike | None</code> <p>The path to the output file. Note that the file will be overwritten if it already exists. Defaults to None, in which case the output file will be placed in the directory <code>bgc_dir</code> with a file name defined in global variable <code>GENOME_BGC_MAPPINGS_FILENAME</code>.</p> <code>None</code> Source code in <code>src/nplinker/genomics/utils.py</code> <pre><code>def generate_mappings_genome_id_bgc_id(\n    bgc_dir: str | PathLike, output_file: str | PathLike | None = None\n) -&gt; None:\n    \"\"\"Generate a file that maps genome id to BGC id.\n\n    Note that the `output_file` will be overwritten if it already exists.\n\n    Args:\n        bgc_dir: The directory has one-layer of subfolders and\n            each subfolder contains BGC files in `.gbk` format.\n            It assumes that\n            - the subfolder name is the genome id (e.g. refseq),\n            - the BGC file name is the BGC id.\n        output_file: The path to the output file. Note\n            that the file will be overwritten if it already exists.\n            Defaults to None, in which case the output file will be placed in\n            the directory `bgc_dir` with a file name defined in global variable\n            `GENOME_BGC_MAPPINGS_FILENAME`.\n    \"\"\"\n    bgc_dir = Path(bgc_dir)\n    genome_bgc_mappings = {}\n\n    for subdir in list_dirs(bgc_dir):\n        genome_id = Path(subdir).name\n        bgc_files = list_files(subdir, suffix=(\".gbk\"), keep_parent=False)\n        bgc_ids = [bgc_id for f in bgc_files if (bgc_id := Path(f).stem) != genome_id]\n        if bgc_ids:\n            genome_bgc_mappings[genome_id] = bgc_ids\n        else:\n            logger.warning(\"No BGC files found in %s\", subdir)\n\n    # sort mappings by genome_id and construct json data\n    genome_bgc_mappings = dict(sorted(genome_bgc_mappings.items()))\n    json_data = [{\"genome_ID\": k, \"BGC_ID\": v} for k, v in genome_bgc_mappings.items()]\n    json_data = {\"mappings\": json_data, \"version\": \"1.0\"}\n\n    # validate json data\n    validate(instance=json_data, schema=GENOME_BGC_MAPPINGS_SCHEMA)\n\n    if output_file is None:\n        output_file = bgc_dir / GENOME_BGC_MAPPINGS_FILENAME\n    with open(output_file, \"w\") as f:\n        json.dump(json_data, f)\n    logger.info(\"Generated genome-BGC mappings file: %s\", output_file)\n</code></pre>"},{"location":"api/genomics_utils/#nplinker.genomics.utils.add_strain_to_bgc","title":"add_strain_to_bgc","text":"<pre><code>add_strain_to_bgc(strains: StrainCollection, bgcs: list[BGC]) -&gt; tuple[list[BGC], list[BGC]]\n</code></pre> <p>Assign a Strain object to <code>BGC.strain</code> for input BGCs.</p> <p>BGC id is used to find the corresponding Strain object. It's possible that no Strain object is found for a BGC id.</p> <p>Note that the input list <code>bgcs</code> will be changed in place.</p> <p>Parameters:</p> Name Type Description Default <code>strains</code> <code>StrainCollection</code> <p>A collection of all strain objects.</p> required <code>bgcs</code> <code>list[BGC]</code> <p>A list of BGC objects.</p> required <p>Returns:</p> Type Description <code>tuple[list[BGC], list[BGC]]</code> <p>A tuple of two lists of BGC objects. The first list contains BGC objects that are updated with Strain object; the second list contains BGC objects that are not updated with Strain object because no Strain object is found.</p> <p>Raises:</p> Type Description <code>ValueError</code> <p>Multiple strain objects found for a BGC id.</p> Source code in <code>src/nplinker/genomics/utils.py</code> <pre><code>def add_strain_to_bgc(strains: StrainCollection, bgcs: list[BGC]) -&gt; tuple[list[BGC], list[BGC]]:\n    \"\"\"Assign a Strain object to `BGC.strain` for input BGCs.\n\n    BGC id is used to find the corresponding Strain object. It's possible that\n    no Strain object is found for a BGC id.\n\n    Note that the input list `bgcs` will be changed in place.\n\n    Args:\n        strains: A collection of all strain objects.\n        bgcs: A list of BGC objects.\n\n    Returns:\n        A tuple of two lists of BGC objects. The\n            first list contains BGC objects that are updated with Strain object;\n            the second list contains BGC objects that are not updated with\n            Strain object because no Strain object is found.\n\n    Raises:\n        ValueError: Multiple strain objects found for a BGC id.\n    \"\"\"\n    bgc_with_strain = []\n    bgc_without_strain = []\n    for bgc in bgcs:\n        try:\n            strain_list = strains.lookup(bgc.bgc_id)\n        except ValueError:\n            bgc_without_strain.append(bgc)\n            continue\n        if len(strain_list) &gt; 1:\n            raise ValueError(\n                f\"Multiple strain objects found for BGC id '{bgc.bgc_id}'.\"\n                f\"BGC object accept only one strain.\"\n            )\n        bgc.strain = strain_list[0]\n        bgc_with_strain.append(bgc)\n\n    logger.info(\n        f\"{len(bgc_with_strain)} BGC objects updated with Strain object.\\n\"\n        f\"{len(bgc_without_strain)} BGC objects not updated with Strain object.\"\n    )\n    return bgc_with_strain, bgc_without_strain\n</code></pre>"},{"location":"api/genomics_utils/#nplinker.genomics.utils.add_bgc_to_gcf","title":"add_bgc_to_gcf","text":"<pre><code>add_bgc_to_gcf(bgcs: list[BGC], gcfs: list[GCF]) -&gt; tuple[list[GCF], list[GCF], dict[GCF, set[str]]]\n</code></pre> <p>Add BGC objects to GCF object based on GCF's BGC ids.</p> <p>The attribute of <code>GCF.bgc_ids</code> contains the ids of BGC objects. These ids are used to find BGC objects from the input <code>bgcs</code> list. The found BGC objects are added to the <code>bgcs</code> attribute of GCF object. It is possible that some BGC ids are not found in the input <code>bgcs</code> list, and so their BGC objects are missing in the GCF object.</p> <p>This method changes the lists <code>bgcs</code> and <code>gcfs</code> in place.</p> <p>Parameters:</p> Name Type Description Default <code>bgcs</code> <code>list[BGC]</code> <p>A list of BGC objects.</p> required <code>gcfs</code> <code>list[GCF]</code> <p>A list of GCF objects.</p> required <p>Returns:</p> Type Description <code>tuple[list[GCF], list[GCF], dict[GCF, set[str]]]</code> <p>The first list contains GCF objects that are updated with BGC objects; The second list contains GCF objects that are not updated with BGC objects because no BGC objects are found; The dictionary contains GCF objects as keys and a set of ids of missing BGC objects as values.</p> Source code in <code>src/nplinker/genomics/utils.py</code> <pre><code>def add_bgc_to_gcf(\n    bgcs: list[BGC], gcfs: list[GCF]\n) -&gt; tuple[list[GCF], list[GCF], dict[GCF, set[str]]]:\n    \"\"\"Add BGC objects to GCF object based on GCF's BGC ids.\n\n    The attribute of `GCF.bgc_ids` contains the ids of BGC objects. These ids\n    are used to find BGC objects from the input `bgcs` list. The found BGC\n    objects are added to the `bgcs` attribute of GCF object. It is possible that\n    some BGC ids are not found in the input `bgcs` list, and so their BGC\n    objects are missing in the GCF object.\n\n    This method changes the lists `bgcs` and `gcfs` in place.\n\n    Args:\n        bgcs: A list of BGC objects.\n        gcfs: A list of GCF objects.\n\n    Returns:\n        The first list contains GCF objects that are updated with BGC objects;\n            The second list contains GCF objects that are not updated with BGC objects\n            because no BGC objects are found;\n            The dictionary contains GCF objects as keys and a set of ids of missing\n            BGC objects as values.\n    \"\"\"\n    bgc_dict = {bgc.bgc_id: bgc for bgc in bgcs}\n    gcf_with_bgc = []\n    gcf_without_bgc = []\n    gcf_missing_bgc: dict[GCF, set[str]] = {}\n    for gcf in gcfs:\n        for bgc_id in gcf.bgc_ids:\n            try:\n                bgc = bgc_dict[bgc_id]\n            except KeyError:\n                if gcf not in gcf_missing_bgc:\n                    gcf_missing_bgc[gcf] = {bgc_id}\n                else:\n                    gcf_missing_bgc[gcf].add(bgc_id)\n                continue\n            gcf.add_bgc(bgc)\n\n        if gcf.bgcs:\n            gcf_with_bgc.append(gcf)\n        else:\n            gcf_without_bgc.append(gcf)\n\n    logger.info(\n        f\"{len(gcf_with_bgc)} GCF objects updated with BGC objects.\\n\"\n        f\"{len(gcf_without_bgc)} GCF objects not updated with BGC objects.\\n\"\n        f\"{len(gcf_missing_bgc)} GCF objects have missing BGC objects.\"\n    )\n    return gcf_with_bgc, gcf_without_bgc, gcf_missing_bgc\n</code></pre>"},{"location":"api/genomics_utils/#nplinker.genomics.utils.get_mibig_from_gcf","title":"get_mibig_from_gcf","text":"<pre><code>get_mibig_from_gcf(gcfs: list[GCF]) -&gt; tuple[list[BGC], StrainCollection]\n</code></pre> <p>Get MIBiG BGCs and strains from GCF objects.</p> <p>Parameters:</p> Name Type Description Default <code>gcfs</code> <code>list[GCF]</code> <p>A list of GCF objects.</p> required <p>Returns:</p> Type Description <code>tuple[list[BGC], StrainCollection]</code> <p>tuple[list[BGC], StrainCollection]: The first is a list of MIBiG BGC objects used in the GCFs; the second is a StrainCollection object that contains all Strain objects used in the GCFs.</p> Source code in <code>src/nplinker/genomics/utils.py</code> <pre><code>def get_mibig_from_gcf(gcfs: list[GCF]) -&gt; tuple[list[BGC], StrainCollection]:\n    \"\"\"Get MIBiG BGCs and strains from GCF objects.\n\n    Args:\n        gcfs: A list of GCF objects.\n\n    Returns:\n        tuple[list[BGC], StrainCollection]: The first is a list of MIBiG BGC\n            objects used in the GCFs; the second is a StrainCollection object\n            that contains all Strain objects used in the GCFs.\n    \"\"\"\n    mibig_bgcs_in_use = []\n    mibig_strains_in_use = StrainCollection()\n    for gcf in gcfs:\n        for bgc in gcf.bgcs:\n            if bgc.is_mibig():\n                mibig_bgcs_in_use.append(bgc)\n                if bgc.strain is not None:\n                    mibig_strains_in_use.add(bgc.strain)\n    return mibig_bgcs_in_use, mibig_strains_in_use\n</code></pre>"},{"location":"api/genomics_utils/#nplinker.genomics.utils.extract_mappings_strain_id_original_genome_id","title":"extract_mappings_strain_id_original_genome_id","text":"<pre><code>extract_mappings_strain_id_original_genome_id(podp_project_json_file: str | PathLike) -&gt; dict[str, set[str]]\n</code></pre> <p>Extract mappings \"strain id &lt;-&gt; original genome id\".</p> <p>Parameters:</p> Name Type Description Default <code>podp_project_json_file</code> <code>str | PathLike</code> <p>The path to the PODP project JSON file.</p> required <p>Returns:</p> Type Description <code>dict[str, set[str]]</code> <p>Key is strain id and value is a set of original genome ids.</p> Notes <p>The <code>podp_project_json_file</code> is the project JSON file downloaded from PODP platform. For example, for project MSV000079284, its json file is https://pairedomicsdata.bioinformatics.nl/api/projects/4b29ddc3-26d0-40d7-80c5-44fb6631dbf9.4.</p> Source code in <code>src/nplinker/genomics/utils.py</code> <pre><code>def extract_mappings_strain_id_original_genome_id(\n    podp_project_json_file: str | PathLike\n) -&gt; dict[str, set[str]]:\n    \"\"\"Extract mappings \"strain id &lt;-&gt; original genome id\".\n\n    Args:\n        podp_project_json_file: The path to the PODP project\n            JSON file.\n\n    Returns:\n        Key is strain id and value is a set of original genome ids.\n\n    Notes:\n        The `podp_project_json_file` is the project JSON file downloaded from\n        PODP platform. For example, for project MSV000079284, its json file is\n        https://pairedomicsdata.bioinformatics.nl/api/projects/4b29ddc3-26d0-40d7-80c5-44fb6631dbf9.4.\n    \"\"\"\n    mappings_dict = {}\n    with open(podp_project_json_file, \"r\") as f:\n        json_data = json.load(f)\n\n    validate_podp_json(json_data)\n\n    for record in json_data[\"genomes\"]:\n        strain_id = record[\"genome_label\"]\n        genome_id = get_best_available_genome_id(record[\"genome_ID\"])\n        if genome_id is None:\n            logger.warning(\"Failed to extract genome ID from genome with label %s\", strain_id)\n            continue\n        if strain_id in mappings_dict:\n            mappings_dict[strain_id].add(genome_id)\n        else:\n            mappings_dict[strain_id] = {genome_id}\n    return mappings_dict\n</code></pre>"},{"location":"api/genomics_utils/#nplinker.genomics.utils.extract_mappings_original_genome_id_resolved_genome_id","title":"extract_mappings_original_genome_id_resolved_genome_id","text":"<pre><code>extract_mappings_original_genome_id_resolved_genome_id(genome_status_json_file: str | PathLike) -&gt; dict[str, str]\n</code></pre> <p>Extract mappings \"original_genome_id &lt;-&gt; resolved_genome_id\".</p> <p>Parameters:</p> Name Type Description Default <code>genome_status_json_file</code> <code>str | PathLike</code> <p>The path to the genome status JSON file.</p> required <p>Returns:</p> Type Description <code>dict[str, str]</code> <p>Key is original genome id and value is resolved genome id.</p> Notes <p>The <code>genome_status_json_file</code> is usually generated by the <code>podp_download_and_extract_antismash_data</code> function with a default file name defined in <code>nplinker.globals.GENOME_STATUS_FILENAME</code>.</p> Source code in <code>src/nplinker/genomics/utils.py</code> <pre><code>def extract_mappings_original_genome_id_resolved_genome_id(\n    genome_status_json_file: str | PathLike\n) -&gt; dict[str, str]:\n    \"\"\"Extract mappings \"original_genome_id &lt;-&gt; resolved_genome_id\".\n\n    Args:\n        genome_status_json_file: The path to the genome status\n            JSON file.\n\n    Returns:\n        Key is original genome id and value is resolved genome id.\n\n    Notes:\n        The `genome_status_json_file` is usually generated by the\n        `podp_download_and_extract_antismash_data` function with\n        a default file name defined in `nplinker.globals.GENOME_STATUS_FILENAME`.\n    \"\"\"\n    gs_mappings_dict = GenomeStatus.read_json(genome_status_json_file)\n    return {gs.original_id: gs.resolved_refseq_id for gs in gs_mappings_dict.values()}\n</code></pre>"},{"location":"api/genomics_utils/#nplinker.genomics.utils.extract_mappings_resolved_genome_id_bgc_id","title":"extract_mappings_resolved_genome_id_bgc_id","text":"<pre><code>extract_mappings_resolved_genome_id_bgc_id(genome_bgc_mappings_file: str | PathLike) -&gt; dict[str, set[str]]\n</code></pre> <p>Extract mappings \"resolved_genome_id &lt;-&gt; bgc_id\".</p> <p>Parameters:</p> Name Type Description Default <code>genome_bgc_mappings_file</code> <code>str | PathLike</code> <p>The path to the genome BGC mappings JSON file.</p> required <p>Returns:</p> Type Description <code>dict[str, set[str]]</code> <p>Key is resolved genome id and value is a set of BGC ids.</p> Notes <p>The <code>genome_bgc_mappings_file</code> is usually generated by the <code>generate_mappings_genome_id_bgc_id</code> function with a default file name defined in <code>nplinker.globals.GENOME_BGC_MAPPINGS_FILENAME</code>.</p> Source code in <code>src/nplinker/genomics/utils.py</code> <pre><code>def extract_mappings_resolved_genome_id_bgc_id(\n    genome_bgc_mappings_file: str | PathLike\n) -&gt; dict[str, set[str]]:\n    \"\"\"Extract mappings \"resolved_genome_id &lt;-&gt; bgc_id\".\n\n    Args:\n        genome_bgc_mappings_file: The path to the genome BGC\n            mappings JSON file.\n\n    Returns:\n        Key is resolved genome id and value is a set of BGC ids.\n\n    Notes:\n        The `genome_bgc_mappings_file` is usually generated by the\n        `generate_mappings_genome_id_bgc_id` function with a default file name\n        defined in `nplinker.globals.GENOME_BGC_MAPPINGS_FILENAME`.\n    \"\"\"\n    with open(genome_bgc_mappings_file, \"r\") as f:\n        json_data = json.load(f)\n\n    # validate the JSON data\n    validate(json_data, GENOME_BGC_MAPPINGS_SCHEMA)\n\n    return {mapping[\"genome_ID\"]: set(mapping[\"BGC_ID\"]) for mapping in json_data[\"mappings\"]}\n</code></pre>"},{"location":"api/genomics_utils/#nplinker.genomics.utils.get_mappings_strain_id_bgc_id","title":"get_mappings_strain_id_bgc_id","text":"<pre><code>get_mappings_strain_id_bgc_id(mappings_strain_id_original_genome_id: dict[str, set[str]], mappings_original_genome_id_resolved_genome_id: dict[str, str], mappings_resolved_genome_id_bgc_id: dict[str, set[str]]) -&gt; dict[str, set[str]]\n</code></pre> <p>Get mappings \"strain_id &lt;-&gt; bgc_id\".</p> <p>Parameters:</p> Name Type Description Default <code>mappings_strain_id_original_genome_id</code> <code>dict[str, set[str]]</code> <p>Mappings \"strain_id &lt;-&gt; original_genome_id\".</p> required <code>mappings_original_genome_id_resolved_genome_id</code> <code>dict[str, str]</code> <p>Mappings \"original_genome_id &lt;-&gt; resolved_genome_id\".</p> required <code>mappings_resolved_genome_id_bgc_id</code> <code>dict[str, set[str]]</code> <p>Mappings \"resolved_genome_id &lt;-&gt; bgc_id\".</p> required <p>Returns:</p> Type Description <code>dict[str, set[str]]</code> <p>Key is strain id and value is a set of BGC ids.</p> See Also <ul> <li><code>extract_mappings_strain_id_original_genome_id</code>: Extract mappings     \"strain_id &lt;-&gt; original_genome_id\".</li> <li><code>extract_mappings_original_genome_id_resolved_genome_id</code>: Extract mappings     \"original_genome_id &lt;-&gt; resolved_genome_id\".</li> <li><code>extract_mappings_resolved_genome_id_bgc_id</code>: Extract mappings     \"resolved_genome_id &lt;-&gt; bgc_id\".</li> </ul> Source code in <code>src/nplinker/genomics/utils.py</code> <pre><code>def get_mappings_strain_id_bgc_id(\n    mappings_strain_id_original_genome_id: dict[str, set[str]],\n    mappings_original_genome_id_resolved_genome_id: dict[str, str],\n    mappings_resolved_genome_id_bgc_id: dict[str, set[str]],\n) -&gt; dict[str, set[str]]:\n    \"\"\"Get mappings \"strain_id &lt;-&gt; bgc_id\".\n\n    Args:\n        mappings_strain_id_original_genome_id: Mappings\n            \"strain_id &lt;-&gt; original_genome_id\".\n        mappings_original_genome_id_resolved_genome_id: Mappings\n            \"original_genome_id &lt;-&gt; resolved_genome_id\".\n        mappings_resolved_genome_id_bgc_id: Mappings\n            \"resolved_genome_id &lt;-&gt; bgc_id\".\n\n    Returns:\n        Key is strain id and value is a set of BGC ids.\n\n    See Also:\n        - `extract_mappings_strain_id_original_genome_id`: Extract mappings\n            \"strain_id &lt;-&gt; original_genome_id\".\n        - `extract_mappings_original_genome_id_resolved_genome_id`: Extract mappings\n            \"original_genome_id &lt;-&gt; resolved_genome_id\".\n        - `extract_mappings_resolved_genome_id_bgc_id`: Extract mappings\n            \"resolved_genome_id &lt;-&gt; bgc_id\".\n    \"\"\"\n    mappings_dict = {}\n    for strain_id, original_genome_ids in mappings_strain_id_original_genome_id.items():\n        bgc_ids = set()\n        for original_genome_id in original_genome_ids:\n            resolved_genome_id = mappings_original_genome_id_resolved_genome_id[original_genome_id]\n            if (bgc_id := mappings_resolved_genome_id_bgc_id.get(resolved_genome_id)) is not None:\n                bgc_ids.update(bgc_id)\n        if bgc_ids:\n            mappings_dict[strain_id] = bgc_ids\n    return mappings_dict\n</code></pre>"},{"location":"api/gnps/","title":"GNPS","text":""},{"location":"api/gnps/#nplinker.metabolomics.gnps","title":"gnps","text":""},{"location":"api/gnps/#nplinker.metabolomics.gnps.GNPSFormat","title":"GNPSFormat","text":"<p>             Bases: <code>Enum</code></p> <p>Enum class for GNPS format (workflow).</p> <p>The GNPS format refers to the GNPS workflow. The name of the enum is a simple short name for the workflow, and the value of the enum is the actual name of the workflow in the GNPS website.</p>"},{"location":"api/gnps/#nplinker.metabolomics.gnps.GNPSDownloader","title":"GNPSDownloader","text":"<pre><code>GNPSDownloader(task_id: str, download_root: str | PathLike)\n</code></pre> <p>Download GNPS zip archive for the given task id.</p> <p>Note that only GNPS workflows listed in the GNPSFormat enum are supported.</p> <p>Parameters:</p> Name Type Description Default <code>task_id</code> <code>str</code> <p>GNPS task id, identifying the data to be downloaded.</p> required <code>download_root</code> <code>str | PathLike</code> <p>Path where to store the downloaded archive.</p> required <p>Raises:</p> Type Description <code>ValueError</code> <p>If the given task id does not correspond to a supported GNPS workflow.</p> <p>Examples:</p> <pre><code>&gt;&gt;&gt; GNPSDownloader(\"c22f44b14a3d450eb836d607cb9521bb\", \"~/downloads\")\n</code></pre> Source code in <code>src/nplinker/metabolomics/gnps/gnps_downloader.py</code> <pre><code>def __init__(self, task_id: str, download_root: str | PathLike):\n    \"\"\"Download GNPS zip archive for the given task id.\n\n    Note that only GNPS workflows listed in the GNPSFormat enum are supported.\n\n    Args:\n        task_id: GNPS task id, identifying the data to be downloaded.\n        download_root: Path where to store the downloaded archive.\n\n    Raises:\n        ValueError: If the given task id does not correspond to a supported\n            GNPS workflow.\n\n    Examples:\n        &gt;&gt;&gt; GNPSDownloader(\"c22f44b14a3d450eb836d607cb9521bb\", \"~/downloads\")\n    \"\"\"\n    gnps_format = gnps_format_from_task_id(task_id)\n    if gnps_format == GNPSFormat.Unknown:\n        raise ValueError(\n            f\"Unknown workflow type for GNPS task '{task_id}'.\"\n            f\"Supported GNPS workflows are described in the GNPSFormat enum, \"\n            f\"including such as 'METABOLOMICS-SNETS', 'METABOLOMICS-SNETS-V2' \"\n            f\"and 'FEATURE-BASED-MOLECULAR-NETWORKING'.\"\n        )\n\n    self._task_id = task_id\n    self._download_root: Path = Path(download_root)\n    self._gnps_format = gnps_format\n    self._file_name = gnps_format.value + \"-\" + self._task_id + \".zip\"\n</code></pre>"},{"location":"api/gnps/#nplinker.metabolomics.gnps.GNPSDownloader.gnps_format","title":"gnps_format  <code>property</code>","text":"<pre><code>gnps_format: GNPSFormat\n</code></pre> <p>Get the GNPS workflow type.</p> <p>Returns:</p> Type Description <code>GNPSFormat</code> <p>GNPS workflow type.</p>"},{"location":"api/gnps/#nplinker.metabolomics.gnps.GNPSDownloader.download","title":"download","text":"<pre><code>download() -&gt; 'Self'\n</code></pre> <p>Execute the downloading process.</p> <p>Note: GNPS data is downloaded using the POST method (empty payload is OK).</p> Source code in <code>src/nplinker/metabolomics/gnps/gnps_downloader.py</code> <pre><code>def download(self) -&gt; \"Self\":\n    \"\"\"Execute the downloading process.\n\n    Note: GNPS data is downloaded using the POST method (empty payload is OK).\n    \"\"\"\n    download_url(\n        self.get_url(), self._download_root, filename=self._file_name, http_method=\"POST\"\n    )\n    return self\n</code></pre>"},{"location":"api/gnps/#nplinker.metabolomics.gnps.GNPSDownloader.get_download_file","title":"get_download_file","text":"<pre><code>get_download_file() -&gt; str\n</code></pre> <p>Get the path to the zip file.</p> <p>Returns:</p> Type Description <code>str</code> <p>Download path as string</p> Source code in <code>src/nplinker/metabolomics/gnps/gnps_downloader.py</code> <pre><code>def get_download_file(self) -&gt; str:\n    \"\"\"Get the path to the zip file.\n\n    Returns:\n        Download path as string\n    \"\"\"\n    return str(Path(self._download_root) / self._file_name)\n</code></pre>"},{"location":"api/gnps/#nplinker.metabolomics.gnps.GNPSDownloader.get_task_id","title":"get_task_id","text":"<pre><code>get_task_id() -&gt; str\n</code></pre> <p>Get the GNPS task id.</p> <p>Returns:</p> Type Description <code>str</code> <p>Task id as string.</p> Source code in <code>src/nplinker/metabolomics/gnps/gnps_downloader.py</code> <pre><code>def get_task_id(self) -&gt; str:\n    \"\"\"Get the GNPS task id.\n\n    Returns:\n        Task id as string.\n    \"\"\"\n    return self._task_id\n</code></pre>"},{"location":"api/gnps/#nplinker.metabolomics.gnps.GNPSDownloader.get_url","title":"get_url","text":"<pre><code>get_url() -&gt; str\n</code></pre> <p>Get the full URL linking to GNPS data to be dowloaded.</p> <p>Returns:</p> Type Description <code>str</code> <p>URL pointing to the GNPS data to be downloaded.</p> Source code in <code>src/nplinker/metabolomics/gnps/gnps_downloader.py</code> <pre><code>def get_url(self) -&gt; str:\n    \"\"\"Get the full URL linking to GNPS data to be dowloaded.\n\n    Returns:\n        URL pointing to the GNPS data to be downloaded.\n    \"\"\"\n    if self.gnps_format == GNPSFormat.FBMN:\n        return GNPSDownloader.GNPS_DATA_DOWNLOAD_URL_FBMN.format(self._task_id)\n    return GNPSDownloader.GNPS_DATA_DOWNLOAD_URL.format(self._task_id)\n</code></pre>"},{"location":"api/gnps/#nplinker.metabolomics.gnps.GNPSExtractor","title":"GNPSExtractor","text":"<pre><code>GNPSExtractor(file: str | PathLike, extract_dir: str | PathLike)\n</code></pre> <p>Class to extract files from a GNPS molecular networking archive(.zip).</p> <p>Four files are extracted and renamed to the following names:</p> <ul> <li>file_mappings(.tsv/.csv)</li> <li>spectra.mgf</li> <li>molecular_families.tsv</li> <li>annotations.tsv</li> </ul> <p>The files to be extracted are selected based on the GNPS workflow type, as desribed below (in the order of the files above):</p> <ol> <li>METABOLOMICS-SNETS<ul> <li>clusterinfosummarygroup_attributes_withIDs_withcomponentID/*.tsv</li> <li>METABOLOMICS-SNETS*.mgf</li> <li>networkedges_selfloop/*.pairsinfo</li> <li>result_specnets_DB/*.tsv</li> </ul> </li> <li>METABOLOMICS-SNETS-V2<ul> <li>clusterinfosummarygroup_attributes_withIDs_withcomponentID/*.clustersummary</li> <li>METABOLOMICS-SNETS-V2*.mgf</li> <li>networkedges_selfloop/*.selfloop</li> <li>result_specnets_DB/.tsv</li> </ul> </li> <li>FEATURE-BASED-MOLECULAR-NETWORKING<ul> <li>quantification_table/.csv</li> <li>spectra/*.mgf</li> <li>networkedges_selfloop/*.selfloop</li> <li>DB_result/*.tsv</li> </ul> </li> </ol> <p>Parameters:</p> Name Type Description Default <code>file</code> <code>str | PathLike</code> <p>The path to the GNPS zip file.</p> required <code>extract_dir</code> <code>str | PathLike</code> <p>path to the directory where to extract the files to.</p> required <p>Raises:</p> Type Description <code>ValueError</code> <p>If the given file is an invalid GNPS archive.</p> <p>Examples:</p> <pre><code>&gt;&gt;&gt; gnps_extractor = GNPSExtractor(\"path/to/gnps_archive.zip\", \"path/to/extract_dir\")\n&gt;&gt;&gt; gnps_extractor.gnps_format\n&lt;GNPSFormat.SNETS: 'METABOLOMICS-SNETS'&gt;\n&gt;&gt;&gt; gnps_extractor.extract_dir\n'path/to/extract_dir'\n</code></pre> Source code in <code>src/nplinker/metabolomics/gnps/gnps_extractor.py</code> <pre><code>def __init__(self, file: str | PathLike, extract_dir: str | PathLike):\n    \"\"\"Class to extract files from a GNPS molecular networking archive(.zip).\n\n    Four files are extracted and renamed to the following names:\n\n    - file_mappings(.tsv/.csv)\n    - spectra.mgf\n    - molecular_families.tsv\n    - annotations.tsv\n\n    The files to be extracted are selected based on the GNPS workflow type,\n    as desribed below (in the order of the files above):\n\n    1. METABOLOMICS-SNETS\n        - clusterinfosummarygroup_attributes_withIDs_withcomponentID/*.tsv\n        - METABOLOMICS-SNETS*.mgf\n        - networkedges_selfloop/*.pairsinfo\n        - result_specnets_DB/*.tsv\n    2. METABOLOMICS-SNETS-V2\n        - clusterinfosummarygroup_attributes_withIDs_withcomponentID/*.clustersummary\n        - METABOLOMICS-SNETS-V2*.mgf\n        - networkedges_selfloop/*.selfloop\n        - result_specnets_DB/.tsv\n    3. FEATURE-BASED-MOLECULAR-NETWORKING\n        - quantification_table*/*.csv\n        - spectra/*.mgf\n        - networkedges_selfloop/*.selfloop\n        - DB_result/*.tsv\n\n    Args:\n        file: The path to the GNPS zip file.\n        extract_dir: path to the directory where to extract the files to.\n\n    Raises:\n        ValueError: If the given file is an invalid GNPS archive.\n\n    Examples:\n        &gt;&gt;&gt; gnps_extractor = GNPSExtractor(\"path/to/gnps_archive.zip\", \"path/to/extract_dir\")\n        &gt;&gt;&gt; gnps_extractor.gnps_format\n        &lt;GNPSFormat.SNETS: 'METABOLOMICS-SNETS'&gt;\n        &gt;&gt;&gt; gnps_extractor.extract_dir\n        'path/to/extract_dir'\n    \"\"\"\n    gnps_format = gnps_format_from_archive(file)\n    if gnps_format == GNPSFormat.Unknown:\n        raise ValueError(\n            f\"Unknown workflow type for GNPS archive '{file}'.\"\n            f\"Supported GNPS workflows are described in the GNPSFormat enum, \"\n            f\"including such as 'METABOLOMICS-SNETS', 'METABOLOMICS-SNETS-V2' \"\n            f\"and 'FEATURE-BASED-MOLECULAR-NETWORKING'.\"\n        )\n\n    self._file = Path(file)\n    self._extract_path = Path(extract_dir)\n    self._gnps_format = gnps_format\n    # the order of filenames matters\n    self._target_files = [\n        \"file_mappings\",\n        \"spectra.mgf\",\n        \"molecular_families.tsv\",\n        \"annotations.tsv\",\n    ]\n\n    self._extract()\n</code></pre>"},{"location":"api/gnps/#nplinker.metabolomics.gnps.GNPSExtractor.gnps_format","title":"gnps_format  <code>property</code>","text":"<pre><code>gnps_format: GNPSFormat\n</code></pre> <p>Get the GNPS workflow type.</p> <p>Returns:</p> Type Description <code>GNPSFormat</code> <p>GNPS workflow type.</p>"},{"location":"api/gnps/#nplinker.metabolomics.gnps.GNPSExtractor.extract_dir","title":"extract_dir  <code>property</code>","text":"<pre><code>extract_dir: str\n</code></pre> <p>Get the path where to extract the files to.</p> <p>Returns:</p> Type Description <code>str</code> <p>Path where to extract files as string.</p>"},{"location":"api/gnps/#nplinker.metabolomics.gnps.GNPSSpectrumLoader","title":"GNPSSpectrumLoader","text":"<pre><code>GNPSSpectrumLoader(file: str | PathLike)\n</code></pre> <p>             Bases: <code>SpectrumLoaderBase</code></p> <p>Class to load mass spectra from the given GNPS MGF file.</p> <p>The file mappings file is from GNPS output archive, as described below for each GNPS workflow type:</p> <ol> <li>METABOLOMICS-SNETS<ul> <li>METABOLOMICS-SNETS*.mgf</li> </ul> </li> <li>METABOLOMICS-SNETS-V2<ul> <li>METABOLOMICS-SNETS-V2*.mgf</li> </ul> </li> <li>FEATURE-BASED-MOLECULAR-NETWORKING<ul> <li>spectra/*.mgf</li> </ul> </li> </ol> <p>Parameters:</p> Name Type Description Default <code>file</code> <code>str | PathLike</code> <p>path to the MGF file.</p> required <p>Raises:</p> Type Description <code>ValueError</code> <p>Raises ValueError if the file is not valid.</p> Example <p>loader = GNPSSpectrumLoader(\"gnps_spectra.mgf\") print(loader.spectra[0])</p> Source code in <code>src/nplinker/metabolomics/gnps/gnps_spectrum_loader.py</code> <pre><code>def __init__(self, file: str | PathLike):\n    \"\"\"Class to load mass spectra from the given GNPS MGF file.\n\n    The file mappings file is from GNPS output archive, as described below\n    for each GNPS workflow type:\n\n    1. METABOLOMICS-SNETS\n        - METABOLOMICS-SNETS*.mgf\n    2. METABOLOMICS-SNETS-V2\n        - METABOLOMICS-SNETS-V2*.mgf\n    3. FEATURE-BASED-MOLECULAR-NETWORKING\n        - spectra/*.mgf\n\n    Args:\n        file: path to the MGF file.\n\n    Raises:\n        ValueError: Raises ValueError if the file is not valid.\n\n    Example:\n        &gt;&gt;&gt; loader = GNPSSpectrumLoader(\"gnps_spectra.mgf\")\n        &gt;&gt;&gt; print(loader.spectra[0])\n    \"\"\"\n    self._file = str(file)\n    self._spectra: list[Spectrum] = []\n\n    self._validate()\n    self._load()\n</code></pre>"},{"location":"api/gnps/#nplinker.metabolomics.gnps.GNPSSpectrumLoader.spectra","title":"spectra  <code>property</code>","text":"<pre><code>spectra: list[Spectrum]\n</code></pre> <p>Get the list of Spectrum objects.</p> <p>Returns:</p> Type Description <code>list[Spectrum]</code> <p>list[Spectrum]: the loaded spectra as a list of <code>Spectrum</code> objects.</p>"},{"location":"api/gnps/#nplinker.metabolomics.gnps.GNPSMolecularFamilyLoader","title":"GNPSMolecularFamilyLoader","text":"<pre><code>GNPSMolecularFamilyLoader(file: str | PathLike)\n</code></pre> <p>             Bases: <code>MolecularFamilyLoaderBase</code></p> <p>Class to load molecular families from GNPS output file.</p> <p>The molecular family file is from GNPS output archive, as described below for each GNPS workflow type: 1. METABOLOMICS-SNETS     - networkedges_selfloop/.pairsinfo 2. METABOLOMICS-SNETS-V2     - networkedges_selfloop/.selfloop 3. FEATURE-BASED-MOLECULAR-NETWORKING     - networkedges_selfloop/*.selfloop</p> <p>The \"ComponentIndex\" column in the GNPS molecular family's file is treated as family id. But for molecular families that have only one member (i.e. spectrum), named singleton molecular families, their files have the same value of \"-1\" in the \"ComponentIndex\" column. To make the family id unique,the spectrum id plus a prefix \"singleton-\" is used as the family id of singleton molecular families.</p> <p>Parameters:</p> Name Type Description Default <code>file</code> <code>str | PathLike</code> <p>Path to the GNPS molecular family file.</p> required <p>Raises:</p> Type Description <code>ValueError</code> <p>Raises ValueError if the file is not valid.</p> Example <p>loader = GNPSMolecularFamilyLoader(\"gnps_molecular_families.tsv\") print(loader.families) [, , ...] print(loader.families[0].spectra_ids) Source code in <code>src/nplinker/metabolomics/gnps/gnps_molecular_family_loader.py</code> <pre><code>def __init__(self, file: str | PathLike):\n    \"\"\"Class to load molecular families from GNPS output file.\n\n    The molecular family file is from GNPS output archive, as described below\n    for each GNPS workflow type:\n    1. METABOLOMICS-SNETS\n        - networkedges_selfloop/*.pairsinfo\n    2. METABOLOMICS-SNETS-V2\n        - networkedges_selfloop/*.selfloop\n    3. FEATURE-BASED-MOLECULAR-NETWORKING\n        - networkedges_selfloop/*.selfloop\n\n    The \"ComponentIndex\" column in the GNPS molecular family's file is treated\n    as family id. But for molecular families that have only one member (i.e. spectrum),\n    named singleton molecular families, their files have the same value of\n    \"-1\" in the \"ComponentIndex\" column. To make the family id unique,the\n    spectrum id plus a prefix \"singleton-\" is used as the family id of\n    singleton molecular families.\n\n    Args:\n        file: Path to the GNPS molecular family file.\n\n    Raises:\n        ValueError: Raises ValueError if the file is not valid.\n\n    Example:\n        &gt;&gt;&gt; loader = GNPSMolecularFamilyLoader(\"gnps_molecular_families.tsv\")\n        &gt;&gt;&gt; print(loader.families)\n        [&lt;MolecularFamily 1&gt;, &lt;MolecularFamily 2&gt;, ...]\n        &gt;&gt;&gt; print(loader.families[0].spectra_ids)\n        {'1', '3', '7', ...}\n    \"\"\"\n    self._mfs: list[MolecularFamily] = []\n    self._file = file\n\n    self._validate()\n    self._load()\n</code></pre>"},{"location":"api/gnps/#nplinker.metabolomics.gnps.GNPSMolecularFamilyLoader.get_mfs","title":"get_mfs","text":"<pre><code>get_mfs(keep_singleton: bool = False) -&gt; list[MolecularFamily]\n</code></pre> <p>Get MolecularFamily objects.</p> <p>Parameters:</p> Name Type Description Default <code>keep_singleton</code> <code>bool</code> <p>True to keep singleton molecular families. A singleton molecular family is a molecular family that contains only one spectrum.</p> <code>False</code> <p>Returns:</p> Type Description <code>list[MolecularFamily]</code> <p>list[MolecularFamily]: A list of MolecularFamily objects with their spectra ids.</p> Source code in <code>src/nplinker/metabolomics/gnps/gnps_molecular_family_loader.py</code> <pre><code>def get_mfs(self, keep_singleton: bool = False) -&gt; list[MolecularFamily]:\n    \"\"\"Get MolecularFamily objects.\n\n    Args:\n        keep_singleton: True to keep singleton molecular families. A\n            singleton molecular family is a molecular family that contains\n            only one spectrum.\n\n    Returns:\n        list[MolecularFamily]: A list of MolecularFamily objects with their\n            spectra ids.\n    \"\"\"\n    mfs = self._mfs\n    if not keep_singleton:\n        mfs = [mf for mf in mfs if not mf.is_singleton()]\n    return mfs\n</code></pre>"},{"location":"api/gnps/#nplinker.metabolomics.gnps.GNPSAnnotationLoader","title":"GNPSAnnotationLoader","text":"<pre><code>GNPSAnnotationLoader(file: str | PathLike)\n</code></pre> <p>             Bases: <code>AnnotationLoaderBase</code></p> <p>Load annotations from GNPS output file.</p> <p>The annotation file is a .tsv file from GNPS output archive, as described below for each GNPS workflow type: 1. METABOLOMICS-SNETS     - result_specnets_DB/.tsv 2. METABOLOMICS-SNETS-V2     - result_specnets_DB/.tsv 3. FEATURE-BASED-MOLECULAR-NETWORKING     - DB_result/.tsv</p> <p>Parameters:</p> Name Type Description Default <code>file</code> <code>str | PathLike</code> <p>The GNPS annotation file.</p> required Example <p>loader = GNPSAnnotationLoader(\"gnps_annotations.tsv\") print(loader.annotations[\"100\"]) {'#Scan#': '100', 'Adduct': 'M+H', 'CAS_Number': 'N/A', 'Charge': '1', 'Compound_Name': 'MLS002153841-01!Iobenguane sulfate', 'Compound_Source': 'NIH Pharmacologically Active Library', 'Data_Collector': 'VP/LMS', 'ExactMass': '274.992', 'INCHI': 'N/A', 'INCHI_AUX': 'N/A', 'Instrument': 'qTof', 'IonMode': 'Positive', 'Ion_Source': 'LC-ESI', 'LibMZ': '276.003', 'LibraryName': 'lib-00014.mgf', 'LibraryQualityString': 'Gold', 'Library_Class': '1', 'MQScore': '0.704152', 'MZErrorPPM': '405416', 'MassDiff': '111.896', 'Organism': 'GNPS-NIH-SMALLMOLECULEPHARMACOLOGICALLYACTIVE', 'PI': 'Dorrestein', 'Precursor_MZ': '276.003', 'Pubmed_ID': 'N/A', 'RT_Query': '795.979', 'SharedPeaks': '7', 'Smiles': 'NC(=N)NCc1cccc(I)c1.OS(=O)(=O)O', 'SpecCharge': '1', 'SpecMZ': '164.107', 'SpectrumFile': 'spectra/specs_ms.pklbin', 'SpectrumID': 'CCMSLIB00000086167', 'TIC_Query': '986.997', 'UpdateWorkflowName': 'UPDATE-SINGLE-ANNOTATED-GOLD', 'tags': ' ', 'png_url': 'https://metabolomics-usi.gnps2.org/png/?usi1=mzspec:GNPS:GNPS-LIBRARY:accession:CCMSLIB00000086167', 'json_url': 'https://metabolomics-usi.gnps2.org/json/?usi1=mzspec:GNPS:GNPS-LIBRARY:accession:CCMSLIB00000086167', 'svg_url': 'https://metabolomics-usi.gnps2.org/svg/?usi1=mzspec:GNPS:GNPS-LIBRARY:accession:CCMSLIB00000086167', 'spectrum_url': 'https://metabolomics-usi.gnps2.org/spectrum/?usi1=mzspec:GNPS:GNPS-LIBRARY:accession:CCMSLIB00000086167'}</p> Source code in <code>src/nplinker/metabolomics/gnps/gnps_annotation_loader.py</code> <pre><code>def __init__(self, file: str | PathLike):\n    \"\"\"Load annotations from GNPS output file.\n\n    The annotation file is a .tsv file from GNPS output archive, as described\n    below for each GNPS workflow type:\n    1. METABOLOMICS-SNETS\n        - result_specnets_DB/*.tsv\n    2. METABOLOMICS-SNETS-V2\n        - result_specnets_DB/.tsv\n    3. FEATURE-BASED-MOLECULAR-NETWORKING\n        - DB_result/*.tsv\n\n    Args:\n        file: The GNPS annotation file.\n\n    Example:\n        &gt;&gt;&gt; loader = GNPSAnnotationLoader(\"gnps_annotations.tsv\")\n        &gt;&gt;&gt; print(loader.annotations[\"100\"])\n        {'#Scan#': '100',\n        'Adduct': 'M+H',\n        'CAS_Number': 'N/A',\n        'Charge': '1',\n        'Compound_Name': 'MLS002153841-01!Iobenguane sulfate',\n        'Compound_Source': 'NIH Pharmacologically Active Library',\n        'Data_Collector': 'VP/LMS',\n        'ExactMass': '274.992',\n        'INCHI': 'N/A',\n        'INCHI_AUX': 'N/A',\n        'Instrument': 'qTof',\n        'IonMode': 'Positive',\n        'Ion_Source': 'LC-ESI',\n        'LibMZ': '276.003',\n        'LibraryName': 'lib-00014.mgf',\n        'LibraryQualityString': 'Gold',\n        'Library_Class': '1',\n        'MQScore': '0.704152',\n        'MZErrorPPM': '405416',\n        'MassDiff': '111.896',\n        'Organism': 'GNPS-NIH-SMALLMOLECULEPHARMACOLOGICALLYACTIVE',\n        'PI': 'Dorrestein',\n        'Precursor_MZ': '276.003',\n        'Pubmed_ID': 'N/A',\n        'RT_Query': '795.979',\n        'SharedPeaks': '7',\n        'Smiles': 'NC(=N)NCc1cccc(I)c1.OS(=O)(=O)O',\n        'SpecCharge': '1',\n        'SpecMZ': '164.107',\n        'SpectrumFile': 'spectra/specs_ms.pklbin',\n        'SpectrumID': 'CCMSLIB00000086167',\n        'TIC_Query': '986.997',\n        'UpdateWorkflowName': 'UPDATE-SINGLE-ANNOTATED-GOLD',\n        'tags': ' ',\n        'png_url': 'https://metabolomics-usi.gnps2.org/png/?usi1=mzspec:GNPS:GNPS-LIBRARY:accession:CCMSLIB00000086167',\n        'json_url': 'https://metabolomics-usi.gnps2.org/json/?usi1=mzspec:GNPS:GNPS-LIBRARY:accession:CCMSLIB00000086167',\n        'svg_url': 'https://metabolomics-usi.gnps2.org/svg/?usi1=mzspec:GNPS:GNPS-LIBRARY:accession:CCMSLIB00000086167',\n        'spectrum_url': 'https://metabolomics-usi.gnps2.org/spectrum/?usi1=mzspec:GNPS:GNPS-LIBRARY:accession:CCMSLIB00000086167'}\n    \"\"\"\n    self._file = Path(file)\n    self._annotations: dict[str, dict] = {}\n\n    self._validate()\n    self._load()\n</code></pre>"},{"location":"api/gnps/#nplinker.metabolomics.gnps.GNPSAnnotationLoader.annotations","title":"annotations  <code>property</code>","text":"<pre><code>annotations: dict[str, dict]\n</code></pre> <p>Get annotations.</p> <p>Returns:</p> Type Description <code>dict[str, dict]</code> <p>dict[str, dict]: Keys are spectrum ids (\"#Scan#\" in annotation file) and values are the annotations dict for each spectrum.</p>"},{"location":"api/gnps/#nplinker.metabolomics.gnps.GNPSFileMappingLoader","title":"GNPSFileMappingLoader","text":"<pre><code>GNPSFileMappingLoader(file: str | PathLike)\n</code></pre> <p>             Bases: <code>FileMappingLoaderBase</code></p> <p>Class to load file mappings from GNPS output file.</p> <p>File mappings refers to the mapping from spectrum id to files in which this spectrum occurs.</p> <p>The file mappings file is from GNPS output archive, as described below for each GNPS workflow type:</p> <ol> <li>METABOLOMICS-SNETS<ul> <li>clusterinfosummarygroup_attributes_withIDs_withcomponentID/*.tsv</li> </ul> </li> <li>METABOLOMICS-SNETS-V2<ul> <li>clusterinfosummarygroup_attributes_withIDs_withcomponentID/*.clustersummary</li> </ul> </li> <li>FEATURE-BASED-MOLECULAR-NETWORKING<ul> <li>quantification_table/.csv</li> </ul> </li> </ol> <p>Parameters:</p> Name Type Description Default <code>file</code> <code>str | PathLike</code> <p>Path to the GNPS file mappings file.</p> required <p>Raises:</p> Type Description <code>ValueError</code> <p>Raises ValueError if the file is not valid.</p> <p>Examples:</p> <pre><code>&gt;&gt;&gt; loader = GNPSFileMappingLoader(\"gnps_file_mappings.tsv\")\n&gt;&gt;&gt; print(loader.mappings[\"1\"])\n['26c.mzXML']\n&gt;&gt;&gt; print(loader.mapping_reversed[\"26c.mzXML\"])\n{'1', '3', '7', ...}\n</code></pre> Source code in <code>src/nplinker/metabolomics/gnps/gnps_file_mapping_loader.py</code> <pre><code>def __init__(self, file: str | PathLike):\n    \"\"\"Class to load file mappings from GNPS output file.\n\n    File mappings refers to the mapping from spectrum id to files in which\n    this spectrum occurs.\n\n    The file mappings file is from GNPS output archive, as described below\n    for each GNPS workflow type:\n\n    1. METABOLOMICS-SNETS\n        - clusterinfosummarygroup_attributes_withIDs_withcomponentID/*.tsv\n    2. METABOLOMICS-SNETS-V2\n        - clusterinfosummarygroup_attributes_withIDs_withcomponentID/*.clustersummary\n    3. FEATURE-BASED-MOLECULAR-NETWORKING\n        - quantification_table*/*.csv\n\n    Args:\n        file: Path to the GNPS file mappings file.\n\n    Raises:\n        ValueError: Raises ValueError if the file is not valid.\n\n    Examples:\n        &gt;&gt;&gt; loader = GNPSFileMappingLoader(\"gnps_file_mappings.tsv\")\n        &gt;&gt;&gt; print(loader.mappings[\"1\"])\n        ['26c.mzXML']\n        &gt;&gt;&gt; print(loader.mapping_reversed[\"26c.mzXML\"])\n        {'1', '3', '7', ...}\n    \"\"\"\n    self._gnps_format = gnps_format_from_file_mapping(file)\n    if self._gnps_format is GNPSFormat.Unknown:\n        raise ValueError(\"Unknown workflow type for GNPS file mappings file \")\n\n    self._file = Path(file)\n    self._mapping: dict[str, list[str]] = {}\n\n    self._validate()\n    self._load()\n</code></pre>"},{"location":"api/gnps/#nplinker.metabolomics.gnps.GNPSFileMappingLoader.mappings","title":"mappings  <code>property</code>","text":"<pre><code>mappings: dict[str, list[str]]\n</code></pre> <p>Return mapping from spectrum id to files in which this spectrum occurs.</p> <p>Returns:</p> Type Description <code>dict[str, list[str]]</code> <p>dict[str, list[str]]: Mapping from spectrum id to names of all files in which this spectrum occurs.</p>"},{"location":"api/gnps/#nplinker.metabolomics.gnps.GNPSFileMappingLoader.mapping_reversed","title":"mapping_reversed  <code>property</code>","text":"<pre><code>mapping_reversed: dict[str, set[str]]\n</code></pre> <p>Return mapping from file name to all spectra that occur in this file.</p> <p>Returns:</p> Type Description <code>dict[str, set[str]]</code> <p>dict[str, set[str]]: Mapping from file name to all spectra ids that occur in this file.</p>"},{"location":"api/gnps/#nplinker.metabolomics.gnps.gnps_format_from_archive","title":"gnps_format_from_archive","text":"<pre><code>gnps_format_from_archive(zip_file: str | PathLike) -&gt; GNPSFormat\n</code></pre> <p>Detect GNPS format from a downloaded GNPS zip archive.</p> <p>The detection is based on the filename of the zip file and the names of the files contained in the zip file.</p> <p>Parameters:</p> Name Type Description Default <code>zip_file</code> <code>str | PathLike</code> <p>Path to the downloaded GNPS zip file.</p> required <p>Returns:</p> Type Description <code>GNPSFormat</code> <p>The format identified in the GNPS zip file.</p> <p>Examples:</p> <pre><code>&gt;&gt;&gt; gnps_format_from_archive(\"downloads/ProteoSAFe-METABOLOMICS-SNETS-c22f44b1-download_clustered_spectra.zip\") == GNPSFormat.SNETS\n&gt;&gt;&gt; gnps_format_from_archive(\"downloads/ProteoSAFe-METABOLOMICS-SNETS-V2-189e8bf1-download_clustered_spectra.zip\") == GNPSFormat.SNETSV2\n&gt;&gt;&gt; gnps_format_from_archive(\"downloads/ProteoSAFe-FEATURE-BASED-MOLECULAR-NETWORKING-672d0a53-download_cytoscape_data.zip\") == GNPSFormat.FBMN\n</code></pre> Source code in <code>src/nplinker/metabolomics/gnps/gnps_format.py</code> <pre><code>def gnps_format_from_archive(zip_file: str | PathLike) -&gt; GNPSFormat:\n    \"\"\"Detect GNPS format from a downloaded GNPS zip archive.\n\n    The detection is based on the filename of the zip file and the names of the\n    files contained in the zip file.\n\n    Args:\n        zip_file: Path to the downloaded GNPS zip file.\n\n    Returns:\n        The format identified in the GNPS zip file.\n\n    Examples:\n        &gt;&gt;&gt; gnps_format_from_archive(\"downloads/ProteoSAFe-METABOLOMICS-SNETS-c22f44b1-download_clustered_spectra.zip\") == GNPSFormat.SNETS\n        &gt;&gt;&gt; gnps_format_from_archive(\"downloads/ProteoSAFe-METABOLOMICS-SNETS-V2-189e8bf1-download_clustered_spectra.zip\") == GNPSFormat.SNETSV2\n        &gt;&gt;&gt; gnps_format_from_archive(\"downloads/ProteoSAFe-FEATURE-BASED-MOLECULAR-NETWORKING-672d0a53-download_cytoscape_data.zip\") == GNPSFormat.FBMN\n    \"\"\"\n    file = Path(zip_file)\n    # Guess the format from the filename of the zip file\n    if GNPSFormat.FBMN.value in file.name:\n        return GNPSFormat.FBMN\n    # the order of the if statements matters for the following two\n    if GNPSFormat.SNETSV2.value in file.name:\n        return GNPSFormat.SNETSV2\n    if GNPSFormat.SNETS.value in file.name:\n        return GNPSFormat.SNETS\n\n    # Guess the format from the names of the files in the zip file\n    with zipfile.ZipFile(file) as archive:\n        filenames = archive.namelist()\n    if any(GNPSFormat.FBMN.value in x for x in filenames):\n        return GNPSFormat.FBMN\n    # the order of the if statements matters for the following two\n    if any(GNPSFormat.SNETSV2.value in x for x in filenames):\n        return GNPSFormat.SNETSV2\n    if any(GNPSFormat.SNETS.value in x for x in filenames):\n        return GNPSFormat.SNETS\n\n    return GNPSFormat.Unknown\n</code></pre>"},{"location":"api/gnps/#nplinker.metabolomics.gnps.gnps_format_from_file_mapping","title":"gnps_format_from_file_mapping","text":"<pre><code>gnps_format_from_file_mapping(file: str | PathLike) -&gt; GNPSFormat\n</code></pre> <p>Detect GNPS format from the given file mapping file.</p> <p>The GNSP file mapping file is located in different folders depending on the GNPS workflow. Here are the locations in corresponding GNPS zip archives:</p> <ul> <li>METABOLOMICS-SNETS workflow: the .tsv file under folder \"clusterinfosummarygroup_attributes_withIDs_withcomponentID\"</li> <li>METABOLOMICS-SNETS-V2 workflow: the .clustersummary file (tsv) under folder \"clusterinfosummarygroup_attributes_withIDs_withcomponentID\"</li> <li>FEATURE-BASED-MOLECULAR-NETWORKING workflow: the .csv file under folder \"quantification_table\"</li> </ul> <p>Parameters:</p> Name Type Description Default <code>file</code> <code>str | PathLike</code> <p>Path to the file to peek the format for.</p> required <p>Returns:</p> Type Description <code>GNPSFormat</code> <p>GNPS format identified in the file.</p> Source code in <code>src/nplinker/metabolomics/gnps/gnps_format.py</code> <pre><code>def gnps_format_from_file_mapping(file: str | PathLike) -&gt; GNPSFormat:\n    \"\"\"Detect GNPS format from the given file mapping file.\n\n    The GNSP file mapping file is located in different folders depending on the\n    GNPS workflow. Here are the locations in corresponding GNPS zip archives:\n\n    - METABOLOMICS-SNETS workflow: the .tsv file under folder \"clusterinfosummarygroup_attributes_withIDs_withcomponentID\"\n    - METABOLOMICS-SNETS-V2 workflow: the .clustersummary file (tsv) under folder \"clusterinfosummarygroup_attributes_withIDs_withcomponentID\"\n    - FEATURE-BASED-MOLECULAR-NETWORKING workflow: the .csv file under folder \"quantification_table\"\n\n    Args:\n        file: Path to the file to peek the format for.\n\n    Returns:\n        GNPS format identified in the file.\n    \"\"\"\n    headers = get_headers(file)\n    if \"AllFiles\" in headers:\n        return GNPSFormat.SNETS\n    if \"UniqueFileSources\" in headers:\n        return GNPSFormat.SNETSV2\n    if \"row ID\" in headers:\n        return GNPSFormat.FBMN\n    return GNPSFormat.Unknown\n</code></pre>"},{"location":"api/gnps/#nplinker.metabolomics.gnps.gnps_format_from_task_id","title":"gnps_format_from_task_id","text":"<pre><code>gnps_format_from_task_id(task_id: str) -&gt; GNPSFormat\n</code></pre> <p>Detect GNPS format for the given task id.</p> <p>Parameters:</p> Name Type Description Default <code>task_id</code> <code>str</code> <p>GNPS task id.</p> required <p>Returns:</p> Type Description <code>GNPSFormat</code> <p>The format identified in the GNPS task.</p> <p>Examples:</p> <pre><code>&gt;&gt;&gt; gnps_format_from_task_id(\"c22f44b14a3d450eb836d607cb9521bb\") == GNPSFormat.SNETS\n&gt;&gt;&gt; gnps_format_from_task_id(\"189e8bf16af145758b0a900f1c44ff4a\") == GNPSFormat.SNETSV2\n&gt;&gt;&gt; gnps_format_from_task_id(\"92036537c21b44c29e509291e53f6382\") == GNPSFormat.FBMN\n&gt;&gt;&gt; gnps_format_from_task_id(\"0ad6535e34d449788f297e712f43068a\") == GNPSFormat.Unknown\n</code></pre> Source code in <code>src/nplinker/metabolomics/gnps/gnps_format.py</code> <pre><code>def gnps_format_from_task_id(task_id: str) -&gt; GNPSFormat:\n    \"\"\"Detect GNPS format for the given task id.\n\n    Args:\n        task_id: GNPS task id.\n\n    Returns:\n        The format identified in the GNPS task.\n\n    Examples:\n        &gt;&gt;&gt; gnps_format_from_task_id(\"c22f44b14a3d450eb836d607cb9521bb\") == GNPSFormat.SNETS\n        &gt;&gt;&gt; gnps_format_from_task_id(\"189e8bf16af145758b0a900f1c44ff4a\") == GNPSFormat.SNETSV2\n        &gt;&gt;&gt; gnps_format_from_task_id(\"92036537c21b44c29e509291e53f6382\") == GNPSFormat.FBMN\n        &gt;&gt;&gt; gnps_format_from_task_id(\"0ad6535e34d449788f297e712f43068a\") == GNPSFormat.Unknown\n    \"\"\"\n    task_html = httpx.get(GNPS_TASK_URL.format(task_id))\n    soup = BeautifulSoup(task_html.text, features=\"html.parser\")\n    tags = soup.find_all(\"th\")\n    workflow_tag: Tag = list(filter(lambda x: x.contents == [\"Workflow\"], tags))[0]\n    workflow_format_tag: Tag = workflow_tag.parent.contents[3]\n    workflow_format = workflow_format_tag.contents[0].strip()\n\n    if workflow_format == GNPSFormat.FBMN.value:\n        return GNPSFormat.FBMN\n    if workflow_format == GNPSFormat.SNETSV2.value:\n        return GNPSFormat.SNETSV2\n    if workflow_format == GNPSFormat.SNETS.value:\n        return GNPSFormat.SNETS\n    return GNPSFormat.Unknown\n</code></pre>"},{"location":"api/loader/","title":"Dataset Loader","text":""},{"location":"api/loader/#nplinker.loader","title":"loader","text":""},{"location":"api/loader/#nplinker.loader.DatasetLoader","title":"DatasetLoader","text":"<pre><code>DatasetLoader()\n</code></pre> Source code in <code>src/nplinker/loader.py</code> <pre><code>def __init__(self):\n    # set public attributes\n    self.bgcs, self.gcfs, self.spectra, self.molfams = [], [], [], []\n    self.mibig_bgcs = []\n    self.mibig_strains_in_use = StrainCollection()\n    self.product_types = []\n    self.strains = StrainCollection()\n\n    self.class_matches = None\n    self.chem_classes = None\n</code></pre>"},{"location":"api/metabolomics/","title":"Data Models","text":""},{"location":"api/metabolomics/#nplinker.metabolomics","title":"metabolomics","text":""},{"location":"api/metabolomics/#nplinker.metabolomics.MolecularFamily","title":"MolecularFamily","text":"<pre><code>MolecularFamily(family_id: str)\n</code></pre> <p>Class to model molecular family.</p> <p>Parameters:</p> Name Type Description Default <code>family_id</code> <code>str</code> <p>Unique id for the molecular family.</p> required <p>Attributes:</p> Name Type Description <code>family_id</code> <p>Unique id for the molecular family.</p> <code>spectra_ids</code> <p>Set of spectrum ids in the molecular family.</p> Source code in <code>src/nplinker/metabolomics/molecular_family.py</code> <pre><code>def __init__(self, family_id: str):\n    \"\"\"Class to model molecular family.\n\n    Args:\n        family_id: Unique id for the molecular family.\n\n    Attributes:\n        family_id: Unique id for the molecular family.\n        spectra_ids: Set of spectrum ids in the molecular family.\n    \"\"\"\n    self.family_id: str = family_id\n    self.spectra_ids: set[str] = set()\n    self._spectra: set[Spectrum] = set()\n    self._strains: StrainCollection = StrainCollection()\n</code></pre>"},{"location":"api/metabolomics/#nplinker.metabolomics.MolecularFamily.spectra","title":"spectra  <code>property</code>","text":"<pre><code>spectra: set[Spectrum]\n</code></pre> <p>Get Spectrum objects in the molecular family.</p>"},{"location":"api/metabolomics/#nplinker.metabolomics.MolecularFamily.strains","title":"strains  <code>property</code>","text":"<pre><code>strains: StrainCollection\n</code></pre> <p>Get strains in the molecular family.</p>"},{"location":"api/metabolomics/#nplinker.metabolomics.MolecularFamily.add_spectrum","title":"add_spectrum","text":"<pre><code>add_spectrum(spectrum: Spectrum) -&gt; None\n</code></pre> <p>Add a Spectrum object to the molecular family.</p> <p>Parameters:</p> Name Type Description Default <code>spectrum</code> <code>Spectrum</code> <p><code>Spectrum</code> object to add to the molecular family.</p> required Source code in <code>src/nplinker/metabolomics/molecular_family.py</code> <pre><code>def add_spectrum(self, spectrum: Spectrum) -&gt; None:\n    \"\"\"Add a Spectrum object to the molecular family.\n\n    Args:\n        spectrum: `Spectrum` object to add to the molecular family.\n    \"\"\"\n    self._spectra.add(spectrum)\n    self.spectra_ids.add(spectrum.spectrum_id)\n    self._strains = self._strains + spectrum.strains\n    # add the molecular family to the spectrum\n    spectrum.family = self\n</code></pre>"},{"location":"api/metabolomics/#nplinker.metabolomics.MolecularFamily.detach_spectrum","title":"detach_spectrum","text":"<pre><code>detach_spectrum(spectrum: Spectrum) -&gt; None\n</code></pre> <p>Remove a Spectrum object from the molecular family.</p> <p>Parameters:</p> Name Type Description Default <code>spectrum</code> <code>Spectrum</code> <p><code>Spectrum</code> object to remove from the molecular family.</p> required Source code in <code>src/nplinker/metabolomics/molecular_family.py</code> <pre><code>def detach_spectrum(self, spectrum: Spectrum) -&gt; None:\n    \"\"\"Remove a Spectrum object from the molecular family.\n\n    Args:\n        spectrum: `Spectrum` object to remove from the molecular family.\n    \"\"\"\n    self._spectra.remove(spectrum)\n    self.spectra_ids.remove(spectrum.spectrum_id)\n    self._strains = self._update_strains()\n    # remove the molecular family from the spectrum\n    spectrum.family = None\n</code></pre>"},{"location":"api/metabolomics/#nplinker.metabolomics.MolecularFamily.has_strain","title":"has_strain","text":"<pre><code>has_strain(strain: Strain) -&gt; bool\n</code></pre> <p>Check if the given strain exists.</p> <p>Parameters:</p> Name Type Description Default <code>strain</code> <code>Strain</code> <p><code>Strain</code> object.</p> required <p>Returns:</p> Type Description <code>bool</code> <p>True when the given strain exists.</p> Source code in <code>src/nplinker/metabolomics/molecular_family.py</code> <pre><code>def has_strain(self, strain: Strain) -&gt; bool:\n    \"\"\"Check if the given strain exists.\n\n    Args:\n        strain: `Strain` object.\n\n    Returns:\n        True when the given strain exists.\n    \"\"\"\n    return strain in self._strains\n</code></pre>"},{"location":"api/metabolomics/#nplinker.metabolomics.MolecularFamily.is_singleton","title":"is_singleton","text":"<pre><code>is_singleton() -&gt; bool\n</code></pre> <p>Check if the molecular family contains only one spectrum.</p> <p>Returns:</p> Type Description <code>bool</code> <p>True when <code>MolecularFamily.spectra_ids</code> contains only one spectrum id.</p> Source code in <code>src/nplinker/metabolomics/molecular_family.py</code> <pre><code>def is_singleton(self) -&gt; bool:\n    \"\"\"Check if the molecular family contains only one spectrum.\n\n    Returns:\n        True when `MolecularFamily.spectra_ids` contains only one spectrum id.\n    \"\"\"\n    return len(self.spectra_ids) == 1\n</code></pre>"},{"location":"api/metabolomics/#nplinker.metabolomics.Spectrum","title":"Spectrum","text":"<pre><code>Spectrum(spectrum_id: str, mz: list[float], intensity: list[float], precursor_mz: float, rt: float = 0, metadata: dict | None = None)\n</code></pre> <p>Class to model MS/MS Spectrum.</p> <p>Parameters:</p> Name Type Description Default <code>spectrum_id</code> <code>str</code> <p>the spectrum ID.</p> required <code>mz</code> <code>list[float]</code> <p>the list of m/z values.</p> required <code>intensity</code> <code>list[float]</code> <p>the list of intensity values.</p> required <code>precursor_mz</code> <code>float</code> <p>the precursor m/z.</p> required <code>rt</code> <code>float</code> <p>the retention time in seconds. Defaults to 0.</p> <code>0</code> <code>metadata</code> <code>dict | None</code> <p>the metadata of the spectrum, i.e. the header infomation in the MGF file.</p> <code>None</code> <p>Attributes:</p> Name Type Description <code>spectrum_id</code> <p>the spectrum ID.</p> <code>mz</code> <p>the list of m/z values.</p> <code>intensity</code> <p>the list of intensity values.</p> <code>precursor_mz</code> <p>the m/z value of the precursor.</p> <code>rt</code> <p>the retention time in seconds.</p> <code>metadata</code> <p>the metadata of the spectrum, i.e. the header infomation in the MGF file.</p> <code>gnps_annotations</code> <p>the GNPS annotations of the spectrum.</p> <code>gnps_id</code> <p>the GNPS ID of the spectrum.</p> <code>strains</code> <p>the strains that this spectrum belongs to.</p> <code>family</code> <p>the molecular family that this spectrum belongs to.</p> <code>peaks</code> <p>2D array of peaks, each row is a peak of (m/z, intensity) values.</p> Source code in <code>src/nplinker/metabolomics/spectrum.py</code> <pre><code>def __init__(\n    self,\n    spectrum_id: str,\n    mz: list[float],\n    intensity: list[float],\n    precursor_mz: float,\n    rt: float = 0,\n    metadata: dict | None = None,\n) -&gt; None:\n    \"\"\"Class to model MS/MS Spectrum.\n\n    Args:\n        spectrum_id: the spectrum ID.\n        mz: the list of m/z values.\n        intensity: the list of intensity values.\n        precursor_mz: the precursor m/z.\n        rt: the retention time in seconds. Defaults to 0.\n        metadata: the metadata of the spectrum, i.e. the header infomation\n            in the MGF file.\n\n    Attributes:\n        spectrum_id: the spectrum ID.\n        mz: the list of m/z values.\n        intensity: the list of intensity values.\n        precursor_mz: the m/z value of the precursor.\n        rt: the retention time in seconds.\n        metadata: the metadata of the spectrum, i.e. the header infomation in the MGF\n            file.\n        gnps_annotations: the GNPS annotations of the spectrum.\n        gnps_id: the GNPS ID of the spectrum.\n        strains: the strains that this spectrum belongs to.\n        family: the molecular family that this spectrum belongs to.\n        peaks: 2D array of peaks, each row is a peak of (m/z, intensity) values.\n    \"\"\"\n    self.spectrum_id = spectrum_id\n    self.mz = mz\n    self.intensity = intensity\n    self.precursor_mz = precursor_mz\n    self.rt = rt\n    self.metadata = metadata or {}\n\n    self.gnps_annotations: dict = {}\n    self.gnps_id: str | None = None\n    self.strains: StrainCollection = StrainCollection()\n    self.family: MolecularFamily | None = None\n</code></pre>"},{"location":"api/metabolomics/#nplinker.metabolomics.Spectrum.peaks","title":"peaks  <code>cached</code> <code>property</code>","text":"<pre><code>peaks: ndarray\n</code></pre> <p>Get the peaks, a 2D array with each row containing the values of (m/z, intensity).</p>"},{"location":"api/metabolomics/#nplinker.metabolomics.Spectrum.has_strain","title":"has_strain","text":"<pre><code>has_strain(strain: Strain) -&gt; bool\n</code></pre> <p>Check if the given strain exists in the spectrum.</p> <p>Parameters:</p> Name Type Description Default <code>strain</code> <code>Strain</code> <p><code>Strain</code> object.</p> required <p>Returns:</p> Type Description <code>bool</code> <p>True when the given strain exist in the spectrum.</p> Source code in <code>src/nplinker/metabolomics/spectrum.py</code> <pre><code>def has_strain(self, strain: Strain) -&gt; bool:\n    \"\"\"Check if the given strain exists in the spectrum.\n\n    Args:\n        strain: `Strain` object.\n\n    Returns:\n        True when the given strain exist in the spectrum.\n    \"\"\"\n    return strain in self.strains\n</code></pre>"},{"location":"api/metabolomics_abc/","title":"Base Classes","text":""},{"location":"api/metabolomics_abc/#nplinker.metabolomics.abc","title":"abc","text":""},{"location":"api/metabolomics_abc/#nplinker.metabolomics.abc.MolecularFamilyLoaderBase","title":"MolecularFamilyLoaderBase","text":"<p>             Bases: <code>ABC</code></p>"},{"location":"api/metabolomics_abc/#nplinker.metabolomics.abc.MolecularFamilyLoaderBase.get_mfs","title":"get_mfs  <code>abstractmethod</code>","text":"<pre><code>get_mfs(keep_singleton: bool) -&gt; Sequence[MolecularFamily]\n</code></pre> <p>Get MolecularFamily objects.</p> <p>Parameters:</p> Name Type Description Default <code>keep_singleton</code> <code>bool</code> <p>True to keep singleton molecular families. A singleton molecular family is a molecular family that contains only one spectrum.</p> required <p>Returns:</p> Type Description <code>Sequence[MolecularFamily]</code> <p>Sequence[MolecularFamily]: a list of MolecularFamily objects.</p> Source code in <code>src/nplinker/metabolomics/abc.py</code> <pre><code>@abstractmethod\ndef get_mfs(self, keep_singleton: bool) -&gt; Sequence[\"MolecularFamily\"]:\n    \"\"\"Get MolecularFamily objects.\n\n    Args:\n        keep_singleton: True to keep singleton molecular families. A\n            singleton molecular family is a molecular family that contains\n            only one spectrum.\n\n    Returns:\n        Sequence[MolecularFamily]: a list of MolecularFamily objects.\n    \"\"\"\n</code></pre>"},{"location":"api/metabolomics_utils/","title":"Utilities","text":""},{"location":"api/metabolomics_utils/#nplinker.metabolomics.utils","title":"utils","text":""},{"location":"api/metabolomics_utils/#nplinker.metabolomics.utils.add_annotation_to_spectrum","title":"add_annotation_to_spectrum","text":"<pre><code>add_annotation_to_spectrum(annotations: dict[str, dict], spectra: list[Spectrum]) -&gt; None\n</code></pre> <p>Add GNPS annotations to the <code>Spectrum.gnps_annotaions</code> attribute for input spectra.</p> <p>It is possible that some spectra don't have annotations. Note that the input <code>spectra</code> list is changed in place.</p> <p>Parameters:</p> Name Type Description Default <code>annotations</code> <code>dict[str, dict]</code> <p>A dictionary of GNPS annotations, where the keys are spectrum ids and the values are GNPS annotations.</p> required <code>spectra</code> <code>list[Spectrum]</code> <p>A list of Spectrum objects.</p> required Source code in <code>src/nplinker/metabolomics/utils.py</code> <pre><code>def add_annotation_to_spectrum(annotations: dict[str, dict], spectra: list[Spectrum]) -&gt; None:\n    \"\"\"Add GNPS annotations to the `Spectrum.gnps_annotaions` attribute for input spectra.\n\n    It is possible that some spectra don't have annotations.\n    Note that the input `spectra` list is changed in place.\n\n    Args:\n        annotations: A dictionary of GNPS annotations, where the keys are\n            spectrum ids and the values are GNPS annotations.\n        spectra: A list of Spectrum objects.\n    \"\"\"\n    for spec in spectra:\n        if spec.spectrum_id in annotations:\n            spec.gnps_annotations = annotations[spec.spectrum_id]\n</code></pre>"},{"location":"api/metabolomics_utils/#nplinker.metabolomics.utils.add_strains_to_spectrum","title":"add_strains_to_spectrum","text":"<pre><code>add_strains_to_spectrum(strains: StrainCollection, spectra: list[Spectrum]) -&gt; tuple[list[Spectrum], list[Spectrum]]\n</code></pre> <p>Add <code>Strain</code> objects to the <code>Spectrum.strains</code> attribute for input spectra.</p> <p>Note that the input <code>spectra</code> list is changed in place.</p> <p>Parameters:</p> Name Type Description Default <code>strains</code> <code>StrainCollection</code> <p>A collection of strain objects.</p> required <code>spectra</code> <code>list[Spectrum]</code> <p>A list of Spectrum objects.</p> required <p>Returns:</p> Type Description <code>tuple[list[Spectrum], list[Spectrum]]</code> <p>A tuple of two lists of Spectrum objects. The first list contains Spectrum objects that are updated with Strain objects; the second list contains Spectrum objects that are not updated with Strain objects becuase no Strain objects are found.</p> Source code in <code>src/nplinker/metabolomics/utils.py</code> <pre><code>def add_strains_to_spectrum(\n    strains: StrainCollection, spectra: list[Spectrum]\n) -&gt; tuple[list[Spectrum], list[Spectrum]]:\n    \"\"\"Add `Strain` objects to the `Spectrum.strains` attribute for input spectra.\n\n    Note that the input `spectra` list is changed in place.\n\n    Args:\n        strains: A collection of strain objects.\n        spectra: A list of Spectrum objects.\n\n    Returns:\n        A tuple of two lists of Spectrum\n            objects. The first list contains Spectrum objects that are updated\n            with Strain objects; the second list contains Spectrum objects that\n            are not updated with Strain objects becuase no Strain objects are found.\n    \"\"\"\n    spectra_with_strains = []\n    spectra_without_strains = []\n    for spec in spectra:\n        try:\n            strain_list = strains.lookup(spec.spectrum_id)\n        except ValueError:\n            spectra_without_strains.append(spec)\n            continue\n\n        for strain in strain_list:\n            spec.strains.add(strain)\n        spectra_with_strains.append(spec)\n\n    logger.info(\n        f\"{len(spectra_with_strains)} Spectrum objects updated with Strain objects.\\n\"\n        f\"{len(spectra_without_strains)} Spectrum objects not updated with Strain objects.\"\n    )\n\n    return spectra_with_strains, spectra_without_strains\n</code></pre>"},{"location":"api/metabolomics_utils/#nplinker.metabolomics.utils.add_spectrum_to_mf","title":"add_spectrum_to_mf","text":"<pre><code>add_spectrum_to_mf(spectra: list[Spectrum], mfs: list[MolecularFamily]) -&gt; tuple[list[MolecularFamily], list[MolecularFamily], dict[MolecularFamily, set[str]]]\n</code></pre> <p>Add Spectrum objects to MolecularFamily objects.</p> <p>The attribute of <code>spectra_ids</code> of MolecularFamily object contains the ids of Spectrum objects. These ids are used to find Spectrum objects from the input <code>spectra</code> list. The found Spectrum objects are added to the <code>spectra</code> attribute of MolecularFamily object. It is possible that some spectrum ids are not found in the input <code>spectra</code> list, and so their Spectrum objects are missing in the MolecularFamily object.</p> <p>Note that the input <code>mfs</code> list is changed in place.</p> <p>Parameters:</p> Name Type Description Default <code>spectra</code> <code>list[Spectrum]</code> <p>A list of Spectrum objects.</p> required <code>mfs</code> <code>list[MolecularFamily]</code> <p>A list of MolecularFamily objects.</p> required <p>Returns:</p> Name Type Description <code>tuple</code> <code>tuple[list[MolecularFamily], list[MolecularFamily], dict[MolecularFamily, set[str]]]</code> <p>The first list contains MolecularFamily objects that are updated with Spectrum objects. The second list contains MolecularFamily objects that are not updated with Spectrum objects (all Spectrum objects are missing). The dictionary contains MolecularFamily objects as keys and a set of ids of missing Spectrum objects as values.</p> Source code in <code>src/nplinker/metabolomics/utils.py</code> <pre><code>def add_spectrum_to_mf(\n    spectra: list[Spectrum], mfs: list[MolecularFamily]\n) -&gt; tuple[list[MolecularFamily], list[MolecularFamily], dict[MolecularFamily, set[str]]]:\n    \"\"\"Add Spectrum objects to MolecularFamily objects.\n\n    The attribute of `spectra_ids` of MolecularFamily object contains the ids of Spectrum objects.\n    These ids are used to find Spectrum objects from the input `spectra` list. The found Spectrum\n    objects are added to the `spectra` attribute of MolecularFamily object. It is possible that\n    some spectrum ids are not found in the input `spectra` list, and so their Spectrum objects are\n    missing in the MolecularFamily object.\n\n    Note that the input `mfs` list is changed in place.\n\n    Args:\n        spectra: A list of Spectrum objects.\n        mfs: A list of MolecularFamily objects.\n\n    Returns:\n        tuple:\n            The first list contains MolecularFamily objects that are updated with Spectrum objects.\n            The second list contains MolecularFamily objects that are not updated with Spectrum\n            objects (all Spectrum objects are missing).\n            The dictionary contains MolecularFamily objects as keys and a set of ids of missing\n            Spectrum objects as values.\n    \"\"\"\n    spec_dict = {spec.spectrum_id: spec for spec in spectra}\n    mf_with_spec = []\n    mf_without_spec = []\n    mf_missing_spec: dict[MolecularFamily, set[str]] = {}\n    for mf in mfs:\n        for spec_id in mf.spectra_ids:\n            try:\n                spec = spec_dict[spec_id]\n            except KeyError:\n                if mf not in mf_missing_spec:\n                    mf_missing_spec[mf] = {spec_id}\n                else:\n                    mf_missing_spec[mf].add(spec_id)\n                continue\n            mf.add_spectrum(spec)\n\n        if mf.spectra:\n            mf_with_spec.append(mf)\n        else:\n            mf_without_spec.append(mf)\n\n    logger.info(\n        f\"{len(mf_with_spec)} MolecularFamily objects updated with Spectrum objects.\\n\"\n        f\"{len(mf_without_spec)} MolecularFamily objects not updated with Spectrum objects.\\n\"\n        f\"{len(mf_missing_spec)} MolecularFamily objects have missing Spectrum objects.\"\n    )\n    return mf_with_spec, mf_without_spec, mf_missing_spec\n</code></pre>"},{"location":"api/metabolomics_utils/#nplinker.metabolomics.utils.extract_mappings_strain_id_ms_filename","title":"extract_mappings_strain_id_ms_filename","text":"<pre><code>extract_mappings_strain_id_ms_filename(podp_project_json_file: str | PathLike) -&gt; dict[str, set[str]]\n</code></pre> <p>Extract mappings \"strain_id &lt;-&gt; MS_filename\".</p> <p>Parameters:</p> Name Type Description Default <code>podp_project_json_file</code> <code>str | PathLike</code> <p>The path to the PODP project JSON file.</p> required <p>Returns:</p> Type Description <code>dict[str, set[str]]</code> <p>Key is strain id and value is a set of MS filenames.</p> Notes <p>The <code>podp_project_json_file</code> is the project JSON file downloaded from PODP platform. For example, for project MSV000079284, its json file is https://pairedomicsdata.bioinformatics.nl/api/projects/4b29ddc3-26d0-40d7-80c5-44fb6631dbf9.4.</p> Source code in <code>src/nplinker/metabolomics/utils.py</code> <pre><code>def extract_mappings_strain_id_ms_filename(\n    podp_project_json_file: str | PathLike\n) -&gt; dict[str, set[str]]:\n    \"\"\"Extract mappings \"strain_id &lt;-&gt; MS_filename\".\n\n    Args:\n        podp_project_json_file: The path to the PODP project\n            JSON file.\n\n    Returns:\n        Key is strain id and value is a set of MS filenames.\n\n    Notes:\n        The `podp_project_json_file` is the project JSON file downloaded from\n        PODP platform. For example, for project MSV000079284, its json file is\n        https://pairedomicsdata.bioinformatics.nl/api/projects/4b29ddc3-26d0-40d7-80c5-44fb6631dbf9.4.\n    \"\"\"\n    mappings_dict = {}\n    with open(podp_project_json_file, \"r\") as f:\n        json_data = json.load(f)\n\n    validate_podp_json(json_data)\n\n    # Extract mappings strain id &lt;-&gt; metabolomics filename\n    for record in json_data[\"genome_metabolome_links\"]:\n        strain_id = record[\"genome_label\"]\n        # get the actual filename of the mzXML URL\n        filename = Path(record[\"metabolomics_file\"]).name\n        if strain_id in mappings_dict:\n            mappings_dict[strain_id].add(filename)\n        else:\n            mappings_dict[strain_id] = {filename}\n    return mappings_dict\n</code></pre>"},{"location":"api/metabolomics_utils/#nplinker.metabolomics.utils.extract_mappings_ms_filename_spectrum_id","title":"extract_mappings_ms_filename_spectrum_id","text":"<pre><code>extract_mappings_ms_filename_spectrum_id(gnps_file_mappings_file: str | PathLike) -&gt; dict[str, set[str]]\n</code></pre> <p>Extract mappings \"MS_filename &lt;-&gt; spectrum_id\".</p> <p>Parameters:</p> Name Type Description Default <code>gnps_file_mappings_file</code> <code>str | PathLike</code> <p>The path to the GNPS file mappings file (csv or tsv).</p> required <p>Returns:</p> Type Description <code>dict[str, set[str]]</code> <p>Key is MS filename and value is a set of spectrum ids.</p> Notes <p>The <code>gnps_file_mappings_file</code> is generated by GNPS molecular networking. It's downloaded from GNPS website to a file with a default name defined in <code>GNPS_FILE_MAPPINGS_FILENAME</code>.</p> See Also <p>GNPSFileMappingLoader: A class to load GNPS file mappings file.</p> Source code in <code>src/nplinker/metabolomics/utils.py</code> <pre><code>def extract_mappings_ms_filename_spectrum_id(\n    gnps_file_mappings_file: str | PathLike\n) -&gt; dict[str, set[str]]:\n    \"\"\"Extract mappings \"MS_filename &lt;-&gt; spectrum_id\".\n\n    Args:\n        gnps_file_mappings_file: The path to the GNPS file mappings file (csv or\n            tsv).\n\n    Returns:\n        Key is MS filename and value is a set of spectrum ids.\n\n    Notes:\n        The `gnps_file_mappings_file` is generated by GNPS molecular networking. It's downloaded\n        from GNPS website to a file with a default name defined in `GNPS_FILE_MAPPINGS_FILENAME`.\n\n    See Also:\n        GNPSFileMappingLoader: A class to load GNPS file mappings file.\n    \"\"\"\n    loader = GNPSFileMappingLoader(gnps_file_mappings_file)\n    return loader.mapping_reversed\n</code></pre>"},{"location":"api/metabolomics_utils/#nplinker.metabolomics.utils.get_mappings_strain_id_spectrum_id","title":"get_mappings_strain_id_spectrum_id","text":"<pre><code>get_mappings_strain_id_spectrum_id(mappings_strain_id_ms_filename: dict[str, set[str]], mappings_ms_filename_spectrum_id: dict[str, set[str]]) -&gt; dict[str, set[str]]\n</code></pre> <p>Get mappings \"strain_id &lt;-&gt; spectrum_id\".</p> <p>Parameters:</p> Name Type Description Default <code>mappings_strain_id_ms_filename</code> <code>dict[str, set[str]]</code> <p>Mappings \"strain_id &lt;-&gt; MS_filename\".</p> required <code>mappings_ms_filename_spectrum_id</code> <code>dict[str, set[str]]</code> <p>Mappings \"MS_filename &lt;-&gt; spectrum_id\".</p> required <p>Returns:</p> Type Description <code>dict[str, set[str]]</code> <p>Key is strain id and value is a set of spectrum ids.</p> See Also <p><code>extract_mappings_strain_id_ms_filename</code>: Extract mappings     \"strain_id &lt;-&gt; MS_filename\". <code>extract_mappings_ms_filename_spectrum_id</code>: Extract mappings     \"MS_filename &lt;-&gt; spectrum_id\".</p> Source code in <code>src/nplinker/metabolomics/utils.py</code> <pre><code>def get_mappings_strain_id_spectrum_id(\n    mappings_strain_id_ms_filename: dict[str, set[str]],\n    mappings_ms_filename_spectrum_id: dict[str, set[str]],\n) -&gt; dict[str, set[str]]:\n    \"\"\"Get mappings \"strain_id &lt;-&gt; spectrum_id\".\n\n    Args:\n        mappings_strain_id_ms_filename: Mappings\n            \"strain_id &lt;-&gt; MS_filename\".\n        mappings_ms_filename_spectrum_id: Mappings\n            \"MS_filename &lt;-&gt; spectrum_id\".\n\n    Returns:\n        Key is strain id and value is a set of spectrum ids.\n\n\n    See Also:\n        `extract_mappings_strain_id_ms_filename`: Extract mappings\n            \"strain_id &lt;-&gt; MS_filename\".\n        `extract_mappings_ms_filename_spectrum_id`: Extract mappings\n            \"MS_filename &lt;-&gt; spectrum_id\".\n    \"\"\"\n    mappings_dict = {}\n    for strain_id, ms_filenames in mappings_strain_id_ms_filename.items():\n        spectrum_ids = set()\n        for ms_filename in ms_filenames:\n            if (sid := mappings_ms_filename_spectrum_id.get(ms_filename)) is not None:\n                spectrum_ids.update(sid)\n        if spectrum_ids:\n            mappings_dict[strain_id] = spectrum_ids\n    return mappings_dict\n</code></pre>"},{"location":"api/mibig/","title":"MiBIG","text":""},{"location":"api/mibig/#nplinker.genomics.mibig","title":"mibig","text":""},{"location":"api/mibig/#nplinker.genomics.mibig.MibigLoader","title":"MibigLoader","text":"<pre><code>MibigLoader(data_dir: str)\n</code></pre> <p>Parse MIBiG metadata files and return BGC objects.</p> <p>MIBiG metadata file (json) contains annotations/metadata information for each BGC. See https://mibig.secondarymetabolites.org/download.</p> <p>The MiBIG accession is used as BGC id and strain name. The loaded BGC objects have Strain object as their strain attribute (i.e. <code>BGC.strain</code>).</p> <p>Parameters:</p> Name Type Description Default <code>data_dir</code> <code>str</code> <p>Path to the directory of MIBiG metadata json files</p> required Source code in <code>src/nplinker/genomics/mibig/mibig_loader.py</code> <pre><code>def __init__(self, data_dir: str):\n    \"\"\"Parse MIBiG metadata files and return BGC objects.\n\n    MIBiG metadata file (json) contains annotations/metadata information\n    for each BGC. See https://mibig.secondarymetabolites.org/download.\n\n    The MiBIG accession is used as BGC id and strain name. The loaded BGC\n    objects have Strain object as their strain attribute (i.e. `BGC.strain`).\n\n    Args:\n        data_dir: Path to the directory of MIBiG metadata json files\n    \"\"\"\n    self.data_dir = data_dir\n    self._file_dict = self.parse_data_dir(self.data_dir)\n    self._metadata_dict = self._parse_metadatas()\n    self._bgcs = self._parse_bgcs()\n</code></pre>"},{"location":"api/mibig/#nplinker.genomics.mibig.MibigLoader.get_files","title":"get_files","text":"<pre><code>get_files() -&gt; dict[str, str]\n</code></pre> <p>Get the path of all MIBiG metadata json files.</p> <p>Returns:</p> Type Description <code>dict[str, str]</code> <p>The key is metadata file name (BGC accession), and the value is path to the metadata</p> <code>dict[str, str]</code> <p>json file</p> Source code in <code>src/nplinker/genomics/mibig/mibig_loader.py</code> <pre><code>def get_files(self) -&gt; dict[str, str]:\n    \"\"\"Get the path of all MIBiG metadata json files.\n\n    Returns:\n        The key is metadata file name (BGC accession), and the value is path to the metadata\n        json file\n    \"\"\"\n    return self._file_dict\n</code></pre>"},{"location":"api/mibig/#nplinker.genomics.mibig.MibigLoader.parse_data_dir","title":"parse_data_dir  <code>staticmethod</code>","text":"<pre><code>parse_data_dir(data_dir: str) -&gt; dict[str, str]\n</code></pre> <p>Parse metadata directory and return paths to all metadata json files.</p> <p>Parameters:</p> Name Type Description Default <code>data_dir</code> <code>str</code> <p>path to the directory of MIBiG metadata json files</p> required <p>Returns:</p> Type Description <code>dict[str, str]</code> <p>The key is metadata file name (BGC accession), and the value is path to the metadata</p> <code>dict[str, str]</code> <p>json file</p> Source code in <code>src/nplinker/genomics/mibig/mibig_loader.py</code> <pre><code>@staticmethod\ndef parse_data_dir(data_dir: str) -&gt; dict[str, str]:\n    \"\"\"Parse metadata directory and return paths to all metadata json files.\n\n    Args:\n        data_dir: path to the directory of MIBiG metadata json files\n\n    Returns:\n        The key is metadata file name (BGC accession), and the value is path to the metadata\n        json file\n    \"\"\"\n    file_dict = {}\n    json_files = list_files(data_dir, prefix=\"BGC\", suffix=\".json\")\n    for file in json_files:\n        fname = os.path.splitext(os.path.basename(file))[0]\n        file_dict[fname] = file\n    return file_dict\n</code></pre>"},{"location":"api/mibig/#nplinker.genomics.mibig.MibigLoader.get_metadatas","title":"get_metadatas","text":"<pre><code>get_metadatas() -&gt; dict[str, MibigMetadata]\n</code></pre> <p>Get MibigMetadata objects.</p> <p>Returns:</p> Type Description <code>dict[str, MibigMetadata]</code> <p>The key is BGC accession (file name) and the value is MibigMetadata object</p> Source code in <code>src/nplinker/genomics/mibig/mibig_loader.py</code> <pre><code>def get_metadatas(self) -&gt; dict[str, MibigMetadata]:\n    \"\"\"Get MibigMetadata objects.\n\n    Returns:\n        The key is BGC accession (file name) and the value is MibigMetadata object\n    \"\"\"\n    return self._metadata_dict\n</code></pre>"},{"location":"api/mibig/#nplinker.genomics.mibig.MibigLoader.get_bgcs","title":"get_bgcs","text":"<pre><code>get_bgcs() -&gt; list[BGC]\n</code></pre> <p>Get BGC objects.</p> <p>The BGC objects use MiBIG accession as id and have Strain object as their strain attribute (i.e. <code>BGC.strain</code>), where the name of the Strain object is also MiBIG accession.</p> <p>Returns:</p> Type Description <code>list[BGC]</code> <p>A list of BGC objects</p> Source code in <code>src/nplinker/genomics/mibig/mibig_loader.py</code> <pre><code>def get_bgcs(self) -&gt; list[BGC]:\n    \"\"\"Get BGC objects.\n\n    The BGC objects use MiBIG accession as id and have Strain object as\n    their strain attribute (i.e. `BGC.strain`), where the name of the Strain\n    object is also MiBIG accession.\n\n    Returns:\n        A list of BGC objects\n    \"\"\"\n    return self._bgcs\n</code></pre>"},{"location":"api/mibig/#nplinker.genomics.mibig.MibigMetadata","title":"MibigMetadata","text":"<pre><code>MibigMetadata(file: str)\n</code></pre> <p>Class to model the BGC metadata/annotations defined in MIBiG.</p> <p>MIBiG is a specification of BGC metadata and use JSON schema to represent BGC metadata. More details see: https://mibig.secondarymetabolites.org/download.</p> <p>Parameters:</p> Name Type Description Default <code>file</code> <code>str</code> <p>Path to the json file of MIBiG BGC metadata</p> required <p>Examples:</p> <pre><code>&gt;&gt;&gt; metadata = MibigMetadata(\"/data/BGC0000001.json\")\n</code></pre> Source code in <code>src/nplinker/genomics/mibig/mibig_metadata.py</code> <pre><code>def __init__(self, file: str) -&gt; None:\n    \"\"\"Class to model the BGC metadata/annotations defined in MIBiG.\n\n    MIBiG is a specification of BGC metadata and use JSON schema to\n    represent BGC metadata. More details see:\n    https://mibig.secondarymetabolites.org/download.\n\n    Args:\n        file: Path to the json file of MIBiG BGC metadata\n\n    Examples:\n        &gt;&gt;&gt; metadata = MibigMetadata(\"/data/BGC0000001.json\")\n    \"\"\"\n    self.file = file\n    with open(self.file, \"rb\") as f:\n        self.metadata = json.load(f)\n\n    self._mibig_accession: str\n    self._biosyn_class: tuple[str]\n    self._parse_metadata()\n</code></pre>"},{"location":"api/mibig/#nplinker.genomics.mibig.MibigMetadata.mibig_accession","title":"mibig_accession  <code>property</code>","text":"<pre><code>mibig_accession: str\n</code></pre> <p>Get the value of metadata item 'mibig_accession'.</p>"},{"location":"api/mibig/#nplinker.genomics.mibig.MibigMetadata.biosyn_class","title":"biosyn_class  <code>property</code>","text":"<pre><code>biosyn_class: tuple[str]\n</code></pre> <p>Get the value of metadata item 'biosyn_class'.</p> <p>The 'biosyn_class' is biosynthetic class(es), namely the type of natural product or secondary metabolite.</p> <p>MIBiG defines 6 major biosynthetic classes, including \"NRP\", \"Polyketide\", \"RiPP\", \"Terpene\", \"Saccharide\" and \"Alkaloid\". Note that natural products created by all other biosynthetic mechanisms fall under the category \"Other\". More details see the publication: https://doi.org/10.1186/s40793-018-0318-y.</p>"},{"location":"api/mibig/#nplinker.genomics.mibig.download_and_extract_mibig_metadata","title":"download_and_extract_mibig_metadata","text":"<pre><code>download_and_extract_mibig_metadata(download_root: str | PathLike, extract_path: str | PathLike, version: str = '3.1')\n</code></pre> <p>Download and extract MIBiG metadata json files.</p> <p>Note that it does not matter whether the metadata json files are in nested folders or not in the archive, all json files will be extracted to the same location, i.e. <code>extract_path</code>. The nested folders will be removed if they exist. So the <code>extract_path</code> will have only json files.</p> <p>Parameters:</p> Name Type Description Default <code>download_root</code> <code>str | PathLike</code> <p>Path to the directory in which to place the downloaded archive.</p> required <code>extract_path</code> <code>str | PathLike</code> <p>Path to an empty directory where the json files will be extracted. The directory must be empty if it exists. If it doesn't exist, the directory will be created.</p> required <code>version</code> <code>str</code> <p>description. Defaults to \"3.1\".</p> <code>'3.1'</code> <p>Examples:</p> <pre><code>&gt;&gt;&gt; download_and_extract_mibig_metadata(\"/data/download\", \"/data/mibig_metadata\")\n</code></pre> Source code in <code>src/nplinker/genomics/mibig/mibig_downloader.py</code> <pre><code>def download_and_extract_mibig_metadata(\n    download_root: str | os.PathLike,\n    extract_path: str | os.PathLike,\n    version: str = \"3.1\",\n):\n    \"\"\"Download and extract MIBiG metadata json files.\n\n    Note that it does not matter whether the metadata json files are in nested folders or not in the archive,\n    all json files will be extracted to the same location, i.e. `extract_path`. The nested\n    folders will be removed if they exist. So the `extract_path` will have only json files.\n\n    Args:\n        download_root: Path to the directory in which to place the downloaded archive.\n        extract_path: Path to an empty directory where the json files will be extracted.\n            The directory must be empty if it exists. If it doesn't exist, the directory will be created.\n        version: _description_. Defaults to \"3.1\".\n\n    Examples:\n        &gt;&gt;&gt; download_and_extract_mibig_metadata(\"/data/download\", \"/data/mibig_metadata\")\n    \"\"\"\n    download_root = Path(download_root)\n    extract_path = Path(extract_path)\n\n    if download_root == extract_path:\n        raise ValueError(\"Identical path of download directory and extract directory\")\n\n    # check if extract_path is empty\n    if not extract_path.exists():\n        extract_path.mkdir(parents=True)\n    else:\n        if len(list(extract_path.iterdir())) != 0:\n            raise ValueError(f'Nonempty directory: \"{extract_path}\"')\n\n    # download and extract\n    md5 = _MD5_MIBIG_METADATA[version]\n    download_and_extract_archive(\n        url=MIBIG_METADATA_URL.format(version=version),\n        download_root=download_root,\n        extract_root=extract_path,\n        md5=md5,\n    )\n\n    # After extracting mibig archive, it's either one dir or many json files,\n    # if it's a dir, then move all json files from it to extract_path\n    subdirs = list_dirs(extract_path)\n    if len(subdirs) &gt; 1:\n        raise ValueError(f\"Expected one extracted directory, got {len(subdirs)}\")\n\n    if len(subdirs) == 1:\n        subdir_path = subdirs[0]\n        for fname in list_files(subdir_path, prefix=\"BGC\", suffix=\".json\", keep_parent=False):\n            shutil.move(os.path.join(subdir_path, fname), os.path.join(extract_path, fname))\n        # delete subdir\n        if subdir_path != extract_path:\n            shutil.rmtree(subdir_path)\n</code></pre>"},{"location":"api/mibig/#nplinker.genomics.mibig.parse_bgc_metadata_json","title":"parse_bgc_metadata_json","text":"<pre><code>parse_bgc_metadata_json(file: str) -&gt; BGC\n</code></pre> <p>Parse MIBiG metadata file and return BGC object.</p> <p>Note that the MiBIG accession is used as the BGC id and strain name. The BGC object has Strain object as its strain attribute.</p> <p>Parameters:</p> Name Type Description Default <code>file</code> <code>str</code> <p>Path to the MIBiG metadata json file</p> required <p>Returns:</p> Type Description <code>BGC</code> <p>BGC object</p> Source code in <code>src/nplinker/genomics/mibig/mibig_loader.py</code> <pre><code>def parse_bgc_metadata_json(file: str) -&gt; BGC:\n    \"\"\"Parse MIBiG metadata file and return BGC object.\n\n    Note that the MiBIG accession is used as the BGC id and strain name. The BGC\n    object has Strain object as its strain attribute.\n\n    Args:\n        file: Path to the MIBiG metadata json file\n\n    Returns:\n        BGC object\n    \"\"\"\n    metadata = MibigMetadata(file)\n    mibig_bgc = BGC(metadata.mibig_accession, *metadata.biosyn_class)\n    mibig_bgc.mibig_bgc_class = metadata.biosyn_class\n    mibig_bgc.strain = Strain(metadata.mibig_accession)\n    return mibig_bgc\n</code></pre>"},{"location":"api/nplinker/","title":"NPLinker","text":""},{"location":"api/nplinker/#nplinker.nplinker","title":"nplinker","text":""},{"location":"api/nplinker/#nplinker.nplinker.NPLinker","title":"NPLinker","text":"<pre><code>NPLinker()\n</code></pre> <p>Initialise an NPLinker instance.</p> Source code in <code>src/nplinker/nplinker.py</code> <pre><code>def __init__(self):\n    \"\"\"Initialise an NPLinker instance.\"\"\"\n    # configure logging based on the supplied config params\n    LogConfig.setLogLevelStr(config.log.level)\n    logfile = config.get(\"log.file\")\n    if logfile:\n        logfile_dest = logging.FileHandler(logfile)\n        # if we want to log to stdout plus logfile, add the new destination\n        if config.get(\"log.to_stdout\"):  # default to True\n            LogConfig.addLogDestination(logfile_dest)\n        else:\n            # otherwise overwrite the default stdout destination\n            LogConfig.setLogDestination(logfile_dest)\n\n    self._loader = DatasetLoader()\n\n    self._spectra = []\n    self._bgcs = []\n    self._gcfs = []\n    self._strains = None\n    self._metadata = {}\n    self._molfams = []\n    self._mibig_bgcs = []\n    self._chem_classes = None\n    self._class_matches = None\n\n    self._bgc_lookup = {}\n    self._gcf_lookup = {}\n    self._spec_lookup = {}\n    self._mf_lookup = {}\n\n    self._scoring_methods = {}\n    config_methods = config.get(\"scoring_methods\", [])\n    for name, method in NPLinker.SCORING_METHODS.items():\n        if len(config_methods) == 0 or name in config_methods:\n            self._scoring_methods[name] = method\n            logger.debug(f\"Enabled scoring method: {name}\")\n\n    self._scoring_methods_setup_complete = {\n        name: False for name in self._scoring_methods.keys()\n    }\n\n    self._datalinks = None\n\n    self._repro_data = {}\n    repro_file = config.get(\"repro_file\")\n    if repro_file:\n        self.save_repro_data(repro_file)\n</code></pre>"},{"location":"api/nplinker/#nplinker.nplinker.NPLinker.root_dir","title":"root_dir  <code>property</code>","text":"<pre><code>root_dir: str\n</code></pre> <p>Returns path to the current dataset root directory.</p> <p>Returns:</p> Type Description <code>str</code> <p>The path to the dataset root directory currently in use</p>"},{"location":"api/nplinker/#nplinker.nplinker.NPLinker.data_dir","title":"data_dir  <code>property</code>","text":"<pre><code>data_dir\n</code></pre> <p>Returns path to nplinker/data directory (files packaged with the app itself).</p>"},{"location":"api/nplinker/#nplinker.nplinker.NPLinker.bigscape_cutoff","title":"bigscape_cutoff  <code>property</code>","text":"<pre><code>bigscape_cutoff\n</code></pre> <p>Returns the current BiGSCAPE clustering cutoff value.</p>"},{"location":"api/nplinker/#nplinker.nplinker.NPLinker.strains","title":"strains  <code>property</code>","text":"<pre><code>strains\n</code></pre> <p>Returns a list of all the strains in the dataset.</p>"},{"location":"api/nplinker/#nplinker.nplinker.NPLinker.bgcs","title":"bgcs  <code>property</code>","text":"<pre><code>bgcs\n</code></pre> <p>Returns a list of all the BGCs in the dataset.</p>"},{"location":"api/nplinker/#nplinker.nplinker.NPLinker.gcfs","title":"gcfs  <code>property</code>","text":"<pre><code>gcfs\n</code></pre> <p>Returns a list of all the GCFs in the dataset.</p>"},{"location":"api/nplinker/#nplinker.nplinker.NPLinker.spectra","title":"spectra  <code>property</code>","text":"<pre><code>spectra\n</code></pre> <p>Returns a list of all the Spectra in the dataset.</p>"},{"location":"api/nplinker/#nplinker.nplinker.NPLinker.molfams","title":"molfams  <code>property</code>","text":"<pre><code>molfams\n</code></pre> <p>Returns a list of all the MolecularFamilies in the dataset.</p>"},{"location":"api/nplinker/#nplinker.nplinker.NPLinker.mibig_bgcs","title":"mibig_bgcs  <code>property</code>","text":"<pre><code>mibig_bgcs\n</code></pre> <p>Get a list of all the MIBiG BGCs in the dataset.</p>"},{"location":"api/nplinker/#nplinker.nplinker.NPLinker.product_types","title":"product_types  <code>property</code>","text":"<pre><code>product_types\n</code></pre> <p>Returns a list of the available BiGSCAPE product types in current dataset.</p>"},{"location":"api/nplinker/#nplinker.nplinker.NPLinker.repro_data","title":"repro_data  <code>property</code>","text":"<pre><code>repro_data\n</code></pre> <p>Returns the dict containing reproducibility data.</p>"},{"location":"api/nplinker/#nplinker.nplinker.NPLinker.scoring_methods","title":"scoring_methods  <code>property</code>","text":"<pre><code>scoring_methods\n</code></pre> <p>Returns a list of available scoring method names.</p>"},{"location":"api/nplinker/#nplinker.nplinker.NPLinker.chem_classes","title":"chem_classes  <code>property</code>","text":"<pre><code>chem_classes\n</code></pre> <p>Returns loaded ChemClassPredictions with the class predictions.</p>"},{"location":"api/nplinker/#nplinker.nplinker.NPLinker.class_matches","title":"class_matches  <code>property</code>","text":"<pre><code>class_matches\n</code></pre> <p>ClassMatches with the matched classes and scoring tables from MIBiG.</p>"},{"location":"api/nplinker/#nplinker.nplinker.NPLinker.load_data","title":"load_data","text":"<pre><code>load_data()\n</code></pre> <p>Loads the basic components of a dataset.</p> Source code in <code>src/nplinker/nplinker.py</code> <pre><code>def load_data(self):\n    \"\"\"Loads the basic components of a dataset.\"\"\"\n    arranger = DatasetArranger()\n    arranger.arrange()\n    self._loader.load()\n\n    self._spectra = self._loader.spectra\n    self._molfams = self._loader.molfams\n    self._bgcs = self._loader.bgcs\n    self._gcfs = self._loader.gcfs\n    self._mibig_bgcs = self._loader.mibig_bgcs\n    self._strains = self._loader.strains\n    self._product_types = self._loader.product_types\n    self._chem_classes = self._loader.chem_classes\n    self._class_matches = self._loader.class_matches\n</code></pre>"},{"location":"api/nplinker/#nplinker.nplinker.NPLinker.get_links","title":"get_links","text":"<pre><code>get_links(input_objects: list, scoring_methods: list, and_mode: bool = True) -&gt; LinkCollection\n</code></pre> <p>Find links for a set of input objects (BGCs/GCFs/Spectra/MolFams).</p> <p>The input objects can be any mix of the following NPLinker types:</p> <pre><code>- BGC\n- GCF\n- Spectrum\n- MolecularFamily\n</code></pre> <p>TODO longer description here</p> <p>Parameters:</p> Name Type Description Default <code>input_objects</code> <code>list</code> <p>objects to be passed to the scoring method(s). This may be either a flat list of a uniform type (one of the 4 types above), or a list of such lists</p> required <code>scoring_methods</code> <code>list</code> <p>a list of one or more scoring methods to use</p> required <code>and_mode</code> <code>bool</code> <p>determines how results from multiple methods are combined. This is ignored if a single method is supplied. If multiple methods are used and <code>and_mode</code> is True, the results will only contain links found by ALL methods. If False, results will contain links found by ANY method.</p> <code>True</code> <p>Returns:</p> Type Description <code>LinkCollection</code> <p>An instance of <code>nplinker.scoring.methods.LinkCollection</code></p> Source code in <code>src/nplinker/nplinker.py</code> <pre><code>def get_links(\n    self, input_objects: list, scoring_methods: list, and_mode: bool = True\n) -&gt; LinkCollection:\n    \"\"\"Find links for a set of input objects (BGCs/GCFs/Spectra/MolFams).\n\n    The input objects can be any mix of the following NPLinker types:\n\n        - BGC\n        - GCF\n        - Spectrum\n        - MolecularFamily\n\n    TODO longer description here\n\n    Args:\n        input_objects: objects to be passed to the scoring method(s).\n            This may be either a flat list of a uniform type (one of the 4\n            types above), or a list of such lists\n        scoring_methods: a list of one or more scoring methods to use\n        and_mode: determines how results from multiple methods are combined.\n            This is ignored if a single method is supplied. If multiple methods\n            are used and ``and_mode`` is True, the results will only contain\n            links found by ALL methods. If False, results will contain links\n            found by ANY method.\n\n    Returns:\n        An instance of ``nplinker.scoring.methods.LinkCollection``\n    \"\"\"\n    if isinstance(input_objects, list) and len(input_objects) == 0:\n        raise Exception(\"input_objects length must be &gt; 0\")\n\n    if isinstance(scoring_methods, list) and len(scoring_methods) == 0:\n        raise Exception(\"scoring_methods length must be &gt; 0\")\n\n    # for convenience convert a single scoring object into a single entry\n    # list\n    if not isinstance(scoring_methods, list):\n        scoring_methods = [scoring_methods]\n\n    # check if input_objects is a list of lists. if so there should be one\n    # entry for each supplied method for it to be a valid parameter\n    if isinstance(input_objects[0], list):\n        if len(input_objects) != len(scoring_methods):\n            raise Exception(\n                \"Number of input_objects lists must match number of scoring_methods (found: {}, expected: {})\".format(\n                    len(input_objects), len(scoring_methods)\n                )\n            )\n\n    # TODO check scoring_methods only contains ScoringMethod-derived\n    # instances\n\n    # want everything to be in lists of lists\n    if not isinstance(input_objects, list) or (\n        isinstance(input_objects, list) and not isinstance(input_objects[0], list)\n    ):\n        input_objects = [input_objects]\n\n    logger.debug(\n        \"get_links: {} object sets, {} methods\".format(len(input_objects), len(scoring_methods))\n    )\n\n    # copy the object set if required to make up the numbers\n    if len(input_objects) != len(scoring_methods):\n        if len(scoring_methods) &lt; len(input_objects):\n            raise Exception(\"Number of scoring methods must be &gt;= number of input object sets\")\n        elif (len(scoring_methods) &gt; len(input_objects)) and len(input_objects) != 1:\n            raise Exception(\n                \"Mismatch between number of scoring methods and input objects ({} vs {})\".format(\n                    len(scoring_methods), len(input_objects)\n                )\n            )\n        elif len(scoring_methods) &gt; len(input_objects):\n            # this is a special case for convenience: pass in 1 set of objects and multiple methods,\n            # result is that set is used for all methods\n            logger.debug(\"Duplicating input object set\")\n            while len(input_objects) &lt; len(scoring_methods):\n                input_objects.append(input_objects[0])\n                logger.debug(\"Duplicating input object set\")\n\n    link_collection = LinkCollection(and_mode)\n\n    for i, method in enumerate(scoring_methods):\n        # do any one-off initialisation required by this method\n        if not self._scoring_methods_setup_complete[method.name]:\n            logger.debug(f\"Doing one-time setup for {method.name}\")\n            self._scoring_methods[method.name].setup(self)\n            self._scoring_methods_setup_complete[method.name] = True\n\n        # should construct a dict of {object_with_link: &lt;link_data&gt;}\n        # entries\n        objects_for_method = input_objects[i]\n        logger.debug(\n            \"Calling scoring method {} on {} objects\".format(\n                method.name, len(objects_for_method)\n            )\n        )\n        link_collection = method.get_links(*objects_for_method, link_collection=link_collection)\n\n    if not self._datalinks:\n        logger.debug(\"Creating internal datalinks object\")\n        self._datalinks = self.scoring_method(MetcalfScoring.NAME).datalinks\n        logger.debug(\"Created internal datalinks object\")\n\n    if len(link_collection) == 0:\n        logger.debug(\"No links found or remaining after merging all method results!\")\n\n    # populate shared strain info\n    logger.debug(\"Calculating shared strain information...\")\n    # TODO more efficient version?\n    for source, link_data in link_collection.links.items():\n        if isinstance(source, BGC):\n            logger.debug(\"Cannot determine shared strains for BGC input!\")\n            break\n\n        targets = list(filter(lambda x: not isinstance(x, BGC), link_data.keys()))\n        if len(targets) &gt; 0:\n            if isinstance(source, GCF):\n                shared_strains = self._datalinks.get_common_strains(targets, [source], True)\n                for target, link in link_data.items():\n                    if (target, source) in shared_strains:\n                        link.shared_strains = shared_strains[(target, source)]\n            else:\n                shared_strains = self._datalinks.get_common_strains([source], targets, True)\n                for target, link in link_data.items():\n                    if (source, target) in shared_strains:\n                        link.shared_strains = shared_strains[(source, target)]\n\n    logger.debug(\"Finished calculating shared strain information\")\n\n    logger.debug(\"Final size of link collection is {}\".format(len(link_collection)))\n    return link_collection\n</code></pre>"},{"location":"api/nplinker/#nplinker.nplinker.NPLinker.get_common_strains","title":"get_common_strains","text":"<pre><code>get_common_strains(met: Sequence[Spectrum] | Sequence[MolecularFamily], gcfs: Sequence[GCF], filter_no_shared: bool = True) -&gt; dict[tuple[Spectrum | MolecularFamily, GCF], list[Strain]]\n</code></pre> <p>Get common strains between given spectra/molecular families and GCFs.</p> <p>Parameters:</p> Name Type Description Default <code>met</code> <code>Sequence[Spectrum] | Sequence[MolecularFamily]</code> <p>A list of Spectrum or MolecularFamily objects.</p> required <code>gcfs</code> <code>Sequence[GCF]</code> <p>A list of GCF objects.</p> required <code>filter_no_shared</code> <code>bool</code> <p>If True, the pairs of spectrum/mf and GCF without common strains will be removed from the returned dict;</p> <code>True</code> <p>Returns:</p> Type Description <code>dict[tuple[Spectrum | MolecularFamily, GCF], list[Strain]]</code> <p>A dict where the keys are tuples of (Spectrum/MolecularFamily, GCF)</p> <code>dict[tuple[Spectrum | MolecularFamily, GCF], list[Strain]]</code> <p>and values are a list of shared Strain objects.</p> Source code in <code>src/nplinker/nplinker.py</code> <pre><code>def get_common_strains(\n    self,\n    met: Sequence[Spectrum] | Sequence[MolecularFamily],\n    gcfs: Sequence[GCF],\n    filter_no_shared: bool = True,\n) -&gt; dict[tuple[Spectrum | MolecularFamily, GCF], list[Strain]]:\n    \"\"\"Get common strains between given spectra/molecular families and GCFs.\n\n    Args:\n        met:\n            A list of Spectrum or MolecularFamily objects.\n        gcfs: A list of GCF objects.\n        filter_no_shared: If True, the pairs of spectrum/mf and GCF\n            without common strains will be removed from the returned dict;\n\n    Returns:\n        A dict where the keys are tuples of (Spectrum/MolecularFamily, GCF)\n        and values are a list of shared Strain objects.\n    \"\"\"\n    if not self._datalinks:\n        self._datalinks = self.scoring_method(MetcalfScoring.NAME).datalinks\n    common_strains = self._datalinks.get_common_strains(met, gcfs, filter_no_shared)\n    return common_strains\n</code></pre>"},{"location":"api/nplinker/#nplinker.nplinker.NPLinker.has_bgc","title":"has_bgc","text":"<pre><code>has_bgc(bgc_id)\n</code></pre> <p>Returns True if BGC <code>bgc_id</code> exists in the dataset.</p> Source code in <code>src/nplinker/nplinker.py</code> <pre><code>def has_bgc(self, bgc_id):\n    \"\"\"Returns True if BGC ``bgc_id`` exists in the dataset.\"\"\"\n    return bgc_id in self._bgc_lookup\n</code></pre>"},{"location":"api/nplinker/#nplinker.nplinker.NPLinker.lookup_bgc","title":"lookup_bgc","text":"<pre><code>lookup_bgc(bgc_id)\n</code></pre> <p>If BGC <code>bgc_id</code> exists, return it. Otherwise return None.</p> Source code in <code>src/nplinker/nplinker.py</code> <pre><code>def lookup_bgc(self, bgc_id):\n    \"\"\"If BGC ``bgc_id`` exists, return it. Otherwise return None.\"\"\"\n    return self._bgc_lookup.get(bgc_id, None)\n</code></pre>"},{"location":"api/nplinker/#nplinker.nplinker.NPLinker.lookup_gcf","title":"lookup_gcf","text":"<pre><code>lookup_gcf(gcf_id)\n</code></pre> <p>If GCF <code>gcf_id</code> exists, return it. Otherwise return None.</p> Source code in <code>src/nplinker/nplinker.py</code> <pre><code>def lookup_gcf(self, gcf_id):\n    \"\"\"If GCF ``gcf_id`` exists, return it. Otherwise return None.\"\"\"\n    return self._gcf_lookup.get(gcf_id, None)\n</code></pre>"},{"location":"api/nplinker/#nplinker.nplinker.NPLinker.lookup_spectrum","title":"lookup_spectrum","text":"<pre><code>lookup_spectrum(spectrum_id)\n</code></pre> <p>If Spectrum <code>name</code> exists, return it. Otherwise return None.</p> Source code in <code>src/nplinker/nplinker.py</code> <pre><code>def lookup_spectrum(self, spectrum_id):\n    \"\"\"If Spectrum ``name`` exists, return it. Otherwise return None.\"\"\"\n    return self._spec_lookup.get(spectrum_id, None)\n</code></pre>"},{"location":"api/nplinker/#nplinker.nplinker.NPLinker.lookup_mf","title":"lookup_mf","text":"<pre><code>lookup_mf(mf_id)\n</code></pre> <p>If MolecularFamily <code>family_id</code> exists, return it. Otherwise return None.</p> Source code in <code>src/nplinker/nplinker.py</code> <pre><code>def lookup_mf(self, mf_id):\n    \"\"\"If MolecularFamily `family_id` exists, return it. Otherwise return None.\"\"\"\n    return self._mf_lookup.get(mf_id, None)\n</code></pre>"},{"location":"api/nplinker/#nplinker.nplinker.NPLinker.scoring_method","title":"scoring_method","text":"<pre><code>scoring_method(name: str) -&gt; ScoringMethod | None\n</code></pre> <p>Return an instance of a scoring method.</p> <p>Parameters:</p> Name Type Description Default <code>name</code> <code>str</code> <p>the name of the method (see :func:<code>scoring_methods</code>)</p> required <p>Returns:</p> Type Description <code>ScoringMethod | None</code> <p>An instance of the named scoring method class, or None if the name is invalid</p> Source code in <code>src/nplinker/nplinker.py</code> <pre><code>def scoring_method(self, name: str) -&gt; ScoringMethod | None:\n    \"\"\"Return an instance of a scoring method.\n\n    Args:\n        name: the name of the method (see :func:`scoring_methods`)\n\n    Returns:\n        An instance of the named scoring method class, or None if the name is invalid\n    \"\"\"\n    if name not in self._scoring_methods_setup_complete:\n        return None\n\n    if not self._scoring_methods_setup_complete[name]:\n        self._scoring_methods[name].setup(self)\n        self._scoring_methods_setup_complete[name] = True\n\n    return self._scoring_methods.get(name, None)(self)\n</code></pre>"},{"location":"api/schema/","title":"Schemas","text":""},{"location":"api/schema/#nplinker.schemas","title":"schemas","text":""},{"location":"api/schema/#nplinker.schemas.validate_podp_json","title":"validate_podp_json","text":"<pre><code>validate_podp_json(json_data: dict) -&gt; None\n</code></pre> <p>Validate a dictionary of JSON data against the PODP JSON schema.</p> <p>All validation error messages are collected and raised as a single ValueError.</p> <p>Parameters:</p> Name Type Description Default <code>json_data</code> <code>dict</code> <p>The JSON data to validate.</p> required <p>Raises:</p> Type Description <code>ValueError</code> <p>If the JSON data does not match the schema.</p> Source code in <code>src/nplinker/schemas/utils.py</code> <pre><code>def validate_podp_json(json_data: dict) -&gt; None:\n    \"\"\"Validate a dictionary of JSON data against the PODP JSON schema.\n\n    All validation error messages are collected and raised as a single\n    ValueError.\n\n    Parameters:\n        json_data: The JSON data to validate.\n\n    Raises:\n        ValueError: If the JSON data does not match the schema.\n    \"\"\"\n    validator = Draft7Validator(PODP_ADAPTED_SCHEMA)\n    errors = sorted(validator.iter_errors(json_data), key=lambda e: e.path)\n    if errors:\n        error_messages = [f\"{e.json_path}: {e.message}\" for e in errors]\n        raise ValueError(\n            \"Not match PODP adapted schema, here are the detailed error:\\n  - \"\n            + \"\\n  - \".join(error_messages)\n        )\n</code></pre>"},{"location":"api/scoring/","title":"Scoring","text":""},{"location":"api/scoring/#nplinker.scoring","title":"scoring","text":""},{"location":"api/scoring/#nplinker.scoring.ScoringMethod","title":"ScoringMethod","text":"<pre><code>ScoringMethod(npl)\n</code></pre> <p>Base class of scoring methods.</p> Source code in <code>src/nplinker/scoring/methods.py</code> <pre><code>def __init__(self, npl):\n    self.npl = npl\n    self.name = self.__class__.NAME\n</code></pre>"},{"location":"api/scoring/#nplinker.scoring.ScoringMethod.setup","title":"setup  <code>staticmethod</code>","text":"<pre><code>setup(npl)\n</code></pre> <p>Perform any one-off initialisation required (will only be called once).</p> Source code in <code>src/nplinker/scoring/methods.py</code> <pre><code>@staticmethod\ndef setup(npl):\n    \"\"\"Perform any one-off initialisation required (will only be called once).\"\"\"\n    pass\n</code></pre>"},{"location":"api/scoring/#nplinker.scoring.ScoringMethod.get_links","title":"get_links","text":"<pre><code>get_links(*objects, link_collection: LinkCollection) -&gt; LinkCollection\n</code></pre> <p>Given a set of objects, return link information.</p> Source code in <code>src/nplinker/scoring/methods.py</code> <pre><code>def get_links(self, *objects, link_collection: LinkCollection) -&gt; LinkCollection:\n    \"\"\"Given a set of objects, return link information.\"\"\"\n    return link_collection\n</code></pre>"},{"location":"api/scoring/#nplinker.scoring.ScoringMethod.format_data","title":"format_data","text":"<pre><code>format_data(data)\n</code></pre> <p>Given whatever output data the method produces, return a readable string version.</p> Source code in <code>src/nplinker/scoring/methods.py</code> <pre><code>def format_data(self, data):\n    \"\"\"Given whatever output data the method produces, return a readable string version.\"\"\"\n    return \"\"\n</code></pre>"},{"location":"api/scoring/#nplinker.scoring.ScoringMethod.sort","title":"sort","text":"<pre><code>sort(objects, reverse=True)\n</code></pre> <p>Given a list of objects, return them sorted by link score.</p> Source code in <code>src/nplinker/scoring/methods.py</code> <pre><code>def sort(self, objects, reverse=True):\n    \"\"\"Given a list of objects, return them sorted by link score.\"\"\"\n    return objects\n</code></pre>"},{"location":"api/scoring/#nplinker.scoring.MetcalfScoring","title":"MetcalfScoring","text":"<pre><code>MetcalfScoring(npl: NPLinker)\n</code></pre> <p>             Bases: <code>ScoringMethod</code></p> <p>Metcalf scoring method.</p> <p>Attributes:</p> Name Type Description <code>DATALINKS</code> <p>The DataLinks object to use for scoring.</p> <code>LINKFINDER</code> <p>The LinkFinder object to use for scoring.</p> <code>NAME</code> <p>The name of the scoring method. This is set to 'metcalf'.</p> <p>Create a MetcalfScoring object.</p> <p>Parameters:</p> Name Type Description Default <code>npl</code> <code>NPLinker</code> <p>The NPLinker object to use for scoring.</p> required <p>Attributes:</p> Name Type Description <code>cutoff</code> <p>The cutoff value to use for scoring. Scores below this value will be discarded. Defaults to 1.0.</p> <code>standardised</code> <p>Whether to use standardised scores. Defaults to True.</p> <code>name</code> <p>The name of the scoring method. It's set to a fixed value 'metcalf'.</p> Source code in <code>src/nplinker/scoring/metcalf_scoring.py</code> <pre><code>def __init__(self, npl: NPLinker) -&gt; None:\n    \"\"\"Create a MetcalfScoring object.\n\n    Args:\n        npl: The NPLinker object to use for scoring.\n\n    Attributes:\n        cutoff: The cutoff value to use for scoring. Scores below\n            this value will be discarded. Defaults to 1.0.\n        standardised: Whether to use standardised scores. Defaults\n            to True.\n        name: The name of the scoring method. It's set to a fixed value\n            'metcalf'.\n    \"\"\"\n    super().__init__(npl)\n    self.cutoff = 1.0\n    self.standardised = True\n</code></pre>"},{"location":"api/scoring/#nplinker.scoring.MetcalfScoring.setup","title":"setup  <code>staticmethod</code>","text":"<pre><code>setup(npl: NPLinker)\n</code></pre> <p>Setup the MetcalfScoring object.</p> <p>DataLinks and LinkFinder objects are created and cached for later use.</p> Source code in <code>src/nplinker/scoring/metcalf_scoring.py</code> <pre><code>@staticmethod\ndef setup(npl: NPLinker):\n    \"\"\"Setup the MetcalfScoring object.\n\n    DataLinks and LinkFinder objects are created and cached for later use.\n    \"\"\"\n    logger.info(\n        \"MetcalfScoring.setup (bgcs={}, gcfs={}, spectra={}, molfams={}, strains={})\".format(\n            len(npl.bgcs), len(npl.gcfs), len(npl.spectra), len(npl.molfams), len(npl.strains)\n        )\n    )\n\n    cache_dir = os.path.join(npl.root_dir, \"metcalf\")\n    cache_file = os.path.join(cache_dir, \"metcalf_scores.pckl\")\n    os.makedirs(cache_dir, exist_ok=True)\n\n    # the metcalf preprocessing can take a long time for large datasets, so it's\n    # better to cache as the data won't change unless the number of objects does\n    dataset_counts = [\n        len(npl.bgcs),\n        len(npl.gcfs),\n        len(npl.spectra),\n        len(npl.molfams),\n        len(npl.strains),\n    ]\n    datalinks, linkfinder = None, None\n    if os.path.exists(cache_file):\n        logger.debug(\"MetcalfScoring.setup loading cached data\")\n        cache_data = load_pickled_data(npl, cache_file)\n        cache_ok = True\n        if cache_data is not None:\n            (counts, datalinks, linkfinder) = cache_data\n            # need to invalidate this if dataset appears to have changed\n            for i in range(len(counts)):\n                if counts[i] != dataset_counts[i]:\n                    logger.info(\"MetcalfScoring.setup invalidating cached data!\")\n                    cache_ok = False\n                    break\n\n        if cache_ok:\n            MetcalfScoring.DATALINKS = datalinks\n            MetcalfScoring.LINKFINDER = linkfinder\n\n    if MetcalfScoring.DATALINKS is None:\n        logger.info(\"MetcalfScoring.setup preprocessing dataset (this may take some time)\")\n        MetcalfScoring.DATALINKS = DataLinks(npl.gcfs, npl.spectra, npl.molfams, npl.strains)\n        MetcalfScoring.LINKFINDER = LinkFinder()\n        MetcalfScoring.LINKFINDER.calc_score(MetcalfScoring.DATALINKS, link_type=LINK_TYPES[0])\n        MetcalfScoring.LINKFINDER.calc_score(MetcalfScoring.DATALINKS, link_type=LINK_TYPES[1])\n        logger.debug(\"MetcalfScoring.setup caching results\")\n        save_pickled_data(\n            (dataset_counts, MetcalfScoring.DATALINKS, MetcalfScoring.LINKFINDER), cache_file\n        )\n\n    logger.info(\"MetcalfScoring.setup completed\")\n</code></pre>"},{"location":"api/scoring/#nplinker.scoring.MetcalfScoring.get_links","title":"get_links","text":"<pre><code>get_links(*objects: GCF | Spectrum | MolecularFamily, link_collection: LinkCollection) -&gt; LinkCollection\n</code></pre> <p>Get links for the given objects and add them to the given LinkCollection.</p> <p>The given objects are treated as input or source objects, which must be GCF, Spectrum or MolecularFamily objects.</p> <p>Parameters:</p> Name Type Description Default <code>objects</code> <code>GCF | Spectrum | MolecularFamily</code> <p>The objects to get links for. Must be GCF, Spectrum or MolecularFamily objects.</p> <code>()</code> <code>link_collection</code> <code>LinkCollection</code> <p>The LinkCollection object to add the links to.</p> required <p>Returns:</p> Type Description <code>LinkCollection</code> <p>The LinkCollection object with the new links added.</p> <p>Raises:</p> Type Description <code>ValueError</code> <p>If the input objects are empty.</p> <code>TypeError</code> <p>If the input objects are not of the correct type.</p> <code>ValueError</code> <p>If LinkFinder instance has not been created (MetcalfScoring object has not been setup).</p> Source code in <code>src/nplinker/scoring/metcalf_scoring.py</code> <pre><code>def get_links(\n    self, *objects: GCF | Spectrum | MolecularFamily, link_collection: LinkCollection\n) -&gt; LinkCollection:\n    \"\"\"Get links for the given objects and add them to the given LinkCollection.\n\n    The given objects are treated as input or source objects, which must\n    be GCF, Spectrum or MolecularFamily objects.\n\n    Args:\n        objects: The objects to get links for. Must be GCF, Spectrum\n            or MolecularFamily objects.\n        link_collection: The LinkCollection object to add the links to.\n\n    Returns:\n        The LinkCollection object with the new links added.\n\n    Raises:\n        ValueError: If the input objects are empty.\n        TypeError: If the input objects are not of the correct type.\n        ValueError: If LinkFinder instance has not been created\n            (MetcalfScoring object has not been setup).\n    \"\"\"\n    if len(objects) == 0:\n        raise ValueError(\"Empty input objects.\")\n\n    if isinstance_all(*objects, objtype=GCF):\n        obj_type = \"gcf\"\n    elif isinstance_all(*objects, objtype=Spectrum):\n        obj_type = \"spec\"\n    elif isinstance_all(*objects, objtype=MolecularFamily):\n        obj_type = \"mf\"\n    else:\n        types = [type(i) for i in objects]\n        raise TypeError(\n            f\"Invalid type {set(types)}. Input objects must be GCF, Spectrum or MolecularFamily objects.\"\n        )\n\n    if self.LINKFINDER is None:\n        raise ValueError(\n            (\"LinkFinder object not found. Have you called `MetcalfScoring.setup(npl)`?\")\n        )\n\n    logger.debug(f\"MetcalfScoring: standardised = {self.standardised}\")\n    if not self.standardised:\n        scores_list = self.LINKFINDER.get_links(*objects, score_cutoff=self.cutoff)\n    # TODO CG: verify the logics of standardised score and add unit tests\n    else:\n        # use negative infinity as the score cutoff to ensure we get all links\n        # the self.cutoff will be applied later in the postprocessing step\n        scores_list = self.LINKFINDER.get_links(*objects, score_cutoff=np.NINF)\n        if obj_type == \"gcf\":\n            scores_list = self._calc_standardised_score_gen(self.LINKFINDER, scores_list)\n        else:\n            scores_list = self._calc_standardised_score_met(self.LINKFINDER, scores_list)\n\n    link_scores: dict[\n        GCF | Spectrum | MolecularFamily, dict[GCF | Spectrum | MolecularFamily, ObjectLink]\n    ] = {}\n    if obj_type == \"gcf\":\n        logger.debug(\n            f\"MetcalfScoring: input_type=GCF, result_type=Spec/MolFam, \"\n            f\"#inputs={len(objects)}.\"\n        )\n        for scores in scores_list:\n            # when no links found\n            if scores.shape[1] == 0:\n                logger.debug(f'MetcalfScoring: found no \"{scores.name}\" links')\n            else:\n                # when links found\n                for col_index in range(scores.shape[1]):\n                    gcf = self.npl.lookup_gcf(scores.loc[\"source\", col_index])\n                    if scores.name == LINK_TYPES[0]:\n                        met = self.npl.lookup_spectrum(scores.loc[\"target\", col_index])\n                    else:\n                        met = self.npl.lookup_mf(scores.loc[\"target\", col_index])\n                    if gcf not in link_scores:\n                        link_scores[gcf] = {}\n                    # TODO CG: use id instead of object for gcf, met and self?\n                    link_scores[gcf][met] = ObjectLink(\n                        gcf, met, self, scores.loc[\"score\", col_index]\n                    )\n                logger.debug(f\"MetcalfScoring: found {len(link_scores)} {scores.name} links.\")\n    else:\n        logger.debug(\n            f\"MetcalfScoring: input_type=Spec/MolFam, result_type=GCF, \"\n            f\"#inputs={len(objects)}.\"\n        )\n        scores = scores_list[0]\n        # when no links found\n        if scores.shape[1] == 0:\n            logger.debug(f'MetcalfScoring: found no links \"{scores.name}\" for input objects')\n        else:\n            for col_index in range(scores.shape[1]):\n                gcf = self.npl.lookup_gcf(scores.loc[\"target\", col_index])\n                if scores.name == LINK_TYPES[0]:\n                    met = self.npl.lookup_spectrum(scores.loc[\"source\", col_index])\n                else:\n                    met = self.npl.lookup_mf(scores.loc[\"source\", col_index])\n                if met not in link_scores:\n                    link_scores[met] = {}\n                link_scores[met][gcf] = ObjectLink(\n                    met, gcf, self, scores.loc[\"score\", col_index]\n                )\n            logger.debug(f\"MetcalfScoring: found {len(link_scores)} {scores.name} links.\")\n\n    link_collection._add_links_from_method(self, link_scores)\n    logger.debug(\"MetcalfScoring: completed\")\n    return link_collection\n</code></pre>"},{"location":"api/scoring/#nplinker.scoring.LinkCollection","title":"LinkCollection","text":"<pre><code>LinkCollection(and_mode=True)\n</code></pre> <p>Class which stores the results of running one or more scoring methods.</p> <p>It provides access to the set of objects which were found to have links, the set of objects linked to each of those objects, and the information produced by the scoring method(s) about each link.</p> <p>There are also some useful utility methods to filter the original results.</p> Source code in <code>src/nplinker/scoring/link_collection.py</code> <pre><code>def __init__(self, and_mode=True):\n    self._methods = set()\n    self._link_data = {}\n    self._targets = {}\n    self._and_mode = and_mode\n</code></pre>"},{"location":"api/scoring/#nplinker.scoring.ObjectLink","title":"ObjectLink","text":"<pre><code>ObjectLink(source, target, method, data=None, shared_strains=[])\n</code></pre> <p>Class which stores information about a single link between two objects.</p> <p>There will be at most one instance of an ObjectLink for a given pair of objects (source, target) after running 1 or more scoring methods. Some methods, e.g. Metcalf, will always produce a single output per link. However other methods like Rosetta may find multiple \"hits\" for a given pair. In either case the data for a given method is associated with the ObjectLink so it can be retrieved afterwards.</p> The information stored is basically <ul> <li>the \"source\" of the link (original object provided as part of the input)</li> <li>the \"target\" of the link (linked object, as determined by the method(s) used)</li> <li>a (possibly empty) list of Strain objects shared between source and target</li> <li>the output of the scoring method(s) used for this link (e.g. a metcalf score)</li> </ul> Source code in <code>src/nplinker/scoring/object_link.py</code> <pre><code>def __init__(self, source, target, method, data=None, shared_strains=[]):\n    self.source = source\n    self.target = target\n    self.shared_strains = shared_strains\n    self._method_data = {method: data}\n</code></pre>"},{"location":"api/strain/","title":"Data Models","text":""},{"location":"api/strain/#nplinker.strain","title":"strain","text":""},{"location":"api/strain/#nplinker.strain.Strain","title":"Strain","text":"<pre><code>Strain(primary_id: str)\n</code></pre> <p>To model the mapping between strain id and its aliases.</p> <p>It's recommended to use NCBI taxonomy strain id or name as the primary id.</p> <p>Parameters:</p> Name Type Description Default <code>primary_id</code> <code>str</code> <p>the representative id of the strain.</p> required Source code in <code>src/nplinker/strain/strain.py</code> <pre><code>def __init__(self, primary_id: str) -&gt; None:\n    \"\"\"To model the mapping between strain id and its aliases.\n\n    It's recommended to use NCBI taxonomy strain id or name as the primary\n    id.\n\n    Args:\n        primary_id: the representative id of the strain.\n    \"\"\"\n    self.id: str = primary_id\n    self._aliases: set[str] = set()\n</code></pre>"},{"location":"api/strain/#nplinker.strain.Strain.names","title":"names  <code>property</code>","text":"<pre><code>names: set[str]\n</code></pre> <p>Get the set of strain names including id and aliases.</p> <p>Returns:</p> Type Description <code>set[str]</code> <p>set[str]: A set of names associated with the strain.</p>"},{"location":"api/strain/#nplinker.strain.Strain.aliases","title":"aliases  <code>property</code>","text":"<pre><code>aliases: set[str]\n</code></pre> <p>Get the set of known aliases.</p> <p>Returns:</p> Type Description <code>set[str]</code> <p>set[str]: A set of aliases associated with the strain.</p>"},{"location":"api/strain/#nplinker.strain.Strain.add_alias","title":"add_alias","text":"<pre><code>add_alias(alias: str) -&gt; None\n</code></pre> <p>Add an alias to the list of known aliases.</p> <p>Parameters:</p> Name Type Description Default <code>alias</code> <code>str</code> <p>The alias to add to the list of known aliases.</p> required Source code in <code>src/nplinker/strain/strain.py</code> <pre><code>def add_alias(self, alias: str) -&gt; None:\n    \"\"\"Add an alias to the list of known aliases.\n\n    Args:\n        alias: The alias to add to the list of known aliases.\n    \"\"\"\n    if not isinstance(alias, str):\n        raise TypeError(f\"Expected str, got {type(alias)}\")\n    if len(alias) == 0:\n        logger.warning(\"Refusing to add an empty-string alias to strain {%s}\", self)\n    else:\n        self._aliases.add(alias)\n</code></pre>"},{"location":"api/strain/#nplinker.strain.StrainCollection","title":"StrainCollection","text":"<pre><code>StrainCollection()\n</code></pre> <p>A collection of Strain objects.</p> Source code in <code>src/nplinker/strain/strain_collection.py</code> <pre><code>def __init__(self):\n    \"\"\"A collection of Strain objects.\"\"\"\n    # the order of strains is needed for scoring part, so use a list\n    self._strains: list[Strain] = []\n    self._strain_dict_name: dict[str, list[Strain]] = {}\n</code></pre>"},{"location":"api/strain/#nplinker.strain.StrainCollection.add","title":"add","text":"<pre><code>add(strain: Strain) -&gt; None\n</code></pre> <p>Add strain to the collection.</p> <p>If the strain already exists, merge the aliases.</p> <p>Parameters:</p> Name Type Description Default <code>strain</code> <code>Strain</code> <p>The strain to add.</p> required Source code in <code>src/nplinker/strain/strain_collection.py</code> <pre><code>def add(self, strain: Strain) -&gt; None:\n    \"\"\"Add strain to the collection.\n\n    If the strain already exists, merge the aliases.\n\n    Args:\n        strain: The strain to add.\n    \"\"\"\n    if strain in self._strains:\n        # only one strain object per id\n        strain_ref = self._strain_dict_name[strain.id][0]\n        new_aliases = [alias for alias in strain.aliases if alias not in strain_ref.aliases]\n        for alias in new_aliases:\n            strain_ref.add_alias(alias)\n            if alias not in self._strain_dict_name:\n                self._strain_dict_name[alias] = [strain_ref]\n            else:\n                self._strain_dict_name[alias].append(strain_ref)\n    else:\n        self._strains.append(strain)\n        for name in strain.names:\n            if name not in self._strain_dict_name:\n                self._strain_dict_name[name] = [strain]\n            else:\n                self._strain_dict_name[name].append(strain)\n</code></pre>"},{"location":"api/strain/#nplinker.strain.StrainCollection.remove","title":"remove","text":"<pre><code>remove(strain: Strain)\n</code></pre> <p>Remove a strain from the collection.</p> <p>It removes the given strain object from the collection by strain id. If the strain id is not found, raise ValueError.</p> <p>Parameters:</p> Name Type Description Default <code>strain</code> <code>Strain</code> <p>The strain to remove.</p> required <p>Raises:</p> Type Description <code>ValueError</code> <p>If the strain is not found in the collection.</p> Source code in <code>src/nplinker/strain/strain_collection.py</code> <pre><code>def remove(self, strain: Strain):\n    \"\"\"Remove a strain from the collection.\n\n    It removes the given strain object from the collection by strain id.\n    If the strain id is not found, raise ValueError.\n\n    Args:\n        strain: The strain to remove.\n\n    Raises:\n        ValueError: If the strain is not found in the collection.\n    \"\"\"\n    if strain in self._strains:\n        self._strains.remove(strain)\n        # only one strain object per id\n        strain_ref = self._strain_dict_name[strain.id][0]\n        for name in strain_ref.names:\n            if name in self._strain_dict_name:\n                new_strain_list = [s for s in self._strain_dict_name[name] if s.id != strain.id]\n                if not new_strain_list:\n                    del self._strain_dict_name[name]\n                else:\n                    self._strain_dict_name[name] = new_strain_list\n    else:\n        raise ValueError(f\"Strain {strain} not found in strain collection.\")\n</code></pre>"},{"location":"api/strain/#nplinker.strain.StrainCollection.filter","title":"filter","text":"<pre><code>filter(strain_set: set[Strain])\n</code></pre> <p>Remove all strains that are not in strain_set from the strain collection.</p> <p>Parameters:</p> Name Type Description Default <code>strain_set</code> <code>set[Strain]</code> <p>Set of strains to keep.</p> required Source code in <code>src/nplinker/strain/strain_collection.py</code> <pre><code>def filter(self, strain_set: set[Strain]):\n    \"\"\"Remove all strains that are not in strain_set from the strain collection.\n\n    Args:\n        strain_set: Set of strains to keep.\n    \"\"\"\n    # note that we need to copy the list of strains, as we are modifying it\n    for strain in self._strains.copy():\n        if strain not in strain_set:\n            self.remove(strain)\n</code></pre>"},{"location":"api/strain/#nplinker.strain.StrainCollection.has_name","title":"has_name","text":"<pre><code>has_name(name: str) -&gt; bool\n</code></pre> <p>Check if the strain collection contains the given strain name (id or alias).</p> <p>Parameters:</p> Name Type Description Default <code>name</code> <code>str</code> <p>Strain name (id or alias) to check.</p> required <p>Returns:</p> Type Description <code>bool</code> <p>True if the strain name is in the collection, False otherwise.</p> Source code in <code>src/nplinker/strain/strain_collection.py</code> <pre><code>def has_name(self, name: str) -&gt; bool:\n    \"\"\"Check if the strain collection contains the given strain name (id or alias).\n\n    Args:\n        name: Strain name (id or alias) to check.\n\n    Returns:\n        True if the strain name is in the collection, False otherwise.\n    \"\"\"\n    return name in self._strain_dict_name\n</code></pre>"},{"location":"api/strain/#nplinker.strain.StrainCollection.lookup","title":"lookup","text":"<pre><code>lookup(name: str) -&gt; list[Strain]\n</code></pre> <p>Lookup a strain by name (id or alias).</p> <p>Parameters:</p> Name Type Description Default <code>name</code> <code>str</code> <p>Strain name (id or alias) to lookup.</p> required <p>Returns:</p> Type Description <code>list[Strain]</code> <p>List of Strain objects with the given name.</p> <p>Raises:</p> Type Description <code>ValueError</code> <p>If the strain name is not found.</p> Source code in <code>src/nplinker/strain/strain_collection.py</code> <pre><code>def lookup(self, name: str) -&gt; list[Strain]:\n    \"\"\"Lookup a strain by name (id or alias).\n\n    Args:\n        name: Strain name (id or alias) to lookup.\n\n    Returns:\n        List of Strain objects with the given name.\n\n    Raises:\n        ValueError: If the strain name is not found.\n    \"\"\"\n    if name in self._strain_dict_name:\n        return self._strain_dict_name[name]\n    raise ValueError(f\"Strain {name} not found in the strain collection.\")\n</code></pre>"},{"location":"api/strain/#nplinker.strain.StrainCollection.read_json","title":"read_json  <code>staticmethod</code>","text":"<pre><code>read_json(file: str | PathLike) -&gt; 'StrainCollection'\n</code></pre> <p>Read a strain mappings JSON file and return a StrainCollection object.</p> <p>Parameters:</p> Name Type Description Default <code>file</code> <code>str | PathLike</code> <p>Path to the strain mappings JSON file.</p> required <p>Returns:</p> Type Description <code>'StrainCollection'</code> <p>StrainCollection object.</p> Source code in <code>src/nplinker/strain/strain_collection.py</code> <pre><code>@staticmethod\ndef read_json(file: str | PathLike) -&gt; \"StrainCollection\":\n    \"\"\"Read a strain mappings JSON file and return a StrainCollection object.\n\n    Args:\n        file: Path to the strain mappings JSON file.\n\n    Returns:\n        StrainCollection object.\n    \"\"\"\n    with open(file, \"r\") as f:\n        json_data = json.load(f)\n\n    # validate json data\n    validate(instance=json_data, schema=STRAIN_MAPPINGS_SCHEMA)\n\n    strain_collection = StrainCollection()\n    for data in json_data[\"strain_mappings\"]:\n        strain = Strain(data[\"strain_id\"])\n        for alias in data[\"strain_alias\"]:\n            strain.add_alias(alias)\n        strain_collection.add(strain)\n    return strain_collection\n</code></pre>"},{"location":"api/strain/#nplinker.strain.StrainCollection.to_json","title":"to_json","text":"<pre><code>to_json(file: str | PathLike | None = None) -&gt; str | None\n</code></pre> <p>Convert the StrainCollection object to a JSON string.</p> <p>Parameters:</p> Name Type Description Default <code>file</code> <code>str | PathLike | None</code> <p>Path to output JSON file. If None, return the JSON string instead.</p> <code>None</code> <p>Returns:</p> Type Description <code>str | None</code> <p>If <code>file</code> is None, return the JSON string. Otherwise, write the JSON string to the given</p> <code>str | None</code> <p>file.</p> Source code in <code>src/nplinker/strain/strain_collection.py</code> <pre><code>def to_json(self, file: str | PathLike | None = None) -&gt; str | None:\n    \"\"\"Convert the StrainCollection object to a JSON string.\n\n    Args:\n        file: Path to output JSON file. If None,\n            return the JSON string instead.\n\n    Returns:\n        If `file` is None, return the JSON string. Otherwise, write the JSON string to the given\n        file.\n    \"\"\"\n    data_list = [\n        {\"strain_id\": strain.id, \"strain_alias\": list(strain.aliases)} for strain in self\n    ]\n    json_data = {\"strain_mappings\": data_list, \"version\": \"1.0\"}\n\n    # validate json data\n    validate(instance=json_data, schema=STRAIN_MAPPINGS_SCHEMA)\n\n    if file is not None:\n        with open(file, \"w\") as f:\n            json.dump(json_data, f)\n        return None\n    return json.dumps(json_data)\n</code></pre>"},{"location":"api/strain_utils/","title":"Utilities","text":""},{"location":"api/strain_utils/#nplinker.strain.utils","title":"utils","text":""},{"location":"api/strain_utils/#nplinker.strain.utils.load_user_strains","title":"load_user_strains","text":"<pre><code>load_user_strains(json_file: str | PathLike) -&gt; set[Strain]\n</code></pre> <p>Load user specified strains from a JSON file.</p> <p>The JSON file must follow the schema defined in <code>schemas/user_strains.json</code>.</p> An example content of the JSON file <pre><code>{\"strain_ids\": [\"strain1\", \"strain2\"]}\n</code></pre> <p>Parameters:</p> Name Type Description Default <code>json_file</code> <code>str | PathLike</code> <p>Path to the JSON file containing user specified strains.</p> required <p>Returns:</p> Type Description <code>set[Strain]</code> <p>set[Strain]: A set of user specified strains.</p> Source code in <code>src/nplinker/strain/utils.py</code> <pre><code>def load_user_strains(json_file: str | PathLike) -&gt; set[Strain]:\n    \"\"\"Load user specified strains from a JSON file.\n\n    The JSON file must follow the schema defined in `schemas/user_strains.json`.\n\n    An example content of the JSON file:\n        ```\n        {\"strain_ids\": [\"strain1\", \"strain2\"]}\n        ```\n\n    Args:\n        json_file: Path to the JSON file containing user specified strains.\n\n    Returns:\n        set[Strain]: A set of user specified strains.\n    \"\"\"\n    with open(json_file, \"r\") as f:\n        json_data = json.load(f)\n\n    # validate json data\n    validate(instance=json_data, schema=USER_STRAINS_SCHEMA)\n\n    strains = set()\n    for strain_id in json_data[\"strain_ids\"]:\n        strains.add(Strain(strain_id))\n\n    return strains\n</code></pre>"},{"location":"api/strain_utils/#nplinker.strain.utils.podp_generate_strain_mappings","title":"podp_generate_strain_mappings","text":"<pre><code>podp_generate_strain_mappings(podp_project_json_file: str | PathLike, genome_status_json_file: str | PathLike, genome_bgc_mappings_file: str | PathLike, gnps_file_mappings_file: str | PathLike, output_json_file: str | PathLike) -&gt; StrainCollection\n</code></pre> <p>Generate strain mappings JSON file for PODP pipeline.</p> <p>To get the strain mappings, we need to combine the following mappings:</p> <ul> <li>strain_id &lt;-&gt; original_genome_id &lt;-&gt; resolved_genome_id &lt;-&gt; bgc_id</li> <li>strain_id &lt;-&gt; MS_filename &lt;-&gt; spectrum_id</li> </ul> <p>These mappings are extracted from the following files:</p> <ul> <li>\"strain_id &lt;-&gt; original_genome_id\" is extracted from <code>podp_project_json_file</code>.</li> <li>\"original_genome_id &lt;-&gt; resolved_genome_id\" is extracted from <code>genome_status_json_file</code>.</li> <li>\"resolved_genome_id &lt;-&gt; bgc_id\" is extracted from <code>genome_bgc_mappings_file</code>.</li> <li>\"strain_id &lt;-&gt; MS_filename\" is extracted from <code>podp_project_json_file</code>.</li> <li>\"MS_filename &lt;-&gt; spectrum_id\" is extracted from <code>gnps_file_mappings_file</code>.</li> </ul> <p>Parameters:</p> Name Type Description Default <code>podp_project_json_file</code> <code>str | PathLike</code> <p>The path to the PODP project JSON file.</p> required <code>genome_status_json_file</code> <code>str | PathLike</code> <p>The path to the genome status JSON file.</p> required <code>genome_bgc_mappings_file</code> <code>str | PathLike</code> <p>The path to the genome BGC mappings JSON file.</p> required <code>gnps_file_mappings_file</code> <code>str | PathLike</code> <p>The path to the GNPS file mappings file (csv or tsv).</p> required <code>output_json_file</code> <code>str | PathLike</code> <p>The path to the output JSON file.</p> required <p>Returns:</p> Type Description <code>StrainCollection</code> <p>The strain mappings stored in a StrainCollection object.</p> See Also <ul> <li><code>extract_mappings_strain_id_original_genome_id</code>: Extract mappings     \"strain_id &lt;-&gt; original_genome_id\".</li> <li><code>extract_mappings_original_genome_id_resolved_genome_id</code>: Extract mappings     \"original_genome_id &lt;-&gt; resolved_genome_id\".</li> <li><code>extract_mappings_resolved_genome_id_bgc_id</code>: Extract mappings     \"resolved_genome_id &lt;-&gt; bgc_id\".</li> <li><code>get_mappings_strain_id_bgc_id</code>: Get mappings \"strain_id &lt;-&gt; bgc_id\".</li> <li><code>extract_mappings_strain_id_ms_filename</code>: Extract mappings     \"strain_id &lt;-&gt; MS_filename\".</li> <li><code>extract_mappings_ms_filename_spectrum_id</code>: Extract mappings     \"MS_filename &lt;-&gt; spectrum_id\".</li> <li><code>get_mappings_strain_id_spectrum_id</code>: Get mappings \"strain_id &lt;-&gt; spectrum_id\".</li> </ul> Source code in <code>src/nplinker/strain/utils.py</code> <pre><code>def podp_generate_strain_mappings(\n    podp_project_json_file: str | PathLike,\n    genome_status_json_file: str | PathLike,\n    genome_bgc_mappings_file: str | PathLike,\n    gnps_file_mappings_file: str | PathLike,\n    output_json_file: str | PathLike,\n) -&gt; StrainCollection:\n    \"\"\"Generate strain mappings JSON file for PODP pipeline.\n\n    To get the strain mappings, we need to combine the following mappings:\n\n    - strain_id &lt;-&gt; original_genome_id &lt;-&gt; resolved_genome_id &lt;-&gt; bgc_id\n    - strain_id &lt;-&gt; MS_filename &lt;-&gt; spectrum_id\n\n    These mappings are extracted from the following files:\n\n    - \"strain_id &lt;-&gt; original_genome_id\" is extracted from `podp_project_json_file`.\n    - \"original_genome_id &lt;-&gt; resolved_genome_id\" is extracted from `genome_status_json_file`.\n    - \"resolved_genome_id &lt;-&gt; bgc_id\" is extracted from `genome_bgc_mappings_file`.\n    - \"strain_id &lt;-&gt; MS_filename\" is extracted from `podp_project_json_file`.\n    - \"MS_filename &lt;-&gt; spectrum_id\" is extracted from `gnps_file_mappings_file`.\n\n    Args:\n        podp_project_json_file: The path to the PODP project\n            JSON file.\n        genome_status_json_file: The path to the genome status\n            JSON file.\n        genome_bgc_mappings_file: The path to the genome BGC\n            mappings JSON file.\n        gnps_file_mappings_file: The path to the GNPS file\n            mappings file (csv or tsv).\n        output_json_file: The path to the output JSON file.\n\n    Returns:\n        The strain mappings stored in a StrainCollection object.\n\n    See Also:\n        - `extract_mappings_strain_id_original_genome_id`: Extract mappings\n            \"strain_id &lt;-&gt; original_genome_id\".\n        - `extract_mappings_original_genome_id_resolved_genome_id`: Extract mappings\n            \"original_genome_id &lt;-&gt; resolved_genome_id\".\n        - `extract_mappings_resolved_genome_id_bgc_id`: Extract mappings\n            \"resolved_genome_id &lt;-&gt; bgc_id\".\n        - `get_mappings_strain_id_bgc_id`: Get mappings \"strain_id &lt;-&gt; bgc_id\".\n        - `extract_mappings_strain_id_ms_filename`: Extract mappings\n            \"strain_id &lt;-&gt; MS_filename\".\n        - `extract_mappings_ms_filename_spectrum_id`: Extract mappings\n            \"MS_filename &lt;-&gt; spectrum_id\".\n        - `get_mappings_strain_id_spectrum_id`: Get mappings \"strain_id &lt;-&gt; spectrum_id\".\n    \"\"\"\n    # Get mappings strain_id &lt;-&gt; original_geonme_id &lt;-&gt; resolved_genome_id &lt;-&gt; bgc_id\n    mappings_strain_id_bgc_id = get_mappings_strain_id_bgc_id(\n        extract_mappings_strain_id_original_genome_id(podp_project_json_file),\n        extract_mappings_original_genome_id_resolved_genome_id(genome_status_json_file),\n        extract_mappings_resolved_genome_id_bgc_id(genome_bgc_mappings_file),\n    )\n\n    # Get mappings strain_id &lt;-&gt; MS_filename &lt;-&gt; spectrum_id\n    mappings_strain_id_spectrum_id = get_mappings_strain_id_spectrum_id(\n        extract_mappings_strain_id_ms_filename(podp_project_json_file),\n        extract_mappings_ms_filename_spectrum_id(gnps_file_mappings_file),\n    )\n\n    # Get mappings strain_id &lt;-&gt; bgc_id / spectrum_id\n    mappings = mappings_strain_id_bgc_id.copy()\n    for strain_id, spectrum_ids in mappings_strain_id_spectrum_id.items():\n        if strain_id in mappings:\n            mappings[strain_id].update(spectrum_ids)\n        else:\n            mappings[strain_id] = spectrum_ids.copy()\n\n    # Create StrainCollection\n    sc = StrainCollection()\n    for strain_id, bgc_ids in mappings.items():\n        if not sc.has_name(strain_id):\n            strain = Strain(strain_id)\n            for bgc_id in bgc_ids:\n                strain.add_alias(bgc_id)\n            sc.add(strain)\n        else:\n            # strain_list has only one element\n            strain_list = sc.lookup(strain_id)\n            for bgc_id in bgc_ids:\n                strain_list[0].add_alias(bgc_id)\n\n    # Write strain mappings JSON file\n    sc.to_json(output_json_file)\n    logger.info(\"Generated strain mappings JSON file: %s\", output_json_file)\n\n    return sc\n</code></pre>"},{"location":"api/utils/","title":"General Utilities","text":""},{"location":"api/utils/#nplinker.utils","title":"utils","text":""},{"location":"api/utils/#nplinker.utils.download_and_extract_archive","title":"download_and_extract_archive","text":"<pre><code>download_and_extract_archive(url: str, download_root: str | PathLike, extract_root: str | Path | None = None, filename: str | None = None, md5: str | None = None, remove_finished: bool = False) -&gt; None\n</code></pre> <p>Download a file from url and extract it.</p> <p>This method is a wrapper of <code>download_url</code> and <code>extract_archive</code> methods.</p> <p>Parameters:</p> Name Type Description Default <code>url</code> <code>str</code> <p>URL to download file from</p> required <code>download_root</code> <code>str | PathLike</code> <p>Path to the directory to place downloaded file in. If it doesn't exist, it will be created.</p> required <code>extract_root</code> <code>str | Path | None</code> <p>Path to the directory the file will be extracted to. The given directory will be created if not exist. If omitted, the <code>download_root</code> is used.</p> <code>None</code> <code>filename</code> <code>str | None</code> <p>Name to save the downloaded file under. If None, use the basename of the URL</p> <code>None</code> <code>md5</code> <code>str | None</code> <p>MD5 checksum of the download. If None, do not check</p> <code>None</code> <code>remove_finished</code> <code>bool</code> <p>If <code>True</code>, remove the downloaded file  after the extraction. Defaults to False.</p> <code>False</code> Source code in <code>src/nplinker/utils.py</code> <pre><code>def download_and_extract_archive(\n    url: str,\n    download_root: str | PathLike,\n    extract_root: str | Path | None = None,\n    filename: str | None = None,\n    md5: str | None = None,\n    remove_finished: bool = False,\n) -&gt; None:\n    \"\"\"Download a file from url and extract it.\n\n       This method is a wrapper of `download_url` and `extract_archive` methods.\n\n    Args:\n        url: URL to download file from\n        download_root: Path to the directory to place downloaded\n            file in. If it doesn't exist, it will be created.\n        extract_root: Path to the directory the file\n            will be extracted to. The given directory will be created if not exist.\n            If omitted, the `download_root` is used.\n        filename: Name to save the downloaded file under.\n            If None, use the basename of the URL\n        md5: MD5 checksum of the download. If None, do not check\n        remove_finished: If `True`, remove the downloaded file\n             after the extraction. Defaults to False.\n    \"\"\"\n    download_root = Path(download_root)\n    if extract_root is None:\n        extract_root = download_root\n    else:\n        extract_root = Path(extract_root)\n    if not filename:\n        filename = Path(url).name\n\n    download_url(url, download_root, filename, md5)\n\n    archive = download_root / filename\n    print(f\"Extracting {archive} to {extract_root}\")\n    extract_archive(archive, extract_root, remove_finished=remove_finished)\n</code></pre>"},{"location":"api/utils/#nplinker.utils.download_url","title":"download_url","text":"<pre><code>download_url(url: str, root: str | PathLike, filename: str | None = None, md5: str | None = None, http_method: str = 'GET', allow_http_redirect: bool = True) -&gt; None\n</code></pre> <p>Download a file from a url and place it in root.</p> <p>Parameters:</p> Name Type Description Default <code>url</code> <code>str</code> <p>URL to download file from</p> required <code>root</code> <code>str | PathLike</code> <p>Directory to place downloaded file in. If it doesn't exist, it will be created.</p> required <code>filename</code> <code>str | None</code> <p>Name to save the file under. If None, use the basename of the URL.</p> <code>None</code> <code>md5</code> <code>str | None</code> <p>MD5 checksum of the download. If None, do not check.</p> <code>None</code> <code>http_method</code> <code>str</code> <p>HTTP request method, e.g. \"GET\", \"POST\". Defaults to \"GET\".</p> <code>'GET'</code> <code>allow_http_redirect</code> <code>bool</code> <p>If true, enable following redirects for all HTTP (\"http:\") methods.</p> <code>True</code> Source code in <code>src/nplinker/utils.py</code> <pre><code>def download_url(\n    url: str,\n    root: str | PathLike,\n    filename: str | None = None,\n    md5: str | None = None,\n    http_method: str = \"GET\",\n    allow_http_redirect: bool = True,\n) -&gt; None:\n    \"\"\"Download a file from a url and place it in root.\n\n    Args:\n        url: URL to download file from\n        root: Directory to place downloaded file in. If it doesn't exist, it will be created.\n        filename: Name to save the file under. If None, use the\n            basename of the URL.\n        md5: MD5 checksum of the download. If None, do not check.\n        http_method: HTTP request method, e.g. \"GET\", \"POST\".\n            Defaults to \"GET\".\n        allow_http_redirect: If true, enable following redirects for all HTTP (\"http:\") methods.\n    \"\"\"\n    root = transform_to_full_path(root)\n    # create the download directory if not exist\n    root.mkdir(exist_ok=True)\n    if not filename:\n        filename = Path(url).name\n    fpath = root / filename\n\n    # check if file is already present locally\n    if fpath.is_file() and md5 is not None and check_md5(fpath, md5):\n        print(\"Using downloaded and verified file: \" + str(fpath))\n        return\n\n    # download the file\n    with open(fpath, \"wb\") as fh:\n        with httpx.stream(http_method, url, follow_redirects=allow_http_redirect) as response:\n            if not response.is_success:\n                fpath.unlink(missing_ok=True)\n                raise RuntimeError(\n                    f\"Failed to download url {url} with status code {response.status_code}\"\n                )\n            total = int(response.headers.get(\"Content-Length\", 0))\n            with tqdm(total=total, unit_scale=True, unit_divisor=1024, unit=\"B\") as progress:\n                num_bytes_downloaded = response.num_bytes_downloaded\n                for chunk in response.iter_bytes():\n                    fh.write(chunk)\n                    progress.update(response.num_bytes_downloaded - num_bytes_downloaded)\n                    num_bytes_downloaded = response.num_bytes_downloaded\n\n    # check integrity of downloaded file\n    if md5 is not None and not check_md5(fpath, md5):\n        raise RuntimeError(\"MD5 validation failed.\")\n</code></pre>"},{"location":"api/utils/#nplinker.utils.extract_archive","title":"extract_archive","text":"<pre><code>extract_archive(from_path: str | PathLike, extract_root: str | PathLike | None = None, members: list | None = None, remove_finished: bool = False) -&gt; str\n</code></pre> <p>Extract an archive.</p> <p>The archive type and a possible compression is automatically detected from the file name. If the file is compressed but not an archive the call is dispatched to :func:<code>decompress</code>.</p> <p>Parameters:</p> Name Type Description Default <code>from_path</code> <code>str | PathLike</code> <p>Path to the file to be extracted.</p> required <code>extract_root</code> <code>str | PathLike | None</code> <p>Path to the directory the file will be extracted to. The given directory will be created if not exist. If omitted, the directory of the archive file is used.</p> <code>None</code> <code>members</code> <code>list | None</code> <p>Optional selection of members to extract. If not specified, all members are extracted. Memers must be a subset of the list returned by - <code>zipfile.ZipFile.namelist()</code> or a list of strings for zip file - <code>tarfile.TarFile.getmembers()</code> for tar file</p> <code>None</code> <code>remove_finished</code> <code>bool</code> <p>If <code>True</code>, remove the file after the extraction.</p> <code>False</code> <p>Returns:</p> Type Description <code>str</code> <p>Path to the directory the file was extracted to.</p> Source code in <code>src/nplinker/utils.py</code> <pre><code>def extract_archive(\n    from_path: str | PathLike,\n    extract_root: str | PathLike | None = None,\n    members: list | None = None,\n    remove_finished: bool = False,\n) -&gt; str:\n    \"\"\"Extract an archive.\n\n    The archive type and a possible compression is automatically detected from\n    the file name. If the file is compressed but not an archive the call is\n    dispatched to :func:`decompress`.\n\n    Args:\n        from_path: Path to the file to be extracted.\n        extract_root: Path to the directory the file will be extracted to.\n            The given directory will be created if not exist.\n            If omitted, the directory of the archive file is used.\n        members: Optional selection of members to extract. If not specified,\n            all members are extracted.\n            Memers must be a subset of the list returned by\n            - `zipfile.ZipFile.namelist()` or a list of strings for zip file\n            - `tarfile.TarFile.getmembers()` for tar file\n        remove_finished: If `True`, remove the file after the extraction.\n\n    Returns:\n        Path to the directory the file was extracted to.\n    \"\"\"\n    from_path = Path(from_path)\n\n    if extract_root is None:\n        extract_root = from_path.parent\n    else:\n        extract_root = Path(extract_root)\n\n    # create the extract directory if not exist\n    extract_root.mkdir(exist_ok=True)\n\n    suffix, archive_type, compression = _detect_file_type(from_path)\n    if not archive_type:\n        return _decompress(\n            from_path,\n            extract_root / from_path.name.replace(suffix, \"\"),\n            remove_finished=remove_finished,\n        )\n\n    extractor = _ARCHIVE_EXTRACTORS[archive_type]\n\n    extractor(str(from_path), str(extract_root), members, compression)\n    if remove_finished:\n        from_path.unlink()\n\n    return str(extract_root)\n</code></pre>"},{"location":"api/utils/#nplinker.utils.find_delimiter","title":"find_delimiter","text":"<pre><code>find_delimiter(file: str | PathLike) -&gt; str\n</code></pre> <p>Detect the delimiter for the given tabular file.</p> <p>Parameters:</p> Name Type Description Default <code>file</code> <code>str | PathLike</code> <p>Path to tabular file.</p> required <p>Returns:</p> Type Description <code>str</code> <p>Detected delimiter character.</p> <p>Examples:</p> <pre><code>&gt;&gt;&gt; delim = find_delimiter(\"~/table.csv\")\n</code></pre> Source code in <code>src/nplinker/utils.py</code> <pre><code>def find_delimiter(file: str | PathLike) -&gt; str:\n    \"\"\"Detect the delimiter for the given tabular file.\n\n    Args:\n        file: Path to tabular file.\n\n    Returns:\n        Detected delimiter character.\n\n    Examples:\n        &gt;&gt;&gt; delim = find_delimiter(\"~/table.csv\")\n    \"\"\"\n    sniffer = csv.Sniffer()\n    with open(file, mode=\"rt\", encoding=\"utf-8\") as fp:\n        delimiter = sniffer.sniff(fp.read(5000)).delimiter\n    return delimiter\n</code></pre>"},{"location":"api/utils/#nplinker.utils.get_headers","title":"get_headers","text":"<pre><code>get_headers(file: str | PathLike) -&gt; list[str]\n</code></pre> <p>Read headers from the given tabular file.</p> <p>Parameters:</p> Name Type Description Default <code>file</code> <code>str | PathLike</code> <p>Path to the file to read the header from.</p> required <p>Returns:</p> Type Description <code>list[str]</code> <p>list[str]: list of column names from the header.</p> Source code in <code>src/nplinker/utils.py</code> <pre><code>def get_headers(file: str | PathLike) -&gt; list[str]:\n    \"\"\"Read headers from the given tabular file.\n\n    Args:\n        file: Path to the file to read the header from.\n\n    Returns:\n        list[str]: list of column names from the header.\n    \"\"\"\n    with open(file) as f:\n        headers = f.readline().strip()\n        dl = find_delimiter(file)\n        return headers.split(dl)\n</code></pre>"},{"location":"api/utils/#nplinker.utils.is_file_format","title":"is_file_format","text":"<pre><code>is_file_format(file: str | PathLike, format: str = 'tsv') -&gt; bool\n</code></pre> <p>Check if the file is in the given format.</p> <p>Parameters:</p> Name Type Description Default <code>file</code> <code>str | PathLike</code> <p>Path to the file to check.</p> required <code>format</code> <code>str</code> <p>The format to check for, either \"tsv\" or \"csv\".</p> <code>'tsv'</code> <p>Returns:</p> Type Description <code>bool</code> <p>True if the file is in the given format, False otherwise.</p> Source code in <code>src/nplinker/utils.py</code> <pre><code>def is_file_format(file: str | PathLike, format: str = \"tsv\") -&gt; bool:\n    \"\"\"Check if the file is in the given format.\n\n    Args:\n        file: Path to the file to check.\n        format: The format to check for, either \"tsv\" or \"csv\".\n\n    Returns:\n        True if the file is in the given format, False otherwise.\n    \"\"\"\n    try:\n        with open(file, \"rt\") as f:\n            if format == \"tsv\":\n                reader = csv.reader(f, delimiter=\"\\t\")\n            elif format == \"csv\":\n                reader = csv.reader(f, delimiter=\",\")\n            else:\n                raise ValueError(f\"Unknown format '{format}'.\")\n            for _ in reader:\n                pass\n        return True\n    except csv.Error:\n        return False\n</code></pre>"},{"location":"api/utils/#nplinker.utils.list_dirs","title":"list_dirs","text":"<pre><code>list_dirs(root: str | PathLike, keep_parent: bool = True) -&gt; list[str]\n</code></pre> <p>List all directories at a given root.</p> <p>Parameters:</p> Name Type Description Default <code>root</code> <code>str | PathLike</code> <p>Path to directory whose folders need to be listed</p> required <code>keep_parent</code> <code>bool</code> <p>If true, prepends the path to each result, otherwise only returns the name of the directories found</p> <code>True</code> Source code in <code>src/nplinker/utils.py</code> <pre><code>def list_dirs(root: str | PathLike, keep_parent: bool = True) -&gt; list[str]:\n    \"\"\"List all directories at a given root.\n\n    Args:\n        root: Path to directory whose folders need to be listed\n        keep_parent: If true, prepends the path to each result, otherwise\n            only returns the name of the directories found\n    \"\"\"\n    root = transform_to_full_path(root)\n    directories = [str(p) for p in root.iterdir() if p.is_dir()]\n    if not keep_parent:\n        directories = [os.path.basename(d) for d in directories]\n    return directories\n</code></pre>"},{"location":"api/utils/#nplinker.utils.list_files","title":"list_files","text":"<pre><code>list_files(root: str | PathLike, prefix: str | tuple[str, ...] = '', suffix: str | tuple[str, ...] = '', keep_parent: bool = True) -&gt; list[str]\n</code></pre> <p>List all files at a given root.</p> <p>Parameters:</p> Name Type Description Default <code>root</code> <code>str | PathLike</code> <p>Path to directory whose files need to be listed</p> required <code>prefix</code> <code>str | tuple[str, ...]</code> <p>Prefix of the file names to match, Defaults to empty string '\"\"'.</p> <code>''</code> <code>suffix</code> <code>str | tuple[str, ...]</code> <p>Suffix of the files to match, e.g. \".png\" or (\".jpg\", \".png\"). Defaults to empty string '\"\"'.</p> <code>''</code> <code>keep_parent</code> <code>bool</code> <p>If true, prepends the parent path to each result, otherwise only returns the name of the files found. Defaults to False.</p> <code>True</code> Source code in <code>src/nplinker/utils.py</code> <pre><code>def list_files(\n    root: str | PathLike,\n    prefix: str | tuple[str, ...] = \"\",\n    suffix: str | tuple[str, ...] = \"\",\n    keep_parent: bool = True,\n) -&gt; list[str]:\n    \"\"\"List all files at a given root.\n\n    Args:\n        root: Path to directory whose files need to be listed\n        prefix: Prefix of the file names to match,\n            Defaults to empty string '\"\"'.\n        suffix: Suffix of the files to match, e.g. \".png\" or\n            (\".jpg\", \".png\").\n            Defaults to empty string '\"\"'.\n        keep_parent: If true, prepends the parent path to each\n            result, otherwise only returns the name of the files found.\n            Defaults to False.\n    \"\"\"\n    root = Path(root)\n    files = [\n        str(p)\n        for p in root.iterdir()\n        if p.is_file() and p.name.startswith(prefix) and p.name.endswith(suffix)\n    ]\n\n    if not keep_parent:\n        files = [os.path.basename(f) for f in files]\n\n    return files\n</code></pre>"},{"location":"api/utils/#nplinker.utils.transform_to_full_path","title":"transform_to_full_path","text":"<pre><code>transform_to_full_path(p: str | PathLike) -&gt; Path\n</code></pre> <p>Transform a path to a full path.</p> <p>The path is expanded (i.e. the <code>~</code> will be replaced with actual path) and converted to an absolute path (i.e. <code>.</code> or <code>..</code> will be replaced with actual path).</p> <p>Parameters:</p> Name Type Description Default <code>p</code> <code>str | PathLike</code> <p>The path to transform.</p> required <p>Returns:</p> Type Description <code>Path</code> <p>The transformed full path.</p> Source code in <code>src/nplinker/utils.py</code> <pre><code>def transform_to_full_path(p: str | PathLike) -&gt; Path:\n    \"\"\"Transform a path to a full path.\n\n    The path is expanded (i.e. the `~` will be replaced with actual path) and converted to an\n    absolute path (i.e. `.` or `..` will be replaced with actual path).\n\n    Args:\n        p: The path to transform.\n\n    Returns:\n        The transformed full path.\n    \"\"\"\n    # Multiple calls to `Path` are used to ensure static typing compatibility.\n    p = Path(p).expanduser()\n    p = Path(p).resolve()\n    return Path(p)\n</code></pre>"},{"location":"concepts/bigscape/","title":"BigScape","text":"<p>NPLinker can run BigScape automatically if the <code>bigscape</code> directory does not exist in the working directory.</p> <p>To run BigScape, NPLinker requires the following BigScape parameters:</p> <ul> <li><code>--mix</code></li> <li><code>--include_singletons</code></li> <li><code>--cutoffs</code></li> </ul> <p>And the following parameters are not allowed:</p> <ul> <li><code>--inputdir</code></li> <li><code>--outputdir</code></li> <li><code>--pfam_dir</code></li> </ul> <p>If BigScape parameter <code>--mibig</code> is set, make sure setting the  <code>mibig.to_use</code> to true in your config file <code>nplinker.toml</code> and <code>mibig.version</code> to the version of mibig used by bigscape.</p> <p>See the default configurations for the default  parameters of BigScape.</p>"},{"location":"concepts/config_file/","title":"Config File","text":""},{"location":"concepts/config_file/#configuration-template","title":"Configuration Template","text":"<pre><code>#############################\n# NPLinker configuration file\n#############################\n\n# The root directory of the NPLinker project. You need to create it first.\n# The value is required and must be a full path.\nroot_dir = \"&lt;NPLinker root directory&gt;\"\n# The mode for preparing dataset.\n# The available modes are \"podp\" and \"local\".\n# \"podp\" mode is for using the PODP platform (https://pairedomicsdata.bioinformatics.nl/) to prepare the dataset.\n# \"local\" mode is for preparing the dataset locally. So uers do not need to upload their data to the PODP platform.\n# The value is required.\nmode = \"podp\"\n# The PODP project identifier.\n# The value is required if the mode is \"podp\".\npodp_id = \"\"\n\n\n[log]\n# Log level. The available levels are same as the levels in python package `logging`:\n# \"NOTSET\", \"DEBUG\", \"INFO\", \"WARNING\", \"ERROR\", \"CRITICAL\".\n# The default value is \"INFO\".\nlevel = \"INFO\"\n# Redirect the log messages from stdout to a log file. If not set, the log messages will only be\n# printed to stdout.\n# The value is optional and must be a full path if set.\nfile = \"path/to/logfile\"\n# Whether to print log messages to stdout in addition to writing to the logfile.\n# The default value is true.\nto_stdout = true\n\n\n[mibig]\n# Whether to use mibig metadta (json).\n# The default value is true.\nto_use = true\n# The version of mibig metadata.\n# Make sure using the same version of mibig in bigscape.\n# The default value is \"3.1\"\nversion = \"3.1\"\n\n\n[bigscape]\n# The parameters to use for running BiG-SCAPE.\n# Required bigscape parameters are `--mix`, `--include_singletons` and `--cutoffs`. NPLinker needs\n# them to run the analysis properly.\n# Parameters that must NOT exist: `--inputdir`, `--outputdir`, `--pfam_dir`. NPLinker will\n# automatically configure them.\n# If parameter `--mibig` is set, make sure setting the config `mibig.to_use` to true and\n# `mibig.version` to the version of mibig in bigscape.\n# The default value is \"--mibig --clans-off --mix --include_singletons --cutoffs 0.30\".\nparameters = \"--mibig --clans-off --mix --include_singletons --cutoffs 0.30\"\n# Which bigscape cutoff to use for NPLinker analysis.\n# There might be multiple cutoffs in bigscape output.\n# Note that this value must be a string.\n# The default value is \"0.30\".\ncutoff = \"0.30\"\n\n\n[scoring]\n# Scoring methods.\n# Valid values are \"metcalf\" and \"rosetta\".\n# The default value is \"metcalf\".\nmethods = [\"metcalf\"]\n</code></pre>"},{"location":"concepts/config_file/#default-configurations","title":"Default Configurations","text":"<p>The default configurations are automatically used by NPLinker if you don't set them in your config file.</p> <pre><code># NPLinker default configurations\n\n[log]\nlevel = \"INFO\"\nto_stdout = true\n\n[mibig]\nto_use = true\nversion = \"3.1\"\n\n[bigscape]\nparameters = \"--mibig --clans-off --mix --include_singletons --cutoffs 0.30\"\ncutoff = \"0.30\"\n\n[scoring]\nmethods = [\"metcalf\"]\n</code></pre>"},{"location":"concepts/gnps_data/","title":"GNPS Data","text":"<p>NPLinker requires GNPS molecular networking data as input. It currently accepts data from the following  GNPS workflows:</p> <ul> <li><code>METABOLOMICS-SNETS</code> (data should be downloaded from the option <code>Download Clustered Spectra as MGF</code>)</li> <li><code>METABOLOMICS-SNETS-V2</code> (<code>Download Clustered Spectra as MGF</code>)</li> <li><code>FEATURE-BASED-MOLECULAR-NETWORKING</code> (<code>Download Cytoscape Data</code>)</li> </ul>"},{"location":"concepts/gnps_data/#mappings-from-gnps-data-to-nplinker-input","title":"Mappings from GNPS data to NPLinker input","text":"<code>METABOLOMICS-SNETS</code> workflow<code>METABOLOMICS-SNETS-V2</code><code>FEATURE-BASED-MOLECULAR-NETWORKING</code> NPLinker input GNPS file in the archive of <code>Download Clustered Spectra as MGF</code> spectra.mgf METABOLOMICS-SNETS*.mgf molecular_families.tsv networkedges_selfloop/*.pairsinfo annotations.tsv result_specnets_DB/*.tsv file_mappings.tsv clusterinfosummarygroup_attributes_withIDs_withcomponentID/*.tsv <p>For example, the file <code>METABOLOMICS-SNETS*.mgf</code> from the downloaded zip archive is used as  the <code>spectra.mgf</code> input file of NPLinker. </p> <p>When manually preparing GNPS data for NPLinker, the <code>METABOLOMICS-SNETS*.mgf</code> must be renamed to <code>spectra.mgf</code> and placed in the <code>gnps</code> sub-directory of the NPLinker working directory.</p> NPLinker input GNPS file in the archive of <code>Download Clustered Spectra as MGF</code> spectra.mgf METABOLOMICS-SNETS-V2*.mgf molecular_families.tsv networkedges_selfloop/*.selfloop annotations.tsv result_specnets_DB/*.tsv file_mappings.tsv clusterinfosummarygroup_attributes_withIDs_withcomponentID/*.clustersummary NPLinker input GNPS file in the archive of <code>Download Cytoscape Data</code> spectra.mgf spectra/*.mgf molecular_families.tsv networkedges_selfloop/*.selfloop annotations.tsv DB_result/*.tsv file_mappings.csv quantification_table/*.csv <p>Note that <code>file_mappings.csv</code> is a CSV file, not a TSV file, different from the other workflows.</p>"},{"location":"concepts/working_dir_structure/","title":"Working Directory Structure","text":"<p>NPLinker requires a fixed structure of working directory with fixed names for the input and output data.</p> <pre><code>root_dir # (1)!\n    \u2502\n    \u251c\u2500\u2500 nplinker.toml                       [F] # (2)!\n    \u251c\u2500\u2500 strain_mappings.JSON                [F] # (3)!\n    \u251c\u2500\u2500 strains_selected.json               [F][O] # (4)!\n    \u2502\n    \u251c\u2500\u2500 gnps                                [F] # (5)!\n    \u2502       \u251c\u2500\u2500 spectra.mgf                 [F]\n    \u2502       \u251c\u2500\u2500 molecular_families.tsv      [F]\n    \u2502       \u251c\u2500\u2500 annotations.tsv             [F]\n    \u2502       \u2514\u2500\u2500 file_mappings.tsv (.csv)    [F] # (6)!\n    \u2502\n    \u251c\u2500\u2500 antismash                           [F] # (7)!\n    \u2502   \u251c\u2500\u2500 GCF_000514975.1\n    \u2502   \u2502   \u251c\u2500\u2500 xxx.region001.gbk\n    \u2502   \u2502   \u2514\u2500\u2500 ...\n    \u2502   \u251c\u2500\u2500 GCF_000016425.1\n    \u2502   \u2502   \u251c\u2500\u2500 xxxx.region001.gbk\n    \u2502   \u2502   \u2514\u2500\u2500 ...\n    \u2502   \u2514\u2500\u2500 ...\n    \u2502\n    \u251c\u2500\u2500 bigscape                            [F][O] # (8)!\n    \u2502   \u251c\u2500\u2500 mix_clustering_c0.30.tsv        [F]    # (9)!\n    \u2502   \u2514\u2500\u2500 bigscape_running_output\n    \u2502       \u2514\u2500\u2500 ...\n    \u2502\n    \u251c\u2500\u2500 downloads                           [F][A] # (10)!\n    \u2502       \u251c\u2500\u2500 paired_datarecord_4b29ddc3-26d0-40d7-80c5-44fb6631dbf9.4.json # (11)!\n    \u2502       \u251c\u2500\u2500 GCF_000016425.1.zip\n    \u2502       \u251c\u2500\u2500 GCF_0000514975.1.zip\n    \u2502       \u251c\u2500\u2500 c22f44b14a3d450eb836d607cb9521bb.zip\n    \u2502       \u251c\u2500\u2500 genome_status.json\n    \u2502       \u2514\u2500\u2500 mibig_json_3.1.tar.gz\n    \u2502\n    \u251c\u2500\u2500 mibig                               [F][A] # (12)!\n    \u2502   \u251c\u2500\u2500 BGC0000001.json\n    \u2502   \u251c\u2500\u2500 BGC0000002.json\n    \u2502   \u2514\u2500\u2500 ...\n    \u2502\n    \u251c\u2500\u2500 output                              [F][A] # (13)!\n    \u2502   \u2514\u2500\u2500 ...\n    \u2502\n    \u2514\u2500\u2500 ...                                        # (14)!\n</code></pre> <ol> <li><code>root_dir</code> is the working directory you created, used as the root directory for NPLinker.</li> <li><code>nplinker.toml</code> is the configuration file provided by the user for running NPLinker.  <code>[F]</code> means the file name <code>nplinker.toml</code> is a fixed name (including the extension) and must be     named as shown.</li> <li><code>strain_mappings.json</code> contains the mappings from strain to genomics and metabolomics data. It is     generated by NPLinker for <code>podp</code> mode; for <code>local</code> mode, users need to create it manually.</li> <li><code>strains_selected.json</code> is an optional file containing the list of strains to be used in the analysis.     If it is not provided, NPLinker will use all strains detected from the input data.  <code>[O]</code> means the file <code>strains_selected.json</code> is optional for users to provide.</li> <li><code>gnps</code> directory contains the GNPS data. The files in this directory must be named as shown.     See XXX for more information about the GNPS data.</li> <li>This file could be <code>.tsv</code> or <code>.csv</code> format.</li> <li><code>antismash</code> directory contains a collection of AntiSMASH BGC data. The BGC data (<code>*.region*.gbk</code>      files) must be stored in subdirectories named after NCBI accession number (e.g. <code>GCF_000514975.1</code>).</li> <li><code>bigscape</code> directory is optional and contains the output of BigScape. If the directory is not     provided, NPLinker will run BigScape automatically to generate the data using the AntiSMASH BGC     data.</li> <li><code>mix_clustering_c0.30.tsv</code> is an example output of BigScape. The file name must follow the pattern     <code>mix_clustering_c{cutoff}.tsv</code>, where <code>{cutoff}</code> is the cutoff value used in the BigScape run.</li> <li><code>downloads</code> directory is automatically created and managed by NPLinker. It stores the downloaded data    from the internet. Users can also use it to store their own downloaded data.  <code>[A]</code> means the directory is automatically created and/or managed by NPLinker.</li> <li>This is an example file, the actual file would be different. Same as the other files in     the <code>downloads</code> directory.</li> <li><code>mibig</code> directory contains the MIBiG metadata, which is automatically created and downloaded by      NPLinker. Users should not interfere with this directory and its content.</li> <li><code>output</code> directory is automatically created by NPLinker. It stores the output data of NPLinker.</li> <li>It's flexible to extend NPLinker by adding other types of data.</li> </ol> <p>Tip</p> <ul> <li><code>[F]</code> means the file or directory name is fixed and must be named as shown.</li> <li><code>[O]</code> means the file or directory is optional for users to provide. It does not mean the file or directory is optional for NPLinker to use. If it's not provided by the user, NPLinker may generate it.</li> <li><code>[A]</code> means the directory is automatically created and/or managed by NPLinker.</li> </ul>"},{"location":"diagrams/arranger/","title":"Dataset Arranging Pipeline","text":"<p>The DatasetArranger is implemented according to the following flowcharts.</p>"},{"location":"diagrams/arranger/#strain-mappings-file","title":"Strain mappings file","text":"<pre><code>flowchart TD\n    StrainMappings[`strain_mappings.json`] --&gt; SM{Is the mode PODP?}\n    SM --&gt; |No |SM0[Validate the file]\n    SM --&gt; |Yes|SM1[Generate the file] --&gt; SM0</code></pre>"},{"location":"diagrams/arranger/#strain-selection-file","title":"Strain selection file","text":"<pre><code>flowchart TD\n    StrainsSelected[`strains_selected.json`] --&gt; S{Does the file exist?}\n    S --&gt; |No | S0[Nothing to do]\n    S --&gt; |Yes| S1[Validate the file]</code></pre>"},{"location":"diagrams/arranger/#podp-project-metadata-json-file","title":"PODP project metadata json file","text":"<pre><code>flowchart TD\n    podp[PODP project metadata json file] --&gt; A{Is the mode PODP?}\n    A --&gt; |No | A0[Nothing to do]\n    A --&gt; |Yes| P{Does the file exist?}\n    P --&gt; |No | P0[Download the file] --&gt; P1\n    P --&gt; |Yes| P1[Validate the file]</code></pre>"},{"location":"diagrams/arranger/#gnps-antismash-and-bigscape","title":"GNPS, AntiSMASH and BigScape","text":"<pre><code>flowchart TD\n    ConfigError[Dynaconf config validation error]\n    DataError[Data validation error]\n    UseIt[Use the data]\n    Download[First remove existing data if relevent, then download or generate data]\n\n    A[GNPS, antiSMASH and BigSCape] --&gt; B{Pass Dynaconf config validation?}\n    B --&gt;|No | ConfigError\n    B --&gt;|Yes| G{Is the mode PODP?}\n\n    G --&gt;|No, local mode| G1{Does data dir exist?}\n    G1 --&gt;|No | DataError\n    G1 --&gt;|Yes| H{Pass data validation?}\n    H --&gt; |No | DataError\n    H --&gt; |Yes| UseIt \n\n    G --&gt;|Yes, podp mode| G2{Does data dir exist?}\n    G2 --&gt; |No | Download\n    G2 --&gt; |Yes | J{Pass data validation?}\n    J --&gt;|No | Download --&gt; |try max 2 times| J\n    J --&gt;|Yes| UseIt</code></pre>"},{"location":"diagrams/arranger/#mibig-data","title":"MIBiG Data","text":"<p>MIBiG data is always downloaded automatically. Users cannot provide their own MIBiG data.</p> <pre><code>flowchart TD\n    Mibig[MIBiG] --&gt; M0{Pass Dynaconf config validation?}\n    M0 --&gt;|No | M01[Dynaconf config validation error]\n    M0 --&gt;|Yes | MibigDownload[First remove existing data if relevant and then download data]</code></pre>"}]}
\ No newline at end of file
+{"config":{"lang":["en"],"separator":"[\\s\\-]+","pipeline":["stopWordFilter"]},"docs":[{"location":"","title":"NPLinker","text":"<p>NPLinker is a python framework for data mining microbial natural products by integrating genomics and metabolomics data.</p> <p>For a deep understanding of NPLinker, please refer to the original paper.</p> <p>Under Development</p> <p>NPLinker v2 is under active development. The documentation is not complete yet. If you have any  questions, please contact us via GitHub Issues</p>"},{"location":"install/","title":"Installation","text":"Requirements <ul> <li>Linux, MacOS, or WSL on Windows<ul> <li>For Windows without WSL enabled, please use NPLinker docker image</li> </ul> </li> <li>Python version \u22653.9</li> </ul> <p>NPLinker is a python package that has both pypi packages and non-pypi packages as dependencies. Install <code>nplinker</code> package as following:</p> Install nplinker package<pre><code># Check python version (\u22653.9)\npython --version\n\n# Create a new virtual environment\npython -m venv env          # (1)!\nsource env/bin/activate\n\n# install nplinker package\npip install nplinker\n\n# install nplinker non-pypi dependencies and databases\ninstall-nplinker-deps\n</code></pre> <ol> <li>A virtual environment is required to install the the non-pypi dependencies. You can also use <code>conda</code> to create a new environment. But NPLinker is not available on conda yet.</li> </ol>"},{"location":"install/#install-from-source-code","title":"Install from source code","text":"<p>You can also install NPLinker from source code:</p> Install from latest source code<pre><code>pip install git+https://github.com/nplinker/nplinker@dev  # (1)!\ninstall-nplinker-deps\n</code></pre> <ol> <li>The <code>@dev</code> is the branch name. You can replace it with the branch name, commit or tag.</li> </ol>"},{"location":"quickstart/","title":"Quickstart","text":"<p>NPLinker allows you to run in two modes:</p> <code>local</code> mode<code>podp</code> mode <p>The <code>local</code> mode assumes that the data required by NPLinker is available on your local machine.</p> <p>The required input data includes:</p> <ul> <li>GNPS molecular networking data from one of the following GNPS workflows<ul> <li><code>METABOLOMICS-SNETS</code>,</li> <li><code>METABOLOMICS-SNETS-V2</code></li> <li><code>FEATURE-BASED-MOLECULAR-NETWORKING</code></li> </ul> </li> <li>AntiSMASH BGC data</li> <li>BigScape data (optional)</li> </ul> <p>The <code>podp</code> mode assumes that you use an identifier of Paired Omics Data Platform (PODP) as the input for NPLinker. Then NPLinker will download and prepare all data necessary based on the PODP id which refers to the metadata of the dataset.</p> <p>So, which mode will you use? The answer is important for the next steps.</p>"},{"location":"quickstart/#1-create-a-working-directory","title":"1. Create a working directory","text":"<p>The working directory is used to store all input and output data for NPLinker. You can name this directory as you like, for example <code>nplinker_quickstart</code>:</p> Create a working directory<pre><code>mkdir nplinker_quickstart\n</code></pre> <p>Important</p> <p>Before going to the next step, make sure you get familiar with how NPLinker organizes data in the working directory, see Working Directory Structure page.</p>"},{"location":"quickstart/#2-prepare-input-data-local-mode-only","title":"2. Prepare input data (<code>local</code> mode only)","text":"Details <p>Skip this step if you choose to use the <code>podp</code> mode.</p> <p>If you choose to use the <code>local</code> mode, meaning you have input data of NPLinker stored on your local machine, you need to move the input data to the working directory created in the previous step.</p>"},{"location":"quickstart/#gnps-data","title":"GNPS data","text":"<p>NPLinker accepts data from the output of the following GNPS workflows:</p> <ul> <li><code>METABOLOMICS-SNETS</code></li> <li><code>METABOLOMICS-SNETS-V2</code></li> <li><code>FEATURE-BASED-MOLECULAR-NETWORKING</code>.</li> </ul> <p>NPLinker provides the tools <code>GNPSDownloader</code> and <code>GNPSExtractor</code> to download and extract the GNPS data with ease. What you need to give is a valid GNPS task ID, referring to a task of the GNPS workflows supported by NPLinker.</p> GNPS task id and workflow <p>Given an example of GNPS task at https://gnps.ucsd.edu/ProteoSAFe/status.jsp?task=c22f44b14a3d450eb836d607cb9521bb, the task id is the last part of this url, i.e. <code>c22f44b14a3d450eb836d607cb9521bb</code>. Open this link, you can find the worklow info at the row \"Workflow\" of the table \"Job Status\", for this case, it is <code>METABOLOMICS-SNETS</code>.</p> Download &amp; Extract GNPS data<pre><code>from nplinker.metabolomics.gnps import GNPSDownloader, GNPSExtractor\n\n# Go to the working directory\ncd nplinker_quickstart\n\n# Download GNPS data &amp; get the path to the downloaded archive\ndownloader = GNPSDownloader(\"gnps_task_id\", \"downloads\") # (1)!\ndownloaded_archive = downloader.download().get_download_file()\n\n# Extract GNPS data to `gnps` directory\nextractor = GNPSExtractor(downloaded_archive, \"gnps\") # (2)!\n</code></pre> <ol> <li>If you already have the downloaded archive of GNPS data, you can skip the download steps.</li> <li>Replace <code>downloaded_archive</code> with the actuall path to your GNPS data archive if you skipped the download steps.</li> </ol> <p>The required data for NPLinker will be extracted to the <code>gnps</code> subdirectory of the working directory.</p> <p>Info</p> <p>Not all GNPS data are required by NPLinker, and only the necessary data will be extracted. During the extraction, these data will be renamed to the standard names used by NPLinker. See the page GNPS Data for more information.</p> Prepare GNPS data manually <p>If you have GNPS data but it is not the archive format as downloaded from GNPS, it's recommended to re-download the data from GNPS.</p> <p>If (re-)downloading is not possible, you could manually prepare data for the <code>gnps</code> directory. In this case, you must make sure that the data is organized as expected by NPLinker. See the page GNPS Data for examples of how to prepare the data.</p>"},{"location":"quickstart/#antismash-data","title":"AntiSMASH data","text":"<p>NPLinker requires AntiSMASH BGC data as input, which are organized in the <code>antismash</code> subdirectory of  the working directory.</p> <p>For each output of AntiSMASH run, the BGC data must be stored in a subdirectory named after the NCBI accession number (e.g. <code>GCF_000514975.1</code>). And only the <code>*.region*.gbk</code> files are required by NPLinker.</p> <p>When manually preparing AntiSMASH data for NPLinker, you must make sure that the data is organized as expected by NPLinker. See the page Working Directory Structure for more information.</p>"},{"location":"quickstart/#bigscape-data-optional","title":"BigScape data (optional)","text":"<p>It is optional to provide the output of BigScape to NPLinker. If the output of BigScape is not provided, NPLinker will run BigScape automatically to generate the data using the AntiSMASH BGC data.</p> <p>If you have the output of BigScape, you can put its <code>mix_clustering_c{cutoff}.tsv</code> file in the <code>bigscape</code> subdirectory of the NPLinker working directory, where <code>{cutoff}</code> is the cutoff value used in the BigScape run.</p>"},{"location":"quickstart/#strain-mappings-file","title":"Strain mappings file","text":"<p>The strain mappings file <code>strain_mapping.json</code> is required by NPLinker to map the strain to genomics and metabolomics data. </p> `strain_mappings.json` example<pre><code>{\n    \"strain_mappings\": [\n        {\n            \"strain_id\": \"strain_id_1\", # (1)!\n            \"strain_alias\": [\"bgc_id_1\", \"spectrum_id_1\", ...] # (2)!\n        },\n        {\n            \"strain_id\": \"strain_id_2\",\n            \"strain_alias\": [\"bgc_id_2\", \"spectrum_id_2\", ...]\n        },\n        ...\n    ],\n    \"version\": \"1.0\" # (3)!\n}\n</code></pre> <ol> <li><code>strain_id</code> is the unique identifier of the strain.</li> <li><code>strain_alias</code> is a list of aliases of the strain, which are the identifiers of the BGCs and spectra of the strain.</li> <li><code>version</code> is the schema version of this file. It is recommended to use the latest version of the schema. The current latest version is <code>1.0</code>. </li> </ol> <p>The BGC id is same as the name of the BGC file in the <code>antismash</code> directory, for example, given a  BGC file <code>xxxx.region001.gbk</code>, the BGC id is <code>xxxx.region001</code>.</p> <p>The spectrum id is same as the scan number in the <code>spectra.mgf</code> file in the <code>gnps</code> directory,  for example, given a spectrum in the mgf file with a scan <code>SCANS=1</code>, the spectrum id is <code>1</code>. </p> <p>If you labelled the mzXML files (input for GNPS) with the strain id, you may need the function  extract_mappings_ms_filename_spectrum_id  to extract the mappings from mzXML files to the spectrum ids.</p> <p>For the <code>local</code> mode, you need to create this file manually and put it in the working directory. It takes some effort to prepare this file manually, especially when you have a large number of strains.</p>"},{"location":"quickstart/#3-prepare-config-file","title":"3. Prepare config file","text":"<p>The configuration file <code>nplinker.toml</code> is required by NPLinker to specify the working directory, mode, and other settings for the run of NPLinker. </p> <p>Once prepared, the <code>nplinker.toml</code> file must be put in the working directory created in step 2.</p> <p>The details of all settings can be found at this page Config File.</p> <p>To keep it simple, default settings will be used  automatically by NPLinker if you don't set them in your <code>nplinker.toml</code> config file.</p> <p>What you need to do is to set the <code>root_dir</code> and <code>mode</code> in the <code>nplinker.toml</code> file.</p> <code>local</code> mode<code>podp</code> mode nplinker.toml<pre><code>root_dir = \"absolute/path/to/working/directory\" # (1)!\nmode = \"local\"\n# and other settings you want to override the default settings \n</code></pre> <ol> <li>Replace <code>absolute/path/to/working/directory</code> with the absolute path to the working directory    created in step 2.</li> </ol> nplinker.toml<pre><code>root_dir = \"absolute/path/to/working/directory\" # (1)!\nmode = \"podp\"\npodp_id = \"podp_id\" # (2)!\n# and other settings you want to override the default settings \n</code></pre> <ol> <li>Replace <code>absolute/path/to/working/directory</code> with the absolute path to the working directory    created in step 2.</li> <li>Replace <code>podp_id</code> with the identifier of the dataset in the Paired Omics Data Platform (PODP).</li> </ol>"},{"location":"quickstart/#4-run-nplinker","title":"4. Run NPLinker","text":"<p>Before running NPLinker, make sure your working directory containing input data and config file has the correct directory structure and names described in the Working Directory Structure page.</p> <p>You need to run NPlinker in the working directory where the <code>nplinker.toml</code> file is located, and NPLinker will automatically load the config file and run in the mode specified in the config file. If NPLinker cannot find the <code>nplinker.toml</code> file, you will get an error message.</p> Run NPLinker in your working directory<pre><code>from nplinker.nplinker import NPLinker\n\n# create an instance of NPLinker\nnpl = NPLinker()\n\n# load data\nnpl.load_data()\n\n# check loaded data\nprint(npl.bgcs)\nprint(npl.gcfs)\nprint(npl.spectra)\nprint(npl.molfams)\nprint(npl.strains)\n\n# get the links generated by metcalf scoring\nnpl.get_links(input_objects=npl.gcfs, scoring_method=\"metcalf\")\n</code></pre> <p>For more info about the classes and methods, see the API Documentation.</p>"},{"location":"api/antismash/","title":"AntiSMASH","text":""},{"location":"api/antismash/#nplinker.genomics.antismash","title":"antismash","text":""},{"location":"api/antismash/#nplinker.genomics.antismash.AntismashBGCLoader","title":"AntismashBGCLoader","text":"<pre><code>AntismashBGCLoader(data_dir: str)\n</code></pre> <p>Build a loader for AntiSMASH BGC genbank (.gbk) files.</p> Note <p>AntiSMASH BGC directory must follow the structure below: <pre><code>antismash\n    \u251c\u2500\u2500 genome_id_1 (one AntiSMASH output, e.g. GCF_000514775.1)\n    \u2502\u00a0 \u251c\u2500\u2500 GCF_000514775.1.gbk\n    \u2502\u00a0 \u251c\u2500\u2500 NZ_AZWO01000004.region001.gbk\n    \u2502\u00a0 \u2514\u2500\u2500 ...\n    \u251c\u2500\u2500 genome_id_2\n    \u2502\u00a0 \u251c\u2500\u2500 ...\n    \u2514\u2500\u2500 ...\n</code></pre></p> <p>Parameters:</p> Name Type Description Default <code>data_dir</code> <code>str</code> <p>Path to AntiSMASH directory that contains a collection of AntiSMASH outputs.</p> required Source code in <code>src/nplinker/genomics/antismash/antismash_loader.py</code> <pre><code>def __init__(self, data_dir: str) -&gt; None:\n    \"\"\"Initialize the AntiSMASH BGC loader.\n\n    Args:\n        data_dir: Path to AntiSMASH directory that contains a\n            collection of AntiSMASH outputs.\n    \"\"\"\n    self.data_dir = data_dir\n    self._file_dict = self._parse_data_dir(self.data_dir)\n    self._bgcs = self._parse_bgcs(self._file_dict)\n</code></pre>"},{"location":"api/antismash/#nplinker.genomics.antismash.AntismashBGCLoader.data_dir","title":"data_dir  <code>instance-attribute</code>","text":"<pre><code>data_dir = data_dir\n</code></pre>"},{"location":"api/antismash/#nplinker.genomics.antismash.AntismashBGCLoader.get_bgc_genome_mapping","title":"get_bgc_genome_mapping","text":"<pre><code>get_bgc_genome_mapping() -&gt; dict[str, str]\n</code></pre> <p>Get the mapping from BGC to genome.</p> <p>Note that the directory name of the gbk file is treated as genome id.</p> <p>Returns:</p> Type Description <code>dict[str, str]</code> <p>The key is BGC name (gbk file name) and value is genome id (the directory name of the</p> <code>dict[str, str]</code> <p>gbk file).</p> Source code in <code>src/nplinker/genomics/antismash/antismash_loader.py</code> <pre><code>def get_bgc_genome_mapping(self) -&gt; dict[str, str]:\n    \"\"\"Get the mapping from BGC to genome.\n\n    Note that the directory name of the gbk file is treated as genome id.\n\n    Returns:\n        The key is BGC name (gbk file name) and value is genome id (the directory name of the\n        gbk file).\n    \"\"\"\n    return {\n        bid: os.path.basename(os.path.dirname(bpath)) for bid, bpath in self._file_dict.items()\n    }\n</code></pre>"},{"location":"api/antismash/#nplinker.genomics.antismash.AntismashBGCLoader.get_files","title":"get_files","text":"<pre><code>get_files() -&gt; dict[str, str]\n</code></pre> <p>Get BGC gbk files.</p> <p>Returns:</p> Type Description <code>dict[str, str]</code> <p>The key is BGC name (gbk file name) and value is path to the gbk file.</p> Source code in <code>src/nplinker/genomics/antismash/antismash_loader.py</code> <pre><code>def get_files(self) -&gt; dict[str, str]:\n    \"\"\"Get BGC gbk files.\n\n    Returns:\n        The key is BGC name (gbk file name) and value is path to the gbk file.\n    \"\"\"\n    return self._file_dict\n</code></pre>"},{"location":"api/antismash/#nplinker.genomics.antismash.AntismashBGCLoader.get_bgcs","title":"get_bgcs","text":"<pre><code>get_bgcs() -&gt; list[BGC]\n</code></pre> <p>Get all BGC objects.</p> <p>Returns:</p> Type Description <code>list[BGC]</code> <p>A list of BGC objects</p> Source code in <code>src/nplinker/genomics/antismash/antismash_loader.py</code> <pre><code>def get_bgcs(self) -&gt; list[BGC]:\n    \"\"\"Get all BGC objects.\n\n    Returns:\n        A list of BGC objects\n    \"\"\"\n    return self._bgcs\n</code></pre>"},{"location":"api/antismash/#nplinker.genomics.antismash.GenomeStatus","title":"GenomeStatus","text":"<pre><code>GenomeStatus(original_id: str, resolved_refseq_id: str = '', resolve_attempted: bool = False, bgc_path: str = '')\n</code></pre> <p>A class to represent the status of a single genome.</p> <p>The status of genomes is tracked in a JSON file which has a name defined in variable <code>GENOME_STATUS_FILENAME</code>.</p> <p>Parameters:</p> Name Type Description Default <code>original_id</code> <code>str</code> <p>The original ID of the genome.</p> required <code>resolved_refseq_id</code> <code>str</code> <p>The resolved RefSeq ID of the genome. Defaults to \"\".</p> <code>''</code> <code>resolve_attempted</code> <code>bool</code> <p>A flag indicating whether an attempt to resolve the RefSeq ID has been made. Defaults to False.</p> <code>False</code> <code>bgc_path</code> <code>str</code> <p>The path to the downloaded BGC file for the genome. Defaults to \"\".</p> <code>''</code> Source code in <code>src/nplinker/genomics/antismash/podp_antismash_downloader.py</code> <pre><code>def __init__(\n    self,\n    original_id: str,\n    resolved_refseq_id: str = \"\",\n    resolve_attempted: bool = False,\n    bgc_path: str = \"\",\n):\n    \"\"\"Initialize a GenomeStatus object for the given genome.\n\n    Args:\n        original_id: The original ID of the genome.\n        resolved_refseq_id: The resolved RefSeq ID of the\n            genome. Defaults to \"\".\n        resolve_attempted: A flag indicating whether an\n            attempt to resolve the RefSeq ID has been made. Defaults to False.\n        bgc_path: The path to the downloaded BGC file for\n            the genome. Defaults to \"\".\n    \"\"\"\n    self.original_id = original_id\n    self.resolved_refseq_id = \"\" if resolved_refseq_id == \"None\" else resolved_refseq_id\n    self.resolve_attempted = resolve_attempted\n    self.bgc_path = bgc_path\n</code></pre>"},{"location":"api/antismash/#nplinker.genomics.antismash.GenomeStatus.original_id","title":"original_id  <code>instance-attribute</code>","text":"<pre><code>original_id = original_id\n</code></pre>"},{"location":"api/antismash/#nplinker.genomics.antismash.GenomeStatus.resolved_refseq_id","title":"resolved_refseq_id  <code>instance-attribute</code>","text":"<pre><code>resolved_refseq_id = '' if resolved_refseq_id == 'None' else resolved_refseq_id\n</code></pre>"},{"location":"api/antismash/#nplinker.genomics.antismash.GenomeStatus.resolve_attempted","title":"resolve_attempted  <code>instance-attribute</code>","text":"<pre><code>resolve_attempted = resolve_attempted\n</code></pre>"},{"location":"api/antismash/#nplinker.genomics.antismash.GenomeStatus.bgc_path","title":"bgc_path  <code>instance-attribute</code>","text":"<pre><code>bgc_path = bgc_path\n</code></pre>"},{"location":"api/antismash/#nplinker.genomics.antismash.GenomeStatus.read_json","title":"read_json  <code>staticmethod</code>","text":"<pre><code>read_json(file: str | PathLike) -&gt; dict[str, 'GenomeStatus']\n</code></pre> <p>Get a dict of GenomeStatus objects by loading given genome status file.</p> <p>Note that an empty dict is returned if the given file doesn't exist.</p> <p>Parameters:</p> Name Type Description Default <code>file</code> <code>str | PathLike</code> <p>Path to genome status file.</p> required <p>Returns:</p> Type Description <code>dict[str, 'GenomeStatus']</code> <p>Dict keys are genome original id and values are GenomeStatus objects. An empty dict is returned if the given file doesn't exist.</p> Source code in <code>src/nplinker/genomics/antismash/podp_antismash_downloader.py</code> <pre><code>@staticmethod\ndef read_json(file: str | PathLike) -&gt; dict[str, \"GenomeStatus\"]:\n    \"\"\"Get a dict of GenomeStatus objects by loading given genome status file.\n\n    Note that an empty dict is returned if the given file doesn't exist.\n\n    Args:\n        file: Path to genome status file.\n\n    Returns:\n        Dict keys are genome original id and values are GenomeStatus\n            objects. An empty dict is returned if the given file doesn't exist.\n    \"\"\"\n    genome_status_dict = {}\n    if Path(file).exists():\n        with open(file, \"r\") as f:\n            data = json.load(f)\n\n        # validate json data before using it\n        validate(data, schema=GENOME_STATUS_SCHEMA)\n\n        genome_status_dict = {\n            gs[\"original_id\"]: GenomeStatus(**gs) for gs in data[\"genome_status\"]\n        }\n    return genome_status_dict\n</code></pre>"},{"location":"api/antismash/#nplinker.genomics.antismash.GenomeStatus.to_json","title":"to_json  <code>staticmethod</code>","text":"<pre><code>to_json(genome_status_dict: dict[str, 'GenomeStatus'], file: str | PathLike | None = None) -&gt; str | None\n</code></pre> <p>Convert the genome status dictionary to a JSON string.</p> <p>If a file path is provided, the JSON string is written to the file. If the file already exists, it is overwritten.</p> <p>Parameters:</p> Name Type Description Default <code>genome_status_dict</code> <code>dict[str, 'GenomeStatus']</code> <p>A dictionary of genome status objects. The keys are the original genome IDs and the values are GenomeStatus objects.</p> required <code>file</code> <code>str | PathLike | None</code> <p>The path to the output JSON file. If None, the JSON string is returned but not written to a file.</p> <code>None</code> <p>Returns:</p> Type Description <code>str | None</code> <p>The JSON string if <code>file</code> is None, otherwise None.</p> Source code in <code>src/nplinker/genomics/antismash/podp_antismash_downloader.py</code> <pre><code>@staticmethod\ndef to_json(\n    genome_status_dict: dict[str, \"GenomeStatus\"], file: str | PathLike | None = None\n) -&gt; str | None:\n    \"\"\"Convert the genome status dictionary to a JSON string.\n\n    If a file path is provided, the JSON string is written to the file. If\n    the file already exists, it is overwritten.\n\n    Args:\n        genome_status_dict: A dictionary of genome\n            status objects. The keys are the original genome IDs and the values\n            are GenomeStatus objects.\n        file: The path to the output JSON file.\n            If None, the JSON string is returned but not written to a file.\n\n    Returns:\n        The JSON string if `file` is None, otherwise None.\n    \"\"\"\n    gs_list = [gs._to_dict() for gs in genome_status_dict.values()]\n    json_data = {\"genome_status\": gs_list, \"version\": \"1.0\"}\n\n    # validate json object before dumping\n    validate(json_data, schema=GENOME_STATUS_SCHEMA)\n\n    if file is not None:\n        with open(file, \"w\") as f:\n            json.dump(json_data, f)\n        return None\n    return json.dumps(json_data)\n</code></pre>"},{"location":"api/antismash/#nplinker.genomics.antismash.download_and_extract_antismash_data","title":"download_and_extract_antismash_data","text":"<pre><code>download_and_extract_antismash_data(antismash_id: str, download_root: str | PathLike, extract_root: str | PathLike) -&gt; None\n</code></pre> <p>Download and extract antiSMASH BGC archive for a specified genome.</p> <p>The antiSMASH database (https://antismash-db.secondarymetabolites.org/) is used to download the BGC archive. And antiSMASH use RefSeq assembly id of a genome as the id of the archive.</p> <p>Parameters:</p> Name Type Description Default <code>antismash_id</code> <code>str</code> <p>The id used to download BGC archive from antiSMASH database. If the id is versioned (e.g., \"GCF_004339725.1\") please be sure to specify the version as well.</p> required <code>download_root</code> <code>str | PathLike</code> <p>Path to the directory to place downloaded archive in.</p> required <code>extract_root</code> <code>str | PathLike</code> <p>Path to the directory data files will be extracted to. Note that an <code>antismash</code> directory will be created in the specified <code>extract_root</code> if it doesn't exist. The files will be extracted to <code>&lt;extract_root&gt;/antismash/&lt;antismash_id&gt;</code> directory.</p> required <p>Raises:</p> Type Description <code>ValueError</code> <p>if <code>download_root</code> and <code>extract_root</code> dirs are the same.</p> <code>ValueError</code> <p>if <code>&lt;extract_root&gt;/antismash/&lt;refseq_assembly_id&gt;</code> dir is not empty.</p> <p>Examples:</p> <pre><code>&gt;&gt;&gt; download_and_extract_antismash_metadata(\"GCF_004339725.1\", \"/data/download\", \"/data/extracted\")\n</code></pre> Source code in <code>src/nplinker/genomics/antismash/antismash_downloader.py</code> <pre><code>def download_and_extract_antismash_data(\n    antismash_id: str, download_root: str | PathLike, extract_root: str | PathLike\n) -&gt; None:\n    \"\"\"Download and extract antiSMASH BGC archive for a specified genome.\n\n    The antiSMASH database (https://antismash-db.secondarymetabolites.org/)\n    is used to download the BGC archive. And antiSMASH use RefSeq assembly id\n    of a genome as the id of the archive.\n\n    Args:\n        antismash_id: The id used to download BGC archive from antiSMASH database.\n            If the id is versioned (e.g., \"GCF_004339725.1\") please be sure to\n            specify the version as well.\n        download_root: Path to the directory to place downloaded archive in.\n        extract_root: Path to the directory data files will be extracted to.\n            Note that an `antismash` directory will be created in the specified `extract_root` if\n            it doesn't exist. The files will be extracted to `&lt;extract_root&gt;/antismash/&lt;antismash_id&gt;` directory.\n\n    Raises:\n        ValueError: if `download_root` and `extract_root` dirs are the same.\n        ValueError: if `&lt;extract_root&gt;/antismash/&lt;refseq_assembly_id&gt;` dir is not empty.\n\n    Examples:\n        &gt;&gt;&gt; download_and_extract_antismash_metadata(\"GCF_004339725.1\", \"/data/download\", \"/data/extracted\")\n    \"\"\"\n    download_root = Path(download_root)\n    extract_root = Path(extract_root)\n    extract_path = extract_root / \"antismash\" / antismash_id\n    _check_roots(download_root, extract_root)\n\n    try:\n        if extract_path.exists():\n            _check_extract_path(extract_path)\n        else:\n            extract_path.mkdir(parents=True, exist_ok=True)\n\n        for base_url in [ANTISMASH_DB_DOWNLOAD_URL, ANTISMASH_DBV2_DOWNLOAD_URL]:\n            url = base_url.format(antismash_id, antismash_id + \".zip\")\n            download_and_extract_archive(url, download_root, extract_path, antismash_id + \".zip\")\n            break\n\n        # delete subdirs\n        for subdir_path in list_dirs(extract_path):\n            shutil.rmtree(subdir_path)\n\n        # delete unnecessary files\n        files_to_keep = list_files(extract_path, suffix=(\".json\", \".gbk\"))\n        for file in list_files(extract_path):\n            if file not in files_to_keep:\n                os.remove(file)\n\n        logger.info(\"antiSMASH BGC data of %s is downloaded and extracted.\", antismash_id)\n\n    except Exception as e:\n        shutil.rmtree(extract_path)\n        logger.warning(e)\n        raise e\n</code></pre>"},{"location":"api/antismash/#nplinker.genomics.antismash.parse_bgc_genbank","title":"parse_bgc_genbank","text":"<pre><code>parse_bgc_genbank(file: str) -&gt; BGC\n</code></pre> <p>Parse a single BGC gbk file to BGC object.</p> <p>Parameters:</p> Name Type Description Default <code>file</code> <code>str</code> <p>Path to BGC gbk file</p> required <p>Returns:</p> Type Description <code>BGC</code> <p>BGC object</p> <p>Examples:</p> <pre><code>&gt;&gt;&gt; bgc = AntismashBGCLoader.parse_bgc(\n...    \"/data/antismash/GCF_000016425.1/NC_009380.1.region001.gbk\")\n</code></pre> Source code in <code>src/nplinker/genomics/antismash/antismash_loader.py</code> <pre><code>def parse_bgc_genbank(file: str) -&gt; BGC:\n    \"\"\"Parse a single BGC gbk file to BGC object.\n\n    Args:\n        file: Path to BGC gbk file\n\n    Returns:\n        BGC object\n\n    Examples:\n        &gt;&gt;&gt; bgc = AntismashBGCLoader.parse_bgc(\n        ...    \"/data/antismash/GCF_000016425.1/NC_009380.1.region001.gbk\")\n    \"\"\"\n    fname = os.path.splitext(os.path.basename(file))[0]\n\n    record = SeqIO.read(file, format=\"genbank\")\n    description = record.description  # \"DEFINITION\" in gbk file\n    antismash_id = record.id  # \"VERSION\" in gbk file\n    features = _parse_antismash_genbank(record)\n    product_prediction = features.get(\"product\")\n    if product_prediction is None:\n        raise ValueError(f\"Not found product prediction in antiSMASH Genbank file {file}\")\n\n    # init BGC\n    bgc = BGC(fname, *product_prediction)\n    bgc.description = description\n    bgc.antismash_id = antismash_id\n    bgc.antismash_file = file\n    bgc.antismash_region = features.get(\"region_number\")\n    bgc.smiles = features.get(\"smiles\")\n    bgc.strain = Strain(fname)\n    return bgc\n</code></pre>"},{"location":"api/antismash/#nplinker.genomics.antismash.get_best_available_genome_id","title":"get_best_available_genome_id","text":"<pre><code>get_best_available_genome_id(genome_id_data: dict[str, str]) -&gt; str | None\n</code></pre> <p>Get the best available ID from genome_id_data dict.</p> <p>Parameters:</p> Name Type Description Default <code>genome_id_data</code> <code>dict[str, str]</code> <p>dictionary containing information for each genome record present.</p> required <p>Returns:</p> Type Description <code>str | None</code> <p>ID for the genome, if present, otherwise None.</p> Source code in <code>src/nplinker/genomics/antismash/podp_antismash_downloader.py</code> <pre><code>def get_best_available_genome_id(genome_id_data: dict[str, str]) -&gt; str | None:\n    \"\"\"Get the best available ID from genome_id_data dict.\n\n    Args:\n        genome_id_data: dictionary containing information for each genome record present.\n\n    Returns:\n        ID for the genome, if present, otherwise None.\n    \"\"\"\n    if \"RefSeq_accession\" in genome_id_data:\n        best_id = genome_id_data[\"RefSeq_accession\"]\n    elif \"GenBank_accession\" in genome_id_data:\n        best_id = genome_id_data[\"GenBank_accession\"]\n    elif \"JGI_Genome_ID\" in genome_id_data:\n        best_id = genome_id_data[\"JGI_Genome_ID\"]\n    else:\n        best_id = None\n\n    if best_id is None or len(best_id) == 0:\n        logger.warning(f\"Failed to get valid genome ID in genome data: {genome_id_data}\")\n        return None\n    return best_id\n</code></pre>"},{"location":"api/antismash/#nplinker.genomics.antismash.podp_download_and_extract_antismash_data","title":"podp_download_and_extract_antismash_data","text":"<pre><code>podp_download_and_extract_antismash_data(genome_records: list[dict[str, dict[str, str]]], project_download_root: str | PathLike, project_extract_root: str | PathLike)\n</code></pre> <p>Download and extract antiSMASH BGC archive for the given genome records.</p> <p>Parameters:</p> Name Type Description Default <code>genome_records</code> <code>list[dict[str, dict[str, str]]]</code> <p>list of dicts representing genome records. The dict of each genome record contains     - key(str): \"genome_ID\"     - value(dict[str, str]): a dict containing information about genome     type, label and accession ids (RefSeq, GenBank, and/or JGI).</p> required <code>project_download_root</code> <code>str | PathLike</code> <p>Path to the directory to place downloaded archive in.</p> required <code>project_extract_root</code> <code>str | PathLike</code> <p>Path to the directory downloaded archive will be extracted to. Note that an <code>antismash</code> directory will be created in the specified <code>extract_root</code> if it doesn't exist. The files will be extracted to <code>&lt;extract_root&gt;/antismash/&lt;antismash_id&gt;</code> directory.</p> required Source code in <code>src/nplinker/genomics/antismash/podp_antismash_downloader.py</code> <pre><code>def podp_download_and_extract_antismash_data(\n    genome_records: list[dict[str, dict[str, str]]],\n    project_download_root: str | PathLike,\n    project_extract_root: str | PathLike,\n):\n    \"\"\"Download and extract antiSMASH BGC archive for the given genome records.\n\n    Args:\n        genome_records: list of dicts\n            representing genome records. The dict of each genome record contains\n                - key(str): \"genome_ID\"\n                - value(dict[str, str]): a dict containing information about genome\n                type, label and accession ids (RefSeq, GenBank, and/or JGI).\n        project_download_root: Path to the directory to place\n            downloaded archive in.\n        project_extract_root: Path to the directory downloaded archive\n            will be extracted to.\n            Note that an `antismash` directory will be created in the specified\n            `extract_root` if it doesn't exist. The files will be extracted to\n            `&lt;extract_root&gt;/antismash/&lt;antismash_id&gt;` directory.\n    \"\"\"\n    if not Path(project_download_root).exists():\n        # otherwise in case of failed first download, the folder doesn't exist and\n        # genome_status_file can't be written\n        Path(project_download_root).mkdir(parents=True, exist_ok=True)\n\n    gs_file = Path(project_download_root, GENOME_STATUS_FILENAME)\n    gs_dict = GenomeStatus.read_json(gs_file)\n\n    for i, genome_record in enumerate(genome_records):\n        # get the best available ID from the dict\n        genome_id_data = genome_record[\"genome_ID\"]\n        raw_genome_id = get_best_available_genome_id(genome_id_data)\n        if raw_genome_id is None or len(raw_genome_id) == 0:\n            logger.warning(\n                f'Ignoring genome record \"{genome_record}\" due to missing genome ID field'\n            )\n            continue\n\n        # check if genome ID exist in the genome status file\n        if raw_genome_id not in gs_dict:\n            gs_dict[raw_genome_id] = GenomeStatus(raw_genome_id)\n\n        gs_obj = gs_dict[raw_genome_id]\n\n        logger.info(\n            f\"Checking for antismash data {i + 1}/{len(genome_records)}, \"\n            f\"current genome ID={raw_genome_id}\"\n        )\n        # first, check if BGC data is downloaded\n        if gs_obj.bgc_path and Path(gs_obj.bgc_path).exists():\n            logger.info(f\"Genome ID {raw_genome_id} already downloaded to {gs_obj.bgc_path}\")\n            continue\n        # second, check if lookup attempted previously\n        if gs_obj.resolve_attempted:\n            logger.info(f\"Genome ID {raw_genome_id} skipped due to previous failure\")\n            continue\n\n        # if not downloaded or lookup attempted, then try to resolve the ID\n        # and download\n        logger.info(f\"Beginning lookup process for genome ID {raw_genome_id}\")\n        gs_obj.resolved_refseq_id = _resolve_refseq_id(genome_id_data)\n        gs_obj.resolve_attempted = True\n\n        if gs_obj.resolved_refseq_id == \"\":\n            # give up on this one\n            logger.warning(f\"Failed lookup for genome ID {raw_genome_id}\")\n            continue\n\n        # if resolved id is valid, try to download and extract antismash data\n        try:\n            download_and_extract_antismash_data(\n                gs_obj.resolved_refseq_id, project_download_root, project_extract_root\n            )\n\n            gs_obj.bgc_path = str(\n                Path(project_download_root, gs_obj.resolved_refseq_id + \".zip\").absolute()\n            )\n\n            output_path = Path(project_extract_root, \"antismash\", gs_obj.resolved_refseq_id)\n            if output_path.exists():\n                Path.touch(output_path / \"completed\", exist_ok=True)\n\n        except Exception:\n            gs_obj.bgc_path = \"\"\n\n    missing = len([gs for gs in gs_dict.values() if not gs.bgc_path])\n    logger.info(\n        f\"Dataset has {missing} missing sets of antiSMASH data \"\n        f\" (from a total of {len(genome_records)}).\"\n    )\n\n    # save updated genome status to json file\n    GenomeStatus.to_json(gs_dict, gs_file)\n\n    if missing == len(genome_records):\n        raise ValueError(\"No antiSMASH data found for any genome\")\n</code></pre>"},{"location":"api/arranger/","title":"Dataset Arranger","text":""},{"location":"api/arranger/#nplinker.arranger","title":"arranger","text":""},{"location":"api/arranger/#nplinker.arranger.PODP_PROJECT_URL","title":"PODP_PROJECT_URL  <code>module-attribute</code>","text":"<pre><code>PODP_PROJECT_URL = 'https://pairedomicsdata.bioinformatics.nl/api/projects/{}'\n</code></pre>"},{"location":"api/arranger/#nplinker.arranger.DatasetArranger","title":"DatasetArranger","text":"<pre><code>DatasetArranger()\n</code></pre> <p>Arrange the dataset required by NPLinker.</p> <p>This class is used to arrange the datasets required by NPLinker according to the configuration. The datasets include MIBiG, GNPS, antiSMASH, and BiG-SCAPE.</p> <p>If <code>config.mode</code> is \"local\", the datasets are validated. If <code>config.mode</code> is \"podp\", the datasets are downloaded or generated.</p> <p>It uses the default downloads directory <code>globals.DOWNLOADS_DEFAULT_PATH</code> to store the downloaded files. Default data paths for MIBiG, GNPS, antiSMASH, and BiG-SCAPE are defined in <code>nplinker.globals</code>.</p> Source code in <code>src/nplinker/arranger.py</code> <pre><code>def __init__(self) -&gt; None:\n    # Prepare the downloads directory and/or PODP json file which are required for other methods\n    globals.DOWNLOADS_DEFAULT_PATH.mkdir(exist_ok=True)\n    self.arrange_podp_project_json()\n</code></pre>"},{"location":"api/arranger/#nplinker.arranger.DatasetArranger.arrange","title":"arrange","text":"<pre><code>arrange() -&gt; None\n</code></pre> <p>Arrange the datasets according to the configuration.</p> <p>The datasets include MIBiG, GNPS, antiSMASH, and BiG-SCAPE.</p> Source code in <code>src/nplinker/arranger.py</code> <pre><code>def arrange(self) -&gt; None:\n    \"\"\"Arrange the datasets according to the configuration.\n\n    The datasets include MIBiG, GNPS, antiSMASH, and BiG-SCAPE.\n    \"\"\"\n    # The order of arranging the datasets matters, as some datasets depend on others\n    self.arrange_mibig()\n    self.arrange_gnps()\n    self.arrange_antismash()\n    self.arrange_bigscape()\n    self.arrange_strain_mappings()\n    self.arrange_strains_selected()\n</code></pre>"},{"location":"api/arranger/#nplinker.arranger.DatasetArranger.arrange_podp_project_json","title":"arrange_podp_project_json","text":"<pre><code>arrange_podp_project_json() -&gt; None\n</code></pre> <p>Arrange the PODP project JSON file.</p> <p>If <code>config.mode</code> is \"podp\", download the PODP project JSON file if it doesn't exist. Then validate the PODP project JSON file if it exists or is downloaded.</p> <p>The validation is controlled by the json schema <code>schemas/podp_adapted_schema.json</code>.</p> Source code in <code>src/nplinker/arranger.py</code> <pre><code>def arrange_podp_project_json(self) -&gt; None:\n    \"\"\"Arrange the PODP project JSON file.\n\n    If `config.mode` is \"podp\", download the PODP project JSON file if it doesn't exist. Then\n    validate the PODP project JSON file if it exists or is downloaded.\n\n    The validation is controlled by the json schema `schemas/podp_adapted_schema.json`.\n    \"\"\"\n    if config.mode == \"podp\":\n        file_name = f\"paired_datarecord_{config.podp_id}.json\"\n        podp_file = globals.DOWNLOADS_DEFAULT_PATH / file_name\n        if not podp_file.exists():\n            download_url(\n                PODP_PROJECT_URL.format(config.podp_id),\n                globals.DOWNLOADS_DEFAULT_PATH,\n                file_name,\n            )\n\n        with open(podp_file, \"r\") as f:\n            json_data = json.load(f)\n        validate_podp_json(json_data)\n</code></pre>"},{"location":"api/arranger/#nplinker.arranger.DatasetArranger.arrange_mibig","title":"arrange_mibig","text":"<pre><code>arrange_mibig() -&gt; None\n</code></pre> <p>Arrange the MIBiG metadata.</p> <p>Always download and extract the MIBiG metadata if <code>config.mibig.to_use</code> is True. If the default directory has already existed, it will be removed and re-downloaded to ensure the latest version is used. So it's not allowed to manually put MIBiG metadata in the default directory.</p> Source code in <code>src/nplinker/arranger.py</code> <pre><code>def arrange_mibig(self) -&gt; None:\n    \"\"\"Arrange the MIBiG metadata.\n\n    Always download and extract the MIBiG metadata if `config.mibig.to_use` is True.\n    If the default directory has already existed, it will be removed and re-downloaded to ensure\n    the latest version is used. So it's not allowed to manually put MIBiG metadata in the\n    default directory.\n    \"\"\"\n    if config.mibig.to_use:\n        if globals.MIBIG_DEFAULT_PATH.exists():\n            # remove existing mibig data\n            shutil.rmtree(globals.MIBIG_DEFAULT_PATH)\n        download_and_extract_mibig_metadata(\n            globals.DOWNLOADS_DEFAULT_PATH,\n            globals.MIBIG_DEFAULT_PATH,\n            version=config.mibig.version,\n        )\n</code></pre>"},{"location":"api/arranger/#nplinker.arranger.DatasetArranger.arrange_gnps","title":"arrange_gnps","text":"<pre><code>arrange_gnps() -&gt; None\n</code></pre> <p>Arrange the GNPS data.</p> <p>If <code>config.mode</code> is \"local\", validate the GNPS data directory. If <code>config.mode</code> is \"podp\", download the GNPS data if it doesn't exist or remove the existing GNPS data and re-download it if it is invalid.</p> <p>The validation process includes:</p> <ul> <li>Check if the GNPS data directory exists.</li> <li>Check if the required files exist in the GNPS data directory, including:<ul> <li>file_mappings.tsv or file_mappings.csv</li> <li>spectra.mgf</li> <li>molecular_families.tsv</li> <li>annotations.tsv</li> </ul> </li> </ul> Source code in <code>src/nplinker/arranger.py</code> <pre><code>def arrange_gnps(self) -&gt; None:\n    \"\"\"Arrange the GNPS data.\n\n    If `config.mode` is \"local\", validate the GNPS data directory.\n    If `config.mode` is \"podp\", download the GNPS data if it doesn't exist or remove the\n    existing GNPS data and re-download it if it is invalid.\n\n    The validation process includes:\n\n    - Check if the GNPS data directory exists.\n    - Check if the required files exist in the GNPS data directory, including:\n        - file_mappings.tsv or file_mappings.csv\n        - spectra.mgf\n        - molecular_families.tsv\n        - annotations.tsv\n    \"\"\"\n    pass_validation = False\n    if config.mode == \"podp\":\n        # retry downloading at most 3 times if downloaded data has problems\n        for _ in range(3):\n            try:\n                validate_gnps(globals.GNPS_DEFAULT_PATH)\n                pass_validation = True\n                break\n            except (FileNotFoundError, ValueError):\n                # Don't need to remove downloaded archive, as it'll be overwritten\n                shutil.rmtree(globals.GNPS_DEFAULT_PATH, ignore_errors=True)\n                self._download_and_extract_gnps()\n\n    if not pass_validation:\n        validate_gnps(globals.GNPS_DEFAULT_PATH)\n\n    # get the path to file_mappings file (csv or tsv)\n    self.gnps_file_mappings_file = self._get_gnps_file_mappings_file()\n</code></pre>"},{"location":"api/arranger/#nplinker.arranger.DatasetArranger.arrange_antismash","title":"arrange_antismash","text":"<pre><code>arrange_antismash() -&gt; None\n</code></pre> <p>Arrange the antiSMASH data.</p> <p>If <code>config.mode</code> is \"local\", validate the antiSMASH data directory. If <code>config.mode</code> is \"podp\", download the antiSMASH data if it doesn't exist or remove the existing antiSMASH data and re-download it if it is invalid.</p> <p>The validation process includes: - Check if the antiSMASH data directory exists. - Check if the antiSMASH data directory contains at least one sub-directory, and each     sub-directory contains at least one BGC file (with the suffix \".region???.gbk\" where ???     is a number).</p> <p>AntiSMASH BGC directory must follow the structure below: <pre><code>antismash\n    \u251c\u2500\u2500 genome_id_1 (one AntiSMASH output, e.g. GCF_000514775.1)\n    \u2502\u00a0 \u251c\u2500\u2500 GCF_000514775.1.gbk\n    \u2502\u00a0 \u251c\u2500\u2500 NZ_AZWO01000004.region001.gbk\n    \u2502\u00a0 \u2514\u2500\u2500 ...\n    \u251c\u2500\u2500 genome_id_2\n    \u2502\u00a0 \u251c\u2500\u2500 ...\n    \u2514\u2500\u2500 ...\n</code></pre></p> Source code in <code>src/nplinker/arranger.py</code> <pre><code>def arrange_antismash(self) -&gt; None:\n    \"\"\"Arrange the antiSMASH data.\n\n    If `config.mode` is \"local\", validate the antiSMASH data directory.\n    If `config.mode` is \"podp\", download the antiSMASH data if it doesn't exist or remove the\n    existing antiSMASH data and re-download it if it is invalid.\n\n    The validation process includes:\n    - Check if the antiSMASH data directory exists.\n    - Check if the antiSMASH data directory contains at least one sub-directory, and each\n        sub-directory contains at least one BGC file (with the suffix \".region???.gbk\" where ???\n        is a number).\n\n    AntiSMASH BGC directory must follow the structure below:\n    ```\n    antismash\n        \u251c\u2500\u2500 genome_id_1 (one AntiSMASH output, e.g. GCF_000514775.1)\n        \u2502\u00a0 \u251c\u2500\u2500 GCF_000514775.1.gbk\n        \u2502\u00a0 \u251c\u2500\u2500 NZ_AZWO01000004.region001.gbk\n        \u2502\u00a0 \u2514\u2500\u2500 ...\n        \u251c\u2500\u2500 genome_id_2\n        \u2502\u00a0 \u251c\u2500\u2500 ...\n        \u2514\u2500\u2500 ...\n    ```\n    \"\"\"\n    pass_validation = False\n    if config.mode == \"podp\":\n        for _ in range(3):\n            try:\n                validate_antismash(globals.ANTISMASH_DEFAULT_PATH)\n                pass_validation = True\n                break\n            except FileNotFoundError:\n                shutil.rmtree(globals.ANTISMASH_DEFAULT_PATH, ignore_errors=True)\n                self._download_and_extract_antismash()\n\n    if not pass_validation:\n        validate_antismash(globals.ANTISMASH_DEFAULT_PATH)\n</code></pre>"},{"location":"api/arranger/#nplinker.arranger.DatasetArranger.arrange_bigscape","title":"arrange_bigscape","text":"<pre><code>arrange_bigscape() -&gt; None\n</code></pre> <p>Arrange the BiG-SCAPE data.</p> <p>If <code>config.mode</code> is \"local\", validate the BiG-SCAPE data directory. If <code>config.mode</code> is \"podp\", run BiG-SCAPE to generate the clustering file if it doesn't exist or remove the existing BiG-SCAPE data and re-run BiG-SCAPE if it is invalid. The running output of BiG-SCAPE will be saved to the directory \"bigscape_running_output\" in the default BiG-SCAPE directory, and the clustering file \"mix_clustering_c{config.bigscape.cutoff}.tsv\" will be copied to the default BiG-SCAPE directory.</p> <p>The validation process includes:</p> <ul> <li>Check if the default BiG-SCAPE data directory exists.</li> <li>Check if the clustering file \"mix_clustering_c{config.bigscape.cutoff}.tsv\" exists in the         BiG-SCAPE data directory.</li> <li>Check if the 'data_sqlite.db' file exists in the BiG-SCAPE data directory.</li> </ul> Source code in <code>src/nplinker/arranger.py</code> <pre><code>def arrange_bigscape(self) -&gt; None:\n    \"\"\"Arrange the BiG-SCAPE data.\n\n    If `config.mode` is \"local\", validate the BiG-SCAPE data directory.\n    If `config.mode` is \"podp\", run BiG-SCAPE to generate the clustering file if it doesn't\n    exist or remove the existing BiG-SCAPE data and re-run BiG-SCAPE if it is invalid.\n    The running output of BiG-SCAPE will be saved to the directory \"bigscape_running_output\"\n    in the default BiG-SCAPE directory, and the clustering file\n    \"mix_clustering_c{config.bigscape.cutoff}.tsv\" will be copied to the default BiG-SCAPE\n    directory.\n\n    The validation process includes:\n\n    - Check if the default BiG-SCAPE data directory exists.\n    - Check if the clustering file \"mix_clustering_c{config.bigscape.cutoff}.tsv\" exists in the\n            BiG-SCAPE data directory.\n    - Check if the 'data_sqlite.db' file exists in the BiG-SCAPE data directory.\n    \"\"\"\n    pass_validation = False\n    if config.mode == \"podp\":\n        for _ in range(3):\n            try:\n                validate_bigscape(globals.BIGSCAPE_DEFAULT_PATH)\n                pass_validation = True\n                break\n            except FileNotFoundError:\n                shutil.rmtree(globals.BIGSCAPE_DEFAULT_PATH, ignore_errors=True)\n                self._run_bigscape()\n\n    if not pass_validation:\n        validate_bigscape(globals.BIGSCAPE_DEFAULT_PATH)\n</code></pre>"},{"location":"api/arranger/#nplinker.arranger.DatasetArranger.arrange_strain_mappings","title":"arrange_strain_mappings","text":"<pre><code>arrange_strain_mappings() -&gt; None\n</code></pre> <p>Arrange the strain mappings file.</p> <p>If <code>config.mode</code> is \"local\", validate the strain mappings file. If <code>config.mode</code> is \"podp\", always generate the strain mappings file and validate it.</p> <p>The valiation checks if the strain mappings file exists and if it is a valid JSON file according to the schema defined in <code>schemas/strain_mappings_schema.json</code>.</p> Source code in <code>src/nplinker/arranger.py</code> <pre><code>def arrange_strain_mappings(self) -&gt; None:\n    \"\"\"Arrange the strain mappings file.\n\n    If `config.mode` is \"local\", validate the strain mappings file.\n    If `config.mode` is \"podp\", always generate the strain mappings file and validate it.\n\n    The valiation checks if the strain mappings file exists and if it is a valid JSON file\n    according to the schema defined in `schemas/strain_mappings_schema.json`.\n    \"\"\"\n    if config.mode == \"podp\":\n        self._generate_strain_mappings()\n\n    self._validate_strain_mappings()\n</code></pre>"},{"location":"api/arranger/#nplinker.arranger.DatasetArranger.arrange_strains_selected","title":"arrange_strains_selected","text":"<pre><code>arrange_strains_selected() -&gt; None\n</code></pre> <p>Arrange the strains selected file.</p> <p>Validate the strains selected file if it exists. The validation checks if the strains selected file is a valid JSON file according to the schema defined in <code>schemas/user_strains.json</code>.</p> Source code in <code>src/nplinker/arranger.py</code> <pre><code>def arrange_strains_selected(self) -&gt; None:\n    \"\"\"Arrange the strains selected file.\n\n    Validate the strains selected file if it exists.\n    The validation checks if the strains selected file is a valid JSON file according to the\n    schema defined in `schemas/user_strains.json`.\n    \"\"\"\n    strains_selected_file = config.root_dir / globals.STRAINS_SELECTED_FILENAME\n    if strains_selected_file.exists():\n        with open(strains_selected_file, \"r\") as f:\n            json_data = json.load(f)\n        validate(instance=json_data, schema=USER_STRAINS_SCHEMA)\n</code></pre>"},{"location":"api/arranger/#nplinker.arranger.validate_gnps","title":"validate_gnps","text":"<pre><code>validate_gnps(gnps_dir: Path) -&gt; None\n</code></pre> <p>Validate the GNPS data directory and its contents.</p> <p>The GNPS data directory must contain the following files:</p> <ul> <li>file_mappings.tsv or file_mappings.csv</li> <li>spectra.mgf</li> <li>molecular_families.tsv</li> <li>annotations.tsv</li> </ul> <p>Parameters:</p> Name Type Description Default <code>gnps_dir</code> <code>Path</code> <p>Path to the GNPS data directory.</p> required <p>Raises:</p> Type Description <code>FileNotFoundError</code> <p>If the GNPS data directory is not found or any of the required files is not found.</p> <code>ValueError</code> <p>If both file_mappings.tsv and file_mapping.csv are found.</p> Source code in <code>src/nplinker/arranger.py</code> <pre><code>def validate_gnps(gnps_dir: Path) -&gt; None:\n    \"\"\"Validate the GNPS data directory and its contents.\n\n    The GNPS data directory must contain the following files:\n\n    - file_mappings.tsv or file_mappings.csv\n    - spectra.mgf\n    - molecular_families.tsv\n    - annotations.tsv\n\n    Args:\n        gnps_dir: Path to the GNPS data directory.\n\n    Raises:\n        FileNotFoundError: If the GNPS data directory is not found or any of the required files\n            is not found.\n        ValueError: If both file_mappings.tsv and file_mapping.csv are found.\n    \"\"\"\n    if not gnps_dir.exists():\n        raise FileNotFoundError(f\"GNPS data directory not found at {gnps_dir}\")\n\n    file_mappings_tsv = gnps_dir / globals.GNPS_FILE_MAPPINGS_TSV\n    file_mappings_csv = gnps_dir / globals.GNPS_FILE_MAPPINGS_CSV\n    if file_mappings_tsv.exists() and file_mappings_csv.exists():\n        raise ValueError(\n            f\"Both {file_mappings_tsv.name} and {file_mappings_csv.name} found in GNPS directory \"\n            f\"{gnps_dir}, only one is allowed.\"\n        )\n    elif not file_mappings_tsv.exists() and not file_mappings_csv.exists():\n        raise FileNotFoundError(\n            f\"Neither {file_mappings_tsv.name} nor {file_mappings_csv.name} found in GNPS directory\"\n            f\" {gnps_dir}\"\n        )\n\n    required_files = [\n        gnps_dir / globals.GNPS_SPECTRA_FILENAME,\n        gnps_dir / globals.GNPS_MOLECULAR_FAMILY_FILENAME,\n        gnps_dir / globals.GNPS_ANNOTATIONS_FILENAME,\n    ]\n    list_not_found = [f.name for f in required_files if not f.exists()]\n    if list_not_found:\n        raise FileNotFoundError(\n            f\"Files not found in GNPS directory {gnps_dir}: ', '.join({list_not_found})\"\n        )\n</code></pre>"},{"location":"api/arranger/#nplinker.arranger.validate_antismash","title":"validate_antismash","text":"<pre><code>validate_antismash(antismash_dir: Path) -&gt; None\n</code></pre> <p>Validate the antiSMASH data directory and its contents.</p> <p>The validation only checks the structure of the antiSMASH data directory and file names. It does not check</p> <ul> <li>the content of the BGC files</li> <li>the consistency between the antiSMASH data and the PODP project JSON file for the PODP     mode</li> </ul> <p>The antiSMASH data directory must exist and contain at least one sub-directory. The name of the sub-directories must not contain any space. Each sub-directory must contain at least one BGC file (with the suffix \".region???.gbk\" where ??? is the region number).</p> <p>Parameters:</p> Name Type Description Default <code>antismash_dir</code> <code>Path</code> <p>Path to the antiSMASH data directory.</p> required <p>Raises:</p> Type Description <code>FileNotFoundError</code> <p>If the antiSMASH data directory is not found, or no sub-directories are found in the antiSMASH data directory, or no BGC files are found in any sub-directory.</p> <code>ValueError</code> <p>If any sub-directory name contains a space.</p> Source code in <code>src/nplinker/arranger.py</code> <pre><code>def validate_antismash(antismash_dir: Path) -&gt; None:\n    \"\"\"Validate the antiSMASH data directory and its contents.\n\n    The validation only checks the structure of the antiSMASH data directory and file names.\n    It does not check\n\n    - the content of the BGC files\n    - the consistency between the antiSMASH data and the PODP project JSON file for the PODP\n        mode\n\n    The antiSMASH data directory must exist and contain at least one sub-directory. The name of the\n    sub-directories must not contain any space. Each sub-directory must contain at least one BGC\n    file (with the suffix \".region???.gbk\" where ??? is the region number).\n\n    Args:\n        antismash_dir: Path to the antiSMASH data directory.\n\n    Raises:\n        FileNotFoundError: If the antiSMASH data directory is not found, or no sub-directories\n            are found in the antiSMASH data directory, or no BGC files are found in any\n            sub-directory.\n        ValueError: If any sub-directory name contains a space.\n    \"\"\"\n    if not antismash_dir.exists():\n        raise FileNotFoundError(f\"antiSMASH data directory not found at {antismash_dir}\")\n\n    sub_dirs = list_dirs(antismash_dir)\n    if not sub_dirs:\n        raise FileNotFoundError(\n            \"No BGC directories found in antiSMASH data directory {antismash_dir}\"\n        )\n\n    for sub_dir in sub_dirs:\n        dir_name = Path(sub_dir).name\n        if \" \" in dir_name:\n            raise ValueError(\n                f\"antiSMASH sub-directory name {dir_name} contains space, which is not allowed\"\n            )\n\n        gbk_files = list_files(sub_dir, suffix=\".gbk\", keep_parent=False)\n        bgc_files = fnmatch.filter(gbk_files, \"*.region???.gbk\")\n        if not bgc_files:\n            raise FileNotFoundError(f\"No BGC files found in antiSMASH sub-directory {sub_dir}\")\n</code></pre>"},{"location":"api/arranger/#nplinker.arranger.validate_bigscape","title":"validate_bigscape","text":"<pre><code>validate_bigscape(bigscape_dir: Path) -&gt; None\n</code></pre> <p>Validate the BiG-SCAPE data directory and its contents.</p> <p>The BiG-SCAPE data directory must exist and contain the clustering file \"mix_clustering_c{config.bigscape.cutoff}.tsv\" where {config.bigscape.cutoff} is the bigscape cutoff value set in the config file.</p> <p>Alternatively, the directory can contain the BiG-SCAPE database file generated by BiG-SCAPE v2. At the moment, all the family assignments in the database will be used, so this database should contain results from a single run with the desired cutoff.</p> <p>Parameters:</p> Name Type Description Default <code>bigscape_dir</code> <code>Path</code> <p>Path to the BiG-SCAPE data directory.</p> required <p>Raises:</p> Type Description <code>FileNotFoundError</code> <p>If the BiG-SCAPE data directory or the clustering file is not found.</p> Source code in <code>src/nplinker/arranger.py</code> <pre><code>def validate_bigscape(bigscape_dir: Path) -&gt; None:\n    \"\"\"Validate the BiG-SCAPE data directory and its contents.\n\n    The BiG-SCAPE data directory must exist and contain the clustering file\n    \"mix_clustering_c{config.bigscape.cutoff}.tsv\" where {config.bigscape.cutoff} is the\n    bigscape cutoff value set in the config file.\n\n    Alternatively, the directory can contain the BiG-SCAPE database file generated by BiG-SCAPE v2.\n    At the moment, all the family assignments in the database will be used, so this database should\n    contain results from a single run with the desired cutoff.\n\n    Args:\n        bigscape_dir: Path to the BiG-SCAPE data directory.\n\n    Raises:\n        FileNotFoundError: If the BiG-SCAPE data directory or the clustering file is not found.\n    \"\"\"\n    if not bigscape_dir.exists():\n        raise FileNotFoundError(f\"BiG-SCAPE data directory not found at {bigscape_dir}\")\n\n    clustering_file = bigscape_dir / f\"mix_clustering_c{config.bigscape.cutoff}.tsv\"\n    database_file = bigscape_dir / \"data_sqlite.db\"\n    if not clustering_file.exists() and not database_file.exists():\n        raise FileNotFoundError(f\"BiG-SCAPE data not found in {clustering_file} or {database_file}\")\n</code></pre>"},{"location":"api/bigscape/","title":"BigScape","text":""},{"location":"api/bigscape/#nplinker.genomics.bigscape","title":"bigscape","text":""},{"location":"api/bigscape/#nplinker.genomics.bigscape.BigscapeGCFLoader","title":"BigscapeGCFLoader","text":"<pre><code>BigscapeGCFLoader(cluster_file: str | PathLike)\n</code></pre> <p>Build a loader for BiG-SCAPE GCF cluster file.</p> <p>Attributes:</p> Name Type Description <code>cluster_file</code> <code>str</code> <p>path to the BiG-SCAPE cluster file.</p> <p>Parameters:</p> Name Type Description Default <code>cluster_file</code> <code>str | PathLike</code> <p>Path to the BiG-SCAPE cluster file, the filename has a pattern of \"_clustering_c0.xx.tsv\". required Source code in <code>src/nplinker/genomics/bigscape/bigscape_loader.py</code> <pre><code>def __init__(self, cluster_file: str | PathLike, /) -&gt; None:\n    \"\"\"Initialize the BiG-SCAPE GCF loader.\n\n    Args:\n        cluster_file: Path to the BiG-SCAPE cluster file,\n            the filename has a pattern of \"&lt;class&gt;_clustering_c0.xx.tsv\".\n    \"\"\"\n    self.cluster_file: str = str(cluster_file)\n    self._gcf_list = self._parse_gcf(self.cluster_file)\n</code></pre>"},{"location":"api/bigscape/#nplinker.genomics.bigscape.BigscapeGCFLoader.cluster_file","title":"cluster_file  <code>instance-attribute</code>","text":"<pre><code>cluster_file: str = str(cluster_file)\n</code></pre>"},{"location":"api/bigscape/#nplinker.genomics.bigscape.BigscapeGCFLoader.get_gcfs","title":"get_gcfs","text":"<pre><code>get_gcfs(keep_mibig_only: bool = False, keep_singleton: bool = False) -&gt; list[GCF]\n</code></pre> <p>Get all GCF objects.</p> <p>Parameters:</p> Name Type Description Default <code>keep_mibig_only</code> <code>bool</code> <p>True to keep GCFs that contain only MIBiG BGCs.</p> <code>False</code> <code>keep_singleton</code> <code>bool</code> <p>True to keep singleton GCFs. A singleton GCF is a GCF that contains only one BGC.</p> <code>False</code> <p>Returns:</p> Type Description <code>list[GCF]</code> <p>A list of GCF objects.</p> Source code in <code>src/nplinker/genomics/bigscape/bigscape_loader.py</code> <pre><code>def get_gcfs(self, keep_mibig_only: bool = False, keep_singleton: bool = False) -&gt; list[GCF]:\n    \"\"\"Get all GCF objects.\n\n    Args:\n        keep_mibig_only: True to keep GCFs that contain only MIBiG\n            BGCs.\n        keep_singleton: True to keep singleton GCFs. A singleton GCF\n            is a GCF that contains only one BGC.\n\n    Returns:\n        A list of GCF objects.\n    \"\"\"\n    gcf_list = self._gcf_list\n    if not keep_mibig_only:\n        gcf_list = [gcf for gcf in gcf_list if not gcf.has_mibig_only()]\n    if not keep_singleton:\n        gcf_list = [gcf for gcf in gcf_list if not gcf.is_singleton()]\n    return gcf_list\n</code></pre>"},{"location":"api/bigscape/#nplinker.genomics.bigscape.BigscapeV2GCFLoader","title":"BigscapeV2GCFLoader","text":"<pre><code>BigscapeV2GCFLoader(db_file: str | PathLike)\n</code></pre> <p>Build a loader for BiG-SCAPE v2 database file.</p> <p>Attributes:</p> Name Type Description <code>db_file</code> <p>Path to the BiG-SCAPE database file.</p> <p>Parameters:</p> Name Type Description Default <code>db_file</code> <code>str | PathLike</code> <p>Path to the BiG-SCAPE v2 database file</p> required Source code in <code>src/nplinker/genomics/bigscape/bigscape_loader.py</code> <pre><code>def __init__(self, db_file: str | PathLike, /) -&gt; None:\n    \"\"\"Initialize the BiG-SCAPE v2 GCF loader.\n\n    Args:\n        db_file: Path to the BiG-SCAPE v2 database file\n    \"\"\"\n    self.db_file = str(db_file)\n    self._gcf_list = self._parse_gcf(self.db_file)\n</code></pre>"},{"location":"api/bigscape/#nplinker.genomics.bigscape.BigscapeV2GCFLoader.db_file","title":"db_file  <code>instance-attribute</code>","text":"<pre><code>db_file = str(db_file)\n</code></pre>"},{"location":"api/bigscape/#nplinker.genomics.bigscape.BigscapeV2GCFLoader.get_gcfs","title":"get_gcfs","text":"<pre><code>get_gcfs(keep_mibig_only: bool = False, keep_singleton: bool = False) -&gt; list[GCF]\n</code></pre> <p>Get all GCF objects.</p> <p>Parameters:</p> Name Type Description Default <code>keep_mibig_only</code> <code>bool</code> <p>True to keep GCFs that contain only MIBiG BGCs.</p> <code>False</code> <code>keep_singleton</code> <code>bool</code> <p>True to keep singleton GCFs. A singleton GCF is a GCF that contains only one BGC.</p> <code>False</code> <p>Returns:</p> Type Description <code>list[GCF]</code> <p>a list of GCF objects.</p> Source code in <code>src/nplinker/genomics/bigscape/bigscape_loader.py</code> <pre><code>def get_gcfs(self, keep_mibig_only: bool = False, keep_singleton: bool = False) -&gt; list[GCF]:\n    \"\"\"Get all GCF objects.\n\n    Args:\n        keep_mibig_only: True to keep GCFs that contain only MIBiG\n            BGCs.\n        keep_singleton: True to keep singleton GCFs. A singleton GCF\n            is a GCF that contains only one BGC.\n\n    Returns:\n        a list of GCF objects.\n    \"\"\"\n    gcf_list = self._gcf_list\n    if not keep_mibig_only:\n        gcf_list = [gcf for gcf in gcf_list if not gcf.has_mibig_only()]\n    if not keep_singleton:\n        gcf_list = [gcf for gcf in gcf_list if not gcf.is_singleton()]\n    return gcf_list\n</code></pre>"},{"location":"api/bigscape/#nplinker.genomics.bigscape.run_bigscape","title":"run_bigscape","text":"<pre><code>run_bigscape(antismash_path: str | PathLike, output_path: str | PathLike, extra_params: str)\n</code></pre> Source code in <code>src/nplinker/genomics/bigscape/runbigscape.py</code> <pre><code>def run_bigscape(\n    antismash_path: str | PathLike,\n    output_path: str | PathLike,\n    extra_params: str,\n):\n    bigscape_py_path = \"bigscape.py\"\n    logger.info(\n        f'run_bigscape: input=\"{antismash_path}\", output=\"{output_path}\", extra_params={extra_params}\"'\n    )\n\n    try:\n        subprocess.run([bigscape_py_path, \"-h\"], capture_output=True, check=True)\n    except Exception as e:\n        raise Exception(f\"Failed to find/run bigscape.py (path={bigscape_py_path}, err={e})\") from e\n\n    if not os.path.exists(antismash_path):\n        raise Exception(f'antismash_path \"{antismash_path}\" does not exist!')\n\n    # configure the IO-related parameters, including pfam_dir\n    args = [bigscape_py_path, \"-i\", antismash_path, \"-o\", output_path, \"--pfam_dir\", PFAM_PATH]\n\n    # append the user supplied params, if any\n    if len(extra_params) &gt; 0:\n        args.extend(extra_params.split(\" \"))\n\n    logger.info(f\"BiG-SCAPE command: {args}\")\n    result = subprocess.run(args, stdout=sys.stdout, stderr=sys.stderr, check=True)\n    logger.info(f\"BiG-SCAPE completed with return code {result.returncode}\")\n    # use subprocess.CompletedProcess.check_returncode() to test if the BiG-SCAPE\n    # process exited successfully. This throws an exception for non-zero returncodes\n    # which will indicate to the PODPDownloader module that something went wrong.\n    result.check_returncode()\n\n    return True\n</code></pre>"},{"location":"api/bigscape/#nplinker.genomics.bigscape.run_bigscape","title":"run_bigscape","text":"<pre><code>run_bigscape(antismash_path: str | PathLike, output_path: str | PathLike, extra_params: str)\n</code></pre> Source code in <code>src/nplinker/genomics/bigscape/runbigscape.py</code> <pre><code>def run_bigscape(\n    antismash_path: str | PathLike,\n    output_path: str | PathLike,\n    extra_params: str,\n):\n    bigscape_py_path = \"bigscape.py\"\n    logger.info(\n        f'run_bigscape: input=\"{antismash_path}\", output=\"{output_path}\", extra_params={extra_params}\"'\n    )\n\n    try:\n        subprocess.run([bigscape_py_path, \"-h\"], capture_output=True, check=True)\n    except Exception as e:\n        raise Exception(f\"Failed to find/run bigscape.py (path={bigscape_py_path}, err={e})\") from e\n\n    if not os.path.exists(antismash_path):\n        raise Exception(f'antismash_path \"{antismash_path}\" does not exist!')\n\n    # configure the IO-related parameters, including pfam_dir\n    args = [bigscape_py_path, \"-i\", antismash_path, \"-o\", output_path, \"--pfam_dir\", PFAM_PATH]\n\n    # append the user supplied params, if any\n    if len(extra_params) &gt; 0:\n        args.extend(extra_params.split(\" \"))\n\n    logger.info(f\"BiG-SCAPE command: {args}\")\n    result = subprocess.run(args, stdout=sys.stdout, stderr=sys.stderr, check=True)\n    logger.info(f\"BiG-SCAPE completed with return code {result.returncode}\")\n    # use subprocess.CompletedProcess.check_returncode() to test if the BiG-SCAPE\n    # process exited successfully. This throws an exception for non-zero returncodes\n    # which will indicate to the PODPDownloader module that something went wrong.\n    result.check_returncode()\n\n    return True\n</code></pre>"},{"location":"api/genomics/","title":"Data Models","text":""},{"location":"api/genomics/#nplinker.genomics","title":"genomics","text":""},{"location":"api/genomics/#nplinker.genomics.BGC","title":"BGC","text":"<pre><code>BGC(bgc_id: str, /, *product_prediction: str)\n</code></pre> <p>Class to model BGC (biosynthetic gene cluster) data.</p> <p>BGC data include both annotations and sequence data. This class is mainly designed to model the annotations or metadata.</p> <p>The raw BGC data is stored in GenBank format (.gbk). Additional GenBank features could be added to the GenBank file to annotate BGCs, e.g. antiSMASH has some self-defined features (like <code>region</code>) in its output GenBank files.</p> <p>The annotations of BGC can be stored in JSON format, which is defined and used by MIBiG.</p> <p>Attributes:</p> Name Type Description <code>bgc_id</code> <p>BGC identifier, e.g. MIBiG accession, GenBank accession.</p> <code>product_prediction</code> <p>A tuple of (predicted) natural products or product classes of the BGC. For antiSMASH's GenBank data, the feature <code>region /product</code> gives product information. For MIBiG metadata, its biosynthetic class provides such info.</p> <code>mibig_bgc_class</code> <code>tuple[str] | None</code> <p>A tuple of MIBiG biosynthetic classes to which the BGC belongs. Defaults to None. MIBiG defines 6 major biosynthetic classes for natural products, including \"NRP\", \"Polyketide\", \"RiPP\", \"Terpene\", \"Saccharide\" and \"Alkaloid\". Note that natural products created by all other biosynthetic mechanisms fall under the category \"Other\". More details see the publication: https://doi.org/10.1186/s40793-018-0318-y.</p> <code>description</code> <code>str | None</code> <p>Brief description of the BGC. Defaults to None.</p> <code>smiles</code> <code>tuple[str] | None</code> <p>A tuple of SMILES formulas of the BGC's products. Defaults to None.</p> <code>antismash_file</code> <code>str | None</code> <p>The path to the antiSMASH GenBank file. Defaults to None.</p> <code>antismash_id</code> <code>str | None</code> <p>Identifier of the antiSMASH BGC, referring to the feature <code>VERSION</code> of GenBank file. Defaults to None.</p> <code>antismash_region</code> <code>int | None</code> <p>AntiSMASH BGC region number, referring to the feature <code>region</code> of GenBank file. Defaults to None.</p> <code>parents</code> <code>set[GCF]</code> <p>The set of GCFs that contain the BGC.</p> <code>strain</code> <code>Strain | None</code> <p>The strain of the BGC.</p> <p>Parameters:</p> Name Type Description Default <code>bgc_id</code> <code>str</code> <p>BGC identifier, e.g. MIBiG accession, GenBank accession.</p> required <code>product_prediction</code> <code>str</code> <p>BGC's (predicted) natural products or product classes.</p> <code>()</code> Source code in <code>src/nplinker/genomics/bgc.py</code> <pre><code>def __init__(self, bgc_id: str, /, *product_prediction: str):\n    \"\"\"Initialize the BGC object.\n\n    Args:\n        bgc_id: BGC identifier, e.g. MIBiG accession, GenBank accession.\n        product_prediction: BGC's (predicted) natural products or product classes.\n    \"\"\"\n    # BGC metadata\n    self.bgc_id = bgc_id\n    self.product_prediction = product_prediction\n\n    self.mibig_bgc_class: tuple[str] | None = None\n    self.description: str | None = None\n    self.smiles: tuple[str] | None = None\n\n    # antismash related attributes\n    self.antismash_file: str | None = None\n    self.antismash_id: str | None = None  # version in .gbk, id in SeqRecord\n    self.antismash_region: int | None = None  # antismash region number\n\n    # other attributes\n    self.parents: set[GCF] = set()\n    self._strain: Strain | None = None\n</code></pre>"},{"location":"api/genomics/#nplinker.genomics.BGC.bgc_id","title":"bgc_id  <code>instance-attribute</code>","text":"<pre><code>bgc_id = bgc_id\n</code></pre>"},{"location":"api/genomics/#nplinker.genomics.BGC.product_prediction","title":"product_prediction  <code>instance-attribute</code>","text":"<pre><code>product_prediction = product_prediction\n</code></pre>"},{"location":"api/genomics/#nplinker.genomics.BGC.mibig_bgc_class","title":"mibig_bgc_class  <code>instance-attribute</code>","text":"<pre><code>mibig_bgc_class: tuple[str] | None = None\n</code></pre>"},{"location":"api/genomics/#nplinker.genomics.BGC.description","title":"description  <code>instance-attribute</code>","text":"<pre><code>description: str | None = None\n</code></pre>"},{"location":"api/genomics/#nplinker.genomics.BGC.smiles","title":"smiles  <code>instance-attribute</code>","text":"<pre><code>smiles: tuple[str] | None = None\n</code></pre>"},{"location":"api/genomics/#nplinker.genomics.BGC.antismash_file","title":"antismash_file  <code>instance-attribute</code>","text":"<pre><code>antismash_file: str | None = None\n</code></pre>"},{"location":"api/genomics/#nplinker.genomics.BGC.antismash_id","title":"antismash_id  <code>instance-attribute</code>","text":"<pre><code>antismash_id: str | None = None\n</code></pre>"},{"location":"api/genomics/#nplinker.genomics.BGC.antismash_region","title":"antismash_region  <code>instance-attribute</code>","text":"<pre><code>antismash_region: int | None = None\n</code></pre>"},{"location":"api/genomics/#nplinker.genomics.BGC.parents","title":"parents  <code>instance-attribute</code>","text":"<pre><code>parents: set[GCF] = set()\n</code></pre>"},{"location":"api/genomics/#nplinker.genomics.BGC.strain","title":"strain  <code>property</code> <code>writable</code>","text":"<pre><code>strain: Strain | None\n</code></pre> <p>Get the strain of the BGC.</p>"},{"location":"api/genomics/#nplinker.genomics.BGC.bigscape_classes","title":"bigscape_classes  <code>property</code>","text":"<pre><code>bigscape_classes: set[str | None]\n</code></pre> <p>Get BiG-SCAPE's BGC classes.</p> <p>BiG-SCAPE's BGC classes are similar to those defined in MiBIG but have more categories (7 classes). More details see: https://doi.org/10.1038%2Fs41589-019-0400-9.</p>"},{"location":"api/genomics/#nplinker.genomics.BGC.aa_predictions","title":"aa_predictions  <code>property</code>","text":"<pre><code>aa_predictions: list\n</code></pre> <p>Amino acids as predicted monomers of product.</p> <p>Returns:</p> Type Description <code>list</code> <p>list of dicts with key as amino acid and value as prediction</p> <code>list</code> <p>probability.</p>"},{"location":"api/genomics/#nplinker.genomics.BGC.add_parent","title":"add_parent","text":"<pre><code>add_parent(gcf: GCF) -&gt; None\n</code></pre> <p>Add a parent GCF to the BGC.</p> <p>Parameters:</p> Name Type Description Default <code>gcf</code> <code>GCF</code> <p>gene cluster family</p> required Source code in <code>src/nplinker/genomics/bgc.py</code> <pre><code>def add_parent(self, gcf: GCF) -&gt; None:\n    \"\"\"Add a parent GCF to the BGC.\n\n    Args:\n        gcf: gene cluster family\n    \"\"\"\n    gcf.add_bgc(self)\n</code></pre>"},{"location":"api/genomics/#nplinker.genomics.BGC.detach_parent","title":"detach_parent","text":"<pre><code>detach_parent(gcf: GCF) -&gt; None\n</code></pre> <p>Remove a parent GCF.</p> Source code in <code>src/nplinker/genomics/bgc.py</code> <pre><code>def detach_parent(self, gcf: GCF) -&gt; None:\n    \"\"\"Remove a parent GCF.\"\"\"\n    gcf.detach_bgc(self)\n</code></pre>"},{"location":"api/genomics/#nplinker.genomics.BGC.is_mibig","title":"is_mibig","text":"<pre><code>is_mibig() -&gt; bool\n</code></pre> <p>Check if the BGC is MIBiG reference BGC or not.</p> Note <p>This method evaluates MIBiG BGC based on the pattern that MIBiG BGC names start with \"BGC\". It might give false positive result.</p> <p>Returns:</p> Type Description <code>bool</code> <p>True if it's MIBiG reference BGC</p> Source code in <code>src/nplinker/genomics/bgc.py</code> <pre><code>def is_mibig(self) -&gt; bool:\n    \"\"\"Check if the BGC is MIBiG reference BGC or not.\n\n    Note:\n        This method evaluates MIBiG BGC based on the pattern that MIBiG\n        BGC names start with \"BGC\". It might give false positive result.\n\n    Returns:\n        True if it's MIBiG reference BGC\n    \"\"\"\n    return self.bgc_id.startswith(\"BGC\")\n</code></pre>"},{"location":"api/genomics/#nplinker.genomics.GCF","title":"GCF","text":"<pre><code>GCF(gcf_id: str)\n</code></pre> <p>Class to model gene cluster family (GCF).</p> <p>GCF is a group of similar BGCs and generated by clustering BGCs with tools such as BiG-SCAPE and BiG-SLICE.</p> <p>Attributes:</p> Name Type Description <code>gcf_id</code> <p>id of the GCF object.</p> <code>bgc_ids</code> <code>set[str]</code> <p>a set of BGC ids that belongs to the GCF.</p> <code>bigscape_class</code> <code>str | None</code> <p>BiG-SCAPE's BGC class. BiG-SCAPE's BGC classes are similar to those defined in MiBIG but have more categories (7 classes). More details see: https://doi.org/10.1038%2Fs41589-019-0400-9.</p> <p>Parameters:</p> Name Type Description Default <code>gcf_id</code> <code>str</code> <p>id of the GCF object.</p> required Source code in <code>src/nplinker/genomics/gcf.py</code> <pre><code>def __init__(self, gcf_id: str, /) -&gt; None:\n    \"\"\"Initialize the GCF object.\n\n    Args:\n        gcf_id: id of the GCF object.\n    \"\"\"\n    self.gcf_id = gcf_id\n    self.bgc_ids: set[str] = set()\n    self.bigscape_class: str | None = None\n    self._bgcs: set[BGC] = set()\n    self._strains: StrainCollection = StrainCollection()\n</code></pre>"},{"location":"api/genomics/#nplinker.genomics.GCF.gcf_id","title":"gcf_id  <code>instance-attribute</code>","text":"<pre><code>gcf_id = gcf_id\n</code></pre>"},{"location":"api/genomics/#nplinker.genomics.GCF.bgc_ids","title":"bgc_ids  <code>instance-attribute</code>","text":"<pre><code>bgc_ids: set[str] = set()\n</code></pre>"},{"location":"api/genomics/#nplinker.genomics.GCF.bigscape_class","title":"bigscape_class  <code>instance-attribute</code>","text":"<pre><code>bigscape_class: str | None = None\n</code></pre>"},{"location":"api/genomics/#nplinker.genomics.GCF.bgcs","title":"bgcs  <code>property</code>","text":"<pre><code>bgcs: set[BGC]\n</code></pre> <p>Get the BGC objects.</p>"},{"location":"api/genomics/#nplinker.genomics.GCF.strains","title":"strains  <code>property</code>","text":"<pre><code>strains: StrainCollection\n</code></pre> <p>Get the strains in the GCF.</p>"},{"location":"api/genomics/#nplinker.genomics.GCF.add_bgc","title":"add_bgc","text":"<pre><code>add_bgc(bgc: BGC) -&gt; None\n</code></pre> <p>Add a BGC object to the GCF.</p> Source code in <code>src/nplinker/genomics/gcf.py</code> <pre><code>def add_bgc(self, bgc: BGC) -&gt; None:\n    \"\"\"Add a BGC object to the GCF.\"\"\"\n    bgc.parents.add(self)\n    self._bgcs.add(bgc)\n    self.bgc_ids.add(bgc.bgc_id)\n    if bgc.strain is not None:\n        self._strains.add(bgc.strain)\n    else:\n        logger.warning(\"No strain specified for the BGC %s\", bgc.bgc_id)\n</code></pre>"},{"location":"api/genomics/#nplinker.genomics.GCF.detach_bgc","title":"detach_bgc","text":"<pre><code>detach_bgc(bgc: BGC) -&gt; None\n</code></pre> <p>Remove a child BGC object.</p> Source code in <code>src/nplinker/genomics/gcf.py</code> <pre><code>def detach_bgc(self, bgc: BGC) -&gt; None:\n    \"\"\"Remove a child BGC object.\"\"\"\n    bgc.parents.remove(self)\n    self._bgcs.remove(bgc)\n    self.bgc_ids.remove(bgc.bgc_id)\n    if bgc.strain is not None:\n        for other_bgc in self._bgcs:\n            if other_bgc.strain == bgc.strain:\n                return\n        self._strains.remove(bgc.strain)\n</code></pre>"},{"location":"api/genomics/#nplinker.genomics.GCF.has_strain","title":"has_strain","text":"<pre><code>has_strain(strain: Strain) -&gt; bool\n</code></pre> <p>Check if the given strain exists.</p> <p>Parameters:</p> Name Type Description Default <code>strain</code> <code>Strain</code> <p><code>Strain</code> object.</p> required <p>Returns:</p> Type Description <code>bool</code> <p>True when the given strain exist.</p> Source code in <code>src/nplinker/genomics/gcf.py</code> <pre><code>def has_strain(self, strain: Strain) -&gt; bool:\n    \"\"\"Check if the given strain exists.\n\n    Args:\n        strain: `Strain` object.\n\n    Returns:\n        True when the given strain exist.\n    \"\"\"\n    return strain in self._strains\n</code></pre>"},{"location":"api/genomics/#nplinker.genomics.GCF.has_mibig_only","title":"has_mibig_only","text":"<pre><code>has_mibig_only() -&gt; bool\n</code></pre> <p>Check if the GCF's children are only MIBiG BGCs.</p> <p>Returns:</p> Type Description <code>bool</code> <p>True if <code>GCF.bgc_ids</code> are only MIBiG BGC ids.</p> Source code in <code>src/nplinker/genomics/gcf.py</code> <pre><code>def has_mibig_only(self) -&gt; bool:\n    \"\"\"Check if the GCF's children are only MIBiG BGCs.\n\n    Returns:\n        True if `GCF.bgc_ids` are only MIBiG BGC ids.\n    \"\"\"\n    return all(map(lambda id: id.startswith(\"BGC\"), self.bgc_ids))\n</code></pre>"},{"location":"api/genomics/#nplinker.genomics.GCF.is_singleton","title":"is_singleton","text":"<pre><code>is_singleton() -&gt; bool\n</code></pre> <p>Check if the GCF contains only one BGC.</p> <p>Returns:</p> Type Description <code>bool</code> <p>True if <code>GCF.bgc_ids</code> contains only one BGC id.</p> Source code in <code>src/nplinker/genomics/gcf.py</code> <pre><code>def is_singleton(self) -&gt; bool:\n    \"\"\"Check if the GCF contains only one BGC.\n\n    Returns:\n        True if `GCF.bgc_ids` contains only one BGC id.\n    \"\"\"\n    return len(self.bgc_ids) == 1\n</code></pre>"},{"location":"api/genomics_abc/","title":"Base Classes","text":""},{"location":"api/genomics_abc/#nplinker.genomics.abc","title":"abc","text":""},{"location":"api/genomics_abc/#nplinker.genomics.abc.BGCLoaderBase","title":"BGCLoaderBase","text":"<pre><code>BGCLoaderBase(data_dir: str)\n</code></pre> <p>             Bases: <code>ABC</code></p> <p>Abstract base class for BGC loader.</p> <p>Parameters:</p> Name Type Description Default <code>data_dir</code> <code>str</code> <p>Path to directory that contains BGC metadata files (.json) or full data genbank files (.gbk).</p> required Source code in <code>src/nplinker/genomics/abc.py</code> <pre><code>def __init__(self, data_dir: str):\n    \"\"\"Initialize the BGC loader.\n\n    Args:\n        data_dir: Path to directory that contains BGC metadata files\n            (.json) or full data genbank files (.gbk).\n    \"\"\"\n    self.data_dir = data_dir\n</code></pre>"},{"location":"api/genomics_abc/#nplinker.genomics.abc.BGCLoaderBase.data_dir","title":"data_dir  <code>instance-attribute</code>","text":"<pre><code>data_dir = data_dir\n</code></pre>"},{"location":"api/genomics_abc/#nplinker.genomics.abc.BGCLoaderBase.get_files","title":"get_files  <code>abstractmethod</code>","text":"<pre><code>get_files() -&gt; dict[str, str]\n</code></pre> <p>Get path to BGC files.</p> <p>Returns:</p> Type Description <code>dict[str, str]</code> <p>The key is BGC name and value is path to BGC file</p> Source code in <code>src/nplinker/genomics/abc.py</code> <pre><code>@abstractmethod\ndef get_files(self) -&gt; dict[str, str]:\n    \"\"\"Get path to BGC files.\n\n    Returns:\n        The key is BGC name and value is path to BGC file\n    \"\"\"\n</code></pre>"},{"location":"api/genomics_abc/#nplinker.genomics.abc.BGCLoaderBase.get_bgcs","title":"get_bgcs  <code>abstractmethod</code>","text":"<pre><code>get_bgcs() -&gt; Sequence[BGC]\n</code></pre> <p>Get BGC objects.</p> <p>Returns:</p> Type Description <code>Sequence[BGC]</code> <p>A list of BGC objects</p> Source code in <code>src/nplinker/genomics/abc.py</code> <pre><code>@abstractmethod\ndef get_bgcs(self) -&gt; Sequence[BGC]:\n    \"\"\"Get BGC objects.\n\n    Returns:\n        A list of BGC objects\n    \"\"\"\n</code></pre>"},{"location":"api/genomics_abc/#nplinker.genomics.abc.GCFLoaderBase","title":"GCFLoaderBase","text":"<p>             Bases: <code>ABC</code></p> <p>Abstract base class for GCF loader.</p>"},{"location":"api/genomics_abc/#nplinker.genomics.abc.GCFLoaderBase.get_gcfs","title":"get_gcfs  <code>abstractmethod</code>","text":"<pre><code>get_gcfs(keep_mibig_only: bool, keep_singleton: bool) -&gt; Sequence[GCF]\n</code></pre> <p>Get GCF objects.</p> <p>Parameters:</p> Name Type Description Default <code>keep_mibig_only</code> <code>bool</code> <p>True to keep GCFs that contain only MIBiG BGCs.</p> required <code>keep_singleton</code> <code>bool</code> <p>True to keep singleton GCFs. A singleton GCF is a GCF that contains only one BGC.</p> required <p>Returns:</p> Type Description <code>Sequence[GCF]</code> <p>A list of GCF objects</p> Source code in <code>src/nplinker/genomics/abc.py</code> <pre><code>@abstractmethod\ndef get_gcfs(self, keep_mibig_only: bool, keep_singleton: bool) -&gt; Sequence[GCF]:\n    \"\"\"Get GCF objects.\n\n    Args:\n        keep_mibig_only: True to keep GCFs that contain only MIBiG\n            BGCs.\n        keep_singleton: True to keep singleton GCFs. A singleton GCF\n            is a GCF that contains only one BGC.\n\n    Returns:\n        A list of GCF objects\n    \"\"\"\n</code></pre>"},{"location":"api/genomics_utils/","title":"Utilities","text":""},{"location":"api/genomics_utils/#nplinker.genomics.utils","title":"utils","text":""},{"location":"api/genomics_utils/#nplinker.genomics.utils.logger","title":"logger  <code>module-attribute</code>","text":"<pre><code>logger = getLogger(__name__)\n</code></pre>"},{"location":"api/genomics_utils/#nplinker.genomics.utils.generate_mappings_genome_id_bgc_id","title":"generate_mappings_genome_id_bgc_id","text":"<pre><code>generate_mappings_genome_id_bgc_id(bgc_dir: str | PathLike, output_file: str | PathLike | None = None) -&gt; None\n</code></pre> <p>Generate a file that maps genome id to BGC id.</p> <p>Note that the <code>output_file</code> will be overwritten if it already exists.</p> <p>Parameters:</p> Name Type Description Default <code>bgc_dir</code> <code>str | PathLike</code> <p>The directory has one-layer of subfolders and each subfolder contains BGC files in <code>.gbk</code> format. It assumes that - the subfolder name is the genome id (e.g. refseq), - the BGC file name is the BGC id.</p> required <code>output_file</code> <code>str | PathLike | None</code> <p>The path to the output file. Note that the file will be overwritten if it already exists. Defaults to None, in which case the output file will be placed in the directory <code>bgc_dir</code> with a file name defined in global variable <code>GENOME_BGC_MAPPINGS_FILENAME</code>.</p> <code>None</code> Source code in <code>src/nplinker/genomics/utils.py</code> <pre><code>def generate_mappings_genome_id_bgc_id(\n    bgc_dir: str | PathLike, output_file: str | PathLike | None = None\n) -&gt; None:\n    \"\"\"Generate a file that maps genome id to BGC id.\n\n    Note that the `output_file` will be overwritten if it already exists.\n\n    Args:\n        bgc_dir: The directory has one-layer of subfolders and\n            each subfolder contains BGC files in `.gbk` format.\n            It assumes that\n            - the subfolder name is the genome id (e.g. refseq),\n            - the BGC file name is the BGC id.\n        output_file: The path to the output file. Note\n            that the file will be overwritten if it already exists.\n            Defaults to None, in which case the output file will be placed in\n            the directory `bgc_dir` with a file name defined in global variable\n            `GENOME_BGC_MAPPINGS_FILENAME`.\n    \"\"\"\n    bgc_dir = Path(bgc_dir)\n    genome_bgc_mappings = {}\n\n    for subdir in list_dirs(bgc_dir):\n        genome_id = Path(subdir).name\n        bgc_files = list_files(subdir, suffix=(\".gbk\"), keep_parent=False)\n        bgc_ids = [bgc_id for f in bgc_files if (bgc_id := Path(f).stem) != genome_id]\n        if bgc_ids:\n            genome_bgc_mappings[genome_id] = bgc_ids\n        else:\n            logger.warning(\"No BGC files found in %s\", subdir)\n\n    # sort mappings by genome_id and construct json data\n    genome_bgc_mappings = dict(sorted(genome_bgc_mappings.items()))\n    json_data_mappings = [{\"genome_ID\": k, \"BGC_ID\": v} for k, v in genome_bgc_mappings.items()]\n    json_data = {\"mappings\": json_data_mappings, \"version\": \"1.0\"}\n\n    # validate json data\n    validate(instance=json_data, schema=GENOME_BGC_MAPPINGS_SCHEMA)\n\n    if output_file is None:\n        output_file = bgc_dir / GENOME_BGC_MAPPINGS_FILENAME\n    with open(output_file, \"w\") as f:\n        json.dump(json_data, f)\n    logger.info(\"Generated genome-BGC mappings file: %s\", output_file)\n</code></pre>"},{"location":"api/genomics_utils/#nplinker.genomics.utils.add_strain_to_bgc","title":"add_strain_to_bgc","text":"<pre><code>add_strain_to_bgc(strains: StrainCollection, bgcs: list[BGC]) -&gt; tuple[list[BGC], list[BGC]]\n</code></pre> <p>Assign a Strain object to <code>BGC.strain</code> for input BGCs.</p> <p>BGC id is used to find the corresponding Strain object. It's possible that no Strain object is found for a BGC id.</p> <p>Note that the input list <code>bgcs</code> will be changed in place.</p> <p>Parameters:</p> Name Type Description Default <code>strains</code> <code>StrainCollection</code> <p>A collection of all strain objects.</p> required <code>bgcs</code> <code>list[BGC]</code> <p>A list of BGC objects.</p> required <p>Returns:</p> Type Description <code>tuple[list[BGC], list[BGC]]</code> <p>A tuple of two lists of BGC objects,</p> <ul> <li>the first list contains BGC objects that are updated with Strain object;</li> <li>the second list contains BGC objects that are not updated with     Strain object because no Strain object is found.</li> </ul> <p>Raises:</p> Type Description <code>ValueError</code> <p>Multiple strain objects found for a BGC id.</p> Source code in <code>src/nplinker/genomics/utils.py</code> <pre><code>def add_strain_to_bgc(strains: StrainCollection, bgcs: list[BGC]) -&gt; tuple[list[BGC], list[BGC]]:\n    \"\"\"Assign a Strain object to `BGC.strain` for input BGCs.\n\n    BGC id is used to find the corresponding Strain object. It's possible that\n    no Strain object is found for a BGC id.\n\n    Note that the input list `bgcs` will be changed in place.\n\n    Args:\n        strains: A collection of all strain objects.\n        bgcs: A list of BGC objects.\n\n    Returns:\n        A tuple of two lists of BGC objects,\n\n            - the first list contains BGC objects that are updated with Strain object;\n            - the second list contains BGC objects that are not updated with\n                Strain object because no Strain object is found.\n\n    Raises:\n        ValueError: Multiple strain objects found for a BGC id.\n    \"\"\"\n    bgc_with_strain = []\n    bgc_without_strain = []\n    for bgc in bgcs:\n        try:\n            strain_list = strains.lookup(bgc.bgc_id)\n        except ValueError:\n            bgc_without_strain.append(bgc)\n            continue\n        if len(strain_list) &gt; 1:\n            raise ValueError(\n                f\"Multiple strain objects found for BGC id '{bgc.bgc_id}'.\"\n                f\"BGC object accept only one strain.\"\n            )\n        bgc.strain = strain_list[0]\n        bgc_with_strain.append(bgc)\n\n    logger.info(\n        f\"{len(bgc_with_strain)} BGC objects updated with Strain object.\\n\"\n        f\"{len(bgc_without_strain)} BGC objects not updated with Strain object.\"\n    )\n    return bgc_with_strain, bgc_without_strain\n</code></pre>"},{"location":"api/genomics_utils/#nplinker.genomics.utils.add_bgc_to_gcf","title":"add_bgc_to_gcf","text":"<pre><code>add_bgc_to_gcf(bgcs: list[BGC], gcfs: list[GCF]) -&gt; tuple[list[GCF], list[GCF], dict[GCF, set[str]]]\n</code></pre> <p>Add BGC objects to GCF object based on GCF's BGC ids.</p> <p>The attribute of <code>GCF.bgc_ids</code> contains the ids of BGC objects. These ids are used to find BGC objects from the input <code>bgcs</code> list. The found BGC objects are added to the <code>bgcs</code> attribute of GCF object. It is possible that some BGC ids are not found in the input <code>bgcs</code> list, and so their BGC objects are missing in the GCF object.</p> <p>This method changes the lists <code>bgcs</code> and <code>gcfs</code> in place.</p> <p>Parameters:</p> Name Type Description Default <code>bgcs</code> <code>list[BGC]</code> <p>A list of BGC objects.</p> required <code>gcfs</code> <code>list[GCF]</code> <p>A list of GCF objects.</p> required <p>Returns:</p> Type Description <code>tuple[list[GCF], list[GCF], dict[GCF, set[str]]]</code> <p>A tuple of two lists and a dictionary,</p> <ul> <li>The first list contains GCF objects that are updated with BGC objects;</li> <li>The second list contains GCF objects that are not updated with BGC objects     because no BGC objects are found;</li> <li>The dictionary contains GCF objects as keys and a set of ids of missing     BGC objects as values.</li> </ul> Source code in <code>src/nplinker/genomics/utils.py</code> <pre><code>def add_bgc_to_gcf(\n    bgcs: list[BGC], gcfs: list[GCF]\n) -&gt; tuple[list[GCF], list[GCF], dict[GCF, set[str]]]:\n    \"\"\"Add BGC objects to GCF object based on GCF's BGC ids.\n\n    The attribute of `GCF.bgc_ids` contains the ids of BGC objects. These ids\n    are used to find BGC objects from the input `bgcs` list. The found BGC\n    objects are added to the `bgcs` attribute of GCF object. It is possible that\n    some BGC ids are not found in the input `bgcs` list, and so their BGC\n    objects are missing in the GCF object.\n\n    This method changes the lists `bgcs` and `gcfs` in place.\n\n    Args:\n        bgcs: A list of BGC objects.\n        gcfs: A list of GCF objects.\n\n    Returns:\n        A tuple of two lists and a dictionary,\n\n            - The first list contains GCF objects that are updated with BGC objects;\n            - The second list contains GCF objects that are not updated with BGC objects\n                because no BGC objects are found;\n            - The dictionary contains GCF objects as keys and a set of ids of missing\n                BGC objects as values.\n    \"\"\"\n    bgc_dict = {bgc.bgc_id: bgc for bgc in bgcs}\n    gcf_with_bgc = []\n    gcf_without_bgc = []\n    gcf_missing_bgc: dict[GCF, set[str]] = {}\n    for gcf in gcfs:\n        for bgc_id in gcf.bgc_ids:\n            try:\n                bgc = bgc_dict[bgc_id]\n            except KeyError:\n                if gcf not in gcf_missing_bgc:\n                    gcf_missing_bgc[gcf] = {bgc_id}\n                else:\n                    gcf_missing_bgc[gcf].add(bgc_id)\n                continue\n            gcf.add_bgc(bgc)\n\n        if gcf.bgcs:\n            gcf_with_bgc.append(gcf)\n        else:\n            gcf_without_bgc.append(gcf)\n\n    logger.info(\n        f\"{len(gcf_with_bgc)} GCF objects updated with BGC objects.\\n\"\n        f\"{len(gcf_without_bgc)} GCF objects not updated with BGC objects.\\n\"\n        f\"{len(gcf_missing_bgc)} GCF objects have missing BGC objects.\"\n    )\n    return gcf_with_bgc, gcf_without_bgc, gcf_missing_bgc\n</code></pre>"},{"location":"api/genomics_utils/#nplinker.genomics.utils.get_mibig_from_gcf","title":"get_mibig_from_gcf","text":"<pre><code>get_mibig_from_gcf(gcfs: list[GCF]) -&gt; tuple[list[BGC], StrainCollection]\n</code></pre> <p>Get MIBiG BGCs and strains from GCF objects.</p> <p>Parameters:</p> Name Type Description Default <code>gcfs</code> <code>list[GCF]</code> <p>A list of GCF objects.</p> required <p>Returns:</p> Type Description <code>tuple[list[BGC], StrainCollection]</code> <p>A tuple of two objects,</p> <ul> <li>the first is a list of MIBiG BGC objects used in the GCFs;</li> <li>the second is a StrainCollection object that contains all Strain objects used in the GCFs.</li> </ul> Source code in <code>src/nplinker/genomics/utils.py</code> <pre><code>def get_mibig_from_gcf(gcfs: list[GCF]) -&gt; tuple[list[BGC], StrainCollection]:\n    \"\"\"Get MIBiG BGCs and strains from GCF objects.\n\n    Args:\n        gcfs: A list of GCF objects.\n\n    Returns:\n        A tuple of two objects,\n\n            - the first is a list of MIBiG BGC objects used in the GCFs;\n            - the second is a StrainCollection object that contains all Strain objects used in the\n            GCFs.\n    \"\"\"\n    mibig_bgcs_in_use = []\n    mibig_strains_in_use = StrainCollection()\n    for gcf in gcfs:\n        for bgc in gcf.bgcs:\n            if bgc.is_mibig():\n                mibig_bgcs_in_use.append(bgc)\n                if bgc.strain is not None:\n                    mibig_strains_in_use.add(bgc.strain)\n    return mibig_bgcs_in_use, mibig_strains_in_use\n</code></pre>"},{"location":"api/genomics_utils/#nplinker.genomics.utils.extract_mappings_strain_id_original_genome_id","title":"extract_mappings_strain_id_original_genome_id","text":"<pre><code>extract_mappings_strain_id_original_genome_id(podp_project_json_file: str | PathLike) -&gt; dict[str, set[str]]\n</code></pre> <p>Extract mappings \"strain id &lt;-&gt; original genome id\".</p> <p>Parameters:</p> Name Type Description Default <code>podp_project_json_file</code> <code>str | PathLike</code> <p>The path to the PODP project JSON file.</p> required <p>Returns:</p> Type Description <code>dict[str, set[str]]</code> <p>Key is strain id and value is a set of original genome ids.</p> Notes <p>The <code>podp_project_json_file</code> is the project JSON file downloaded from PODP platform. For example, for project MSV000079284, its json file is https://pairedomicsdata.bioinformatics.nl/api/projects/4b29ddc3-26d0-40d7-80c5-44fb6631dbf9.4.</p> Source code in <code>src/nplinker/genomics/utils.py</code> <pre><code>def extract_mappings_strain_id_original_genome_id(\n    podp_project_json_file: str | PathLike,\n) -&gt; dict[str, set[str]]:\n    \"\"\"Extract mappings \"strain id &lt;-&gt; original genome id\".\n\n    Args:\n        podp_project_json_file: The path to the PODP project\n            JSON file.\n\n    Returns:\n        Key is strain id and value is a set of original genome ids.\n\n    Notes:\n        The `podp_project_json_file` is the project JSON file downloaded from\n        PODP platform. For example, for project MSV000079284, its json file is\n        https://pairedomicsdata.bioinformatics.nl/api/projects/4b29ddc3-26d0-40d7-80c5-44fb6631dbf9.4.\n    \"\"\"\n    mappings_dict: dict[str, set[str]] = {}\n    with open(podp_project_json_file, \"r\") as f:\n        json_data = json.load(f)\n\n    validate_podp_json(json_data)\n\n    for record in json_data[\"genomes\"]:\n        strain_id = record[\"genome_label\"]\n        genome_id = get_best_available_genome_id(record[\"genome_ID\"])\n        if genome_id is None:\n            logger.warning(\"Failed to extract genome ID from genome with label %s\", strain_id)\n            continue\n        if strain_id in mappings_dict:\n            mappings_dict[strain_id].add(genome_id)\n        else:\n            mappings_dict[strain_id] = {genome_id}\n    return mappings_dict\n</code></pre>"},{"location":"api/genomics_utils/#nplinker.genomics.utils.extract_mappings_original_genome_id_resolved_genome_id","title":"extract_mappings_original_genome_id_resolved_genome_id","text":"<pre><code>extract_mappings_original_genome_id_resolved_genome_id(genome_status_json_file: str | PathLike) -&gt; dict[str, str]\n</code></pre> <p>Extract mappings \"original_genome_id &lt;-&gt; resolved_genome_id\".</p> <p>Parameters:</p> Name Type Description Default <code>genome_status_json_file</code> <code>str | PathLike</code> <p>The path to the genome status JSON file.</p> required <p>Returns:</p> Type Description <code>dict[str, str]</code> <p>Key is original genome id and value is resolved genome id.</p> Notes <p>The <code>genome_status_json_file</code> is usually generated by the <code>podp_download_and_extract_antismash_data</code> function with a default file name defined in <code>nplinker.globals.GENOME_STATUS_FILENAME</code>.</p> Source code in <code>src/nplinker/genomics/utils.py</code> <pre><code>def extract_mappings_original_genome_id_resolved_genome_id(\n    genome_status_json_file: str | PathLike,\n) -&gt; dict[str, str]:\n    \"\"\"Extract mappings \"original_genome_id &lt;-&gt; resolved_genome_id\".\n\n    Args:\n        genome_status_json_file: The path to the genome status\n            JSON file.\n\n    Returns:\n        Key is original genome id and value is resolved genome id.\n\n    Notes:\n        The `genome_status_json_file` is usually generated by the\n        `podp_download_and_extract_antismash_data` function with\n        a default file name defined in `nplinker.globals.GENOME_STATUS_FILENAME`.\n    \"\"\"\n    gs_mappings_dict = GenomeStatus.read_json(genome_status_json_file)\n    return {gs.original_id: gs.resolved_refseq_id for gs in gs_mappings_dict.values()}\n</code></pre>"},{"location":"api/genomics_utils/#nplinker.genomics.utils.extract_mappings_resolved_genome_id_bgc_id","title":"extract_mappings_resolved_genome_id_bgc_id","text":"<pre><code>extract_mappings_resolved_genome_id_bgc_id(genome_bgc_mappings_file: str | PathLike) -&gt; dict[str, set[str]]\n</code></pre> <p>Extract mappings \"resolved_genome_id &lt;-&gt; bgc_id\".</p> <p>Parameters:</p> Name Type Description Default <code>genome_bgc_mappings_file</code> <code>str | PathLike</code> <p>The path to the genome BGC mappings JSON file.</p> required <p>Returns:</p> Type Description <code>dict[str, set[str]]</code> <p>Key is resolved genome id and value is a set of BGC ids.</p> Notes <p>The <code>genome_bgc_mappings_file</code> is usually generated by the <code>generate_mappings_genome_id_bgc_id</code> function with a default file name defined in <code>nplinker.globals.GENOME_BGC_MAPPINGS_FILENAME</code>.</p> Source code in <code>src/nplinker/genomics/utils.py</code> <pre><code>def extract_mappings_resolved_genome_id_bgc_id(\n    genome_bgc_mappings_file: str | PathLike,\n) -&gt; dict[str, set[str]]:\n    \"\"\"Extract mappings \"resolved_genome_id &lt;-&gt; bgc_id\".\n\n    Args:\n        genome_bgc_mappings_file: The path to the genome BGC\n            mappings JSON file.\n\n    Returns:\n        Key is resolved genome id and value is a set of BGC ids.\n\n    Notes:\n        The `genome_bgc_mappings_file` is usually generated by the\n        `generate_mappings_genome_id_bgc_id` function with a default file name\n        defined in `nplinker.globals.GENOME_BGC_MAPPINGS_FILENAME`.\n    \"\"\"\n    with open(genome_bgc_mappings_file, \"r\") as f:\n        json_data = json.load(f)\n\n    # validate the JSON data\n    validate(json_data, GENOME_BGC_MAPPINGS_SCHEMA)\n\n    return {mapping[\"genome_ID\"]: set(mapping[\"BGC_ID\"]) for mapping in json_data[\"mappings\"]}\n</code></pre>"},{"location":"api/genomics_utils/#nplinker.genomics.utils.get_mappings_strain_id_bgc_id","title":"get_mappings_strain_id_bgc_id","text":"<pre><code>get_mappings_strain_id_bgc_id(mappings_strain_id_original_genome_id: dict[str, set[str]], mappings_original_genome_id_resolved_genome_id: dict[str, str], mappings_resolved_genome_id_bgc_id: dict[str, set[str]]) -&gt; dict[str, set[str]]\n</code></pre> <p>Get mappings \"strain_id &lt;-&gt; bgc_id\".</p> <p>Parameters:</p> Name Type Description Default <code>mappings_strain_id_original_genome_id</code> <code>dict[str, set[str]]</code> <p>Mappings \"strain_id &lt;-&gt; original_genome_id\".</p> required <code>mappings_original_genome_id_resolved_genome_id</code> <code>dict[str, str]</code> <p>Mappings \"original_genome_id &lt;-&gt; resolved_genome_id\".</p> required <code>mappings_resolved_genome_id_bgc_id</code> <code>dict[str, set[str]]</code> <p>Mappings \"resolved_genome_id &lt;-&gt; bgc_id\".</p> required <p>Returns:</p> Type Description <code>dict[str, set[str]]</code> <p>Key is strain id and value is a set of BGC ids.</p> See Also <ul> <li><code>extract_mappings_strain_id_original_genome_id</code>: Extract mappings     \"strain_id &lt;-&gt; original_genome_id\".</li> <li><code>extract_mappings_original_genome_id_resolved_genome_id</code>: Extract mappings     \"original_genome_id &lt;-&gt; resolved_genome_id\".</li> <li><code>extract_mappings_resolved_genome_id_bgc_id</code>: Extract mappings     \"resolved_genome_id &lt;-&gt; bgc_id\".</li> </ul> Source code in <code>src/nplinker/genomics/utils.py</code> <pre><code>def get_mappings_strain_id_bgc_id(\n    mappings_strain_id_original_genome_id: dict[str, set[str]],\n    mappings_original_genome_id_resolved_genome_id: dict[str, str],\n    mappings_resolved_genome_id_bgc_id: dict[str, set[str]],\n) -&gt; dict[str, set[str]]:\n    \"\"\"Get mappings \"strain_id &lt;-&gt; bgc_id\".\n\n    Args:\n        mappings_strain_id_original_genome_id: Mappings\n            \"strain_id &lt;-&gt; original_genome_id\".\n        mappings_original_genome_id_resolved_genome_id: Mappings\n            \"original_genome_id &lt;-&gt; resolved_genome_id\".\n        mappings_resolved_genome_id_bgc_id: Mappings\n            \"resolved_genome_id &lt;-&gt; bgc_id\".\n\n    Returns:\n        Key is strain id and value is a set of BGC ids.\n\n    See Also:\n        - `extract_mappings_strain_id_original_genome_id`: Extract mappings\n            \"strain_id &lt;-&gt; original_genome_id\".\n        - `extract_mappings_original_genome_id_resolved_genome_id`: Extract mappings\n            \"original_genome_id &lt;-&gt; resolved_genome_id\".\n        - `extract_mappings_resolved_genome_id_bgc_id`: Extract mappings\n            \"resolved_genome_id &lt;-&gt; bgc_id\".\n    \"\"\"\n    mappings_dict = {}\n    for strain_id, original_genome_ids in mappings_strain_id_original_genome_id.items():\n        bgc_ids = set()\n        for original_genome_id in original_genome_ids:\n            resolved_genome_id = mappings_original_genome_id_resolved_genome_id[original_genome_id]\n            if (bgc_id := mappings_resolved_genome_id_bgc_id.get(resolved_genome_id)) is not None:\n                bgc_ids.update(bgc_id)\n        if bgc_ids:\n            mappings_dict[strain_id] = bgc_ids\n    return mappings_dict\n</code></pre>"},{"location":"api/gnps/","title":"GNPS","text":""},{"location":"api/gnps/#nplinker.metabolomics.gnps","title":"gnps","text":""},{"location":"api/gnps/#nplinker.metabolomics.gnps.GNPSFormat","title":"GNPSFormat","text":"<p>             Bases: <code>Enum</code></p> <p>Enum class for GNPS format (workflow).</p> <p>The GNPS format refers to the GNPS workflow. The name of the enum is a simple short name for the workflow, and the value of the enum is the actual name of the workflow in the GNPS website.</p>"},{"location":"api/gnps/#nplinker.metabolomics.gnps.GNPSFormat.SNETS","title":"SNETS  <code>class-attribute</code> <code>instance-attribute</code>","text":"<pre><code>SNETS = 'METABOLOMICS-SNETS'\n</code></pre>"},{"location":"api/gnps/#nplinker.metabolomics.gnps.GNPSFormat.SNETSV2","title":"SNETSV2  <code>class-attribute</code> <code>instance-attribute</code>","text":"<pre><code>SNETSV2 = 'METABOLOMICS-SNETS-V2'\n</code></pre>"},{"location":"api/gnps/#nplinker.metabolomics.gnps.GNPSFormat.FBMN","title":"FBMN  <code>class-attribute</code> <code>instance-attribute</code>","text":"<pre><code>FBMN = 'FEATURE-BASED-MOLECULAR-NETWORKING'\n</code></pre>"},{"location":"api/gnps/#nplinker.metabolomics.gnps.GNPSFormat.Unknown","title":"Unknown  <code>class-attribute</code> <code>instance-attribute</code>","text":"<pre><code>Unknown = 'Unknown-GNPS-Workflow'\n</code></pre>"},{"location":"api/gnps/#nplinker.metabolomics.gnps.GNPSDownloader","title":"GNPSDownloader","text":"<pre><code>GNPSDownloader(task_id: str, download_root: str | PathLike)\n</code></pre> <p>Download GNPS zip archive for the given task id.</p> <p>Note that only GNPS workflows listed in the GNPSFormat enum are supported.</p> <p>Attributes:</p> Name Type Description <code>GNPS_DATA_DOWNLOAD_URL</code> <code>str</code> <p>URL template for downloading GNPS data.</p> <code>GNPS_DATA_DOWNLOAD_URL_FBMN</code> <code>str</code> <p>URL template for downloading GNPS data for FBMN.</p> <p>Parameters:</p> Name Type Description Default <code>task_id</code> <code>str</code> <p>GNPS task id, identifying the data to be downloaded.</p> required <code>download_root</code> <code>str | PathLike</code> <p>Path where to store the downloaded archive.</p> required <p>Raises:</p> Type Description <code>ValueError</code> <p>If the given task id does not correspond to a supported GNPS workflow.</p> <p>Examples:</p> <pre><code>&gt;&gt;&gt; GNPSDownloader(\"c22f44b14a3d450eb836d607cb9521bb\", \"~/downloads\")\n</code></pre> Source code in <code>src/nplinker/metabolomics/gnps/gnps_downloader.py</code> <pre><code>def __init__(self, task_id: str, download_root: str | PathLike):\n    \"\"\"Initialize the GNPSDownloader.\n\n    Args:\n        task_id: GNPS task id, identifying the data to be downloaded.\n        download_root: Path where to store the downloaded archive.\n\n    Raises:\n        ValueError: If the given task id does not correspond to a supported\n            GNPS workflow.\n\n    Examples:\n        &gt;&gt;&gt; GNPSDownloader(\"c22f44b14a3d450eb836d607cb9521bb\", \"~/downloads\")\n    \"\"\"\n    gnps_format = gnps_format_from_task_id(task_id)\n    if gnps_format == GNPSFormat.Unknown:\n        raise ValueError(\n            f\"Unknown workflow type for GNPS task '{task_id}'.\"\n            f\"Supported GNPS workflows are described in the GNPSFormat enum, \"\n            f\"including such as 'METABOLOMICS-SNETS', 'METABOLOMICS-SNETS-V2' \"\n            f\"and 'FEATURE-BASED-MOLECULAR-NETWORKING'.\"\n        )\n\n    self._task_id = task_id\n    self._download_root: Path = Path(download_root)\n    self._gnps_format = gnps_format\n    self._file_name = gnps_format.value + \"-\" + self._task_id + \".zip\"\n</code></pre>"},{"location":"api/gnps/#nplinker.metabolomics.gnps.GNPSDownloader.GNPS_DATA_DOWNLOAD_URL","title":"GNPS_DATA_DOWNLOAD_URL  <code>class-attribute</code> <code>instance-attribute</code>","text":"<pre><code>GNPS_DATA_DOWNLOAD_URL: str = 'https://gnps.ucsd.edu/ProteoSAFe/DownloadResult?task={}&amp;view=download_clustered_spectra'\n</code></pre>"},{"location":"api/gnps/#nplinker.metabolomics.gnps.GNPSDownloader.GNPS_DATA_DOWNLOAD_URL_FBMN","title":"GNPS_DATA_DOWNLOAD_URL_FBMN  <code>class-attribute</code> <code>instance-attribute</code>","text":"<pre><code>GNPS_DATA_DOWNLOAD_URL_FBMN: str = 'https://gnps.ucsd.edu/ProteoSAFe/DownloadResult?task={}&amp;view=download_cytoscape_data'\n</code></pre>"},{"location":"api/gnps/#nplinker.metabolomics.gnps.GNPSDownloader.gnps_format","title":"gnps_format  <code>property</code>","text":"<pre><code>gnps_format: GNPSFormat\n</code></pre> <p>Get the GNPS workflow type.</p> <p>Returns:</p> Type Description <code>GNPSFormat</code> <p>GNPS workflow type.</p>"},{"location":"api/gnps/#nplinker.metabolomics.gnps.GNPSDownloader.download","title":"download","text":"<pre><code>download() -&gt; 'Self'\n</code></pre> <p>Execute the downloading process.</p> <p>Note: GNPS data is downloaded using the POST method (empty payload is OK).</p> Source code in <code>src/nplinker/metabolomics/gnps/gnps_downloader.py</code> <pre><code>def download(self) -&gt; \"Self\":\n    \"\"\"Execute the downloading process.\n\n    Note: GNPS data is downloaded using the POST method (empty payload is OK).\n    \"\"\"\n    download_url(\n        self.get_url(), self._download_root, filename=self._file_name, http_method=\"POST\"\n    )\n    return self\n</code></pre>"},{"location":"api/gnps/#nplinker.metabolomics.gnps.GNPSDownloader.get_download_file","title":"get_download_file","text":"<pre><code>get_download_file() -&gt; str\n</code></pre> <p>Get the path to the zip file.</p> <p>Returns:</p> Type Description <code>str</code> <p>Download path as string</p> Source code in <code>src/nplinker/metabolomics/gnps/gnps_downloader.py</code> <pre><code>def get_download_file(self) -&gt; str:\n    \"\"\"Get the path to the zip file.\n\n    Returns:\n        Download path as string\n    \"\"\"\n    return str(Path(self._download_root) / self._file_name)\n</code></pre>"},{"location":"api/gnps/#nplinker.metabolomics.gnps.GNPSDownloader.get_task_id","title":"get_task_id","text":"<pre><code>get_task_id() -&gt; str\n</code></pre> <p>Get the GNPS task id.</p> <p>Returns:</p> Type Description <code>str</code> <p>Task id as string.</p> Source code in <code>src/nplinker/metabolomics/gnps/gnps_downloader.py</code> <pre><code>def get_task_id(self) -&gt; str:\n    \"\"\"Get the GNPS task id.\n\n    Returns:\n        Task id as string.\n    \"\"\"\n    return self._task_id\n</code></pre>"},{"location":"api/gnps/#nplinker.metabolomics.gnps.GNPSDownloader.get_url","title":"get_url","text":"<pre><code>get_url() -&gt; str\n</code></pre> <p>Get the full URL linking to GNPS data to be dowloaded.</p> <p>Returns:</p> Type Description <code>str</code> <p>URL pointing to the GNPS data to be downloaded.</p> Source code in <code>src/nplinker/metabolomics/gnps/gnps_downloader.py</code> <pre><code>def get_url(self) -&gt; str:\n    \"\"\"Get the full URL linking to GNPS data to be dowloaded.\n\n    Returns:\n        URL pointing to the GNPS data to be downloaded.\n    \"\"\"\n    if self.gnps_format == GNPSFormat.FBMN:\n        return GNPSDownloader.GNPS_DATA_DOWNLOAD_URL_FBMN.format(self._task_id)\n    return GNPSDownloader.GNPS_DATA_DOWNLOAD_URL.format(self._task_id)\n</code></pre>"},{"location":"api/gnps/#nplinker.metabolomics.gnps.GNPSExtractor","title":"GNPSExtractor","text":"<pre><code>GNPSExtractor(file: str | PathLike, extract_dir: str | PathLike)\n</code></pre> <p>Class to extract files from a GNPS molecular networking archive(.zip).</p> <p>Four files are extracted and renamed to the following names:</p> <ul> <li>file_mappings(.tsv/.csv)</li> <li>spectra.mgf</li> <li>molecular_families.tsv</li> <li>annotations.tsv</li> </ul> <p>The files to be extracted are selected based on the GNPS workflow type, as desribed below (in the order of the files above):</p> <ol> <li>METABOLOMICS-SNETS<ul> <li>clusterinfosummarygroup_attributes_withIDs_withcomponentID/*.tsv</li> <li>METABOLOMICS-SNETS*.mgf</li> <li>networkedges_selfloop/*.pairsinfo</li> <li>result_specnets_DB/*.tsv</li> </ul> </li> <li>METABOLOMICS-SNETS-V2<ul> <li>clusterinfosummarygroup_attributes_withIDs_withcomponentID/*.clustersummary</li> <li>METABOLOMICS-SNETS-V2*.mgf</li> <li>networkedges_selfloop/*.selfloop</li> <li>result_specnets_DB/.tsv</li> </ul> </li> <li>FEATURE-BASED-MOLECULAR-NETWORKING<ul> <li>quantification_table/.csv</li> <li>spectra/*.mgf</li> <li>networkedges_selfloop/*.selfloop</li> <li>DB_result/*.tsv</li> </ul> </li> </ol> <p>Parameters:</p> Name Type Description Default <code>file</code> <code>str | PathLike</code> <p>The path to the GNPS zip file.</p> required <code>extract_dir</code> <code>str | PathLike</code> <p>path to the directory where to extract the files to.</p> required <p>Raises:</p> Type Description <code>ValueError</code> <p>If the given file is an invalid GNPS archive.</p> <p>Examples:</p> <pre><code>&gt;&gt;&gt; gnps_extractor = GNPSExtractor(\"path/to/gnps_archive.zip\", \"path/to/extract_dir\")\n&gt;&gt;&gt; gnps_extractor.gnps_format\n&lt;GNPSFormat.SNETS: 'METABOLOMICS-SNETS'&gt;\n&gt;&gt;&gt; gnps_extractor.extract_dir\n'path/to/extract_dir'\n</code></pre> Source code in <code>src/nplinker/metabolomics/gnps/gnps_extractor.py</code> <pre><code>def __init__(self, file: str | PathLike, extract_dir: str | PathLike):\n    \"\"\"Initialize the GNPSExtractor.\n\n    Args:\n        file: The path to the GNPS zip file.\n        extract_dir: path to the directory where to extract the files to.\n\n    Raises:\n        ValueError: If the given file is an invalid GNPS archive.\n\n    Examples:\n        &gt;&gt;&gt; gnps_extractor = GNPSExtractor(\"path/to/gnps_archive.zip\", \"path/to/extract_dir\")\n        &gt;&gt;&gt; gnps_extractor.gnps_format\n        &lt;GNPSFormat.SNETS: 'METABOLOMICS-SNETS'&gt;\n        &gt;&gt;&gt; gnps_extractor.extract_dir\n        'path/to/extract_dir'\n    \"\"\"\n    gnps_format = gnps_format_from_archive(file)\n    if gnps_format == GNPSFormat.Unknown:\n        raise ValueError(\n            f\"Unknown workflow type for GNPS archive '{file}'.\"\n            f\"Supported GNPS workflows are described in the GNPSFormat enum, \"\n            f\"including such as 'METABOLOMICS-SNETS', 'METABOLOMICS-SNETS-V2' \"\n            f\"and 'FEATURE-BASED-MOLECULAR-NETWORKING'.\"\n        )\n\n    self._file = Path(file)\n    self._extract_path = Path(extract_dir)\n    self._gnps_format = gnps_format\n    # the order of filenames matters\n    self._target_files = [\n        \"file_mappings\",\n        \"spectra.mgf\",\n        \"molecular_families.tsv\",\n        \"annotations.tsv\",\n    ]\n\n    self._extract()\n</code></pre>"},{"location":"api/gnps/#nplinker.metabolomics.gnps.GNPSExtractor.gnps_format","title":"gnps_format  <code>property</code>","text":"<pre><code>gnps_format: GNPSFormat\n</code></pre> <p>Get the GNPS workflow type.</p> <p>Returns:</p> Type Description <code>GNPSFormat</code> <p>GNPS workflow type.</p>"},{"location":"api/gnps/#nplinker.metabolomics.gnps.GNPSExtractor.extract_dir","title":"extract_dir  <code>property</code>","text":"<pre><code>extract_dir: str\n</code></pre> <p>Get the path where to extract the files to.</p> <p>Returns:</p> Type Description <code>str</code> <p>Path where to extract files as string.</p>"},{"location":"api/gnps/#nplinker.metabolomics.gnps.GNPSSpectrumLoader","title":"GNPSSpectrumLoader","text":"<pre><code>GNPSSpectrumLoader(file: str | PathLike)\n</code></pre> <p>             Bases: <code>SpectrumLoaderBase</code></p> <p>Class to load mass spectra from the given GNPS MGF file.</p> <p>The file mappings file is from GNPS output archive, as described below for each GNPS workflow type:</p> <ol> <li>METABOLOMICS-SNETS<ul> <li>METABOLOMICS-SNETS*.mgf</li> </ul> </li> <li>METABOLOMICS-SNETS-V2<ul> <li>METABOLOMICS-SNETS-V2*.mgf</li> </ul> </li> <li>FEATURE-BASED-MOLECULAR-NETWORKING<ul> <li>spectra/*.mgf</li> </ul> </li> </ol> <p>Parameters:</p> Name Type Description Default <code>file</code> <code>str | PathLike</code> <p>path to the MGF file.</p> required <p>Raises:</p> Type Description <code>ValueError</code> <p>Raises ValueError if the file is not valid.</p> <p>Examples:</p> <pre><code>&gt;&gt;&gt; loader = GNPSSpectrumLoader(\"gnps_spectra.mgf\")\n&gt;&gt;&gt; print(loader.spectra[0])\n</code></pre> Source code in <code>src/nplinker/metabolomics/gnps/gnps_spectrum_loader.py</code> <pre><code>def __init__(self, file: str | PathLike):\n    \"\"\"Initialize the GNPSSpectrumLoader.\n\n    Args:\n        file: path to the MGF file.\n\n    Raises:\n        ValueError: Raises ValueError if the file is not valid.\n\n    Examples:\n        &gt;&gt;&gt; loader = GNPSSpectrumLoader(\"gnps_spectra.mgf\")\n        &gt;&gt;&gt; print(loader.spectra[0])\n    \"\"\"\n    self._file = str(file)\n    self._spectra: list[Spectrum] = []\n\n    self._validate()\n    self._load()\n</code></pre>"},{"location":"api/gnps/#nplinker.metabolomics.gnps.GNPSSpectrumLoader.spectra","title":"spectra  <code>property</code>","text":"<pre><code>spectra: list[Spectrum]\n</code></pre> <p>Get the list of Spectrum objects.</p> <p>Returns:</p> Type Description <code>list[Spectrum]</code> <p>list[Spectrum]: the loaded spectra as a list of <code>Spectrum</code> objects.</p>"},{"location":"api/gnps/#nplinker.metabolomics.gnps.GNPSMolecularFamilyLoader","title":"GNPSMolecularFamilyLoader","text":"<pre><code>GNPSMolecularFamilyLoader(file: str | PathLike)\n</code></pre> <p>             Bases: <code>MolecularFamilyLoaderBase</code></p> <p>Class to load molecular families from GNPS output file.</p> <p>The molecular family file is from GNPS output archive, as described below for each GNPS workflow type:</p> <ol> <li>METABOLOMICS-SNETS<ul> <li>networkedges_selfloop/*.pairsinfo</li> </ul> </li> <li>METABOLOMICS-SNETS-V2<ul> <li>networkedges_selfloop/*.selfloop</li> </ul> </li> <li>FEATURE-BASED-MOLECULAR-NETWORKING<ul> <li>networkedges_selfloop/*.selfloop</li> </ul> </li> </ol> <p>The \"ComponentIndex\" column in the GNPS molecular family's file is treated as family id. But for molecular families that have only one member (i.e. spectrum), named singleton molecular families, their files have the same value of \"-1\" in the \"ComponentIndex\" column. To make the family id unique,the spectrum id plus a prefix <code>singleton-</code> is used as the family id of singleton molecular families.</p> <p>Parameters:</p> Name Type Description Default <code>file</code> <code>str | PathLike</code> <p>Path to the GNPS molecular family file.</p> required <p>Raises:</p> Type Description <code>ValueError</code> <p>Raises ValueError if the file is not valid.</p> <p>Examples:</p> <pre><code>&gt;&gt;&gt; loader = GNPSMolecularFamilyLoader(\"gnps_molecular_families.tsv\")\n&gt;&gt;&gt; print(loader.families)\n[&lt;MolecularFamily 1&gt;, &lt;MolecularFamily 2&gt;, ...]\n&gt;&gt;&gt; print(loader.families[0].spectra_ids)\n{'1', '3', '7', ...}\n</code></pre> Source code in <code>src/nplinker/metabolomics/gnps/gnps_molecular_family_loader.py</code> <pre><code>def __init__(self, file: str | PathLike):\n    \"\"\"Initialize the GNPSMolecularFamilyLoader.\n\n    Args:\n        file: Path to the GNPS molecular family file.\n\n    Raises:\n        ValueError: Raises ValueError if the file is not valid.\n\n    Examples:\n        &gt;&gt;&gt; loader = GNPSMolecularFamilyLoader(\"gnps_molecular_families.tsv\")\n        &gt;&gt;&gt; print(loader.families)\n        [&lt;MolecularFamily 1&gt;, &lt;MolecularFamily 2&gt;, ...]\n        &gt;&gt;&gt; print(loader.families[0].spectra_ids)\n        {'1', '3', '7', ...}\n    \"\"\"\n    self._mfs: list[MolecularFamily] = []\n    self._file = file\n\n    self._validate()\n    self._load()\n</code></pre>"},{"location":"api/gnps/#nplinker.metabolomics.gnps.GNPSMolecularFamilyLoader.get_mfs","title":"get_mfs","text":"<pre><code>get_mfs(keep_singleton: bool = False) -&gt; list[MolecularFamily]\n</code></pre> <p>Get MolecularFamily objects.</p> <p>Parameters:</p> Name Type Description Default <code>keep_singleton</code> <code>bool</code> <p>True to keep singleton molecular families. A singleton molecular family is a molecular family that contains only one spectrum.</p> <code>False</code> <p>Returns:</p> Type Description <code>list[MolecularFamily]</code> <p>A list of MolecularFamily objects with their spectra ids.</p> Source code in <code>src/nplinker/metabolomics/gnps/gnps_molecular_family_loader.py</code> <pre><code>def get_mfs(self, keep_singleton: bool = False) -&gt; list[MolecularFamily]:\n    \"\"\"Get MolecularFamily objects.\n\n    Args:\n        keep_singleton: True to keep singleton molecular families. A\n            singleton molecular family is a molecular family that contains\n            only one spectrum.\n\n    Returns:\n        A list of MolecularFamily objects with their spectra ids.\n    \"\"\"\n    mfs = self._mfs\n    if not keep_singleton:\n        mfs = [mf for mf in mfs if not mf.is_singleton()]\n    return mfs\n</code></pre>"},{"location":"api/gnps/#nplinker.metabolomics.gnps.GNPSAnnotationLoader","title":"GNPSAnnotationLoader","text":"<pre><code>GNPSAnnotationLoader(file: str | PathLike)\n</code></pre> <p>             Bases: <code>AnnotationLoaderBase</code></p> <p>Load annotations from GNPS output file.</p> <p>The annotation file is a .tsv file from GNPS output archive, as described below for each GNPS workflow type:</p> <ol> <li>METABOLOMICS-SNETS<ul> <li>result_specnets_DB/*.tsv</li> </ul> </li> <li>METABOLOMICS-SNETS-V2<ul> <li>result_specnets_DB/.tsv</li> </ul> </li> <li>FEATURE-BASED-MOLECULAR-NETWORKING<ul> <li>DB_result/*.tsv</li> </ul> </li> </ol> <p>Parameters:</p> Name Type Description Default <code>file</code> <code>str | PathLike</code> <p>The GNPS annotation file.</p> required <p>Examples:</p> <pre><code>&gt;&gt;&gt; loader = GNPSAnnotationLoader(\"gnps_annotations.tsv\")\n&gt;&gt;&gt; print(loader.annotations[\"100\"])\n{'#Scan#': '100',\n'Adduct': 'M+H',\n'CAS_Number': 'N/A',\n'Charge': '1',\n'Compound_Name': 'MLS002153841-01!Iobenguane sulfate',\n'Compound_Source': 'NIH Pharmacologically Active Library',\n'Data_Collector': 'VP/LMS',\n'ExactMass': '274.992',\n'INCHI': 'N/A',\n'INCHI_AUX': 'N/A',\n'Instrument': 'qTof',\n'IonMode': 'Positive',\n'Ion_Source': 'LC-ESI',\n'LibMZ': '276.003',\n'LibraryName': 'lib-00014.mgf',\n'LibraryQualityString': 'Gold',\n'Library_Class': '1',\n'MQScore': '0.704152',\n'MZErrorPPM': '405416',\n'MassDiff': '111.896',\n'Organism': 'GNPS-NIH-SMALLMOLECULEPHARMACOLOGICALLYACTIVE',\n'PI': 'Dorrestein',\n'Precursor_MZ': '276.003',\n'Pubmed_ID': 'N/A',\n'RT_Query': '795.979',\n'SharedPeaks': '7',\n'Smiles': 'NC(=N)NCc1cccc(I)c1.OS(=O)(=O)O',\n'SpecCharge': '1',\n'SpecMZ': '164.107',\n'SpectrumFile': 'spectra/specs_ms.pklbin',\n'SpectrumID': 'CCMSLIB00000086167',\n'TIC_Query': '986.997',\n'UpdateWorkflowName': 'UPDATE-SINGLE-ANNOTATED-GOLD',\n'tags': ' ',\n'png_url': 'https://metabolomics-usi.gnps2.org/png/?usi1=mzspec:GNPS:GNPS-LIBRARY:accession:CCMSLIB00000086167',\n'json_url': 'https://metabolomics-usi.gnps2.org/json/?usi1=mzspec:GNPS:GNPS-LIBRARY:accession:CCMSLIB00000086167',\n'svg_url': 'https://metabolomics-usi.gnps2.org/svg/?usi1=mzspec:GNPS:GNPS-LIBRARY:accession:CCMSLIB00000086167',\n'spectrum_url': 'https://metabolomics-usi.gnps2.org/spectrum/?usi1=mzspec:GNPS:GNPS-LIBRARY:accession:CCMSLIB00000086167'}\n</code></pre> Source code in <code>src/nplinker/metabolomics/gnps/gnps_annotation_loader.py</code> <pre><code>def __init__(self, file: str | PathLike):\n    \"\"\"Initialize the GNPSAnnotationLoader.\n\n    Args:\n        file: The GNPS annotation file.\n\n    Examples:\n        &gt;&gt;&gt; loader = GNPSAnnotationLoader(\"gnps_annotations.tsv\")\n        &gt;&gt;&gt; print(loader.annotations[\"100\"])\n        {'#Scan#': '100',\n        'Adduct': 'M+H',\n        'CAS_Number': 'N/A',\n        'Charge': '1',\n        'Compound_Name': 'MLS002153841-01!Iobenguane sulfate',\n        'Compound_Source': 'NIH Pharmacologically Active Library',\n        'Data_Collector': 'VP/LMS',\n        'ExactMass': '274.992',\n        'INCHI': 'N/A',\n        'INCHI_AUX': 'N/A',\n        'Instrument': 'qTof',\n        'IonMode': 'Positive',\n        'Ion_Source': 'LC-ESI',\n        'LibMZ': '276.003',\n        'LibraryName': 'lib-00014.mgf',\n        'LibraryQualityString': 'Gold',\n        'Library_Class': '1',\n        'MQScore': '0.704152',\n        'MZErrorPPM': '405416',\n        'MassDiff': '111.896',\n        'Organism': 'GNPS-NIH-SMALLMOLECULEPHARMACOLOGICALLYACTIVE',\n        'PI': 'Dorrestein',\n        'Precursor_MZ': '276.003',\n        'Pubmed_ID': 'N/A',\n        'RT_Query': '795.979',\n        'SharedPeaks': '7',\n        'Smiles': 'NC(=N)NCc1cccc(I)c1.OS(=O)(=O)O',\n        'SpecCharge': '1',\n        'SpecMZ': '164.107',\n        'SpectrumFile': 'spectra/specs_ms.pklbin',\n        'SpectrumID': 'CCMSLIB00000086167',\n        'TIC_Query': '986.997',\n        'UpdateWorkflowName': 'UPDATE-SINGLE-ANNOTATED-GOLD',\n        'tags': ' ',\n        'png_url': 'https://metabolomics-usi.gnps2.org/png/?usi1=mzspec:GNPS:GNPS-LIBRARY:accession:CCMSLIB00000086167',\n        'json_url': 'https://metabolomics-usi.gnps2.org/json/?usi1=mzspec:GNPS:GNPS-LIBRARY:accession:CCMSLIB00000086167',\n        'svg_url': 'https://metabolomics-usi.gnps2.org/svg/?usi1=mzspec:GNPS:GNPS-LIBRARY:accession:CCMSLIB00000086167',\n        'spectrum_url': 'https://metabolomics-usi.gnps2.org/spectrum/?usi1=mzspec:GNPS:GNPS-LIBRARY:accession:CCMSLIB00000086167'}\n    \"\"\"\n    self._file = Path(file)\n    self._annotations: dict[str, dict] = {}\n\n    self._validate()\n    self._load()\n</code></pre>"},{"location":"api/gnps/#nplinker.metabolomics.gnps.GNPSAnnotationLoader.annotations","title":"annotations  <code>property</code>","text":"<pre><code>annotations: dict[str, dict]\n</code></pre> <p>Get annotations.</p> <p>Returns:</p> Type Description <code>dict[str, dict]</code> <p>Keys are spectrum ids (\"#Scan#\" in annotation file) and values are the annotations dict</p> <code>dict[str, dict]</code> <p>for each spectrum.</p>"},{"location":"api/gnps/#nplinker.metabolomics.gnps.GNPSFileMappingLoader","title":"GNPSFileMappingLoader","text":"<pre><code>GNPSFileMappingLoader(file: str | PathLike)\n</code></pre> <p>             Bases: <code>FileMappingLoaderBase</code></p> <p>Class to load file mappings from GNPS output file.</p> <p>File mappings refers to the mapping from spectrum id to files in which this spectrum occurs.</p> <p>The file mappings file is from GNPS output archive, as described below for each GNPS workflow type:</p> <ol> <li>METABOLOMICS-SNETS<ul> <li>clusterinfosummarygroup_attributes_withIDs_withcomponentID/*.tsv</li> </ul> </li> <li>METABOLOMICS-SNETS-V2<ul> <li>clusterinfosummarygroup_attributes_withIDs_withcomponentID/*.clustersummary</li> </ul> </li> <li>FEATURE-BASED-MOLECULAR-NETWORKING<ul> <li>quantification_table/.csv</li> </ul> </li> </ol> <p>Parameters:</p> Name Type Description Default <code>file</code> <code>str | PathLike</code> <p>Path to the GNPS file mappings file.</p> required <p>Raises:</p> Type Description <code>ValueError</code> <p>Raises ValueError if the file is not valid.</p> <p>Examples:</p> <pre><code>&gt;&gt;&gt; loader = GNPSFileMappingLoader(\"gnps_file_mappings.tsv\")\n&gt;&gt;&gt; print(loader.mappings[\"1\"])\n['26c.mzXML']\n&gt;&gt;&gt; print(loader.mapping_reversed[\"26c.mzXML\"])\n{'1', '3', '7', ...}\n</code></pre> Source code in <code>src/nplinker/metabolomics/gnps/gnps_file_mapping_loader.py</code> <pre><code>def __init__(self, file: str | PathLike):\n    \"\"\"Initialize the GNPSFileMappingLoader.\n\n    Args:\n        file: Path to the GNPS file mappings file.\n\n    Raises:\n        ValueError: Raises ValueError if the file is not valid.\n\n    Examples:\n        &gt;&gt;&gt; loader = GNPSFileMappingLoader(\"gnps_file_mappings.tsv\")\n        &gt;&gt;&gt; print(loader.mappings[\"1\"])\n        ['26c.mzXML']\n        &gt;&gt;&gt; print(loader.mapping_reversed[\"26c.mzXML\"])\n        {'1', '3', '7', ...}\n    \"\"\"\n    self._gnps_format = gnps_format_from_file_mapping(file)\n    if self._gnps_format is GNPSFormat.Unknown:\n        raise ValueError(\"Unknown workflow type for GNPS file mappings file \")\n\n    self._file = Path(file)\n    self._mapping: dict[str, list[str]] = {}\n\n    self._validate()\n    self._load()\n</code></pre>"},{"location":"api/gnps/#nplinker.metabolomics.gnps.GNPSFileMappingLoader.mappings","title":"mappings  <code>property</code>","text":"<pre><code>mappings: dict[str, list[str]]\n</code></pre> <p>Return mapping from spectrum id to files in which this spectrum occurs.</p> <p>Returns:</p> Type Description <code>dict[str, list[str]]</code> <p>Mapping from spectrum id to names of all files in which this spectrum occurs.</p>"},{"location":"api/gnps/#nplinker.metabolomics.gnps.GNPSFileMappingLoader.mapping_reversed","title":"mapping_reversed  <code>property</code>","text":"<pre><code>mapping_reversed: dict[str, set[str]]\n</code></pre> <p>Return mapping from file name to all spectra that occur in this file.</p> <p>Returns:</p> Type Description <code>dict[str, set[str]]</code> <p>Mapping from file name to all spectra ids that occur in this file.</p>"},{"location":"api/gnps/#nplinker.metabolomics.gnps.gnps_format_from_archive","title":"gnps_format_from_archive","text":"<pre><code>gnps_format_from_archive(zip_file: str | PathLike) -&gt; GNPSFormat\n</code></pre> <p>Detect GNPS format from a downloaded GNPS zip archive.</p> <p>The detection is based on the filename of the zip file and the names of the files contained in the zip file.</p> <p>Parameters:</p> Name Type Description Default <code>zip_file</code> <code>str | PathLike</code> <p>Path to the downloaded GNPS zip file.</p> required <p>Returns:</p> Type Description <code>GNPSFormat</code> <p>The format identified in the GNPS zip file.</p> <p>Examples:</p> <pre><code>&gt;&gt;&gt; gnps_format_from_archive(\"downloads/ProteoSAFe-METABOLOMICS-SNETS-c22f44b1-download_clustered_spectra.zip\") == GNPSFormat.SNETS\n&gt;&gt;&gt; gnps_format_from_archive(\"downloads/ProteoSAFe-METABOLOMICS-SNETS-V2-189e8bf1-download_clustered_spectra.zip\") == GNPSFormat.SNETSV2\n&gt;&gt;&gt; gnps_format_from_archive(\"downloads/ProteoSAFe-FEATURE-BASED-MOLECULAR-NETWORKING-672d0a53-download_cytoscape_data.zip\") == GNPSFormat.FBMN\n</code></pre> Source code in <code>src/nplinker/metabolomics/gnps/gnps_format.py</code> <pre><code>def gnps_format_from_archive(zip_file: str | PathLike) -&gt; GNPSFormat:\n    \"\"\"Detect GNPS format from a downloaded GNPS zip archive.\n\n    The detection is based on the filename of the zip file and the names of the\n    files contained in the zip file.\n\n    Args:\n        zip_file: Path to the downloaded GNPS zip file.\n\n    Returns:\n        The format identified in the GNPS zip file.\n\n    Examples:\n        &gt;&gt;&gt; gnps_format_from_archive(\"downloads/ProteoSAFe-METABOLOMICS-SNETS-c22f44b1-download_clustered_spectra.zip\") == GNPSFormat.SNETS\n        &gt;&gt;&gt; gnps_format_from_archive(\"downloads/ProteoSAFe-METABOLOMICS-SNETS-V2-189e8bf1-download_clustered_spectra.zip\") == GNPSFormat.SNETSV2\n        &gt;&gt;&gt; gnps_format_from_archive(\"downloads/ProteoSAFe-FEATURE-BASED-MOLECULAR-NETWORKING-672d0a53-download_cytoscape_data.zip\") == GNPSFormat.FBMN\n    \"\"\"\n    file = Path(zip_file)\n    # Guess the format from the filename of the zip file\n    if GNPSFormat.FBMN.value in file.name:\n        return GNPSFormat.FBMN\n    # the order of the if statements matters for the following two\n    if GNPSFormat.SNETSV2.value in file.name:\n        return GNPSFormat.SNETSV2\n    if GNPSFormat.SNETS.value in file.name:\n        return GNPSFormat.SNETS\n\n    # Guess the format from the names of the files in the zip file\n    with zipfile.ZipFile(file) as archive:\n        filenames = archive.namelist()\n    if any(GNPSFormat.FBMN.value in x for x in filenames):\n        return GNPSFormat.FBMN\n    # the order of the if statements matters for the following two\n    if any(GNPSFormat.SNETSV2.value in x for x in filenames):\n        return GNPSFormat.SNETSV2\n    if any(GNPSFormat.SNETS.value in x for x in filenames):\n        return GNPSFormat.SNETS\n\n    return GNPSFormat.Unknown\n</code></pre>"},{"location":"api/gnps/#nplinker.metabolomics.gnps.gnps_format_from_file_mapping","title":"gnps_format_from_file_mapping","text":"<pre><code>gnps_format_from_file_mapping(file: str | PathLike) -&gt; GNPSFormat\n</code></pre> <p>Detect GNPS format from the given file mapping file.</p> <p>The GNSP file mapping file is located in different folders depending on the GNPS workflow. Here are the locations in corresponding GNPS zip archives:</p> <ul> <li>METABOLOMICS-SNETS workflow: the .tsv file under folder \"clusterinfosummarygroup_attributes_withIDs_withcomponentID\"</li> <li>METABOLOMICS-SNETS-V2 workflow: the .clustersummary file (tsv) under folder \"clusterinfosummarygroup_attributes_withIDs_withcomponentID\"</li> <li>FEATURE-BASED-MOLECULAR-NETWORKING workflow: the .csv file under folder \"quantification_table\"</li> </ul> <p>Parameters:</p> Name Type Description Default <code>file</code> <code>str | PathLike</code> <p>Path to the file to peek the format for.</p> required <p>Returns:</p> Type Description <code>GNPSFormat</code> <p>GNPS format identified in the file.</p> Source code in <code>src/nplinker/metabolomics/gnps/gnps_format.py</code> <pre><code>def gnps_format_from_file_mapping(file: str | PathLike) -&gt; GNPSFormat:\n    \"\"\"Detect GNPS format from the given file mapping file.\n\n    The GNSP file mapping file is located in different folders depending on the\n    GNPS workflow. Here are the locations in corresponding GNPS zip archives:\n\n    - METABOLOMICS-SNETS workflow: the .tsv file under folder \"clusterinfosummarygroup_attributes_withIDs_withcomponentID\"\n    - METABOLOMICS-SNETS-V2 workflow: the .clustersummary file (tsv) under folder \"clusterinfosummarygroup_attributes_withIDs_withcomponentID\"\n    - FEATURE-BASED-MOLECULAR-NETWORKING workflow: the .csv file under folder \"quantification_table\"\n\n    Args:\n        file: Path to the file to peek the format for.\n\n    Returns:\n        GNPS format identified in the file.\n    \"\"\"\n    headers = get_headers(file)\n    if \"AllFiles\" in headers:\n        return GNPSFormat.SNETS\n    if \"UniqueFileSources\" in headers:\n        return GNPSFormat.SNETSV2\n    if \"row ID\" in headers:\n        return GNPSFormat.FBMN\n    return GNPSFormat.Unknown\n</code></pre>"},{"location":"api/gnps/#nplinker.metabolomics.gnps.gnps_format_from_task_id","title":"gnps_format_from_task_id","text":"<pre><code>gnps_format_from_task_id(task_id: str) -&gt; GNPSFormat\n</code></pre> <p>Detect GNPS format for the given task id.</p> <p>Parameters:</p> Name Type Description Default <code>task_id</code> <code>str</code> <p>GNPS task id.</p> required <p>Returns:</p> Type Description <code>GNPSFormat</code> <p>The format identified in the GNPS task.</p> <p>Examples:</p> <pre><code>&gt;&gt;&gt; gnps_format_from_task_id(\"c22f44b14a3d450eb836d607cb9521bb\") == GNPSFormat.SNETS\n&gt;&gt;&gt; gnps_format_from_task_id(\"189e8bf16af145758b0a900f1c44ff4a\") == GNPSFormat.SNETSV2\n&gt;&gt;&gt; gnps_format_from_task_id(\"92036537c21b44c29e509291e53f6382\") == GNPSFormat.FBMN\n&gt;&gt;&gt; gnps_format_from_task_id(\"0ad6535e34d449788f297e712f43068a\") == GNPSFormat.Unknown\n</code></pre> Source code in <code>src/nplinker/metabolomics/gnps/gnps_format.py</code> <pre><code>def gnps_format_from_task_id(task_id: str) -&gt; GNPSFormat:\n    \"\"\"Detect GNPS format for the given task id.\n\n    Args:\n        task_id: GNPS task id.\n\n    Returns:\n        The format identified in the GNPS task.\n\n    Examples:\n        &gt;&gt;&gt; gnps_format_from_task_id(\"c22f44b14a3d450eb836d607cb9521bb\") == GNPSFormat.SNETS\n        &gt;&gt;&gt; gnps_format_from_task_id(\"189e8bf16af145758b0a900f1c44ff4a\") == GNPSFormat.SNETSV2\n        &gt;&gt;&gt; gnps_format_from_task_id(\"92036537c21b44c29e509291e53f6382\") == GNPSFormat.FBMN\n        &gt;&gt;&gt; gnps_format_from_task_id(\"0ad6535e34d449788f297e712f43068a\") == GNPSFormat.Unknown\n    \"\"\"\n    task_html = httpx.get(GNPS_TASK_URL.format(task_id))\n    soup = BeautifulSoup(task_html.text, features=\"html.parser\")\n    try:\n        # find the td tag that follows the th tag containing 'Workflow'\n        workflow_tag = soup.find(\"th\", string=\"Workflow\").find_next_sibling(\"td\")  # type: ignore\n        workflow_format = workflow_tag.contents[0].strip()  # type: ignore\n    except AttributeError:\n        return GNPSFormat.Unknown\n\n    if workflow_format == GNPSFormat.FBMN.value:\n        return GNPSFormat.FBMN\n    if workflow_format == GNPSFormat.SNETSV2.value:\n        return GNPSFormat.SNETSV2\n    if workflow_format == GNPSFormat.SNETS.value:\n        return GNPSFormat.SNETS\n    return GNPSFormat.Unknown\n</code></pre>"},{"location":"api/loader/","title":"Dataset Loader","text":""},{"location":"api/loader/#nplinker.loader","title":"loader","text":""},{"location":"api/loader/#nplinker.loader.logger","title":"logger  <code>module-attribute</code>","text":"<pre><code>logger = getLogger(__name__)\n</code></pre>"},{"location":"api/loader/#nplinker.loader.NPLINKER_APP_DATA_DIR","title":"NPLINKER_APP_DATA_DIR  <code>module-attribute</code>","text":"<pre><code>NPLINKER_APP_DATA_DIR = joinpath('data')\n</code></pre>"},{"location":"api/loader/#nplinker.loader.DatasetLoader","title":"DatasetLoader","text":"<pre><code>DatasetLoader()\n</code></pre> <p>Class to load all data.</p> Source code in <code>src/nplinker/loader.py</code> <pre><code>def __init__(self):\n    # set public attributes\n    self.bgcs, self.gcfs, self.spectra, self.molfams = [], [], [], []\n    self.mibig_bgcs = []\n    self.mibig_strains_in_use = StrainCollection()\n    self.product_types = []\n    self.strains = StrainCollection()\n\n    self.class_matches = None\n    self.chem_classes = None\n</code></pre>"},{"location":"api/loader/#nplinker.loader.DatasetLoader.RUN_CANOPUS_DEFAULT","title":"RUN_CANOPUS_DEFAULT  <code>class-attribute</code> <code>instance-attribute</code>","text":"<pre><code>RUN_CANOPUS_DEFAULT = False\n</code></pre>"},{"location":"api/loader/#nplinker.loader.DatasetLoader.EXTRA_CANOPUS_PARAMS_DEFAULT","title":"EXTRA_CANOPUS_PARAMS_DEFAULT  <code>class-attribute</code> <code>instance-attribute</code>","text":"<pre><code>EXTRA_CANOPUS_PARAMS_DEFAULT = '--maxmz 600 formula zodiac structure canopus'\n</code></pre>"},{"location":"api/loader/#nplinker.loader.DatasetLoader.OR_CANOPUS","title":"OR_CANOPUS  <code>class-attribute</code> <code>instance-attribute</code>","text":"<pre><code>OR_CANOPUS = 'canopus_dir'\n</code></pre>"},{"location":"api/loader/#nplinker.loader.DatasetLoader.OR_MOLNETENHANCER","title":"OR_MOLNETENHANCER  <code>class-attribute</code> <code>instance-attribute</code>","text":"<pre><code>OR_MOLNETENHANCER = 'molnetenhancer_dir'\n</code></pre>"},{"location":"api/loader/#nplinker.loader.DatasetLoader.mibig_bgcs","title":"mibig_bgcs  <code>instance-attribute</code>","text":"<pre><code>mibig_bgcs = []\n</code></pre>"},{"location":"api/loader/#nplinker.loader.DatasetLoader.mibig_strains_in_use","title":"mibig_strains_in_use  <code>instance-attribute</code>","text":"<pre><code>mibig_strains_in_use = StrainCollection()\n</code></pre>"},{"location":"api/loader/#nplinker.loader.DatasetLoader.product_types","title":"product_types  <code>instance-attribute</code>","text":"<pre><code>product_types = []\n</code></pre>"},{"location":"api/loader/#nplinker.loader.DatasetLoader.strains","title":"strains  <code>instance-attribute</code>","text":"<pre><code>strains = StrainCollection()\n</code></pre>"},{"location":"api/loader/#nplinker.loader.DatasetLoader.class_matches","title":"class_matches  <code>instance-attribute</code>","text":"<pre><code>class_matches = None\n</code></pre>"},{"location":"api/loader/#nplinker.loader.DatasetLoader.chem_classes","title":"chem_classes  <code>instance-attribute</code>","text":"<pre><code>chem_classes = None\n</code></pre>"},{"location":"api/loader/#nplinker.loader.DatasetLoader.load","title":"load","text":"<pre><code>load()\n</code></pre> <p>Load all data.</p> Source code in <code>src/nplinker/loader.py</code> <pre><code>def load(self):\n    \"\"\"Load all data.\"\"\"\n    if not self._load_strain_mappings():\n        return False\n\n    if not self._load_metabolomics():\n        return False\n\n    if not self._load_genomics():\n        return False\n\n    # set self.strains with all strains from input plus mibig strains in use\n    self.strains = self.strains + self.mibig_strains_in_use\n\n    if len(self.strains) == 0:\n        raise Exception(\"Failed to find *ANY* strains.\")\n\n    return True\n</code></pre>"},{"location":"api/metabolomics/","title":"Data Models","text":""},{"location":"api/metabolomics/#nplinker.metabolomics","title":"metabolomics","text":""},{"location":"api/metabolomics/#nplinker.metabolomics.MolecularFamily","title":"MolecularFamily","text":"<pre><code>MolecularFamily(family_id: str)\n</code></pre> <p>Class to model molecular family.</p> <p>Attributes:</p> Name Type Description <code>family_id</code> <code>str</code> <p>Unique id for the molecular family.</p> <code>spectra_ids</code> <code>set[str]</code> <p>Set of spectrum ids in the molecular family.</p> <p>Parameters:</p> Name Type Description Default <code>family_id</code> <code>str</code> <p>Unique id for the molecular family.</p> required Source code in <code>src/nplinker/metabolomics/molecular_family.py</code> <pre><code>def __init__(self, family_id: str):\n    \"\"\"Initialize the MolecularFamily.\n\n    Args:\n        family_id: Unique id for the molecular family.\n    \"\"\"\n    self.family_id: str = family_id\n    self.spectra_ids: set[str] = set()\n    self._spectra: set[Spectrum] = set()\n    self._strains: StrainCollection = StrainCollection()\n</code></pre>"},{"location":"api/metabolomics/#nplinker.metabolomics.MolecularFamily.family_id","title":"family_id  <code>instance-attribute</code>","text":"<pre><code>family_id: str = family_id\n</code></pre>"},{"location":"api/metabolomics/#nplinker.metabolomics.MolecularFamily.spectra_ids","title":"spectra_ids  <code>instance-attribute</code>","text":"<pre><code>spectra_ids: set[str] = set()\n</code></pre>"},{"location":"api/metabolomics/#nplinker.metabolomics.MolecularFamily.spectra","title":"spectra  <code>property</code>","text":"<pre><code>spectra: set[Spectrum]\n</code></pre> <p>Get Spectrum objects in the molecular family.</p>"},{"location":"api/metabolomics/#nplinker.metabolomics.MolecularFamily.strains","title":"strains  <code>property</code>","text":"<pre><code>strains: StrainCollection\n</code></pre> <p>Get strains in the molecular family.</p>"},{"location":"api/metabolomics/#nplinker.metabolomics.MolecularFamily.add_spectrum","title":"add_spectrum","text":"<pre><code>add_spectrum(spectrum: Spectrum) -&gt; None\n</code></pre> <p>Add a Spectrum object to the molecular family.</p> <p>Parameters:</p> Name Type Description Default <code>spectrum</code> <code>Spectrum</code> <p><code>Spectrum</code> object to add to the molecular family.</p> required Source code in <code>src/nplinker/metabolomics/molecular_family.py</code> <pre><code>def add_spectrum(self, spectrum: Spectrum) -&gt; None:\n    \"\"\"Add a Spectrum object to the molecular family.\n\n    Args:\n        spectrum: `Spectrum` object to add to the molecular family.\n    \"\"\"\n    self._spectra.add(spectrum)\n    self.spectra_ids.add(spectrum.spectrum_id)\n    self._strains = self._strains + spectrum.strains\n    # add the molecular family to the spectrum\n    spectrum.family = self\n</code></pre>"},{"location":"api/metabolomics/#nplinker.metabolomics.MolecularFamily.detach_spectrum","title":"detach_spectrum","text":"<pre><code>detach_spectrum(spectrum: Spectrum) -&gt; None\n</code></pre> <p>Remove a Spectrum object from the molecular family.</p> <p>Parameters:</p> Name Type Description Default <code>spectrum</code> <code>Spectrum</code> <p><code>Spectrum</code> object to remove from the molecular family.</p> required Source code in <code>src/nplinker/metabolomics/molecular_family.py</code> <pre><code>def detach_spectrum(self, spectrum: Spectrum) -&gt; None:\n    \"\"\"Remove a Spectrum object from the molecular family.\n\n    Args:\n        spectrum: `Spectrum` object to remove from the molecular family.\n    \"\"\"\n    self._spectra.remove(spectrum)\n    self.spectra_ids.remove(spectrum.spectrum_id)\n    self._strains = self._update_strains()\n    # remove the molecular family from the spectrum\n    spectrum.family = None\n</code></pre>"},{"location":"api/metabolomics/#nplinker.metabolomics.MolecularFamily.has_strain","title":"has_strain","text":"<pre><code>has_strain(strain: Strain) -&gt; bool\n</code></pre> <p>Check if the given strain exists.</p> <p>Parameters:</p> Name Type Description Default <code>strain</code> <code>Strain</code> <p><code>Strain</code> object.</p> required <p>Returns:</p> Type Description <code>bool</code> <p>True when the given strain exists.</p> Source code in <code>src/nplinker/metabolomics/molecular_family.py</code> <pre><code>def has_strain(self, strain: Strain) -&gt; bool:\n    \"\"\"Check if the given strain exists.\n\n    Args:\n        strain: `Strain` object.\n\n    Returns:\n        True when the given strain exists.\n    \"\"\"\n    return strain in self._strains\n</code></pre>"},{"location":"api/metabolomics/#nplinker.metabolomics.MolecularFamily.is_singleton","title":"is_singleton","text":"<pre><code>is_singleton() -&gt; bool\n</code></pre> <p>Check if the molecular family contains only one spectrum.</p> <p>Returns:</p> Type Description <code>bool</code> <p>True when <code>MolecularFamily.spectra_ids</code> contains only one spectrum id.</p> Source code in <code>src/nplinker/metabolomics/molecular_family.py</code> <pre><code>def is_singleton(self) -&gt; bool:\n    \"\"\"Check if the molecular family contains only one spectrum.\n\n    Returns:\n        True when `MolecularFamily.spectra_ids` contains only one spectrum id.\n    \"\"\"\n    return len(self.spectra_ids) == 1\n</code></pre>"},{"location":"api/metabolomics/#nplinker.metabolomics.Spectrum","title":"Spectrum","text":"<pre><code>Spectrum(spectrum_id: str, mz: list[float], intensity: list[float], precursor_mz: float, rt: float = 0, metadata: dict | None = None)\n</code></pre> <p>Class to model MS/MS Spectrum.</p> <p>Attributes:</p> Name Type Description <code>spectrum_id</code> <p>the spectrum ID.</p> <code>mz</code> <p>the list of m/z values.</p> <code>intensity</code> <p>the list of intensity values.</p> <code>precursor_mz</code> <p>the m/z value of the precursor.</p> <code>rt</code> <p>the retention time in seconds.</p> <code>metadata</code> <p>the metadata of the spectrum, i.e. the header infomation in the MGF file.</p> <code>gnps_annotations</code> <code>dict</code> <p>the GNPS annotations of the spectrum.</p> <code>gnps_id</code> <code>str | None</code> <p>the GNPS ID of the spectrum.</p> <code>strains</code> <code>StrainCollection</code> <p>the strains that this spectrum belongs to.</p> <code>family</code> <code>MolecularFamily | None</code> <p>the molecular family that this spectrum belongs to.</p> <code>peaks</code> <code>ndarray</code> <p>2D array of peaks, each row is a peak of (m/z, intensity) values.</p> <p>Parameters:</p> Name Type Description Default <code>spectrum_id</code> <code>str</code> <p>the spectrum ID.</p> required <code>mz</code> <code>list[float]</code> <p>the list of m/z values.</p> required <code>intensity</code> <code>list[float]</code> <p>the list of intensity values.</p> required <code>precursor_mz</code> <code>float</code> <p>the precursor m/z.</p> required <code>rt</code> <code>float</code> <p>the retention time in seconds. Defaults to 0.</p> <code>0</code> <code>metadata</code> <code>dict | None</code> <p>the metadata of the spectrum, i.e. the header infomation in the MGF file.</p> <code>None</code> Source code in <code>src/nplinker/metabolomics/spectrum.py</code> <pre><code>def __init__(\n    self,\n    spectrum_id: str,\n    mz: list[float],\n    intensity: list[float],\n    precursor_mz: float,\n    rt: float = 0,\n    metadata: dict | None = None,\n) -&gt; None:\n    \"\"\"Initialize the Spectrum.\n\n    Args:\n        spectrum_id: the spectrum ID.\n        mz: the list of m/z values.\n        intensity: the list of intensity values.\n        precursor_mz: the precursor m/z.\n        rt: the retention time in seconds. Defaults to 0.\n        metadata: the metadata of the spectrum, i.e. the header infomation\n            in the MGF file.\n    \"\"\"\n    self.spectrum_id = spectrum_id\n    self.mz = mz\n    self.intensity = intensity\n    self.precursor_mz = precursor_mz\n    self.rt = rt\n    self.metadata = metadata or {}\n\n    self.gnps_annotations: dict = {}\n    self.gnps_id: str | None = None\n    self.strains: StrainCollection = StrainCollection()\n    self.family: MolecularFamily | None = None\n</code></pre>"},{"location":"api/metabolomics/#nplinker.metabolomics.Spectrum.spectrum_id","title":"spectrum_id  <code>instance-attribute</code>","text":"<pre><code>spectrum_id = spectrum_id\n</code></pre>"},{"location":"api/metabolomics/#nplinker.metabolomics.Spectrum.mz","title":"mz  <code>instance-attribute</code>","text":"<pre><code>mz = mz\n</code></pre>"},{"location":"api/metabolomics/#nplinker.metabolomics.Spectrum.intensity","title":"intensity  <code>instance-attribute</code>","text":"<pre><code>intensity = intensity\n</code></pre>"},{"location":"api/metabolomics/#nplinker.metabolomics.Spectrum.precursor_mz","title":"precursor_mz  <code>instance-attribute</code>","text":"<pre><code>precursor_mz = precursor_mz\n</code></pre>"},{"location":"api/metabolomics/#nplinker.metabolomics.Spectrum.rt","title":"rt  <code>instance-attribute</code>","text":"<pre><code>rt = rt\n</code></pre>"},{"location":"api/metabolomics/#nplinker.metabolomics.Spectrum.metadata","title":"metadata  <code>instance-attribute</code>","text":"<pre><code>metadata = metadata or {}\n</code></pre>"},{"location":"api/metabolomics/#nplinker.metabolomics.Spectrum.gnps_annotations","title":"gnps_annotations  <code>instance-attribute</code>","text":"<pre><code>gnps_annotations: dict = {}\n</code></pre>"},{"location":"api/metabolomics/#nplinker.metabolomics.Spectrum.gnps_id","title":"gnps_id  <code>instance-attribute</code>","text":"<pre><code>gnps_id: str | None = None\n</code></pre>"},{"location":"api/metabolomics/#nplinker.metabolomics.Spectrum.strains","title":"strains  <code>instance-attribute</code>","text":"<pre><code>strains: StrainCollection = StrainCollection()\n</code></pre>"},{"location":"api/metabolomics/#nplinker.metabolomics.Spectrum.family","title":"family  <code>instance-attribute</code>","text":"<pre><code>family: MolecularFamily | None = None\n</code></pre>"},{"location":"api/metabolomics/#nplinker.metabolomics.Spectrum.peaks","title":"peaks  <code>cached</code> <code>property</code>","text":"<pre><code>peaks: ndarray\n</code></pre> <p>Get the peaks, a 2D array with each row containing the values of (m/z, intensity).</p>"},{"location":"api/metabolomics/#nplinker.metabolomics.Spectrum.has_strain","title":"has_strain","text":"<pre><code>has_strain(strain: Strain) -&gt; bool\n</code></pre> <p>Check if the given strain exists in the spectrum.</p> <p>Parameters:</p> Name Type Description Default <code>strain</code> <code>Strain</code> <p><code>Strain</code> object.</p> required <p>Returns:</p> Type Description <code>bool</code> <p>True when the given strain exist in the spectrum.</p> Source code in <code>src/nplinker/metabolomics/spectrum.py</code> <pre><code>def has_strain(self, strain: Strain) -&gt; bool:\n    \"\"\"Check if the given strain exists in the spectrum.\n\n    Args:\n        strain: `Strain` object.\n\n    Returns:\n        True when the given strain exist in the spectrum.\n    \"\"\"\n    return strain in self.strains\n</code></pre>"},{"location":"api/metabolomics_abc/","title":"Base Classes","text":""},{"location":"api/metabolomics_abc/#nplinker.metabolomics.abc","title":"abc","text":""},{"location":"api/metabolomics_abc/#nplinker.metabolomics.abc.SpectrumLoaderBase","title":"SpectrumLoaderBase","text":"<p>             Bases: <code>ABC</code></p>"},{"location":"api/metabolomics_abc/#nplinker.metabolomics.abc.SpectrumLoaderBase.spectra","title":"spectra  <code>abstractmethod</code> <code>property</code>","text":"<pre><code>spectra: Sequence[Spectrum]\n</code></pre>"},{"location":"api/metabolomics_abc/#nplinker.metabolomics.abc.MolecularFamilyLoaderBase","title":"MolecularFamilyLoaderBase","text":"<p>             Bases: <code>ABC</code></p>"},{"location":"api/metabolomics_abc/#nplinker.metabolomics.abc.MolecularFamilyLoaderBase.get_mfs","title":"get_mfs  <code>abstractmethod</code>","text":"<pre><code>get_mfs(keep_singleton: bool) -&gt; Sequence[MolecularFamily]\n</code></pre> <p>Get MolecularFamily objects.</p> <p>Parameters:</p> Name Type Description Default <code>keep_singleton</code> <code>bool</code> <p>True to keep singleton molecular families. A singleton molecular family is a molecular family that contains only one spectrum.</p> required <p>Returns:</p> Type Description <code>Sequence[MolecularFamily]</code> <p>A list of MolecularFamily objects.</p> Source code in <code>src/nplinker/metabolomics/abc.py</code> <pre><code>@abstractmethod\ndef get_mfs(self, keep_singleton: bool) -&gt; Sequence[\"MolecularFamily\"]:\n    \"\"\"Get MolecularFamily objects.\n\n    Args:\n        keep_singleton: True to keep singleton molecular families. A\n            singleton molecular family is a molecular family that contains\n            only one spectrum.\n\n    Returns:\n        A list of MolecularFamily objects.\n    \"\"\"\n</code></pre>"},{"location":"api/metabolomics_abc/#nplinker.metabolomics.abc.FileMappingLoaderBase","title":"FileMappingLoaderBase","text":"<p>             Bases: <code>ABC</code></p>"},{"location":"api/metabolomics_abc/#nplinker.metabolomics.abc.FileMappingLoaderBase.mappings","title":"mappings  <code>abstractmethod</code> <code>property</code>","text":"<pre><code>mappings: dict[str, list[str]]\n</code></pre>"},{"location":"api/metabolomics_abc/#nplinker.metabolomics.abc.AnnotationLoaderBase","title":"AnnotationLoaderBase","text":"<p>             Bases: <code>ABC</code></p>"},{"location":"api/metabolomics_abc/#nplinker.metabolomics.abc.AnnotationLoaderBase.annotations","title":"annotations  <code>abstractmethod</code> <code>property</code>","text":"<pre><code>annotations: dict[str, dict]\n</code></pre>"},{"location":"api/metabolomics_utils/","title":"Utilities","text":""},{"location":"api/metabolomics_utils/#nplinker.metabolomics.utils","title":"utils","text":""},{"location":"api/metabolomics_utils/#nplinker.metabolomics.utils.logger","title":"logger  <code>module-attribute</code>","text":"<pre><code>logger = getLogger(__name__)\n</code></pre>"},{"location":"api/metabolomics_utils/#nplinker.metabolomics.utils.add_annotation_to_spectrum","title":"add_annotation_to_spectrum","text":"<pre><code>add_annotation_to_spectrum(annotations: dict[str, dict], spectra: list[Spectrum]) -&gt; None\n</code></pre> <p>Add GNPS annotations to the <code>Spectrum.gnps_annotaions</code> attribute for input spectra.</p> <p>It is possible that some spectra don't have annotations. Note that the input <code>spectra</code> list is changed in place.</p> <p>Parameters:</p> Name Type Description Default <code>annotations</code> <code>dict[str, dict]</code> <p>A dictionary of GNPS annotations, where the keys are spectrum ids and the values are GNPS annotations.</p> required <code>spectra</code> <code>list[Spectrum]</code> <p>A list of Spectrum objects.</p> required Source code in <code>src/nplinker/metabolomics/utils.py</code> <pre><code>def add_annotation_to_spectrum(annotations: dict[str, dict], spectra: list[Spectrum]) -&gt; None:\n    \"\"\"Add GNPS annotations to the `Spectrum.gnps_annotaions` attribute for input spectra.\n\n    It is possible that some spectra don't have annotations.\n    Note that the input `spectra` list is changed in place.\n\n    Args:\n        annotations: A dictionary of GNPS annotations, where the keys are\n            spectrum ids and the values are GNPS annotations.\n        spectra: A list of Spectrum objects.\n    \"\"\"\n    for spec in spectra:\n        if spec.spectrum_id in annotations:\n            spec.gnps_annotations = annotations[spec.spectrum_id]\n</code></pre>"},{"location":"api/metabolomics_utils/#nplinker.metabolomics.utils.add_strains_to_spectrum","title":"add_strains_to_spectrum","text":"<pre><code>add_strains_to_spectrum(strains: StrainCollection, spectra: list[Spectrum]) -&gt; tuple[list[Spectrum], list[Spectrum]]\n</code></pre> <p>Add <code>Strain</code> objects to the <code>Spectrum.strains</code> attribute for input spectra.</p> <p>Note that the input <code>spectra</code> list is changed in place.</p> <p>Parameters:</p> Name Type Description Default <code>strains</code> <code>StrainCollection</code> <p>A collection of strain objects.</p> required <code>spectra</code> <code>list[Spectrum]</code> <p>A list of Spectrum objects.</p> required <p>Returns:</p> Type Description <code>tuple[list[Spectrum], list[Spectrum]]</code> <p>A tuple of two lists of Spectrum objects,</p> <ul> <li>the first list contains Spectrum objects that are updated with Strain objects;</li> <li>the second list contains Spectrum objects that are not updated with Strain objects becuase no Strain objects are found.</li> </ul> Source code in <code>src/nplinker/metabolomics/utils.py</code> <pre><code>def add_strains_to_spectrum(\n    strains: StrainCollection, spectra: list[Spectrum]\n) -&gt; tuple[list[Spectrum], list[Spectrum]]:\n    \"\"\"Add `Strain` objects to the `Spectrum.strains` attribute for input spectra.\n\n    Note that the input `spectra` list is changed in place.\n\n    Args:\n        strains: A collection of strain objects.\n        spectra: A list of Spectrum objects.\n\n    Returns:\n        A tuple of two lists of Spectrum objects,\n\n            - the first list contains Spectrum objects that are updated with Strain objects;\n            - the second list contains Spectrum objects that are not updated with Strain objects\n            becuase no Strain objects are found.\n    \"\"\"\n    spectra_with_strains = []\n    spectra_without_strains = []\n    for spec in spectra:\n        try:\n            strain_list = strains.lookup(spec.spectrum_id)\n        except ValueError:\n            spectra_without_strains.append(spec)\n            continue\n\n        for strain in strain_list:\n            spec.strains.add(strain)\n        spectra_with_strains.append(spec)\n\n    logger.info(\n        f\"{len(spectra_with_strains)} Spectrum objects updated with Strain objects.\\n\"\n        f\"{len(spectra_without_strains)} Spectrum objects not updated with Strain objects.\"\n    )\n\n    return spectra_with_strains, spectra_without_strains\n</code></pre>"},{"location":"api/metabolomics_utils/#nplinker.metabolomics.utils.add_spectrum_to_mf","title":"add_spectrum_to_mf","text":"<pre><code>add_spectrum_to_mf(spectra: list[Spectrum], mfs: list[MolecularFamily]) -&gt; tuple[list[MolecularFamily], list[MolecularFamily], dict[MolecularFamily, set[str]]]\n</code></pre> <p>Add Spectrum objects to MolecularFamily objects.</p> <p>The attribute of <code>spectra_ids</code> of MolecularFamily object contains the ids of Spectrum objects. These ids are used to find Spectrum objects from the input <code>spectra</code> list. The found Spectrum objects are added to the <code>spectra</code> attribute of MolecularFamily object. It is possible that some spectrum ids are not found in the input <code>spectra</code> list, and so their Spectrum objects are missing in the MolecularFamily object.</p> <p>Note that the input <code>mfs</code> list is changed in place.</p> <p>Parameters:</p> Name Type Description Default <code>spectra</code> <code>list[Spectrum]</code> <p>A list of Spectrum objects.</p> required <code>mfs</code> <code>list[MolecularFamily]</code> <p>A list of MolecularFamily objects.</p> required <p>Returns:</p> Type Description <code>tuple[list[MolecularFamily], list[MolecularFamily], dict[MolecularFamily, set[str]]]</code> <p>A tuple of three elements,</p> <ul> <li>the first list contains MolecularFamily objects that are updated with Spectrum objects</li> <li>the second list contains MolecularFamily objects that are not updated with Spectrum objects (all Spectrum objects are missing).</li> <li>the third is a dictionary containing MolecularFamily objects as keys and a set of ids of missing Spectrum objects as values.</li> </ul> Source code in <code>src/nplinker/metabolomics/utils.py</code> <pre><code>def add_spectrum_to_mf(\n    spectra: list[Spectrum], mfs: list[MolecularFamily]\n) -&gt; tuple[list[MolecularFamily], list[MolecularFamily], dict[MolecularFamily, set[str]]]:\n    \"\"\"Add Spectrum objects to MolecularFamily objects.\n\n    The attribute of `spectra_ids` of MolecularFamily object contains the ids of Spectrum objects.\n    These ids are used to find Spectrum objects from the input `spectra` list. The found Spectrum\n    objects are added to the `spectra` attribute of MolecularFamily object. It is possible that\n    some spectrum ids are not found in the input `spectra` list, and so their Spectrum objects are\n    missing in the MolecularFamily object.\n\n    Note that the input `mfs` list is changed in place.\n\n    Args:\n        spectra: A list of Spectrum objects.\n        mfs: A list of MolecularFamily objects.\n\n    Returns:\n        A tuple of three elements,\n\n            - the first list contains MolecularFamily objects that are updated with Spectrum objects\n            - the second list contains MolecularFamily objects that are not updated with Spectrum\n            objects (all Spectrum objects are missing).\n            - the third is a dictionary containing MolecularFamily objects as keys and a set of ids\n            of missing Spectrum objects as values.\n    \"\"\"\n    spec_dict = {spec.spectrum_id: spec for spec in spectra}\n    mf_with_spec = []\n    mf_without_spec = []\n    mf_missing_spec: dict[MolecularFamily, set[str]] = {}\n    for mf in mfs:\n        for spec_id in mf.spectra_ids:\n            try:\n                spec = spec_dict[spec_id]\n            except KeyError:\n                if mf not in mf_missing_spec:\n                    mf_missing_spec[mf] = {spec_id}\n                else:\n                    mf_missing_spec[mf].add(spec_id)\n                continue\n            mf.add_spectrum(spec)\n\n        if mf.spectra:\n            mf_with_spec.append(mf)\n        else:\n            mf_without_spec.append(mf)\n\n    logger.info(\n        f\"{len(mf_with_spec)} MolecularFamily objects updated with Spectrum objects.\\n\"\n        f\"{len(mf_without_spec)} MolecularFamily objects not updated with Spectrum objects.\\n\"\n        f\"{len(mf_missing_spec)} MolecularFamily objects have missing Spectrum objects.\"\n    )\n    return mf_with_spec, mf_without_spec, mf_missing_spec\n</code></pre>"},{"location":"api/metabolomics_utils/#nplinker.metabolomics.utils.extract_mappings_strain_id_ms_filename","title":"extract_mappings_strain_id_ms_filename","text":"<pre><code>extract_mappings_strain_id_ms_filename(podp_project_json_file: str | PathLike) -&gt; dict[str, set[str]]\n</code></pre> <p>Extract mappings \"strain_id &lt;-&gt; MS_filename\".</p> <p>Parameters:</p> Name Type Description Default <code>podp_project_json_file</code> <code>str | PathLike</code> <p>The path to the PODP project JSON file.</p> required <p>Returns:</p> Type Description <code>dict[str, set[str]]</code> <p>Key is strain id and value is a set of MS filenames.</p> Notes <p>The <code>podp_project_json_file</code> is the project JSON file downloaded from PODP platform. For example, for project MSV000079284, its json file is https://pairedomicsdata.bioinformatics.nl/api/projects/4b29ddc3-26d0-40d7-80c5-44fb6631dbf9.4.</p> Source code in <code>src/nplinker/metabolomics/utils.py</code> <pre><code>def extract_mappings_strain_id_ms_filename(\n    podp_project_json_file: str | PathLike,\n) -&gt; dict[str, set[str]]:\n    \"\"\"Extract mappings \"strain_id &lt;-&gt; MS_filename\".\n\n    Args:\n        podp_project_json_file: The path to the PODP project\n            JSON file.\n\n    Returns:\n        Key is strain id and value is a set of MS filenames.\n\n    Notes:\n        The `podp_project_json_file` is the project JSON file downloaded from\n        PODP platform. For example, for project MSV000079284, its json file is\n        https://pairedomicsdata.bioinformatics.nl/api/projects/4b29ddc3-26d0-40d7-80c5-44fb6631dbf9.4.\n    \"\"\"\n    mappings_dict: dict[str, set[str]] = {}\n    with open(podp_project_json_file, \"r\") as f:\n        json_data = json.load(f)\n\n    validate_podp_json(json_data)\n\n    # Extract mappings strain id &lt;-&gt; metabolomics filename\n    for record in json_data[\"genome_metabolome_links\"]:\n        strain_id = record[\"genome_label\"]\n        # get the actual filename of the mzXML URL\n        filename = Path(record[\"metabolomics_file\"]).name\n        if strain_id in mappings_dict:\n            mappings_dict[strain_id].add(filename)\n        else:\n            mappings_dict[strain_id] = {filename}\n    return mappings_dict\n</code></pre>"},{"location":"api/metabolomics_utils/#nplinker.metabolomics.utils.extract_mappings_ms_filename_spectrum_id","title":"extract_mappings_ms_filename_spectrum_id","text":"<pre><code>extract_mappings_ms_filename_spectrum_id(gnps_file_mappings_file: str | PathLike) -&gt; dict[str, set[str]]\n</code></pre> <p>Extract mappings \"MS_filename &lt;-&gt; spectrum_id\".</p> <p>Parameters:</p> Name Type Description Default <code>gnps_file_mappings_file</code> <code>str | PathLike</code> <p>The path to the GNPS file mappings file (csv or tsv).</p> required <p>Returns:</p> Type Description <code>dict[str, set[str]]</code> <p>Key is MS filename and value is a set of spectrum ids.</p> Notes <p>The <code>gnps_file_mappings_file</code> is generated by GNPS molecular networking. It's downloaded from GNPS website to a file with a default name defined in <code>GNPS_FILE_MAPPINGS_FILENAME</code>.</p> See Also <p>GNPSFileMappingLoader: A class to load GNPS file mappings file.</p> Source code in <code>src/nplinker/metabolomics/utils.py</code> <pre><code>def extract_mappings_ms_filename_spectrum_id(\n    gnps_file_mappings_file: str | PathLike,\n) -&gt; dict[str, set[str]]:\n    \"\"\"Extract mappings \"MS_filename &lt;-&gt; spectrum_id\".\n\n    Args:\n        gnps_file_mappings_file: The path to the GNPS file mappings file (csv or\n            tsv).\n\n    Returns:\n        Key is MS filename and value is a set of spectrum ids.\n\n    Notes:\n        The `gnps_file_mappings_file` is generated by GNPS molecular networking. It's downloaded\n        from GNPS website to a file with a default name defined in `GNPS_FILE_MAPPINGS_FILENAME`.\n\n    See Also:\n        GNPSFileMappingLoader: A class to load GNPS file mappings file.\n    \"\"\"\n    loader = GNPSFileMappingLoader(gnps_file_mappings_file)\n    return loader.mapping_reversed\n</code></pre>"},{"location":"api/metabolomics_utils/#nplinker.metabolomics.utils.get_mappings_strain_id_spectrum_id","title":"get_mappings_strain_id_spectrum_id","text":"<pre><code>get_mappings_strain_id_spectrum_id(mappings_strain_id_ms_filename: dict[str, set[str]], mappings_ms_filename_spectrum_id: dict[str, set[str]]) -&gt; dict[str, set[str]]\n</code></pre> <p>Get mappings \"strain_id &lt;-&gt; spectrum_id\".</p> <p>Parameters:</p> Name Type Description Default <code>mappings_strain_id_ms_filename</code> <code>dict[str, set[str]]</code> <p>Mappings \"strain_id &lt;-&gt; MS_filename\".</p> required <code>mappings_ms_filename_spectrum_id</code> <code>dict[str, set[str]]</code> <p>Mappings \"MS_filename &lt;-&gt; spectrum_id\".</p> required <p>Returns:</p> Type Description <code>dict[str, set[str]]</code> <p>Key is strain id and value is a set of spectrum ids.</p> See Also <p><code>extract_mappings_strain_id_ms_filename</code>: Extract mappings     \"strain_id &lt;-&gt; MS_filename\". <code>extract_mappings_ms_filename_spectrum_id</code>: Extract mappings     \"MS_filename &lt;-&gt; spectrum_id\".</p> Source code in <code>src/nplinker/metabolomics/utils.py</code> <pre><code>def get_mappings_strain_id_spectrum_id(\n    mappings_strain_id_ms_filename: dict[str, set[str]],\n    mappings_ms_filename_spectrum_id: dict[str, set[str]],\n) -&gt; dict[str, set[str]]:\n    \"\"\"Get mappings \"strain_id &lt;-&gt; spectrum_id\".\n\n    Args:\n        mappings_strain_id_ms_filename: Mappings\n            \"strain_id &lt;-&gt; MS_filename\".\n        mappings_ms_filename_spectrum_id: Mappings\n            \"MS_filename &lt;-&gt; spectrum_id\".\n\n    Returns:\n        Key is strain id and value is a set of spectrum ids.\n\n\n    See Also:\n        `extract_mappings_strain_id_ms_filename`: Extract mappings\n            \"strain_id &lt;-&gt; MS_filename\".\n        `extract_mappings_ms_filename_spectrum_id`: Extract mappings\n            \"MS_filename &lt;-&gt; spectrum_id\".\n    \"\"\"\n    mappings_dict = {}\n    for strain_id, ms_filenames in mappings_strain_id_ms_filename.items():\n        spectrum_ids = set()\n        for ms_filename in ms_filenames:\n            if (sid := mappings_ms_filename_spectrum_id.get(ms_filename)) is not None:\n                spectrum_ids.update(sid)\n        if spectrum_ids:\n            mappings_dict[strain_id] = spectrum_ids\n    return mappings_dict\n</code></pre>"},{"location":"api/mibig/","title":"MiBIG","text":""},{"location":"api/mibig/#nplinker.genomics.mibig","title":"mibig","text":""},{"location":"api/mibig/#nplinker.genomics.mibig.MibigLoader","title":"MibigLoader","text":"<pre><code>MibigLoader(data_dir: str)\n</code></pre> <p>Parse MIBiG metadata files and return BGC objects.</p> <p>MIBiG metadata file (json) contains annotations/metadata information for each BGC. See https://mibig.secondarymetabolites.org/download.</p> <p>The MiBIG accession is used as BGC id and strain name. The loaded BGC objects have Strain object as their strain attribute (i.e. <code>BGC.strain</code>).</p> <p>Parameters:</p> Name Type Description Default <code>data_dir</code> <code>str</code> <p>Path to the directory of MIBiG metadata json files</p> required Source code in <code>src/nplinker/genomics/mibig/mibig_loader.py</code> <pre><code>def __init__(self, data_dir: str):\n    \"\"\"Initialize the MIBiG metatdata loader.\n\n    Args:\n        data_dir: Path to the directory of MIBiG metadata json files\n    \"\"\"\n    self.data_dir = data_dir\n    self._file_dict = self.parse_data_dir(self.data_dir)\n    self._metadata_dict = self._parse_metadatas()\n    self._bgcs = self._parse_bgcs()\n</code></pre>"},{"location":"api/mibig/#nplinker.genomics.mibig.MibigLoader.data_dir","title":"data_dir  <code>instance-attribute</code>","text":"<pre><code>data_dir = data_dir\n</code></pre>"},{"location":"api/mibig/#nplinker.genomics.mibig.MibigLoader.get_files","title":"get_files","text":"<pre><code>get_files() -&gt; dict[str, str]\n</code></pre> <p>Get the path of all MIBiG metadata json files.</p> <p>Returns:</p> Type Description <code>dict[str, str]</code> <p>The key is metadata file name (BGC accession), and the value is path to the metadata</p> <code>dict[str, str]</code> <p>json file</p> Source code in <code>src/nplinker/genomics/mibig/mibig_loader.py</code> <pre><code>def get_files(self) -&gt; dict[str, str]:\n    \"\"\"Get the path of all MIBiG metadata json files.\n\n    Returns:\n        The key is metadata file name (BGC accession), and the value is path to the metadata\n        json file\n    \"\"\"\n    return self._file_dict\n</code></pre>"},{"location":"api/mibig/#nplinker.genomics.mibig.MibigLoader.parse_data_dir","title":"parse_data_dir  <code>staticmethod</code>","text":"<pre><code>parse_data_dir(data_dir: str) -&gt; dict[str, str]\n</code></pre> <p>Parse metadata directory and return paths to all metadata json files.</p> <p>Parameters:</p> Name Type Description Default <code>data_dir</code> <code>str</code> <p>path to the directory of MIBiG metadata json files</p> required <p>Returns:</p> Type Description <code>dict[str, str]</code> <p>The key is metadata file name (BGC accession), and the value is path to the metadata</p> <code>dict[str, str]</code> <p>json file</p> Source code in <code>src/nplinker/genomics/mibig/mibig_loader.py</code> <pre><code>@staticmethod\ndef parse_data_dir(data_dir: str) -&gt; dict[str, str]:\n    \"\"\"Parse metadata directory and return paths to all metadata json files.\n\n    Args:\n        data_dir: path to the directory of MIBiG metadata json files\n\n    Returns:\n        The key is metadata file name (BGC accession), and the value is path to the metadata\n        json file\n    \"\"\"\n    file_dict = {}\n    json_files = list_files(data_dir, prefix=\"BGC\", suffix=\".json\")\n    for file in json_files:\n        fname = os.path.splitext(os.path.basename(file))[0]\n        file_dict[fname] = file\n    return file_dict\n</code></pre>"},{"location":"api/mibig/#nplinker.genomics.mibig.MibigLoader.get_metadatas","title":"get_metadatas","text":"<pre><code>get_metadatas() -&gt; dict[str, MibigMetadata]\n</code></pre> <p>Get MibigMetadata objects.</p> <p>Returns:</p> Type Description <code>dict[str, MibigMetadata]</code> <p>The key is BGC accession (file name) and the value is MibigMetadata object</p> Source code in <code>src/nplinker/genomics/mibig/mibig_loader.py</code> <pre><code>def get_metadatas(self) -&gt; dict[str, MibigMetadata]:\n    \"\"\"Get MibigMetadata objects.\n\n    Returns:\n        The key is BGC accession (file name) and the value is MibigMetadata object\n    \"\"\"\n    return self._metadata_dict\n</code></pre>"},{"location":"api/mibig/#nplinker.genomics.mibig.MibigLoader.get_bgcs","title":"get_bgcs","text":"<pre><code>get_bgcs() -&gt; list[BGC]\n</code></pre> <p>Get BGC objects.</p> <p>The BGC objects use MiBIG accession as id and have Strain object as their strain attribute (i.e. <code>BGC.strain</code>), where the name of the Strain object is also MiBIG accession.</p> <p>Returns:</p> Type Description <code>list[BGC]</code> <p>A list of BGC objects</p> Source code in <code>src/nplinker/genomics/mibig/mibig_loader.py</code> <pre><code>def get_bgcs(self) -&gt; list[BGC]:\n    \"\"\"Get BGC objects.\n\n    The BGC objects use MiBIG accession as id and have Strain object as\n    their strain attribute (i.e. `BGC.strain`), where the name of the Strain\n    object is also MiBIG accession.\n\n    Returns:\n        A list of BGC objects\n    \"\"\"\n    return self._bgcs\n</code></pre>"},{"location":"api/mibig/#nplinker.genomics.mibig.MibigMetadata","title":"MibigMetadata","text":"<pre><code>MibigMetadata(file: str)\n</code></pre> <p>Class to model the BGC metadata/annotations defined in MIBiG.</p> <p>MIBiG is a specification of BGC metadata and use JSON schema to represent BGC metadata. More details see: https://mibig.secondarymetabolites.org/download.</p> <p>Parameters:</p> Name Type Description Default <code>file</code> <code>str</code> <p>Path to the json file of MIBiG BGC metadata</p> required <p>Examples:</p> <pre><code>&gt;&gt;&gt; metadata = MibigMetadata(\"/data/BGC0000001.json\")\n</code></pre> Source code in <code>src/nplinker/genomics/mibig/mibig_metadata.py</code> <pre><code>def __init__(self, file: str) -&gt; None:\n    \"\"\"Initialize the MIBiG metadata object.\n\n    Args:\n        file: Path to the json file of MIBiG BGC metadata\n\n    Examples:\n        &gt;&gt;&gt; metadata = MibigMetadata(\"/data/BGC0000001.json\")\n    \"\"\"\n    self.file = file\n    with open(self.file, \"rb\") as f:\n        self.metadata = json.load(f)\n\n    self._mibig_accession: str\n    self._biosyn_class: tuple[str]\n    self._parse_metadata()\n</code></pre>"},{"location":"api/mibig/#nplinker.genomics.mibig.MibigMetadata.file","title":"file  <code>instance-attribute</code>","text":"<pre><code>file = file\n</code></pre>"},{"location":"api/mibig/#nplinker.genomics.mibig.MibigMetadata.metadata","title":"metadata  <code>instance-attribute</code>","text":"<pre><code>metadata = load(f)\n</code></pre>"},{"location":"api/mibig/#nplinker.genomics.mibig.MibigMetadata.mibig_accession","title":"mibig_accession  <code>property</code>","text":"<pre><code>mibig_accession: str\n</code></pre> <p>Get the value of metadata item 'mibig_accession'.</p>"},{"location":"api/mibig/#nplinker.genomics.mibig.MibigMetadata.biosyn_class","title":"biosyn_class  <code>property</code>","text":"<pre><code>biosyn_class: tuple[str]\n</code></pre> <p>Get the value of metadata item 'biosyn_class'.</p> <p>The 'biosyn_class' is biosynthetic class(es), namely the type of natural product or secondary metabolite.</p> <p>MIBiG defines 6 major biosynthetic classes, including \"NRP\", \"Polyketide\", \"RiPP\", \"Terpene\", \"Saccharide\" and \"Alkaloid\". Note that natural products created by all other biosynthetic mechanisms fall under the category \"Other\". More details see the publication: https://doi.org/10.1186/s40793-018-0318-y.</p>"},{"location":"api/mibig/#nplinker.genomics.mibig.download_and_extract_mibig_metadata","title":"download_and_extract_mibig_metadata","text":"<pre><code>download_and_extract_mibig_metadata(download_root: str | PathLike, extract_path: str | PathLike, version: str = '3.1')\n</code></pre> <p>Download and extract MIBiG metadata json files.</p> <p>Note that it does not matter whether the metadata json files are in nested folders or not in the archive, all json files will be extracted to the same location, i.e. <code>extract_path</code>. The nested folders will be removed if they exist. So the <code>extract_path</code> will have only json files.</p> <p>Parameters:</p> Name Type Description Default <code>download_root</code> <code>str | PathLike</code> <p>Path to the directory in which to place the downloaded archive.</p> required <code>extract_path</code> <code>str | PathLike</code> <p>Path to an empty directory where the json files will be extracted. The directory must be empty if it exists. If it doesn't exist, the directory will be created.</p> required <code>version</code> <code>str</code> <p>description. Defaults to \"3.1\".</p> <code>'3.1'</code> <p>Examples:</p> <pre><code>&gt;&gt;&gt; download_and_extract_mibig_metadata(\"/data/download\", \"/data/mibig_metadata\")\n</code></pre> Source code in <code>src/nplinker/genomics/mibig/mibig_downloader.py</code> <pre><code>def download_and_extract_mibig_metadata(\n    download_root: str | os.PathLike,\n    extract_path: str | os.PathLike,\n    version: str = \"3.1\",\n):\n    \"\"\"Download and extract MIBiG metadata json files.\n\n    Note that it does not matter whether the metadata json files are in nested folders or not in the archive,\n    all json files will be extracted to the same location, i.e. `extract_path`. The nested\n    folders will be removed if they exist. So the `extract_path` will have only json files.\n\n    Args:\n        download_root: Path to the directory in which to place the downloaded archive.\n        extract_path: Path to an empty directory where the json files will be extracted.\n            The directory must be empty if it exists. If it doesn't exist, the directory will be created.\n        version: _description_. Defaults to \"3.1\".\n\n    Examples:\n        &gt;&gt;&gt; download_and_extract_mibig_metadata(\"/data/download\", \"/data/mibig_metadata\")\n    \"\"\"\n    download_root = Path(download_root)\n    extract_path = Path(extract_path)\n\n    if download_root == extract_path:\n        raise ValueError(\"Identical path of download directory and extract directory\")\n\n    # check if extract_path is empty\n    if not extract_path.exists():\n        extract_path.mkdir(parents=True)\n    else:\n        if len(list(extract_path.iterdir())) != 0:\n            raise ValueError(f'Nonempty directory: \"{extract_path}\"')\n\n    # download and extract\n    md5 = _MD5_MIBIG_METADATA[version]\n    download_and_extract_archive(\n        url=MIBIG_METADATA_URL.format(version=version),\n        download_root=download_root,\n        extract_root=extract_path,\n        md5=md5,\n    )\n\n    # After extracting mibig archive, it's either one dir or many json files,\n    # if it's a dir, then move all json files from it to extract_path\n    subdirs = list_dirs(extract_path)\n    if len(subdirs) &gt; 1:\n        raise ValueError(f\"Expected one extracted directory, got {len(subdirs)}\")\n\n    if len(subdirs) == 1:\n        subdir_path = subdirs[0]\n        for fname in list_files(subdir_path, prefix=\"BGC\", suffix=\".json\", keep_parent=False):\n            shutil.move(os.path.join(subdir_path, fname), os.path.join(extract_path, fname))\n        # delete subdir\n        if subdir_path != extract_path:\n            shutil.rmtree(subdir_path)\n</code></pre>"},{"location":"api/mibig/#nplinker.genomics.mibig.parse_bgc_metadata_json","title":"parse_bgc_metadata_json","text":"<pre><code>parse_bgc_metadata_json(file: str) -&gt; BGC\n</code></pre> <p>Parse MIBiG metadata file and return BGC object.</p> <p>Note that the MiBIG accession is used as the BGC id and strain name. The BGC object has Strain object as its strain attribute.</p> <p>Parameters:</p> Name Type Description Default <code>file</code> <code>str</code> <p>Path to the MIBiG metadata json file</p> required <p>Returns:</p> Type Description <code>BGC</code> <p>BGC object</p> Source code in <code>src/nplinker/genomics/mibig/mibig_loader.py</code> <pre><code>def parse_bgc_metadata_json(file: str) -&gt; BGC:\n    \"\"\"Parse MIBiG metadata file and return BGC object.\n\n    Note that the MiBIG accession is used as the BGC id and strain name. The BGC\n    object has Strain object as its strain attribute.\n\n    Args:\n        file: Path to the MIBiG metadata json file\n\n    Returns:\n        BGC object\n    \"\"\"\n    metadata = MibigMetadata(file)\n    mibig_bgc = BGC(metadata.mibig_accession, *metadata.biosyn_class)\n    mibig_bgc.mibig_bgc_class = metadata.biosyn_class\n    mibig_bgc.strain = Strain(metadata.mibig_accession)\n    return mibig_bgc\n</code></pre>"},{"location":"api/nplinker/","title":"NPLinker","text":""},{"location":"api/nplinker/#nplinker.nplinker","title":"nplinker","text":""},{"location":"api/nplinker/#nplinker.nplinker.logger","title":"logger  <code>module-attribute</code>","text":"<pre><code>logger = getLogger(__name__)\n</code></pre>"},{"location":"api/nplinker/#nplinker.nplinker.NPLinker","title":"NPLinker","text":"<pre><code>NPLinker()\n</code></pre> Source code in <code>src/nplinker/nplinker.py</code> <pre><code>def __init__(self):\n    \"\"\"Initialise an NPLinker instance.\"\"\"\n    # configure logging based on the supplied config params\n    LogConfig.setLogLevelStr(config.log.level)\n    logfile = config.get(\"log.file\")\n    if logfile:\n        logfile_dest = logging.FileHandler(logfile)\n        # if we want to log to stdout plus logfile, add the new destination\n        if config.get(\"log.to_stdout\"):  # default to True\n            LogConfig.addLogDestination(logfile_dest)\n        else:\n            # otherwise overwrite the default stdout destination\n            LogConfig.setLogDestination(logfile_dest)\n\n    self._loader = DatasetLoader()\n\n    self._spectra = []\n    self._bgcs = []\n    self._gcfs = []\n    self._strains = None\n    self._metadata = {}\n    self._molfams = []\n    self._mibig_bgcs = []\n    self._chem_classes = None\n    self._class_matches = None\n\n    self._bgc_lookup = {}\n    self._gcf_lookup = {}\n    self._spec_lookup = {}\n    self._mf_lookup = {}\n\n    self._scoring_methods = {}\n    config_methods = config.get(\"scoring_methods\", [])\n    for name, method in NPLinker.SCORING_METHODS.items():\n        if len(config_methods) == 0 or name in config_methods:\n            self._scoring_methods[name] = method\n            logger.debug(f\"Enabled scoring method: {name}\")\n\n    self._scoring_methods_setup_complete = {\n        name: False for name in self._scoring_methods.keys()\n    }\n\n    self._datalinks = None\n\n    self._repro_data = {}\n    repro_file = config.get(\"repro_file\")\n    if repro_file:\n        self.save_repro_data(repro_file)\n</code></pre>"},{"location":"api/nplinker/#nplinker.nplinker.NPLinker.OBJ_CLASSES","title":"OBJ_CLASSES  <code>class-attribute</code> <code>instance-attribute</code>","text":"<pre><code>OBJ_CLASSES = [Spectrum, MolecularFamily, GCF, BGC]\n</code></pre>"},{"location":"api/nplinker/#nplinker.nplinker.NPLinker.SCORING_METHODS","title":"SCORING_METHODS  <code>class-attribute</code> <code>instance-attribute</code>","text":"<pre><code>SCORING_METHODS = {NAME: MetcalfScoring, NAME: RosettaScoring, NAME: NPClassScoring}\n</code></pre>"},{"location":"api/nplinker/#nplinker.nplinker.NPLinker.root_dir","title":"root_dir  <code>property</code>","text":"<pre><code>root_dir: str\n</code></pre> <p>Returns path to the current dataset root directory.</p> <p>Returns:</p> Type Description <code>str</code> <p>The path to the dataset root directory currently in use</p>"},{"location":"api/nplinker/#nplinker.nplinker.NPLinker.data_dir","title":"data_dir  <code>property</code>","text":"<pre><code>data_dir\n</code></pre> <p>Returns path to nplinker/data directory (files packaged with the app itself).</p>"},{"location":"api/nplinker/#nplinker.nplinker.NPLinker.bigscape_cutoff","title":"bigscape_cutoff  <code>property</code>","text":"<pre><code>bigscape_cutoff\n</code></pre> <p>Returns the current BiGSCAPE clustering cutoff value.</p>"},{"location":"api/nplinker/#nplinker.nplinker.NPLinker.strains","title":"strains  <code>property</code>","text":"<pre><code>strains\n</code></pre> <p>Returns a list of all the strains in the dataset.</p>"},{"location":"api/nplinker/#nplinker.nplinker.NPLinker.bgcs","title":"bgcs  <code>property</code>","text":"<pre><code>bgcs\n</code></pre> <p>Returns a list of all the BGCs in the dataset.</p>"},{"location":"api/nplinker/#nplinker.nplinker.NPLinker.gcfs","title":"gcfs  <code>property</code>","text":"<pre><code>gcfs\n</code></pre> <p>Returns a list of all the GCFs in the dataset.</p>"},{"location":"api/nplinker/#nplinker.nplinker.NPLinker.spectra","title":"spectra  <code>property</code>","text":"<pre><code>spectra\n</code></pre> <p>Returns a list of all the Spectra in the dataset.</p>"},{"location":"api/nplinker/#nplinker.nplinker.NPLinker.molfams","title":"molfams  <code>property</code>","text":"<pre><code>molfams\n</code></pre> <p>Returns a list of all the MolecularFamilies in the dataset.</p>"},{"location":"api/nplinker/#nplinker.nplinker.NPLinker.metadata","title":"metadata  <code>property</code>","text":"<pre><code>metadata\n</code></pre>"},{"location":"api/nplinker/#nplinker.nplinker.NPLinker.mibig_bgcs","title":"mibig_bgcs  <code>property</code>","text":"<pre><code>mibig_bgcs\n</code></pre> <p>Get a list of all the MIBiG BGCs in the dataset.</p>"},{"location":"api/nplinker/#nplinker.nplinker.NPLinker.product_types","title":"product_types  <code>property</code>","text":"<pre><code>product_types\n</code></pre> <p>Returns a list of the available BiGSCAPE product types in current dataset.</p>"},{"location":"api/nplinker/#nplinker.nplinker.NPLinker.repro_data","title":"repro_data  <code>property</code>","text":"<pre><code>repro_data\n</code></pre> <p>Returns the dict containing reproducibility data.</p>"},{"location":"api/nplinker/#nplinker.nplinker.NPLinker.scoring_methods","title":"scoring_methods  <code>property</code>","text":"<pre><code>scoring_methods\n</code></pre> <p>Returns a list of available scoring method names.</p>"},{"location":"api/nplinker/#nplinker.nplinker.NPLinker.chem_classes","title":"chem_classes  <code>property</code>","text":"<pre><code>chem_classes\n</code></pre> <p>Returns loaded ChemClassPredictions with the class predictions.</p>"},{"location":"api/nplinker/#nplinker.nplinker.NPLinker.class_matches","title":"class_matches  <code>property</code>","text":"<pre><code>class_matches\n</code></pre> <p>ClassMatches with the matched classes and scoring tables from MIBiG.</p>"},{"location":"api/nplinker/#nplinker.nplinker.NPLinker.save_repro_data","title":"save_repro_data","text":"<pre><code>save_repro_data(filename)\n</code></pre> Source code in <code>src/nplinker/nplinker.py</code> <pre><code>def save_repro_data(self, filename):\n    self._collect_repro_data()\n    with open(filename, \"wb\") as repro_file:\n        # TODO is pickle the best format to use?\n        save_pickled_data(self._repro_data, repro_file)\n        logger.info(f\"Saving reproducibility data to {filename}\")\n</code></pre>"},{"location":"api/nplinker/#nplinker.nplinker.NPLinker.load_data","title":"load_data","text":"<pre><code>load_data()\n</code></pre> <p>Loads the basic components of a dataset.</p> Source code in <code>src/nplinker/nplinker.py</code> <pre><code>def load_data(self):\n    \"\"\"Loads the basic components of a dataset.\"\"\"\n    arranger = DatasetArranger()\n    arranger.arrange()\n    self._loader.load()\n\n    self._spectra = self._loader.spectra\n    self._molfams = self._loader.molfams\n    self._bgcs = self._loader.bgcs\n    self._gcfs = self._loader.gcfs\n    self._mibig_bgcs = self._loader.mibig_bgcs\n    self._strains = self._loader.strains\n    self._product_types = self._loader.product_types\n    self._chem_classes = self._loader.chem_classes\n    self._class_matches = self._loader.class_matches\n</code></pre>"},{"location":"api/nplinker/#nplinker.nplinker.NPLinker.get_links","title":"get_links","text":"<pre><code>get_links(input_objects: list, scoring_methods: list, and_mode: bool = True) -&gt; LinkCollection\n</code></pre> <p>Find links for a set of input objects (BGCs/GCFs/Spectra/MolFams).</p> <p>The input objects can be any mix of the following NPLinker types:</p> <pre><code>- BGC\n- GCF\n- Spectrum\n- MolecularFamily\n</code></pre> <p>TODO longer description here</p> <p>Parameters:</p> Name Type Description Default <code>input_objects</code> <code>list</code> <p>objects to be passed to the scoring method(s). This may be either a flat list of a uniform type (one of the 4 types above), or a list of such lists</p> required <code>scoring_methods</code> <code>list</code> <p>a list of one or more scoring methods to use</p> required <code>and_mode</code> <code>bool</code> <p>determines how results from multiple methods are combined. This is ignored if a single method is supplied. If multiple methods are used and <code>and_mode</code> is True, the results will only contain links found by ALL methods. If False, results will contain links found by ANY method.</p> <code>True</code> <p>Returns:</p> Type Description <code>LinkCollection</code> <p>An instance of <code>nplinker.scoring.methods.LinkCollection</code></p> Source code in <code>src/nplinker/nplinker.py</code> <pre><code>def get_links(\n    self, input_objects: list, scoring_methods: list, and_mode: bool = True\n) -&gt; LinkCollection:\n    \"\"\"Find links for a set of input objects (BGCs/GCFs/Spectra/MolFams).\n\n    The input objects can be any mix of the following NPLinker types:\n\n        - BGC\n        - GCF\n        - Spectrum\n        - MolecularFamily\n\n    TODO longer description here\n\n    Args:\n        input_objects: objects to be passed to the scoring method(s).\n            This may be either a flat list of a uniform type (one of the 4\n            types above), or a list of such lists\n        scoring_methods: a list of one or more scoring methods to use\n        and_mode: determines how results from multiple methods are combined.\n            This is ignored if a single method is supplied. If multiple methods\n            are used and ``and_mode`` is True, the results will only contain\n            links found by ALL methods. If False, results will contain links\n            found by ANY method.\n\n    Returns:\n        An instance of ``nplinker.scoring.methods.LinkCollection``\n    \"\"\"\n    if isinstance(input_objects, list) and len(input_objects) == 0:\n        raise Exception(\"input_objects length must be &gt; 0\")\n\n    if isinstance(scoring_methods, list) and len(scoring_methods) == 0:\n        raise Exception(\"scoring_methods length must be &gt; 0\")\n\n    # for convenience convert a single scoring object into a single entry\n    # list\n    if not isinstance(scoring_methods, list):\n        scoring_methods = [scoring_methods]\n\n    # check if input_objects is a list of lists. if so there should be one\n    # entry for each supplied method for it to be a valid parameter\n    if isinstance(input_objects[0], list):\n        if len(input_objects) != len(scoring_methods):\n            raise Exception(\n                \"Number of input_objects lists must match number of scoring_methods (found: {}, expected: {})\".format(\n                    len(input_objects), len(scoring_methods)\n                )\n            )\n\n    # TODO check scoring_methods only contains ScoringMethod-derived\n    # instances\n\n    # want everything to be in lists of lists\n    if not isinstance(input_objects, list) or (\n        isinstance(input_objects, list) and not isinstance(input_objects[0], list)\n    ):\n        input_objects = [input_objects]\n\n    logger.debug(\n        \"get_links: {} object sets, {} methods\".format(len(input_objects), len(scoring_methods))\n    )\n\n    # copy the object set if required to make up the numbers\n    if len(input_objects) != len(scoring_methods):\n        if len(scoring_methods) &lt; len(input_objects):\n            raise Exception(\"Number of scoring methods must be &gt;= number of input object sets\")\n        elif (len(scoring_methods) &gt; len(input_objects)) and len(input_objects) != 1:\n            raise Exception(\n                \"Mismatch between number of scoring methods and input objects ({} vs {})\".format(\n                    len(scoring_methods), len(input_objects)\n                )\n            )\n        elif len(scoring_methods) &gt; len(input_objects):\n            # this is a special case for convenience: pass in 1 set of objects and multiple methods,\n            # result is that set is used for all methods\n            logger.debug(\"Duplicating input object set\")\n            while len(input_objects) &lt; len(scoring_methods):\n                input_objects.append(input_objects[0])\n                logger.debug(\"Duplicating input object set\")\n\n    link_collection = LinkCollection(and_mode)\n\n    for i, method in enumerate(scoring_methods):\n        # do any one-off initialisation required by this method\n        if not self._scoring_methods_setup_complete[method.name]:\n            logger.debug(f\"Doing one-time setup for {method.name}\")\n            self._scoring_methods[method.name].setup(self)\n            self._scoring_methods_setup_complete[method.name] = True\n\n        # should construct a dict of {object_with_link: &lt;link_data&gt;}\n        # entries\n        objects_for_method = input_objects[i]\n        logger.debug(\n            \"Calling scoring method {} on {} objects\".format(\n                method.name, len(objects_for_method)\n            )\n        )\n        link_collection = method.get_links(*objects_for_method, link_collection=link_collection)\n\n    if not self._datalinks:\n        logger.debug(\"Creating internal datalinks object\")\n        self._datalinks = self.scoring_method(MetcalfScoring.NAME).datalinks\n        logger.debug(\"Created internal datalinks object\")\n\n    if len(link_collection) == 0:\n        logger.debug(\"No links found or remaining after merging all method results!\")\n\n    # populate shared strain info\n    logger.debug(\"Calculating shared strain information...\")\n    # TODO more efficient version?\n    for source, link_data in link_collection.links.items():\n        if isinstance(source, BGC):\n            logger.debug(\"Cannot determine shared strains for BGC input!\")\n            break\n\n        targets = list(filter(lambda x: not isinstance(x, BGC), link_data.keys()))\n        if len(targets) &gt; 0:\n            if isinstance(source, GCF):\n                shared_strains = self._datalinks.get_common_strains(targets, [source], True)\n                for target, link in link_data.items():\n                    if (target, source) in shared_strains:\n                        link.shared_strains = shared_strains[(target, source)]\n            else:\n                shared_strains = self._datalinks.get_common_strains([source], targets, True)\n                for target, link in link_data.items():\n                    if (source, target) in shared_strains:\n                        link.shared_strains = shared_strains[(source, target)]\n\n    logger.debug(\"Finished calculating shared strain information\")\n\n    logger.debug(\"Final size of link collection is {}\".format(len(link_collection)))\n    return link_collection\n</code></pre>"},{"location":"api/nplinker/#nplinker.nplinker.NPLinker.get_common_strains","title":"get_common_strains","text":"<pre><code>get_common_strains(met: Sequence[Spectrum] | Sequence[MolecularFamily], gcfs: Sequence[GCF], filter_no_shared: bool = True) -&gt; dict[tuple[Spectrum | MolecularFamily, GCF], list[Strain]]\n</code></pre> <p>Get common strains between given spectra/molecular families and GCFs.</p> <p>Parameters:</p> Name Type Description Default <code>met</code> <code>Sequence[Spectrum] | Sequence[MolecularFamily]</code> <p>A list of Spectrum or MolecularFamily objects.</p> required <code>gcfs</code> <code>Sequence[GCF]</code> <p>A list of GCF objects.</p> required <code>filter_no_shared</code> <code>bool</code> <p>If True, the pairs of spectrum/mf and GCF without common strains will be removed from the returned dict;</p> <code>True</code> <p>Returns:</p> Type Description <code>dict[tuple[Spectrum | MolecularFamily, GCF], list[Strain]]</code> <p>A dict where the keys are tuples of (Spectrum/MolecularFamily, GCF)</p> <code>dict[tuple[Spectrum | MolecularFamily, GCF], list[Strain]]</code> <p>and values are a list of shared Strain objects.</p> Source code in <code>src/nplinker/nplinker.py</code> <pre><code>def get_common_strains(\n    self,\n    met: Sequence[Spectrum] | Sequence[MolecularFamily],\n    gcfs: Sequence[GCF],\n    filter_no_shared: bool = True,\n) -&gt; dict[tuple[Spectrum | MolecularFamily, GCF], list[Strain]]:\n    \"\"\"Get common strains between given spectra/molecular families and GCFs.\n\n    Args:\n        met:\n            A list of Spectrum or MolecularFamily objects.\n        gcfs: A list of GCF objects.\n        filter_no_shared: If True, the pairs of spectrum/mf and GCF\n            without common strains will be removed from the returned dict;\n\n    Returns:\n        A dict where the keys are tuples of (Spectrum/MolecularFamily, GCF)\n        and values are a list of shared Strain objects.\n    \"\"\"\n    if not self._datalinks:\n        self._datalinks = self.scoring_method(MetcalfScoring.NAME).datalinks\n    common_strains = self._datalinks.get_common_strains(met, gcfs, filter_no_shared)\n    return common_strains\n</code></pre>"},{"location":"api/nplinker/#nplinker.nplinker.NPLinker.has_bgc","title":"has_bgc","text":"<pre><code>has_bgc(bgc_id)\n</code></pre> <p>Returns True if BGC <code>bgc_id</code> exists in the dataset.</p> Source code in <code>src/nplinker/nplinker.py</code> <pre><code>def has_bgc(self, bgc_id):\n    \"\"\"Returns True if BGC ``bgc_id`` exists in the dataset.\"\"\"\n    return bgc_id in self._bgc_lookup\n</code></pre>"},{"location":"api/nplinker/#nplinker.nplinker.NPLinker.lookup_bgc","title":"lookup_bgc","text":"<pre><code>lookup_bgc(bgc_id)\n</code></pre> <p>If BGC <code>bgc_id</code> exists, return it. Otherwise return None.</p> Source code in <code>src/nplinker/nplinker.py</code> <pre><code>def lookup_bgc(self, bgc_id):\n    \"\"\"If BGC ``bgc_id`` exists, return it. Otherwise return None.\"\"\"\n    return self._bgc_lookup.get(bgc_id, None)\n</code></pre>"},{"location":"api/nplinker/#nplinker.nplinker.NPLinker.lookup_gcf","title":"lookup_gcf","text":"<pre><code>lookup_gcf(gcf_id)\n</code></pre> <p>If GCF <code>gcf_id</code> exists, return it. Otherwise return None.</p> Source code in <code>src/nplinker/nplinker.py</code> <pre><code>def lookup_gcf(self, gcf_id):\n    \"\"\"If GCF ``gcf_id`` exists, return it. Otherwise return None.\"\"\"\n    return self._gcf_lookup.get(gcf_id, None)\n</code></pre>"},{"location":"api/nplinker/#nplinker.nplinker.NPLinker.lookup_spectrum","title":"lookup_spectrum","text":"<pre><code>lookup_spectrum(spectrum_id)\n</code></pre> <p>If Spectrum <code>name</code> exists, return it. Otherwise return None.</p> Source code in <code>src/nplinker/nplinker.py</code> <pre><code>def lookup_spectrum(self, spectrum_id):\n    \"\"\"If Spectrum ``name`` exists, return it. Otherwise return None.\"\"\"\n    return self._spec_lookup.get(spectrum_id, None)\n</code></pre>"},{"location":"api/nplinker/#nplinker.nplinker.NPLinker.lookup_mf","title":"lookup_mf","text":"<pre><code>lookup_mf(mf_id)\n</code></pre> <p>If MolecularFamily <code>family_id</code> exists, return it. Otherwise return None.</p> Source code in <code>src/nplinker/nplinker.py</code> <pre><code>def lookup_mf(self, mf_id):\n    \"\"\"If MolecularFamily `family_id` exists, return it. Otherwise return None.\"\"\"\n    return self._mf_lookup.get(mf_id, None)\n</code></pre>"},{"location":"api/nplinker/#nplinker.nplinker.NPLinker.scoring_method","title":"scoring_method","text":"<pre><code>scoring_method(name: str) -&gt; ScoringMethod | None\n</code></pre> <p>Return an instance of a scoring method.</p> <p>Parameters:</p> Name Type Description Default <code>name</code> <code>str</code> <p>the name of the method (see :func:<code>scoring_methods</code>)</p> required <p>Returns:</p> Type Description <code>ScoringMethod | None</code> <p>An instance of the named scoring method class, or None if the name is invalid</p> Source code in <code>src/nplinker/nplinker.py</code> <pre><code>def scoring_method(self, name: str) -&gt; ScoringMethod | None:\n    \"\"\"Return an instance of a scoring method.\n\n    Args:\n        name: the name of the method (see :func:`scoring_methods`)\n\n    Returns:\n        An instance of the named scoring method class, or None if the name is invalid\n    \"\"\"\n    if name not in self._scoring_methods_setup_complete:\n        return None\n\n    if not self._scoring_methods_setup_complete[name]:\n        self._scoring_methods[name].setup(self)\n        self._scoring_methods_setup_complete[name] = True\n\n    return self._scoring_methods.get(name, None)(self)\n</code></pre>"},{"location":"api/schema/","title":"Schemas","text":""},{"location":"api/schema/#nplinker.schemas","title":"schemas","text":""},{"location":"api/schema/#nplinker.schemas.PODP_ADAPTED_SCHEMA","title":"PODP_ADAPTED_SCHEMA  <code>module-attribute</code>","text":"<pre><code>PODP_ADAPTED_SCHEMA = load(f)\n</code></pre>"},{"location":"api/schema/#nplinker.schemas.SCHEMA_DIR","title":"SCHEMA_DIR  <code>module-attribute</code>","text":"<pre><code>SCHEMA_DIR = parent\n</code></pre>"},{"location":"api/schema/#nplinker.schemas.GENOME_STATUS_SCHEMA","title":"GENOME_STATUS_SCHEMA  <code>module-attribute</code>","text":"<pre><code>GENOME_STATUS_SCHEMA = load(f)\n</code></pre>"},{"location":"api/schema/#nplinker.schemas.GENOME_BGC_MAPPINGS_SCHEMA","title":"GENOME_BGC_MAPPINGS_SCHEMA  <code>module-attribute</code>","text":"<pre><code>GENOME_BGC_MAPPINGS_SCHEMA = load(f)\n</code></pre>"},{"location":"api/schema/#nplinker.schemas.STRAIN_MAPPINGS_SCHEMA","title":"STRAIN_MAPPINGS_SCHEMA  <code>module-attribute</code>","text":"<pre><code>STRAIN_MAPPINGS_SCHEMA = load(f)\n</code></pre>"},{"location":"api/schema/#nplinker.schemas.USER_STRAINS_SCHEMA","title":"USER_STRAINS_SCHEMA  <code>module-attribute</code>","text":"<pre><code>USER_STRAINS_SCHEMA = load(f)\n</code></pre>"},{"location":"api/schema/#nplinker.schemas.validate_podp_json","title":"validate_podp_json","text":"<pre><code>validate_podp_json(json_data: dict) -&gt; None\n</code></pre> <p>Validate a dictionary of JSON data against the PODP JSON schema.</p> <p>All validation error messages are collected and raised as a single ValueError.</p> <p>Parameters:</p> Name Type Description Default <code>json_data</code> <code>dict</code> <p>The JSON data to validate.</p> required <p>Raises:</p> Type Description <code>ValueError</code> <p>If the JSON data does not match the schema.</p> Source code in <code>src/nplinker/schemas/utils.py</code> <pre><code>def validate_podp_json(json_data: dict) -&gt; None:\n    \"\"\"Validate a dictionary of JSON data against the PODP JSON schema.\n\n    All validation error messages are collected and raised as a single\n    ValueError.\n\n    Parameters:\n        json_data: The JSON data to validate.\n\n    Raises:\n        ValueError: If the JSON data does not match the schema.\n    \"\"\"\n    validator = Draft7Validator(PODP_ADAPTED_SCHEMA)\n    errors = sorted(validator.iter_errors(json_data), key=lambda e: e.path)\n    if errors:\n        error_messages = [f\"{e.json_path}: {e.message}\" for e in errors]\n        raise ValueError(\n            \"Not match PODP adapted schema, here are the detailed error:\\n  - \"\n            + \"\\n  - \".join(error_messages)\n        )\n</code></pre>"},{"location":"api/scoring/","title":"Scoring","text":""},{"location":"api/scoring/#nplinker.scoring","title":"scoring","text":""},{"location":"api/scoring/#nplinker.scoring.ScoringMethod","title":"ScoringMethod","text":"<pre><code>ScoringMethod(npl)\n</code></pre> <p>Base class of scoring methods.</p> Source code in <code>src/nplinker/scoring/methods.py</code> <pre><code>def __init__(self, npl):\n    self.npl = npl\n    self.name = self.__class__.NAME\n</code></pre>"},{"location":"api/scoring/#nplinker.scoring.ScoringMethod.NAME","title":"NAME  <code>class-attribute</code> <code>instance-attribute</code>","text":"<pre><code>NAME = 'ScoringMethod'\n</code></pre>"},{"location":"api/scoring/#nplinker.scoring.ScoringMethod.npl","title":"npl  <code>instance-attribute</code>","text":"<pre><code>npl = npl\n</code></pre>"},{"location":"api/scoring/#nplinker.scoring.ScoringMethod.name","title":"name  <code>instance-attribute</code>","text":"<pre><code>name = NAME\n</code></pre>"},{"location":"api/scoring/#nplinker.scoring.ScoringMethod.setup","title":"setup  <code>staticmethod</code>","text":"<pre><code>setup(npl)\n</code></pre> <p>Perform any one-off initialisation required (will only be called once).</p> Source code in <code>src/nplinker/scoring/methods.py</code> <pre><code>@staticmethod\ndef setup(npl):\n    \"\"\"Perform any one-off initialisation required (will only be called once).\"\"\"\n    pass\n</code></pre>"},{"location":"api/scoring/#nplinker.scoring.ScoringMethod.get_links","title":"get_links","text":"<pre><code>get_links(*objects, link_collection: LinkCollection) -&gt; LinkCollection\n</code></pre> <p>Given a set of objects, return link information.</p> Source code in <code>src/nplinker/scoring/methods.py</code> <pre><code>def get_links(self, *objects, link_collection: LinkCollection) -&gt; LinkCollection:\n    \"\"\"Given a set of objects, return link information.\"\"\"\n    return link_collection\n</code></pre>"},{"location":"api/scoring/#nplinker.scoring.ScoringMethod.format_data","title":"format_data","text":"<pre><code>format_data(data)\n</code></pre> <p>Given whatever output data the method produces, return a readable string version.</p> Source code in <code>src/nplinker/scoring/methods.py</code> <pre><code>def format_data(self, data):\n    \"\"\"Given whatever output data the method produces, return a readable string version.\"\"\"\n    return \"\"\n</code></pre>"},{"location":"api/scoring/#nplinker.scoring.ScoringMethod.sort","title":"sort","text":"<pre><code>sort(objects, reverse=True)\n</code></pre> <p>Given a list of objects, return them sorted by link score.</p> Source code in <code>src/nplinker/scoring/methods.py</code> <pre><code>def sort(self, objects, reverse=True):\n    \"\"\"Given a list of objects, return them sorted by link score.\"\"\"\n    return objects\n</code></pre>"},{"location":"api/scoring/#nplinker.scoring.MetcalfScoring","title":"MetcalfScoring","text":"<pre><code>MetcalfScoring(npl: NPLinker)\n</code></pre> <p>             Bases: <code>ScoringMethod</code></p> <p>Metcalf scoring method.</p> <p>Attributes:</p> Name Type Description <code>DATALINKS</code> <p>The DataLinks object to use for scoring.</p> <code>LINKFINDER</code> <p>The LinkFinder object to use for scoring.</p> <code>NAME</code> <p>The name of the scoring method. This is set to 'metcalf'.</p> <p>Parameters:</p> Name Type Description Default <code>npl</code> <code>NPLinker</code> <p>The NPLinker object to use for scoring.</p> required <p>Attributes:</p> Name Type Description <code>cutoff</code> <p>The cutoff value to use for scoring. Scores below this value will be discarded. Defaults to 1.0.</p> <code>standardised</code> <p>Whether to use standardised scores. Defaults to True.</p> <code>name</code> <p>The name of the scoring method. It's set to a fixed value 'metcalf'.</p> Source code in <code>src/nplinker/scoring/metcalf_scoring.py</code> <pre><code>def __init__(self, npl: NPLinker) -&gt; None:\n    \"\"\"Create a MetcalfScoring object.\n\n    Args:\n        npl: The NPLinker object to use for scoring.\n\n    Attributes:\n        cutoff: The cutoff value to use for scoring. Scores below\n            this value will be discarded. Defaults to 1.0.\n        standardised: Whether to use standardised scores. Defaults\n            to True.\n        name: The name of the scoring method. It's set to a fixed value\n            'metcalf'.\n    \"\"\"\n    super().__init__(npl)\n    self.cutoff = 1.0\n    self.standardised = True\n</code></pre>"},{"location":"api/scoring/#nplinker.scoring.MetcalfScoring.DATALINKS","title":"DATALINKS  <code>class-attribute</code> <code>instance-attribute</code>","text":"<pre><code>DATALINKS = None\n</code></pre>"},{"location":"api/scoring/#nplinker.scoring.MetcalfScoring.LINKFINDER","title":"LINKFINDER  <code>class-attribute</code> <code>instance-attribute</code>","text":"<pre><code>LINKFINDER = None\n</code></pre>"},{"location":"api/scoring/#nplinker.scoring.MetcalfScoring.NAME","title":"NAME  <code>class-attribute</code> <code>instance-attribute</code>","text":"<pre><code>NAME = 'metcalf'\n</code></pre>"},{"location":"api/scoring/#nplinker.scoring.MetcalfScoring.cutoff","title":"cutoff  <code>instance-attribute</code>","text":"<pre><code>cutoff = 1.0\n</code></pre>"},{"location":"api/scoring/#nplinker.scoring.MetcalfScoring.standardised","title":"standardised  <code>instance-attribute</code>","text":"<pre><code>standardised = True\n</code></pre>"},{"location":"api/scoring/#nplinker.scoring.MetcalfScoring.datalinks","title":"datalinks  <code>property</code>","text":"<pre><code>datalinks: DataLinks\n</code></pre>"},{"location":"api/scoring/#nplinker.scoring.MetcalfScoring.setup","title":"setup  <code>staticmethod</code>","text":"<pre><code>setup(npl: NPLinker)\n</code></pre> <p>Setup the MetcalfScoring object.</p> <p>DataLinks and LinkFinder objects are created and cached for later use.</p> Source code in <code>src/nplinker/scoring/metcalf_scoring.py</code> <pre><code>@staticmethod\ndef setup(npl: NPLinker):\n    \"\"\"Setup the MetcalfScoring object.\n\n    DataLinks and LinkFinder objects are created and cached for later use.\n    \"\"\"\n    logger.info(\n        \"MetcalfScoring.setup (bgcs={}, gcfs={}, spectra={}, molfams={}, strains={})\".format(\n            len(npl.bgcs), len(npl.gcfs), len(npl.spectra), len(npl.molfams), len(npl.strains)\n        )\n    )\n\n    cache_dir = os.path.join(npl.root_dir, \"metcalf\")\n    cache_file = os.path.join(cache_dir, \"metcalf_scores.pckl\")\n    os.makedirs(cache_dir, exist_ok=True)\n\n    # the metcalf preprocessing can take a long time for large datasets, so it's\n    # better to cache as the data won't change unless the number of objects does\n    dataset_counts = [\n        len(npl.bgcs),\n        len(npl.gcfs),\n        len(npl.spectra),\n        len(npl.molfams),\n        len(npl.strains),\n    ]\n    datalinks, linkfinder = None, None\n    if os.path.exists(cache_file):\n        logger.debug(\"MetcalfScoring.setup loading cached data\")\n        cache_data = load_pickled_data(npl, cache_file)\n        cache_ok = True\n        if cache_data is not None:\n            (counts, datalinks, linkfinder) = cache_data\n            # need to invalidate this if dataset appears to have changed\n            for i in range(len(counts)):\n                if counts[i] != dataset_counts[i]:\n                    logger.info(\"MetcalfScoring.setup invalidating cached data!\")\n                    cache_ok = False\n                    break\n\n        if cache_ok:\n            MetcalfScoring.DATALINKS = datalinks\n            MetcalfScoring.LINKFINDER = linkfinder\n\n    if MetcalfScoring.DATALINKS is None:\n        logger.info(\"MetcalfScoring.setup preprocessing dataset (this may take some time)\")\n        MetcalfScoring.DATALINKS = DataLinks(npl.gcfs, npl.spectra, npl.molfams, npl.strains)\n        MetcalfScoring.LINKFINDER = LinkFinder()\n        MetcalfScoring.LINKFINDER.calc_score(MetcalfScoring.DATALINKS, link_type=LINK_TYPES[0])\n        MetcalfScoring.LINKFINDER.calc_score(MetcalfScoring.DATALINKS, link_type=LINK_TYPES[1])\n        logger.debug(\"MetcalfScoring.setup caching results\")\n        save_pickled_data(\n            (dataset_counts, MetcalfScoring.DATALINKS, MetcalfScoring.LINKFINDER), cache_file\n        )\n\n    logger.info(\"MetcalfScoring.setup completed\")\n</code></pre>"},{"location":"api/scoring/#nplinker.scoring.MetcalfScoring.get_links","title":"get_links","text":"<pre><code>get_links(*objects: GCF | Spectrum | MolecularFamily, link_collection: LinkCollection) -&gt; LinkCollection\n</code></pre> <p>Get links for the given objects and add them to the given LinkCollection.</p> <p>The given objects are treated as input or source objects, which must be GCF, Spectrum or MolecularFamily objects.</p> <p>Parameters:</p> Name Type Description Default <code>objects</code> <code>GCF | Spectrum | MolecularFamily</code> <p>The objects to get links for. Must be GCF, Spectrum or MolecularFamily objects.</p> <code>()</code> <code>link_collection</code> <code>LinkCollection</code> <p>The LinkCollection object to add the links to.</p> required <p>Returns:</p> Type Description <code>LinkCollection</code> <p>The LinkCollection object with the new links added.</p> <p>Raises:</p> Type Description <code>ValueError</code> <p>If the input objects are empty.</p> <code>TypeError</code> <p>If the input objects are not of the correct type.</p> <code>ValueError</code> <p>If LinkFinder instance has not been created (MetcalfScoring object has not been setup).</p> Source code in <code>src/nplinker/scoring/metcalf_scoring.py</code> <pre><code>def get_links(\n    self, *objects: GCF | Spectrum | MolecularFamily, link_collection: LinkCollection\n) -&gt; LinkCollection:\n    \"\"\"Get links for the given objects and add them to the given LinkCollection.\n\n    The given objects are treated as input or source objects, which must\n    be GCF, Spectrum or MolecularFamily objects.\n\n    Args:\n        objects: The objects to get links for. Must be GCF, Spectrum\n            or MolecularFamily objects.\n        link_collection: The LinkCollection object to add the links to.\n\n    Returns:\n        The LinkCollection object with the new links added.\n\n    Raises:\n        ValueError: If the input objects are empty.\n        TypeError: If the input objects are not of the correct type.\n        ValueError: If LinkFinder instance has not been created\n            (MetcalfScoring object has not been setup).\n    \"\"\"\n    if len(objects) == 0:\n        raise ValueError(\"Empty input objects.\")\n\n    if isinstance_all(*objects, objtype=GCF):\n        obj_type = \"gcf\"\n    elif isinstance_all(*objects, objtype=Spectrum):\n        obj_type = \"spec\"\n    elif isinstance_all(*objects, objtype=MolecularFamily):\n        obj_type = \"mf\"\n    else:\n        types = [type(i) for i in objects]\n        raise TypeError(\n            f\"Invalid type {set(types)}. Input objects must be GCF, Spectrum or MolecularFamily objects.\"\n        )\n\n    if self.LINKFINDER is None:\n        raise ValueError(\n            (\"LinkFinder object not found. Have you called `MetcalfScoring.setup(npl)`?\")\n        )\n\n    logger.debug(f\"MetcalfScoring: standardised = {self.standardised}\")\n    if not self.standardised:\n        scores_list = self.LINKFINDER.get_links(*objects, score_cutoff=self.cutoff)\n    # TODO CG: verify the logics of standardised score and add unit tests\n    else:\n        # use negative infinity as the score cutoff to ensure we get all links\n        # the self.cutoff will be applied later in the postprocessing step\n        scores_list = self.LINKFINDER.get_links(*objects, score_cutoff=np.NINF)\n        if obj_type == \"gcf\":\n            scores_list = self._calc_standardised_score_gen(self.LINKFINDER, scores_list)\n        else:\n            scores_list = self._calc_standardised_score_met(self.LINKFINDER, scores_list)\n\n    link_scores: dict[\n        GCF | Spectrum | MolecularFamily, dict[GCF | Spectrum | MolecularFamily, ObjectLink]\n    ] = {}\n    if obj_type == \"gcf\":\n        logger.debug(\n            f\"MetcalfScoring: input_type=GCF, result_type=Spec/MolFam, \"\n            f\"#inputs={len(objects)}.\"\n        )\n        for scores in scores_list:\n            # when no links found\n            if scores.shape[1] == 0:\n                logger.debug(f'MetcalfScoring: found no \"{scores.name}\" links')\n            else:\n                # when links found\n                for col_index in range(scores.shape[1]):\n                    gcf = self.npl.lookup_gcf(scores.loc[\"source\", col_index])\n                    if scores.name == LINK_TYPES[0]:\n                        met = self.npl.lookup_spectrum(scores.loc[\"target\", col_index])\n                    else:\n                        met = self.npl.lookup_mf(scores.loc[\"target\", col_index])\n                    if gcf not in link_scores:\n                        link_scores[gcf] = {}\n                    # TODO CG: use id instead of object for gcf, met and self?\n                    link_scores[gcf][met] = ObjectLink(\n                        gcf, met, self, scores.loc[\"score\", col_index]\n                    )\n                logger.debug(f\"MetcalfScoring: found {len(link_scores)} {scores.name} links.\")\n    else:\n        logger.debug(\n            f\"MetcalfScoring: input_type=Spec/MolFam, result_type=GCF, \"\n            f\"#inputs={len(objects)}.\"\n        )\n        scores = scores_list[0]\n        # when no links found\n        if scores.shape[1] == 0:\n            logger.debug(f'MetcalfScoring: found no links \"{scores.name}\" for input objects')\n        else:\n            for col_index in range(scores.shape[1]):\n                gcf = self.npl.lookup_gcf(scores.loc[\"target\", col_index])\n                if scores.name == LINK_TYPES[0]:\n                    met = self.npl.lookup_spectrum(scores.loc[\"source\", col_index])\n                else:\n                    met = self.npl.lookup_mf(scores.loc[\"source\", col_index])\n                if met not in link_scores:\n                    link_scores[met] = {}\n                link_scores[met][gcf] = ObjectLink(\n                    met, gcf, self, scores.loc[\"score\", col_index]\n                )\n            logger.debug(f\"MetcalfScoring: found {len(link_scores)} {scores.name} links.\")\n\n    link_collection._add_links_from_method(self, link_scores)\n    logger.debug(\"MetcalfScoring: completed\")\n    return link_collection\n</code></pre>"},{"location":"api/scoring/#nplinker.scoring.MetcalfScoring.format_data","title":"format_data","text":"<pre><code>format_data(data)\n</code></pre> Source code in <code>src/nplinker/scoring/metcalf_scoring.py</code> <pre><code>def format_data(self, data):\n    # for metcalf the data will just be a floating point value (i.e. the score)\n    return f\"{data:.4f}\"\n</code></pre>"},{"location":"api/scoring/#nplinker.scoring.MetcalfScoring.sort","title":"sort","text":"<pre><code>sort(objects, reverse=True)\n</code></pre> Source code in <code>src/nplinker/scoring/metcalf_scoring.py</code> <pre><code>def sort(self, objects, reverse=True):\n    # sort based on score\n    return sorted(objects, key=lambda objlink: objlink[self], reverse=reverse)\n</code></pre>"},{"location":"api/scoring/#nplinker.scoring.LinkCollection","title":"LinkCollection","text":"<pre><code>LinkCollection(and_mode=True)\n</code></pre> <p>Class which stores the results of running one or more scoring methods.</p> <p>It provides access to the set of objects which were found to have links, the set of objects linked to each of those objects, and the information produced by the scoring method(s) about each link.</p> <p>There are also some useful utility methods to filter the original results.</p> Source code in <code>src/nplinker/scoring/link_collection.py</code> <pre><code>def __init__(self, and_mode=True):\n    self._methods = set()\n    self._link_data = {}\n    self._targets = {}\n    self._and_mode = and_mode\n</code></pre>"},{"location":"api/scoring/#nplinker.scoring.LinkCollection.methods","title":"methods  <code>property</code>","text":"<pre><code>methods\n</code></pre>"},{"location":"api/scoring/#nplinker.scoring.LinkCollection.sources","title":"sources  <code>property</code>","text":"<pre><code>sources\n</code></pre>"},{"location":"api/scoring/#nplinker.scoring.LinkCollection.links","title":"links  <code>property</code>","text":"<pre><code>links\n</code></pre>"},{"location":"api/scoring/#nplinker.scoring.LinkCollection.source_count","title":"source_count  <code>property</code>","text":"<pre><code>source_count\n</code></pre>"},{"location":"api/scoring/#nplinker.scoring.LinkCollection.method_count","title":"method_count  <code>property</code>","text":"<pre><code>method_count\n</code></pre>"},{"location":"api/scoring/#nplinker.scoring.LinkCollection.filter_no_shared_strains","title":"filter_no_shared_strains","text":"<pre><code>filter_no_shared_strains()\n</code></pre> Source code in <code>src/nplinker/scoring/link_collection.py</code> <pre><code>def filter_no_shared_strains(self):\n    len_before = len(self._link_data)\n    self.filter_links(lambda x: len(x.shared_strains) &gt; 0)\n    logger.debug(\"filter_no_shared_strains: {} =&gt; {}\".format(len_before, len(self._link_data)))\n</code></pre>"},{"location":"api/scoring/#nplinker.scoring.LinkCollection.filter_sources","title":"filter_sources","text":"<pre><code>filter_sources(callable_obj)\n</code></pre> Source code in <code>src/nplinker/scoring/link_collection.py</code> <pre><code>def filter_sources(self, callable_obj):\n    len_before = len(self._link_data)\n    self._link_data = {k: v for k, v in self._link_data.items() if callable_obj(k)}\n    logger.debug(\"filter_sources: {} =&gt; {}\".format(len_before, len(self._link_data)))\n</code></pre>"},{"location":"api/scoring/#nplinker.scoring.LinkCollection.filter_targets","title":"filter_targets","text":"<pre><code>filter_targets(callable_obj, sources=None)\n</code></pre> Source code in <code>src/nplinker/scoring/link_collection.py</code> <pre><code>def filter_targets(self, callable_obj, sources=None):\n    to_remove = []\n    sources_list = self._link_data.keys() if sources is None else sources\n    for source in sources_list:\n        self._link_data[source] = {\n            k: v for k, v in self._link_data[source].items() if callable_obj(k)\n        }\n        # if there are now no links for this source, remove it completely\n        if len(self._link_data[source]) == 0:\n            to_remove.append(source)\n\n    for source in to_remove:\n        del self._link_data[source]\n</code></pre>"},{"location":"api/scoring/#nplinker.scoring.LinkCollection.filter_links","title":"filter_links","text":"<pre><code>filter_links(callable_obj, sources=None)\n</code></pre> Source code in <code>src/nplinker/scoring/link_collection.py</code> <pre><code>def filter_links(self, callable_obj, sources=None):\n    to_remove = []\n    sources_list = self._link_data.keys() if sources is None else sources\n    for source in sources_list:\n        self._link_data[source] = {\n            k: v for k, v in self._link_data[source].items() if callable_obj(v)\n        }\n        # if there are now no links for this source, remove it completely\n        if len(self._link_data[source]) == 0:\n            to_remove.append(source)\n\n    for source in to_remove:\n        del self._link_data[source]\n</code></pre>"},{"location":"api/scoring/#nplinker.scoring.LinkCollection.get_sorted_links","title":"get_sorted_links","text":"<pre><code>get_sorted_links(method, source, reverse=True, strict=False)\n</code></pre> Source code in <code>src/nplinker/scoring/link_collection.py</code> <pre><code>def get_sorted_links(self, method, source, reverse=True, strict=False):\n    # This method allows for the sorting of a set of links according to the\n    # sorting implemented by a specific method. However because there may be\n    # links from multiple methods present in the collection, it isn't as simple\n    # as running &lt;method&gt;.sort(links) and returning the result, because that\n    # will only work on links which have the expected method data. To get around\n    # this, the \"strict\" parameter is used. If set to True, it simply returns\n    # the sorted links *for the specific method only*, which may be a subset\n    # of the total collection if multiple methods were used to generate it. If\n    # set to False, it will return a list consisting of the sorted links for\n    # the given method, with any remaining links appended in arbitrary order.\n\n    # run &lt;method&gt;.sort on the links found by that method\n    sorted_links_for_method = method.sort(\n        [link for link in self._link_data[source].values() if method in link.methods], reverse\n    )\n\n    if not strict:\n        # append any remaining links\n        sorted_links_for_method.extend(\n            [link for link in self._link_data[source].values() if method not in link.methods]\n        )\n\n    return sorted_links_for_method\n</code></pre>"},{"location":"api/scoring/#nplinker.scoring.LinkCollection.get_all_targets","title":"get_all_targets","text":"<pre><code>get_all_targets()\n</code></pre> Source code in <code>src/nplinker/scoring/link_collection.py</code> <pre><code>def get_all_targets(self):\n    return list(\n        set(\n            itertools.chain.from_iterable(\n                self._link_data[x].keys() for x in self._link_data.keys()\n            )\n        )\n    )\n</code></pre>"},{"location":"api/scoring/#nplinker.scoring.ObjectLink","title":"ObjectLink","text":"<pre><code>ObjectLink(source, target, method, data=None, shared_strains=[])\n</code></pre> <p>Class which stores information about a single link between two objects.</p> <p>There will be at most one instance of an ObjectLink for a given pair of objects (source, target) after running 1 or more scoring methods. Some methods, e.g. Metcalf, will always produce a single output per link. However other methods like Rosetta may find multiple \"hits\" for a given pair. In either case the data for a given method is associated with the ObjectLink so it can be retrieved afterwards.</p> The information stored is basically <ul> <li>the \"source\" of the link (original object provided as part of the input)</li> <li>the \"target\" of the link (linked object, as determined by the method(s) used)</li> <li>a (possibly empty) list of Strain objects shared between source and target</li> <li>the output of the scoring method(s) used for this link (e.g. a metcalf score)</li> </ul> Source code in <code>src/nplinker/scoring/object_link.py</code> <pre><code>def __init__(self, source, target, method, data=None, shared_strains=[]):\n    self.source = source\n    self.target = target\n    self.shared_strains = shared_strains\n    self._method_data = {method: data}\n</code></pre>"},{"location":"api/scoring/#nplinker.scoring.ObjectLink.source","title":"source  <code>instance-attribute</code>","text":"<pre><code>source = source\n</code></pre>"},{"location":"api/scoring/#nplinker.scoring.ObjectLink.target","title":"target  <code>instance-attribute</code>","text":"<pre><code>target = target\n</code></pre>"},{"location":"api/scoring/#nplinker.scoring.ObjectLink.shared_strains","title":"shared_strains  <code>instance-attribute</code>","text":"<pre><code>shared_strains = shared_strains\n</code></pre>"},{"location":"api/scoring/#nplinker.scoring.ObjectLink.method_count","title":"method_count  <code>property</code>","text":"<pre><code>method_count\n</code></pre>"},{"location":"api/scoring/#nplinker.scoring.ObjectLink.methods","title":"methods  <code>property</code>","text":"<pre><code>methods\n</code></pre>"},{"location":"api/scoring/#nplinker.scoring.ObjectLink.set_data","title":"set_data","text":"<pre><code>set_data(method, newdata)\n</code></pre> Source code in <code>src/nplinker/scoring/object_link.py</code> <pre><code>def set_data(self, method, newdata):\n    self._method_data[method] = newdata\n</code></pre>"},{"location":"api/scoring/#nplinker.scoring.ObjectLink.data","title":"data","text":"<pre><code>data(method)\n</code></pre> Source code in <code>src/nplinker/scoring/object_link.py</code> <pre><code>def data(self, method):\n    return self._method_data[method]\n</code></pre>"},{"location":"api/strain/","title":"Data Models","text":""},{"location":"api/strain/#nplinker.strain","title":"strain","text":""},{"location":"api/strain/#nplinker.strain.Strain","title":"Strain","text":"<pre><code>Strain(primary_id: str)\n</code></pre> <p>To model the mapping between strain id and its aliases.</p> <p>It's recommended to use NCBI taxonomy strain id or name as the primary id.</p> <p>Parameters:</p> Name Type Description Default <code>primary_id</code> <code>str</code> <p>the representative id of the strain.</p> required Source code in <code>src/nplinker/strain/strain.py</code> <pre><code>def __init__(self, primary_id: str) -&gt; None:\n    \"\"\"To model the mapping between strain id and its aliases.\n\n    Args:\n        primary_id: the representative id of the strain.\n    \"\"\"\n    self.id: str = primary_id\n    self._aliases: set[str] = set()\n</code></pre>"},{"location":"api/strain/#nplinker.strain.Strain.id","title":"id  <code>instance-attribute</code>","text":"<pre><code>id: str = primary_id\n</code></pre>"},{"location":"api/strain/#nplinker.strain.Strain.names","title":"names  <code>property</code>","text":"<pre><code>names: set[str]\n</code></pre> <p>Get the set of strain names including id and aliases.</p> <p>Returns:</p> Type Description <code>set[str]</code> <p>A set of names associated with the strain.</p>"},{"location":"api/strain/#nplinker.strain.Strain.aliases","title":"aliases  <code>property</code>","text":"<pre><code>aliases: set[str]\n</code></pre> <p>Get the set of known aliases.</p> <p>Returns:</p> Type Description <code>set[str]</code> <p>A set of aliases associated with the strain.</p>"},{"location":"api/strain/#nplinker.strain.Strain.add_alias","title":"add_alias","text":"<pre><code>add_alias(alias: str) -&gt; None\n</code></pre> <p>Add an alias to the list of known aliases.</p> <p>Parameters:</p> Name Type Description Default <code>alias</code> <code>str</code> <p>The alias to add to the list of known aliases.</p> required Source code in <code>src/nplinker/strain/strain.py</code> <pre><code>def add_alias(self, alias: str) -&gt; None:\n    \"\"\"Add an alias to the list of known aliases.\n\n    Args:\n        alias: The alias to add to the list of known aliases.\n    \"\"\"\n    if not isinstance(alias, str):\n        raise TypeError(f\"Expected str, got {type(alias)}\")\n    if len(alias) == 0:\n        logger.warning(\"Refusing to add an empty-string alias to strain {%s}\", self)\n    else:\n        self._aliases.add(alias)\n</code></pre>"},{"location":"api/strain/#nplinker.strain.StrainCollection","title":"StrainCollection","text":"<pre><code>StrainCollection()\n</code></pre> <p>A collection of Strain objects.</p> Source code in <code>src/nplinker/strain/strain_collection.py</code> <pre><code>def __init__(self):\n    # the order of strains is needed for scoring part, so use a list\n    self._strains: list[Strain] = []\n    self._strain_dict_name: dict[str, list[Strain]] = {}\n</code></pre>"},{"location":"api/strain/#nplinker.strain.StrainCollection.add","title":"add","text":"<pre><code>add(strain: Strain) -&gt; None\n</code></pre> <p>Add strain to the collection.</p> <p>If the strain already exists, merge the aliases.</p> <p>Parameters:</p> Name Type Description Default <code>strain</code> <code>Strain</code> <p>The strain to add.</p> required Source code in <code>src/nplinker/strain/strain_collection.py</code> <pre><code>def add(self, strain: Strain) -&gt; None:\n    \"\"\"Add strain to the collection.\n\n    If the strain already exists, merge the aliases.\n\n    Args:\n        strain: The strain to add.\n    \"\"\"\n    if strain in self._strains:\n        # only one strain object per id\n        strain_ref = self._strain_dict_name[strain.id][0]\n        new_aliases = [alias for alias in strain.aliases if alias not in strain_ref.aliases]\n        for alias in new_aliases:\n            strain_ref.add_alias(alias)\n            if alias not in self._strain_dict_name:\n                self._strain_dict_name[alias] = [strain_ref]\n            else:\n                self._strain_dict_name[alias].append(strain_ref)\n    else:\n        self._strains.append(strain)\n        for name in strain.names:\n            if name not in self._strain_dict_name:\n                self._strain_dict_name[name] = [strain]\n            else:\n                self._strain_dict_name[name].append(strain)\n</code></pre>"},{"location":"api/strain/#nplinker.strain.StrainCollection.remove","title":"remove","text":"<pre><code>remove(strain: Strain)\n</code></pre> <p>Remove a strain from the collection.</p> <p>It removes the given strain object from the collection by strain id. If the strain id is not found, raise ValueError.</p> <p>Parameters:</p> Name Type Description Default <code>strain</code> <code>Strain</code> <p>The strain to remove.</p> required <p>Raises:</p> Type Description <code>ValueError</code> <p>If the strain is not found in the collection.</p> Source code in <code>src/nplinker/strain/strain_collection.py</code> <pre><code>def remove(self, strain: Strain):\n    \"\"\"Remove a strain from the collection.\n\n    It removes the given strain object from the collection by strain id.\n    If the strain id is not found, raise ValueError.\n\n    Args:\n        strain: The strain to remove.\n\n    Raises:\n        ValueError: If the strain is not found in the collection.\n    \"\"\"\n    if strain in self._strains:\n        self._strains.remove(strain)\n        # only one strain object per id\n        strain_ref = self._strain_dict_name[strain.id][0]\n        for name in strain_ref.names:\n            if name in self._strain_dict_name:\n                new_strain_list = [s for s in self._strain_dict_name[name] if s.id != strain.id]\n                if not new_strain_list:\n                    del self._strain_dict_name[name]\n                else:\n                    self._strain_dict_name[name] = new_strain_list\n    else:\n        raise ValueError(f\"Strain {strain} not found in strain collection.\")\n</code></pre>"},{"location":"api/strain/#nplinker.strain.StrainCollection.filter","title":"filter","text":"<pre><code>filter(strain_set: set[Strain])\n</code></pre> <p>Remove all strains that are not in strain_set from the strain collection.</p> <p>Parameters:</p> Name Type Description Default <code>strain_set</code> <code>set[Strain]</code> <p>Set of strains to keep.</p> required Source code in <code>src/nplinker/strain/strain_collection.py</code> <pre><code>def filter(self, strain_set: set[Strain]):\n    \"\"\"Remove all strains that are not in strain_set from the strain collection.\n\n    Args:\n        strain_set: Set of strains to keep.\n    \"\"\"\n    # note that we need to copy the list of strains, as we are modifying it\n    for strain in self._strains.copy():\n        if strain not in strain_set:\n            self.remove(strain)\n</code></pre>"},{"location":"api/strain/#nplinker.strain.StrainCollection.has_name","title":"has_name","text":"<pre><code>has_name(name: str) -&gt; bool\n</code></pre> <p>Check if the strain collection contains the given strain name (id or alias).</p> <p>Parameters:</p> Name Type Description Default <code>name</code> <code>str</code> <p>Strain name (id or alias) to check.</p> required <p>Returns:</p> Type Description <code>bool</code> <p>True if the strain name is in the collection, False otherwise.</p> Source code in <code>src/nplinker/strain/strain_collection.py</code> <pre><code>def has_name(self, name: str) -&gt; bool:\n    \"\"\"Check if the strain collection contains the given strain name (id or alias).\n\n    Args:\n        name: Strain name (id or alias) to check.\n\n    Returns:\n        True if the strain name is in the collection, False otherwise.\n    \"\"\"\n    return name in self._strain_dict_name\n</code></pre>"},{"location":"api/strain/#nplinker.strain.StrainCollection.lookup","title":"lookup","text":"<pre><code>lookup(name: str) -&gt; list[Strain]\n</code></pre> <p>Lookup a strain by name (id or alias).</p> <p>Parameters:</p> Name Type Description Default <code>name</code> <code>str</code> <p>Strain name (id or alias) to lookup.</p> required <p>Returns:</p> Type Description <code>list[Strain]</code> <p>List of Strain objects with the given name.</p> <p>Raises:</p> Type Description <code>ValueError</code> <p>If the strain name is not found.</p> Source code in <code>src/nplinker/strain/strain_collection.py</code> <pre><code>def lookup(self, name: str) -&gt; list[Strain]:\n    \"\"\"Lookup a strain by name (id or alias).\n\n    Args:\n        name: Strain name (id or alias) to lookup.\n\n    Returns:\n        List of Strain objects with the given name.\n\n    Raises:\n        ValueError: If the strain name is not found.\n    \"\"\"\n    if name in self._strain_dict_name:\n        return self._strain_dict_name[name]\n    raise ValueError(f\"Strain {name} not found in the strain collection.\")\n</code></pre>"},{"location":"api/strain/#nplinker.strain.StrainCollection.read_json","title":"read_json  <code>staticmethod</code>","text":"<pre><code>read_json(file: str | PathLike) -&gt; 'StrainCollection'\n</code></pre> <p>Read a strain mappings JSON file and return a StrainCollection object.</p> <p>Parameters:</p> Name Type Description Default <code>file</code> <code>str | PathLike</code> <p>Path to the strain mappings JSON file.</p> required <p>Returns:</p> Type Description <code>'StrainCollection'</code> <p>StrainCollection object.</p> Source code in <code>src/nplinker/strain/strain_collection.py</code> <pre><code>@staticmethod\ndef read_json(file: str | PathLike) -&gt; \"StrainCollection\":\n    \"\"\"Read a strain mappings JSON file and return a StrainCollection object.\n\n    Args:\n        file: Path to the strain mappings JSON file.\n\n    Returns:\n        StrainCollection object.\n    \"\"\"\n    with open(file, \"r\") as f:\n        json_data = json.load(f)\n\n    # validate json data\n    validate(instance=json_data, schema=STRAIN_MAPPINGS_SCHEMA)\n\n    strain_collection = StrainCollection()\n    for data in json_data[\"strain_mappings\"]:\n        strain = Strain(data[\"strain_id\"])\n        for alias in data[\"strain_alias\"]:\n            strain.add_alias(alias)\n        strain_collection.add(strain)\n    return strain_collection\n</code></pre>"},{"location":"api/strain/#nplinker.strain.StrainCollection.to_json","title":"to_json","text":"<pre><code>to_json(file: str | PathLike | None = None) -&gt; str | None\n</code></pre> <p>Convert the StrainCollection object to a JSON string.</p> <p>Parameters:</p> Name Type Description Default <code>file</code> <code>str | PathLike | None</code> <p>Path to output JSON file. If None, return the JSON string instead.</p> <code>None</code> <p>Returns:</p> Type Description <code>str | None</code> <p>If <code>file</code> is None, return the JSON string. Otherwise, write the JSON string to the given</p> <code>str | None</code> <p>file.</p> Source code in <code>src/nplinker/strain/strain_collection.py</code> <pre><code>def to_json(self, file: str | PathLike | None = None) -&gt; str | None:\n    \"\"\"Convert the StrainCollection object to a JSON string.\n\n    Args:\n        file: Path to output JSON file. If None,\n            return the JSON string instead.\n\n    Returns:\n        If `file` is None, return the JSON string. Otherwise, write the JSON string to the given\n        file.\n    \"\"\"\n    data_list = [\n        {\"strain_id\": strain.id, \"strain_alias\": list(strain.aliases)} for strain in self\n    ]\n    json_data = {\"strain_mappings\": data_list, \"version\": \"1.0\"}\n\n    # validate json data\n    validate(instance=json_data, schema=STRAIN_MAPPINGS_SCHEMA)\n\n    if file is not None:\n        with open(file, \"w\") as f:\n            json.dump(json_data, f)\n        return None\n    return json.dumps(json_data)\n</code></pre>"},{"location":"api/strain_utils/","title":"Utilities","text":""},{"location":"api/strain_utils/#nplinker.strain.utils","title":"utils","text":""},{"location":"api/strain_utils/#nplinker.strain.utils.logger","title":"logger  <code>module-attribute</code>","text":"<pre><code>logger = getLogger(__name__)\n</code></pre>"},{"location":"api/strain_utils/#nplinker.strain.utils.load_user_strains","title":"load_user_strains","text":"<pre><code>load_user_strains(json_file: str | PathLike) -&gt; set[Strain]\n</code></pre> <p>Load user specified strains from a JSON file.</p> <p>The JSON file must follow the schema defined in <code>schemas/user_strains.json</code>.</p> An example content of the JSON file <pre><code>{\"strain_ids\": [\"strain1\", \"strain2\"]}\n</code></pre> <p>Parameters:</p> Name Type Description Default <code>json_file</code> <code>str | PathLike</code> <p>Path to the JSON file containing user specified strains.</p> required <p>Returns:</p> Type Description <code>set[Strain]</code> <p>A set of user specified strains.</p> Source code in <code>src/nplinker/strain/utils.py</code> <pre><code>def load_user_strains(json_file: str | PathLike) -&gt; set[Strain]:\n    \"\"\"Load user specified strains from a JSON file.\n\n    The JSON file must follow the schema defined in `schemas/user_strains.json`.\n\n    An example content of the JSON file:\n        ```\n        {\"strain_ids\": [\"strain1\", \"strain2\"]}\n        ```\n\n    Args:\n        json_file: Path to the JSON file containing user specified strains.\n\n    Returns:\n        A set of user specified strains.\n    \"\"\"\n    with open(json_file, \"r\") as f:\n        json_data = json.load(f)\n\n    # validate json data\n    validate(instance=json_data, schema=USER_STRAINS_SCHEMA)\n\n    strains = set()\n    for strain_id in json_data[\"strain_ids\"]:\n        strains.add(Strain(strain_id))\n\n    return strains\n</code></pre>"},{"location":"api/strain_utils/#nplinker.strain.utils.podp_generate_strain_mappings","title":"podp_generate_strain_mappings","text":"<pre><code>podp_generate_strain_mappings(podp_project_json_file: str | PathLike, genome_status_json_file: str | PathLike, genome_bgc_mappings_file: str | PathLike, gnps_file_mappings_file: str | PathLike, output_json_file: str | PathLike) -&gt; StrainCollection\n</code></pre> <p>Generate strain mappings JSON file for PODP pipeline.</p> <p>To get the strain mappings, we need to combine the following mappings:</p> <ul> <li>strain_id &lt;-&gt; original_genome_id &lt;-&gt; resolved_genome_id &lt;-&gt; bgc_id</li> <li>strain_id &lt;-&gt; MS_filename &lt;-&gt; spectrum_id</li> </ul> <p>These mappings are extracted from the following files:</p> <ul> <li>\"strain_id &lt;-&gt; original_genome_id\" is extracted from <code>podp_project_json_file</code>.</li> <li>\"original_genome_id &lt;-&gt; resolved_genome_id\" is extracted from <code>genome_status_json_file</code>.</li> <li>\"resolved_genome_id &lt;-&gt; bgc_id\" is extracted from <code>genome_bgc_mappings_file</code>.</li> <li>\"strain_id &lt;-&gt; MS_filename\" is extracted from <code>podp_project_json_file</code>.</li> <li>\"MS_filename &lt;-&gt; spectrum_id\" is extracted from <code>gnps_file_mappings_file</code>.</li> </ul> <p>Parameters:</p> Name Type Description Default <code>podp_project_json_file</code> <code>str | PathLike</code> <p>The path to the PODP project JSON file.</p> required <code>genome_status_json_file</code> <code>str | PathLike</code> <p>The path to the genome status JSON file.</p> required <code>genome_bgc_mappings_file</code> <code>str | PathLike</code> <p>The path to the genome BGC mappings JSON file.</p> required <code>gnps_file_mappings_file</code> <code>str | PathLike</code> <p>The path to the GNPS file mappings file (csv or tsv).</p> required <code>output_json_file</code> <code>str | PathLike</code> <p>The path to the output JSON file.</p> required <p>Returns:</p> Type Description <code>StrainCollection</code> <p>The strain mappings stored in a StrainCollection object.</p> See Also <ul> <li><code>extract_mappings_strain_id_original_genome_id</code>: Extract mappings     \"strain_id &lt;-&gt; original_genome_id\".</li> <li><code>extract_mappings_original_genome_id_resolved_genome_id</code>: Extract mappings     \"original_genome_id &lt;-&gt; resolved_genome_id\".</li> <li><code>extract_mappings_resolved_genome_id_bgc_id</code>: Extract mappings     \"resolved_genome_id &lt;-&gt; bgc_id\".</li> <li><code>get_mappings_strain_id_bgc_id</code>: Get mappings \"strain_id &lt;-&gt; bgc_id\".</li> <li><code>extract_mappings_strain_id_ms_filename</code>: Extract mappings     \"strain_id &lt;-&gt; MS_filename\".</li> <li><code>extract_mappings_ms_filename_spectrum_id</code>: Extract mappings     \"MS_filename &lt;-&gt; spectrum_id\".</li> <li><code>get_mappings_strain_id_spectrum_id</code>: Get mappings \"strain_id &lt;-&gt; spectrum_id\".</li> </ul> Source code in <code>src/nplinker/strain/utils.py</code> <pre><code>def podp_generate_strain_mappings(\n    podp_project_json_file: str | PathLike,\n    genome_status_json_file: str | PathLike,\n    genome_bgc_mappings_file: str | PathLike,\n    gnps_file_mappings_file: str | PathLike,\n    output_json_file: str | PathLike,\n) -&gt; StrainCollection:\n    \"\"\"Generate strain mappings JSON file for PODP pipeline.\n\n    To get the strain mappings, we need to combine the following mappings:\n\n    - strain_id &lt;-&gt; original_genome_id &lt;-&gt; resolved_genome_id &lt;-&gt; bgc_id\n    - strain_id &lt;-&gt; MS_filename &lt;-&gt; spectrum_id\n\n    These mappings are extracted from the following files:\n\n    - \"strain_id &lt;-&gt; original_genome_id\" is extracted from `podp_project_json_file`.\n    - \"original_genome_id &lt;-&gt; resolved_genome_id\" is extracted from `genome_status_json_file`.\n    - \"resolved_genome_id &lt;-&gt; bgc_id\" is extracted from `genome_bgc_mappings_file`.\n    - \"strain_id &lt;-&gt; MS_filename\" is extracted from `podp_project_json_file`.\n    - \"MS_filename &lt;-&gt; spectrum_id\" is extracted from `gnps_file_mappings_file`.\n\n    Args:\n        podp_project_json_file: The path to the PODP project\n            JSON file.\n        genome_status_json_file: The path to the genome status\n            JSON file.\n        genome_bgc_mappings_file: The path to the genome BGC\n            mappings JSON file.\n        gnps_file_mappings_file: The path to the GNPS file\n            mappings file (csv or tsv).\n        output_json_file: The path to the output JSON file.\n\n    Returns:\n        The strain mappings stored in a StrainCollection object.\n\n    See Also:\n        - `extract_mappings_strain_id_original_genome_id`: Extract mappings\n            \"strain_id &lt;-&gt; original_genome_id\".\n        - `extract_mappings_original_genome_id_resolved_genome_id`: Extract mappings\n            \"original_genome_id &lt;-&gt; resolved_genome_id\".\n        - `extract_mappings_resolved_genome_id_bgc_id`: Extract mappings\n            \"resolved_genome_id &lt;-&gt; bgc_id\".\n        - `get_mappings_strain_id_bgc_id`: Get mappings \"strain_id &lt;-&gt; bgc_id\".\n        - `extract_mappings_strain_id_ms_filename`: Extract mappings\n            \"strain_id &lt;-&gt; MS_filename\".\n        - `extract_mappings_ms_filename_spectrum_id`: Extract mappings\n            \"MS_filename &lt;-&gt; spectrum_id\".\n        - `get_mappings_strain_id_spectrum_id`: Get mappings \"strain_id &lt;-&gt; spectrum_id\".\n    \"\"\"\n    # Get mappings strain_id &lt;-&gt; original_geonme_id &lt;-&gt; resolved_genome_id &lt;-&gt; bgc_id\n    mappings_strain_id_bgc_id = get_mappings_strain_id_bgc_id(\n        extract_mappings_strain_id_original_genome_id(podp_project_json_file),\n        extract_mappings_original_genome_id_resolved_genome_id(genome_status_json_file),\n        extract_mappings_resolved_genome_id_bgc_id(genome_bgc_mappings_file),\n    )\n\n    # Get mappings strain_id &lt;-&gt; MS_filename &lt;-&gt; spectrum_id\n    mappings_strain_id_spectrum_id = get_mappings_strain_id_spectrum_id(\n        extract_mappings_strain_id_ms_filename(podp_project_json_file),\n        extract_mappings_ms_filename_spectrum_id(gnps_file_mappings_file),\n    )\n\n    # Get mappings strain_id &lt;-&gt; bgc_id / spectrum_id\n    mappings = mappings_strain_id_bgc_id.copy()\n    for strain_id, spectrum_ids in mappings_strain_id_spectrum_id.items():\n        if strain_id in mappings:\n            mappings[strain_id].update(spectrum_ids)\n        else:\n            mappings[strain_id] = spectrum_ids.copy()\n\n    # Create StrainCollection\n    sc = StrainCollection()\n    for strain_id, bgc_ids in mappings.items():\n        if not sc.has_name(strain_id):\n            strain = Strain(strain_id)\n            for bgc_id in bgc_ids:\n                strain.add_alias(bgc_id)\n            sc.add(strain)\n        else:\n            # strain_list has only one element\n            strain_list = sc.lookup(strain_id)\n            for bgc_id in bgc_ids:\n                strain_list[0].add_alias(bgc_id)\n\n    # Write strain mappings JSON file\n    sc.to_json(output_json_file)\n    logger.info(\"Generated strain mappings JSON file: %s\", output_json_file)\n\n    return sc\n</code></pre>"},{"location":"api/utils/","title":"General Utilities","text":""},{"location":"api/utils/#nplinker.utils","title":"utils","text":""},{"location":"api/utils/#nplinker.utils.calculate_md5","title":"calculate_md5","text":"<pre><code>calculate_md5(fpath: str | PathLike, chunk_size: int = 1024 * 1024) -&gt; str\n</code></pre> Source code in <code>src/nplinker/utils.py</code> <pre><code>def calculate_md5(fpath: str | PathLike, chunk_size: int = 1024 * 1024) -&gt; str:\n    if sys.version_info &gt;= (3, 9):\n        md5 = hashlib.md5(usedforsecurity=False)\n    else:\n        md5 = hashlib.md5()\n    with open(fpath, \"rb\") as f:\n        for chunk in iter(lambda: f.read(chunk_size), b\"\"):\n            md5.update(chunk)\n    return md5.hexdigest()\n</code></pre>"},{"location":"api/utils/#nplinker.utils.check_md5","title":"check_md5","text":"<pre><code>check_md5(fpath: str | PathLike, md5: str) -&gt; bool\n</code></pre> Source code in <code>src/nplinker/utils.py</code> <pre><code>def check_md5(fpath: str | PathLike, md5: str) -&gt; bool:\n    return md5 == calculate_md5(fpath)\n</code></pre>"},{"location":"api/utils/#nplinker.utils.download_and_extract_archive","title":"download_and_extract_archive","text":"<pre><code>download_and_extract_archive(url: str, download_root: str | PathLike, extract_root: str | Path | None = None, filename: str | None = None, md5: str | None = None, remove_finished: bool = False) -&gt; None\n</code></pre> <p>Download a file from url and extract it.</p> <p>This method is a wrapper of <code>download_url</code> and <code>extract_archive</code> methods.</p> <p>Parameters:</p> Name Type Description Default <code>url</code> <code>str</code> <p>URL to download file from</p> required <code>download_root</code> <code>str | PathLike</code> <p>Path to the directory to place downloaded file in. If it doesn't exist, it will be created.</p> required <code>extract_root</code> <code>str | Path | None</code> <p>Path to the directory the file will be extracted to. The given directory will be created if not exist. If omitted, the <code>download_root</code> is used.</p> <code>None</code> <code>filename</code> <code>str | None</code> <p>Name to save the downloaded file under. If None, use the basename of the URL</p> <code>None</code> <code>md5</code> <code>str | None</code> <p>MD5 checksum of the download. If None, do not check</p> <code>None</code> <code>remove_finished</code> <code>bool</code> <p>If <code>True</code>, remove the downloaded file  after the extraction. Defaults to False.</p> <code>False</code> Source code in <code>src/nplinker/utils.py</code> <pre><code>def download_and_extract_archive(\n    url: str,\n    download_root: str | PathLike,\n    extract_root: str | Path | None = None,\n    filename: str | None = None,\n    md5: str | None = None,\n    remove_finished: bool = False,\n) -&gt; None:\n    \"\"\"Download a file from url and extract it.\n\n       This method is a wrapper of `download_url` and `extract_archive` methods.\n\n    Args:\n        url: URL to download file from\n        download_root: Path to the directory to place downloaded\n            file in. If it doesn't exist, it will be created.\n        extract_root: Path to the directory the file\n            will be extracted to. The given directory will be created if not exist.\n            If omitted, the `download_root` is used.\n        filename: Name to save the downloaded file under.\n            If None, use the basename of the URL\n        md5: MD5 checksum of the download. If None, do not check\n        remove_finished: If `True`, remove the downloaded file\n             after the extraction. Defaults to False.\n    \"\"\"\n    download_root = Path(download_root)\n    if extract_root is None:\n        extract_root = download_root\n    else:\n        extract_root = Path(extract_root)\n    if not filename:\n        filename = Path(url).name\n\n    download_url(url, download_root, filename, md5)\n\n    archive = download_root / filename\n    print(f\"Extracting {archive} to {extract_root}\")\n    extract_archive(archive, extract_root, remove_finished=remove_finished)\n</code></pre>"},{"location":"api/utils/#nplinker.utils.download_url","title":"download_url","text":"<pre><code>download_url(url: str, root: str | PathLike, filename: str | None = None, md5: str | None = None, http_method: str = 'GET', allow_http_redirect: bool = True) -&gt; None\n</code></pre> <p>Download a file from a url and place it in root.</p> <p>Parameters:</p> Name Type Description Default <code>url</code> <code>str</code> <p>URL to download file from</p> required <code>root</code> <code>str | PathLike</code> <p>Directory to place downloaded file in. If it doesn't exist, it will be created.</p> required <code>filename</code> <code>str | None</code> <p>Name to save the file under. If None, use the basename of the URL.</p> <code>None</code> <code>md5</code> <code>str | None</code> <p>MD5 checksum of the download. If None, do not check.</p> <code>None</code> <code>http_method</code> <code>str</code> <p>HTTP request method, e.g. \"GET\", \"POST\". Defaults to \"GET\".</p> <code>'GET'</code> <code>allow_http_redirect</code> <code>bool</code> <p>If true, enable following redirects for all HTTP (\"http:\") methods.</p> <code>True</code> Source code in <code>src/nplinker/utils.py</code> <pre><code>def download_url(\n    url: str,\n    root: str | PathLike,\n    filename: str | None = None,\n    md5: str | None = None,\n    http_method: str = \"GET\",\n    allow_http_redirect: bool = True,\n) -&gt; None:\n    \"\"\"Download a file from a url and place it in root.\n\n    Args:\n        url: URL to download file from\n        root: Directory to place downloaded file in. If it doesn't exist, it will be created.\n        filename: Name to save the file under. If None, use the\n            basename of the URL.\n        md5: MD5 checksum of the download. If None, do not check.\n        http_method: HTTP request method, e.g. \"GET\", \"POST\".\n            Defaults to \"GET\".\n        allow_http_redirect: If true, enable following redirects for all HTTP (\"http:\") methods.\n    \"\"\"\n    root = transform_to_full_path(root)\n    # create the download directory if not exist\n    root.mkdir(exist_ok=True)\n    if not filename:\n        filename = Path(url).name\n    fpath = root / filename\n\n    # check if file is already present locally\n    if fpath.is_file() and md5 is not None and check_md5(fpath, md5):\n        print(\"Using downloaded and verified file: \" + str(fpath))\n        return\n\n    # download the file\n    with open(fpath, \"wb\") as fh:\n        with httpx.stream(http_method, url, follow_redirects=allow_http_redirect) as response:\n            if not response.is_success:\n                fpath.unlink(missing_ok=True)\n                raise RuntimeError(\n                    f\"Failed to download url {url} with status code {response.status_code}\"\n                )\n            total = int(response.headers.get(\"Content-Length\", 0))\n            with tqdm(total=total, unit_scale=True, unit_divisor=1024, unit=\"B\") as progress:\n                num_bytes_downloaded = response.num_bytes_downloaded\n                for chunk in response.iter_bytes():\n                    fh.write(chunk)\n                    progress.update(response.num_bytes_downloaded - num_bytes_downloaded)\n                    num_bytes_downloaded = response.num_bytes_downloaded\n\n    # check integrity of downloaded file\n    if md5 is not None and not check_md5(fpath, md5):\n        raise RuntimeError(\"MD5 validation failed.\")\n</code></pre>"},{"location":"api/utils/#nplinker.utils.extract_archive","title":"extract_archive","text":"<pre><code>extract_archive(from_path: str | PathLike, extract_root: str | PathLike | None = None, members: list | None = None, remove_finished: bool = False) -&gt; str\n</code></pre> <p>Extract an archive.</p> <p>The archive type and a possible compression is automatically detected from the file name. If the file is compressed but not an archive the call is dispatched to :func:<code>decompress</code>.</p> <p>Parameters:</p> Name Type Description Default <code>from_path</code> <code>str | PathLike</code> <p>Path to the file to be extracted.</p> required <code>extract_root</code> <code>str | PathLike | None</code> <p>Path to the directory the file will be extracted to. The given directory will be created if not exist. If omitted, the directory of the archive file is used.</p> <code>None</code> <code>members</code> <code>list | None</code> <p>Optional selection of members to extract. If not specified, all members are extracted. Memers must be a subset of the list returned by - <code>zipfile.ZipFile.namelist()</code> or a list of strings for zip file - <code>tarfile.TarFile.getmembers()</code> for tar file</p> <code>None</code> <code>remove_finished</code> <code>bool</code> <p>If <code>True</code>, remove the file after the extraction.</p> <code>False</code> <p>Returns:</p> Type Description <code>str</code> <p>Path to the directory the file was extracted to.</p> Source code in <code>src/nplinker/utils.py</code> <pre><code>def extract_archive(\n    from_path: str | PathLike,\n    extract_root: str | PathLike | None = None,\n    members: list | None = None,\n    remove_finished: bool = False,\n) -&gt; str:\n    \"\"\"Extract an archive.\n\n    The archive type and a possible compression is automatically detected from\n    the file name. If the file is compressed but not an archive the call is\n    dispatched to :func:`decompress`.\n\n    Args:\n        from_path: Path to the file to be extracted.\n        extract_root: Path to the directory the file will be extracted to.\n            The given directory will be created if not exist.\n            If omitted, the directory of the archive file is used.\n        members: Optional selection of members to extract. If not specified,\n            all members are extracted.\n            Memers must be a subset of the list returned by\n            - `zipfile.ZipFile.namelist()` or a list of strings for zip file\n            - `tarfile.TarFile.getmembers()` for tar file\n        remove_finished: If `True`, remove the file after the extraction.\n\n    Returns:\n        Path to the directory the file was extracted to.\n    \"\"\"\n    from_path = Path(from_path)\n\n    if extract_root is None:\n        extract_root = from_path.parent\n    else:\n        extract_root = Path(extract_root)\n\n    # create the extract directory if not exist\n    extract_root.mkdir(exist_ok=True)\n\n    suffix, archive_type, compression = _detect_file_type(from_path)\n    if not archive_type:\n        return _decompress(\n            from_path,\n            extract_root / from_path.name.replace(suffix, \"\"),\n            remove_finished=remove_finished,\n        )\n\n    extractor = _ARCHIVE_EXTRACTORS[archive_type]\n\n    extractor(str(from_path), str(extract_root), members, compression)\n    if remove_finished:\n        from_path.unlink()\n\n    return str(extract_root)\n</code></pre>"},{"location":"api/utils/#nplinker.utils.find_delimiter","title":"find_delimiter","text":"<pre><code>find_delimiter(file: str | PathLike) -&gt; str\n</code></pre> <p>Detect the delimiter for the given tabular file.</p> <p>Parameters:</p> Name Type Description Default <code>file</code> <code>str | PathLike</code> <p>Path to tabular file.</p> required <p>Returns:</p> Type Description <code>str</code> <p>Detected delimiter character.</p> <p>Examples:</p> <pre><code>&gt;&gt;&gt; delim = find_delimiter(\"~/table.csv\")\n</code></pre> Source code in <code>src/nplinker/utils.py</code> <pre><code>def find_delimiter(file: str | PathLike) -&gt; str:\n    \"\"\"Detect the delimiter for the given tabular file.\n\n    Args:\n        file: Path to tabular file.\n\n    Returns:\n        Detected delimiter character.\n\n    Examples:\n        &gt;&gt;&gt; delim = find_delimiter(\"~/table.csv\")\n    \"\"\"\n    sniffer = csv.Sniffer()\n    with open(file, mode=\"rt\", encoding=\"utf-8\") as fp:\n        delimiter = sniffer.sniff(fp.read(5000)).delimiter\n    return delimiter\n</code></pre>"},{"location":"api/utils/#nplinker.utils.get_headers","title":"get_headers","text":"<pre><code>get_headers(file: str | PathLike) -&gt; list[str]\n</code></pre> <p>Read headers from the given tabular file.</p> <p>Parameters:</p> Name Type Description Default <code>file</code> <code>str | PathLike</code> <p>Path to the file to read the header from.</p> required <p>Returns:</p> Type Description <code>list[str]</code> <p>A list of column names from the header.</p> Source code in <code>src/nplinker/utils.py</code> <pre><code>def get_headers(file: str | PathLike) -&gt; list[str]:\n    \"\"\"Read headers from the given tabular file.\n\n    Args:\n        file: Path to the file to read the header from.\n\n    Returns:\n        A list of column names from the header.\n    \"\"\"\n    with open(file) as f:\n        headers = f.readline().strip()\n        dl = find_delimiter(file)\n        return headers.split(dl)\n</code></pre>"},{"location":"api/utils/#nplinker.utils.is_file_format","title":"is_file_format","text":"<pre><code>is_file_format(file: str | PathLike, format: str = 'tsv') -&gt; bool\n</code></pre> <p>Check if the file is in the given format.</p> <p>Parameters:</p> Name Type Description Default <code>file</code> <code>str | PathLike</code> <p>Path to the file to check.</p> required <code>format</code> <code>str</code> <p>The format to check for, either \"tsv\" or \"csv\".</p> <code>'tsv'</code> <p>Returns:</p> Type Description <code>bool</code> <p>True if the file is in the given format, False otherwise.</p> Source code in <code>src/nplinker/utils.py</code> <pre><code>def is_file_format(file: str | PathLike, format: str = \"tsv\") -&gt; bool:\n    \"\"\"Check if the file is in the given format.\n\n    Args:\n        file: Path to the file to check.\n        format: The format to check for, either \"tsv\" or \"csv\".\n\n    Returns:\n        True if the file is in the given format, False otherwise.\n    \"\"\"\n    try:\n        with open(file, \"rt\") as f:\n            if format == \"tsv\":\n                reader = csv.reader(f, delimiter=\"\\t\")\n            elif format == \"csv\":\n                reader = csv.reader(f, delimiter=\",\")\n            else:\n                raise ValueError(f\"Unknown format '{format}'.\")\n            for _ in reader:\n                pass\n        return True\n    except csv.Error:\n        return False\n</code></pre>"},{"location":"api/utils/#nplinker.utils.list_dirs","title":"list_dirs","text":"<pre><code>list_dirs(root: str | PathLike, keep_parent: bool = True) -&gt; list[str]\n</code></pre> <p>List all directories at a given root.</p> <p>Parameters:</p> Name Type Description Default <code>root</code> <code>str | PathLike</code> <p>Path to directory whose folders need to be listed</p> required <code>keep_parent</code> <code>bool</code> <p>If true, prepends the path to each result, otherwise only returns the name of the directories found</p> <code>True</code> Source code in <code>src/nplinker/utils.py</code> <pre><code>def list_dirs(root: str | PathLike, keep_parent: bool = True) -&gt; list[str]:\n    \"\"\"List all directories at a given root.\n\n    Args:\n        root: Path to directory whose folders need to be listed\n        keep_parent: If true, prepends the path to each result, otherwise\n            only returns the name of the directories found\n    \"\"\"\n    root = transform_to_full_path(root)\n    directories = [str(p) for p in root.iterdir() if p.is_dir()]\n    if not keep_parent:\n        directories = [os.path.basename(d) for d in directories]\n    return directories\n</code></pre>"},{"location":"api/utils/#nplinker.utils.list_files","title":"list_files","text":"<pre><code>list_files(root: str | PathLike, prefix: str | tuple[str, ...] = '', suffix: str | tuple[str, ...] = '', keep_parent: bool = True) -&gt; list[str]\n</code></pre> <p>List all files at a given root.</p> <p>Parameters:</p> Name Type Description Default <code>root</code> <code>str | PathLike</code> <p>Path to directory whose files need to be listed</p> required <code>prefix</code> <code>str | tuple[str, ...]</code> <p>Prefix of the file names to match, Defaults to empty string '\"\"'.</p> <code>''</code> <code>suffix</code> <code>str | tuple[str, ...]</code> <p>Suffix of the files to match, e.g. \".png\" or (\".jpg\", \".png\"). Defaults to empty string '\"\"'.</p> <code>''</code> <code>keep_parent</code> <code>bool</code> <p>If true, prepends the parent path to each result, otherwise only returns the name of the files found. Defaults to False.</p> <code>True</code> Source code in <code>src/nplinker/utils.py</code> <pre><code>def list_files(\n    root: str | PathLike,\n    prefix: str | tuple[str, ...] = \"\",\n    suffix: str | tuple[str, ...] = \"\",\n    keep_parent: bool = True,\n) -&gt; list[str]:\n    \"\"\"List all files at a given root.\n\n    Args:\n        root: Path to directory whose files need to be listed\n        prefix: Prefix of the file names to match,\n            Defaults to empty string '\"\"'.\n        suffix: Suffix of the files to match, e.g. \".png\" or\n            (\".jpg\", \".png\").\n            Defaults to empty string '\"\"'.\n        keep_parent: If true, prepends the parent path to each\n            result, otherwise only returns the name of the files found.\n            Defaults to False.\n    \"\"\"\n    root = Path(root)\n    files = [\n        str(p)\n        for p in root.iterdir()\n        if p.is_file() and p.name.startswith(prefix) and p.name.endswith(suffix)\n    ]\n\n    if not keep_parent:\n        files = [os.path.basename(f) for f in files]\n\n    return files\n</code></pre>"},{"location":"api/utils/#nplinker.utils.transform_to_full_path","title":"transform_to_full_path","text":"<pre><code>transform_to_full_path(p: str | PathLike) -&gt; Path\n</code></pre> <p>Transform a path to a full path.</p> <p>The path is expanded (i.e. the <code>~</code> will be replaced with actual path) and converted to an absolute path (i.e. <code>.</code> or <code>..</code> will be replaced with actual path).</p> <p>Parameters:</p> Name Type Description Default <code>p</code> <code>str | PathLike</code> <p>The path to transform.</p> required <p>Returns:</p> Type Description <code>Path</code> <p>The transformed full path.</p> Source code in <code>src/nplinker/utils.py</code> <pre><code>def transform_to_full_path(p: str | PathLike) -&gt; Path:\n    \"\"\"Transform a path to a full path.\n\n    The path is expanded (i.e. the `~` will be replaced with actual path) and converted to an\n    absolute path (i.e. `.` or `..` will be replaced with actual path).\n\n    Args:\n        p: The path to transform.\n\n    Returns:\n        The transformed full path.\n    \"\"\"\n    # Multiple calls to `Path` are used to ensure static typing compatibility.\n    p = Path(p).expanduser()\n    p = Path(p).resolve()\n    return Path(p)\n</code></pre>"},{"location":"concepts/bigscape/","title":"BigScape","text":"<p>NPLinker can run BigScape automatically if the <code>bigscape</code> directory does not exist in the working directory.</p> <p>To run BigScape, NPLinker requires the following BigScape parameters:</p> <ul> <li><code>--mix</code></li> <li><code>--include_singletons</code></li> <li><code>--cutoffs</code></li> </ul> <p>And the following parameters are not allowed:</p> <ul> <li><code>--inputdir</code></li> <li><code>--outputdir</code></li> <li><code>--pfam_dir</code></li> </ul> <p>If BigScape parameter <code>--mibig</code> is set, make sure setting the  <code>mibig.to_use</code> to true in your config file <code>nplinker.toml</code> and <code>mibig.version</code> to the version of mibig used by bigscape.</p> <p>See the default configurations for the default  parameters of BigScape.</p>"},{"location":"concepts/config_file/","title":"Config File","text":""},{"location":"concepts/config_file/#configuration-template","title":"Configuration Template","text":"<pre><code>#############################\n# NPLinker configuration file\n#############################\n\n# The root directory of the NPLinker project. You need to create it first.\n# The value is required and must be a full path.\nroot_dir = \"&lt;NPLinker root directory&gt;\"\n# The mode for preparing dataset.\n# The available modes are \"podp\" and \"local\".\n# \"podp\" mode is for using the PODP platform (https://pairedomicsdata.bioinformatics.nl/) to prepare the dataset.\n# \"local\" mode is for preparing the dataset locally. So uers do not need to upload their data to the PODP platform.\n# The value is required.\nmode = \"podp\"\n# The PODP project identifier.\n# The value is required if the mode is \"podp\".\npodp_id = \"\"\n\n\n[log]\n# Log level. The available levels are same as the levels in python package `logging`:\n# \"NOTSET\", \"DEBUG\", \"INFO\", \"WARNING\", \"ERROR\", \"CRITICAL\".\n# The default value is \"INFO\".\nlevel = \"INFO\"\n# Redirect the log messages from stdout to a log file. If not set, the log messages will only be\n# printed to stdout.\n# The value is optional and must be a full path if set.\nfile = \"path/to/logfile\"\n# Whether to print log messages to stdout in addition to writing to the logfile.\n# The default value is true.\nto_stdout = true\n\n\n[mibig]\n# Whether to use mibig metadta (json).\n# The default value is true.\nto_use = true\n# The version of mibig metadata.\n# Make sure using the same version of mibig in bigscape.\n# The default value is \"3.1\"\nversion = \"3.1\"\n\n\n[bigscape]\n# The parameters to use for running BiG-SCAPE.\n# Required bigscape parameters are `--mix`, `--include_singletons` and `--cutoffs`. NPLinker needs\n# them to run the analysis properly.\n# Parameters that must NOT exist: `--inputdir`, `--outputdir`, `--pfam_dir`. NPLinker will\n# automatically configure them.\n# If parameter `--mibig` is set, make sure setting the config `mibig.to_use` to true and\n# `mibig.version` to the version of mibig in bigscape.\n# The default value is \"--mibig --clans-off --mix --include_singletons --cutoffs 0.30\".\nparameters = \"--mibig --clans-off --mix --include_singletons --cutoffs 0.30\"\n# Which bigscape cutoff to use for NPLinker analysis.\n# There might be multiple cutoffs in bigscape output.\n# Note that this value must be a string.\n# The default value is \"0.30\".\ncutoff = \"0.30\"\n\n\n[scoring]\n# Scoring methods.\n# Valid values are \"metcalf\" and \"rosetta\".\n# The default value is \"metcalf\".\nmethods = [\"metcalf\"]\n</code></pre>"},{"location":"concepts/config_file/#default-configurations","title":"Default Configurations","text":"<p>The default configurations are automatically used by NPLinker if you don't set them in your config file.</p> <pre><code># NPLinker default configurations\n\n[log]\nlevel = \"INFO\"\nto_stdout = true\n\n[mibig]\nto_use = true\nversion = \"3.1\"\n\n[bigscape]\nparameters = \"--mibig --clans-off --mix --include_singletons --cutoffs 0.30\"\ncutoff = \"0.30\"\n\n[scoring]\nmethods = [\"metcalf\"]\n</code></pre>"},{"location":"concepts/gnps_data/","title":"GNPS Data","text":"<p>NPLinker requires GNPS molecular networking data as input. It currently accepts data from the following  GNPS workflows:</p> <ul> <li><code>METABOLOMICS-SNETS</code> (data should be downloaded from the option <code>Download Clustered Spectra as MGF</code>)</li> <li><code>METABOLOMICS-SNETS-V2</code> (<code>Download Clustered Spectra as MGF</code>)</li> <li><code>FEATURE-BASED-MOLECULAR-NETWORKING</code> (<code>Download Cytoscape Data</code>)</li> </ul>"},{"location":"concepts/gnps_data/#mappings-from-gnps-data-to-nplinker-input","title":"Mappings from GNPS data to NPLinker input","text":"<code>METABOLOMICS-SNETS</code> workflow<code>METABOLOMICS-SNETS-V2</code><code>FEATURE-BASED-MOLECULAR-NETWORKING</code> NPLinker input GNPS file in the archive of <code>Download Clustered Spectra as MGF</code> spectra.mgf METABOLOMICS-SNETS*.mgf molecular_families.tsv networkedges_selfloop/*.pairsinfo annotations.tsv result_specnets_DB/*.tsv file_mappings.tsv clusterinfosummarygroup_attributes_withIDs_withcomponentID/*.tsv <p>For example, the file <code>METABOLOMICS-SNETS*.mgf</code> from the downloaded zip archive is used as  the <code>spectra.mgf</code> input file of NPLinker. </p> <p>When manually preparing GNPS data for NPLinker, the <code>METABOLOMICS-SNETS*.mgf</code> must be renamed to <code>spectra.mgf</code> and placed in the <code>gnps</code> sub-directory of the NPLinker working directory.</p> NPLinker input GNPS file in the archive of <code>Download Clustered Spectra as MGF</code> spectra.mgf METABOLOMICS-SNETS-V2*.mgf molecular_families.tsv networkedges_selfloop/*.selfloop annotations.tsv result_specnets_DB/*.tsv file_mappings.tsv clusterinfosummarygroup_attributes_withIDs_withcomponentID/*.clustersummary NPLinker input GNPS file in the archive of <code>Download Cytoscape Data</code> spectra.mgf spectra/*.mgf molecular_families.tsv networkedges_selfloop/*.selfloop annotations.tsv DB_result/*.tsv file_mappings.csv quantification_table/*.csv <p>Note that <code>file_mappings.csv</code> is a CSV file, not a TSV file, different from the other workflows.</p>"},{"location":"concepts/working_dir_structure/","title":"Working Directory Structure","text":"<p>NPLinker requires a fixed structure of working directory with fixed names for the input and output data.</p> <pre><code>root_dir # (1)!\n    \u2502\n    \u251c\u2500\u2500 nplinker.toml                       [F] # (2)!\n    \u251c\u2500\u2500 strain_mappings.JSON                [F] # (3)!\n    \u251c\u2500\u2500 strains_selected.json               [F][O] # (4)!\n    \u2502\n    \u251c\u2500\u2500 gnps                                [F] # (5)!\n    \u2502       \u251c\u2500\u2500 spectra.mgf                 [F]\n    \u2502       \u251c\u2500\u2500 molecular_families.tsv      [F]\n    \u2502       \u251c\u2500\u2500 annotations.tsv             [F]\n    \u2502       \u2514\u2500\u2500 file_mappings.tsv (.csv)    [F] # (6)!\n    \u2502\n    \u251c\u2500\u2500 antismash                           [F] # (7)!\n    \u2502   \u251c\u2500\u2500 GCF_000514975.1\n    \u2502   \u2502   \u251c\u2500\u2500 xxx.region001.gbk\n    \u2502   \u2502   \u2514\u2500\u2500 ...\n    \u2502   \u251c\u2500\u2500 GCF_000016425.1\n    \u2502   \u2502   \u251c\u2500\u2500 xxxx.region001.gbk\n    \u2502   \u2502   \u2514\u2500\u2500 ...\n    \u2502   \u2514\u2500\u2500 ...\n    \u2502\n    \u251c\u2500\u2500 bigscape                            [F][O] # (8)!\n    \u2502   \u251c\u2500\u2500 mix_clustering_c0.30.tsv        [F]    # (9)!\n    \u2502   \u2514\u2500\u2500 bigscape_running_output\n    \u2502       \u2514\u2500\u2500 ...\n    \u2502\n    \u251c\u2500\u2500 downloads                           [F][A] # (10)!\n    \u2502       \u251c\u2500\u2500 paired_datarecord_4b29ddc3-26d0-40d7-80c5-44fb6631dbf9.4.json # (11)!\n    \u2502       \u251c\u2500\u2500 GCF_000016425.1.zip\n    \u2502       \u251c\u2500\u2500 GCF_0000514975.1.zip\n    \u2502       \u251c\u2500\u2500 c22f44b14a3d450eb836d607cb9521bb.zip\n    \u2502       \u251c\u2500\u2500 genome_status.json\n    \u2502       \u2514\u2500\u2500 mibig_json_3.1.tar.gz\n    \u2502\n    \u251c\u2500\u2500 mibig                               [F][A] # (12)!\n    \u2502   \u251c\u2500\u2500 BGC0000001.json\n    \u2502   \u251c\u2500\u2500 BGC0000002.json\n    \u2502   \u2514\u2500\u2500 ...\n    \u2502\n    \u251c\u2500\u2500 output                              [F][A] # (13)!\n    \u2502   \u2514\u2500\u2500 ...\n    \u2502\n    \u2514\u2500\u2500 ...                                        # (14)!\n</code></pre> <ol> <li><code>root_dir</code> is the working directory you created, used as the root directory for NPLinker.</li> <li><code>nplinker.toml</code> is the configuration file provided by the user for running NPLinker.  <code>[F]</code> means the file name <code>nplinker.toml</code> is a fixed name (including the extension) and must be     named as shown.</li> <li><code>strain_mappings.json</code> contains the mappings from strain to genomics and metabolomics data. It is     generated by NPLinker for <code>podp</code> mode; for <code>local</code> mode, users need to create it manually.</li> <li><code>strains_selected.json</code> is an optional file containing the list of strains to be used in the analysis.     If it is not provided, NPLinker will use all strains detected from the input data.  <code>[O]</code> means the file <code>strains_selected.json</code> is optional for users to provide.</li> <li><code>gnps</code> directory contains the GNPS data. The files in this directory must be named as shown.     See XXX for more information about the GNPS data.</li> <li>This file could be <code>.tsv</code> or <code>.csv</code> format.</li> <li><code>antismash</code> directory contains a collection of AntiSMASH BGC data. The BGC data (<code>*.region*.gbk</code>      files) must be stored in subdirectories named after NCBI accession number (e.g. <code>GCF_000514975.1</code>).</li> <li><code>bigscape</code> directory is optional and contains the output of BigScape. If the directory is not     provided, NPLinker will run BigScape automatically to generate the data using the AntiSMASH BGC     data.</li> <li><code>mix_clustering_c0.30.tsv</code> is an example output of BigScape. The file name must follow the pattern     <code>mix_clustering_c{cutoff}.tsv</code>, where <code>{cutoff}</code> is the cutoff value used in the BigScape run.</li> <li><code>downloads</code> directory is automatically created and managed by NPLinker. It stores the downloaded data    from the internet. Users can also use it to store their own downloaded data.  <code>[A]</code> means the directory is automatically created and/or managed by NPLinker.</li> <li>This is an example file, the actual file would be different. Same as the other files in     the <code>downloads</code> directory.</li> <li><code>mibig</code> directory contains the MIBiG metadata, which is automatically created and downloaded by      NPLinker. Users should not interfere with this directory and its content.</li> <li><code>output</code> directory is automatically created by NPLinker. It stores the output data of NPLinker.</li> <li>It's flexible to extend NPLinker by adding other types of data.</li> </ol> <p>Tip</p> <ul> <li><code>[F]</code> means the file or directory name is fixed and must be named as shown.</li> <li><code>[O]</code> means the file or directory is optional for users to provide. It does not mean the file or directory is optional for NPLinker to use. If it's not provided by the user, NPLinker may generate it.</li> <li><code>[A]</code> means the directory is automatically created and/or managed by NPLinker.</li> </ul>"},{"location":"diagrams/arranger/","title":"Dataset Arranging Pipeline","text":"<p>The DatasetArranger is implemented according to the following flowcharts.</p>"},{"location":"diagrams/arranger/#strain-mappings-file","title":"Strain mappings file","text":"<pre><code>flowchart TD\n    StrainMappings[`strain_mappings.json`] --&gt; SM{Is the mode PODP?}\n    SM --&gt; |No |SM0[Validate the file]\n    SM --&gt; |Yes|SM1[Generate the file] --&gt; SM0</code></pre>"},{"location":"diagrams/arranger/#strain-selection-file","title":"Strain selection file","text":"<pre><code>flowchart TD\n    StrainsSelected[`strains_selected.json`] --&gt; S{Does the file exist?}\n    S --&gt; |No | S0[Nothing to do]\n    S --&gt; |Yes| S1[Validate the file]</code></pre>"},{"location":"diagrams/arranger/#podp-project-metadata-json-file","title":"PODP project metadata json file","text":"<pre><code>flowchart TD\n    podp[PODP project metadata json file] --&gt; A{Is the mode PODP?}\n    A --&gt; |No | A0[Nothing to do]\n    A --&gt; |Yes| P{Does the file exist?}\n    P --&gt; |No | P0[Download the file] --&gt; P1\n    P --&gt; |Yes| P1[Validate the file]</code></pre>"},{"location":"diagrams/arranger/#gnps-antismash-and-bigscape","title":"GNPS, AntiSMASH and BigScape","text":"<pre><code>flowchart TD\n    ConfigError[Dynaconf config validation error]\n    DataError[Data validation error]\n    UseIt[Use the data]\n    Download[First remove existing data if relevent, then download or generate data]\n\n    A[GNPS, antiSMASH and BigSCape] --&gt; B{Pass Dynaconf config validation?}\n    B --&gt;|No | ConfigError\n    B --&gt;|Yes| G{Is the mode PODP?}\n\n    G --&gt;|No, local mode| G1{Does data dir exist?}\n    G1 --&gt;|No | DataError\n    G1 --&gt;|Yes| H{Pass data validation?}\n    H --&gt; |No | DataError\n    H --&gt; |Yes| UseIt \n\n    G --&gt;|Yes, podp mode| G2{Does data dir exist?}\n    G2 --&gt; |No | Download\n    G2 --&gt; |Yes | J{Pass data validation?}\n    J --&gt;|No | Download --&gt; |try max 2 times| J\n    J --&gt;|Yes| UseIt</code></pre>"},{"location":"diagrams/arranger/#mibig-data","title":"MIBiG Data","text":"<p>MIBiG data is always downloaded automatically. Users cannot provide their own MIBiG data.</p> <pre><code>flowchart TD\n    Mibig[MIBiG] --&gt; M0{Pass Dynaconf config validation?}\n    M0 --&gt;|No | M01[Dynaconf config validation error]\n    M0 --&gt;|Yes | MibigDownload[First remove existing data if relevant and then download data]</code></pre>"}]}
\ No newline at end of file
diff --git a/dev/sitemap.xml b/dev/sitemap.xml
index 23f7c4f5..8cd317d4 100644
--- a/dev/sitemap.xml
+++ b/dev/sitemap.xml
@@ -2,132 +2,132 @@
 <urlset xmlns="http://www.sitemaps.org/schemas/sitemap/0.9">
     <url>
          <loc>https://nplinker.github.io/nplinker/latest/</loc>
-         <lastmod>2024-03-25</lastmod>
+         <lastmod>2024-04-12</lastmod>
          <changefreq>daily</changefreq>
     </url>
     <url>
          <loc>https://nplinker.github.io/nplinker/latest/install/</loc>
-         <lastmod>2024-03-25</lastmod>
+         <lastmod>2024-04-12</lastmod>
          <changefreq>daily</changefreq>
     </url>
     <url>
          <loc>https://nplinker.github.io/nplinker/latest/quickstart/</loc>
-         <lastmod>2024-03-25</lastmod>
+         <lastmod>2024-04-12</lastmod>
          <changefreq>daily</changefreq>
     </url>
     <url>
          <loc>https://nplinker.github.io/nplinker/latest/api/antismash/</loc>
-         <lastmod>2024-03-25</lastmod>
+         <lastmod>2024-04-12</lastmod>
          <changefreq>daily</changefreq>
     </url>
     <url>
          <loc>https://nplinker.github.io/nplinker/latest/api/arranger/</loc>
-         <lastmod>2024-03-25</lastmod>
+         <lastmod>2024-04-12</lastmod>
          <changefreq>daily</changefreq>
     </url>
     <url>
          <loc>https://nplinker.github.io/nplinker/latest/api/bigscape/</loc>
-         <lastmod>2024-03-25</lastmod>
+         <lastmod>2024-04-12</lastmod>
          <changefreq>daily</changefreq>
     </url>
     <url>
          <loc>https://nplinker.github.io/nplinker/latest/api/genomics/</loc>
-         <lastmod>2024-03-25</lastmod>
+         <lastmod>2024-04-12</lastmod>
          <changefreq>daily</changefreq>
     </url>
     <url>
          <loc>https://nplinker.github.io/nplinker/latest/api/genomics_abc/</loc>
-         <lastmod>2024-03-25</lastmod>
+         <lastmod>2024-04-12</lastmod>
          <changefreq>daily</changefreq>
     </url>
     <url>
          <loc>https://nplinker.github.io/nplinker/latest/api/genomics_utils/</loc>
-         <lastmod>2024-03-25</lastmod>
+         <lastmod>2024-04-12</lastmod>
          <changefreq>daily</changefreq>
     </url>
     <url>
          <loc>https://nplinker.github.io/nplinker/latest/api/gnps/</loc>
-         <lastmod>2024-03-25</lastmod>
+         <lastmod>2024-04-12</lastmod>
          <changefreq>daily</changefreq>
     </url>
     <url>
          <loc>https://nplinker.github.io/nplinker/latest/api/loader/</loc>
-         <lastmod>2024-03-25</lastmod>
+         <lastmod>2024-04-12</lastmod>
          <changefreq>daily</changefreq>
     </url>
     <url>
          <loc>https://nplinker.github.io/nplinker/latest/api/metabolomics/</loc>
-         <lastmod>2024-03-25</lastmod>
+         <lastmod>2024-04-12</lastmod>
          <changefreq>daily</changefreq>
     </url>
     <url>
          <loc>https://nplinker.github.io/nplinker/latest/api/metabolomics_abc/</loc>
-         <lastmod>2024-03-25</lastmod>
+         <lastmod>2024-04-12</lastmod>
          <changefreq>daily</changefreq>
     </url>
     <url>
          <loc>https://nplinker.github.io/nplinker/latest/api/metabolomics_utils/</loc>
-         <lastmod>2024-03-25</lastmod>
+         <lastmod>2024-04-12</lastmod>
          <changefreq>daily</changefreq>
     </url>
     <url>
          <loc>https://nplinker.github.io/nplinker/latest/api/mibig/</loc>
-         <lastmod>2024-03-25</lastmod>
+         <lastmod>2024-04-12</lastmod>
          <changefreq>daily</changefreq>
     </url>
     <url>
          <loc>https://nplinker.github.io/nplinker/latest/api/nplinker/</loc>
-         <lastmod>2024-03-25</lastmod>
+         <lastmod>2024-04-12</lastmod>
          <changefreq>daily</changefreq>
     </url>
     <url>
          <loc>https://nplinker.github.io/nplinker/latest/api/schema/</loc>
-         <lastmod>2024-03-25</lastmod>
+         <lastmod>2024-04-12</lastmod>
          <changefreq>daily</changefreq>
     </url>
     <url>
          <loc>https://nplinker.github.io/nplinker/latest/api/scoring/</loc>
-         <lastmod>2024-03-25</lastmod>
+         <lastmod>2024-04-12</lastmod>
          <changefreq>daily</changefreq>
     </url>
     <url>
          <loc>https://nplinker.github.io/nplinker/latest/api/strain/</loc>
-         <lastmod>2024-03-25</lastmod>
+         <lastmod>2024-04-12</lastmod>
          <changefreq>daily</changefreq>
     </url>
     <url>
          <loc>https://nplinker.github.io/nplinker/latest/api/strain_utils/</loc>
-         <lastmod>2024-03-25</lastmod>
+         <lastmod>2024-04-12</lastmod>
          <changefreq>daily</changefreq>
     </url>
     <url>
          <loc>https://nplinker.github.io/nplinker/latest/api/utils/</loc>
-         <lastmod>2024-03-25</lastmod>
+         <lastmod>2024-04-12</lastmod>
          <changefreq>daily</changefreq>
     </url>
     <url>
          <loc>https://nplinker.github.io/nplinker/latest/concepts/bigscape/</loc>
-         <lastmod>2024-03-25</lastmod>
+         <lastmod>2024-04-12</lastmod>
          <changefreq>daily</changefreq>
     </url>
     <url>
          <loc>https://nplinker.github.io/nplinker/latest/concepts/config_file/</loc>
-         <lastmod>2024-03-25</lastmod>
+         <lastmod>2024-04-12</lastmod>
          <changefreq>daily</changefreq>
     </url>
     <url>
          <loc>https://nplinker.github.io/nplinker/latest/concepts/gnps_data/</loc>
-         <lastmod>2024-03-25</lastmod>
+         <lastmod>2024-04-12</lastmod>
          <changefreq>daily</changefreq>
     </url>
     <url>
          <loc>https://nplinker.github.io/nplinker/latest/concepts/working_dir_structure/</loc>
-         <lastmod>2024-03-25</lastmod>
+         <lastmod>2024-04-12</lastmod>
          <changefreq>daily</changefreq>
     </url>
     <url>
          <loc>https://nplinker.github.io/nplinker/latest/diagrams/arranger/</loc>
-         <lastmod>2024-03-25</lastmod>
+         <lastmod>2024-04-12</lastmod>
          <changefreq>daily</changefreq>
     </url>
 </urlset>
\ No newline at end of file
diff --git a/dev/sitemap.xml.gz b/dev/sitemap.xml.gz
index 47778ed11ceaea2135a8224a404d12e8f4ac9bb5..8922677a5a844c108dc8c4856562d4d376c36e8f 100644
GIT binary patch
delta 369
zcmV-%0gnEJ1A_wxABzYG%>fya2OWQDs~)zA(%ZgZJ0la)U^OH(He>tyg|<TMJZX}1
zAy|p^6ycDRr?1{+pC%Fpf6RBqHqVULp+#?x`N#X)<~cuAPvsaL8P3vRPshAt9$uB2
zrl}xg)5AbTh*pvA(hI3aP;HBsyn4z~n-ko7w^q8Kt2qm$G=6aCFD4cixf_3*0>ctg
z4%iT@Qq2?A^MSYzZMEO-51Z{_v)iX3kJxIM?!a4fj^<jmfbP3gtH>Ru7TF(-=!wBO
z5!UO7`jWU&#?r!o3OpmFkE@d-j&V*O#ef^Mq+u{(z}EQCqb70S8X7GRJu*5$YwZU)
zSQnrbv{Uqkp$Se_@vYIK3h-eUTvieGn0_i^v`b71_<rCP#0@cBEaZ4O0(xOwVLOBz
ztqxwBfl1amc~Pg%8Et(=Ck#Fx<mwg}WU;3ZFKM%@Ta0z8%u(|gWvqOQU?cSOk2l!c
PgA7+c%D!P}krDs^c8{$-

delta 370
zcmV-&0ge8H1B3$yABzYG?5+Wk2OWRux=q?9N^kpu?Tk!FgVm7G*o^J(7upK3^Q1}6
zg<vJtQ-niO9=>{)eVRxZ{64=gws~f}4lR1S&p+PZHqZH?x+}-%$Z(bhd)nt6^YE(F
zG))B|n;r%#LbQr>mtIKSf@)j5<kel4+MM9pyR^~;UCmi2rSXG9e=@PK$lZU~6d0C}
za=?aIm1>@_o)5%*Xsg|J_qf?UY<5p+$St-SraSP~9HTi`Eui}@)hcp@sYUijBYI+R
zPK5P5qCO>Vl(DohpaRcG>Er6;h+~}7M={_AEom5x7_c=y^r%T3xQ0f{LywG3&|3RJ
z4%P)|1??2QVQ7MrReWo-r~+dA1(#KXJ*J<E80`|10=^!&1#v@67YjLFj(}bmSJ)0A
zN2`O^W?+(aPF~chb3|Jo(Fudk2f4Zh23hPW#8cYr>K0?2Ds$94Mj0#LBG?E${o@Vx
Q@*u<255NR;nvoI!0BZxXWdHyG