diff --git a/.buildinfo b/.buildinfo
index 60b3523..f098bb5 100644
--- a/.buildinfo
+++ b/.buildinfo
@@ -1,4 +1,4 @@
 # Sphinx build info version 1
 # This file hashes the configuration used when building these files. When it is not found, a full rebuild will be done.
-config: d6248c1d578c35129b4e130e17c17c68
+config: 3c3d6740e381830fc5186a45af4fc9dc
 tags: 645f666f9bcd5a90fca523b33c5a78b7
diff --git a/_modules/base.html b/_modules/base.html
index dc75979..ebe9f12 100644
--- a/_modules/base.html
+++ b/_modules/base.html
@@ -3,7 +3,7 @@
 <head>
   <meta charset="utf-8" />
   <meta name="viewport" content="width=device-width, initial-scale=1.0" />
-  <title>base &mdash; type_infer 0.0.17 documentation</title>
+  <title>base &mdash; type_infer 0.0.18 documentation</title>
       <link rel="stylesheet" type="text/css" href="../_static/pygments.css" />
       <link rel="stylesheet" type="text/css" href="../_static/css/theme.css" />
       <link rel="stylesheet" type="text/css" href="../_static/graphviz.css" />
@@ -38,7 +38,7 @@
               <img src="../_static/mindsdblogo.png" class="logo" alt="Logo"/>
           </a>
               <div class="version">
-                0.0.17
+                0.0.18
               </div>
 <div role="search">
   <form id="rtd-search-form" class="wy-form" action="../search.html" method="get">
@@ -106,6 +106,19 @@ <h1>Source code for base</h1><div class="highlight"><pre>
         <span class="bp">self</span><span class="o">.</span><span class="n">dtypes</span> <span class="o">=</span> <span class="nb">dict</span><span class="p">()</span>
         <span class="bp">self</span><span class="o">.</span><span class="n">additional_info</span> <span class="o">=</span> <span class="nb">dict</span><span class="p">()</span>
         <span class="bp">self</span><span class="o">.</span><span class="n">identifiers</span> <span class="o">=</span> <span class="nb">dict</span><span class="p">()</span></div>
+
+
+<span class="k">class</span> <span class="nc">BaseEngine</span><span class="p">:</span>
+    <span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">stable</span><span class="o">=</span><span class="kc">True</span><span class="p">):</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">stable</span> <span class="o">=</span> <span class="n">stable</span>  <span class="c1"># whether the engine is stable or not (i.e. experimental)</span>
+
+    <span class="k">def</span> <span class="nf">infer</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">df</span><span class="p">)</span> <span class="o">-&gt;</span> <span class="n">TypeInformation</span><span class="p">:</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;Given a dataframe, infer the types of each column and return a TypeInformation object.&quot;&quot;&quot;</span>
+        <span class="k">raise</span> <span class="ne">NotImplementedError</span>
+
+
+<span class="k">class</span> <span class="nc">ENGINES</span><span class="p">:</span>
+    <span class="n">RULE_BASED</span> <span class="o">=</span> <span class="s1">&#39;rule_based&#39;</span>
 </pre></div>
 
            </div>
diff --git a/_modules/dtype.html b/_modules/dtype.html
index 038239f..0a95162 100644
--- a/_modules/dtype.html
+++ b/_modules/dtype.html
@@ -3,7 +3,7 @@
 <head>
   <meta charset="utf-8" />
   <meta name="viewport" content="width=device-width, initial-scale=1.0" />
-  <title>dtype &mdash; type_infer 0.0.17 documentation</title>
+  <title>dtype &mdash; type_infer 0.0.18 documentation</title>
       <link rel="stylesheet" type="text/css" href="../_static/pygments.css" />
       <link rel="stylesheet" type="text/css" href="../_static/css/theme.css" />
       <link rel="stylesheet" type="text/css" href="../_static/graphviz.css" />
@@ -38,7 +38,7 @@
               <img src="../_static/mindsdblogo.png" class="logo" alt="Logo"/>
           </a>
               <div class="version">
-                0.0.17
+                0.0.18
               </div>
 <div role="search">
   <form id="rtd-search-form" class="wy-form" action="../search.html" method="get">
@@ -127,6 +127,9 @@ <h1>Source code for dtype</h1><div class="highlight"><pre>
     <span class="c1"># Misc (Unk/NaNs)</span>
     <span class="n">empty</span> <span class="o">=</span> <span class="s2">&quot;empty&quot;</span>
     <span class="n">invalid</span> <span class="o">=</span> <span class="s2">&quot;invalid&quot;</span></div>
+
+
+<span class="c1"># TODO: modifier class + system</span>
 </pre></div>
 
            </div>
diff --git a/_modules/helpers.html b/_modules/helpers.html
index cf11462..320d12e 100644
--- a/_modules/helpers.html
+++ b/_modules/helpers.html
@@ -3,7 +3,7 @@
 <head>
   <meta charset="utf-8" />
   <meta name="viewport" content="width=device-width, initial-scale=1.0" />
-  <title>helpers &mdash; type_infer 0.0.17 documentation</title>
+  <title>helpers &mdash; type_infer 0.0.18 documentation</title>
       <link rel="stylesheet" type="text/css" href="../_static/pygments.css" />
       <link rel="stylesheet" type="text/css" href="../_static/css/theme.css" />
       <link rel="stylesheet" type="text/css" href="../_static/graphviz.css" />
@@ -38,7 +38,7 @@
               <img src="../_static/mindsdblogo.png" class="logo" alt="Logo"/>
           </a>
               <div class="version">
-                0.0.17
+                0.0.18
               </div>
 <div role="search">
   <form id="rtd-search-form" class="wy-form" action="../search.html" method="get">
@@ -81,36 +81,52 @@
              
   <h1>Source code for helpers</h1><div class="highlight"><pre>
 <span></span><span class="kn">import</span> <span class="nn">os</span>
-<span class="kn">import</span> <span class="nn">re</span>
-<span class="kn">import</span> <span class="nn">nltk</span>
 <span class="kn">import</span> <span class="nn">psutil</span>
 <span class="kn">import</span> <span class="nn">random</span>
-<span class="kn">import</span> <span class="nn">string</span>
 <span class="kn">import</span> <span class="nn">logging</span>
 <span class="kn">import</span> <span class="nn">colorlog</span>
 <span class="kn">import</span> <span class="nn">multiprocessing</span> <span class="k">as</span> <span class="nn">mp</span>
+<span class="kn">from</span> <span class="nn">typing</span> <span class="kn">import</span> <span class="n">Iterable</span>
 
 <span class="kn">import</span> <span class="nn">numpy</span> <span class="k">as</span> <span class="nn">np</span>
-<span class="kn">import</span> <span class="nn">scipy.stats</span> <span class="k">as</span> <span class="nn">st</span>
-<span class="kn">from</span> <span class="nn">langid.langid</span> <span class="kn">import</span> <span class="n">LanguageIdentifier</span>
-<span class="kn">from</span> <span class="nn">langid.langid</span> <span class="kn">import</span> <span class="n">model</span> <span class="k">as</span> <span class="n">langid_model</span>
+<span class="kn">import</span> <span class="nn">pandas</span> <span class="k">as</span> <span class="nn">pd</span>
+<span class="kn">from</span> <span class="nn">scipy.stats</span> <span class="kn">import</span> <span class="n">norm</span>
+
+
+<span class="k">def</span> <span class="nf">initialize_log</span><span class="p">():</span>
+    <span class="n">pid</span> <span class="o">=</span> <span class="n">os</span><span class="o">.</span><span class="n">getpid</span><span class="p">()</span>
+    <span class="n">handler</span> <span class="o">=</span> <span class="n">colorlog</span><span class="o">.</span><span class="n">StreamHandler</span><span class="p">()</span>
+    <span class="n">handler</span><span class="o">.</span><span class="n">setFormatter</span><span class="p">(</span><span class="n">colorlog</span><span class="o">.</span><span class="n">ColoredFormatter</span><span class="p">())</span>
+
+    <span class="n">logging</span><span class="o">.</span><span class="n">basicConfig</span><span class="p">(</span><span class="n">handlers</span><span class="o">=</span><span class="p">[</span><span class="n">handler</span><span class="p">])</span>
+    <span class="n">log</span> <span class="o">=</span> <span class="n">logging</span><span class="o">.</span><span class="n">getLogger</span><span class="p">(</span><span class="sa">f</span><span class="s1">&#39;type_infer-</span><span class="si">{</span><span class="n">pid</span><span class="si">}</span><span class="s1">&#39;</span><span class="p">)</span>
+    <span class="n">log_level</span> <span class="o">=</span> <span class="n">os</span><span class="o">.</span><span class="n">environ</span><span class="o">.</span><span class="n">get</span><span class="p">(</span><span class="s1">&#39;TYPE_INFER_LOG&#39;</span><span class="p">,</span> <span class="s1">&#39;DEBUG&#39;</span><span class="p">)</span>
+    <span class="n">log</span><span class="o">.</span><span class="n">setLevel</span><span class="p">(</span><span class="n">log_level</span><span class="p">)</span>
+    <span class="k">return</span> <span class="n">log</span>
 
-<span class="kn">from</span> <span class="nn">typing</span> <span class="kn">import</span> <span class="n">Iterable</span>
-<span class="kn">from</span> <span class="nn">collections</span> <span class="kn">import</span> <span class="n">Counter</span><span class="p">,</span> <span class="n">defaultdict</span>
 
-<span class="kn">from</span> <span class="nn">type_infer.dtype</span> <span class="kn">import</span> <span class="n">dtype</span>
+<span class="n">log</span> <span class="o">=</span> <span class="n">initialize_log</span><span class="p">()</span>
+
 
+<span class="k">def</span> <span class="nf">get_nr_procs</span><span class="p">(</span><span class="n">df</span><span class="o">=</span><span class="kc">None</span><span class="p">):</span>
+    <span class="k">if</span> <span class="s1">&#39;MINDSDB_N_WORKERS&#39;</span> <span class="ow">in</span> <span class="n">os</span><span class="o">.</span><span class="n">environ</span><span class="p">:</span>
+        <span class="k">try</span><span class="p">:</span>
+            <span class="n">n</span> <span class="o">=</span> <span class="nb">int</span><span class="p">(</span><span class="n">os</span><span class="o">.</span><span class="n">environ</span><span class="p">[</span><span class="s1">&#39;MINDSDB_N_WORKERS&#39;</span><span class="p">])</span>
+        <span class="k">except</span> <span class="ne">ValueError</span><span class="p">:</span>
+            <span class="n">n</span> <span class="o">=</span> <span class="mi">1</span>
+        <span class="k">return</span> <span class="n">n</span>
+    <span class="k">elif</span> <span class="n">os</span><span class="o">.</span><span class="n">name</span> <span class="o">==</span> <span class="s1">&#39;nt&#39;</span><span class="p">:</span>
+        <span class="k">return</span> <span class="mi">1</span>
+    <span class="k">else</span><span class="p">:</span>
+        <span class="n">available_mem</span> <span class="o">=</span> <span class="n">psutil</span><span class="o">.</span><span class="n">virtual_memory</span><span class="p">()</span><span class="o">.</span><span class="n">available</span>
+        <span class="k">if</span> <span class="n">df</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span><span class="p">:</span>
+            <span class="n">max_per_proc_usage</span> <span class="o">=</span> <span class="n">df</span><span class="o">.</span><span class="n">size</span>
+        <span class="k">else</span><span class="p">:</span>
+            <span class="n">max_per_proc_usage</span> <span class="o">=</span> <span class="mf">0.2</span> <span class="o">*</span> <span class="nb">pow</span><span class="p">(</span><span class="mi">10</span><span class="p">,</span> <span class="mi">9</span><span class="p">)</span>  <span class="c1"># multiplier * 1GB</span>
 
-<span class="k">try</span><span class="p">:</span>
-    <span class="n">nltk</span><span class="o">.</span><span class="n">data</span><span class="o">.</span><span class="n">find</span><span class="p">(</span><span class="s1">&#39;tokenizers/punkt&#39;</span><span class="p">)</span>
-<span class="k">except</span> <span class="ne">LookupError</span><span class="p">:</span>
-    <span class="n">nltk</span><span class="o">.</span><span class="n">download</span><span class="p">(</span><span class="s1">&#39;punkt&#39;</span><span class="p">)</span>
+        <span class="n">proc_count</span> <span class="o">=</span> <span class="nb">int</span><span class="p">(</span><span class="nb">min</span><span class="p">(</span><span class="n">mp</span><span class="o">.</span><span class="n">cpu_count</span><span class="p">()</span> <span class="o">-</span> <span class="mi">1</span><span class="p">,</span> <span class="n">available_mem</span> <span class="o">//</span> <span class="n">max_per_proc_usage</span><span class="p">))</span>
 
-<span class="k">try</span><span class="p">:</span>
-    <span class="kn">from</span> <span class="nn">nltk.corpus</span> <span class="kn">import</span> <span class="n">stopwords</span>
-    <span class="n">stopwords</span><span class="o">.</span><span class="n">words</span><span class="p">(</span><span class="s1">&#39;english&#39;</span><span class="p">)</span>
-<span class="k">except</span> <span class="ne">LookupError</span><span class="p">:</span>
-    <span class="n">nltk</span><span class="o">.</span><span class="n">download</span><span class="p">(</span><span class="s1">&#39;stopwords&#39;</span><span class="p">,</span> <span class="n">quiet</span><span class="o">=</span><span class="kc">True</span><span class="p">)</span>
+        <span class="k">return</span> <span class="nb">max</span><span class="p">(</span><span class="n">proc_count</span><span class="p">,</span> <span class="mi">1</span><span class="p">)</span>
 
 
 <span class="k">def</span> <span class="nf">seed</span><span class="p">(</span><span class="n">seed_nr</span><span class="p">:</span> <span class="nb">int</span><span class="p">)</span> <span class="o">-&gt;</span> <span class="kc">None</span><span class="p">:</span>
@@ -140,103 +156,6 @@ <h1>Source code for helpers</h1><div class="highlight"><pre>
     <span class="k">return</span> <span class="n">isnan</span></div>
 
 
-<span class="k">def</span> <span class="nf">initialize_log</span><span class="p">():</span>
-    <span class="n">pid</span> <span class="o">=</span> <span class="n">os</span><span class="o">.</span><span class="n">getpid</span><span class="p">()</span>
-
-    <span class="n">handler</span> <span class="o">=</span> <span class="n">colorlog</span><span class="o">.</span><span class="n">StreamHandler</span><span class="p">()</span>
-    <span class="n">handler</span><span class="o">.</span><span class="n">setFormatter</span><span class="p">(</span><span class="n">colorlog</span><span class="o">.</span><span class="n">ColoredFormatter</span><span class="p">())</span>
-
-    <span class="n">logging</span><span class="o">.</span><span class="n">basicConfig</span><span class="p">(</span><span class="n">handlers</span><span class="o">=</span><span class="p">[</span><span class="n">handler</span><span class="p">])</span>
-    <span class="n">log</span> <span class="o">=</span> <span class="n">logging</span><span class="o">.</span><span class="n">getLogger</span><span class="p">(</span><span class="sa">f</span><span class="s1">&#39;type_infer-</span><span class="si">{</span><span class="n">pid</span><span class="si">}</span><span class="s1">&#39;</span><span class="p">)</span>
-    <span class="n">log_level</span> <span class="o">=</span> <span class="n">os</span><span class="o">.</span><span class="n">environ</span><span class="o">.</span><span class="n">get</span><span class="p">(</span><span class="s1">&#39;TYPE_INFER_LOG&#39;</span><span class="p">,</span> <span class="s1">&#39;DEBUG&#39;</span><span class="p">)</span>
-    <span class="n">log</span><span class="o">.</span><span class="n">setLevel</span><span class="p">(</span><span class="n">log_level</span><span class="p">)</span>
-    <span class="k">return</span> <span class="n">log</span>
-
-
-<span class="n">log</span> <span class="o">=</span> <span class="n">initialize_log</span><span class="p">()</span>
-
-
-<span class="k">def</span> <span class="nf">get_identifier_description_mp</span><span class="p">(</span><span class="n">arg_tup</span><span class="p">):</span>
-    <span class="n">data</span><span class="p">,</span> <span class="n">column_name</span><span class="p">,</span> <span class="n">data_dtype</span> <span class="o">=</span> <span class="n">arg_tup</span>
-    <span class="k">return</span> <span class="n">get_identifier_description</span><span class="p">(</span><span class="n">data</span><span class="p">,</span> <span class="n">column_name</span><span class="p">,</span> <span class="n">data_dtype</span><span class="p">)</span>
-
-
-<span class="k">def</span> <span class="nf">get_identifier_description</span><span class="p">(</span><span class="n">data</span><span class="p">:</span> <span class="n">Iterable</span><span class="p">,</span> <span class="n">column_name</span><span class="p">:</span> <span class="nb">str</span><span class="p">,</span> <span class="n">data_dtype</span><span class="p">:</span> <span class="n">dtype</span><span class="p">):</span>
-    <span class="n">data</span> <span class="o">=</span> <span class="nb">list</span><span class="p">(</span><span class="n">data</span><span class="p">)</span>
-    <span class="k">if</span> <span class="nb">isinstance</span><span class="p">(</span><span class="n">data</span><span class="p">[</span><span class="mi">0</span><span class="p">],</span> <span class="nb">list</span><span class="p">):</span>
-        <span class="n">nr_unique</span> <span class="o">=</span> <span class="nb">len</span><span class="p">(</span><span class="nb">set</span><span class="p">(</span><span class="nb">tuple</span><span class="p">(</span><span class="n">x</span><span class="p">)</span> <span class="k">for</span> <span class="n">x</span> <span class="ow">in</span> <span class="n">data</span><span class="p">))</span>
-    <span class="k">elif</span> <span class="nb">isinstance</span><span class="p">(</span><span class="n">data</span><span class="p">[</span><span class="mi">0</span><span class="p">],</span> <span class="nb">dict</span><span class="p">):</span>
-        <span class="n">nr_unique</span> <span class="o">=</span> <span class="nb">len</span><span class="p">(</span><span class="nb">set</span><span class="p">(</span><span class="nb">str</span><span class="p">(</span><span class="n">x</span><span class="p">)</span> <span class="k">for</span> <span class="n">x</span> <span class="ow">in</span> <span class="n">data</span><span class="p">))</span>
-    <span class="k">else</span><span class="p">:</span>
-        <span class="n">nr_unique</span> <span class="o">=</span> <span class="nb">len</span><span class="p">(</span><span class="nb">set</span><span class="p">(</span><span class="n">data</span><span class="p">))</span>
-
-    <span class="k">if</span> <span class="n">nr_unique</span> <span class="o">==</span> <span class="mi">1</span><span class="p">:</span>
-        <span class="k">return</span> <span class="s1">&#39;No Information&#39;</span>
-
-    <span class="n">unique_pct</span> <span class="o">=</span> <span class="n">nr_unique</span> <span class="o">/</span> <span class="nb">len</span><span class="p">(</span><span class="n">data</span><span class="p">)</span>
-
-    <span class="n">spaces</span> <span class="o">=</span> <span class="p">[</span><span class="nb">len</span><span class="p">(</span><span class="nb">str</span><span class="p">(</span><span class="n">x</span><span class="p">)</span><span class="o">.</span><span class="n">split</span><span class="p">(</span><span class="s1">&#39; &#39;</span><span class="p">))</span> <span class="o">-</span> <span class="mi">1</span> <span class="k">for</span> <span class="n">x</span> <span class="ow">in</span> <span class="n">data</span><span class="p">]</span>
-    <span class="n">mean_spaces</span> <span class="o">=</span> <span class="n">np</span><span class="o">.</span><span class="n">mean</span><span class="p">(</span><span class="n">spaces</span><span class="p">)</span> <span class="k">if</span> <span class="nb">len</span><span class="p">(</span><span class="n">spaces</span><span class="p">)</span> <span class="o">&gt;</span> <span class="mi">0</span> <span class="k">else</span> <span class="mf">0.0</span>
-
-    <span class="c1"># Detect hash</span>
-    <span class="n">all_same_length</span> <span class="o">=</span> <span class="nb">all</span><span class="p">(</span><span class="nb">len</span><span class="p">(</span><span class="nb">str</span><span class="p">(</span><span class="n">data</span><span class="p">[</span><span class="mi">0</span><span class="p">]))</span> <span class="o">==</span> <span class="nb">len</span><span class="p">(</span><span class="nb">str</span><span class="p">(</span><span class="n">x</span><span class="p">))</span> <span class="k">for</span> <span class="n">x</span> <span class="ow">in</span> <span class="n">data</span><span class="p">)</span>
-    <span class="n">uuid_charset</span> <span class="o">=</span> <span class="nb">set</span><span class="p">(</span><span class="s1">&#39;0123456789abcdefABCDEF-&#39;</span><span class="p">)</span>
-    <span class="n">all_uuid_charset</span> <span class="o">=</span> <span class="nb">all</span><span class="p">(</span><span class="nb">set</span><span class="p">(</span><span class="nb">str</span><span class="p">(</span><span class="n">x</span><span class="p">))</span><span class="o">.</span><span class="n">issubset</span><span class="p">(</span><span class="n">uuid_charset</span><span class="p">)</span> <span class="k">for</span> <span class="n">x</span> <span class="ow">in</span> <span class="n">data</span><span class="p">)</span>
-    <span class="n">is_uuid</span> <span class="o">=</span> <span class="n">all_uuid_charset</span> <span class="ow">and</span> <span class="n">all_same_length</span>
-
-    <span class="k">if</span> <span class="n">all_same_length</span> <span class="ow">and</span> <span class="nb">len</span><span class="p">(</span><span class="n">data</span><span class="p">)</span> <span class="o">==</span> <span class="n">nr_unique</span> <span class="ow">and</span> <span class="n">data_dtype</span> <span class="ow">not</span> <span class="ow">in</span> <span class="p">(</span><span class="n">dtype</span><span class="o">.</span><span class="n">integer</span><span class="p">,</span> <span class="n">dtype</span><span class="o">.</span><span class="n">float</span><span class="p">):</span>
-        <span class="n">str_data</span> <span class="o">=</span> <span class="p">[</span><span class="nb">str</span><span class="p">(</span><span class="n">x</span><span class="p">)</span> <span class="k">for</span> <span class="n">x</span> <span class="ow">in</span> <span class="n">data</span><span class="p">]</span>
-        <span class="n">randomness_per_index</span> <span class="o">=</span> <span class="p">[]</span>
-        <span class="k">for</span> <span class="n">i</span><span class="p">,</span> <span class="n">_</span> <span class="ow">in</span> <span class="nb">enumerate</span><span class="p">(</span><span class="n">str_data</span><span class="p">[</span><span class="mi">0</span><span class="p">]):</span>
-            <span class="n">N</span> <span class="o">=</span> <span class="nb">len</span><span class="p">(</span><span class="nb">set</span><span class="p">(</span><span class="n">x</span><span class="p">[</span><span class="n">i</span><span class="p">]</span> <span class="k">for</span> <span class="n">x</span> <span class="ow">in</span> <span class="n">str_data</span><span class="p">))</span>
-            <span class="n">S</span> <span class="o">=</span> <span class="n">st</span><span class="o">.</span><span class="n">entropy</span><span class="p">([</span><span class="o">*</span><span class="n">Counter</span><span class="p">(</span><span class="n">x</span><span class="p">[</span><span class="n">i</span><span class="p">]</span> <span class="k">for</span> <span class="n">x</span> <span class="ow">in</span> <span class="n">str_data</span><span class="p">)</span><span class="o">.</span><span class="n">values</span><span class="p">()])</span>
-            <span class="k">if</span> <span class="n">S</span> <span class="o">==</span> <span class="mi">0</span><span class="p">:</span>
-                <span class="n">randomness_per_index</span><span class="o">.</span><span class="n">append</span><span class="p">(</span><span class="mf">0.0</span><span class="p">)</span>
-            <span class="k">else</span><span class="p">:</span>
-                <span class="n">randomness_per_index</span><span class="o">.</span><span class="n">append</span><span class="p">(</span><span class="n">S</span> <span class="o">/</span> <span class="n">np</span><span class="o">.</span><span class="n">log</span><span class="p">(</span><span class="n">N</span><span class="p">))</span>
-
-        <span class="n">mean_randomness</span> <span class="o">=</span> <span class="n">np</span><span class="o">.</span><span class="n">mean</span><span class="p">(</span><span class="n">randomness_per_index</span><span class="p">)</span> <span class="k">if</span> <span class="nb">len</span><span class="p">(</span><span class="n">randomness_per_index</span><span class="p">)</span> <span class="o">&gt;</span> <span class="mi">0</span> <span class="k">else</span> <span class="mi">0</span>
-        <span class="k">if</span> <span class="n">mean_randomness</span> <span class="o">&gt;</span> <span class="mf">0.95</span><span class="p">:</span>
-            <span class="k">return</span> <span class="s1">&#39;Hash-like identifier&#39;</span>
-
-    <span class="c1"># Detect foreign key</span>
-    <span class="k">if</span> <span class="n">data_dtype</span> <span class="o">==</span> <span class="n">dtype</span><span class="o">.</span><span class="n">integer</span><span class="p">:</span>
-        <span class="k">if</span> <span class="n">_is_foreign_key_name</span><span class="p">(</span><span class="n">column_name</span><span class="p">):</span>
-            <span class="k">return</span> <span class="s1">&#39;Foreign key&#39;</span>
-
-    <span class="k">if</span> <span class="n">_is_identifier_name</span><span class="p">(</span><span class="n">column_name</span><span class="p">)</span> <span class="ow">or</span> <span class="n">data_dtype</span> <span class="ow">in</span> <span class="p">(</span><span class="n">dtype</span><span class="o">.</span><span class="n">categorical</span><span class="p">,</span> <span class="n">dtype</span><span class="o">.</span><span class="n">binary</span><span class="p">):</span>
-        <span class="k">if</span> <span class="n">unique_pct</span> <span class="o">&gt;</span> <span class="mf">0.98</span><span class="p">:</span>
-            <span class="k">if</span> <span class="n">is_uuid</span><span class="p">:</span>
-                <span class="k">return</span> <span class="s1">&#39;UUID&#39;</span>
-            <span class="k">else</span><span class="p">:</span>
-                <span class="k">return</span> <span class="s1">&#39;Unknown identifier&#39;</span>
-
-    <span class="c1"># Everything is unique and it&#39;s too short to be rich text</span>
-    <span class="k">if</span> <span class="n">data_dtype</span> <span class="ow">in</span> <span class="p">(</span><span class="n">dtype</span><span class="o">.</span><span class="n">categorical</span><span class="p">,</span> <span class="n">dtype</span><span class="o">.</span><span class="n">binary</span><span class="p">,</span> <span class="n">dtype</span><span class="o">.</span><span class="n">short_text</span><span class="p">,</span> <span class="n">dtype</span><span class="o">.</span><span class="n">rich_text</span><span class="p">)</span> <span class="ow">and</span> \
-            <span class="n">unique_pct</span> <span class="o">&gt;</span> <span class="mf">0.99999</span> <span class="ow">and</span> <span class="n">mean_spaces</span> <span class="o">&lt;</span> <span class="mi">1</span><span class="p">:</span>
-        <span class="k">return</span> <span class="s1">&#39;Unknown identifier&#39;</span>
-
-    <span class="k">return</span> <span class="kc">None</span>
-
-
-<span class="k">def</span> <span class="nf">_is_foreign_key_name</span><span class="p">(</span><span class="n">name</span><span class="p">):</span>
-    <span class="k">for</span> <span class="n">endings</span> <span class="ow">in</span> <span class="p">[</span><span class="s1">&#39;id&#39;</span><span class="p">,</span> <span class="s1">&#39;ID&#39;</span><span class="p">,</span> <span class="s1">&#39;Id&#39;</span><span class="p">]:</span>
-        <span class="k">for</span> <span class="n">add</span> <span class="ow">in</span> <span class="p">[</span><span class="s1">&#39;-&#39;</span><span class="p">,</span> <span class="s1">&#39;_&#39;</span><span class="p">,</span> <span class="s1">&#39; &#39;</span><span class="p">]:</span>
-            <span class="k">if</span> <span class="n">name</span><span class="o">.</span><span class="n">endswith</span><span class="p">(</span><span class="n">add</span> <span class="o">+</span> <span class="n">endings</span><span class="p">):</span>
-                <span class="k">return</span> <span class="kc">True</span>
-    <span class="k">for</span> <span class="n">endings</span> <span class="ow">in</span> <span class="p">[</span><span class="s1">&#39;ID&#39;</span><span class="p">,</span> <span class="s1">&#39;Id&#39;</span><span class="p">]:</span>
-        <span class="k">if</span> <span class="n">name</span><span class="o">.</span><span class="n">endswith</span><span class="p">(</span><span class="n">endings</span><span class="p">):</span>
-            <span class="k">return</span> <span class="kc">True</span>
-    <span class="k">return</span> <span class="kc">False</span>
-
-
-<span class="k">def</span> <span class="nf">_is_identifier_name</span><span class="p">(</span><span class="n">name</span><span class="p">):</span>
-    <span class="k">for</span> <span class="n">keyword</span> <span class="ow">in</span> <span class="p">[</span><span class="s1">&#39;account&#39;</span><span class="p">,</span> <span class="s1">&#39;uuid&#39;</span><span class="p">,</span> <span class="s1">&#39;identifier&#39;</span><span class="p">,</span> <span class="s1">&#39;user&#39;</span><span class="p">]:</span>
-        <span class="k">if</span> <span class="n">keyword</span> <span class="ow">in</span> <span class="n">name</span><span class="p">:</span>
-            <span class="k">return</span> <span class="kc">True</span>
-    <span class="k">return</span> <span class="kc">False</span>
-
-
 <div class="viewcode-block" id="cast_string_to_python_type"><a class="viewcode-back" href="../helpers.html#helpers.cast_string_to_python_type">[docs]</a><span class="k">def</span> <span class="nf">cast_string_to_python_type</span><span class="p">(</span><span class="n">string</span><span class="p">):</span>
 <span class="w">    </span><span class="sd">&quot;&quot;&quot; Returns None, an integer, float or a string from a string&quot;&quot;&quot;</span>
     <span class="k">if</span> <span class="n">string</span> <span class="ow">is</span> <span class="kc">None</span> <span class="ow">or</span> <span class="n">string</span> <span class="o">==</span> <span class="s1">&#39;&#39;</span><span class="p">:</span>
@@ -255,7 +174,6 @@ <h1>Source code for helpers</h1><div class="highlight"><pre>
         <span class="k">return</span> <span class="n">string</span></div>
 
 
-<span class="c1"># TODO: Should this be here?</span>
 <span class="k">def</span> <span class="nf">clean_float</span><span class="p">(</span><span class="n">val</span><span class="p">):</span>
     <span class="k">if</span> <span class="nb">isinstance</span><span class="p">(</span><span class="n">val</span><span class="p">,</span> <span class="p">(</span><span class="nb">int</span><span class="p">,</span> <span class="nb">float</span><span class="p">)):</span>
         <span class="k">return</span> <span class="nb">float</span><span class="p">(</span><span class="n">val</span><span class="p">)</span>
@@ -276,103 +194,75 @@ <h1>Source code for helpers</h1><div class="highlight"><pre>
         <span class="k">return</span> <span class="kc">None</span>
 
 
-<span class="k">def</span> <span class="nf">get_language_dist</span><span class="p">(</span><span class="n">data</span><span class="p">):</span>
-    <span class="n">lang_dist</span> <span class="o">=</span> <span class="n">defaultdict</span><span class="p">(</span><span class="k">lambda</span><span class="p">:</span> <span class="mi">0</span><span class="p">)</span>
-    <span class="n">lang_dist</span><span class="p">[</span><span class="s1">&#39;Unknown&#39;</span><span class="p">]</span> <span class="o">=</span> <span class="mi">0</span>
-    <span class="n">lang_probs_cache</span> <span class="o">=</span> <span class="nb">dict</span><span class="p">()</span>
-    <span class="n">identifier</span> <span class="o">=</span> <span class="n">LanguageIdentifier</span><span class="o">.</span><span class="n">from_modelstring</span><span class="p">(</span><span class="n">langid_model</span><span class="p">,</span> <span class="n">norm_probs</span><span class="o">=</span><span class="kc">True</span><span class="p">)</span>
-    <span class="k">for</span> <span class="n">text</span> <span class="ow">in</span> <span class="n">data</span><span class="p">:</span>
-        <span class="n">text</span> <span class="o">=</span> <span class="nb">str</span><span class="p">(</span><span class="n">text</span><span class="p">)</span>
-        <span class="n">text</span> <span class="o">=</span> <span class="n">text</span><span class="o">.</span><span class="n">translate</span><span class="p">(</span><span class="nb">str</span><span class="o">.</span><span class="n">maketrans</span><span class="p">(</span><span class="s1">&#39;&#39;</span><span class="p">,</span> <span class="s1">&#39;&#39;</span><span class="p">,</span> <span class="n">string</span><span class="o">.</span><span class="n">punctuation</span><span class="p">))</span>
-        <span class="k">if</span> <span class="n">text</span> <span class="ow">not</span> <span class="ow">in</span> <span class="n">lang_probs_cache</span><span class="p">:</span>
-            <span class="k">try</span><span class="p">:</span>
-                <span class="n">lang_probs</span> <span class="o">=</span> <span class="n">identifier</span><span class="o">.</span><span class="n">classify</span><span class="p">(</span><span class="n">text</span><span class="p">)</span>
-            <span class="k">except</span> <span class="ne">Exception</span><span class="p">:</span>
-                <span class="n">lang_probs</span> <span class="o">=</span> <span class="p">[]</span>
-            <span class="n">lang_probs_cache</span><span class="p">[</span><span class="n">text</span><span class="p">]</span> <span class="o">=</span> <span class="n">lang_probs</span>
-
-        <span class="n">lang_probs</span> <span class="o">=</span> <span class="n">lang_probs_cache</span><span class="p">[</span><span class="n">text</span><span class="p">]</span>
-        <span class="k">if</span> <span class="nb">len</span><span class="p">(</span><span class="n">lang_probs</span><span class="p">)</span> <span class="o">&gt;</span> <span class="mi">0</span> <span class="ow">and</span> <span class="n">lang_probs</span><span class="p">[</span><span class="mi">1</span><span class="p">]</span> <span class="o">&gt;</span> <span class="mi">10</span> <span class="o">*</span> <span class="p">(</span><span class="mi">1</span> <span class="o">/</span> <span class="nb">len</span><span class="p">(</span><span class="n">identifier</span><span class="o">.</span><span class="n">nb_classes</span><span class="p">)):</span>
-            <span class="n">lang_dist</span><span class="p">[</span><span class="n">lang_probs</span><span class="p">[</span><span class="mi">0</span><span class="p">]]</span> <span class="o">+=</span> <span class="mi">1</span>
-        <span class="k">else</span><span class="p">:</span>
-            <span class="n">lang_dist</span><span class="p">[</span><span class="s1">&#39;Unknown&#39;</span><span class="p">]</span> <span class="o">+=</span> <span class="mi">1</span>
-
-    <span class="k">return</span> <span class="nb">dict</span><span class="p">(</span><span class="n">lang_dist</span><span class="p">)</span>
-
-
-<span class="k">def</span> <span class="nf">analyze_sentences</span><span class="p">(</span><span class="n">data</span><span class="p">):</span>
-    <span class="n">nr_words</span> <span class="o">=</span> <span class="mi">0</span>
-    <span class="n">word_dist</span> <span class="o">=</span> <span class="n">defaultdict</span><span class="p">(</span><span class="nb">int</span><span class="p">)</span>
-    <span class="n">nr_words_dist</span> <span class="o">=</span> <span class="n">defaultdict</span><span class="p">(</span><span class="nb">int</span><span class="p">)</span>
-    <span class="n">stop_words</span> <span class="o">=</span> <span class="nb">set</span><span class="p">(</span><span class="n">stopwords</span><span class="o">.</span><span class="n">words</span><span class="p">(</span><span class="s1">&#39;english&#39;</span><span class="p">))</span>
-    <span class="k">for</span> <span class="n">text</span> <span class="ow">in</span> <span class="nb">map</span><span class="p">(</span><span class="nb">str</span><span class="p">,</span> <span class="n">data</span><span class="p">):</span>
-        <span class="n">text</span> <span class="o">=</span> <span class="n">text</span><span class="o">.</span><span class="n">lower</span><span class="p">()</span>
-        <span class="n">text_dist</span> <span class="o">=</span> <span class="n">defaultdict</span><span class="p">(</span><span class="nb">int</span><span class="p">)</span>
-        <span class="n">tokens</span> <span class="o">=</span> <span class="n">tokenize_text</span><span class="p">(</span><span class="n">text</span><span class="p">)</span>
-        <span class="n">tokens_no_stop</span> <span class="o">=</span> <span class="p">(</span><span class="n">x</span> <span class="k">for</span> <span class="n">x</span> <span class="ow">in</span> <span class="n">tokens</span> <span class="k">if</span> <span class="n">x</span> <span class="ow">not</span> <span class="ow">in</span> <span class="n">stop_words</span><span class="p">)</span>
-        <span class="k">for</span> <span class="n">tok</span> <span class="ow">in</span> <span class="n">tokens_no_stop</span><span class="p">:</span>
-            <span class="n">text_dist</span><span class="p">[</span><span class="n">tok</span><span class="p">]</span> <span class="o">+=</span> <span class="mi">1</span>
-
-        <span class="n">n_tokens</span> <span class="o">=</span> <span class="nb">len</span><span class="p">(</span><span class="n">text_dist</span><span class="p">)</span>
-        <span class="n">nr_words_dist</span><span class="p">[</span><span class="n">n_tokens</span><span class="p">]</span> <span class="o">+=</span> <span class="mi">1</span>
-        <span class="n">nr_words</span> <span class="o">+=</span> <span class="n">n_tokens</span>
-
-        <span class="c1"># merge text_dist into word_dist</span>
-        <span class="k">for</span> <span class="n">k</span><span class="p">,</span> <span class="n">v</span> <span class="ow">in</span> <span class="n">text_dist</span><span class="o">.</span><span class="n">items</span><span class="p">():</span>
-            <span class="n">word_dist</span><span class="p">[</span><span class="n">k</span><span class="p">]</span> <span class="o">+=</span> <span class="n">v</span>
-
-    <span class="k">return</span> <span class="n">nr_words</span><span class="p">,</span> <span class="nb">dict</span><span class="p">(</span><span class="n">word_dist</span><span class="p">),</span> <span class="nb">dict</span><span class="p">(</span><span class="n">nr_words_dist</span><span class="p">)</span>
-
-
-<span class="c1"># @TODO: eventually move these into .helpers.text</span>
-<div class="viewcode-block" id="tokenize_text"><a class="viewcode-back" href="../helpers.html#helpers.tokenize_text">[docs]</a><span class="k">def</span> <span class="nf">tokenize_text</span><span class="p">(</span><span class="n">text</span><span class="p">):</span>
-<span class="w">    </span><span class="sd">&quot;&quot;&quot; Generator instead of list comprehension for optimal memory usage &amp; runtime &quot;&quot;&quot;</span>
-    <span class="k">return</span> <span class="p">(</span><span class="n">t</span><span class="o">.</span><span class="n">lower</span><span class="p">()</span> <span class="k">for</span> <span class="n">t</span> <span class="ow">in</span> <span class="n">nltk</span><span class="o">.</span><span class="n">word_tokenize</span><span class="p">(</span><span class="n">decontracted</span><span class="p">(</span><span class="n">text</span><span class="p">))</span> <span class="k">if</span> <span class="n">contains_alnum</span><span class="p">(</span><span class="n">t</span><span class="p">))</span></div>
-
-
-<span class="k">def</span> <span class="nf">decontracted</span><span class="p">(</span><span class="n">phrase</span><span class="p">):</span>
-    <span class="c1"># specific</span>
-    <span class="n">phrase</span> <span class="o">=</span> <span class="n">re</span><span class="o">.</span><span class="n">sub</span><span class="p">(</span><span class="sa">r</span><span class="s2">&quot;won\&#39;t&quot;</span><span class="p">,</span> <span class="s2">&quot;will not&quot;</span><span class="p">,</span> <span class="n">phrase</span><span class="p">)</span>
-    <span class="n">phrase</span> <span class="o">=</span> <span class="n">re</span><span class="o">.</span><span class="n">sub</span><span class="p">(</span><span class="sa">r</span><span class="s2">&quot;can\&#39;t&quot;</span><span class="p">,</span> <span class="s2">&quot;can not&quot;</span><span class="p">,</span> <span class="n">phrase</span><span class="p">)</span>
-
-    <span class="c1"># general</span>
-    <span class="n">phrase</span> <span class="o">=</span> <span class="n">re</span><span class="o">.</span><span class="n">sub</span><span class="p">(</span><span class="sa">r</span><span class="s2">&quot;n\&#39;t&quot;</span><span class="p">,</span> <span class="s2">&quot; not&quot;</span><span class="p">,</span> <span class="n">phrase</span><span class="p">)</span>
-    <span class="n">phrase</span> <span class="o">=</span> <span class="n">re</span><span class="o">.</span><span class="n">sub</span><span class="p">(</span><span class="sa">r</span><span class="s2">&quot;\&#39;re&quot;</span><span class="p">,</span> <span class="s2">&quot; are&quot;</span><span class="p">,</span> <span class="n">phrase</span><span class="p">)</span>
-    <span class="n">phrase</span> <span class="o">=</span> <span class="n">re</span><span class="o">.</span><span class="n">sub</span><span class="p">(</span><span class="sa">r</span><span class="s2">&quot;\&#39;s&quot;</span><span class="p">,</span> <span class="s2">&quot; is&quot;</span><span class="p">,</span> <span class="n">phrase</span><span class="p">)</span>
-    <span class="n">phrase</span> <span class="o">=</span> <span class="n">re</span><span class="o">.</span><span class="n">sub</span><span class="p">(</span><span class="sa">r</span><span class="s2">&quot;\&#39;d&quot;</span><span class="p">,</span> <span class="s2">&quot; would&quot;</span><span class="p">,</span> <span class="n">phrase</span><span class="p">)</span>
-    <span class="n">phrase</span> <span class="o">=</span> <span class="n">re</span><span class="o">.</span><span class="n">sub</span><span class="p">(</span><span class="sa">r</span><span class="s2">&quot;\&#39;ll&quot;</span><span class="p">,</span> <span class="s2">&quot; will&quot;</span><span class="p">,</span> <span class="n">phrase</span><span class="p">)</span>
-    <span class="n">phrase</span> <span class="o">=</span> <span class="n">re</span><span class="o">.</span><span class="n">sub</span><span class="p">(</span><span class="sa">r</span><span class="s2">&quot;\&#39;t&quot;</span><span class="p">,</span> <span class="s2">&quot; not&quot;</span><span class="p">,</span> <span class="n">phrase</span><span class="p">)</span>
-    <span class="n">phrase</span> <span class="o">=</span> <span class="n">re</span><span class="o">.</span><span class="n">sub</span><span class="p">(</span><span class="sa">r</span><span class="s2">&quot;\&#39;ve&quot;</span><span class="p">,</span> <span class="s2">&quot; have&quot;</span><span class="p">,</span> <span class="n">phrase</span><span class="p">)</span>
-    <span class="n">phrase</span> <span class="o">=</span> <span class="n">re</span><span class="o">.</span><span class="n">sub</span><span class="p">(</span><span class="sa">r</span><span class="s2">&quot;\&#39;m&quot;</span><span class="p">,</span> <span class="s2">&quot; am&quot;</span><span class="p">,</span> <span class="n">phrase</span><span class="p">)</span>
-    <span class="k">return</span> <span class="n">phrase</span>
-
+<span class="k">def</span> <span class="nf">sample_data</span><span class="p">(</span><span class="n">df</span><span class="p">:</span> <span class="n">pd</span><span class="o">.</span><span class="n">DataFrame</span><span class="p">)</span> <span class="o">-&gt;</span> <span class="n">pd</span><span class="o">.</span><span class="n">DataFrame</span><span class="p">:</span>
+    <span class="n">population_size</span> <span class="o">=</span> <span class="nb">len</span><span class="p">(</span><span class="n">df</span><span class="p">)</span>
+    <span class="k">if</span> <span class="n">population_size</span> <span class="o">&lt;=</span> <span class="mi">50</span><span class="p">:</span>
+        <span class="n">sample_size</span> <span class="o">=</span> <span class="n">population_size</span>
+    <span class="k">else</span><span class="p">:</span>
+        <span class="n">sample_size</span> <span class="o">=</span> <span class="nb">int</span><span class="p">(</span><span class="nb">round</span><span class="p">(</span><span class="n">_calculate_sample_size</span><span class="p">(</span><span class="n">population_size</span><span class="p">)))</span>
 
-<span class="k">def</span> <span class="nf">contains_alnum</span><span class="p">(</span><span class="n">text</span><span class="p">):</span>
-    <span class="k">for</span> <span class="n">c</span> <span class="ow">in</span> <span class="n">text</span><span class="p">:</span>
-        <span class="k">if</span> <span class="n">c</span><span class="o">.</span><span class="n">isalnum</span><span class="p">():</span>
-            <span class="k">return</span> <span class="kc">True</span>
-    <span class="k">return</span> <span class="kc">False</span>
+    <span class="n">population_size</span> <span class="o">=</span> <span class="nb">len</span><span class="p">(</span><span class="n">df</span><span class="p">)</span>
+    <span class="n">input_data_sample_indexes</span> <span class="o">=</span> <span class="n">random</span><span class="o">.</span><span class="n">sample</span><span class="p">(</span><span class="nb">range</span><span class="p">(</span><span class="n">population_size</span><span class="p">),</span> <span class="n">sample_size</span><span class="p">)</span>
+    <span class="k">return</span> <span class="n">df</span><span class="o">.</span><span class="n">iloc</span><span class="p">[</span><span class="n">input_data_sample_indexes</span><span class="p">]</span>
 
 
-<span class="k">def</span> <span class="nf">get_nr_procs</span><span class="p">(</span><span class="n">df</span><span class="o">=</span><span class="kc">None</span><span class="p">):</span>
-    <span class="k">if</span> <span class="s1">&#39;MINDSDB_N_WORKERS&#39;</span> <span class="ow">in</span> <span class="n">os</span><span class="o">.</span><span class="n">environ</span><span class="p">:</span>
-        <span class="k">try</span><span class="p">:</span>
-            <span class="n">n</span> <span class="o">=</span> <span class="nb">int</span><span class="p">(</span><span class="n">os</span><span class="o">.</span><span class="n">environ</span><span class="p">[</span><span class="s1">&#39;MINDSDB_N_WORKERS&#39;</span><span class="p">])</span>
-        <span class="k">except</span> <span class="ne">ValueError</span><span class="p">:</span>
-            <span class="n">n</span> <span class="o">=</span> <span class="mi">1</span>
-        <span class="k">return</span> <span class="n">n</span>
-    <span class="k">elif</span> <span class="n">os</span><span class="o">.</span><span class="n">name</span> <span class="o">==</span> <span class="s1">&#39;nt&#39;</span><span class="p">:</span>
-        <span class="k">return</span> <span class="mi">1</span>
+<span class="k">def</span> <span class="nf">_calculate_sample_size</span><span class="p">(</span>
+    <span class="n">population_size</span><span class="p">,</span>
+    <span class="n">margin_error</span><span class="o">=</span><span class="mf">.01</span><span class="p">,</span>
+    <span class="n">confidence_level</span><span class="o">=</span><span class="mf">.995</span><span class="p">,</span>
+    <span class="n">sigma</span><span class="o">=</span><span class="mi">1</span> <span class="o">/</span> <span class="mi">2</span>
+<span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">    Calculate the minimal sample size to use to achieve a certain</span>
+<span class="sd">    margin of error and confidence level for a sample estimate</span>
+<span class="sd">    of the population mean.</span>
+<span class="sd">    Inputs</span>
+<span class="sd">    -------</span>
+<span class="sd">    population_size: integer</span>
+<span class="sd">        Total size of the population that the sample is to be drawn from.</span>
+<span class="sd">    margin_error: number</span>
+<span class="sd">        Maximum expected difference between the true population parameter,</span>
+<span class="sd">        such as the mean, and the sample estimate.</span>
+<span class="sd">    confidence_level: number in the interval (0, 1)</span>
+<span class="sd">        If we were to draw a large number of equal-size samples</span>
+<span class="sd">        from the population, the true population parameter</span>
+<span class="sd">        should lie within this percentage</span>
+<span class="sd">        of the intervals (sample_parameter - e, sample_parameter + e)</span>
+<span class="sd">        where e is the margin_error.</span>
+<span class="sd">    sigma: number</span>
+<span class="sd">        The standard deviation of the population.  For the case</span>
+<span class="sd">        of estimating a parameter in the interval [0, 1], sigma=1/2</span>
+<span class="sd">        should be sufficient.</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+    <span class="n">alpha</span> <span class="o">=</span> <span class="mi">1</span> <span class="o">-</span> <span class="n">confidence_level</span>
+    <span class="c1"># dictionary of confidence levels and corresponding z-scores</span>
+    <span class="c1"># computed via norm.ppf(1 - (alpha/2)), where norm is</span>
+    <span class="c1"># a normal distribution object in scipy.stats.</span>
+    <span class="c1"># Here, ppf is the percentile point function.</span>
+    <span class="n">zdict</span> <span class="o">=</span> <span class="p">{</span>
+        <span class="mf">.90</span><span class="p">:</span> <span class="mf">1.645</span><span class="p">,</span>
+        <span class="mf">.91</span><span class="p">:</span> <span class="mf">1.695</span><span class="p">,</span>
+        <span class="mf">.99</span><span class="p">:</span> <span class="mf">2.576</span><span class="p">,</span>
+        <span class="mf">.97</span><span class="p">:</span> <span class="mf">2.17</span><span class="p">,</span>
+        <span class="mf">.94</span><span class="p">:</span> <span class="mf">1.881</span><span class="p">,</span>
+        <span class="mf">.93</span><span class="p">:</span> <span class="mf">1.812</span><span class="p">,</span>
+        <span class="mf">.95</span><span class="p">:</span> <span class="mf">1.96</span><span class="p">,</span>
+        <span class="mf">.98</span><span class="p">:</span> <span class="mf">2.326</span><span class="p">,</span>
+        <span class="mf">.96</span><span class="p">:</span> <span class="mf">2.054</span><span class="p">,</span>
+        <span class="mf">.92</span><span class="p">:</span> <span class="mf">1.751</span>
+    <span class="p">}</span>
+    <span class="k">if</span> <span class="n">confidence_level</span> <span class="ow">in</span> <span class="n">zdict</span><span class="p">:</span>
+        <span class="n">z</span> <span class="o">=</span> <span class="n">zdict</span><span class="p">[</span><span class="n">confidence_level</span><span class="p">]</span>
     <span class="k">else</span><span class="p">:</span>
-        <span class="n">available_mem</span> <span class="o">=</span> <span class="n">psutil</span><span class="o">.</span><span class="n">virtual_memory</span><span class="p">()</span><span class="o">.</span><span class="n">available</span>
-        <span class="k">if</span> <span class="n">df</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span><span class="p">:</span>
-            <span class="n">max_per_proc_usage</span> <span class="o">=</span> <span class="n">df</span><span class="o">.</span><span class="n">size</span>
-        <span class="k">else</span><span class="p">:</span>
-            <span class="n">max_per_proc_usage</span> <span class="o">=</span> <span class="mf">0.2</span> <span class="o">*</span> <span class="nb">pow</span><span class="p">(</span><span class="mi">10</span><span class="p">,</span> <span class="mi">9</span><span class="p">)</span>  <span class="c1"># multiplier * 1GB</span>
-
-        <span class="n">proc_count</span> <span class="o">=</span> <span class="nb">int</span><span class="p">(</span><span class="nb">min</span><span class="p">(</span><span class="n">mp</span><span class="o">.</span><span class="n">cpu_count</span><span class="p">()</span> <span class="o">-</span> <span class="mi">1</span><span class="p">,</span> <span class="n">available_mem</span> <span class="o">//</span> <span class="n">max_per_proc_usage</span><span class="p">))</span>
-
-        <span class="k">return</span> <span class="nb">max</span><span class="p">(</span><span class="n">proc_count</span><span class="p">,</span> <span class="mi">1</span><span class="p">)</span>
+        <span class="c1"># Inf fix</span>
+        <span class="k">if</span> <span class="n">alpha</span> <span class="o">==</span> <span class="mf">0.0</span><span class="p">:</span>
+            <span class="n">alpha</span> <span class="o">+=</span> <span class="mf">0.001</span>
+        <span class="n">z</span> <span class="o">=</span> <span class="n">norm</span><span class="o">.</span><span class="n">ppf</span><span class="p">(</span><span class="mi">1</span> <span class="o">-</span> <span class="p">(</span><span class="n">alpha</span> <span class="o">/</span> <span class="mi">2</span><span class="p">))</span>
+    <span class="n">N</span> <span class="o">=</span> <span class="n">population_size</span>
+    <span class="n">M</span> <span class="o">=</span> <span class="n">margin_error</span>
+    <span class="n">numerator</span> <span class="o">=</span> <span class="n">z</span><span class="o">**</span><span class="mi">2</span> <span class="o">*</span> <span class="n">sigma</span><span class="o">**</span><span class="mi">2</span> <span class="o">*</span> <span class="p">(</span><span class="n">N</span> <span class="o">/</span> <span class="p">(</span><span class="n">N</span> <span class="o">-</span> <span class="mi">1</span><span class="p">))</span>
+    <span class="n">denom</span> <span class="o">=</span> <span class="n">M</span><span class="o">**</span><span class="mi">2</span> <span class="o">+</span> <span class="p">((</span><span class="n">z</span><span class="o">**</span><span class="mi">2</span> <span class="o">*</span> <span class="n">sigma</span><span class="o">**</span><span class="mi">2</span><span class="p">)</span> <span class="o">/</span> <span class="p">(</span><span class="n">N</span> <span class="o">-</span> <span class="mi">1</span><span class="p">))</span>
+    <span class="k">return</span> <span class="n">numerator</span> <span class="o">/</span> <span class="n">denom</span>
 </pre></div>
 
            </div>
diff --git a/_modules/index.html b/_modules/index.html
index 34800eb..47f2e59 100644
--- a/_modules/index.html
+++ b/_modules/index.html
@@ -3,7 +3,7 @@
 <head>
   <meta charset="utf-8" />
   <meta name="viewport" content="width=device-width, initial-scale=1.0" />
-  <title>Overview: module code &mdash; type_infer 0.0.17 documentation</title>
+  <title>Overview: module code &mdash; type_infer 0.0.18 documentation</title>
       <link rel="stylesheet" type="text/css" href="../_static/pygments.css" />
       <link rel="stylesheet" type="text/css" href="../_static/css/theme.css" />
       <link rel="stylesheet" type="text/css" href="../_static/graphviz.css" />
@@ -38,7 +38,7 @@
               <img src="../_static/mindsdblogo.png" class="logo" alt="Logo"/>
           </a>
               <div class="version">
-                0.0.17
+                0.0.18
               </div>
 <div role="search">
   <form id="rtd-search-form" class="wy-form" action="../search.html" method="get">
@@ -82,7 +82,6 @@ <h1>All modules for which code is available</h1>
 <ul><li><a href="base.html">base</a></li>
 <li><a href="dtype.html">dtype</a></li>
 <li><a href="helpers.html">helpers</a></li>
-<li><a href="infer.html">infer</a></li>
 </ul>
 
            </div>
diff --git a/_modules/infer.html b/_modules/infer.html
deleted file mode 100644
index 1e77ea5..0000000
--- a/_modules/infer.html
+++ /dev/null
@@ -1,602 +0,0 @@
-<!DOCTYPE html>
-<html class="writer-html5" lang="en">
-<head>
-  <meta charset="utf-8" />
-  <meta name="viewport" content="width=device-width, initial-scale=1.0" />
-  <title>infer &mdash; type_infer 0.0.17 documentation</title>
-      <link rel="stylesheet" type="text/css" href="../_static/pygments.css" />
-      <link rel="stylesheet" type="text/css" href="../_static/css/theme.css" />
-      <link rel="stylesheet" type="text/css" href="../_static/graphviz.css" />
-      <link rel="stylesheet" type="text/css" href="../_static/custom.css" />
-
-  
-  <!--[if lt IE 9]>
-    <script src="../_static/js/html5shiv.min.js"></script>
-  <![endif]-->
-  
-        <script src="../_static/jquery.js"></script>
-        <script src="../_static/_sphinx_javascript_frameworks_compat.js"></script>
-        <script data-url_root="../" id="documentation_options" src="../_static/documentation_options.js"></script>
-        <script src="../_static/doctools.js"></script>
-        <script src="../_static/sphinx_highlight.js"></script>
-        <script crossorigin="anonymous" integrity="sha256-Ae2Vz/4ePdIu6ZyI/5ZGsYnb+m0JlOmKPjt6XZ9JJkA=" src="https://cdnjs.cloudflare.com/ajax/libs/require.js/2.3.4/require.min.js"></script>
-    <script src="../_static/js/theme.js"></script>
-    <link rel="index" title="Index" href="../genindex.html" />
-    <link rel="search" title="Search" href="../search.html" /> 
-</head>
-
-<body class="wy-body-for-nav"> 
-  <div class="wy-grid-for-nav">
-    <nav data-toggle="wy-nav-shift" class="wy-nav-side">
-      <div class="wy-side-scroll">
-        <div class="wy-side-nav-search"  style="background: white" >
-
-          
-          
-          <a href="../index.html">
-            
-              <img src="../_static/mindsdblogo.png" class="logo" alt="Logo"/>
-          </a>
-              <div class="version">
-                0.0.17
-              </div>
-<div role="search">
-  <form id="rtd-search-form" class="wy-form" action="../search.html" method="get">
-    <input type="text" name="q" placeholder="Search docs" aria-label="Search docs" />
-    <input type="hidden" name="check_keywords" value="yes" />
-    <input type="hidden" name="area" value="default" />
-  </form>
-</div>
-        </div><div class="wy-menu wy-menu-vertical" data-spy="affix" role="navigation" aria-label="Navigation menu">
-              <ul>
-<li class="toctree-l1"><a class="reference internal" href="../base.html"><code class="xref py py-mod docutils literal notranslate"><span class="pre">Base</span></code></a></li>
-<li class="toctree-l1"><a class="reference internal" href="../dtype.html"><code class="xref py py-mod docutils literal notranslate"><span class="pre">Data</span> <span class="pre">types</span></code></a></li>
-<li class="toctree-l1"><a class="reference internal" href="../infer.html"><code class="xref py py-mod docutils literal notranslate"><span class="pre">Infer</span></code></a></li>
-<li class="toctree-l1"><a class="reference internal" href="../helpers.html"><code class="xref py py-mod docutils literal notranslate"><span class="pre">Helpers</span></code></a></li>
-</ul>
-
-        </div>
-      </div>
-    </nav>
-
-    <section data-toggle="wy-nav-shift" class="wy-nav-content-wrap"><nav class="wy-nav-top" aria-label="Mobile navigation menu"  style="background: white" >
-          <i data-toggle="wy-nav-top" class="fa fa-bars"></i>
-          <a href="../index.html">type_infer</a>
-      </nav>
-
-      <div class="wy-nav-content">
-        <div class="rst-content">
-          <div role="navigation" aria-label="Page navigation">
-  <ul class="wy-breadcrumbs">
-      <li><a href="../index.html" class="icon icon-home" aria-label="Home"></a></li>
-          <li class="breadcrumb-item"><a href="index.html">Module code</a></li>
-      <li class="breadcrumb-item active">infer</li>
-      <li class="wy-breadcrumbs-aside">
-      </li>
-  </ul>
-  <hr/>
-</div>
-          <div role="main" class="document" itemscope="itemscope" itemtype="http://schema.org/Article">
-           <div itemprop="articleBody">
-             
-  <h1>Source code for infer</h1><div class="highlight"><pre>
-<span></span><span class="kn">import</span> <span class="nn">re</span>
-<span class="kn">import</span> <span class="nn">random</span>
-<span class="kn">import</span> <span class="nn">imghdr</span>
-<span class="kn">import</span> <span class="nn">sndhdr</span>
-<span class="kn">import</span> <span class="nn">multiprocessing</span> <span class="k">as</span> <span class="nn">mp</span>
-<span class="kn">from</span> <span class="nn">collections</span> <span class="kn">import</span> <span class="n">Counter</span>
-<span class="kn">from</span> <span class="nn">typing</span> <span class="kn">import</span> <span class="n">List</span><span class="p">,</span> <span class="n">Union</span>
-
-<span class="kn">from</span> <span class="nn">scipy.stats</span> <span class="kn">import</span> <span class="n">norm</span>
-<span class="kn">import</span> <span class="nn">pandas</span> <span class="k">as</span> <span class="nn">pd</span>
-<span class="kn">import</span> <span class="nn">numpy</span> <span class="k">as</span> <span class="nn">np</span>
-
-<span class="kn">from</span> <span class="nn">type_infer.base</span> <span class="kn">import</span> <span class="n">TypeInformation</span>
-<span class="kn">from</span> <span class="nn">type_infer.dtype</span> <span class="kn">import</span> <span class="n">dtype</span>
-<span class="kn">from</span> <span class="nn">type_infer.helpers</span> <span class="kn">import</span> <span class="n">seed</span><span class="p">,</span> <span class="n">log</span>  <span class="c1"># TODO: move somewhere else?</span>
-<span class="kn">from</span> <span class="nn">type_infer.helpers</span> <span class="kn">import</span> <span class="n">get_nr_procs</span>
-<span class="kn">from</span> <span class="nn">type_infer.helpers</span> <span class="kn">import</span> <span class="n">is_nan_numeric</span><span class="p">,</span> <span class="n">get_identifier_description_mp</span><span class="p">,</span> <span class="n">cast_string_to_python_type</span><span class="p">,</span> \
-    <span class="n">get_language_dist</span><span class="p">,</span> <span class="n">analyze_sentences</span>
-
-
-<span class="c1"># @TODO: hardcode for distance, time, subunits of currency (e.g. cents) and other common units</span>
-<span class="c1"># @TODO: Add tests with plenty of examples</span>
-<span class="k">def</span> <span class="nf">get_quantity_col_info</span><span class="p">(</span><span class="n">col_data</span><span class="p">:</span> <span class="n">pd</span><span class="o">.</span><span class="n">Series</span><span class="p">)</span> <span class="o">-&gt;</span> <span class="nb">str</span><span class="p">:</span>
-    <span class="k">assert</span> <span class="nb">isinstance</span><span class="p">(</span><span class="n">col_data</span><span class="p">,</span> <span class="n">pd</span><span class="o">.</span><span class="n">Series</span><span class="p">)</span>
-    <span class="n">char_const</span> <span class="o">=</span> <span class="kc">None</span>
-    <span class="n">nr_map</span> <span class="o">=</span> <span class="nb">set</span><span class="p">()</span>
-    <span class="k">for</span> <span class="n">val</span> <span class="ow">in</span> <span class="n">col_data</span><span class="p">:</span>
-        <span class="n">val</span> <span class="o">=</span> <span class="nb">str</span><span class="p">(</span><span class="n">val</span><span class="p">)</span>
-        <span class="n">char_part</span> <span class="o">=</span> <span class="n">re</span><span class="o">.</span><span class="n">sub</span><span class="p">(</span><span class="s2">&quot;[0-9.,]&quot;</span><span class="p">,</span> <span class="s1">&#39;&#39;</span><span class="p">,</span> <span class="n">val</span><span class="p">)</span>
-        <span class="n">numeric_bit</span> <span class="o">=</span> <span class="n">re</span><span class="o">.</span><span class="n">sub</span><span class="p">(</span><span class="s2">&quot;[^0-9.,]&quot;</span><span class="p">,</span> <span class="s1">&#39;&#39;</span><span class="p">,</span> <span class="n">val</span><span class="p">)</span><span class="o">.</span><span class="n">replace</span><span class="p">(</span><span class="s1">&#39;,&#39;</span><span class="p">,</span> <span class="s1">&#39;.&#39;</span><span class="p">)</span>
-
-        <span class="k">if</span> <span class="nb">len</span><span class="p">(</span><span class="n">char_part</span><span class="p">)</span> <span class="o">==</span> <span class="mi">0</span><span class="p">:</span>
-            <span class="n">char_part</span> <span class="o">=</span> <span class="kc">None</span>
-
-        <span class="k">if</span> <span class="nb">len</span><span class="p">(</span><span class="n">re</span><span class="o">.</span><span class="n">sub</span><span class="p">(</span><span class="s2">&quot;[^0-9]&quot;</span><span class="p">,</span> <span class="s1">&#39;&#39;</span><span class="p">,</span> <span class="n">numeric_bit</span><span class="p">))</span> <span class="o">==</span> <span class="mi">0</span> <span class="ow">or</span> <span class="n">numeric_bit</span><span class="o">.</span><span class="n">count</span><span class="p">(</span><span class="s1">&#39;.&#39;</span><span class="p">)</span> <span class="o">&gt;</span> <span class="mi">1</span><span class="p">:</span>
-            <span class="n">numeric_bit</span> <span class="o">=</span> <span class="kc">None</span>
-        <span class="k">else</span><span class="p">:</span>
-            <span class="n">numeric_bit</span> <span class="o">=</span> <span class="nb">float</span><span class="p">(</span><span class="n">numeric_bit</span><span class="p">)</span>
-
-        <span class="k">if</span> <span class="n">numeric_bit</span> <span class="ow">is</span> <span class="kc">None</span><span class="p">:</span>
-            <span class="k">return</span> <span class="kc">False</span><span class="p">,</span> <span class="kc">None</span>
-        <span class="k">else</span><span class="p">:</span>
-            <span class="n">nr_map</span><span class="o">.</span><span class="n">add</span><span class="p">(</span><span class="n">numeric_bit</span><span class="p">)</span>
-
-        <span class="k">if</span> <span class="n">char_const</span> <span class="ow">is</span> <span class="kc">None</span><span class="p">:</span>
-            <span class="n">char_const</span> <span class="o">=</span> <span class="n">char_part</span>
-
-        <span class="k">if</span> <span class="n">char_part</span> <span class="ow">is</span> <span class="kc">None</span> <span class="ow">or</span> <span class="n">char_part</span> <span class="o">==</span> <span class="s1">&#39;-&#39;</span> <span class="ow">or</span> <span class="n">char_part</span> <span class="o">!=</span> <span class="n">char_const</span><span class="p">:</span>
-            <span class="k">return</span> <span class="kc">False</span><span class="p">,</span> <span class="kc">None</span>
-
-    <span class="k">if</span> <span class="nb">len</span><span class="p">(</span><span class="n">nr_map</span><span class="p">)</span> <span class="o">&gt;</span> <span class="mi">20</span> <span class="ow">and</span> <span class="nb">len</span><span class="p">(</span><span class="n">nr_map</span><span class="p">)</span> <span class="o">&gt;</span> <span class="nb">len</span><span class="p">(</span><span class="n">col_data</span><span class="p">)</span> <span class="o">/</span> <span class="mi">200</span><span class="p">:</span>
-        <span class="k">return</span> <span class="kc">True</span><span class="p">,</span> <span class="p">{</span><span class="n">char_const</span><span class="p">:</span> <span class="p">{</span>
-            <span class="s1">&#39;multiplier&#39;</span><span class="p">:</span> <span class="mi">1</span>
-        <span class="p">}}</span>
-    <span class="k">else</span><span class="p">:</span>
-        <span class="k">return</span> <span class="kc">False</span><span class="p">,</span> <span class="kc">None</span>
-
-
-<span class="k">def</span> <span class="nf">get_binary_type</span><span class="p">(</span><span class="n">element</span><span class="p">:</span> <span class="nb">object</span><span class="p">)</span> <span class="o">-&gt;</span> <span class="nb">str</span><span class="p">:</span>
-    <span class="k">try</span><span class="p">:</span>
-        <span class="n">is_img</span> <span class="o">=</span> <span class="n">imghdr</span><span class="o">.</span><span class="n">what</span><span class="p">(</span><span class="n">element</span><span class="p">)</span>
-        <span class="k">if</span> <span class="n">is_img</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span><span class="p">:</span>
-            <span class="k">return</span> <span class="n">dtype</span><span class="o">.</span><span class="n">image</span>
-
-        <span class="c1"># @TODO: currently we don differentiate between audio and video</span>
-        <span class="n">is_audio</span> <span class="o">=</span> <span class="n">sndhdr</span><span class="o">.</span><span class="n">what</span><span class="p">(</span><span class="n">element</span><span class="p">)</span>
-        <span class="c1"># apparently `sndhdr` is really bad..</span>
-        <span class="k">for</span> <span class="n">audio_ext</span> <span class="ow">in</span> <span class="p">[</span><span class="s1">&#39;.wav&#39;</span><span class="p">,</span> <span class="s1">&#39;.mp3&#39;</span><span class="p">]:</span>
-            <span class="k">if</span> <span class="n">element</span><span class="o">.</span><span class="n">endswith</span><span class="p">(</span><span class="n">audio_ext</span><span class="p">):</span>
-                <span class="n">is_audio</span> <span class="o">=</span> <span class="kc">True</span>
-        <span class="k">if</span> <span class="n">is_audio</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span><span class="p">:</span>
-            <span class="k">return</span> <span class="n">dtype</span><span class="o">.</span><span class="n">audio</span>
-    <span class="k">except</span> <span class="ne">Exception</span><span class="p">:</span>
-        <span class="c1"># Not a file or file doesn&#39;t exist</span>
-        <span class="k">return</span> <span class="kc">None</span>
-
-
-<div class="viewcode-block" id="get_numeric_type"><a class="viewcode-back" href="../infer.html#infer.get_numeric_type">[docs]</a><span class="k">def</span> <span class="nf">get_numeric_type</span><span class="p">(</span><span class="n">element</span><span class="p">:</span> <span class="nb">object</span><span class="p">)</span> <span class="o">-&gt;</span> <span class="nb">str</span><span class="p">:</span>
-<span class="w">    </span><span class="sd">&quot;&quot;&quot; Returns the subtype inferred from a number string, or False if its not a number&quot;&quot;&quot;</span>
-    <span class="n">string_as_nr</span> <span class="o">=</span> <span class="n">cast_string_to_python_type</span><span class="p">(</span><span class="nb">str</span><span class="p">(</span><span class="n">element</span><span class="p">))</span>
-
-    <span class="k">try</span><span class="p">:</span>
-        <span class="k">if</span> <span class="n">string_as_nr</span> <span class="o">==</span> <span class="nb">int</span><span class="p">(</span><span class="n">string_as_nr</span><span class="p">):</span>
-            <span class="n">string_as_nr</span> <span class="o">=</span> <span class="nb">int</span><span class="p">(</span><span class="n">string_as_nr</span><span class="p">)</span>
-    <span class="k">except</span> <span class="ne">Exception</span><span class="p">:</span>
-        <span class="k">pass</span>
-
-    <span class="k">if</span> <span class="nb">isinstance</span><span class="p">(</span><span class="n">string_as_nr</span><span class="p">,</span> <span class="nb">float</span><span class="p">):</span>
-        <span class="k">return</span> <span class="n">dtype</span><span class="o">.</span><span class="n">float</span>
-    <span class="k">elif</span> <span class="nb">isinstance</span><span class="p">(</span><span class="n">string_as_nr</span><span class="p">,</span> <span class="nb">int</span><span class="p">):</span>
-        <span class="k">return</span> <span class="n">dtype</span><span class="o">.</span><span class="n">integer</span>
-    <span class="k">else</span><span class="p">:</span>
-        <span class="k">try</span><span class="p">:</span>
-            <span class="k">if</span> <span class="n">is_nan_numeric</span><span class="p">(</span><span class="n">element</span><span class="p">):</span>
-                <span class="k">return</span> <span class="n">dtype</span><span class="o">.</span><span class="n">integer</span>
-            <span class="k">else</span><span class="p">:</span>
-                <span class="k">return</span> <span class="kc">None</span>
-        <span class="k">except</span> <span class="ne">Exception</span><span class="p">:</span>
-            <span class="k">return</span> <span class="kc">None</span></div>
-
-
-<span class="k">def</span> <span class="nf">type_check_sequence</span><span class="p">(</span><span class="n">element</span><span class="p">:</span> <span class="nb">object</span><span class="p">)</span> <span class="o">-&gt;</span> <span class="nb">str</span><span class="p">:</span>
-    <span class="n">dtype_guess</span> <span class="o">=</span> <span class="kc">None</span>
-
-    <span class="k">if</span> <span class="nb">isinstance</span><span class="p">(</span><span class="n">element</span><span class="p">,</span> <span class="n">List</span><span class="p">):</span>
-        <span class="n">all_nr</span> <span class="o">=</span> <span class="nb">all</span><span class="p">([</span><span class="n">get_numeric_type</span><span class="p">(</span><span class="n">ele</span><span class="p">)</span> <span class="k">for</span> <span class="n">ele</span> <span class="ow">in</span> <span class="n">element</span><span class="p">])</span>
-        <span class="k">if</span> <span class="n">all_nr</span><span class="p">:</span>
-            <span class="n">dtype_guess</span> <span class="o">=</span> <span class="n">dtype</span><span class="o">.</span><span class="n">num_array</span>
-        <span class="k">else</span><span class="p">:</span>
-            <span class="n">dtype_guess</span> <span class="o">=</span> <span class="n">dtype</span><span class="o">.</span><span class="n">cat_array</span>
-    <span class="k">else</span><span class="p">:</span>
-        <span class="k">for</span> <span class="n">sep_char</span> <span class="ow">in</span> <span class="p">[</span><span class="s1">&#39;,&#39;</span><span class="p">,</span> <span class="s1">&#39;</span><span class="se">\t</span><span class="s1">&#39;</span><span class="p">,</span> <span class="s1">&#39;|&#39;</span><span class="p">,</span> <span class="s1">&#39; &#39;</span><span class="p">]:</span>  <span class="c1"># @TODO: potential bottleneck, cutoff after a while</span>
-            <span class="n">all_nr</span> <span class="o">=</span> <span class="kc">True</span>
-            <span class="k">if</span> <span class="s1">&#39;[&#39;</span> <span class="ow">in</span> <span class="n">element</span><span class="p">:</span>
-                <span class="n">ele_arr</span> <span class="o">=</span> <span class="n">element</span><span class="o">.</span><span class="n">rstrip</span><span class="p">(</span><span class="s1">&#39;]&#39;</span><span class="p">)</span><span class="o">.</span><span class="n">lstrip</span><span class="p">(</span><span class="s1">&#39;[&#39;</span><span class="p">)</span><span class="o">.</span><span class="n">split</span><span class="p">(</span><span class="n">sep_char</span><span class="p">)</span>
-            <span class="k">else</span><span class="p">:</span>
-                <span class="n">ele_arr</span> <span class="o">=</span> <span class="n">element</span><span class="o">.</span><span class="n">rstrip</span><span class="p">(</span><span class="s1">&#39;)&#39;</span><span class="p">)</span><span class="o">.</span><span class="n">lstrip</span><span class="p">(</span><span class="s1">&#39;(&#39;</span><span class="p">)</span><span class="o">.</span><span class="n">split</span><span class="p">(</span><span class="n">sep_char</span><span class="p">)</span>
-
-            <span class="k">for</span> <span class="n">ele</span> <span class="ow">in</span> <span class="n">ele_arr</span><span class="p">:</span>
-                <span class="k">if</span> <span class="ow">not</span> <span class="n">get_numeric_type</span><span class="p">(</span><span class="n">ele</span><span class="p">):</span>
-                    <span class="n">all_nr</span> <span class="o">=</span> <span class="kc">False</span>
-                    <span class="k">break</span>
-
-            <span class="k">if</span> <span class="nb">len</span><span class="p">(</span><span class="n">ele_arr</span><span class="p">)</span> <span class="o">&gt;</span> <span class="mi">1</span> <span class="ow">and</span> <span class="n">all_nr</span><span class="p">:</span>
-                <span class="n">dtype_guess</span> <span class="o">=</span> <span class="n">dtype</span><span class="o">.</span><span class="n">num_array</span>
-
-    <span class="k">return</span> <span class="n">dtype_guess</span>
-
-
-<div class="viewcode-block" id="type_check_date"><a class="viewcode-back" href="../infer.html#infer.type_check_date">[docs]</a><span class="k">def</span> <span class="nf">type_check_date</span><span class="p">(</span><span class="n">element</span><span class="p">:</span> <span class="nb">object</span><span class="p">)</span> <span class="o">-&gt;</span> <span class="nb">str</span><span class="p">:</span>
-<span class="w">    </span><span class="sd">&quot;&quot;&quot;</span>
-<span class="sd">    Check if element corresponds to a date-like object.</span>
-<span class="sd">    &quot;&quot;&quot;</span>
-    <span class="c1"># check if element represents a date (no hour/minute/seconds)</span>
-    <span class="n">is_date</span> <span class="o">=</span> <span class="kc">False</span>
-    <span class="c1"># check if element represents a datetime (has hour/minute/seconds)</span>
-    <span class="n">is_datetime</span> <span class="o">=</span> <span class="kc">False</span>
-    <span class="c1"># check if it makes sense to convert element to unix time-stamp by</span>
-    <span class="c1"># evaluating if, when converted, the element represents a number that</span>
-    <span class="c1"># is compatible with a Unix timestamp (number of seconds since 1970-01-01T:00:00:00)</span>
-    <span class="c1"># note that we also check the number is not larger than the &quot;epochalypse time&quot;,</span>
-    <span class="c1"># which is when the unix timestamp becomes larger than 2^32 - 1 seconds. We do</span>
-    <span class="c1"># this because timestamps outside this range are likely to be unreliable and hence</span>
-    <span class="c1"># rather treated as every-day numbers.</span>
-    <span class="n">min_dt</span> <span class="o">=</span> <span class="n">pd</span><span class="o">.</span><span class="n">to_datetime</span><span class="p">(</span><span class="s1">&#39;1970-01-01 00:00:00&#39;</span><span class="p">,</span> <span class="n">utc</span><span class="o">=</span><span class="kc">True</span><span class="p">)</span>
-    <span class="n">max_dt</span> <span class="o">=</span> <span class="n">pd</span><span class="o">.</span><span class="n">to_datetime</span><span class="p">(</span><span class="s1">&#39;2038-01-19 03:14:08&#39;</span><span class="p">,</span> <span class="n">utc</span><span class="o">=</span><span class="kc">True</span><span class="p">)</span>
-    <span class="n">valid_units</span> <span class="o">=</span> <span class="p">{</span><span class="s1">&#39;ns&#39;</span><span class="p">:</span> <span class="s1">&#39;unix&#39;</span><span class="p">,</span> <span class="s1">&#39;us&#39;</span><span class="p">:</span> <span class="s1">&#39;unix&#39;</span><span class="p">,</span> <span class="s1">&#39;ms&#39;</span><span class="p">:</span> <span class="s1">&#39;unix&#39;</span><span class="p">,</span> <span class="s1">&#39;s&#39;</span><span class="p">:</span> <span class="s1">&#39;unix&#39;</span><span class="p">,</span>
-                   <span class="s1">&#39;D&#39;</span><span class="p">:</span> <span class="s1">&#39;julian&#39;</span><span class="p">}</span>
-    <span class="k">for</span> <span class="n">unit</span><span class="p">,</span> <span class="n">origin</span> <span class="ow">in</span> <span class="n">valid_units</span><span class="o">.</span><span class="n">items</span><span class="p">():</span>
-        <span class="k">try</span><span class="p">:</span>
-            <span class="n">as_dt</span> <span class="o">=</span> <span class="n">pd</span><span class="o">.</span><span class="n">to_datetime</span><span class="p">(</span><span class="n">element</span><span class="p">,</span> <span class="n">unit</span><span class="o">=</span><span class="n">unit</span><span class="p">,</span> <span class="n">origin</span><span class="o">=</span><span class="n">origin</span><span class="p">,</span>
-                                   <span class="n">errors</span><span class="o">=</span><span class="s1">&#39;raise&#39;</span><span class="p">)</span>
-            <span class="k">if</span> <span class="n">min_dt</span> <span class="o">&lt;</span> <span class="n">as_dt</span> <span class="o">&lt;</span> <span class="n">max_dt</span><span class="p">:</span>
-                <span class="n">is_datetime</span> <span class="o">=</span> <span class="kc">True</span>
-                <span class="k">break</span>
-        <span class="k">except</span> <span class="ne">Exception</span><span class="p">:</span>
-            <span class="k">pass</span>
-    <span class="c1"># check if element represents a date-like object.</span>
-    <span class="c1"># here we don&#39;t check for a validity range like with unix-timestamps</span>
-    <span class="c1"># because dates as string usually represent something more general than</span>
-    <span class="c1"># just the number of seconds since an epoch.</span>
-    <span class="k">try</span><span class="p">:</span>
-        <span class="n">as_dt</span> <span class="o">=</span> <span class="n">pd</span><span class="o">.</span><span class="n">to_datetime</span><span class="p">(</span><span class="n">element</span><span class="p">,</span> <span class="n">errors</span><span class="o">=</span><span class="s1">&#39;raise&#39;</span><span class="p">)</span>
-        <span class="n">is_datetime</span> <span class="o">=</span> <span class="kc">True</span>
-    <span class="k">except</span> <span class="ne">Exception</span><span class="p">:</span>
-        <span class="k">pass</span>
-    <span class="c1"># finally, if element is represents a datetime object, check if only</span>
-    <span class="c1"># date part is contained (no time information)</span>
-    <span class="k">if</span> <span class="n">is_datetime</span><span class="p">:</span>
-        <span class="c1"># round element day (drop hour/minute/second)</span>
-        <span class="n">dt_d</span> <span class="o">=</span> <span class="n">as_dt</span><span class="o">.</span><span class="n">to_period</span><span class="p">(</span><span class="s1">&#39;D&#39;</span><span class="p">)</span><span class="o">.</span><span class="n">to_timestamp</span><span class="p">()</span>
-        <span class="c1"># if rounded datetime equals the datetime itself, it means there was not</span>
-        <span class="c1"># hour/minute/second information to begin with. Mind the &#39;localize&#39; to</span>
-        <span class="c1"># avoid time-zone BS to kick in.</span>
-        <span class="n">is_date</span> <span class="o">=</span> <span class="n">dt_d</span> <span class="o">==</span> <span class="n">as_dt</span><span class="o">.</span><span class="n">tz_localize</span><span class="p">(</span><span class="kc">None</span><span class="p">)</span>
-    <span class="k">if</span> <span class="n">is_date</span><span class="p">:</span>
-        <span class="k">return</span> <span class="n">dtype</span><span class="o">.</span><span class="n">date</span>
-    <span class="k">if</span> <span class="n">is_datetime</span><span class="p">:</span>
-        <span class="k">return</span> <span class="n">dtype</span><span class="o">.</span><span class="n">datetime</span>
-
-    <span class="k">return</span> <span class="kc">None</span></div>
-
-
-<span class="k">def</span> <span class="nf">count_data_types_in_column</span><span class="p">(</span><span class="n">data</span><span class="p">):</span>
-    <span class="n">dtype_counts</span> <span class="o">=</span> <span class="n">Counter</span><span class="p">()</span>
-
-    <span class="n">type_checkers</span> <span class="o">=</span> <span class="p">[</span><span class="n">get_numeric_type</span><span class="p">,</span>
-                     <span class="n">type_check_sequence</span><span class="p">,</span>
-                     <span class="n">get_binary_type</span><span class="p">,</span>
-                     <span class="n">type_check_date</span><span class="p">]</span>
-
-    <span class="k">for</span> <span class="n">element</span> <span class="ow">in</span> <span class="n">data</span><span class="p">:</span>
-        <span class="k">for</span> <span class="n">type_checker</span> <span class="ow">in</span> <span class="n">type_checkers</span><span class="p">:</span>
-            <span class="k">try</span><span class="p">:</span>
-                <span class="n">dtype_guess</span> <span class="o">=</span> <span class="n">type_checker</span><span class="p">(</span><span class="n">element</span><span class="p">)</span>
-            <span class="k">except</span> <span class="ne">Exception</span><span class="p">:</span>
-                <span class="n">dtype_guess</span> <span class="o">=</span> <span class="kc">None</span>
-            <span class="k">if</span> <span class="n">dtype_guess</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span><span class="p">:</span>
-                <span class="n">dtype_counts</span><span class="p">[</span><span class="n">dtype_guess</span><span class="p">]</span> <span class="o">+=</span> <span class="mi">1</span>
-                <span class="k">break</span>
-        <span class="k">else</span><span class="p">:</span>
-            <span class="n">dtype_counts</span><span class="p">[</span><span class="n">dtype</span><span class="o">.</span><span class="n">invalid</span><span class="p">]</span> <span class="o">+=</span> <span class="mi">1</span>
-
-    <span class="k">return</span> <span class="n">dtype_counts</span>
-
-
-<div class="viewcode-block" id="get_column_data_type"><a class="viewcode-back" href="../infer.html#infer.get_column_data_type">[docs]</a><span class="k">def</span> <span class="nf">get_column_data_type</span><span class="p">(</span><span class="n">data</span><span class="p">:</span> <span class="n">Union</span><span class="p">[</span><span class="n">np</span><span class="o">.</span><span class="n">ndarray</span><span class="p">,</span> <span class="nb">list</span><span class="p">],</span> <span class="n">full_data</span><span class="p">:</span> <span class="n">pd</span><span class="o">.</span><span class="n">DataFrame</span><span class="p">,</span> <span class="n">col_name</span><span class="p">:</span> <span class="nb">str</span><span class="p">,</span> <span class="n">pct_invalid</span><span class="p">:</span> <span class="nb">float</span><span class="p">):</span>
-<span class="w">    </span><span class="sd">&quot;&quot;&quot;</span>
-<span class="sd">    Provided the column data, define its data type and data subtype.</span>
-
-<span class="sd">    :param data: an iterable containing a sample of the data frame</span>
-<span class="sd">    :param full_data: an iterable containing the whole column of a data frame</span>
-
-<span class="sd">    :return: type and type distribution, we can later use type_distribution to determine data quality</span>
-<span class="sd">    NOTE: type distribution is the count that this column has for belonging cells to each DATA_TYPE</span>
-<span class="sd">    &quot;&quot;&quot;</span>
-    <span class="n">log</span><span class="o">.</span><span class="n">info</span><span class="p">(</span><span class="sa">f</span><span class="s1">&#39;Infering type for: </span><span class="si">{</span><span class="n">col_name</span><span class="si">}</span><span class="s1">&#39;</span><span class="p">)</span>
-    <span class="n">additional_info</span> <span class="o">=</span> <span class="p">{</span><span class="s1">&#39;other_potential_dtypes&#39;</span><span class="p">:</span> <span class="p">[]}</span>
-
-    <span class="n">warn</span> <span class="o">=</span> <span class="p">[]</span>
-    <span class="n">info</span> <span class="o">=</span> <span class="p">[]</span>
-    <span class="k">if</span> <span class="nb">len</span><span class="p">(</span><span class="n">data</span><span class="p">)</span> <span class="o">==</span> <span class="mi">0</span><span class="p">:</span>
-        <span class="n">warn</span><span class="o">.</span><span class="n">append</span><span class="p">(</span><span class="sa">f</span><span class="s1">&#39;Column </span><span class="si">{</span><span class="n">col_name</span><span class="si">}</span><span class="s1"> has no data in it. &#39;</span><span class="p">)</span>
-        <span class="n">warn</span><span class="o">.</span><span class="n">append</span><span class="p">(</span><span class="sa">f</span><span class="s1">&#39;Please remove </span><span class="si">{</span><span class="n">col_name</span><span class="si">}</span><span class="s1"> from the training file or fill in some of the values !&#39;</span><span class="p">)</span>
-        <span class="k">return</span> <span class="kc">None</span><span class="p">,</span> <span class="kc">None</span><span class="p">,</span> <span class="n">additional_info</span><span class="p">,</span> <span class="n">warn</span><span class="p">,</span> <span class="n">info</span>
-
-    <span class="n">dtype_counts</span> <span class="o">=</span> <span class="n">count_data_types_in_column</span><span class="p">(</span><span class="n">data</span><span class="p">)</span>
-
-    <span class="n">known_dtype_dist</span> <span class="o">=</span> <span class="p">{</span><span class="n">k</span><span class="p">:</span> <span class="n">v</span> <span class="k">for</span> <span class="n">k</span><span class="p">,</span> <span class="n">v</span> <span class="ow">in</span> <span class="n">dtype_counts</span><span class="o">.</span><span class="n">items</span><span class="p">()}</span>
-    <span class="k">if</span> <span class="n">dtype</span><span class="o">.</span><span class="n">float</span> <span class="ow">in</span> <span class="n">known_dtype_dist</span> <span class="ow">and</span> <span class="n">dtype</span><span class="o">.</span><span class="n">integer</span> <span class="ow">in</span> <span class="n">known_dtype_dist</span><span class="p">:</span>
-        <span class="n">known_dtype_dist</span><span class="p">[</span><span class="n">dtype</span><span class="o">.</span><span class="n">float</span><span class="p">]</span> <span class="o">+=</span> <span class="n">known_dtype_dist</span><span class="p">[</span><span class="n">dtype</span><span class="o">.</span><span class="n">integer</span><span class="p">]</span>
-        <span class="k">del</span> <span class="n">known_dtype_dist</span><span class="p">[</span><span class="n">dtype</span><span class="o">.</span><span class="n">integer</span><span class="p">]</span>
-
-    <span class="k">if</span> <span class="n">dtype</span><span class="o">.</span><span class="n">datetime</span> <span class="ow">in</span> <span class="n">known_dtype_dist</span> <span class="ow">and</span> <span class="n">dtype</span><span class="o">.</span><span class="n">date</span> <span class="ow">in</span> <span class="n">known_dtype_dist</span><span class="p">:</span>
-        <span class="n">known_dtype_dist</span><span class="p">[</span><span class="n">dtype</span><span class="o">.</span><span class="n">datetime</span><span class="p">]</span> <span class="o">+=</span> <span class="n">known_dtype_dist</span><span class="p">[</span><span class="n">dtype</span><span class="o">.</span><span class="n">date</span><span class="p">]</span>
-        <span class="k">del</span> <span class="n">known_dtype_dist</span><span class="p">[</span><span class="n">dtype</span><span class="o">.</span><span class="n">date</span><span class="p">]</span>
-
-    <span class="n">max_known_dtype</span><span class="p">,</span> <span class="n">max_known_dtype_count</span> <span class="o">=</span> <span class="nb">max</span><span class="p">(</span>
-        <span class="n">known_dtype_dist</span><span class="o">.</span><span class="n">items</span><span class="p">(),</span>
-        <span class="n">key</span><span class="o">=</span><span class="k">lambda</span> <span class="n">kv</span><span class="p">:</span> <span class="n">kv</span><span class="p">[</span><span class="mi">1</span><span class="p">]</span>
-    <span class="p">)</span>
-
-    <span class="n">actual_pct_invalid</span> <span class="o">=</span> <span class="mi">100</span> <span class="o">*</span> <span class="p">(</span><span class="nb">len</span><span class="p">(</span><span class="n">data</span><span class="p">)</span> <span class="o">-</span> <span class="n">max_known_dtype_count</span><span class="p">)</span> <span class="o">/</span> <span class="nb">len</span><span class="p">(</span><span class="n">data</span><span class="p">)</span>
-    <span class="k">if</span> <span class="n">max_known_dtype</span> <span class="ow">is</span> <span class="kc">None</span> <span class="ow">or</span> <span class="n">max_known_dtype</span> <span class="o">==</span> <span class="n">dtype</span><span class="o">.</span><span class="n">invalid</span><span class="p">:</span>
-        <span class="n">curr_dtype</span> <span class="o">=</span> <span class="kc">None</span>
-    <span class="k">elif</span> <span class="n">actual_pct_invalid</span> <span class="o">&gt;</span> <span class="n">pct_invalid</span><span class="p">:</span>
-        <span class="k">if</span> <span class="n">max_known_dtype</span> <span class="ow">in</span> <span class="p">(</span><span class="n">dtype</span><span class="o">.</span><span class="n">integer</span><span class="p">,</span> <span class="n">dtype</span><span class="o">.</span><span class="n">float</span><span class="p">)</span> <span class="ow">and</span> <span class="n">actual_pct_invalid</span> <span class="o">&lt;=</span> <span class="mi">5</span> <span class="o">*</span> <span class="n">pct_invalid</span><span class="p">:</span>
-            <span class="n">curr_dtype</span> <span class="o">=</span> <span class="n">max_known_dtype</span>
-        <span class="k">else</span><span class="p">:</span>
-            <span class="n">curr_dtype</span> <span class="o">=</span> <span class="kc">None</span>
-    <span class="k">else</span><span class="p">:</span>
-        <span class="n">curr_dtype</span> <span class="o">=</span> <span class="n">max_known_dtype</span>
-
-    <span class="n">nr_vals</span> <span class="o">=</span> <span class="nb">len</span><span class="p">(</span><span class="n">data</span><span class="p">)</span>
-    <span class="n">nr_distinct_vals</span> <span class="o">=</span> <span class="nb">len</span><span class="p">(</span><span class="nb">set</span><span class="p">([</span><span class="nb">str</span><span class="p">(</span><span class="n">x</span><span class="p">)</span> <span class="k">for</span> <span class="n">x</span> <span class="ow">in</span> <span class="n">data</span><span class="p">]))</span>
-
-    <span class="c1"># Is it a quantity?</span>
-    <span class="k">if</span> <span class="n">curr_dtype</span> <span class="ow">not</span> <span class="ow">in</span> <span class="p">(</span><span class="n">dtype</span><span class="o">.</span><span class="n">datetime</span><span class="p">,</span> <span class="n">dtype</span><span class="o">.</span><span class="n">date</span><span class="p">):</span>
-        <span class="n">is_quantity</span><span class="p">,</span> <span class="n">quantitiy_info</span> <span class="o">=</span> <span class="n">get_quantity_col_info</span><span class="p">(</span><span class="n">data</span><span class="p">)</span>
-        <span class="k">if</span> <span class="n">is_quantity</span><span class="p">:</span>
-            <span class="n">additional_info</span><span class="p">[</span><span class="s1">&#39;quantitiy_info&#39;</span><span class="p">]</span> <span class="o">=</span> <span class="n">quantitiy_info</span>
-            <span class="n">curr_dtype</span> <span class="o">=</span> <span class="n">dtype</span><span class="o">.</span><span class="n">quantity</span>
-            <span class="n">known_dtype_dist</span> <span class="o">=</span> <span class="p">{</span>
-                <span class="n">dtype</span><span class="o">.</span><span class="n">quantity</span><span class="p">:</span> <span class="n">nr_vals</span>
-            <span class="p">}</span>
-
-    <span class="c1"># Check for Tags subtype</span>
-    <span class="k">if</span> <span class="n">curr_dtype</span> <span class="ow">not</span> <span class="ow">in</span> <span class="p">(</span><span class="n">dtype</span><span class="o">.</span><span class="n">quantity</span><span class="p">,</span> <span class="n">dtype</span><span class="o">.</span><span class="n">num_array</span><span class="p">):</span>
-        <span class="n">lengths</span> <span class="o">=</span> <span class="p">[]</span>
-        <span class="n">unique_tokens</span> <span class="o">=</span> <span class="nb">set</span><span class="p">()</span>
-
-        <span class="n">can_be_tags</span> <span class="o">=</span> <span class="kc">False</span>
-        <span class="k">if</span> <span class="nb">all</span><span class="p">(</span><span class="nb">isinstance</span><span class="p">(</span><span class="n">x</span><span class="p">,</span> <span class="nb">str</span><span class="p">)</span> <span class="k">for</span> <span class="n">x</span> <span class="ow">in</span> <span class="n">data</span><span class="p">):</span>
-            <span class="n">can_be_tags</span> <span class="o">=</span> <span class="kc">True</span>
-
-        <span class="n">mean_lenghts</span> <span class="o">=</span> <span class="n">np</span><span class="o">.</span><span class="n">mean</span><span class="p">(</span><span class="n">lengths</span><span class="p">)</span> <span class="k">if</span> <span class="nb">len</span><span class="p">(</span><span class="n">lengths</span><span class="p">)</span> <span class="o">&gt;</span> <span class="mi">0</span> <span class="k">else</span> <span class="mi">0</span>
-
-        <span class="c1"># If more than 30% of the samples contain more than 1 category and there&#39;s more than 6 and less than 30 of them and they are shared between the various cells # noqa</span>
-        <span class="k">if</span> <span class="p">(</span><span class="n">can_be_tags</span> <span class="ow">and</span> <span class="n">mean_lenghts</span> <span class="o">&gt;</span> <span class="mf">1.3</span> <span class="ow">and</span>
-                <span class="mi">6</span> <span class="o">&lt;=</span> <span class="nb">len</span><span class="p">(</span><span class="n">unique_tokens</span><span class="p">)</span> <span class="o">&lt;=</span> <span class="mi">30</span> <span class="ow">and</span>
-                <span class="nb">len</span><span class="p">(</span><span class="n">unique_tokens</span><span class="p">)</span> <span class="o">/</span> <span class="n">mean_lenghts</span> <span class="o">&lt;</span> <span class="p">(</span><span class="nb">len</span><span class="p">(</span><span class="n">data</span><span class="p">)</span> <span class="o">/</span> <span class="mi">4</span><span class="p">)):</span>
-            <span class="n">curr_dtype</span> <span class="o">=</span> <span class="n">dtype</span><span class="o">.</span><span class="n">tags</span>
-
-    <span class="c1"># Categorical based on unique values</span>
-    <span class="k">if</span> <span class="n">curr_dtype</span> <span class="ow">not</span> <span class="ow">in</span> <span class="p">(</span><span class="n">dtype</span><span class="o">.</span><span class="n">date</span><span class="p">,</span> <span class="n">dtype</span><span class="o">.</span><span class="n">datetime</span><span class="p">,</span> <span class="n">dtype</span><span class="o">.</span><span class="n">tags</span><span class="p">,</span> <span class="n">dtype</span><span class="o">.</span><span class="n">cat_array</span><span class="p">):</span>
-        <span class="k">if</span> <span class="n">curr_dtype</span> <span class="ow">in</span> <span class="p">(</span><span class="n">dtype</span><span class="o">.</span><span class="n">integer</span><span class="p">,</span> <span class="n">dtype</span><span class="o">.</span><span class="n">float</span><span class="p">):</span>
-            <span class="n">is_categorical</span> <span class="o">=</span> <span class="n">nr_distinct_vals</span> <span class="o">&lt;</span> <span class="mi">10</span>
-        <span class="k">else</span><span class="p">:</span>
-            <span class="n">is_categorical</span> <span class="o">=</span> <span class="n">nr_distinct_vals</span> <span class="o">&lt;</span> <span class="nb">min</span><span class="p">(</span><span class="nb">max</span><span class="p">((</span><span class="n">nr_vals</span> <span class="o">/</span> <span class="mi">100</span><span class="p">),</span> <span class="mi">10</span><span class="p">),</span> <span class="mi">3000</span><span class="p">)</span>
-
-        <span class="k">if</span> <span class="n">is_categorical</span><span class="p">:</span>
-            <span class="k">if</span> <span class="n">curr_dtype</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span><span class="p">:</span>
-                <span class="n">additional_info</span><span class="p">[</span><span class="s1">&#39;other_potential_dtypes&#39;</span><span class="p">]</span><span class="o">.</span><span class="n">append</span><span class="p">(</span><span class="n">curr_dtype</span><span class="p">)</span>
-            <span class="n">curr_dtype</span> <span class="o">=</span> <span class="n">dtype</span><span class="o">.</span><span class="n">categorical</span>
-
-    <span class="c1"># If curr_data_type is still None, then it&#39;s text or category</span>
-    <span class="k">if</span> <span class="n">curr_dtype</span> <span class="ow">is</span> <span class="kc">None</span><span class="p">:</span>
-        <span class="n">log</span><span class="o">.</span><span class="n">info</span><span class="p">(</span><span class="sa">f</span><span class="s1">&#39;Doing text detection for column: </span><span class="si">{</span><span class="n">col_name</span><span class="si">}</span><span class="s1">&#39;</span><span class="p">)</span>
-        <span class="n">lang_dist</span> <span class="o">=</span> <span class="n">get_language_dist</span><span class="p">(</span><span class="n">data</span><span class="p">)</span>  <span class="c1"># TODO: bottleneck</span>
-
-        <span class="c1"># Normalize lang probabilities</span>
-        <span class="k">for</span> <span class="n">lang</span> <span class="ow">in</span> <span class="n">lang_dist</span><span class="p">:</span>
-            <span class="n">lang_dist</span><span class="p">[</span><span class="n">lang</span><span class="p">]</span> <span class="o">/=</span> <span class="nb">len</span><span class="p">(</span><span class="n">data</span><span class="p">)</span>
-
-        <span class="c1"># If most cells are unknown language then it&#39;s categorical</span>
-        <span class="k">if</span> <span class="n">lang_dist</span><span class="p">[</span><span class="s1">&#39;Unknown&#39;</span><span class="p">]</span> <span class="o">&gt;</span> <span class="mf">0.5</span><span class="p">:</span>
-            <span class="n">curr_dtype</span> <span class="o">=</span> <span class="n">dtype</span><span class="o">.</span><span class="n">categorical</span>
-        <span class="k">else</span><span class="p">:</span>
-            <span class="n">nr_words</span><span class="p">,</span> <span class="n">word_dist</span><span class="p">,</span> <span class="n">nr_words_dist</span> <span class="o">=</span> <span class="n">analyze_sentences</span><span class="p">(</span><span class="n">data</span><span class="p">)</span>  <span class="c1"># TODO: maybe pass entire corpus at once</span>
-
-            <span class="k">if</span> <span class="mi">1</span> <span class="ow">in</span> <span class="n">nr_words_dist</span> <span class="ow">and</span> <span class="n">nr_words_dist</span><span class="p">[</span><span class="mi">1</span><span class="p">]</span> <span class="o">==</span> <span class="n">nr_words</span><span class="p">:</span>
-                <span class="n">curr_dtype</span> <span class="o">=</span> <span class="n">dtype</span><span class="o">.</span><span class="n">categorical</span>
-            <span class="k">else</span><span class="p">:</span>
-                <span class="k">if</span> <span class="nb">len</span><span class="p">(</span><span class="n">word_dist</span><span class="p">)</span> <span class="o">&gt;</span> <span class="mi">500</span> <span class="ow">and</span> <span class="n">nr_words</span> <span class="o">/</span> <span class="nb">len</span><span class="p">(</span><span class="n">data</span><span class="p">)</span> <span class="o">&gt;</span> <span class="mi">5</span><span class="p">:</span>
-                    <span class="n">curr_dtype</span> <span class="o">=</span> <span class="n">dtype</span><span class="o">.</span><span class="n">rich_text</span>
-                <span class="k">else</span><span class="p">:</span>
-                    <span class="n">curr_dtype</span> <span class="o">=</span> <span class="n">dtype</span><span class="o">.</span><span class="n">short_text</span>
-
-                <span class="k">return</span> <span class="n">curr_dtype</span><span class="p">,</span> <span class="p">{</span><span class="n">curr_dtype</span><span class="p">:</span> <span class="nb">len</span><span class="p">(</span><span class="n">data</span><span class="p">)},</span> <span class="n">additional_info</span><span class="p">,</span> <span class="n">warn</span><span class="p">,</span> <span class="n">info</span>
-
-    <span class="k">if</span> <span class="n">curr_dtype</span> <span class="ow">in</span> <span class="p">[</span><span class="n">dtype</span><span class="o">.</span><span class="n">categorical</span><span class="p">,</span> <span class="n">dtype</span><span class="o">.</span><span class="n">rich_text</span><span class="p">,</span> <span class="n">dtype</span><span class="o">.</span><span class="n">short_text</span><span class="p">,</span> <span class="n">dtype</span><span class="o">.</span><span class="n">cat_array</span><span class="p">]:</span>
-        <span class="n">known_dtype_dist</span> <span class="o">=</span> <span class="p">{</span><span class="n">curr_dtype</span><span class="p">:</span> <span class="nb">len</span><span class="p">(</span><span class="n">data</span><span class="p">)}</span>
-
-    <span class="k">if</span> <span class="n">nr_distinct_vals</span> <span class="o">&lt;</span> <span class="mi">3</span> <span class="ow">and</span> <span class="n">curr_dtype</span> <span class="o">==</span> <span class="n">dtype</span><span class="o">.</span><span class="n">categorical</span><span class="p">:</span>
-        <span class="n">curr_dtype</span> <span class="o">=</span> <span class="n">dtype</span><span class="o">.</span><span class="n">binary</span>
-        <span class="n">known_dtype_dist</span><span class="p">[</span><span class="n">dtype</span><span class="o">.</span><span class="n">binary</span><span class="p">]</span> <span class="o">=</span> <span class="n">known_dtype_dist</span><span class="p">[</span><span class="n">dtype</span><span class="o">.</span><span class="n">categorical</span><span class="p">]</span>
-        <span class="k">del</span> <span class="n">known_dtype_dist</span><span class="p">[</span><span class="n">dtype</span><span class="o">.</span><span class="n">categorical</span><span class="p">]</span>
-
-    <span class="n">log</span><span class="o">.</span><span class="n">info</span><span class="p">(</span><span class="sa">f</span><span class="s1">&#39;Column </span><span class="si">{</span><span class="n">col_name</span><span class="si">}</span><span class="s1"> has data type </span><span class="si">{</span><span class="n">curr_dtype</span><span class="si">}</span><span class="s1">&#39;</span><span class="p">)</span>
-    <span class="k">return</span> <span class="n">curr_dtype</span><span class="p">,</span> <span class="n">known_dtype_dist</span><span class="p">,</span> <span class="n">additional_info</span><span class="p">,</span> <span class="n">warn</span><span class="p">,</span> <span class="n">info</span></div>
-
-
-<div class="viewcode-block" id="calculate_sample_size"><a class="viewcode-back" href="../infer.html#infer.calculate_sample_size">[docs]</a><span class="k">def</span> <span class="nf">calculate_sample_size</span><span class="p">(</span>
-    <span class="n">population_size</span><span class="p">,</span>
-    <span class="n">margin_error</span><span class="o">=</span><span class="mf">.01</span><span class="p">,</span>
-    <span class="n">confidence_level</span><span class="o">=</span><span class="mf">.995</span><span class="p">,</span>
-    <span class="n">sigma</span><span class="o">=</span><span class="mi">1</span> <span class="o">/</span> <span class="mi">2</span>
-<span class="p">):</span>
-<span class="w">    </span><span class="sd">&quot;&quot;&quot;</span>
-<span class="sd">    Calculate the minimal sample size to use to achieve a certain</span>
-<span class="sd">    margin of error and confidence level for a sample estimate</span>
-<span class="sd">    of the population mean.</span>
-<span class="sd">    Inputs</span>
-<span class="sd">    -------</span>
-<span class="sd">    population_size: integer</span>
-<span class="sd">        Total size of the population that the sample is to be drawn from.</span>
-<span class="sd">    margin_error: number</span>
-<span class="sd">        Maximum expected difference between the true population parameter,</span>
-<span class="sd">        such as the mean, and the sample estimate.</span>
-<span class="sd">    confidence_level: number in the interval (0, 1)</span>
-<span class="sd">        If we were to draw a large number of equal-size samples</span>
-<span class="sd">        from the population, the true population parameter</span>
-<span class="sd">        should lie within this percentage</span>
-<span class="sd">        of the intervals (sample_parameter - e, sample_parameter + e)</span>
-<span class="sd">        where e is the margin_error.</span>
-<span class="sd">    sigma: number</span>
-<span class="sd">        The standard deviation of the population.  For the case</span>
-<span class="sd">        of estimating a parameter in the interval [0, 1], sigma=1/2</span>
-<span class="sd">        should be sufficient.</span>
-<span class="sd">    &quot;&quot;&quot;</span>
-    <span class="n">alpha</span> <span class="o">=</span> <span class="mi">1</span> <span class="o">-</span> <span class="p">(</span><span class="n">confidence_level</span><span class="p">)</span>
-    <span class="c1"># dictionary of confidence levels and corresponding z-scores</span>
-    <span class="c1"># computed via norm.ppf(1 - (alpha/2)), where norm is</span>
-    <span class="c1"># a normal distribution object in scipy.stats.</span>
-    <span class="c1"># Here, ppf is the percentile point function.</span>
-    <span class="n">zdict</span> <span class="o">=</span> <span class="p">{</span>
-        <span class="mf">.90</span><span class="p">:</span> <span class="mf">1.645</span><span class="p">,</span>
-        <span class="mf">.91</span><span class="p">:</span> <span class="mf">1.695</span><span class="p">,</span>
-        <span class="mf">.99</span><span class="p">:</span> <span class="mf">2.576</span><span class="p">,</span>
-        <span class="mf">.97</span><span class="p">:</span> <span class="mf">2.17</span><span class="p">,</span>
-        <span class="mf">.94</span><span class="p">:</span> <span class="mf">1.881</span><span class="p">,</span>
-        <span class="mf">.93</span><span class="p">:</span> <span class="mf">1.812</span><span class="p">,</span>
-        <span class="mf">.95</span><span class="p">:</span> <span class="mf">1.96</span><span class="p">,</span>
-        <span class="mf">.98</span><span class="p">:</span> <span class="mf">2.326</span><span class="p">,</span>
-        <span class="mf">.96</span><span class="p">:</span> <span class="mf">2.054</span><span class="p">,</span>
-        <span class="mf">.92</span><span class="p">:</span> <span class="mf">1.751</span>
-    <span class="p">}</span>
-    <span class="k">if</span> <span class="n">confidence_level</span> <span class="ow">in</span> <span class="n">zdict</span><span class="p">:</span>
-        <span class="n">z</span> <span class="o">=</span> <span class="n">zdict</span><span class="p">[</span><span class="n">confidence_level</span><span class="p">]</span>
-    <span class="k">else</span><span class="p">:</span>
-        <span class="c1"># Inf fix</span>
-        <span class="k">if</span> <span class="n">alpha</span> <span class="o">==</span> <span class="mf">0.0</span><span class="p">:</span>
-            <span class="n">alpha</span> <span class="o">+=</span> <span class="mf">0.001</span>
-        <span class="n">z</span> <span class="o">=</span> <span class="n">norm</span><span class="o">.</span><span class="n">ppf</span><span class="p">(</span><span class="mi">1</span> <span class="o">-</span> <span class="p">(</span><span class="n">alpha</span> <span class="o">/</span> <span class="mi">2</span><span class="p">))</span>
-    <span class="n">N</span> <span class="o">=</span> <span class="n">population_size</span>
-    <span class="n">M</span> <span class="o">=</span> <span class="n">margin_error</span>
-    <span class="n">numerator</span> <span class="o">=</span> <span class="n">z</span><span class="o">**</span><span class="mi">2</span> <span class="o">*</span> <span class="n">sigma</span><span class="o">**</span><span class="mi">2</span> <span class="o">*</span> <span class="p">(</span><span class="n">N</span> <span class="o">/</span> <span class="p">(</span><span class="n">N</span> <span class="o">-</span> <span class="mi">1</span><span class="p">))</span>
-    <span class="n">denom</span> <span class="o">=</span> <span class="n">M</span><span class="o">**</span><span class="mi">2</span> <span class="o">+</span> <span class="p">((</span><span class="n">z</span><span class="o">**</span><span class="mi">2</span> <span class="o">*</span> <span class="n">sigma</span><span class="o">**</span><span class="mi">2</span><span class="p">)</span> <span class="o">/</span> <span class="p">(</span><span class="n">N</span> <span class="o">-</span> <span class="mi">1</span><span class="p">))</span>
-    <span class="k">return</span> <span class="n">numerator</span> <span class="o">/</span> <span class="n">denom</span></div>
-
-
-<span class="k">def</span> <span class="nf">sample_data</span><span class="p">(</span><span class="n">df</span><span class="p">:</span> <span class="n">pd</span><span class="o">.</span><span class="n">DataFrame</span><span class="p">)</span> <span class="o">-&gt;</span> <span class="n">pd</span><span class="o">.</span><span class="n">DataFrame</span><span class="p">:</span>
-    <span class="n">population_size</span> <span class="o">=</span> <span class="nb">len</span><span class="p">(</span><span class="n">df</span><span class="p">)</span>
-    <span class="k">if</span> <span class="n">population_size</span> <span class="o">&lt;=</span> <span class="mi">50</span><span class="p">:</span>
-        <span class="n">sample_size</span> <span class="o">=</span> <span class="n">population_size</span>
-    <span class="k">else</span><span class="p">:</span>
-        <span class="n">sample_size</span> <span class="o">=</span> <span class="nb">int</span><span class="p">(</span><span class="nb">round</span><span class="p">(</span><span class="n">calculate_sample_size</span><span class="p">(</span><span class="n">population_size</span><span class="p">)))</span>
-
-    <span class="n">population_size</span> <span class="o">=</span> <span class="nb">len</span><span class="p">(</span><span class="n">df</span><span class="p">)</span>
-    <span class="n">input_data_sample_indexes</span> <span class="o">=</span> <span class="n">random</span><span class="o">.</span><span class="n">sample</span><span class="p">(</span><span class="nb">range</span><span class="p">(</span><span class="n">population_size</span><span class="p">),</span> <span class="n">sample_size</span><span class="p">)</span>
-    <span class="k">return</span> <span class="n">df</span><span class="o">.</span><span class="n">iloc</span><span class="p">[</span><span class="n">input_data_sample_indexes</span><span class="p">]</span>
-
-
-<div class="viewcode-block" id="infer_types"><a class="viewcode-back" href="../infer.html#infer.infer_types">[docs]</a><span class="k">def</span> <span class="nf">infer_types</span><span class="p">(</span>
-        <span class="n">data</span><span class="p">:</span> <span class="n">pd</span><span class="o">.</span><span class="n">DataFrame</span><span class="p">,</span>
-        <span class="n">pct_invalid</span><span class="p">:</span> <span class="nb">float</span><span class="p">,</span>
-        <span class="n">seed_nr</span><span class="p">:</span> <span class="nb">int</span> <span class="o">=</span> <span class="mi">420</span><span class="p">,</span>
-        <span class="n">mp_cutoff</span><span class="p">:</span> <span class="nb">int</span> <span class="o">=</span> <span class="mf">1e4</span><span class="p">,</span>
-<span class="p">)</span> <span class="o">-&gt;</span> <span class="n">TypeInformation</span><span class="p">:</span>
-<span class="w">    </span><span class="sd">&quot;&quot;&quot;</span>
-<span class="sd">    Infers the data types of each column of the dataset by analyzing a small sample of</span>
-<span class="sd">    each column&#39;s items.</span>
-
-<span class="sd">    Inputs</span>
-<span class="sd">    ----------</span>
-<span class="sd">    data : pd.DataFrame</span>
-<span class="sd">        The input dataset for which we want to infer data type information.</span>
-<span class="sd">    pct_invalid : float</span>
-<span class="sd">        The percentage, i.e. a float between 0.0 and 100.0, of invalid values that are</span>
-<span class="sd">        accepted before failing the type inference for a column.</span>
-<span class="sd">    seed_nr : int, optional</span>
-<span class="sd">        Seed for the random number generator, by default 420</span>
-<span class="sd">    mp_cutoff : int, optional</span>
-<span class="sd">        How many elements in the dataframe before switching to parallel processing, by</span>
-<span class="sd">        default 1e4.</span>
-<span class="sd">    &quot;&quot;&quot;</span>
-    <span class="n">seed</span><span class="p">(</span><span class="n">seed_nr</span><span class="p">)</span>
-    <span class="n">type_information</span> <span class="o">=</span> <span class="n">TypeInformation</span><span class="p">()</span>
-    <span class="n">sample_df</span> <span class="o">=</span> <span class="n">sample_data</span><span class="p">(</span><span class="n">data</span><span class="p">)</span>
-    <span class="n">sample_size</span> <span class="o">=</span> <span class="nb">len</span><span class="p">(</span><span class="n">sample_df</span><span class="p">)</span>
-    <span class="n">population_size</span> <span class="o">=</span> <span class="nb">len</span><span class="p">(</span><span class="n">data</span><span class="p">)</span>
-    <span class="n">log</span><span class="o">.</span><span class="n">info</span><span class="p">(</span><span class="sa">f</span><span class="s1">&#39;Analyzing a sample of </span><span class="si">{</span><span class="n">sample_size</span><span class="si">}</span><span class="s1">&#39;</span><span class="p">)</span>
-    <span class="n">log</span><span class="o">.</span><span class="n">info</span><span class="p">(</span>
-        <span class="sa">f</span><span class="s1">&#39;from a total population of </span><span class="si">{</span><span class="n">population_size</span><span class="si">}</span><span class="s1">, this is equivalent to </span><span class="si">{</span><span class="nb">round</span><span class="p">(</span><span class="n">sample_size</span><span class="o">*</span><span class="mi">100</span><span class="o">/</span><span class="n">population_size</span><span class="p">,</span><span class="w"> </span><span class="mi">1</span><span class="p">)</span><span class="si">}</span><span class="s1">% of your data.&#39;</span><span class="p">)</span>  <span class="c1"># noqa</span>
-
-    <span class="n">nr_procs</span> <span class="o">=</span> <span class="n">get_nr_procs</span><span class="p">(</span><span class="n">df</span><span class="o">=</span><span class="n">sample_df</span><span class="p">)</span>
-    <span class="n">pool_size</span> <span class="o">=</span> <span class="nb">min</span><span class="p">(</span><span class="n">nr_procs</span><span class="p">,</span> <span class="nb">len</span><span class="p">(</span><span class="n">sample_df</span><span class="o">.</span><span class="n">columns</span><span class="o">.</span><span class="n">values</span><span class="p">))</span>
-    <span class="k">if</span> <span class="n">data</span><span class="o">.</span><span class="n">size</span> <span class="o">&gt;</span> <span class="n">mp_cutoff</span> <span class="ow">and</span> <span class="n">pool_size</span> <span class="o">&gt;</span> <span class="mi">1</span><span class="p">:</span>
-        <span class="n">log</span><span class="o">.</span><span class="n">info</span><span class="p">(</span><span class="sa">f</span><span class="s1">&#39;Using </span><span class="si">{</span><span class="n">pool_size</span><span class="si">}</span><span class="s1"> processes to deduct types.&#39;</span><span class="p">)</span>
-        <span class="n">pool</span> <span class="o">=</span> <span class="n">mp</span><span class="o">.</span><span class="n">Pool</span><span class="p">(</span><span class="n">processes</span><span class="o">=</span><span class="n">pool_size</span><span class="p">)</span>
-        <span class="c1"># column-wise parallelization  # TODO: evaluate switching to row-wise split instead</span>
-        <span class="n">answer_arr</span> <span class="o">=</span> <span class="n">pool</span><span class="o">.</span><span class="n">starmap</span><span class="p">(</span><span class="n">get_column_data_type</span><span class="p">,</span> <span class="p">[</span>
-            <span class="p">(</span><span class="n">sample_df</span><span class="p">[</span><span class="n">x</span><span class="p">]</span><span class="o">.</span><span class="n">dropna</span><span class="p">(),</span> <span class="n">data</span><span class="p">[</span><span class="n">x</span><span class="p">],</span> <span class="n">x</span><span class="p">,</span> <span class="n">pct_invalid</span><span class="p">)</span> <span class="k">for</span> <span class="n">x</span> <span class="ow">in</span> <span class="n">sample_df</span><span class="o">.</span><span class="n">columns</span><span class="o">.</span><span class="n">values</span>
-        <span class="p">])</span>
-        <span class="n">pool</span><span class="o">.</span><span class="n">close</span><span class="p">()</span>
-        <span class="n">pool</span><span class="o">.</span><span class="n">join</span><span class="p">()</span>
-    <span class="k">else</span><span class="p">:</span>
-        <span class="n">answer_arr</span> <span class="o">=</span> <span class="p">[]</span>
-        <span class="k">for</span> <span class="n">x</span> <span class="ow">in</span> <span class="n">sample_df</span><span class="o">.</span><span class="n">columns</span><span class="p">:</span>
-            <span class="n">answer_arr</span><span class="o">.</span><span class="n">append</span><span class="p">(</span><span class="n">get_column_data_type</span><span class="p">(</span><span class="n">sample_df</span><span class="p">[</span><span class="n">x</span><span class="p">]</span><span class="o">.</span><span class="n">dropna</span><span class="p">(),</span> <span class="n">data</span><span class="p">,</span> <span class="n">x</span><span class="p">,</span> <span class="n">pct_invalid</span><span class="p">))</span>
-
-    <span class="k">for</span> <span class="n">i</span><span class="p">,</span> <span class="n">col_name</span> <span class="ow">in</span> <span class="nb">enumerate</span><span class="p">(</span><span class="n">sample_df</span><span class="o">.</span><span class="n">columns</span><span class="p">):</span>
-        <span class="p">(</span><span class="n">data_dtype</span><span class="p">,</span> <span class="n">data_dtype_dist</span><span class="p">,</span> <span class="n">additional_info</span><span class="p">,</span> <span class="n">warn</span><span class="p">,</span> <span class="n">info</span><span class="p">)</span> <span class="o">=</span> <span class="n">answer_arr</span><span class="p">[</span><span class="n">i</span><span class="p">]</span>
-
-        <span class="k">for</span> <span class="n">msg</span> <span class="ow">in</span> <span class="n">warn</span><span class="p">:</span>
-            <span class="n">log</span><span class="o">.</span><span class="n">warning</span><span class="p">(</span><span class="n">msg</span><span class="p">)</span>
-        <span class="k">for</span> <span class="n">msg</span> <span class="ow">in</span> <span class="n">info</span><span class="p">:</span>
-            <span class="n">log</span><span class="o">.</span><span class="n">info</span><span class="p">(</span><span class="n">msg</span><span class="p">)</span>
-
-        <span class="k">if</span> <span class="n">data_dtype</span> <span class="ow">is</span> <span class="kc">None</span><span class="p">:</span>
-            <span class="n">data_dtype</span> <span class="o">=</span> <span class="n">dtype</span><span class="o">.</span><span class="n">invalid</span>
-
-        <span class="n">type_information</span><span class="o">.</span><span class="n">dtypes</span><span class="p">[</span><span class="n">col_name</span><span class="p">]</span> <span class="o">=</span> <span class="n">data_dtype</span>
-        <span class="n">type_information</span><span class="o">.</span><span class="n">additional_info</span><span class="p">[</span><span class="n">col_name</span><span class="p">]</span> <span class="o">=</span> <span class="p">{</span>
-            <span class="s1">&#39;dtype_dist&#39;</span><span class="p">:</span> <span class="n">data_dtype_dist</span>
-        <span class="p">}</span>
-
-    <span class="k">if</span> <span class="n">data</span><span class="o">.</span><span class="n">size</span> <span class="o">&gt;</span> <span class="n">mp_cutoff</span> <span class="ow">and</span> <span class="n">pool_size</span> <span class="o">&gt;</span> <span class="mi">1</span><span class="p">:</span>
-        <span class="n">pool</span> <span class="o">=</span> <span class="n">mp</span><span class="o">.</span><span class="n">Pool</span><span class="p">(</span><span class="n">processes</span><span class="o">=</span><span class="n">pool_size</span><span class="p">)</span>
-        <span class="n">answer_arr</span> <span class="o">=</span> <span class="n">pool</span><span class="o">.</span><span class="n">map</span><span class="p">(</span><span class="n">get_identifier_description_mp</span><span class="p">,</span> <span class="p">[</span>
-            <span class="p">(</span><span class="n">data</span><span class="p">[</span><span class="n">x</span><span class="p">],</span> <span class="n">x</span><span class="p">,</span> <span class="n">type_information</span><span class="o">.</span><span class="n">dtypes</span><span class="p">[</span><span class="n">x</span><span class="p">])</span>
-            <span class="k">for</span> <span class="n">x</span> <span class="ow">in</span> <span class="n">sample_df</span><span class="o">.</span><span class="n">columns</span>
-        <span class="p">])</span>
-        <span class="n">pool</span><span class="o">.</span><span class="n">close</span><span class="p">()</span>
-        <span class="n">pool</span><span class="o">.</span><span class="n">join</span><span class="p">()</span>
-    <span class="k">else</span><span class="p">:</span>
-        <span class="n">answer_arr</span> <span class="o">=</span> <span class="p">[]</span>
-        <span class="k">for</span> <span class="n">x</span> <span class="ow">in</span> <span class="n">sample_df</span><span class="o">.</span><span class="n">columns</span><span class="p">:</span>
-            <span class="n">answer</span> <span class="o">=</span> <span class="n">get_identifier_description_mp</span><span class="p">([</span><span class="n">data</span><span class="p">[</span><span class="n">x</span><span class="p">],</span> <span class="n">x</span><span class="p">,</span> <span class="n">type_information</span><span class="o">.</span><span class="n">dtypes</span><span class="p">[</span><span class="n">x</span><span class="p">]])</span>
-            <span class="n">answer_arr</span><span class="o">.</span><span class="n">append</span><span class="p">(</span><span class="n">answer</span><span class="p">)</span>
-
-    <span class="k">for</span> <span class="n">i</span><span class="p">,</span> <span class="n">col_name</span> <span class="ow">in</span> <span class="nb">enumerate</span><span class="p">(</span><span class="n">sample_df</span><span class="o">.</span><span class="n">columns</span><span class="p">):</span>
-        <span class="c1"># work with the full data</span>
-        <span class="k">if</span> <span class="n">answer_arr</span><span class="p">[</span><span class="n">i</span><span class="p">]</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span><span class="p">:</span>
-            <span class="n">log</span><span class="o">.</span><span class="n">warning</span><span class="p">(</span><span class="sa">f</span><span class="s1">&#39;Column </span><span class="si">{</span><span class="n">col_name</span><span class="si">}</span><span class="s1"> is an identifier of type &quot;</span><span class="si">{</span><span class="n">answer_arr</span><span class="p">[</span><span class="n">i</span><span class="p">]</span><span class="si">}</span><span class="s1">&quot;&#39;</span><span class="p">)</span>
-            <span class="n">type_information</span><span class="o">.</span><span class="n">identifiers</span><span class="p">[</span><span class="n">col_name</span><span class="p">]</span> <span class="o">=</span> <span class="n">answer_arr</span><span class="p">[</span><span class="n">i</span><span class="p">]</span>
-
-        <span class="c1"># @TODO Column removal logic was here, if the column was an identifier, move it elsewhere</span>
-
-    <span class="k">return</span> <span class="n">type_information</span></div>
-</pre></div>
-
-           </div>
-          </div>
-          <footer>
-
-  <hr/>
-
-  <div role="contentinfo">
-    <p>&#169; Copyright 2022, MindsDB.</p>
-  </div>
-
-  Built with <a href="https://www.sphinx-doc.org/">Sphinx</a> using a
-    <a href="https://github.com/readthedocs/sphinx_rtd_theme">theme</a>
-    provided by <a href="https://readthedocs.org">Read the Docs</a>.
-   
-
-</footer>
-        </div>
-      </div>
-    </section>
-  </div>
-  <script>
-      jQuery(function () {
-          SphinxRtdTheme.Navigation.enable(true);
-      });
-  </script> 
-
-</body>
-</html>
\ No newline at end of file
diff --git a/_static/documentation_options.js b/_static/documentation_options.js
index 7bd22bb..e7fe788 100644
--- a/_static/documentation_options.js
+++ b/_static/documentation_options.js
@@ -1,6 +1,6 @@
 var DOCUMENTATION_OPTIONS = {
     URL_ROOT: document.getElementById("documentation_options").getAttribute('data-url_root'),
-    VERSION: '0.0.17',
+    VERSION: '0.0.18',
     LANGUAGE: 'en',
     COLLAPSE_INDEX: false,
     BUILDER: 'html',
diff --git a/base.html b/base.html
index 91f533b..48cd84a 100644
--- a/base.html
+++ b/base.html
@@ -4,7 +4,7 @@
   <meta charset="utf-8" /><meta name="generator" content="Docutils 0.19: https://docutils.sourceforge.io/" />
 
   <meta name="viewport" content="width=device-width, initial-scale=1.0" />
-  <title>Base &mdash; type_infer 0.0.17 documentation</title>
+  <title>Base &mdash; type_infer 0.0.18 documentation</title>
       <link rel="stylesheet" type="text/css" href="_static/pygments.css" />
       <link rel="stylesheet" type="text/css" href="_static/css/theme.css" />
       <link rel="stylesheet" type="text/css" href="_static/graphviz.css" />
@@ -41,7 +41,7 @@
               <img src="_static/mindsdblogo.png" class="logo" alt="Logo"/>
           </a>
               <div class="version">
-                0.0.17
+                0.0.18
               </div>
 <div role="search">
   <form id="rtd-search-form" class="wy-form" action="search.html" method="get">
@@ -92,7 +92,7 @@ <h1><code class="xref py py-mod docutils literal notranslate"><span class="pre">
 <dt class="sig sig-object py" id="base.TypeInformation">
 <em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">base.</span></span><span class="sig-name descname"><span class="pre">TypeInformation</span></span><a class="reference internal" href="_modules/base.html#TypeInformation"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#base.TypeInformation" title="Permalink to this definition"></a></dt>
 <dd><p>For a dataset, provides information on columns types, how they’re used, and any other potential identifiers.</p>
-<p><code class="docutils literal notranslate"><span class="pre">TypeInformation</span></code> is generated within <a class="reference internal" href="infer.html#infer.infer_types" title="infer.infer_types"><code class="xref py py-func docutils literal notranslate"><span class="pre">infer.infer_types()</span></code></a>, where small samples of each column are evaluated in a custom framework to understand what kind of data type the model is. The user may override data types, but it is recommended to do so within a JSON-AI config file.</p>
+<p><code class="docutils literal notranslate"><span class="pre">TypeInformation</span></code> is generated within <code class="xref py py-func docutils literal notranslate"><span class="pre">infer.infer_types()</span></code>, where small samples of each column are evaluated in a custom framework to understand what kind of data type the model is. The user may override data types, but it is recommended to do so within a JSON-AI config file.</p>
 <dl class="field-list simple">
 <dt class="field-odd">Parameters<span class="colon">:</span></dt>
 <dd class="field-odd"><ul class="simple">
diff --git a/dtype.html b/dtype.html
index 7f8680a..8c4a721 100644
--- a/dtype.html
+++ b/dtype.html
@@ -4,7 +4,7 @@
   <meta charset="utf-8" /><meta name="generator" content="Docutils 0.19: https://docutils.sourceforge.io/" />
 
   <meta name="viewport" content="width=device-width, initial-scale=1.0" />
-  <title>Data types &mdash; type_infer 0.0.17 documentation</title>
+  <title>Data types &mdash; type_infer 0.0.18 documentation</title>
       <link rel="stylesheet" type="text/css" href="_static/pygments.css" />
       <link rel="stylesheet" type="text/css" href="_static/css/theme.css" />
       <link rel="stylesheet" type="text/css" href="_static/graphviz.css" />
@@ -41,7 +41,7 @@
               <img src="_static/mindsdblogo.png" class="logo" alt="Logo"/>
           </a>
               <div class="version">
-                0.0.17
+                0.0.18
               </div>
 <div role="search">
   <form id="rtd-search-form" class="wy-form" action="search.html" method="get">
diff --git a/genindex.html b/genindex.html
index 03e6b5a..714c1c1 100644
--- a/genindex.html
+++ b/genindex.html
@@ -3,7 +3,7 @@
 <head>
   <meta charset="utf-8" />
   <meta name="viewport" content="width=device-width, initial-scale=1.0" />
-  <title>Index &mdash; type_infer 0.0.17 documentation</title>
+  <title>Index &mdash; type_infer 0.0.18 documentation</title>
       <link rel="stylesheet" type="text/css" href="_static/pygments.css" />
       <link rel="stylesheet" type="text/css" href="_static/css/theme.css" />
       <link rel="stylesheet" type="text/css" href="_static/graphviz.css" />
@@ -38,7 +38,7 @@
               <img src="_static/mindsdblogo.png" class="logo" alt="Logo"/>
           </a>
               <div class="version">
-                0.0.17
+                0.0.18
               </div>
 <div role="search">
   <form id="rtd-search-form" class="wy-form" action="search.html" method="get">
@@ -85,7 +85,6 @@ <h1 id="index">Index</h1>
  <a href="#B"><strong>B</strong></a>
  | <a href="#C"><strong>C</strong></a>
  | <a href="#D"><strong>D</strong></a>
- | <a href="#G"><strong>G</strong></a>
  | <a href="#H"><strong>H</strong></a>
  | <a href="#I"><strong>I</strong></a>
  | <a href="#M"><strong>M</strong></a>
@@ -107,10 +106,6 @@ <h2 id="B">B</h2>
 
 <h2 id="C">C</h2>
 <table style="width: 100%" class="indextable genindextable"><tr>
-  <td style="width: 33%; vertical-align: top;"><ul>
-      <li><a href="infer.html#infer.calculate_sample_size">calculate_sample_size() (in module infer)</a>
-</li>
-  </ul></td>
   <td style="width: 33%; vertical-align: top;"><ul>
       <li><a href="helpers.html#helpers.cast_string_to_python_type">cast_string_to_python_type() (in module helpers)</a>
 </li>
@@ -134,18 +129,6 @@ <h2 id="D">D</h2>
   </ul></td>
 </tr></table>
 
-<h2 id="G">G</h2>
-<table style="width: 100%" class="indextable genindextable"><tr>
-  <td style="width: 33%; vertical-align: top;"><ul>
-      <li><a href="infer.html#infer.get_column_data_type">get_column_data_type() (in module infer)</a>
-</li>
-  </ul></td>
-  <td style="width: 33%; vertical-align: top;"><ul>
-      <li><a href="infer.html#infer.get_numeric_type">get_numeric_type() (in module infer)</a>
-</li>
-  </ul></td>
-</tr></table>
-
 <h2 id="H">H</h2>
 <table style="width: 100%" class="indextable genindextable"><tr>
   <td style="width: 33%; vertical-align: top;"><ul>
@@ -162,17 +145,6 @@ <h2 id="H">H</h2>
 <h2 id="I">I</h2>
 <table style="width: 100%" class="indextable genindextable"><tr>
   <td style="width: 33%; vertical-align: top;"><ul>
-      <li>
-    infer
-
-      <ul>
-        <li><a href="infer.html#module-infer">module</a>
-</li>
-      </ul></li>
-  </ul></td>
-  <td style="width: 33%; vertical-align: top;"><ul>
-      <li><a href="infer.html#infer.infer_types">infer_types() (in module infer)</a>
-</li>
       <li><a href="helpers.html#helpers.is_nan_numeric">is_nan_numeric() (in module helpers)</a>
 </li>
   </ul></td>
@@ -190,8 +162,6 @@ <h2 id="M">M</h2>
         <li><a href="dtype.html#module-dtype">dtype</a>
 </li>
         <li><a href="helpers.html#module-helpers">helpers</a>
-</li>
-        <li><a href="infer.html#module-infer">infer</a>
 </li>
       </ul></li>
   </ul></td>
@@ -200,12 +170,6 @@ <h2 id="M">M</h2>
 <h2 id="T">T</h2>
 <table style="width: 100%" class="indextable genindextable"><tr>
   <td style="width: 33%; vertical-align: top;"><ul>
-      <li><a href="helpers.html#helpers.tokenize_text">tokenize_text() (in module helpers)</a>
-</li>
-  </ul></td>
-  <td style="width: 33%; vertical-align: top;"><ul>
-      <li><a href="infer.html#infer.type_check_date">type_check_date() (in module infer)</a>
-</li>
       <li><a href="base.html#base.TypeInformation">TypeInformation (class in base)</a>
 </li>
   </ul></td>
diff --git a/helpers.html b/helpers.html
index 87aed03..aabf402 100644
--- a/helpers.html
+++ b/helpers.html
@@ -4,7 +4,7 @@
   <meta charset="utf-8" /><meta name="generator" content="Docutils 0.19: https://docutils.sourceforge.io/" />
 
   <meta name="viewport" content="width=device-width, initial-scale=1.0" />
-  <title>Helpers &mdash; type_infer 0.0.17 documentation</title>
+  <title>Helpers &mdash; type_infer 0.0.18 documentation</title>
       <link rel="stylesheet" type="text/css" href="_static/pygments.css" />
       <link rel="stylesheet" type="text/css" href="_static/css/theme.css" />
       <link rel="stylesheet" type="text/css" href="_static/graphviz.css" />
@@ -40,7 +40,7 @@
               <img src="_static/mindsdblogo.png" class="logo" alt="Logo"/>
           </a>
               <div class="version">
-                0.0.17
+                0.0.18
               </div>
 <div role="search">
   <form id="rtd-search-form" class="wy-form" action="search.html" method="get">
@@ -57,7 +57,6 @@
 <li class="toctree-l1 current"><a class="current reference internal" href="#"><code class="xref py py-mod docutils literal notranslate"><span class="pre">Helpers</span></code></a><ul>
 <li class="toctree-l2"><a class="reference internal" href="#helpers.cast_string_to_python_type"><code class="docutils literal notranslate"><span class="pre">cast_string_to_python_type()</span></code></a></li>
 <li class="toctree-l2"><a class="reference internal" href="#helpers.is_nan_numeric"><code class="docutils literal notranslate"><span class="pre">is_nan_numeric()</span></code></a></li>
-<li class="toctree-l2"><a class="reference internal" href="#helpers.tokenize_text"><code class="docutils literal notranslate"><span class="pre">tokenize_text()</span></code></a></li>
 </ul>
 </li>
 </ul>
@@ -106,12 +105,6 @@ <h1><code class="xref py py-mod docutils literal notranslate"><span class="pre">
 </dl>
 </dd></dl>
 
-<dl class="py function">
-<dt class="sig sig-object py" id="helpers.tokenize_text">
-<span class="sig-prename descclassname"><span class="pre">helpers.</span></span><span class="sig-name descname"><span class="pre">tokenize_text</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">text</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/helpers.html#tokenize_text"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#helpers.tokenize_text" title="Permalink to this definition"></a></dt>
-<dd><p>Generator instead of list comprehension for optimal memory usage &amp; runtime</p>
-</dd></dl>
-
 </section>
 
 
diff --git a/index.html b/index.html
index 61a9a7a..eaba068 100644
--- a/index.html
+++ b/index.html
@@ -4,7 +4,7 @@
   <meta charset="utf-8" /><meta name="generator" content="Docutils 0.19: https://docutils.sourceforge.io/" />
 
   <meta name="viewport" content="width=device-width, initial-scale=1.0" />
-  <title>Type Infer &mdash; type_infer 0.0.17 documentation</title>
+  <title>Type Infer &mdash; type_infer 0.0.18 documentation</title>
       <link rel="stylesheet" type="text/css" href="_static/pygments.css" />
       <link rel="stylesheet" type="text/css" href="_static/css/theme.css" />
       <link rel="stylesheet" type="text/css" href="_static/graphviz.css" />
@@ -40,7 +40,7 @@
               <img src="_static/mindsdblogo.png" class="logo" alt="Logo"/>
           </a>
               <div class="version">
-                0.0.17
+                0.0.18
               </div>
 <div role="search">
   <form id="rtd-search-form" class="wy-form" action="search.html" method="get">
@@ -85,10 +85,10 @@
 <h1>Type Infer<a class="headerlink" href="#type-infer" title="Permalink to this heading"></a></h1>
 <dl class="field-list simple">
 <dt class="field-odd">Release<span class="colon">:</span></dt>
-<dd class="field-odd"><p>0.0.17</p>
+<dd class="field-odd"><p>0.0.18</p>
 </dd>
 <dt class="field-even">Date<span class="colon">:</span></dt>
-<dd class="field-even"><p>Dec 05, 2023</p>
+<dd class="field-even"><p>Dec 25, 2023</p>
 </dd>
 </dl>
 <div class="line-block">
@@ -206,18 +206,10 @@ <h2>Other Links<a class="headerlink" href="#other-links" title="Permalink to thi
 <li class="toctree-l2"><a class="reference internal" href="dtype.html#dtype.dtype"><code class="docutils literal notranslate"><span class="pre">dtype</span></code></a></li>
 </ul>
 </li>
-<li class="toctree-l1"><a class="reference internal" href="infer.html"><code class="xref py py-mod docutils literal notranslate"><span class="pre">Infer</span></code></a><ul>
-<li class="toctree-l2"><a class="reference internal" href="infer.html#infer.calculate_sample_size"><code class="docutils literal notranslate"><span class="pre">calculate_sample_size()</span></code></a></li>
-<li class="toctree-l2"><a class="reference internal" href="infer.html#infer.get_column_data_type"><code class="docutils literal notranslate"><span class="pre">get_column_data_type()</span></code></a></li>
-<li class="toctree-l2"><a class="reference internal" href="infer.html#infer.get_numeric_type"><code class="docutils literal notranslate"><span class="pre">get_numeric_type()</span></code></a></li>
-<li class="toctree-l2"><a class="reference internal" href="infer.html#infer.infer_types"><code class="docutils literal notranslate"><span class="pre">infer_types()</span></code></a></li>
-<li class="toctree-l2"><a class="reference internal" href="infer.html#infer.type_check_date"><code class="docutils literal notranslate"><span class="pre">type_check_date()</span></code></a></li>
-</ul>
-</li>
+<li class="toctree-l1"><a class="reference internal" href="infer.html"><code class="xref py py-mod docutils literal notranslate"><span class="pre">Infer</span></code></a></li>
 <li class="toctree-l1"><a class="reference internal" href="helpers.html"><code class="xref py py-mod docutils literal notranslate"><span class="pre">Helpers</span></code></a><ul>
 <li class="toctree-l2"><a class="reference internal" href="helpers.html#helpers.cast_string_to_python_type"><code class="docutils literal notranslate"><span class="pre">cast_string_to_python_type()</span></code></a></li>
 <li class="toctree-l2"><a class="reference internal" href="helpers.html#helpers.is_nan_numeric"><code class="docutils literal notranslate"><span class="pre">is_nan_numeric()</span></code></a></li>
-<li class="toctree-l2"><a class="reference internal" href="helpers.html#helpers.tokenize_text"><code class="docutils literal notranslate"><span class="pre">tokenize_text()</span></code></a></li>
 </ul>
 </li>
 </ul>
diff --git a/infer.html b/infer.html
index 0d0357b..88cee3b 100644
--- a/infer.html
+++ b/infer.html
@@ -4,7 +4,7 @@
   <meta charset="utf-8" /><meta name="generator" content="Docutils 0.19: https://docutils.sourceforge.io/" />
 
   <meta name="viewport" content="width=device-width, initial-scale=1.0" />
-  <title>Infer &mdash; type_infer 0.0.17 documentation</title>
+  <title>Infer &mdash; type_infer 0.0.18 documentation</title>
       <link rel="stylesheet" type="text/css" href="_static/pygments.css" />
       <link rel="stylesheet" type="text/css" href="_static/css/theme.css" />
       <link rel="stylesheet" type="text/css" href="_static/graphviz.css" />
@@ -41,7 +41,7 @@
               <img src="_static/mindsdblogo.png" class="logo" alt="Logo"/>
           </a>
               <div class="version">
-                0.0.17
+                0.0.18
               </div>
 <div role="search">
   <form id="rtd-search-form" class="wy-form" action="search.html" method="get">
@@ -54,14 +54,7 @@
               <ul class="current">
 <li class="toctree-l1"><a class="reference internal" href="base.html"><code class="xref py py-mod docutils literal notranslate"><span class="pre">Base</span></code></a></li>
 <li class="toctree-l1"><a class="reference internal" href="dtype.html"><code class="xref py py-mod docutils literal notranslate"><span class="pre">Data</span> <span class="pre">types</span></code></a></li>
-<li class="toctree-l1 current"><a class="current reference internal" href="#"><code class="xref py py-mod docutils literal notranslate"><span class="pre">Infer</span></code></a><ul>
-<li class="toctree-l2"><a class="reference internal" href="#infer.calculate_sample_size"><code class="docutils literal notranslate"><span class="pre">calculate_sample_size()</span></code></a></li>
-<li class="toctree-l2"><a class="reference internal" href="#infer.get_column_data_type"><code class="docutils literal notranslate"><span class="pre">get_column_data_type()</span></code></a></li>
-<li class="toctree-l2"><a class="reference internal" href="#infer.get_numeric_type"><code class="docutils literal notranslate"><span class="pre">get_numeric_type()</span></code></a></li>
-<li class="toctree-l2"><a class="reference internal" href="#infer.infer_types"><code class="docutils literal notranslate"><span class="pre">infer_types()</span></code></a></li>
-<li class="toctree-l2"><a class="reference internal" href="#infer.type_check_date"><code class="docutils literal notranslate"><span class="pre">type_check_date()</span></code></a></li>
-</ul>
-</li>
+<li class="toctree-l1 current"><a class="current reference internal" href="#"><code class="xref py py-mod docutils literal notranslate"><span class="pre">Infer</span></code></a></li>
 <li class="toctree-l1"><a class="reference internal" href="helpers.html"><code class="xref py py-mod docutils literal notranslate"><span class="pre">Helpers</span></code></a></li>
 </ul>
 
@@ -92,102 +85,6 @@
   <section id="infer">
 <h1><code class="xref py py-mod docutils literal notranslate"><span class="pre">Infer</span></code><a class="headerlink" href="#infer" title="Permalink to this heading"></a></h1>
 <p>The <code class="docutils literal notranslate"><span class="pre">infer</span></code> module contains the main logic for inferring ML-ready data types.</p>
-<span class="target" id="module-infer"></span><dl class="py function">
-<dt class="sig sig-object py" id="infer.calculate_sample_size">
-<span class="sig-prename descclassname"><span class="pre">infer.</span></span><span class="sig-name descname"><span class="pre">calculate_sample_size</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">population_size</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">margin_error</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">0.01</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">confidence_level</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">0.995</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">sigma</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">0.5</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/infer.html#calculate_sample_size"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#infer.calculate_sample_size" title="Permalink to this definition"></a></dt>
-<dd><p>Calculate the minimal sample size to use to achieve a certain
-margin of error and confidence level for a sample estimate
-of the population mean.
-Inputs
-——-
-population_size: integer</p>
-<blockquote>
-<div><p>Total size of the population that the sample is to be drawn from.</p>
-</div></blockquote>
-<dl class="simple">
-<dt>margin_error: number</dt><dd><p>Maximum expected difference between the true population parameter,
-such as the mean, and the sample estimate.</p>
-</dd>
-<dt>confidence_level: number in the interval (0, 1)</dt><dd><p>If we were to draw a large number of equal-size samples
-from the population, the true population parameter
-should lie within this percentage
-of the intervals (sample_parameter - e, sample_parameter + e)
-where e is the margin_error.</p>
-</dd>
-<dt>sigma: number</dt><dd><p>The standard deviation of the population.  For the case
-of estimating a parameter in the interval [0, 1], sigma=1/2
-should be sufficient.</p>
-</dd>
-</dl>
-</dd></dl>
-
-<dl class="py function">
-<dt class="sig sig-object py" id="infer.get_column_data_type">
-<span class="sig-prename descclassname"><span class="pre">infer.</span></span><span class="sig-name descname"><span class="pre">get_column_data_type</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">data</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">full_data</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">col_name</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">pct_invalid</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/infer.html#get_column_data_type"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#infer.get_column_data_type" title="Permalink to this definition"></a></dt>
-<dd><p>Provided the column data, define its data type and data subtype.</p>
-<dl class="field-list simple">
-<dt class="field-odd">Parameters<span class="colon">:</span></dt>
-<dd class="field-odd"><ul class="simple">
-<li><p><strong>data</strong> (<code class="xref py py-data docutils literal notranslate"><span class="pre">Union</span></code>[<code class="xref py py-class docutils literal notranslate"><span class="pre">ndarray</span></code>, <code class="xref py py-class docutils literal notranslate"><span class="pre">list</span></code>]) – an iterable containing a sample of the data frame</p></li>
-<li><p><strong>full_data</strong> (<code class="xref py py-class docutils literal notranslate"><span class="pre">DataFrame</span></code>) – an iterable containing the whole column of a data frame</p></li>
-</ul>
-</dd>
-<dt class="field-even">Returns<span class="colon">:</span></dt>
-<dd class="field-even"><p>type and type distribution, we can later use type_distribution to determine data quality</p>
-</dd>
-</dl>
-<p>NOTE: type distribution is the count that this column has for belonging cells to each DATA_TYPE</p>
-</dd></dl>
-
-<dl class="py function">
-<dt class="sig sig-object py" id="infer.get_numeric_type">
-<span class="sig-prename descclassname"><span class="pre">infer.</span></span><span class="sig-name descname"><span class="pre">get_numeric_type</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">element</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/infer.html#get_numeric_type"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#infer.get_numeric_type" title="Permalink to this definition"></a></dt>
-<dd><p>Returns the subtype inferred from a number string, or False if its not a number</p>
-<dl class="field-list simple">
-<dt class="field-odd">Return type<span class="colon">:</span></dt>
-<dd class="field-odd"><p><code class="xref py py-class docutils literal notranslate"><span class="pre">str</span></code></p>
-</dd>
-</dl>
-</dd></dl>
-
-<dl class="py function">
-<dt class="sig sig-object py" id="infer.infer_types">
-<span class="sig-prename descclassname"><span class="pre">infer.</span></span><span class="sig-name descname"><span class="pre">infer_types</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">data</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">pct_invalid</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">seed_nr</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">420</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">mp_cutoff</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">10000.0</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/infer.html#infer_types"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#infer.infer_types" title="Permalink to this definition"></a></dt>
-<dd><p>Infers the data types of each column of the dataset by analyzing a small sample of
-each column’s items.</p>
-<dl class="field-list simple">
-<dt class="field-odd">Return type<span class="colon">:</span></dt>
-<dd class="field-odd"><p><code class="xref py py-class docutils literal notranslate"><span class="pre">TypeInformation</span></code></p>
-</dd>
-</dl>
-<section id="inputs">
-<h2>Inputs<a class="headerlink" href="#inputs" title="Permalink to this heading"></a></h2>
-<dl class="simple">
-<dt>data<span class="classifier">pd.DataFrame</span></dt><dd><p>The input dataset for which we want to infer data type information.</p>
-</dd>
-<dt>pct_invalid<span class="classifier">float</span></dt><dd><p>The percentage, i.e. a float between 0.0 and 100.0, of invalid values that are
-accepted before failing the type inference for a column.</p>
-</dd>
-<dt>seed_nr<span class="classifier">int, optional</span></dt><dd><p>Seed for the random number generator, by default 420</p>
-</dd>
-<dt>mp_cutoff<span class="classifier">int, optional</span></dt><dd><p>How many elements in the dataframe before switching to parallel processing, by
-default 1e4.</p>
-</dd>
-</dl>
-</section>
-</dd></dl>
-
-<dl class="py function">
-<dt class="sig sig-object py" id="infer.type_check_date">
-<span class="sig-prename descclassname"><span class="pre">infer.</span></span><span class="sig-name descname"><span class="pre">type_check_date</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">element</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/infer.html#type_check_date"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#infer.type_check_date" title="Permalink to this definition"></a></dt>
-<dd><p>Check if element corresponds to a date-like object.</p>
-<dl class="field-list simple">
-<dt class="field-odd">Return type<span class="colon">:</span></dt>
-<dd class="field-odd"><p><code class="xref py py-class docutils literal notranslate"><span class="pre">str</span></code></p>
-</dd>
-</dl>
-</dd></dl>
-
 </section>
 
 
diff --git a/objects.inv b/objects.inv
index dd548de..37408d9 100644
Binary files a/objects.inv and b/objects.inv differ
diff --git a/py-modindex.html b/py-modindex.html
index 2cca5d2..96cd27d 100644
--- a/py-modindex.html
+++ b/py-modindex.html
@@ -3,7 +3,7 @@
 <head>
   <meta charset="utf-8" />
   <meta name="viewport" content="width=device-width, initial-scale=1.0" />
-  <title>Python Module Index &mdash; type_infer 0.0.17 documentation</title>
+  <title>Python Module Index &mdash; type_infer 0.0.18 documentation</title>
       <link rel="stylesheet" type="text/css" href="_static/pygments.css" />
       <link rel="stylesheet" type="text/css" href="_static/css/theme.css" />
       <link rel="stylesheet" type="text/css" href="_static/graphviz.css" />
@@ -45,7 +45,7 @@
               <img src="_static/mindsdblogo.png" class="logo" alt="Logo"/>
           </a>
               <div class="version">
-                0.0.17
+                0.0.18
               </div>
 <div role="search">
   <form id="rtd-search-form" class="wy-form" action="search.html" method="get">
@@ -91,8 +91,7 @@ <h1>Python Module Index</h1>
    <div class="modindex-jumpbox">
    <a href="#cap-b"><strong>b</strong></a> | 
    <a href="#cap-d"><strong>d</strong></a> | 
-   <a href="#cap-h"><strong>h</strong></a> | 
-   <a href="#cap-i"><strong>i</strong></a>
+   <a href="#cap-h"><strong>h</strong></a>
    </div>
 
    <table class="indextable modindextable">
@@ -120,14 +119,6 @@ <h1>Python Module Index</h1>
        <td>
        <a href="helpers.html#module-helpers"><code class="xref">helpers</code></a></td><td>
        <em></em></td></tr>
-     <tr class="pcap"><td></td><td>&#160;</td><td></td></tr>
-     <tr class="cap" id="cap-i"><td></td><td>
-       <strong>i</strong></td><td></td></tr>
-     <tr>
-       <td></td>
-       <td>
-       <a href="infer.html#module-infer"><code class="xref">infer</code></a></td><td>
-       <em></em></td></tr>
    </table>
 
 
diff --git a/search.html b/search.html
index 08246d2..7d5c7e6 100644
--- a/search.html
+++ b/search.html
@@ -3,7 +3,7 @@
 <head>
   <meta charset="utf-8" />
   <meta name="viewport" content="width=device-width, initial-scale=1.0" />
-  <title>Search &mdash; type_infer 0.0.17 documentation</title>
+  <title>Search &mdash; type_infer 0.0.18 documentation</title>
       <link rel="stylesheet" type="text/css" href="_static/pygments.css" />
       <link rel="stylesheet" type="text/css" href="_static/css/theme.css" />
       <link rel="stylesheet" type="text/css" href="_static/graphviz.css" />
@@ -41,7 +41,7 @@
               <img src="_static/mindsdblogo.png" class="logo" alt="Logo"/>
           </a>
               <div class="version">
-                0.0.17
+                0.0.18
               </div>
 <div role="search">
   <form id="rtd-search-form" class="wy-form" action="#" method="get">
diff --git a/searchindex.js b/searchindex.js
index 550d638..f7b437e 100644
--- a/searchindex.js
+++ b/searchindex.js
@@ -1 +1 @@
-Search.setIndex({"docnames": ["base", "dtype", "helpers", "index", "infer"], "filenames": ["base.rst", "dtype.rst", "helpers.rst", "index.rst", "infer.rst"], "titles": ["<code class=\"xref py py-mod docutils literal notranslate\"><span class=\"pre\">Base</span></code>", "<code class=\"xref py py-mod docutils literal notranslate\"><span class=\"pre\">Data</span> <span class=\"pre\">types</span></code>", "<code class=\"xref py py-mod docutils literal notranslate\"><span class=\"pre\">Helpers</span></code>", "Type Infer", "<code class=\"xref py py-mod docutils literal notranslate\"><span class=\"pre\">Infer</span></code>"], "terms": {"The": [0, 1, 2, 4], "modul": [0, 1, 2, 4], "contain": [0, 4], "main": [0, 4], "abstract": 0, "us": [0, 2, 3, 4], "throughout": 0, "packag": [0, 3], "class": [0, 1], "typeinform": [0, 3, 4], "sourc": [0, 1, 2, 4], "For": [0, 4], "dataset": [0, 3, 4], "provid": [0, 4], "inform": [0, 1, 4], "column": [0, 1, 3, 4], "type": [0, 2, 4], "how": [0, 1, 4], "thei": [0, 1], "re": 0, "ani": 0, "other": [0, 2], "potenti": 0, "identifi": 0, "i": [0, 1, 2, 3, 4], "gener": [0, 1, 2, 3, 4], "within": [0, 4], "infer": [0, 1], "infer_typ": [0, 3, 4], "where": [0, 1, 3, 4], "small": [0, 1, 4], "sampl": [0, 4], "each": [0, 3, 4], "ar": [0, 1, 3, 4], "evalu": 0, "custom": [0, 1], "framework": 0, "understand": 0, "what": 0, "kind": 0, "data": [0, 3, 4], "model": 0, "user": 0, "mai": [0, 1], "overrid": [0, 1], "recommend": [0, 3], "do": [0, 1, 3], "so": [0, 1, 3], "json": 0, "ai": 0, "config": 0, "file": [0, 3], "paramet": [0, 4], "dtype": [0, 1, 3], "": [0, 3, 4], "name": [0, 1], "associ": 0, "additional_info": 0, "possibl": [0, 1], "sub": 0, "categori": 0, "addit": [0, 2, 3], "descript": 0, "highli": [0, 1], "suspect": 0, "being": 0, "id": 0, "These": 0, "informat": 0, "valu": [0, 1, 2, 4], "therefor": 0, "ignor": 0, "subsequ": [0, 1], "train": 0, "analysi": 0, "procedur": 0, "unless": 0, "manual": 0, "indic": [0, 1], "defin": [1, 4], "all": [1, 2, 3], "can": [1, 2, 4], "definit": 1, "current": 1, "support": 1, "numer": [1, 2], "should": [1, 3, 4], "repres": 1, "form": 1, "number": [1, 2, 4], "integ": [1, 2, 4], "float": [1, 2, 4], "quantiti": 1, "categor": 1, "label": 1, "discret": 1, "binari": 1, "tag": 1, "date": [1, 3, 4], "time": 1, "seri": 1, "tempor": 1, "sequenti": 1, "datetim": 1, "text": [1, 2], "consid": 1, "languag": 1, "short_text": 1, "rich_text": 1, "short": 1, "ha": [1, 2, 4], "vocabulari": 1, "100": [1, 4], "word": 1, "limit": 1, "charact": 1, "rich": 1, "anyth": 1, "greater": 1, "complex": 1, "requir": [1, 3], "techniqu": 1, "audio": 1, "video": 1, "imag": 1, "avail": 1, "experiment": 1, "arrai": 1, "sequenc": 1, "order": 1, "must": 1, "preserv": 1, "tsarrai": 1, "normal": 1, "transform": 1, "row": 1, "level": [1, 4], "becaus": 1, "treat": 1, "miscellan": 1, "descriptor": 1, "includ": 1, "empti": 1, "an": [1, 2, 3, 4], "explicitli": 1, "unknown": 1, "versu": 1, "invalid": [1, 4], "implement": [1, 3], "here": [1, 3], "flag": 1, "treatment": 1, "process": [1, 4], "you": 1, "welcom": [1, 3], "your": [1, 3], "own": [1, 3], "long": 1, "exist": 1, "altern": 1, "pleas": [1, 3], "edit": [1, 3], "part": 1, "preprocess": 1, "pipelin": 1, "correctli": 1, "want": [1, 3, 4], "deal": 1, "method": 2, "codebas": 2, "cast_string_to_python_typ": [2, 3], "string": [2, 4], "return": [2, 4], "none": 2, "from": [2, 3, 4], "is_nan_numer": [2, 3], "determin": [2, 4], "might": 2, "nan": 2, "inf": 2, "some": 2, "e": [2, 3, 4], "which": [2, 3, 4], "cast": 2, "actual": 2, "bool": 2, "tokenize_text": [2, 3], "instead": [2, 3], "list": [2, 4], "comprehens": 2, "optim": 2, "memori": 2, "usag": 2, "runtim": 2, "releas": 3, "0": [3, 4], "17": 3, "dec": 3, "05": 3, "2023": 3, "type_inf": 3, "document": 3, "python": 3, "aim": 3, "automat": 3, "tabular": 3, "follow": 3, "pip": 3, "we": [3, 4], "abov": 3, "insid": 3, "newli": 3, "creat": 3, "virtual": 3, "clone": 3, "repositori": 3, "run": 3, "cd": 3, "add": 3, "path": 3, "g": 3, "ad": 3, "export": 3, "pythonpath": 3, "repo": 3, "newlin": 3, "end": 3, "bashrc": 3, "check": [3, 4], "unit": 3, "test": 3, "pass": 3, "go": 3, "directori": 3, "m": 3, "unittest": 3, "discov": 3, "If": [3, 4], "default": [3, 4], "python2": 3, "x": 3, "python3": 3, "pip3": 3, "work": 3, "panda": 3, "datafram": [3, 4], "import": 3, "love": 3, "receiv": 3, "hear": 3, "opinion": 3, "make": 3, "easi": 3, "continu": 3, "read": 3, "thi": [3, 4], "interest": 3, "improv": 3, "solv": 3, "issu": 3, "propos": 3, "new": 3, "discuss": 3, "submit": 3, "fix": 3, "let": 3, "know": 3, "went": 3, "In": 3, "fork": 3, "pull": 3, "git": 3, "workflow": 3, "step": 3, "checkout": 3, "stage": 3, "branch": 3, "develop": 3, "version": 3, "get": 3, "stabl": 3, "except": 3, "sure": 3, "ask": 3, "confirm": 3, "chang": 3, "commit": 3, "them": 3, "ci": 3, "suit": 3, "local": 3, "flake8": 3, "style": 3, "autom": 3, "doesn": 3, "t": 3, "guarante": 3, "remot": 3, "sinc": 3, "multipl": 3, "env": 3, "most": 3, "case": [3, 4], "push": 3, "request": 3, "mindsdb": 3, "Be": 3, "merg": 3, "latest": 3, "befor": [3, 4], "need": 3, "sign": 3, "cli": 3, "agreement": 3, "under": 3, "gpl": 3, "github": 3, "track": 3, "open": 3, "fill": 3, "out": 3, "input": 3, "pr": 3, "done": 3, "regular": 3, "basi": 3, "doe": 3, "address": 3, "previou": 3, "first": 3, "affect": 3, "perform": 3, "our": 3, "privat": 3, "benchmark": 3, "valid": 3, "respond": 3, "feedback": 3, "question": 3, "have": 3, "chat": 3, "core": 3, "team": 3, "join": 3, "To": 3, "updat": 3, "announc": 3, "event": 3, "monthli": 3, "newslett": 3, "mission": 3, "democrat": 3, "machin": 3, "learn": 3, "allow": 3, "becom": 3, "scientist": 3, "note": [3, 4], "project": 3, "By": 3, "particip": 3, "agre": 3, "abid": 3, "its": [3, 4], "term": 3, "base": 3, "calculate_sample_s": [3, 4], "get_column_data_typ": [3, 4], "get_numeric_typ": [3, 4], "type_check_d": [3, 4], "helper": 3, "logic": 4, "ml": 4, "readi": 4, "population_s": 4, "margin_error": 4, "01": 4, "confidence_level": 4, "995": 4, "sigma": 4, "5": 4, "calcul": 4, "minim": 4, "size": 4, "achiev": 4, "certain": 4, "margin": 4, "error": 4, "confid": 4, "estim": 4, "popul": 4, "mean": 4, "total": 4, "drawn": 4, "maximum": 4, "expect": 4, "differ": 4, "between": 4, "true": 4, "interv": 4, "1": 4, "were": 4, "draw": 4, "larg": 4, "equal": 4, "lie": 4, "percentag": 4, "sample_paramet": 4, "standard": 4, "deviat": 4, "2": 4, "suffici": 4, "full_data": 4, "col_nam": 4, "pct_invalid": 4, "subtyp": 4, "union": 4, "ndarrai": 4, "iter": 4, "frame": 4, "whole": 4, "distribut": 4, "later": 4, "type_distribut": 4, "qualiti": 4, "count": 4, "belong": 4, "cell": 4, "data_typ": 4, "element": 4, "fals": 4, "str": 4, "seed_nr": 4, "420": 4, "mp_cutoff": 4, "10000": 4, "analyz": 4, "item": 4, "pd": 4, "accept": 4, "fail": 4, "int": 4, "option": 4, "seed": 4, "random": 4, "mani": 4, "switch": 4, "parallel": 4, "1e4": 4, "correspond": 4, "like": 4, "object": 4}, "objects": {"": [[0, 0, 0, "-", "base"], [1, 0, 0, "-", "dtype"], [2, 0, 0, "-", "helpers"], [4, 0, 0, "-", "infer"]], "base": [[0, 1, 1, "", "TypeInformation"]], "dtype": [[1, 1, 1, "", "dtype"]], "helpers": [[2, 2, 1, "", "cast_string_to_python_type"], [2, 2, 1, "", "is_nan_numeric"], [2, 2, 1, "", "tokenize_text"]], "infer": [[4, 2, 1, "", "calculate_sample_size"], [4, 2, 1, "", "get_column_data_type"], [4, 2, 1, "", "get_numeric_type"], [4, 2, 1, "", "infer_types"], [4, 2, 1, "", "type_check_date"]]}, "objtypes": {"0": "py:module", "1": "py:class", "2": "py:function"}, "objnames": {"0": ["py", "module", "Python module"], "1": ["py", "class", "Python class"], "2": ["py", "function", "Python function"]}, "titleterms": {"base": 0, "data": 1, "type": [1, 3], "helper": 2, "infer": [3, 4], "quick": 3, "guid": 3, "instal": 3, "set": 3, "up": 3, "dev": 3, "environ": 3, "start": 3, "contribut": 3, "how": 3, "can": 3, "you": 3, "help": 3, "u": 3, "code": 3, "featur": 3, "bug": 3, "report": 3, "review": 3, "process": 3, "commun": 3, "contributor": 3, "conduct": 3, "licens": 3, "other": 3, "link": 3, "input": 4}, "envversion": {"sphinx.domains.c": 2, "sphinx.domains.changeset": 1, "sphinx.domains.citation": 1, "sphinx.domains.cpp": 8, "sphinx.domains.index": 1, "sphinx.domains.javascript": 2, "sphinx.domains.math": 2, "sphinx.domains.python": 3, "sphinx.domains.rst": 2, "sphinx.domains.std": 2, "sphinx.ext.viewcode": 1, "nbsphinx": 4, "sphinx": 57}, "alltitles": {"Base": [[0, "base"]], "Data types": [[1, "data-types"]], "Helpers": [[2, "helpers"]], "Type Infer": [[3, "type-infer"]], "Quick Guide": [[3, "quick-guide"]], "Installation": [[3, "installation"]], "Setting up a dev environment": [[3, "setting-up-a-dev-environment"]], "Quick start": [[3, "quick-start"]], "Contributions": [[3, "contributions"]], "How can you help us?": [[3, "how-can-you-help-us"]], "Code contributions": [[3, "code-contributions"]], "Feature and Bug reports": [[3, "feature-and-bug-reports"]], "Code review process": [[3, "code-review-process"]], "Community": [[3, "community"]], "Contributor Code of Conduct": [[3, "contributor-code-of-conduct"]], "License": [[3, "license"]], "Other Links": [[3, "other-links"]], "Infer": [[4, "infer"]], "Inputs": [[4, "inputs"]]}, "indexentries": {"typeinformation (class in base)": [[0, "base.TypeInformation"]], "base": [[0, "module-base"]], "module": [[0, "module-base"], [1, "module-dtype"], [2, "module-helpers"], [4, "module-infer"]], "dtype": [[1, "module-dtype"]], "dtype (class in dtype)": [[1, "dtype.dtype"]], "cast_string_to_python_type() (in module helpers)": [[2, "helpers.cast_string_to_python_type"]], "helpers": [[2, "module-helpers"]], "is_nan_numeric() (in module helpers)": [[2, "helpers.is_nan_numeric"]], "tokenize_text() (in module helpers)": [[2, "helpers.tokenize_text"]], "calculate_sample_size() (in module infer)": [[4, "infer.calculate_sample_size"]], "get_column_data_type() (in module infer)": [[4, "infer.get_column_data_type"]], "get_numeric_type() (in module infer)": [[4, "infer.get_numeric_type"]], "infer": [[4, "module-infer"]], "infer_types() (in module infer)": [[4, "infer.infer_types"]], "type_check_date() (in module infer)": [[4, "infer.type_check_date"]]}})
\ No newline at end of file
+Search.setIndex({"docnames": ["base", "dtype", "helpers", "index", "infer"], "filenames": ["base.rst", "dtype.rst", "helpers.rst", "index.rst", "infer.rst"], "titles": ["<code class=\"xref py py-mod docutils literal notranslate\"><span class=\"pre\">Base</span></code>", "<code class=\"xref py py-mod docutils literal notranslate\"><span class=\"pre\">Data</span> <span class=\"pre\">types</span></code>", "<code class=\"xref py py-mod docutils literal notranslate\"><span class=\"pre\">Helpers</span></code>", "Type Infer", "<code class=\"xref py py-mod docutils literal notranslate\"><span class=\"pre\">Infer</span></code>"], "terms": {"The": [0, 1, 2, 4], "modul": [0, 1, 2, 4], "contain": [0, 4], "main": [0, 4], "abstract": 0, "us": [0, 2, 3], "throughout": 0, "packag": [0, 3], "class": [0, 1], "typeinform": [0, 3], "sourc": [0, 1, 2], "For": 0, "dataset": [0, 3], "provid": 0, "inform": [0, 1], "column": [0, 1, 3], "type": [0, 2, 4], "how": [0, 1], "thei": [0, 1], "re": 0, "ani": 0, "other": [0, 2], "potenti": 0, "identifi": 0, "i": [0, 1, 2, 3], "gener": [0, 1, 3], "within": 0, "infer": [0, 1], "infer_typ": 0, "where": [0, 1, 3], "small": [0, 1], "sampl": 0, "each": [0, 3], "ar": [0, 1, 3], "evalu": 0, "custom": [0, 1], "framework": 0, "understand": 0, "what": 0, "kind": 0, "data": [0, 3, 4], "model": 0, "user": 0, "mai": [0, 1], "overrid": [0, 1], "recommend": [0, 3], "do": [0, 1, 3], "so": [0, 1, 3], "json": 0, "ai": 0, "config": 0, "file": [0, 3], "paramet": 0, "dtype": [0, 1, 3], "": [0, 3], "name": [0, 1], "associ": 0, "additional_info": 0, "possibl": [0, 1], "sub": 0, "categori": 0, "addit": [0, 2, 3], "descript": 0, "highli": [0, 1], "suspect": 0, "being": 0, "id": 0, "These": 0, "informat": 0, "valu": [0, 1, 2], "therefor": 0, "ignor": 0, "subsequ": [0, 1], "train": 0, "analysi": 0, "procedur": 0, "unless": 0, "manual": 0, "indic": [0, 1], "defin": 1, "all": [1, 2, 3], "can": [1, 2], "definit": 1, "current": 1, "support": 1, "numer": [1, 2], "should": [1, 3], "repres": 1, "form": 1, "number": [1, 2], "integ": [1, 2], "float": [1, 2], "quantiti": 1, "categor": 1, "label": 1, "discret": 1, "binari": 1, "tag": 1, "date": [1, 3], "time": 1, "seri": 1, "tempor": 1, "sequenti": 1, "datetim": 1, "text": 1, "consid": 1, "languag": 1, "short_text": 1, "rich_text": 1, "short": 1, "ha": [1, 2], "vocabulari": 1, "100": 1, "word": 1, "limit": 1, "charact": 1, "rich": 1, "anyth": 1, "greater": 1, "complex": 1, "requir": [1, 3], "techniqu": 1, "audio": 1, "video": 1, "imag": 1, "avail": 1, "experiment": 1, "arrai": 1, "sequenc": 1, "order": 1, "must": 1, "preserv": 1, "tsarrai": 1, "normal": 1, "transform": 1, "row": 1, "level": 1, "becaus": 1, "treat": 1, "miscellan": 1, "descriptor": 1, "includ": 1, "empti": 1, "an": [1, 2, 3], "explicitli": 1, "unknown": 1, "versu": 1, "invalid": 1, "implement": [1, 3], "here": [1, 3], "flag": 1, "treatment": 1, "process": 1, "you": 1, "welcom": [1, 3], "your": [1, 3], "own": [1, 3], "long": 1, "exist": 1, "altern": 1, "pleas": [1, 3], "edit": [1, 3], "part": 1, "preprocess": 1, "pipelin": 1, "correctli": 1, "want": [1, 3], "deal": 1, "method": 2, "codebas": 2, "cast_string_to_python_typ": [2, 3], "string": 2, "return": 2, "none": 2, "from": [2, 3], "is_nan_numer": [2, 3], "determin": 2, "might": 2, "nan": 2, "inf": 2, "some": 2, "e": [2, 3], "which": [2, 3], "cast": 2, "actual": 2, "bool": 2, "releas": 3, "0": 3, "18": 3, "dec": 3, "25": 3, "2023": 3, "type_inf": 3, "document": 3, "python": 3, "aim": 3, "automat": 3, "tabular": 3, "follow": 3, "pip": 3, "we": 3, "abov": 3, "insid": 3, "newli": 3, "creat": 3, "virtual": 3, "clone": 3, "repositori": 3, "run": 3, "cd": 3, "add": 3, "path": 3, "g": 3, "ad": 3, "export": 3, "pythonpath": 3, "repo": 3, "newlin": 3, "end": 3, "bashrc": 3, "check": 3, "unit": 3, "test": 3, "pass": 3, "go": 3, "directori": 3, "m": 3, "unittest": 3, "discov": 3, "If": 3, "default": 3, "python2": 3, "x": 3, "python3": 3, "pip3": 3, "instead": 3, "work": 3, "panda": 3, "datafram": 3, "import": 3, "love": 3, "receiv": 3, "hear": 3, "opinion": 3, "make": 3, "easi": 3, "continu": 3, "read": 3, "thi": 3, "interest": 3, "improv": 3, "solv": 3, "issu": 3, "propos": 3, "new": 3, "discuss": 3, "submit": 3, "fix": 3, "let": 3, "know": 3, "went": 3, "In": 3, "fork": 3, "pull": 3, "git": 3, "workflow": 3, "step": 3, "checkout": 3, "stage": 3, "branch": 3, "develop": 3, "version": 3, "get": 3, "stabl": 3, "except": 3, "sure": 3, "ask": 3, "confirm": 3, "chang": 3, "commit": 3, "them": 3, "ci": 3, "suit": 3, "local": 3, "flake8": 3, "style": 3, "autom": 3, "doesn": 3, "t": 3, "guarante": 3, "remot": 3, "sinc": 3, "multipl": 3, "env": 3, "most": 3, "case": 3, "push": 3, "request": 3, "mindsdb": 3, "Be": 3, "merg": 3, "latest": 3, "befor": 3, "need": 3, "sign": 3, "cli": 3, "agreement": 3, "under": 3, "gpl": 3, "github": 3, "track": 3, "open": 3, "fill": 3, "out": 3, "input": 3, "pr": 3, "done": 3, "regular": 3, "basi": 3, "doe": 3, "address": 3, "previou": 3, "first": 3, "affect": 3, "perform": 3, "our": 3, "privat": 3, "benchmark": 3, "valid": 3, "respond": 3, "feedback": 3, "question": 3, "have": 3, "chat": 3, "core": 3, "team": 3, "join": 3, "To": 3, "updat": 3, "announc": 3, "event": 3, "monthli": 3, "newslett": 3, "mission": 3, "democrat": 3, "machin": 3, "learn": 3, "allow": 3, "becom": 3, "scientist": 3, "note": 3, "project": 3, "By": 3, "particip": 3, "agre": 3, "abid": 3, "its": 3, "term": 3, "base": 3, "helper": 3, "logic": 4, "ml": 4, "readi": 4}, "objects": {"": [[0, 0, 0, "-", "base"], [1, 0, 0, "-", "dtype"], [2, 0, 0, "-", "helpers"]], "base": [[0, 1, 1, "", "TypeInformation"]], "dtype": [[1, 1, 1, "", "dtype"]], "helpers": [[2, 2, 1, "", "cast_string_to_python_type"], [2, 2, 1, "", "is_nan_numeric"]]}, "objtypes": {"0": "py:module", "1": "py:class", "2": "py:function"}, "objnames": {"0": ["py", "module", "Python module"], "1": ["py", "class", "Python class"], "2": ["py", "function", "Python function"]}, "titleterms": {"base": 0, "data": 1, "type": [1, 3], "helper": 2, "infer": [3, 4], "quick": 3, "guid": 3, "instal": 3, "set": 3, "up": 3, "dev": 3, "environ": 3, "start": 3, "contribut": 3, "how": 3, "can": 3, "you": 3, "help": 3, "u": 3, "code": 3, "featur": 3, "bug": 3, "report": 3, "review": 3, "process": 3, "commun": 3, "contributor": 3, "conduct": 3, "licens": 3, "other": 3, "link": 3}, "envversion": {"sphinx.domains.c": 2, "sphinx.domains.changeset": 1, "sphinx.domains.citation": 1, "sphinx.domains.cpp": 8, "sphinx.domains.index": 1, "sphinx.domains.javascript": 2, "sphinx.domains.math": 2, "sphinx.domains.python": 3, "sphinx.domains.rst": 2, "sphinx.domains.std": 2, "sphinx.ext.viewcode": 1, "nbsphinx": 4, "sphinx": 57}, "alltitles": {"Base": [[0, "base"]], "Data types": [[1, "data-types"]], "Helpers": [[2, "helpers"]], "Type Infer": [[3, "type-infer"]], "Quick Guide": [[3, "quick-guide"]], "Installation": [[3, "installation"]], "Setting up a dev environment": [[3, "setting-up-a-dev-environment"]], "Quick start": [[3, "quick-start"]], "Contributions": [[3, "contributions"]], "How can you help us?": [[3, "how-can-you-help-us"]], "Code contributions": [[3, "code-contributions"]], "Feature and Bug reports": [[3, "feature-and-bug-reports"]], "Code review process": [[3, "code-review-process"]], "Community": [[3, "community"]], "Contributor Code of Conduct": [[3, "contributor-code-of-conduct"]], "License": [[3, "license"]], "Other Links": [[3, "other-links"]], "Infer": [[4, "infer"]]}, "indexentries": {"typeinformation (class in base)": [[0, "base.TypeInformation"]], "base": [[0, "module-base"]], "module": [[0, "module-base"], [1, "module-dtype"], [2, "module-helpers"]], "dtype": [[1, "module-dtype"]], "dtype (class in dtype)": [[1, "dtype.dtype"]], "cast_string_to_python_type() (in module helpers)": [[2, "helpers.cast_string_to_python_type"]], "helpers": [[2, "module-helpers"]], "is_nan_numeric() (in module helpers)": [[2, "helpers.is_nan_numeric"]]}})
\ No newline at end of file