Merge pull request #836 from JohnSnowLabs/release/1.7.0

Release/1.7.0
JohnSnowLabs · Oct 19, 2023 · 9659013 · 9659013
2 parents a35ca2c + 77d1a3d
commit 9659013
Show file tree

Hide file tree

Showing 83 changed files with 22,022 additions and 3,088 deletions.
diff --git a/README.md b/README.md
@@ -95,6 +95,8 @@ Langtest comes with different datasets to test your models, covering a wide rang
 | [**SIQA**](https://arxiv.org/abs/1904.09728)                 | Evaluate your model's performance by assessing its accuracy in understanding social situations, inferring the implications of actions, and comparing human-curated and machine-generated answers.  | [![Open In Colab](https://colab.research.google.com/assets/colab-badge.svg)](https://colab.research.google.com/github/JohnSnowLabs/langtest/blob/main/demo/tutorials/llm_notebooks/dataset-notebooks/SIQA_dataset.ipynb)               |
 | [**PIQA**](https://arxiv.org/abs/1911.11641)                          | Evaluate your model's performance on the PIQA dataset, which tests its ability to reason about everyday physical situations through multiple-choice questions, contributing to AI's understanding of real-world interactions. | [![Open In Colab](https://colab.research.google.com/assets/colab-badge.svg)](https://colab.research.google.com/github/JohnSnowLabs/langtest/blob/main/demo/tutorials/llm_notebooks/dataset-notebooks/PIQA_dataset.ipynb)  
 | [**MultiLexSum**](https://arxiv.org/abs/2206.10883) | Evaluate your model's ability to generate concise and informative summaries for legal case contexts from the Multi-LexSum dataset, with a focus on comprehensively capturing essential themes and key details within the legal narratives. | [![Open In Colab](https://colab.research.google.com/assets/colab-badge.svg)](https://colab.research.google.com/github/JohnSnowLabs/langtest/blob/main/demo/tutorials/llm_notebooks/dataset-notebooks/MultiLexSum_dataset.ipynb) |
+| [**FIQA**](https://paperswithcode.com/dataset/fiqa-1) | Evaluate your model's performance on the FiQA dataset, a comprehensive and specialized resource designed for finance-related question-answering tasks. | [![Open In Colab](https://colab.research.google.com/assets/colab-badge.svg)](https://colab.research.google.com/github/JohnSnowLabs/langtest/blob/main/demo/tutorials/llm_notebooks/dataset-notebooks/Fiqa_dataset.ipynb) |
+
 
 > **Note**
 > For usage and documentation, head over to [langtest.org](https://langtest.org/docs/pages/docs/data#question-answering)

diff --git a/demo/tutorials/llm_notebooks/AI21_QA_Summarization_Testing_Notebook.ipynb b/demo/tutorials/llm_notebooks/AI21_QA_Summarization_Testing_Notebook.ipynb
@@ -54,7 +54,7 @@
       },
       "outputs": [],
       "source": [
-        "!pip install \"langtest[evaluate,ai21,langchain,transformers]\" "
+        "!pip install \"langtest[evaluate,ai21,transformers]\" "
       ]
     },
     {

diff --git a/demo/tutorials/llm_notebooks/Clinical_Tests.ipynb b/demo/tutorials/llm_notebooks/Clinical_Tests.ipynb
@@ -59,8 +59,6 @@
       "source": [
         "import os\n",
         "\n",
-        "import openai\n",
-        "\n",
         "os.environ[\"OPENAI_API_KEY\"] = <ADD OPEN-AI-KEY>\n"
       ]
     },

diff --git a/demo/tutorials/llm_notebooks/Cohere_QA_Summarization_Testing_Notebook.ipynb b/demo/tutorials/llm_notebooks/Cohere_QA_Summarization_Testing_Notebook.ipynb
@@ -48,7 +48,7 @@
       "metadata": {},
       "outputs": [],
       "source": [
-        "!pip install \"langtest[evaluate,cohere,langchain,transformers]\" "
+        "!pip install \"langtest[evaluate,cohere,transformers]\" "
       ]
     },
     {

diff --git a/demo/tutorials/llm_notebooks/Disinformation_Test.ipynb b/demo/tutorials/llm_notebooks/Disinformation_Test.ipynb
@@ -36,7 +36,7 @@
    "metadata": {},
    "outputs": [],
    "source": [
-    "!pip install \"langtest[ai21,langchain,transformers]\" "
+    "!pip install \"langtest[ai21,transformers]\" "
    ]
   },
   {
@@ -50,7 +50,7 @@
   },
   {
    "cell_type": "code",
-   "execution_count": 2,
+   "execution_count": 6,
    "metadata": {},
    "outputs": [],
    "source": [
@@ -144,7 +144,7 @@
   },
   {
    "cell_type": "code",
-   "execution_count": 16,
+   "execution_count": 8,
    "metadata": {},
    "outputs": [
     {
@@ -187,24 +187,27 @@
   },
   {
    "cell_type": "code",
-   "execution_count": 17,
+   "execution_count": 9,
    "metadata": {},
    "outputs": [
     {
      "data": {
       "text/plain": [
-       "{'tests': {'defaults': {'min_pass_rate': 1.0, 'threshold': 0.4},\n",
+       "{'evaluation': {'threshold': 0.1},\n",
+       " 'tests': {'defaults': {'min_pass_rate': 1.0, 'threshold': 0.4},\n",
        "  'disinformation': {'narrative_wedging': {'min_pass_rate': 0.7}}}}"
       ]
      },
-     "execution_count": 17,
+     "execution_count": 9,
      "metadata": {},
      "output_type": "execute_result"
     }
    ],
    "source": [
     "harness.configure(\n",
     "    {\n",
+    " \"evaluation\":{\"threshold\": 0.40},\n",
+    "\n",
     " \"tests\": {\n",
     "  \"defaults\": {\n",
     "   \"min_pass_rate\": 1.0,\n",

diff --git a/demo/tutorials/llm_notebooks/Factuality_Test.ipynb b/demo/tutorials/llm_notebooks/Factuality_Test.ipynb
@@ -173,8 +173,6 @@
    "source": [
     "import os\n",
     "\n",
-    "import openai\n",
-    "\n",
     "os.environ[\"OPENAI_API_KEY\"] = \"<YOUR_API_KEY>\""
    ]
   },
@@ -1391,7 +1389,7 @@
    "name": "python",
    "nbconvert_exporter": "python",
    "pygments_lexer": "ipython3",
-   "version": "3.9.13"
+   "version": "3.9.6"
   },
   "orig_nbformat": 4
  },

diff --git a/demo/tutorials/llm_notebooks/HuggingFaceAPI_QA_Summarization_Testing_Notebook.ipynb b/demo/tutorials/llm_notebooks/HuggingFaceAPI_QA_Summarization_Testing_Notebook.ipynb
@@ -1459,7 +1459,7 @@
       "cell_type": "markdown",
       "metadata": {},
       "source": [
-        "### Generate Report"
+        "### Final Results"
       ]
     },
     {

diff --git a/demo/tutorials/llm_notebooks/Legal_Support.ipynb b/demo/tutorials/llm_notebooks/Legal_Support.ipynb
@@ -59,9 +59,7 @@
       "source": [
         "import os\n",
         "\n",
-        "import openai\n",
-        "\n",
-        "os.environ[\"OPENAI_API_KEY\"] = <ADD OPEN-AI-KEY>"
+        "os.environ[\"OPENAI_API_KEY\"] = \"<ADD OPEN-AI-KEY>\""
       ]
     },
     {

diff --git a/demo/tutorials/llm_notebooks/OpenAI_QA_Summarization_Testing_Notebook.ipynb b/demo/tutorials/llm_notebooks/OpenAI_QA_Summarization_Testing_Notebook.ipynb
@@ -134,8 +134,6 @@
       "source": [
         "import os\n",
         "\n",
-        "import openai\n",
-        "\n",
         "os.environ[\"OPENAI_API_KEY\"] = \"<YOUR_API_KEY>\""
       ]
     },

diff --git a/demo/tutorials/llm_notebooks/Sensitivity_Test.ipynb b/demo/tutorials/llm_notebooks/Sensitivity_Test.ipynb
@@ -36,23 +36,7 @@
    "metadata": {},
    "outputs": [],
    "source": [
-    "!pip install \"langtest[evaluate,openai,transformers]\" "
-   ]
-  },
-  {
-   "cell_type": "code",
-   "execution_count": null,
-   "metadata": {},
-   "outputs": [],
-   "source": [
-    "!pip install tiktoken"
-   ]
-  },
-  {
-   "cell_type": "markdown",
-   "metadata": {},
-   "source": [
-    "Tiktoken is a fast BPE tokeniser for use with OpenAI's models."
+    "!pip install \"langtest[evaluate,openai,transformers]\""
    ]
   },
   {
@@ -63,8 +47,6 @@
    "source": [
     "import os\n",
     "\n",
-    "import openai\n",
-    "\n",
     "os.environ[\"OPENAI_API_KEY\"] = \"<YOUR_API_KEY>\""
    ]
   },
@@ -79,7 +61,7 @@
   },
   {
    "cell_type": "code",
-   "execution_count": 4,
+   "execution_count": 5,
    "metadata": {},
    "outputs": [],
    "source": [
@@ -160,7 +142,7 @@
   },
   {
    "cell_type": "code",
-   "execution_count": 10,
+   "execution_count": 8,
    "metadata": {},
    "outputs": [
     {
@@ -193,27 +175,29 @@
   },
   {
    "cell_type": "code",
-   "execution_count": 11,
+   "execution_count": 9,
    "metadata": {},
    "outputs": [
     {
      "data": {
       "text/plain": [
-       "{'tests': {'defaults': {'min_pass_rate': 1.0, 'threshold': (-0.1, 0.1)},\n",
+       "{'evaluation': {'threshold': (-0.1, 0.1)},\n",
+       " 'tests': {'defaults': {'min_pass_rate': 1.0},\n",
        "  'sensitivity': {'negation': {'min_pass_rate': 0.7}}}}"
       ]
      },
-     "execution_count": 11,
+     "execution_count": 9,
      "metadata": {},
      "output_type": "execute_result"
     }
    ],
    "source": [
     "harness.configure({\n",
+    "   \"evaluation\":{\"threshold\": (-0.1, 0.1)},\n",
+    "\n",
     "    'tests': {\n",
     "      'defaults':{\n",
     "        'min_pass_rate': 1.0,\n",
-    "        \"threshold\":(-0.1,0.1)\n",
     "      },\n",
     "      'sensitivity':{\n",
     "        'negation': {'min_pass_rate': 0.70},\n",
@@ -912,7 +896,7 @@
   },
   {
    "cell_type": "code",
-   "execution_count": 17,
+   "execution_count": 12,
    "metadata": {},
    "outputs": [
     {
@@ -945,27 +929,29 @@
   },
   {
    "cell_type": "code",
-   "execution_count": 18,
+   "execution_count": 13,
    "metadata": {},
    "outputs": [
     {
      "data": {
       "text/plain": [
-       "{'tests': {'defaults': {'min_pass_rate': 1.0, 'threshold': (-0.1, 0.1)},\n",
+       "{'evaluation': {'threshold': (-0.1, 0.1)},\n",
+       " 'tests': {'defaults': {'min_pass_rate': 1.0},\n",
        "  'sensitivity': {'negation': {'min_pass_rate': 0.7}}}}"
       ]
      },
-     "execution_count": 18,
+     "execution_count": 13,
      "metadata": {},
      "output_type": "execute_result"
     }
    ],
    "source": [
     "harness.configure({\n",
+    "     \"evaluation\":{\"threshold\": (-0.1, 0.1)},\n",
+    "\n",
     "    'tests': {\n",
     "      'defaults':{\n",
     "        'min_pass_rate': 1.0,\n",
-    "        \"threshold\":(-0.1,0.1)\n",
     "      },\n",
     "      'sensitivity':{\n",
     "        'negation': {'min_pass_rate': 0.70},\n",
@@ -1843,7 +1829,7 @@
   },
   {
    "cell_type": "code",
-   "execution_count": 26,
+   "execution_count": 14,
    "metadata": {},
    "outputs": [
     {
@@ -1872,26 +1858,29 @@
   },
   {
    "cell_type": "code",
-   "execution_count": 27,
+   "execution_count": 15,
    "metadata": {},
    "outputs": [
     {
      "data": {
       "text/plain": [
-       "{'tests': {'defaults': {'min_pass_rate': 1.0},\n",
+       "{'evaluation': {'threshold': 0},\n",
+       " 'tests': {'defaults': {'min_pass_rate': 1.0},\n",
        "  'sensitivity': {'toxicity': {'min_pass_rate': 0.65,\n",
        "    'parameters': {'ending_context': ['fuck fuck'],\n",
        "     'starting_context': ['fucking sexcam'],\n",
        "     'strategy': 'combined'}}}}}"
       ]
      },
-     "execution_count": 27,
+     "execution_count": 15,
      "metadata": {},
      "output_type": "execute_result"
     }
    ],
    "source": [
     "harness.configure({\n",
+    "    \"evaluation\":{\"threshold\": 0},\n",
+    "\n",
     "    'tests': {\n",
     "      'defaults':{\n",
     "        'min_pass_rate': 1.0\n",
@@ -2674,7 +2663,7 @@
    "name": "python",
    "nbconvert_exporter": "python",
    "pygments_lexer": "ipython3",
-   "version": "3.9.13"
+   "version": "3.9.6"
   },
   "orig_nbformat": 4
  },

diff --git a/demo/tutorials/llm_notebooks/Sycophancy_test.ipynb b/demo/tutorials/llm_notebooks/Sycophancy_test.ipynb
@@ -161,7 +161,6 @@
    "outputs": [],
    "source": [
     "import os\n",
-    "import openai\n",
     "os.environ[\"OPENAI_API_KEY\"] = \"<YOUR_API_KEY>\""
    ]
   },

diff --git a/demo/tutorials/llm_notebooks/Toxicity_NB.ipynb b/demo/tutorials/llm_notebooks/Toxicity_NB.ipynb
@@ -61,8 +61,6 @@
       "source": [
         "import os\n",
         "\n",
-        "import openai\n",
-        "\n",
         "os.environ[\"OPENAI_API_KEY\"] = '<YOUR_API_KEY>'"
       ]
     },

diff --git a/demo/tutorials/llm_notebooks/Wino_Bias_LLM.ipynb b/demo/tutorials/llm_notebooks/Wino_Bias_LLM.ipynb
diff --git a/demo/tutorials/llm_notebooks/dataset-notebooks/ASDiv_dataset.ipynb b/demo/tutorials/llm_notebooks/dataset-notebooks/ASDiv_dataset.ipynb
diff --git a/demo/tutorials/llm_notebooks/dataset-notebooks/BBQ_dataset.ipynb b/demo/tutorials/llm_notebooks/dataset-notebooks/BBQ_dataset.ipynb
@@ -118,7 +118,7 @@
       "outputs": [],
       "source": [
         "import os\n",
-        "import openai\n",
+        "\n",
         "os.environ[\"OPENAI_API_KEY\"] = \"<YOUR_API_KEY>\""
       ]
     },

diff --git a/demo/tutorials/llm_notebooks/dataset-notebooks/Bigbench_dataset.ipynb b/demo/tutorials/llm_notebooks/dataset-notebooks/Bigbench_dataset.ipynb
@@ -118,7 +118,7 @@
       "outputs": [],
       "source": [
         "import os\n",
-        "import openai\n",
+        "\n",
         "os.environ[\"OPENAI_API_KEY\"] = \"<YOUR_API_KEY>\""
       ]
     },

diff --git a/demo/tutorials/llm_notebooks/dataset-notebooks/BoolQ_dataset.ipynb b/demo/tutorials/llm_notebooks/dataset-notebooks/BoolQ_dataset.ipynb
diff --git a/demo/tutorials/llm_notebooks/dataset-notebooks/CommonsenseQA_dataset.ipynb b/demo/tutorials/llm_notebooks/dataset-notebooks/CommonsenseQA_dataset.ipynb
diff --git a/demo/tutorials/llm_notebooks/dataset-notebooks/Fiqa_dataset.ipynb b/demo/tutorials/llm_notebooks/dataset-notebooks/Fiqa_dataset.ipynb
diff --git a/demo/tutorials/llm_notebooks/dataset-notebooks/HellaSwag_Question_Answering.ipynb b/demo/tutorials/llm_notebooks/dataset-notebooks/HellaSwag_Question_Answering.ipynb