From aa8c9e16eb6a92f2cf1028a517247fd3e62b23f3 Mon Sep 17 00:00:00 2001
From: Minura Punchihewa <minurapunchihewa17@gmail.com>
Date: Mon, 14 Oct 2024 19:20:14 +0530
Subject: [PATCH] moved tests to the kedro_datasets_experimental pkg

---
 .../tests/databricks/__init__.py              |   0
 .../tests/databricks/conftest.py              | 200 ++++++++++++++++++
 .../databricks/test_external_table_dataset.py |   0
 3 files changed, 200 insertions(+)
 create mode 100644 kedro-datasets/kedro_datasets_experimental/tests/databricks/__init__.py
 create mode 100644 kedro-datasets/kedro_datasets_experimental/tests/databricks/conftest.py
 rename kedro-datasets/{ => kedro_datasets_experimental}/tests/databricks/test_external_table_dataset.py (100%)

diff --git a/kedro-datasets/kedro_datasets_experimental/tests/databricks/__init__.py b/kedro-datasets/kedro_datasets_experimental/tests/databricks/__init__.py
new file mode 100644
index 000000000..e69de29bb
diff --git a/kedro-datasets/kedro_datasets_experimental/tests/databricks/conftest.py b/kedro-datasets/kedro_datasets_experimental/tests/databricks/conftest.py
new file mode 100644
index 000000000..6984faabb
--- /dev/null
+++ b/kedro-datasets/kedro_datasets_experimental/tests/databricks/conftest.py
@@ -0,0 +1,200 @@
+"""
+This file contains the fixtures that are reusable by any tests within
+this directory. You don't need to import the fixtures as pytest will
+discover them automatically. More info here:
+https://docs.pytest.org/en/latest/fixture.html
+"""
+import os
+
+# importlib_metadata needs backport for python 3.8 and older
+import importlib_metadata
+import pandas as pd
+import pytest
+from pyspark.sql import SparkSession
+from pyspark.sql.types import IntegerType, StringType, StructField, StructType
+
+DELTA_VERSION = importlib_metadata.version("delta-spark")
+
+
+@pytest.fixture(scope="class", autouse=True)
+def spark_session():
+    spark = (
+        SparkSession.builder.appName("test")
+        .config("spark.jars.packages", f"io.delta:delta-core_2.12:{DELTA_VERSION}")
+        .config("spark.sql.extensions", "io.delta.sql.DeltaSparkSessionExtension")
+        .config(
+            "spark.sql.catalog.spark_catalog",
+            "org.apache.spark.sql.delta.catalog.DeltaCatalog",
+        )
+        .getOrCreate()
+    )
+    spark.sql("create database if not exists test")
+    yield spark
+    spark.sql("drop database test cascade;")
+
+
+@pytest.fixture
+def sample_spark_df(spark_session: SparkSession):
+    schema = StructType(
+        [
+            StructField("name", StringType(), True),
+            StructField("age", IntegerType(), True),
+        ]
+    )
+
+    data = [("Alex", 31), ("Bob", 12), ("Clarke", 65), ("Dave", 29)]
+
+    return spark_session.createDataFrame(data, schema)
+
+
+@pytest.fixture
+def upsert_spark_df(spark_session: SparkSession):
+    schema = StructType(
+        [
+            StructField("name", StringType(), True),
+            StructField("age", IntegerType(), True),
+        ]
+    )
+
+    data = [("Alex", 32), ("Evan", 23)]
+
+    return spark_session.createDataFrame(data, schema)
+
+
+@pytest.fixture
+def mismatched_upsert_spark_df(spark_session: SparkSession):
+    schema = StructType(
+        [
+            StructField("name", StringType(), True),
+            StructField("age", IntegerType(), True),
+            StructField("height", IntegerType(), True),
+        ]
+    )
+
+    data = [("Alex", 32, 174), ("Evan", 23, 166)]
+
+    return spark_session.createDataFrame(data, schema)
+
+
+@pytest.fixture
+def subset_spark_df(spark_session: SparkSession):
+    schema = StructType(
+        [
+            StructField("name", StringType(), True),
+            StructField("age", IntegerType(), True),
+            StructField("height", IntegerType(), True),
+        ]
+    )
+
+    data = [("Alex", 32, 174), ("Evan", 23, 166)]
+
+    return spark_session.createDataFrame(data, schema)
+
+
+@pytest.fixture
+def subset_pandas_df():
+    return pd.DataFrame(
+        {"name": ["Alex", "Evan"], "age": [32, 23], "height": [174, 166]}
+    )
+
+
+@pytest.fixture
+def subset_expected_df(spark_session: SparkSession):
+    schema = StructType(
+        [
+            StructField("name", StringType(), True),
+            StructField("age", IntegerType(), True),
+        ]
+    )
+
+    data = [("Alex", 32), ("Evan", 23)]
+
+    return spark_session.createDataFrame(data, schema)
+
+
+@pytest.fixture
+def sample_pandas_df():
+    return pd.DataFrame(
+        {"name": ["Alex", "Bob", "Clarke", "Dave"], "age": [31, 12, 65, 29]}
+    )
+
+
+@pytest.fixture
+def append_spark_df(spark_session: SparkSession):
+    schema = StructType(
+        [
+            StructField("name", StringType(), True),
+            StructField("age", IntegerType(), True),
+        ]
+    )
+
+    data = [("Evan", 23), ("Frank", 13)]
+
+    return spark_session.createDataFrame(data, schema)
+
+
+@pytest.fixture
+def expected_append_spark_df(spark_session: SparkSession):
+    schema = StructType(
+        [
+            StructField("name", StringType(), True),
+            StructField("age", IntegerType(), True),
+        ]
+    )
+
+    data = [
+        ("Alex", 31),
+        ("Bob", 12),
+        ("Clarke", 65),
+        ("Dave", 29),
+        ("Evan", 23),
+        ("Frank", 13),
+    ]
+
+    return spark_session.createDataFrame(data, schema)
+
+
+@pytest.fixture
+def expected_upsert_spark_df(spark_session: SparkSession):
+    schema = StructType(
+        [
+            StructField("name", StringType(), True),
+            StructField("age", IntegerType(), True),
+        ]
+    )
+
+    data = [
+        ("Alex", 32),
+        ("Bob", 12),
+        ("Clarke", 65),
+        ("Dave", 29),
+        ("Evan", 23),
+    ]
+
+    return spark_session.createDataFrame(data, schema)
+
+
+@pytest.fixture
+def expected_upsert_multiple_primary_spark_df(spark_session: SparkSession):
+    schema = StructType(
+        [
+            StructField("name", StringType(), True),
+            StructField("age", IntegerType(), True),
+        ]
+    )
+
+    data = [
+        ("Alex", 31),
+        ("Alex", 32),
+        ("Bob", 12),
+        ("Clarke", 65),
+        ("Dave", 29),
+        ("Evan", 23),
+    ]
+
+    return spark_session.createDataFrame(data, schema)
+
+
+@pytest.fixture
+def external_location():
+    return os.environ.get("DATABRICKS_EXTERNAL_LOCATION")
diff --git a/kedro-datasets/tests/databricks/test_external_table_dataset.py b/kedro-datasets/kedro_datasets_experimental/tests/databricks/test_external_table_dataset.py
similarity index 100%
rename from kedro-datasets/tests/databricks/test_external_table_dataset.py
rename to kedro-datasets/kedro_datasets_experimental/tests/databricks/test_external_table_dataset.py