add preprocessing steps

2025-02-27 13:13:29 +01:00 · 2025-02-27 13:13:29 +01:00 · 5e5486fe53
commit 5e5486fe53
parent 83d0691d67
6 changed files with 136 additions and 8 deletions
--- a/src/delta_barth/analysis/forecast.py
+++ b/src/delta_barth/analysis/forecast.py
@ -1,19 +1,34 @@
 from __future__ import annotations
 import dataclasses as dc
 from collections.abc import Mapping, Set
 from typing import TYPE_CHECKING
 import pandas as pd
 from sklearn.metrics import mean_squared_error
 from xgboost import XGBRegressor
 from delta_barth.analysis import parse
 from delta_barth.constants import COL_MAP_SALES_PROGNOSIS, FEATURES_SALES_PROGNOSIS
 from delta_barth.types import CustomerDataSalesForecast, FcErrorCodes
 if TYPE_CHECKING:
    from delta_barth.api.common import SalesPrognosisResponse
    from delta_barth.types import FcResult
 # TODO check pandera for DataFrame validation
 def parse_api_resp_to_df(
    resp: SalesPrognosisResponse,
 ) -> pd.DataFrame:
    if resp.error is not None:
        raise ValueError("Response contains error code. Parsing aborted.")
    data = resp.model_dump()["daten"]
    return pd.DataFrame(data)
 # ------------------------------------------------------------------------------
 # Input:
 #   DataFrame df mit Columns f_umsatz_fakt, firmen, art, v_warengrp
@ -28,8 +43,22 @@ if TYPE_CHECKING:
 # Prognose Umsatz je Firma
 # TODO: check usage of separate exception and handle it in API function
 # TODO set min number of data points as constant, not parameter
 def preprocess_sales_per_customer(
    resp: SalesPrognosisResponse,
    feature_map: Mapping[str, str],
    target_features: Set[str],
 ) -> pd.DataFrame:
    df = parse_api_resp_to_df(resp)
    df = parse.preprocess_features(
        df,
        feature_map=feature_map,
        target_features=target_features,
    )
    return df
 def sales_per_customer(
--- a/src/delta_barth/analysis/parse.py
+++ b/src/delta_barth/analysis/parse.py
@ -9,9 +9,9 @@ if TYPE_CHECKING:
    import pandas as pd
-def check_needed_features(
+def _check_needed_features(
    data: pd.DataFrame,
-    features: Set,
+    features: Set[str],
 ) -> None:
    data_feats = set(data.columns)
    missing_features = features - data_feats
@ -23,10 +23,11 @@ def check_needed_features(
        )
-def map_features_to_targets(
+def _map_features_to_targets(
    data: pd.DataFrame,
    feature_map: Mapping[str, str],
 ) -> pd.DataFrame:
    data = data.copy()
    data_feats = data.columns
    mapped_feats: list[str] = []
@ -39,3 +40,14 @@ def map_features_to_targets(
    data.columns = mapped_feats
    return data
 def preprocess_features(
    data: pd.DataFrame,
    feature_map: Mapping[str, str],
    target_features: Set[str],
 ) -> pd.DataFrame:
    data = _map_features_to_targets(data, feature_map)
    _check_needed_features(data, target_features)
    return data
--- a/tests/_test_data/exmp_sales_prognosis_resp.pkl
+++ b/tests/_test_data/exmp_sales_prognosis_resp.pkl
--- a/tests/analysis/test_forecast.py
+++ b/tests/analysis/test_forecast.py
@ -1,3 +1,5 @@
 import pytest
 from delta_barth.analysis import forecast as fc
@ -15,3 +17,44 @@ def test_sales_per_customer_too_few_data_points(sales_data):
    assert err == 1
    assert res is None
 def test_parse_api_resp_to_df(exmpl_api_sales_prognosis_resp):
    resp = exmpl_api_sales_prognosis_resp
    df = fc.parse_api_resp_to_df(resp)
    features = set(
        (
            "artikelId",
            "warengruppeId",
            "firmaId",
            "betrag",
            "menge",
            "buchungsDatum",
        )
    )
    assert all(col in features for col in df.columns)
 def test_preprocess_sales_per_customer(exmpl_api_sales_prognosis_resp):
    resp = exmpl_api_sales_prognosis_resp
    feat_mapping: dict[str, str] = {
        "artikelId": "artikel_refid",
        "firmaId": "firma_refid",
        "betrag": "betrag",
        "menge": "menge",
        "buchungsDatum": "buchungs_datum",
    }
    target_features: frozenset[str] = frozenset(
        (
            "firma_refid",
            "betrag",
            "buchungs_datum",
        )
    )
    df = fc.preprocess_sales_per_customer(
        resp,
        feature_map=feat_mapping,
        target_features=target_features,
    )
    assert len(df.columns) == 5
    assert any(feat not in df.columns for feat in feat_mapping.keys())
--- a/tests/analysis/test_parse.py
+++ b/tests/analysis/test_parse.py
@ -1,7 +1,7 @@
 import pandas as pd
 import pytest
-from delta_barth.analysis import parse
+from delta_barth.analysis import forecast, parse
 from delta_barth.errors import FeaturesMissingError
@ -10,12 +10,12 @@ def test_check_needed_features():
    data = pd.DataFrame(
        data=[[1, 2, 3, 4, 5]], columns=["feat1", "feat2", "feat3", "feat4", "feat5"]
    )
-    parse.check_needed_features(data, target_features)
+    parse._check_needed_features(data, target_features)
    data = pd.DataFrame(
        data=[[1, 2, 3, 4, 5]], columns=["featX", "feat2", "feat3", "feat4", "feat5"]
    )
    with pytest.raises(FeaturesMissingError):
-        parse.check_needed_features(data, target_features)
+        parse._check_needed_features(data, target_features)
 def test_map_features_to_targets():
@ -23,7 +23,7 @@ def test_map_features_to_targets():
    data = pd.DataFrame(
        data=[[1, 2, 3, 4, 5]], columns=["feat1", "feat2", "feat3", "feat4", "feat5"]
    )
-    data = parse.map_features_to_targets(data, feature_map)
+    data = parse._map_features_to_targets(data, feature_map)
    assert "feat10" in data.columns
    assert "feat20" in data.columns
    assert "feat50" in data.columns
@ -32,3 +32,28 @@ def test_map_features_to_targets():
    assert "feat1" not in data.columns
    assert "feat2" not in data.columns
    assert "feat5" not in data.columns
 def test_preprocess_features(exmpl_api_sales_prognosis_resp):
    resp = exmpl_api_sales_prognosis_resp
    df = forecast.parse_api_resp_to_df(resp)
    feat_mapping: dict[str, str] = {
        "artikelId": "artikel_refid",
        "firmaId": "firma_refid",
        "betrag": "betrag",
        "menge": "menge",
        "buchungsDatum": "buchungs_datum",
    }
    target_features: frozenset[str] = frozenset(
        (
            "firma_refid",
            "betrag",
            "buchungs_datum",
        )
    )
    assert all(feat in df.columns for feat in feat_mapping.keys())
    data = parse.preprocess_features(df, feat_mapping, target_features)
    assert len(data.columns) == len(df.columns)
    assert (data.columns != df.columns).any()
    assert any(feat not in data.columns for feat in feat_mapping.keys())
--- a/tests/conftest.py
+++ b/tests/conftest.py
@ -1,10 +1,16 @@
 from __future__ import annotations
 import pickle
 import tomllib
 from pathlib import Path
-from typing import Any, cast
+from typing import TYPE_CHECKING, Any, cast
 import pandas as pd
 import pytest
 if TYPE_CHECKING:
    from delta_barth.api.common import SalesPrognosisResponse
@pytest.fixture(scope="session")
 def credentials() -> dict[str, str]:
@ -56,3 +62,16 @@ def sales_data() -> pd.DataFrame:
    data["buchungs_datum"] = pd.to_datetime(data["buchungs_datum"])
    return data
@pytest.fixture(scope="session")
 def exmpl_api_sales_prognosis_resp() -> SalesPrognosisResponse:
    pwd = Path.cwd()
    assert "barth" in pwd.parent.name.lower(), "not in project root directory"
    data_pth = pwd / "./tests/_test_data/exmp_sales_prognosis_resp.pkl"
    assert data_pth.exists(), "file to API sales data not found"
    with open(data_pth, "rb") as file:
        data = cast("SalesPrognosisResponse", pickle.load(file))
    return data