enhanced pipeline functions

2026-06-08 15:42:26 +02:00
parent 4ce5fce0d9
commit 34ba005dde
2 changed files with 322 additions and 1 deletions
--- a/prototypes/03-1_check_db.py
+++ b/prototypes/03-1_check_db.py
@@ -0,0 +1,119 @@
+# %%
+import importlib
+from pathlib import Path
+
+import external_code
+import oracledb
+import polars as pl
+
+import wattanalyse
+from wattanalyse import constants
+
+importlib.reload(wattanalyse)
+importlib.reload(constants)
+# %%
+PROJECT_BASE = Path(__file__).parents[1]
+DATA_PTH = PROJECT_BASE / "data"
+assert DATA_PTH.exists()
+
+# %%
+conn = oracledb.connect(
+    user=constants.USER_CFG.Datenbank.NUTZER,
+    password=constants.USER_CFG.Datenbank.PASSWORT,
+    host=constants.USER_CFG.Datenbank.HOST,
+    port=constants.USER_CFG.Datenbank.PORT,
+    service_name=constants.USER_CFG.Datenbank.SERVICE_NAME,
+)
+
+# %%
+# // KPI_PRODUKTIONSAUFTRAEGE
+TABLE_NAME = "KPI_PRODUKTIONSAUFTRAEGE"
+prepared_oracle_pth = DATA_PTH / f"db/oracle_prepare_{TABLE_NAME}.arrow"
+assert prepared_oracle_pth.exists()
+df = pl.read_ipc(prepared_oracle_pth)
+
+# %%
+with conn.cursor() as cursor:
+    cursor.execute(f'SELECT * FROM "{TABLE_NAME}"')
+    data = cursor.fetchall()
+    columns = [desc[0] for desc in cursor.description]
+
+print("columns:", columns)
+print("data:", data)
+# %%
+# ** insert
+stmts = external_code.oracle_generate_sql_insert(TABLE_NAME, columns=df.columns)
+print(f"SQL DELETE: {stmts.delete}\nSQL Insert: {stmts.insert}")
+
+with conn.cursor() as cursor:
+    cursor.execute(stmts.delete)
+    cursor.executemany(stmts.insert, df)
+    conn.commit()
+
+# %%
+# ** read
+stmt = f"SELECT * FROM {TABLE_NAME}"
+odf = conn.fetch_df_all(statement=stmt)
+loaded_df = pl.from_arrow(odf)
+print(loaded_df)
+
+#############
+# %%
+# //
+TABLE_NAME = "KPI_KONFEKTIONAERE"
+prepared_oracle_pth = DATA_PTH / f"db/oracle_prepare_{TABLE_NAME}.arrow"
+assert prepared_oracle_pth.exists()
+df = pl.read_ipc(prepared_oracle_pth)
+
+# %%
+with conn.cursor() as cursor:
+    cursor.execute(f'SELECT * FROM "{TABLE_NAME}"')
+    data = cursor.fetchall()
+    columns = [desc[0] for desc in cursor.description]
+
+print("columns:", columns)
+print("data:", data)
+# %%
+# ** insert
+stmts = external_code.oracle_generate_sql_insert(TABLE_NAME, columns=df.columns)
+print(f"SQL DELETE: {stmts.delete}\nSQL Insert: {stmts.insert}")
+
+with conn.cursor() as cursor:
+    cursor.execute(stmts.delete)
+    cursor.executemany(stmts.insert, df)
+    conn.commit()
+
+# %%
+# ** read
+stmt = f"SELECT * FROM {TABLE_NAME}"
+odf = conn.fetch_df_all(statement=stmt)
+loaded_df = pl.from_arrow(odf)
+print(loaded_df)
+
+# %%
+df.height
+
+#####################################
+# %%
+columns = df.columns
+spalten_str = ", ".join([f'"{c}"' for c in columns])
+platzhalter_str = ", ".join([f":{i}" for i in range(1, len(columns) + 1)])
+
+table_name = "KPI_PRODUKTIONSAUFTRAEGE"
+sql_delete = f'DELETE FROM "{table_name}"'
+sql_insert = f'INSERT INTO "{table_name}" ({spalten_str}) VALUES ({platzhalter_str})'
+print(f"SQL DELETE: {sql_delete}\nSQL Insert: {sql_insert}")
+# %%
+with conn.cursor() as cursor:
+    cursor.execute(sql_delete)
+    # df_oracle_bereit wird direkt als Arrow-Stream an Oracle übergeben!
+    cursor.executemany(sql_insert, df)
+    conn.commit()
+
+# %%
+stmt = f"SELECT * FROM {table_name}"
+odf = conn.fetch_df_all(statement=stmt)
+pl_df = pl.from_arrow(odf)
+# %%
+pl_df
+# %%
--- a/prototypes/external_code.py
+++ b/prototypes/external_code.py
@@ -1,14 +1,19 @@
+from __future__ import annotations
+
 import dataclasses as dc
 import datetime
 import enum
 import json
-from typing import Any, Final
+from typing import TYPE_CHECKING, Any, Final, cast

 import polars as pl
 import sqlalchemy as sql

 from wattanalyse import db

+if TYPE_CHECKING:
+    from oracledb import Connection as OracleConnection
+
 # 1. cleanup obtained new data
 # ~~2. load data from internal database~~
 # ~~3. integrate with with new data (whole snapshot)~~
@@ -24,6 +29,12 @@ class PreProcessResult:
    filtered: pl.DataFrame


+@dc.dataclass(slots=True, kw_only=True)
+class SqlInsertStmts:
+    delete: str
+    insert: str
+
+
 class QualityPsm(enum.StrEnum):
    FEHLEND = enum.auto()
    UNPLAUSIBEL = enum.auto()
@@ -453,3 +464,194 @@ def load_order_level_from_internal_database() -> pl.DataFrame:
    }

    return data.with_columns(**list_col_parse_conds)
+
+
+# // (4) post-process results
+
+USE_BOUNDARIES: Final[bool] = False
+filter_date_deviation_early: pl.Expr
+filter_date_deviation_late: pl.Expr
+if USE_BOUNDARIES:
+    filter_date_deviation_early = pl.col("Terminunterschreitung")
+    filter_date_deviation_late = pl.col("Terminüberschreitung")
+else:
+    filter_date_deviation_early = pl.col("Terminabweichung_Anzahl_Tage") < 0
+    filter_date_deviation_late = pl.col("Terminabweichung_Anzahl_Tage") > 0
+
+
+def aggregate_production_orders(
+    data: pl.LazyFrame,
+) -> pl.LazyFrame:
+    data = data.select(
+        pl.col("Terminabweichung_Anzahl_Tage")
+        .filter(filter_date_deviation_early)
+        .mean()
+        .abs()
+        .round(mode="half_away_from_zero")
+        .cast(pl.Int64)
+        .alias("MITTLERE_ANZAHL_TAGE_LIEFERTERMINUNTERSCHREITUNG"),
+        pl.col("Terminabweichung_Anzahl_Tage")
+        .filter(filter_date_deviation_late)
+        .mean()
+        .abs()
+        .round(mode="half_away_from_zero")
+        .cast(pl.Int64)
+        .alias("MITTLERE_ANZAHL_TAGE_LIEFERTERMINUEBERSCHREITUNG"),
+        pl.col("Terminabweichung_Anzahl_Tage")
+        .std(ddof=1)
+        .alias("STANDARDABWEICHUNG_TAGE_LIEFERTERMINABWEICHUNG"),
+        pl.col("Import-Ist_Anzahl_Aenderungen")
+        .mean()
+        .abs()
+        .round(mode="half_away_from_zero")
+        .cast(pl.Int64)
+        .alias("MITTLERE_ANZAHL_ANPASSUNGEN_LIEFERTERMIN"),
+        pl.col("Tage_zu_letzter_PSM_Historie")
+        .list.explode()
+        .mean()
+        .abs()
+        .round(mode="half_away_from_zero")
+        .cast(pl.Int64)
+        .alias("MITTLERE_ABSTAENDE_ZWISCHEN_MELDUNGEN"),
+        pl.col("Durchlaufzeit_Anzahl_Tage")
+        .mean()
+        .round(mode="half_away_from_zero")
+        .cast(pl.Int64)
+        .alias("MITTLERE_DURCHLAUFZEIT_ANZAHL_TAGE"),
+    )
+
+    return data
+
+
+def aggregate_suppliers(
+    data: pl.LazyFrame,
+) -> pl.LazyFrame:
+    data = data.group_by("Konfektionär").agg(
+        (
+            (
+                ~(filter_date_deviation_early | filter_date_deviation_late)
+                & (pl.col("Import-Ist_Anzahl_Aenderungen") == 0)
+            ).mean()
+            * 100
+        )
+        .round(4, mode="half_away_from_zero")
+        .alias("QUOTE_ERSTBESTAETIGUNG"),
+        ((~(filter_date_deviation_early | filter_date_deviation_late)).mean() * 100)
+        .round(4, mode="half_away_from_zero")
+        .alias("PROZENT_LIEFERTREUE"),
+        (filter_date_deviation_early.mean() * 100)
+        .round(4, mode="half_away_from_zero")
+        .alias("ANTEIL_PROZENT_LIEFERTERMINUNTERSCHREITUNG"),
+        (filter_date_deviation_late.mean() * 100)
+        .round(4, mode="half_away_from_zero")
+        .alias("ANTEIL_PROZENT_LIEFERTERMINUEBERSCHREITUNG"),
+        pl.col("Terminabweichung_Anzahl_Tage")
+        .filter(filter_date_deviation_early)
+        .mean()
+        .abs()
+        .round(mode="half_away_from_zero")
+        .cast(pl.Int64)
+        .alias("MITTLERE_ANZAHL_TAGE_LIEFERTERMINUNTERSCHREITUNG"),
+        pl.col("Terminabweichung_Anzahl_Tage")
+        .filter(filter_date_deviation_late)
+        .mean()
+        .abs()
+        .round(mode="half_away_from_zero")
+        .cast(pl.Int64)
+        .alias("MITTLERE_ANZAHL_TAGE_LIEFERTERMINUEBERSCHREITUNG"),
+        pl.col("Terminabweichung_Anzahl_Tage")
+        .std(ddof=1)
+        .alias("STANDARDABWEICHUNG_TAGE_LIEFERTERMINABWEICHUNG"),
+        pl.col("Import-Ist_Anzahl_Aenderungen")
+        .mean()
+        .abs()
+        .round(mode="half_away_from_zero")
+        .cast(pl.Int64)
+        .alias("MITTLERE_ANZAHL_ANPASSUNGEN_LIEFERTERMIN"),
+        pl.col("Tage_zu_letzter_PSM_Historie")
+        .list.explode()
+        .mean()
+        .abs()
+        .round(mode="half_away_from_zero")
+        .cast(pl.Int64)
+        .alias("MITTLERE_ABSTAENDE_ZWISCHEN_MELDUNGEN"),
+        pl.col("Durchlaufzeit_Anzahl_Tage")
+        .mean()
+        .round(mode="half_away_from_zero")
+        .cast(pl.Int64)
+        .alias("MITTLERE_DURCHLAUFZEIT_ANZAHL_TAGE"),
+        pl.col("Prod-Qualitaet_Historie")
+        .list.explode()
+        .mean()
+        .round(4, mode="half_away_from_zero")
+        .alias("MITTLERER_QUALITAETSSCORE_PSM"),
+    )
+
+    return data
+
+
+# // (5) external database
+
+
+def oracle_prepare_KPI_aggregate(
+    data: pl.LazyFrame,
+    rename_schema: dict[str, str] | None = None,
+    sort_by: str = "",
+    sort_descending: bool = False,
+) -> pl.LazyFrame:
+    if rename_schema is not None:
+        data = data.rename(rename_schema)
+
+    cols_sorted = ["ID", "AKTUALISIERT_AM"] + [c for c in data.collect_schema().names()]
+
+    if sort_by:
+        data = data.sort(sort_by, descending=sort_descending)
+
+    data = data.with_row_index("ID", 1)
+    data = (
+        data.with_columns(
+            pl.lit(datetime.datetime.now()).alias("AKTUALISIERT_AM"),
+        )
+        .select(
+            pl.col(pl.Boolean).cast(pl.Int8),
+            pl.all().exclude(pl.Boolean),
+        )
+        .select(cols_sorted)
+    )
+
+    return data
+
+
+def oracle_generate_sql_insert(
+    table_name: str,
+    columns: list,
+) -> SqlInsertStmts:
+    spalten_str = ", ".join([f'"{c}"' for c in columns])
+    platzhalter_str = ", ".join([f":{i}" for i in range(1, len(columns) + 1)])
+
+    sql_delete = f'DELETE FROM "{table_name}"'
+    sql_insert = f'INSERT INTO "{table_name}" ({spalten_str}) VALUES ({platzhalter_str})'
+
+    return SqlInsertStmts(delete=sql_delete, insert=sql_insert)
+
+
+def oracle_load_table_as_polars(
+    conn: OracleConnection,
+    table_name: str,
+) -> pl.LazyFrame:
+    stmt = f"SELECT * FROM {table_name}"
+    odf = conn.fetch_df_all(statement=stmt)
+    df = cast(pl.DataFrame, pl.from_arrow(odf))
+
+    return df.lazy()
+
+
+def oracle_save_polars(
+    conn: OracleConnection,
+    stmts: SqlInsertStmts,
+    data: pl.DataFrame,
+) -> None:
+    with conn.cursor() as cursor:
+        cursor.execute(stmts.delete)
+        cursor.executemany(stmts.insert, data)
+        conn.commit()