latest analysis

2026-05-07 11:22:04 +02:00
parent d5546b7fd0
commit 2397f23385
2 changed files with 133 additions and 118 deletions
--- a/prototypes/01_dataset_transform.py
+++ b/prototypes/01_dataset_transform.py
@@ -2,13 +2,9 @@
 import json
 import pprint
 from collections import Counter
 from datetime import datetime
 from pathlib import Path
 from zoneinfo import ZoneInfo
 import pandas as pd
 import polars as pl
 from scipy import stats
 # %%
 p_data_base = (Path.cwd() / "../data/Datenauszug_20251212").resolve()
@@ -134,117 +130,3 @@ if WRITE_TO_DISK:
    df.write_parquet(concat_data)
 else:
    df = pl.read_parquet(concat_data)
 # %%
 print(f"Number of entries in data: {len(df)}")
 print(f"Number of curves in data: {len(df.select('id').unique())}")
 df.head()
 # %%
 # valid ps = 101, 102, 110
 # filter all entries which contain invalid error states
 invalid_ids = df.filter(~pl.col("ps").is_in((101, 102, 110))).select("id").unique()
 print(f"Number of invalid IDs: {len(invalid_ids)}")
 df = df.filter(~pl.col("id").is_in(invalid_ids["id"].implode()))
 print(f"Number of curves in data after cleansing: {len(df.select('id').unique())}")
 # sort chronologically
 df = df.sort(by=["id", "ts"], descending=[False, False])
 # %%
 # filter for relevant type number with maximum number of entries
 TARGET_TYPE_NUM = 2
 df = df.filter(pl.col.type_num == TARGET_TYPE_NUM)
 print(f"Number of entries for type num {TARGET_TYPE_NUM}: {len(df)}")
 print(f"Number of curves in data: {len(df.select('id').unique())}")
 # %%
 current_time = datetime.now(tz=ZoneInfo("UTC"))
 df_reconst = df.with_columns(
    (pl.col.ts_delta_cum + pl.lit(current_time)).alias("reconstructed")
 )
 # %%
 df_reconst
 # %%
 collection = df_reconst.select(pl.col.id).unique().sort(by="id")["id"][:10]
 # %%
 series = df_reconst.filter(pl.col.id.is_in(collection))
 series
 # %%
 series.select(pl.exclude("ts_delta_step", "ts_delta_cum")).plot.line(
    x="reconstructed", y="DU1260"
 )
 # %%
 series.group_by("id").agg(pl.col("ts_delta_cum").max())
 # %%
 series.group_by("id").agg(pl.len())
 # ** simple stats
 # try to separate anomalies by time/duration
 # // "Duration Anomalies"
 # IQR
 durations = df_reconst.group_by("id").agg(pl.col("ts_delta_cum").max())
 durations = durations.with_columns(pl.col.ts_delta_cum.dt.total_microseconds())
 durations.head()
 FACTOR = 1.5
 iqr = stats.iqr(durations["ts_delta_cum"])
 quantiles = stats.quantile(durations["ts_delta_cum"], [0.25, 0.75])
 print(f"Quantiles (0.25, 0.75): {quantiles}")
 print(f"IQR: {iqr}")
 iqr_lb = max(iqr - FACTOR * quantiles[0], 0)
 iqr_ub = iqr + FACTOR * quantiles[1]
 print(f"Lower bound: {iqr_lb}")
 print(f"Upper bound: {iqr_ub}")
 durations.describe()
 # %%
 df_reconst.filter(pl.col.ps == 102).filter(
    pl.col.ts_delta_cum > pl.duration(microseconds=iqr_ub)
 )
 # %%
 filter_out_time = (
    df_reconst.filter(pl.col.ts_delta_cum > pl.duration(microseconds=iqr_ub))
    .select("id")
    .unique()
 )
 df_out_time = df_reconst.filter(pl.col.id.is_in(filter_out_time["id"].implode()))
 df_out_time
 # TODO calculate duration for each phase
 ids_out = df_out_time["id"].unique().implode()
 df_remain = df_reconst.filter(~pl.col.id.is_in(ids_out))
 df_remain
 # %%
 df_analyse = (
    df_remain.group_by("id")
    .agg(pl.len().alias("count"), pl.col("ts_delta_cum").max())
    .with_columns(
        (pl.col.count / pl.col.ts_delta_cum.dt.total_microseconds()).alias(
            "mean_sampling_rate"
        )
    )
 )
 # %%
 df_analyse.describe()
 # %%
 df_analyse2 = (
    df_reconst.group_by("id")
    .agg(pl.len().alias("count"), pl.col("ts_delta_cum").max())
    .with_columns(
        (pl.col.count / pl.col.ts_delta_cum.dt.total_microseconds()).alias(
            "mean_sampling_rate"
        )
    )
 )
 df_analyse2.describe()
 # %%
 df2
 # %%
 series
 # %%
 # %%
 series.head()
 # %%
 temp = df.filter(pl.col.id.is_in(collection))
 temp
 # %%
 temp = temp.with_columns((pl.col.ts_delta + pl.lit(current_time)).alias("reconstructed"))
 # %%
 temp
 # %%
--- a/prototypes/02_first_analyse.py
+++ b/prototypes/02_first_analyse.py
@@ -0,0 +1,133 @@
 # %%
 from datetime import datetime
 from pathlib import Path
 from zoneinfo import ZoneInfo
 import pandas as pd
 import polars as pl
 from scipy import stats
 # %%
 p_data_base = (Path.cwd() / "../data/Datenauszug_20251212").resolve()
 assert p_data_base.exists()
 print("Total number of JSON files")
 len(tuple(p_data_base.glob("**/*.json")))
 # %%
 concat_data = p_data_base / "all_data.parquet"
 df = pl.read_parquet(concat_data)
 # %%
 print(f"Number of entries in data: {len(df)}")
 print(f"Number of curves in data: {len(df.select('id').unique())}")
 df.head()
 # %%
 # valid ps = 101, 102, 110
 # filter all entries which contain invalid error states
 invalid_ids = df.filter(~pl.col("ps").is_in((101, 102, 110))).select("id").unique()
 print(f"Number of invalid IDs: {len(invalid_ids)}")
 df = df.filter(~pl.col("id").is_in(invalid_ids["id"].implode()))
 print(f"Number of curves in data after cleansing: {len(df.select('id').unique())}")
 # sort chronologically
 df = df.sort(by=["id", "ts"], descending=[False, False])
 # %%
 # filter for relevant type number with maximum number of entries
 TARGET_TYPE_NUM = 2
 df = df.filter(pl.col.type_num == TARGET_TYPE_NUM)
 print(f"Number of entries for type num {TARGET_TYPE_NUM}: {len(df)}")
 print(f"Number of curves in data: {len(df.select('id').unique())}")
 # %%
 current_time = datetime.now(tz=ZoneInfo("UTC"))
 df_reconst = df.with_columns(
    (pl.col.ts_delta_cum + pl.lit(current_time)).alias("reconstructed")
 )
 # %%
 df_reconst
 # %%
 collection = df_reconst.select(pl.col.id).unique().sort(by="id")["id"][:10]
 # %%
 series = df_reconst.filter(pl.col.id.is_in(collection))
 series
 # %%
 series.select(pl.exclude("ts_delta_step", "ts_delta_cum")).plot.line(
    x="reconstructed", y="DU1260"
 )
 # %%
 series.group_by("id").agg(pl.col("ts_delta_cum").max())
 # %%
 series.group_by("id").agg(pl.len())
 # ** simple stats
 # try to separate anomalies by time/duration
 # // "Duration Anomalies"
 # IQR
 durations = df_reconst.group_by("id").agg(pl.col("ts_delta_cum").max())
 durations = durations.with_columns(pl.col.ts_delta_cum.dt.total_microseconds())
 durations.head()
 FACTOR = 1.5
 iqr = stats.iqr(durations["ts_delta_cum"])
 quantiles = stats.quantile(durations["ts_delta_cum"], [0.25, 0.75])
 print(f"Quantiles (0.25, 0.75): {quantiles}")
 print(f"IQR: {iqr}")
 iqr_lb = max(iqr - FACTOR * quantiles[0], 0)
 iqr_ub = iqr + FACTOR * quantiles[1]
 print(f"Lower bound: {iqr_lb}")
 print(f"Upper bound: {iqr_ub}")
 durations.describe()
 # %%
 df_reconst.filter(pl.col.ps == 102).filter(
    pl.col.ts_delta_cum > pl.duration(microseconds=iqr_ub)
 )
 # %%
 filter_out_time = (
    df_reconst.filter(pl.col.ts_delta_cum > pl.duration(microseconds=iqr_ub))
    .select("id")
    .unique()
 )
 df_out_time = df_reconst.filter(pl.col.id.is_in(filter_out_time["id"].implode()))
 df_out_time
 # TODO calculate duration for each phase
 ids_out = df_out_time["id"].unique().implode()
 df_remain = df_reconst.filter(~pl.col.id.is_in(ids_out))
 df_remain
 # %%
 df_analyse = (
    df_remain.group_by("id")
    .agg(pl.len().alias("count"), pl.col("ts_delta_cum").max())
    .with_columns(
        (pl.col.count / (pl.col.ts_delta_cum.dt.total_microseconds() / 1e6)).alias(
            "mean_sampling_rate"
        )
    )
 )
 # %%
 df_analyse.describe()
 # %%
 df_analyse2 = (
    df_reconst.group_by("id")
    .agg(pl.len().alias("count"), pl.col("ts_delta_cum").max())
    .with_columns(
        (pl.col.count / (pl.col.ts_delta_cum.dt.total_microseconds() / 1e6)).alias(
            "mean_sampling_rate"
        )
    )
 )
 df_analyse2.describe()
 # %%
 df2
 # %%
 series
 # %%
 # %%
 series.head()
 # %%
 temp = df.filter(pl.col.id.is_in(collection))
 temp
 # %%
 temp = temp.with_columns((pl.col.ts_delta + pl.lit(current_time)).alias("reconstructed"))
 # %%
 temp
 # %%