# **Analyse 2**

## Strategie & Fokus

- Konzentration auf Export 4/5 (größste Datensätze)
    - jeder Datensatz gehört zu unterschiedlichem Kunden
    - dadurch: Abweichungen zwischen IDs und assoziierten Beschreibungen; OBjektID mehrfach vergeben

### Merkmal 1 - Vorgansgbeschreibungen:

- Analyse hinsichtlich möglicher Cluster in ``VorgangsBeschreibung``:
    - evtl. Ableitung standardisierter, auswählbarer Beschreibungen
    - typische Begriffe und wiederholendes Auftreten
- Zusatzinformation über ``VorgangsArtText``:
    - teilweise standardisiert
    - *Verbindung zu ``VorgangsBeschreibung`` semantisch korrekt?*
- Zusatzinformation ``VorgangsTypName`` mit ``VorgangsTypID``:
    - definitiv standardisiert
    - *Anzahl einzigartiger Typen?*

### Merkmal 2 - Zeitbezüge innerhalb der Vorgänge

- *Identifikation von Objekten, die häufig vertreten sind*
- *Untersuchung der Zeitabstände zwischen Erstellung, Planung, Erledigung:*
    - Erstellung: ``ErstellungsDatum``
    - Planung: ``VorgangsDatum``
    - Erledigung: ``ErledigungsDatum``
- *Abstände zwischen zwei ähnlichen Fehlerbildern jedes Objekts oder den Objekte, die am häufigsten vertreten sind*

---

# Merkmal 1: Clustering von Vorgangsbeschreibungen

## Recherche
[Textmining HS Hannover](https://textmining.wp.hs-hannover.de/Preprocessing.html)

### Allgemeine Zergliederung der Einzelbeschreibungen

- Text in Sätze
- Sätze in Wörter
- Wörter in Grundform:
    - Lemma: Die Form des Wortes, wie sie in einem Wörterbuch steht. Z.B.: Haus, laufen, begründen
    - Stamm: Das Wort ohne Flexionsendungen (Prefixe und Suffixe). Z.B.: Haus, lauf, begründ
    - Wurzel: Kern des Wortes, von dem das Wort ggf. durch Derivation abgeleitet wurde. Z.B.: Haus, lauf, Grund
- Wortartbestimmung
    - klassische Part-of-Speech-Erkennung (herkömmliche Wortart)
    - Named Entity Recognition (NER) (Eigennamen)
        - Bsp. spaCy: Person, Ort, Organisation, Verschiedenes

#### Semantik

- Wörter innerhalb eines Satzes größere Zusammenhänge als außerhalb

### Pakete

- Englisch: 
    - [NLTK](https://www.nltk.org/)
- Deutsch:
    - [HanTa - The Hanover Tagger](https://github.com/wartaal/HanTa/tree/master)
    - [TreeTagger](https://www.cis.uni-muenchen.de/~schmid/tools/TreeTagger/)
        - [Python Wrapper](https://treetaggerwrapper.readthedocs.io/en/latest/)
    - [spaCy](https://spacy.io/)
        - [Beispiel 1](https://www.trinnovative.de/blog/2020-09-08-natural-language-processing-mit-spacy.html)

## Analyse

In [1]:
import numpy as np
import pandas as pd
import spacy
from collections import Counter
from itertools import combinations
from dateutil.parser import parse
import re
from spellchecker import SpellChecker

import matplotlib.pyplot as plt
import seaborn as sns

import logging
import sys
import pickle

LOGGING_LEVEL = 'INFO'
logging.basicConfig(level=LOGGING_LEVEL, stream=sys.stdout)
logger = logging.getLogger('base')

In [2]:
def save_pickle(obj, path):
    with open(path, 'wb') as file:
        pickle.dump(obj, file, protocol=pickle.HIGHEST_PROTOCOL)
        
def load_pickle(path):
    with open(path, 'rb') as file:
        obj = pickle.load(file)
    return obj

In [3]:
sns.set()
LOAD_CALC_FILES = False

DESC_BLACKLIST = set(['-'])
"""
GENERAL_BLACKLIST = set([
    'herr', 'hr.', 'förster', 'graf', 'stöppel', 
    'stab', 'kw', 'h.', 'koch', 'heininger', '.',
    'schwab', 'm.', 'wenninger', '-', '--',
])
"""

GENERAL_BLACKLIST = set([
    'herr', 'hr.' 'kw', 'h.', '.',
    'm.', '-', '--', 'dr.', 'dr',
])

#GENERAL_BLACKLIST = set()
#POS_of_interest = set(['NOUN', 'PROPN', 'ADJ', 'VERB', 'AUX'])
POS_of_interest = set(['NOUN', 'ADJ', 'VERB', 'AUX'])
TAG_of_interest = set(['ADJD'])

In [4]:
# load language model
nlp = spacy.load('de_dep_news_trf')

In [5]:
# load dataset
FILE_PATH = '01_2_Rohdaten_neu/Export4.csv'
date_cols = ['VorgangsDatum', 'ErledigungsDatum', 'Arbeitsbeginn', 'ErstellungsDatum']
raw = pd.read_csv(filepath_or_buffer=FILE_PATH, sep=';', encoding='cp1252', parse_dates=date_cols, dayfirst=True)
raw.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 129020 entries, 0 to 129019
Data columns (total 20 columns):
 #   Column                   Non-Null Count   Dtype         
---  ------                   --------------   -----         
 0   VorgangsID               129020 non-null  int64         
 1   ObjektID                 129020 non-null  int64         
 2   HObjektText              129003 non-null  object        
 3   ObjektArtID              129020 non-null  int64         
 4   ObjektArtText            128372 non-null  object        
 5   VorgangsTypID            129020 non-null  int64         
 6   VorgangsTypName          129020 non-null  object        
 7   VorgangsDatum            129020 non-null  datetime64[ns]
 8   VorgangsStatusId         129020 non-null  int64         
 9   VorgangsPrioritaet       129020 non-null  int64         
 10  VorgangsBeschreibung     124087 non-null  object        
 11  VorgangsOrt              507 non-null     object        
 12  VorgangsArtText 

In [6]:
raw.head()

Unnamed: 0,VorgangsID,ObjektID,HObjektText,ObjektArtID,ObjektArtText,VorgangsTypID,VorgangsTypName,VorgangsDatum,VorgangsStatusId,VorgangsPrioritaet,VorgangsBeschreibung,VorgangsOrt,VorgangsArtText,ErledigungsDatum,ErledigungsArtText,ErledigungsBeschreibung,MPMelderArbeitsplatz,MPAbteilungBezeichnung,Arbeitsbeginn,ErstellungsDatum
0,11,114,"427 C , Webmaschine, DL 280 EMS Breite 280",3,Luft-Webmaschine,3,Reparaturauftrag (Portal),2019-03-06,4,0,,,Kettbaum kaputt,2019-03-06,,,Weberei,Weberei,NaT,2019-03-06
1,17,124,"621 C , Webmaschine, DL 280 EMS Breite 280",3,Luft-Webmaschine,3,Reparaturauftrag (Portal),2019-03-11,5,0,,,asgasdg,2019-03-11,,,Elektrowerkstatt,Elektrowerkstatt,NaT,2019-03-11
2,53,244,"285 C, Webmaschine, SG 220 EMS",5,Greifer-Webmaschine,3,Reparaturauftrag (Portal),2019-03-19,5,0,Kupplung schleift,,Kupplung defekt,2019-03-20,Reparatur UTT,,Weberei,Weberei,NaT,2019-03-19
3,58,257,"107, Webmaschine, OM 220 EOS",3,Luft-Webmaschine,3,Reparaturauftrag (Portal),2019-03-21,5,0,Gegengewicht wieder anbringen,,Gegengewicht an der Webmaschine abgefallen,2019-03-21,Reparatur UTT,Schraube ausgebohrt\nGegengewicht wieder angeb...,Weberei,Weberei,2019-03-21,2019-03-21
4,81,138,"00138, Schärmaschine 9,",16,Schärmaschine,3,Reparaturauftrag (Portal),2019-03-25,5,0,da ist etwas gebrochen. (Herr Heininger),,zentrale Bremsenverstellung linke Gatterseite ...,2019-03-25,Reparatur UTT,Bolzen gebrochen. Bolzen neu angefertig und di...,Vorwerk,Vorwerk,2019-03-25,2019-03-25


In [7]:
print(f"Anzahl Features: {len(raw.columns)}")

Anzahl Features: 20


**Neue Features gegenüber letzter Analyse:**
- ``ObjektArtID``
- ``ObjektArtText``
- ``VorgangsTypName``

### Duplikate

In [8]:
duplicates_filt = raw.duplicated()

In [9]:
print(f"Anzahl Duplikate: {duplicates_filt.sum()}")

Anzahl Duplikate: 84


In [10]:
filt_data = raw[duplicates_filt]
uni_obj_id_dupl = filt_data['ObjektID'].unique()

In [11]:
print(f"Anzahl einzigartiger Objekt-IDs unter Duplikaten: {len(uni_obj_id_dupl)}")

Anzahl einzigartiger Objekt-IDs unter Duplikaten: 47


In [12]:
wo_duplicates = raw.drop_duplicates(ignore_index=True)
wo_duplicates.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 128936 entries, 0 to 128935
Data columns (total 20 columns):
 #   Column                   Non-Null Count   Dtype         
---  ------                   --------------   -----         
 0   VorgangsID               128936 non-null  int64         
 1   ObjektID                 128936 non-null  int64         
 2   HObjektText              128920 non-null  object        
 3   ObjektArtID              128936 non-null  int64         
 4   ObjektArtText            128289 non-null  object        
 5   VorgangsTypID            128936 non-null  int64         
 6   VorgangsTypName          128936 non-null  object        
 7   VorgangsDatum            128936 non-null  datetime64[ns]
 8   VorgangsStatusId         128936 non-null  int64         
 9   VorgangsPrioritaet       128936 non-null  int64         
 10  VorgangsBeschreibung     124008 non-null  object        
 11  VorgangsOrt              507 non-null     object        
 12  VorgangsArtText 

### ``VorgangsBeschreibung``

#### **NA vals und Duplikate**

String-Bereinigung

In [13]:
SPECIAL_CHARS = set(['&', '$', '%', '§', '/', '(', ')', '_', 
                     '+', '–', '--', '<', '>', '´',
])

In [14]:
def clean_string(string: str) -> str:
    #num_reps = 5
    
    # remove special chars
    pattern = r'[\t\n\r\f\v]'
    string = re.sub(pattern, ' ', string)
    # remove dates
    pattern = r'[\d]{1,4}[.:][\d]{1,4}[.:][\d]{1,4}'
    string = re.sub(pattern, '', string)
    # remove times
    pattern = r'[\d]{1,2}[:][\d]{1,2}[:][\d]{0,2}'
    string = re.sub(pattern, '', string)
    # remove all chars despite punctuation and alphanumeric ones
    pattern = r'[^ \w.,;:\-äöüÄÖÜ]+'
    string = re.sub(pattern, '', string)
    # remove - where it is used as em dash
    pattern = r'[\W]+-[\W]+'
    string = re.sub(pattern, ' ', string)
    # remove whitespaces in front of punctuation
    pattern = r'[ ]+([;,.:])'
    string = re.sub(pattern, r'\1', string)
    # remove multiple whitespaces
    pattern = r'[ ]+'
    string = re.sub(pattern, ' ', string)
    # remove whitespaces at the beginning and the end
    string = string.strip()
    
    #while num_reps != 0:
        #string = string.replace('\n', ' ')
        #string = string.replace('\t', ' ')
        #string = string.replace('  ', ' ')
        #string = string.replace('   ', ' ')
    #string = string.replace(' - ', ' ')
    """
    for char in SPECIAL_CHARS:
        string = string.replace(char, '')
        
        #num_reps -= 1
    
    # remove spaces at the beginning and the end
    string = string.strip()
    """
    
    return string

In [15]:
base = wo_duplicates.copy()
base = base.dropna(axis=0, subset='VorgangsBeschreibung')
base['VorgangsBeschreibung'] = base['VorgangsBeschreibung'].map(clean_string)

In [16]:
base

Unnamed: 0,VorgangsID,ObjektID,HObjektText,ObjektArtID,ObjektArtText,VorgangsTypID,VorgangsTypName,VorgangsDatum,VorgangsStatusId,VorgangsPrioritaet,VorgangsBeschreibung,VorgangsOrt,VorgangsArtText,ErledigungsDatum,ErledigungsArtText,ErledigungsBeschreibung,MPMelderArbeitsplatz,MPAbteilungBezeichnung,Arbeitsbeginn,ErstellungsDatum
2,53,244,"285 C, Webmaschine, SG 220 EMS",5,Greifer-Webmaschine,3,Reparaturauftrag (Portal),2019-03-19,5,0,Kupplung schleift,,Kupplung defekt,2019-03-20,Reparatur UTT,,Weberei,Weberei,NaT,2019-03-19
3,58,257,"107, Webmaschine, OM 220 EOS",3,Luft-Webmaschine,3,Reparaturauftrag (Portal),2019-03-21,5,0,Gegengewicht wieder anbringen,,Gegengewicht an der Webmaschine abgefallen,2019-03-21,Reparatur UTT,Schraube ausgebohrt\nGegengewicht wieder angeb...,Weberei,Weberei,2019-03-21,2019-03-21
4,81,138,"00138, Schärmaschine 9,",16,Schärmaschine,3,Reparaturauftrag (Portal),2019-03-25,5,0,da ist etwas gebrochen. Herr Heininger,,zentrale Bremsenverstellung linke Gatterseite ...,2019-03-25,Reparatur UTT,Bolzen gebrochen. Bolzen neu angefertig und di...,Vorwerk,Vorwerk,2019-03-25,2019-03-25
5,82,0,Warenschau allgemein,0,,3,Reparaturauftrag (Portal),2019-03-25,5,0,Klappbügel Portalkran H31 defekt,Warenschau allgemein,Allgemeine Reparaturarbeiten,2019-03-25,Reparatur UTT,Feder ausgetauscht,Warenschau,Warenschau,2019-03-25,2019-03-25
6,76,0,Neben der Türe,0,,3,Reparaturauftrag (Portal),2019-03-22,5,0,Schraube nix mer gut,Neben der Türe,Kettbaum,2019-03-25,Reparatur UTT,Schrauben ausgebohrt\t\nGewinde nachgeschnitten\t,Vorwerk,Vorwerk,2019-03-25,2019-03-22
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
128931,518956,1708,"01708, Betriebsfahrräder Schlosserei,",57,Interne Wartungsobjekte,1,Wartung,2023-06-19,5,0,2-wöchige Reinigung Sichtkontrolle Technische ...,,02 Interne Reinigung / Pflege / Überprüfung,2023-06-19,Intern UTT - Prüfung,Reinigung & Sichtkontrolle (Technische Einric...,,,2023-06-19,2023-03-14
128932,275123,1654,"WEBEREI ALLGEMEIN, Weberei allgemein,",90,UTT allgemein,3,Reparaturauftrag (Portal),2022-09-29,5,0,Adapter entfernen und Gewinde nachschneiden.,,Kettbaum-Adapter,2022-09-30,Intern UTT - Reparatur,mit schlosserei aufräumen,Weberei,Weberei,2022-09-30,2022-09-29
128933,275125,1795,"A054.S, Jacquardmaschine,",24,Stäubli-Jacquardmaschine,3,Reparaturauftrag (Portal),2022-09-30,5,0,Alle 4 Schrauben und teile der Kettbaumlagerun...,,Kettbaum,2022-09-30,Intern UTT - Reparatur,Neues Teil eingebaut und altes repariert,Weberei,Weberei,2022-09-30,2022-09-30
128934,275188,1,"00001, Ausrüstungsanlage 1,",1,Waschmaschine,3,Reparaturauftrag (Portal),2022-09-30,5,1,Walzenlager WK 6 überprüfenauswechseln,,"Lagereinheit (Wälzlager, Kugellager, etc.)",2022-10-04,Intern UTT - Reparatur,Lager getauscht,Ausrüstung,Ausrüstung,2022-10-04,2022-09-30


In [17]:
descriptions = base['VorgangsBeschreibung']
print(f"Einträge: {len(descriptions)}")

Einträge: 124008


In [18]:
num_dupl_descr = descriptions.duplicated().sum()
uni_descr = descriptions.unique()
num_uni_descr = len(uni_descr)

print(f"Anzahl Duplikate Vorgangsbeschreibungen: {num_dupl_descr}")
print(f"Anzahl einzigartiger Vorgangsbeschreibungen: {num_uni_descr}")
print(f"Anteil einzigartiger Vorgangsbeschreibungen: {num_uni_descr / len(descriptions) * 100:.2f} %")

Anzahl Duplikate Vorgangsbeschreibungen: 117255
Anzahl einzigartiger Vorgangsbeschreibungen: 6753
Anteil einzigartiger Vorgangsbeschreibungen: 5.45 %


In [19]:
if not LOAD_CALC_FILES:
    cols = ['descr', 'len', 'num_occur', 'assoc_obj_ids', 'num_assoc_obj_ids']
    descr_df = pd.DataFrame(columns=cols)
    max_val = 0
    text = None
    index = 0


    for idx, description in enumerate(uni_descr):
        len_descr = len(description)
        filt = base['VorgangsBeschreibung'] == description
        temp = base[filt]
        assoc_obj_ids = temp['ObjektID'].unique()
        assoc_obj_ids = np.sort(assoc_obj_ids, kind='stable')
        num_assoc_obj_ids = len(assoc_obj_ids)
        num_dupl = filt.sum()
        
        conc_df = pd.DataFrame(data=[[
                                description,
                                len_descr,
                                num_dupl,
                                assoc_obj_ids,
                                num_assoc_obj_ids
                            ]], columns=cols)
        
        descr_df = pd.concat([descr_df, conc_df], ignore_index=True)
        
        if num_dupl > max_val:
            max_val = num_dupl
            index = idx
            text = description
            
    temp1 = descr_df.sort_values(by='num_occur', ascending=False)

In [20]:
temp1

Unnamed: 0,descr,len,num_occur,assoc_obj_ids,num_assoc_obj_ids
161,Tägliche Wartungstätigkeiten nach Vorgabe des ...,66,92592,"[0, 17, 41, 42, 43, 44, 45, 46, 47, 51, 52, 53...",206
33,Wöchentliche Sichtkontrolle Reinigung,37,1654,"[301, 304, 305, 313, 314, 331, 332, 510, 511, ...",18
130,Tägliche Überprüfung der Ölabscheider,37,1616,"[0, 970, 2134, 2137]",4
159,Wöchentliche Kontrolle der WC-Anlagen,37,1265,"[1352, 1353, 1354, 1684, 1685, 1686, 1687, 168...",11
139,Halbjährliche Kontrolle des Stabbreithalters,44,687,"[51, 52, 53, 54, 55, 56, 57, 58, 59, 60, 61, 6...",166
...,...,...,...,...,...
2665,Überprüfung der Y-Achse Schneidbrücke am LC 2 ...,176,1,[20],1
2664,Luftschlauch muss ausgetauscht werden. Ist und...,195,1,[1],1
2663,Riemenscheibe tauschen auf 650 UPM,34,1,[74],1
2660,"Durchführung: Sollwert: 20 0,1g",31,1,[1746],1


In [21]:
# save/load dataframe
FILE_PATH = 'VorgangsBeschreibung_analyse_1.fth'
if LOAD_CALC_FILES:
    temp1 = pd.read_feather(FILE_PATH)
    temp1 = temp1.set_index('index')
else:
    save_df = temp1.reset_index()
    save_df.to_feather(FILE_PATH)

In [22]:
filt = temp1['descr'].str.contains('3-monatlich')

In [23]:
test2 = temp1.loc[filt,:]
test2

Unnamed: 0,descr,len,num_occur,assoc_obj_ids,num_assoc_obj_ids
476,3-monatliche Sichtkontrolle Reinigung,37,222,"[883, 1196, 1197, 1198, 1199, 1201, 1202, 1203...",18
671,3-monatliche Kontrolle,22,20,"[2021, 2045]",2
303,3-monatliche Überprüfung durch Firma Siemens,44,16,[2029],1
1055,"3-monatliche Kontrolle der Wasserfilter, bei B...",186,16,"[1175, 1176]",2
914,3-monatliche Überprüfung der Telefonanlage,42,14,[2035],1
281,3-monatliche Überprüfung der Torsprechanlage,44,14,[2037],1
280,3-monatliche Überprüfung der Sicherheitslichts...,111,14,[2046],1
658,3-monatliche Sichtkontrolle der Not- Sicherhei...,76,13,[2042],1
279,3-monatliche Überprüfung der Regalsicherungsan...,84,13,[2047],1
3234,3-monatliche Überprüfung der Personen-Überwach...,72,11,[2040],1


def pre_clean_spell_check(string: str) -> str:
        
    for char in SPELL_CHECK_NON_CHARS:
        string = string.replace(char, ' ')
    
    # remove spaces at the beginning and the end
    string = string.strip()
    
    return string


test = temp1['descr'].map(pre_clean_spell_check)

In [24]:
objs = temp1.loc[140, 'assoc_obj_ids']

In [25]:
objs

array([7], dtype=int64)

In [26]:
base.loc[base['ObjektID'] == objs[0],:]

Unnamed: 0,VorgangsID,ObjektID,HObjektText,ObjektArtID,ObjektArtText,VorgangsTypID,VorgangsTypName,VorgangsDatum,VorgangsStatusId,VorgangsPrioritaet,VorgangsBeschreibung,VorgangsOrt,VorgangsArtText,ErledigungsDatum,ErledigungsArtText,ErledigungsBeschreibung,MPMelderArbeitsplatz,MPAbteilungBezeichnung,Arbeitsbeginn,ErstellungsDatum
166,111649,7,"00007, Ausrüstung 2,",2,Beschichtungsmaschinen,3,Reparaturauftrag (Portal),2021-03-17,5,1,"-Bereich Aufwicklung, Bogenwalze Madenschraube...",,Walze (mechanischer Defekt),2021-03-17,Intern UTT - Reparatur,Madenschrauben angezogen,Ausrüstung,Ausrüstung,2021-03-17,2021-03-17
222,133856,7,"00007, Ausrüstung 2,",2,Beschichtungsmaschinen,3,Reparaturauftrag (Portal),2021-07-27,5,1,2 Keilriemen gerissen- Bereich Abluftventilato...,,Antriebsriemen (Keilriemen / Zahnriemen / Flac...,2021-07-27,Intern UTT - Reparatur,die Keilriemen SPA 1282 aus Neu Ulm geholt und...,Ausrüstung,Ausrüstung,2021-07-27,2021-07-27
240,140704,7,"00007, Ausrüstung 2,",2,Beschichtungsmaschinen,3,Reparaturauftrag (Portal),2021-09-29,5,1,Wir benötigen einen weiteren Ersatzteilschrank...,,Allgemeine Reparaturarbeiten,2021-10-04,Intern UTT - Montage,Wurde montiert,Ausrüstung,Ausrüstung,2021-10-04,2021-09-29
437,123811,7,"00007, Ausrüstung 2,",2,Beschichtungsmaschinen,3,Reparaturauftrag (Portal),2021-05-06,5,1,bitte dringend 10l Eimer zum Silikon versenden...,,Maschineninfrastruktur,2021-05-06,Intern UTT - Wartung,,Ausrüstung,Ausrüstung,2021-05-06,2021-05-06
439,107885,7,"00007, Ausrüstung 2,",2,Beschichtungsmaschinen,1,Wartung,2021-07-01,5,1,Monatliche Kontrolle des Flusen-Absaugrohrs,,Maschinen-Wartung monatlich,2021-06-28,Intern UTT - Sichtkontrolle,,,,NaT,2021-03-03
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
128396,531424,7,"00007, Ausrüstung 2,",2,Beschichtungsmaschinen,3,Reparaturauftrag (Portal),2023-05-08,5,1,KKT Chiller Auslauf Störung. Füllstand Min. STOP,,Allgemeine Reparaturarbeiten,2023-05-08,Intern UTT - Reparatur,Kühlflüssigkeit aufgefüllt und Filter gewechse...,Ausrüstung 2,Ausrüstung,2023-05-08,2023-05-08
128446,530613,7,"00007, Ausrüstung 2,",2,Beschichtungsmaschinen,1,Wartung,2023-05-30,5,1,Monatliche Überprüfung der Gasleitung mit dem ...,,01 Interne Reinigung / Pflege / Überprüfung,2023-06-05,Intern UTT - Prüfung,Dichtheitsprüfung der Gasleitungen,,,2023-06-05,2023-04-24
128563,580234,7,"00007, Ausrüstung 2,",2,Beschichtungsmaschinen,3,Reparaturauftrag (Portal),2023-05-30,5,1,Mischer für Beschichtungsanlage bitte ausbrenn...,,Allgemeine Reparaturarbeiten,2023-05-30,Intern UTT - Reparatur,erledigt,"Ausrüstung 2, Kombianlage",Ausrüstung,2023-05-30,2023-05-30
128636,586208,7,"00007, Ausrüstung 2,",2,Beschichtungsmaschinen,3,Reparaturauftrag (Portal),2023-06-12,5,1,Haken im Kran Auslauf defekt,,Allgemeine Reparaturarbeiten,2023-06-12,Intern UTT - Reparatur,Haken getauscht,Ausrüstung,Ausrüstung,2023-06-12,2023-06-12


In [27]:
temp1

Unnamed: 0,descr,len,num_occur,assoc_obj_ids,num_assoc_obj_ids
161,Tägliche Wartungstätigkeiten nach Vorgabe des ...,66,92592,"[0, 17, 41, 42, 43, 44, 45, 46, 47, 51, 52, 53...",206
33,Wöchentliche Sichtkontrolle Reinigung,37,1654,"[301, 304, 305, 313, 314, 331, 332, 510, 511, ...",18
130,Tägliche Überprüfung der Ölabscheider,37,1616,"[0, 970, 2134, 2137]",4
159,Wöchentliche Kontrolle der WC-Anlagen,37,1265,"[1352, 1353, 1354, 1684, 1685, 1686, 1687, 168...",11
139,Halbjährliche Kontrolle des Stabbreithalters,44,687,"[51, 52, 53, 54, 55, 56, 57, 58, 59, 60, 61, 6...",166
...,...,...,...,...,...
2665,Überprüfung der Y-Achse Schneidbrücke am LC 2 ...,176,1,[20],1
2664,Luftschlauch muss ausgetauscht werden. Ist und...,195,1,[1],1
2663,Riemenscheibe tauschen auf 650 UPM,34,1,[74],1
2660,"Durchführung: Sollwert: 20 0,1g",31,1,[1746],1


In [28]:
temp1.iat[0,0]

'Tägliche Wartungstätigkeiten nach Vorgabe des Maschinenherstellers'

In [29]:
temp1.iat[1,0]

'Wöchentliche Sichtkontrolle Reinigung'

#### spaCy

In [30]:
string = temp1.iloc[-2,0]
#string = temp1.iloc[0,0]
string

'Durchführung: Sollwert: 20 0,1g'

In [31]:
string = 'Ich spiele jeden Tag mit den Kindern im Garten. Das ist schön.'
string = 'Die Maschine XYZ ist aufgrund einer Störung im Druckluftsystem defekt.'
#string = 'Wir benötigen das Werkzeug von Herr Stöppel, um das derzeit abzuarbeiten.Dies wird durch Herrn Strebe getan.'

In [32]:
doc = nlp(string)

In [33]:
lca_matrix = doc.get_lca_matrix()
print(lca_matrix.shape)
lca_matrix = np.triu(lca_matrix)
lca_matrix

(11, 11)


array([[ 0,  1,  1,  3,  3,  3,  3,  3,  3,  3,  3],
       [ 0,  1,  1,  3,  3,  3,  3,  3,  3,  3,  3],
       [ 0,  0,  2,  3,  3,  3,  3,  3,  3,  3,  3],
       [ 0,  0,  0,  3,  3,  3,  3,  3,  3,  3,  3],
       [ 0,  0,  0,  0,  4,  4,  4,  4,  4,  3,  3],
       [ 0,  0,  0,  0,  0,  5,  6,  6,  6,  3,  3],
       [ 0,  0,  0,  0,  0,  0,  6,  6,  6,  3,  3],
       [ 0,  0,  0,  0,  0,  0,  0,  7,  7,  3,  3],
       [ 0,  0,  0,  0,  0,  0,  0,  0,  8,  3,  3],
       [ 0,  0,  0,  0,  0,  0,  0,  0,  0,  9,  3],
       [ 0,  0,  0,  0,  0,  0,  0,  0,  0,  0, 10]])

nested children:
- [x] Gewichtung über Anzahl Erscheinungen
- [x] AUX-Wörter: evtl. alle aossoziierten Wörter in Beziehung setzen
- [ ] Dual Link zwischen zwei Wörtern eines Baums (sinnvoll?)
    - nicht wirklich sinnvoll, da einfache Verbindung durch Gewicht schon berücksichtigt
    - schlussendlich würde jede Verbindung im Gewicht verdoppelt werden

In [34]:
# simulate occurence counter
OCC_COUNTER = 10

In [35]:
SPELL_CHECK_NON_CHARS = set([' ', '.', ',', ';', ':', '-'])

def pre_clean_word(string: str) -> str:
    
    pattern = r'[^A-Za-zäöüÄÖÜ]+'
    string = re.sub(pattern, '', string)
    """
    for char in SPELL_CHECK_NON_CHARS:
        string = string.replace(char, '')
    """
    
    return string

# https://stackoverflow.com/questions/25341945/check-if-string-has-date-any-format 
def is_str_date(string, fuzzy=False):
    
    try:
        parse(string, fuzzy=fuzzy)
        return True
    except ValueError:
        return False


def obtain_sub_tree(token):
    # check if token is a POS of interest
    descendants = list(token.subtree)
    descendants.remove(token)
    logger.debug(f'Token >>{token}<< has subtree >>{descendants}<<')
    return descendants


def add_children_descendants(
    parent,
    weight,
    connections,
    unique_tokens,
    children_sents,
):
    # add child as key
    if (parent.lemma_, parent.pos_) in connections:
        connections[(parent.lemma_, parent.pos_)].append(children_sents)
        #connections[parent.lemma_].append([descendant.lemma_, descendant])
    else:
        # do not add auxiliary words
        if parent.pos_ != 'AUX':
            unique_tokens.add(parent.lemma_)
        connections[(parent.lemma_, parent.pos_)] = list()
        connections[(parent.lemma_, parent.pos_)].append(children_sents)
        #connections[parent.lemma_].append([descendant.lemma_, descendant])
    
    return None


def obtain_descendant_info(
    doc,
    weight,
    POS_of_interest,
    TAG_of_interest,
    connections,
    unique_tokens,
    spell_check_candidates,
    spell_check_whitelist,
    spell_checker,
    corrections,
):
    global GENERAL_BLACKLIST
    
    # iterate over sentences
    for sent in doc.sents:
        # spell check list
        spell_check_words = list()
        
        # iterate over tokens in one sentence
        for token in sent:
            
            if not (token.pos_ in POS_of_interest or token.tag_ in TAG_of_interest):
                continue
            elif token.lemma_.lower() in GENERAL_BLACKLIST:
                logger.debug(f'Eliminated parent >>{token}<< because of blacklist')
                continue
            
            # spell check
            if token.lemma_.lower() not in spell_check_whitelist:
                word = pre_clean_word(string=token.lemma_.lower())
                if word in corrections:
                    word = corrections[word]
                elif not word.isdigit():
                    spell_check_words.append(word)
            
            descendants = obtain_sub_tree(token=token)
            
            # iterate over all children if there are any
            if descendants is not None:
                # list with all children in the current sentence
                children_sents = list()
                
                for child in descendants:
                    logger.debug(f'Token is >>{token}<< with child >>{child}<< and POS {child.pos_}')
                    
                    # elimnate cases of cross-references with verbs
                    if ((token.pos_ == 'AUX' or token.pos_ == 'VERB') and
                        (child.pos_ == 'AUX' or child.pos_ == 'VERB')):
                        continue
                    elif not (child.pos_ in POS_of_interest or child.tag_ in TAG_of_interest):
                        continue
                    elif child.lemma_.lower() in GENERAL_BLACKLIST:
                        logger.debug(f'Eliminated child >>{child}<< because of blacklist')
                        continue
                    
                    if (child not in DESC_BLACKLIST and
                        not is_str_date(string=child.text)):
                        children_sents.append((child.lemma_, weight))
                    
                    if child.lemma_ not in unique_tokens:
                        unique_tokens.add(child.lemma_)
                        
                    if child.lemma_.lower() not in spell_check_whitelist:
                        word = pre_clean_word(string=child.lemma_.lower())
                        if word in corrections:
                            word = corrections[word]
                        elif not word.isdigit():
                            spell_check_words.append(word)
                
                # add list of children for current parent if not empty
                if children_sents:
                    add_children_descendants(
                        parent=token,
                        weight=weight,
                        connections=connections,
                        unique_tokens=unique_tokens,
                        children_sents=children_sents,
                    )

        misspelled_candidates = spell_checker.unknown(spell_check_words)
        spell_check_candidates.update(misspelled_candidates)
        
        
    return None

In [36]:
pd.DataFrame({"Token": [token.text for token in doc],
              "Lemma": [token.lemma_ for token in doc],
              "POS": [token.pos_ for token in doc],
              "Tag": [token.tag_ for token in doc],
              "Dep": [token.dep_ for token in doc]})

Unnamed: 0,Token,Lemma,POS,Tag,Dep
0,Die,der,DET,ART,nk
1,Maschine,Maschine,NOUN,NN,sb
2,XYZ,XYZ,PROPN,NE,nk
3,ist,sein,AUX,VAFIN,ROOT
4,aufgrund,aufgrund,ADP,APPR,mo
5,einer,ein,DET,ART,nk
6,Störung,Störung,NOUN,NN,nk
7,im,in,ADP,APPRART,mnr
8,Druckluftsystem,Druckluftsystem,NOUN,NN,nk
9,defekt,defekt,ADV,ADJD,pd


In [37]:
def obtain_adj_matrix(unique_tokens, connections):

    adj_mat = pd.DataFrame(
        data=0, 
        columns=list(unique_tokens), 
        index=list(unique_tokens),
        dtype=np.uint32,
    )
    
    for (pred, POS), descendants_list in connections.items():
        #print(f'{pred=}, {descendants=}')
        
        for descendants in descendants_list:
            #print(f'{descendants}')
            
            if POS != 'AUX':
                for (desc, weight) in descendants:
                    adj_mat.at[pred, desc] += weight
            
            else:
                if len(descendants) > 1:
                    # if auxiliary word, make connection between all associated words
                    combs = combinations(descendants, r=2)
                    
                    for comb in combs:
                        # comb is tuple ((word_1, weight), (word_2, weight))
                        weight = comb[0][1]
                        word_1 = comb[0][0]
                        word_2 = comb[1][0]
                        
                        """
                        if ((word_1 == 'Eigenverantwortlichkeit' or word_1 == 'neu') and
                            (word_2 == 'Eigenverantwortlichkeit' or word_2 == 'neu')):
                            print(f'Hello from {pred=} with {descendants=}')
                        """
                        
                        adj_mat.at[word_1, word_2] += weight
        
        
    return adj_mat


def make_undir_adj_matrix(adj_mat):
    
    adj_mat_undir = adj_mat.copy()
    arr = adj_mat_undir.to_numpy()
    arr_upper = np.triu(arr)
    arr_lower = np.tril(arr)
    arr_lower = np.rot90(np.fliplr(arr_lower))
    arr_new = arr_lower + arr_upper
    
    adj_mat_undir.loc[:] = arr_new
    
    return adj_mat_undir

In [38]:
spacy.displacy.render(doc)

#### Gesamter Datensatz

In [39]:
# analysiere erste 10 Einträge
descr = temp1[['descr', 'num_occur']]
#descr = descr.iloc[50:200,:]

In [40]:
#descr.iat[0,0] = 'Das ist ein Test am 24.08.2023'

In [41]:
len(descr)

6753

In [42]:
descr

Unnamed: 0,descr,num_occur
161,Tägliche Wartungstätigkeiten nach Vorgabe des ...,92592
33,Wöchentliche Sichtkontrolle Reinigung,1654
130,Tägliche Überprüfung der Ölabscheider,1616
159,Wöchentliche Kontrolle der WC-Anlagen,1265
139,Halbjährliche Kontrolle des Stabbreithalters,687
...,...,...
2665,Überprüfung der Y-Achse Schneidbrücke am LC 2 ...,1
2664,Luftschlauch muss ausgetauscht werden. Ist und...,1
2663,Riemenscheibe tauschen auf 650 UPM,1
2660,"Durchführung: Sollwert: 20 0,1g",1


In [49]:
#LOAD_CALC_FILES = True
#LOAD_CALC_FILES = False
#IS_TEST = True
IS_TEST = False

In [44]:
spell_check_whitelist = {
    '',
    'beschlag',
    'brandschutztechnische',
    'dichtung',
    'festhaltevorrichtung',
    'funktion',
    'halbjährliche',
    'kontrolle',
    'maschinenhersteller',
    'prüfung',
    'reinigung',
    'scharnier',
    'schließvorrichtung',
    'schmierung',
    'sichtkontrolle',
    'stabbreithalter',
    'technikrundgang',
    'vorgabe',
    'wartungstätigkeit',
    'wcanlage',
    'ölabscheider',
    'abarbeiten',
    'abgleichen',
    'abschmieren',
    'abschmierung',
    'abteilungsleiter',
    'akku',
    'analyse',
    'arbeitsplan',
    'aschenbecher',
    'auffüllen',
    'auflistung',
    'befestigungsschraube',
    'beschädigung',
    'betriebsstunde',
    'blombe',
    'blombieren',
    'brückner',
    'campenabwickler',
    'campenaufwickler',
    'desinfektionsmittel',
    'dichtigkeit',
    'druckkontrolle',
    'efficiosystem',
    'eigenverantwortlichkeit',
    'einrichtung',
    'email',
    'erledigungsdatum',
    'extradate',
    'extradatum',
    'filter',
    'firma',
    'formplatte',
    'frostprävention',
    'gegendruckbolze',
    'gesamtanlage',
    'heizungsanlage',
    'keller',
    'kesselhauskontrolle',
    'kesselwasser',
    'koffer',
    'kompensator',
    'kompressorstation',
    'kondensat',
    'kühlturm',
    'kühltürme',
    'lager',
    'laserabteilung',
    'leckage',
    'leerung',
    'leiterprüfung',
    'linearkugellager',
    'luftdruckkontrolle',
    'magazin',
    'maschinenbediener',
    'messwert',
    'monat',
    'motor',
    'papiermüllbehälter',
    'personalbüro',
    'pflasterschrank',
    'rieme',
    'rollenkette',
    'rundgang',
    'schweißkopf',
    'schweisskopf',
    'sichtprüfung',
    'speisewasser',
    'sprinkleranlage',
    'temperatursensor',
    'terminieren',
    'ticket',
    'trommel',
    'täglicher',
    'uvröhre',
    'ventilator',
    'verbandsmaterial',
    'verschleiß',
    'verschleiss',
    'vorbelegung',
    'wartung',
    'wartungsarbeit',
    'wartungsplan',
    'wasseraufbereitung',
    'wasseraufbereitungsanlage',
    'wasserverbrauch',
    'weberei',
    'wumagtrockner',
    'wäscherkontrolle',
    'wöchig',
    'abdichten',
    'abfluprüfung',
    'ablesen',
    'abluftkanal',
    'absauganlage',
    'abspeichern',
    'absprache',
    'aktivkohlepatron',
    'aktivkohlepatrone',
    'anbackung',
    'anfragen',
    'angebot',
    'anpresswalze',
    'ansaug',
    'anschluss',
    'anschluß',
    'anzahl',
    'auen',
    'auenbereich',
    'aueneinheit',
    'aufwickler',
    'ausblasöffnung',
    'ausbrennen',
    'auslassventil',
    'ausrüstung',
    'austausch',
    'axialpendelrollenlager',
    'batteriewechsel',
    'batterieüberprüfung',
    'baugruppe',
    'baumwolltuch',
    'bauteil',
    'befeuchter',
    'beleuchtung',
    'beschichtunglegierung',
    'besprechungszimmer',
    'bestandskontrolle',
    'bestellformular',
    'bestätigung',
    'bezeichnung',
    'binder',
    'blutstop',
    'bolze',
    'breitstreckwalze',
    'containerstellfläche',
    'contrawalze',
    'dachfläche',
    'dampfzylinder',
    'deformierung',
    'dezember',
    'din',
    'docke',
    'dokumentation',
    'dosierpumpe',
    'druckluftbehälter',
    'druckluftleitung',
    'druckluftschläuche',
    'drucktestkontrolle',
    'einterminieren',
    'eintragung',
    'einzelprotokoll',
    'einziehwalze',
    'elektisch',
    'element',
    'enthärtung',
    'entwässern',
    'erledigungsbeschreibeung',
    'erstehilfeeinrichtung',
    'erweiterung',
    'explosionsschutzanlage',
    'extradaten',
    'exzenterringbefestigung',
    'fa',
    'fach',
    'faltenbalge',
    'feedbackinput',
    'feuerwehrumfahrung',
    'filert',
    'filteranlage',
    'filterelement',
    'filterstufe',
    'fixtermin',
    'flanschlager',
    'flanschlagerquadrat',
    'fluchtwegsymbol',
    'flusenabsaugrohr',
    'freilauf',
    'fremdkörper',
    'führungswagen',
    'gaslager',
    'gaszählerstand',
    'gatter',
    'geräteinner',
    'geräteinneres',
    'geräusch',
    'gesamt',
    'gesamterzeugt',
    'getränkeautomat',
    'gewindebefestigung',
    'gewindestiftbefestigung',
    'gleitschiene',
    'grat',
    'gro',
    'grundplatte',
    'halle',
    'haupteingang',
    'hebebühne',
    'hebezeug',
    'helm',
    'hersteller',
    'hochregal',
    'hochtemperatur',
    'hochtemperatureinsatz',
    'hydraulik',
    'hydrauliköl',
    'impulseingang',
    'indikator',
    'inneneinheit',
    'insektenvernichter',
    'kabel',
    'kammer',
    'karton',
    'kegelradgetriebe',
    'kegelradgetriebemotor',
    'kette',
    'klemmrolle',
    'klimaanlage',
    'klimabühne',
    'klimagerät',
    'kompressor',
    'kompressorluftwert',
    'kontoll',
    'kontrawalze',
    'kontroll',
    'krankheit',
    'krän',
    'kräne',
    'kuehlaggregat',
    'kw',
    'kühlgerät',
    'lagereinheit',
    'lagereinsatz',
    'lagerort',
    'lagerung',
    'laser',
    'laufgeräusche',
    'luftansaugseite',
    'luftfilter',
    'luftfilterwasserabscheider',
    'luftmenge',
    'luftreiniger',
    'lösungsmittel',
    'lüftungsanlage',
    'macke',
    'managementsystem',
    'maschinenanschluss',
    'materialzersetzung',
    'messlager',
    'micron',
    'mischer',
    'monatlicher',
    'monatliches',
    'monteur',
    'moos',
    'motorstart',
    'nachfetten',
    'nachschmieren',
    'nachspann',
    'neuvertrag',
    'nord',
    'nottelefon',
    'nr',
    'oberer',
    'oberflächenkontrolle',
    'objektkarte',
    'palette',
    'pendelkugellager',
    'pfeifer',
    'platine',
    'pneum',
    'pneumatikventil',
    'pneumatisch',
    'pos',
    'positioniersystem',
    'prozesskennzahl',
    'prüfbericht',
    'prüfplan',
    'rampenbereich',
    'rauwalze',
    'regalprüfer',
    'regalsicherungsanlage',
    'reiniger',
    'reinigungstuch',
    'restlich',
    'risikoersatzteil',
    'rohrtrenner',
    'roller',
    'rundgangkontrollen',
    'rückmeldung',
    'sae',
    'sauberkeit',
    'schlitten',
    'schmierstoff',
    'schmierstoffmenge',
    'schneider',
    'schraube',
    'schraubenbestand',
    'schutzabdeckung',
    'sicherheitsbeleuchtung',
    'sicherheitseinrichtung',
    'sicherheitslichtschranke',
    'sicherheitsweste',
    'sicherstellung',
    'sonotrode',
    'sonotrodenständer',
    'spannkopflager',
    'spannlager',
    'spannrahmen',
    'spindel',
    'spindelhubgetriebe',
    'spindelmutter',
    'spülzeitprüfung',
    'stab',
    'stadtwasser',
    'stehlager',
    'stehlagergehäuse',
    'steuerung',
    'stückliste',
    'systemumstellung',
    'telefonanlage',
    'telefonat',
    'termin',
    'terminabsprache',
    'terminiern',
    'terminiert',
    'terminierung',
    'terminvorschlag',
    'testomat',
    'thermoheizelement',
    'torsprechanlage',
    'trinkwassernetz',
    'trockenzylinder',
    'tänzerrolle',
    'türdichtung',
    'türgriff',
    'türsicherung',
    'umlenkwalzen',
    'umrandung',
    'unkraut',
    'uschienenführung',
    'uvv',
    'ventil',
    'verbaut',
    'verbrennungsset',
    'vereinbarung',
    'verkalkung',
    'verschleiteileinsatz',
    'verschmutzung',
    'verschmutzungenlos',
    'verstellung',
    'verunreinigung',
    'vollständigkeit',
    'volumenzähler',
    'vorderer',
    'vordruck',
    'vorfilter',
    'vorfilterflie',
    'vorliegen',
    'vormonat',
    'wartungsintervall',
    'wartungsvertrag',
    'wasserfilter',
    'wasserhärte',
    'wasserpegelkontrolle',
    'wasserzählerstand',
    'wechselintervall',
    'wärmetauscher',
    'zahnrieme',
    'zahnstange',
    'zuleitung',
    'zuschicken',
    'ölfüllung',
    'ölstand',
    'ölstandsichtprüfung',
    'ölstandskontrolle',
    'überziehen'
}

In [45]:
corrections: dict[str, str] = {
    'desifektionsmittel': 'desinfektionsmittel',
    'schweikopf': 'schweisskopf',
}

In [46]:
# adjacency matrix
connections = dict()
unique_tokens = set()
UPDATE_STATUS = 500
length_data = len(descr)
spell_check_candidates = set()
spell_checker = SpellChecker(language='de', distance=1)

if not LOAD_CALC_FILES or IS_TEST:
    for count, description in enumerate(descr.iterrows()):
        
        text = description[1]['descr']
        weight = description[1]['num_occur']
        
        doc = nlp(text)
        
        obtain_descendant_info(
            doc=doc,
            weight=weight,
            POS_of_interest=POS_of_interest,
            TAG_of_interest=TAG_of_interest,
            connections=connections,
            unique_tokens=unique_tokens,
            spell_check_candidates=spell_check_candidates,
            spell_check_whitelist=spell_check_whitelist,
            spell_checker=spell_checker,
            corrections=corrections,
        )
        
        if count % UPDATE_STATUS == 0:
            logger.info(f'Number of entries processed: {count+1}, Percent completed: {((count+1) / length_data) * 100:.2f}')

INFO:base:Number of entries processed: 1, Percent completed: 0.01


INFO:base:Number of entries processed: 501, Percent completed: 7.42
INFO:base:Number of entries processed: 1001, Percent completed: 14.82
INFO:base:Number of entries processed: 1501, Percent completed: 22.23
INFO:base:Number of entries processed: 2001, Percent completed: 29.63
INFO:base:Number of entries processed: 2501, Percent completed: 37.04
INFO:base:Number of entries processed: 3001, Percent completed: 44.44
INFO:base:Number of entries processed: 3501, Percent completed: 51.84
INFO:base:Number of entries processed: 4001, Percent completed: 59.25
INFO:base:Number of entries processed: 4501, Percent completed: 66.65
INFO:base:Number of entries processed: 5001, Percent completed: 74.06
INFO:base:Number of entries processed: 5501, Percent completed: 81.46
INFO:base:Number of entries processed: 6001, Percent completed: 88.86
INFO:base:Number of entries processed: 6501, Percent completed: 96.27


In [50]:
ADJ_DF_PATH = './Graphanalyse/adj_mat_df.fth'
if not IS_TEST:
    if LOAD_CALC_FILES:
        adj_mat_undir = pd.read_feather(ADJ_DF_PATH)
        adj_mat_undir = adj_mat_undir.set_index('index')
        # additional information
        connections = load_pickle('connections.pkl')
        unique_tokens = load_pickle('unique_tokens.pkl')
    else:
        adj_mat = obtain_adj_matrix(unique_tokens=unique_tokens, connections=connections)
        adj_mat_undir = make_undir_adj_matrix(adj_mat=adj_mat)
        save_df = adj_mat_undir.reset_index()
        save_df.to_feather(ADJ_DF_PATH)
        # additional information
        save_pickle(obj=connections, path='connections.pkl')
        save_pickle(obj=unique_tokens, path='unique_tokens.pkl')

In [51]:
adj_mat_undir.sort_index()

Unnamed: 0,funktionsfähig,Rechter,Laserteller,vorbereiten,weiterer,Ausbau,Travers,Funktionsbereitschaft,umwandeln,Hechtanlage,...,Filterpumpe,entwickeln,Pumpenstab,Hauptrade,anlernen,Begutachtung,Betriebszeit,Wassereinbruch,Antriebszahnrad,Prostataproblem
-Austausch,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
-Befestihgung,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
-Bereich,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
-Betonblock-,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
-Bremskombination,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
überziechen,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
überziehen,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
überziehn,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
üblich,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0


In [52]:
adj_mat_undir.sort_index()

Unnamed: 0,funktionsfähig,Rechter,Laserteller,vorbereiten,weiterer,Ausbau,Travers,Funktionsbereitschaft,umwandeln,Hechtanlage,...,Filterpumpe,entwickeln,Pumpenstab,Hauptrade,anlernen,Begutachtung,Betriebszeit,Wassereinbruch,Antriebszahnrad,Prostataproblem
-Austausch,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
-Befestihgung,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
-Bereich,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
-Betonblock-,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
-Bremskombination,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
überziechen,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
überziehen,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
überziehn,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
üblich,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0


In [None]:
adj_mat_undir

Unnamed: 0,koennen,Weiterleitung,Brand,ein,Geräteinneres,Schmerz,Monat,Kontrawalzenbelag,Funktionstest,Kesselwasser,...,Niveau,Sprinkleranlage,Abdeckglas,Stoptast,ORing,ausblasen,absprechen,Artikelnummer,Fehlersichtung,brannen
koennen,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
Weiterleitung,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
Brand,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
ein,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
Geräteinneres,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
ausblasen,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
absprechen,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
Artikelnummer,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
Fehlersichtung,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0


In [None]:
arr = adj_mat_undir.to_numpy()

In [None]:
np.count_nonzero(arr)

24490

In [None]:
np.max(arr)

92882

In [None]:
uni_arr = np.unique(arr)
len(uni_arr)

195

Threshold

In [None]:
WEIGHT_THRESHOLD = 50

In [None]:
arr = adj_mat_undir.to_numpy()

In [None]:
arr = np.where(arr < WEIGHT_THRESHOLD, 0, arr)

In [None]:
np.count_nonzero(arr)

387

In [None]:
temp = np.sum(arr, axis=0)
np.count_nonzero(temp)

177

In [None]:
thresh_adj_mat = adj_mat_undir.copy()
thresh_adj_mat.loc[:] = arr

In [None]:
thresh_adj_mat

Unnamed: 0,koennen,Weiterleitung,Brand,ein,Geräteinneres,Schmerz,Monat,Kontrawalzenbelag,Funktionstest,Kesselwasser,...,Niveau,Sprinkleranlage,Abdeckglas,Stoptast,ORing,ausblasen,absprechen,Artikelnummer,Fehlersichtung,brannen
koennen,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
Weiterleitung,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
Brand,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
ein,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
Geräteinneres,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
ausblasen,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
absprechen,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
Artikelnummer,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
Fehlersichtung,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0


In [None]:
ADJ_MAT_PATH_CSV = f'./Graphanalyse/adj_mat_thresh_{WEIGHT_THRESHOLD}.csv'
thresh_adj_mat.to_csv(path_or_buf=ADJ_MAT_PATH_CSV, encoding='cp1252', sep=';')

***Testing***

In [None]:
important_words = []
all_entities = []
pos_tags = set()
pos_counter = dict()
token_counter = 0

for description in descr:
    doc = nlp(description)
    
    relevant_words = []
    for token in doc:
        POS = token.pos_
        token_counter += 1
        if POS in pos_counter:
            pos_counter[POS] += 1
        else:
            pos_counter[POS] = 1
        
        if (not token.is_stop and not token.is_punct and 
            not token.is_space and (POS == 'NOUN' or 
                                    POS == 'PROPN' or 
                                    POS == 'ADJ' or 
                                    POS == 'ADV')):
            relevant_words.append((token.lemma_.lower(), POS))
            #pos_tags.add(token.pos_)
    
    entities = [] 
    for ent in doc.ents:
        entities.append((ent.text, ent.label_))
    
    important_words.extend(relevant_words)
    all_entities.extend(entities)

In [None]:
important_words

[('täglich', 'ADJ'),
 ('wartungstätigkeit', 'NOUN'),
 ('vorgabe', 'NOUN'),
 ('maschinenhersteller', 'NOUN'),
 ('wöchentliche', 'ADJ'),
 ('sichtkontrolle', 'NOUN'),
 ('reinigung', 'NOUN'),
 ('täglich', 'ADJ'),
 ('überprüfung', 'NOUN'),
 ('ölabscheider', 'NOUN'),
 ('wöchentlich', 'ADJ'),
 ('kontrolle', 'NOUN'),
 ('wc-anlage', 'NOUN'),
 ('halbjährliche', 'ADJ'),
 ('kontrolle', 'NOUN'),
 ('stabbreithalter', 'NOUN'),
 ('brandschutztechnische', 'ADJ'),
 ('prüfung', 'NOUN'),
 ('prüfung', 'NOUN'),
 ('scharniere', 'NOUN'),
 ('dichtung', 'NOUN'),
 ('schließvorrichtung', 'NOUN'),
 ('schloß', 'NOUN'),
 ('beschlag', 'NOUN'),
 ('allgemein', 'ADJ'),
 ('funktion', 'NOUN'),
 ('schmierung', 'NOUN'),
 ('festhaltevorrichtung', 'NOUN'),
 ('täglich', 'ADJ'),
 ('technikrundgang', 'NOUN'),
 ('monatliche', 'ADJ'),
 ('sichtkontrolle', 'NOUN'),
 ('monatliche', 'ADJ'),
 ('prüfung', 'NOUN'),
 ('scharniere', 'NOUN'),
 ('dichtung', 'NOUN'),
 ('schließvorrichtung', 'NOUN'),
 ('schloß', 'NOUN'),
 ('beschlag', 'NOUN'),

In [None]:
len(important_words)

43

In [None]:
all_entities

[]

In [None]:
count = Counter(important_words)

In [None]:
count

Counter({('täglich', 'ADJ'): 3,
         ('prüfung', 'NOUN'): 3,
         ('sichtkontrolle', 'NOUN'): 2,
         ('kontrolle', 'NOUN'): 2,
         ('scharniere', 'NOUN'): 2,
         ('dichtung', 'NOUN'): 2,
         ('schließvorrichtung', 'NOUN'): 2,
         ('schloß', 'NOUN'): 2,
         ('beschlag', 'NOUN'): 2,
         ('allgemein', 'ADJ'): 2,
         ('funktion', 'NOUN'): 2,
         ('schmierung', 'NOUN'): 2,
         ('festhaltevorrichtung', 'NOUN'): 2,
         ('monatliche', 'ADJ'): 2,
         ('wartungstätigkeit', 'NOUN'): 1,
         ('vorgabe', 'NOUN'): 1,
         ('maschinenhersteller', 'NOUN'): 1,
         ('wöchentliche', 'ADJ'): 1,
         ('reinigung', 'NOUN'): 1,
         ('überprüfung', 'NOUN'): 1,
         ('ölabscheider', 'NOUN'): 1,
         ('wöchentlich', 'ADJ'): 1,
         ('wc-anlage', 'NOUN'): 1,
         ('halbjährliche', 'ADJ'): 1,
         ('stabbreithalter', 'NOUN'): 1,
         ('brandschutztechnische', 'ADJ'): 1,
         ('technikrundgang', 'N

In [None]:
pos_count = pd.Series(data=pos_counter)
pos_count.sort_values(ascending=False)

NOUN     25722
PUNCT    11626
VERB      9093
ADP       7211
ADV       6526
PROPN     4481
NUM       4115
DET       3845
ADJ       2576
AUX       2329
PART      1561
CCONJ     1305
X          999
PRON       916
SCONJ      385
SPACE      236
INTJ         1
dtype: int64

In [None]:
pos_count_rel = pos_count / pos_count.sum()
pos_count_rel.sort_values(ascending=False)

NOUN     0.310176
PUNCT    0.140196
VERB     0.109651
ADP      0.086956
ADV      0.078696
PROPN    0.054035
NUM      0.049622
DET      0.046366
ADJ      0.031063
AUX      0.028085
PART     0.018824
CCONJ    0.015737
X        0.012047
PRON     0.011046
SCONJ    0.004643
SPACE    0.002846
INTJ     0.000012
dtype: float64

In [None]:
token_counter

82927

### Weiterführende Analyse der Beschreibungen

- unklare Zusammenhänge der 1200er-Threshold-Ergebnisse präzisieren:
    - Finden der entsprechenden Beschreibungen
    - Kontextualisieren
- Identifikation von weiteren Blacklistworten

#### Unklare Zusammenhänge 1200er-Threshold

In [None]:
temp1

Unnamed: 0_level_0,descr,len,num_occur,assoc_obj_ids,num_assoc_obj_ids
index,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
161,Tägliche Wartungstätigkeiten nach Vorgabe des ...,66,92592,"[0, 17, 41, 42, 43, 44, 45, 46, 47, 51, 52, 53...",206
33,Wöchentliche Sichtkontrolle Reinigung,37,1654,"[301, 304, 305, 313, 314, 331, 332, 510, 511, ...",18
130,Tägliche Überprüfung der Ölabscheider,37,1616,"[0, 970, 2134, 2137]",4
159,Wöchentliche Kontrolle der WC-Anlagen,37,1265,"[1352, 1353, 1354, 1684, 1685, 1686, 1687, 168...",11
139,Halbjährliche Kontrolle des Stabbreithalters,44,687,"[51, 52, 53, 54, 55, 56, 57, 58, 59, 60, 61, 6...",166
...,...,...,...,...,...
2675,Stand 15.07.2020 Stöppel: Herr Langner Toyota ...,253,1,[311],1
2674,Zahnräder der Laufkatze verschlissen Ersatztei...,167,1,[415],1
2673,Bitte 8 Scheiben nach Muster anfertigen. Danke.,47,1,[140],1
2672,"Schalter für Bühne Schwenken abgerissen, bitte...",123,1,[323],1


In [None]:
temp2 = temp1.loc[temp1['num_occur'] >= 3, :]
temp2 = temp1.copy()

In [None]:
#temp2 = temp2.iloc[:30,:]

In [None]:
check_words = set(['E1.8'])
target_indices = list()

for idx, row in temp2.iterrows():
    
    text = row['descr']
    doc = nlp(text)
    
    token_set = set()
    target_idx = None
    for token in doc:
            
        if not (token.pos_ in POS_of_interest or token.tag_ in TAG_of_interest):
            continue
        
        token_set.add(token.lemma_.lower())
        #print(f'{token_set=}')

    if token_set.issuperset(check_words):
        target_indices.append(idx)

In [None]:
target_indices

[]

In [None]:
idx = target_indices[3]
temp2.at[idx, 'descr']

'Vorgaben aus Pleva Wartungsplan Schmieren der Rollenlager der beiden Kameralaufschlitten des Strukturdetektors SD 1C siehe Extradaten'

In [None]:
temp2.at[1921,'descr']

'Leiterprüfung derzeit in Arbeit Abteilungsleiter sind per Email am 11.06.2019 über deren Eigenverantwortlichkeit und Mithilfe durch Herr Graf informiert worden.'

In [None]:
token_set.issuperset(check_words)

True

In [None]:
POS_of_interest
TAG_of_interest

{'ADJD'}

In [None]:
test = 'Tägliche, tägliche Wartungstätigkeit des Maschinenherstellers Maschine'

In [None]:
doc = nlp(test)

In [None]:
for token in doc:
    print(token.lemma_.lower())

täglich
--
täglich
wartungstätigkeit
der
maschinenhersteller
maschine


In [None]:
replace_chars = [',', '\n', '\t', '\s']

In [None]:
test = test.lower()
for char in replace_chars:
    test = test.replace(char, '')
test = test.split()
test = set(test)

In [None]:
test

{'des', 'maschine', 'maschinenherstellers', 'tägliche', 'wartungstätigkeit'}

In [None]:
test.issuperset(check_words)

False

**Zwischenergebnisse:**

*bestimmte ObjektIDs haben den Escape-Charakter, andere nicht: keine ObjektID mit beiden Varianten*

In [None]:
print(f"Anzahl der Duplikate = {max_val} für Beschreibung mit Index-Nr. {index}:\n {text}")

Anzahl der Duplikate = 47689 für Beschreibung mit Index-Nr. 171:
 Tägliche Wartungstätigkeiten nach Vorgabe des Maschinenherstellers



---

# Merkmal 2: VorgangsArtText

In [53]:
feature = 'VorgangsArtText'

In [54]:
base = wo_duplicates.copy()
base = base.dropna(axis=0, subset=feature)
base[feature] = base[feature].map(clean_string)

In [55]:
base.head()

Unnamed: 0,VorgangsID,ObjektID,HObjektText,ObjektArtID,ObjektArtText,VorgangsTypID,VorgangsTypName,VorgangsDatum,VorgangsStatusId,VorgangsPrioritaet,VorgangsBeschreibung,VorgangsOrt,VorgangsArtText,ErledigungsDatum,ErledigungsArtText,ErledigungsBeschreibung,MPMelderArbeitsplatz,MPAbteilungBezeichnung,Arbeitsbeginn,ErstellungsDatum
0,11,114,"427 C , Webmaschine, DL 280 EMS Breite 280",3,Luft-Webmaschine,3,Reparaturauftrag (Portal),2019-03-06,4,0,,,Kettbaum kaputt,2019-03-06,,,Weberei,Weberei,NaT,2019-03-06
1,17,124,"621 C , Webmaschine, DL 280 EMS Breite 280",3,Luft-Webmaschine,3,Reparaturauftrag (Portal),2019-03-11,5,0,,,asgasdg,2019-03-11,,,Elektrowerkstatt,Elektrowerkstatt,NaT,2019-03-11
2,53,244,"285 C, Webmaschine, SG 220 EMS",5,Greifer-Webmaschine,3,Reparaturauftrag (Portal),2019-03-19,5,0,Kupplung schleift,,Kupplung defekt,2019-03-20,Reparatur UTT,,Weberei,Weberei,NaT,2019-03-19
3,58,257,"107, Webmaschine, OM 220 EOS",3,Luft-Webmaschine,3,Reparaturauftrag (Portal),2019-03-21,5,0,Gegengewicht wieder anbringen,,Gegengewicht an der Webmaschine abgefallen,2019-03-21,Reparatur UTT,Schraube ausgebohrt\nGegengewicht wieder angeb...,Weberei,Weberei,2019-03-21,2019-03-21
4,81,138,"00138, Schärmaschine 9,",16,Schärmaschine,3,Reparaturauftrag (Portal),2019-03-25,5,0,da ist etwas gebrochen. (Herr Heininger),,zentrale Bremsenverstellung linke Gatterseite ...,2019-03-25,Reparatur UTT,Bolzen gebrochen. Bolzen neu angefertig und di...,Vorwerk,Vorwerk,2019-03-25,2019-03-25


In [56]:
descriptions = base[feature]
print(f"Einträge: {len(descriptions)}")

Einträge: 128936


In [57]:
num_dupl_descr = descriptions.duplicated().sum()
uni_descr = descriptions.unique()
num_uni_descr = len(uni_descr)

print(f"Anzahl Duplikate {feature}: {num_dupl_descr}")
print(f"Anzahl einzigartiger {feature}: {num_uni_descr}")
print(f"Anteil einzigartiger {feature}: {num_uni_descr / len(descriptions) * 100:.2f} %")

Anzahl Duplikate VorgangsArtText: 128545
Anzahl einzigartiger VorgangsArtText: 391
Anteil einzigartiger VorgangsArtText: 0.30 %


In [58]:
if not LOAD_CALC_FILES:
    cols = ['descr', 'len', 'num_occur', 'assoc_obj_ids', 'num_assoc_obj_ids']
    descr_df = pd.DataFrame(columns=cols)
    max_val = 0
    text = None
    index = 0


    for idx, description in enumerate(uni_descr):
        len_descr = len(description)
        filt = base[feature] == description
        temp = base[filt]
        assoc_obj_ids = temp['ObjektID'].unique()
        assoc_obj_ids = np.sort(assoc_obj_ids, kind='stable')
        num_assoc_obj_ids = len(assoc_obj_ids)
        num_dupl = filt.sum()
        
        conc_df = pd.DataFrame(data=[[
                                description,
                                len_descr,
                                num_dupl,
                                assoc_obj_ids,
                                num_assoc_obj_ids
                            ]], columns=cols)
        
        descr_df = pd.concat([descr_df, conc_df], ignore_index=True)
        
        if num_dupl > max_val:
            max_val = num_dupl
            index = idx
            text = description
            
    temp1 = descr_df.sort_values(by='num_occur', ascending=False)

In [59]:
temp1

Unnamed: 0,descr,len,num_occur,assoc_obj_ids,num_assoc_obj_ids
60,Tägliche Interne Wartungstätigkeiten Weberei,44,92719,"[0, 17, 41, 42, 43, 44, 45, 46, 47, 51, 52, 53...",206
10,01 Interne Reinigung Pflege Überprüfung,39,11250,"[0, 7, 425, 426, 427, 428, 429, 517, 518, 576,...",349
28,02 Interne Reinigung Pflege Überprüfung,39,3263,"[576, 906, 910, 940, 941, 942, 943, 1040, 1041...",52
29,Maschinen-Wartung wöchentlich,29,2408,"[1, 301, 305, 313, 314, 331, 332, 510, 511, 51...",25
46,Gesetzliche Wartung Prüfung jährlich,36,2403,"[0, 191, 193, 195, 197, 200, 287, 288, 289, 29...",638
...,...,...,...,...,...
222,Walze WK 03 Umlenkwalze zapfen,30,1,[1],1
224,Leiter Nr. 90 und überprüfen,28,1,[1],1
225,Locht nicht mehr,16,1,[338],1
226,Maschine stellt immer wieder ab,31,1,[338],1


In [60]:
# save/load dataframe
FILE_PATH = f'{feature}_analyse_1.fth'
if LOAD_CALC_FILES:
    temp1 = pd.read_feather(FILE_PATH)
    temp1 = temp1.set_index('index')
else:
    save_df = temp1.reset_index()
    save_df.to_feather(FILE_PATH)

#### Gesamter Datensatz

In [61]:
# analysiere erste 10 Einträge
descr = temp1[['descr', 'num_occur']]
#descr = descr.iloc[50:200,:]

In [62]:
#descr.iat[0,0] = 'Das ist ein Test am 24.08.2023'

In [63]:
len(descr)

391

In [64]:
descr

Unnamed: 0,descr,num_occur
60,Tägliche Interne Wartungstätigkeiten Weberei,92719
10,01 Interne Reinigung Pflege Überprüfung,11250
28,02 Interne Reinigung Pflege Überprüfung,3263
29,Maschinen-Wartung wöchentlich,2408
46,Gesetzliche Wartung Prüfung jährlich,2403
...,...,...
222,Walze WK 03 Umlenkwalze zapfen,1
224,Leiter Nr. 90 und überprüfen,1
225,Locht nicht mehr,1
226,Maschine stellt immer wieder ab,1


In [65]:
#LOAD_CALC_FILES = True
#LOAD_CALC_FILES = False
#IS_TEST = True
IS_TEST = False

In [66]:
# adjacency matrix
connections = dict()
unique_tokens = set()
UPDATE_STATUS = 100
length_data = len(descr)
spell_check_candidates = set()
spell_checker = SpellChecker(language='de', distance=1)

if not LOAD_CALC_FILES or IS_TEST:
    for count, description in enumerate(descr.iterrows()):
        
        text = description[1]['descr']
        weight = description[1]['num_occur']
        
        doc = nlp(text)
        
        obtain_descendant_info(
            doc=doc,
            weight=weight,
            POS_of_interest=POS_of_interest,
            TAG_of_interest=TAG_of_interest,
            connections=connections,
            unique_tokens=unique_tokens,
            spell_check_candidates=spell_check_candidates,
            spell_check_whitelist=spell_check_whitelist,
            spell_checker=spell_checker,
            corrections=corrections,
        )
        
        if count % UPDATE_STATUS == 0:
            logger.info(f'Number of entries processed: {count+1}, Percent completed: {((count+1) / length_data) * 100:.2f}')

INFO:base:Number of entries processed: 1, Percent completed: 0.26


INFO:base:Number of entries processed: 101, Percent completed: 25.83
INFO:base:Number of entries processed: 201, Percent completed: 51.41
INFO:base:Number of entries processed: 301, Percent completed: 76.98


In [67]:
ADJ_DF_PATH = f'./Graphanalyse/adj_mat_df_{feature}.fth'
if not IS_TEST:
    if LOAD_CALC_FILES:
        adj_mat_undir = pd.read_feather(ADJ_DF_PATH)
        adj_mat_undir = adj_mat_undir.set_index('index')
        # additional information
        connections = load_pickle('connections.pkl')
        unique_tokens = load_pickle('unique_tokens.pkl')
    else:
        adj_mat = obtain_adj_matrix(unique_tokens=unique_tokens, connections=connections)
        adj_mat_undir = make_undir_adj_matrix(adj_mat=adj_mat)
        save_df = adj_mat_undir.reset_index()
        save_df.to_feather(ADJ_DF_PATH)
        # additional information
        save_pickle(obj=connections, path='connections.pkl')
        save_pickle(obj=unique_tokens, path='unique_tokens.pkl')

In [68]:
adj_mat_undir.sort_index()

Unnamed: 0,lecken,WC,LKW,offen,Maschinen-Reinigung,Dockenwickler,halb-jährlich,Tisch,zentral,anbringen,...,undicht-,Platine,erneuern,Verschmutzung,befestigen,wechseln,Labor,Walze,anfahren,Leiter
12-monatige-Inspektion,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
2-monatlich,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
2-wöchentlich,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
24-monatige-Inspektion,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
3-jährlich,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
Ölwechsel,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
Überprüfung,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
äußerer,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
überprüfen,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,1


In [69]:
arr = adj_mat_undir.to_numpy()

In [70]:
np.count_nonzero(arr)

391

In [71]:
np.max(arr)

92964

Threshold

In [162]:
WEIGHT_THRESHOLD = 0

In [163]:
arr = adj_mat_undir.to_numpy()

In [164]:
arr = np.where(arr < WEIGHT_THRESHOLD, 0, arr)

In [165]:
np.count_nonzero(arr)

391

In [166]:
temp = np.sum(arr, axis=0)
np.count_nonzero(temp)

233

In [167]:
thresh_adj_mat = adj_mat_undir.copy()
thresh_adj_mat.loc[:] = arr

In [168]:
thresh_adj_mat

Unnamed: 0,Wasserleitung,wechseln,Winkelpositionsgeber,Klimaanlagengerät,versetzen,Brennschlitten,feststellen,Stuhl,monatlich,anfertigen,...,Zahnriemen,Rampe,Tisch,defekt,Elektrische,haben,Wasserenthärtungsanlage,Gestank,Zahnrad,hydraulisch
Wasserleitung,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
wechseln,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
Winkelpositionsgeber,0,0,0,0,0,0,0,0,0,0,...,0,0,0,1,0,0,0,0,0,0
Klimaanlagengerät,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
versetzen,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
haben,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
Wasserenthärtungsanlage,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
Gestank,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
Zahnrad,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0


In [169]:
ADJ_MAT_PATH_CSV = f'./Graphanalyse/adj_mat_thresh_{feature}_{WEIGHT_THRESHOLD}.csv'
thresh_adj_mat.to_csv(path_or_buf=ADJ_MAT_PATH_CSV, encoding='cp1252', sep=';')

---

# Merkmal 3: ErledigungsBeschreibung

In [72]:
feature = 'ErledigungsBeschreibung'

In [73]:
base = wo_duplicates.copy()
base = base.dropna(axis=0, subset=feature)
base[feature] = base[feature].map(clean_string)

In [74]:
base.head()

Unnamed: 0,VorgangsID,ObjektID,HObjektText,ObjektArtID,ObjektArtText,VorgangsTypID,VorgangsTypName,VorgangsDatum,VorgangsStatusId,VorgangsPrioritaet,VorgangsBeschreibung,VorgangsOrt,VorgangsArtText,ErledigungsDatum,ErledigungsArtText,ErledigungsBeschreibung,MPMelderArbeitsplatz,MPAbteilungBezeichnung,Arbeitsbeginn,ErstellungsDatum
3,58,257,"107, Webmaschine, OM 220 EOS",3,Luft-Webmaschine,3,Reparaturauftrag (Portal),2019-03-21,5,0,Gegengewicht wieder anbringen,,Gegengewicht an der Webmaschine abgefallen,2019-03-21,Reparatur UTT,Schraube ausgebohrt Gegengewicht wieder angebr...,Weberei,Weberei,2019-03-21,2019-03-21
4,81,138,"00138, Schärmaschine 9,",16,Schärmaschine,3,Reparaturauftrag (Portal),2019-03-25,5,0,da ist etwas gebrochen. (Herr Heininger),,zentrale Bremsenverstellung linke Gatterseite ...,2019-03-25,Reparatur UTT,Bolzen gebrochen. Bolzen neu angefertig und di...,Vorwerk,Vorwerk,2019-03-25,2019-03-25
5,82,0,Warenschau allgemein,0,,3,Reparaturauftrag (Portal),2019-03-25,5,0,Klappbügel Portalkran H31 defekt,Warenschau allgemein,Allgemeine Reparaturarbeiten,2019-03-25,Reparatur UTT,Feder ausgetauscht,Warenschau,Warenschau,2019-03-25,2019-03-25
6,76,0,Neben der Türe,0,,3,Reparaturauftrag (Portal),2019-03-22,5,0,Schraube nix mer gut,Neben der Türe,Kettbaum,2019-03-25,Reparatur UTT,Schrauben ausgebohrt Gewinde nachgeschnitten,Vorwerk,Vorwerk,2019-03-25,2019-03-22
8,111,241,"294 C, Webmaschine, SG 240 EMS",5,Greifer-Webmaschine,3,Reparaturauftrag (Portal),2019-04-01,5,0,KBK tauschen\nUrsache vermutlich mechanisch,,Kupplung-Brems-Kombination,2019-04-08,Reparatur UTT,da derzeit Keine Ersatzteile da Reparatur mit ...,Weberei,Weberei,2019-04-02,2019-04-01


In [75]:
descriptions = base[feature]
print(f"Einträge: {len(descriptions)}")

Einträge: 118086


In [76]:
num_dupl_descr = descriptions.duplicated().sum()
uni_descr = descriptions.unique()
num_uni_descr = len(uni_descr)

print(f"Anzahl Duplikate {feature}: {num_dupl_descr}")
print(f"Anzahl einzigartiger {feature}: {num_uni_descr}")
print(f"Anteil einzigartiger {feature}: {num_uni_descr / len(descriptions) * 100:.2f} %")

Anzahl Duplikate ErledigungsBeschreibung: 110707
Anzahl einzigartiger ErledigungsBeschreibung: 7379
Anteil einzigartiger ErledigungsBeschreibung: 6.25 %


In [77]:
LOAD_CALC_FILES

False

In [78]:
if not LOAD_CALC_FILES:
    cols = ['descr', 'len', 'num_occur', 'assoc_obj_ids', 'num_assoc_obj_ids']
    descr_df = pd.DataFrame(columns=cols)
    max_val = 0
    text = None
    index = 0


    for idx, description in enumerate(uni_descr):
        len_descr = len(description)
        filt = base[feature] == description
        temp = base[filt]
        assoc_obj_ids = temp['ObjektID'].unique()
        assoc_obj_ids = np.sort(assoc_obj_ids, kind='stable')
        num_assoc_obj_ids = len(assoc_obj_ids)
        num_dupl = filt.sum()
        
        conc_df = pd.DataFrame(data=[[
                                description,
                                len_descr,
                                num_dupl,
                                assoc_obj_ids,
                                num_assoc_obj_ids
                            ]], columns=cols)
        
        descr_df = pd.concat([descr_df, conc_df], ignore_index=True)
        
        if num_dupl > max_val:
            max_val = num_dupl
            index = idx
            text = description
            
    temp1 = descr_df.sort_values(by='num_occur', ascending=False)

In [79]:
temp1

Unnamed: 0,descr,len,num_occur,assoc_obj_ids,num_assoc_obj_ids
112,Sichtkontrolle durchgeführt Auffälligkeiten fe...,95,98720,"[0, 1, 7, 17, 41, 42, 43, 44, 45, 46, 47, 51, ...",953
108,Sichtkontrolle durchgeführt Auffälligkeiten fe...,100,1450,"[0, 1, 140, 301, 305, 313, 314, 576, 970, 1110...",28
147,Externe Prüfung wurde durchgeführt Beanstandun...,119,1082,"[191, 193, 195, 197, 200, 264, 287, 288, 289, ...",413
128,Reinigung durchgeführt Auffälligkeiten festges...,90,762,"[0, 1, 7, 123, 136, 137, 138, 177, 298, 304, 3...",90
96,Sichtkontrolle wie festgelegt durchgeführt Auf...,110,648,"[1, 20, 21, 51, 52, 53, 54, 55, 56, 64, 65, 66...",271
...,...,...,...,...,...
2805,X Achse Süd Führungswägen Kurze Version eingebaut,49,1,[21],1
2804,Maschinenrahmen ausgerichtet und ausgebeult. M...,90,1,[144],1
2803,Bügel und Stützräder getauscht,30,1,[315],1
2802,Graf: TK wurde in Arbeitsauftrag 65487 gewandelt,48,1,[405],1


In [81]:
temp1.iat[0,0]

'Sichtkontrolle durchgeführt Auffälligkeiten festgestellt vom Ausführenden bitte dazu schreiben:'

In [82]:
temp1.iat[1,0]

'Sichtkontrolle durchgeführt Auffälligkeiten festgestellt vom Ausführenden bitte dazu schreiben: Nein'

In [83]:
# save/load dataframe
FILE_PATH = f'{feature}_analyse_1.fth'
if LOAD_CALC_FILES:
    temp1 = pd.read_feather(FILE_PATH)
    temp1 = temp1.set_index('index')
else:
    save_df = temp1.reset_index()
    save_df.to_feather(FILE_PATH)

#### Gesamter Datensatz

In [84]:
# analysiere erste 10 Einträge
descr = temp1[['descr', 'num_occur']]
#descr = descr.iloc[50:200,:]

In [85]:
#descr.iat[0,0] = 'Das ist ein Test am 24.08.2023'

In [86]:
len(descr)

7379

In [87]:
descr

Unnamed: 0,descr,num_occur
112,Sichtkontrolle durchgeführt Auffälligkeiten fe...,98720
108,Sichtkontrolle durchgeführt Auffälligkeiten fe...,1450
147,Externe Prüfung wurde durchgeführt Beanstandun...,1082
128,Reinigung durchgeführt Auffälligkeiten festges...,762
96,Sichtkontrolle wie festgelegt durchgeführt Auf...,648
...,...,...
2805,X Achse Süd Führungswägen Kurze Version eingebaut,1
2804,Maschinenrahmen ausgerichtet und ausgebeult. M...,1
2803,Bügel und Stützräder getauscht,1
2802,Graf: TK wurde in Arbeitsauftrag 65487 gewandelt,1


In [88]:
#LOAD_CALC_FILES = True
#LOAD_CALC_FILES = False
#IS_TEST = True
IS_TEST = False

In [89]:
# adjacency matrix
connections = dict()
unique_tokens = set()
UPDATE_STATUS = 500
length_data = len(descr)
spell_check_candidates = set()
spell_checker = SpellChecker(language='de', distance=1)

if not LOAD_CALC_FILES or IS_TEST:
    for count, description in enumerate(descr.iterrows()):
        
        text = description[1]['descr']
        weight = description[1]['num_occur']
        
        doc = nlp(text)
        
        obtain_descendant_info(
            doc=doc,
            weight=weight,
            POS_of_interest=POS_of_interest,
            TAG_of_interest=TAG_of_interest,
            connections=connections,
            unique_tokens=unique_tokens,
            spell_check_candidates=spell_check_candidates,
            spell_check_whitelist=spell_check_whitelist,
            spell_checker=spell_checker,
            corrections=corrections,
        )
        
        if count % UPDATE_STATUS == 0:
            logger.info(f'Number of entries processed: {count+1}, Percent completed: {((count+1) / length_data) * 100:.2f}')

INFO:base:Number of entries processed: 1, Percent completed: 0.01
INFO:base:Number of entries processed: 501, Percent completed: 6.79
INFO:base:Number of entries processed: 1001, Percent completed: 13.57
INFO:base:Number of entries processed: 1501, Percent completed: 20.34
INFO:base:Number of entries processed: 2001, Percent completed: 27.12
INFO:base:Number of entries processed: 2501, Percent completed: 33.89
INFO:base:Number of entries processed: 3001, Percent completed: 40.67
INFO:base:Number of entries processed: 3501, Percent completed: 47.45
INFO:base:Number of entries processed: 4001, Percent completed: 54.22
INFO:base:Number of entries processed: 4501, Percent completed: 61.00
INFO:base:Number of entries processed: 5001, Percent completed: 67.77
INFO:base:Number of entries processed: 5501, Percent completed: 74.55
INFO:base:Number of entries processed: 6001, Percent completed: 81.33
INFO:base:Number of entries processed: 6501, Percent completed: 88.10
INFO:base:Number of entrie

In [93]:
ADJ_DF_PATH = f'./Graphanalyse/adj_mat_df_{feature}.fth'
if not IS_TEST:
    if LOAD_CALC_FILES:
        adj_mat_undir = pd.read_feather(ADJ_DF_PATH)
        adj_mat_undir = adj_mat_undir.set_index('index')
        # additional information
        connections = load_pickle('connections.pkl')
        unique_tokens = load_pickle('unique_tokens.pkl')
    else:
        adj_mat = obtain_adj_matrix(unique_tokens=unique_tokens, connections=connections)
        adj_mat_undir = make_undir_adj_matrix(adj_mat=adj_mat)
        save_df = adj_mat_undir.reset_index()
        save_df.to_feather(ADJ_DF_PATH)
        # additional information
        save_pickle(obj=connections, path='connections.pkl')
        save_pickle(obj=unique_tokens, path='unique_tokens.pkl')

In [94]:
adj_mat_undir.sort_index()

Unnamed: 0,funktionsfähig,Zwischenbehälter,Ölfilter,Rechter,Kontaktproblem,Geschweisst,vorbereiten,Gelenkbolzen,Silikonfass,Ausbau,...,Kom,anlernen,nah,Begutachtung,Betriebszeit,paletten,augetreten,Antriebszahnrad,Gewindereparaturset,Heizventil
-20C,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
-Befestihgung,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
-Einlaufwalze,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
-Entlüftungssicherung,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
-Faltbalken,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
überzogenn,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
überzoggen,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
übrtprüfen,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
ünerziehen,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0


In [95]:
arr = adj_mat_undir.to_numpy()

In [96]:
np.count_nonzero(arr)

24171

In [97]:
np.max(arr)

103601

Threshold

In [110]:
WEIGHT_THRESHOLD = 30

In [111]:
arr = adj_mat_undir.to_numpy()

In [112]:
arr = np.where(arr < WEIGHT_THRESHOLD, 0, arr)

In [113]:
np.count_nonzero(arr)

138

In [116]:
thresh_adj_mat = adj_mat_undir.copy()
thresh_adj_mat.loc[:] = arr

In [117]:
thresh_adj_mat

Unnamed: 0,funktionsfähig,Zwischenbehälter,Ölfilter,Rechter,Kontaktproblem,Geschweisst,vorbereiten,Gelenkbolzen,Silikonfass,Ausbau,...,Kom,anlernen,nah,Begutachtung,Betriebszeit,paletten,augetreten,Antriebszahnrad,Gewindereparaturset,Heizventil
funktionsfähig,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
Zwischenbehälter,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
Ölfilter,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
Rechter,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
Kontaktproblem,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
paletten,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
augetreten,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
Antriebszahnrad,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
Gewindereparaturset,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0


In [118]:
ADJ_MAT_PATH_CSV = f'./Graphanalyse/adj_mat_thresh_{feature}_{WEIGHT_THRESHOLD}.csv'
thresh_adj_mat.to_csv(path_or_buf=ADJ_MAT_PATH_CSV, encoding='cp1252', sep=';')

---
# **Zusatz**

#### **Analysiere beispielhaft Eintrag mit meisten Duplikaten**

In [64]:
crit = uni_descr[171]
filt = wo_duplicates['VorgangsBeschreibung'] == crit
temp = wo_duplicates[filt]
print(f"Anzahl Einträge mit gewählter Beschreibung: {len(temp)}")

Anzahl Einträge mit gewählter Beschreibung: 47689


In [65]:
temp.head()

Unnamed: 0,VorgangsID,ObjektID,HObjektText,ObjektArtID,ObjektArtText,VorgangsTypID,VorgangsTypName,VorgangsDatum,VorgangsStatusId,VorgangsPrioritaet,VorgangsBeschreibung,VorgangsOrt,VorgangsArtText,ErledigungsDatum,ErledigungsArtText,ErledigungsBeschreibung,MPMelderArbeitsplatz,MPAbteilungBezeichnung,Arbeitsbeginn,ErstellungsDatum
288,155717,187,"246, Webmaschine Jacquard,",6,Jacquard-Webmaschine,1,Wartung,2022-04-01,5,0,Tägliche Wartungstätigkeiten nach Vorgabe des ...,,Tägliche Interne Wartungstätigkeiten Weberei,2022-04-01,Intern UTT - Sichtkontrolle,Sichtkontrolle durchgeführt\n\nAuffälligkeiten...,,,2022-04-01,2022-02-17
289,152507,177,"204 S SI , Webmaschine, DL 280 EMS Breite 220",3,Luft-Webmaschine,1,Wartung,2022-04-09,5,0,Tägliche Wartungstätigkeiten nach Vorgabe des ...,,Tägliche Interne Wartungstätigkeiten Weberei,2022-04-09,Intern UTT - Sichtkontrolle,Sichtkontrolle durchgeführt\n\nAuffälligkeiten...,,,2022-04-09,2022-02-17
318,255972,249,"203 C S SI, Webmaschine, DL 280 EMS Breite 220",3,Luft-Webmaschine,1,Wartung,2022-07-30,5,0,Tägliche Wartungstätigkeiten nach Vorgabe des ...,,Tägliche Interne Wartungstätigkeiten Weberei,2022-07-30,Intern UTT - Sichtkontrolle,Sichtkontrolle durchgeführt\n\nAuffälligkeiten...,,,2022-07-30,2022-04-28
319,255977,249,"203 C S SI, Webmaschine, DL 280 EMS Breite 220",3,Luft-Webmaschine,1,Wartung,2022-08-04,5,0,Tägliche Wartungstätigkeiten nach Vorgabe des ...,,Tägliche Interne Wartungstätigkeiten Weberei,2022-08-04,Intern UTT - Sichtkontrolle,Sichtkontrolle durchgeführt\n\nAuffälligkeiten...,,,2022-08-04,2022-04-28
340,267942,187,"246, Webmaschine Jacquard,",6,Jacquard-Webmaschine,1,Wartung,2022-08-07,5,0,Tägliche Wartungstätigkeiten nach Vorgabe des ...,,Tägliche Interne Wartungstätigkeiten Weberei,2022-08-07,Intern UTT - Sichtkontrolle,Sichtkontrolle durchgeführt\n\nAuffälligkeiten...,,,2022-08-07,2022-08-05


In [66]:
# schaue welche Merkmale abweichend sind
analyse_columns = ['ObjektID', 'VorgangsTypID', 'VorgangsTypName']

ObjektID

In [67]:
temp['ObjektID'].unique()

array([ 187,  177,  249, 2654, 1792,  272,  271,  270,  269,  268,  186,
        178,  179, 2317, 2318, 2473, 2559, 1244,  240,  241,  180,  220,
        221,  222,  223,  224,  961,  962, 2166, 3212,  267,  266,  181,
        182,  213,  214,  174,  175,  176,  156,  157,  158,  247,  248,
        183,  265,  278, 1793, 1794,  218,  217,  219,  215,  216, 2319,
       2320,  228,  184,  152,  153, 2165,  154,  155,  159,  167,  168,
        169, 2313, 2314, 2315, 2316,  212,  211,  160,  161,  162,  164,
        165,  166,  264,  273,  274,  277,  276,  275,  279,  280,  281,
        282,  283,  242,  243,  244,  245,  246,  225,  227,  229,  170,
        171,  172,  173,  230,  231, 3213, 3211, 3214], dtype=int64)

In [68]:
filt = temp['ObjektID'] == 2318
temp_fil1 = temp[filt]

In [69]:
temp_fil1.head()

Unnamed: 0,VorgangsID,ObjektID,HObjektText,ObjektArtID,ObjektArtText,VorgangsTypID,VorgangsTypName,VorgangsDatum,VorgangsStatusId,VorgangsPrioritaet,VorgangsBeschreibung,VorgangsOrt,VorgangsArtText,ErledigungsDatum,ErledigungsArtText,ErledigungsBeschreibung,MPMelderArbeitsplatz,MPAbteilungBezeichnung,Arbeitsbeginn,ErstellungsDatum
878,269743,2318,"A067, Webmaschine, DL 280 EMS Breite 280",3,Luft-Webmaschine,1,Wartung,2022-10-31,5,0,Tägliche Wartungstätigkeiten nach Vorgabe des ...,,Tägliche Interne Wartungstätigkeiten Weberei,2022-10-31,Intern UTT - Sichtkontrolle,Sichtkontrolle durchgeführt\n\nAuffälligkeiten...,,,2022-10-31,2022-08-05
6099,152490,2318,"A067, Webmaschine, DL 280 EMS Breite 280",3,Luft-Webmaschine,1,Wartung,2022-03-24,5,0,Tägliche Wartungstätigkeiten nach Vorgabe des ...,,Tägliche Interne Wartungstätigkeiten Weberei,2022-03-24,Intern UTT - Sichtkontrolle,Sichtkontrolle durchgeführt\n\nAuffälligkeiten...,,,2022-03-24,2022-02-17
13905,152476,2318,"A067, Webmaschine, DL 280 EMS Breite 280",3,Luft-Webmaschine,1,Wartung,2022-03-10,5,0,Tägliche Wartungstätigkeiten nach Vorgabe des ...,,Tägliche Interne Wartungstätigkeiten Weberei,2022-03-10,Intern UTT - Sichtkontrolle,Sichtkontrolle durchgeführt\n\nAuffälligkeiten...,,,2022-03-10,2022-02-17
14019,248301,2318,"A067, Webmaschine, DL 280 EMS Breite 280",3,Luft-Webmaschine,1,Wartung,2022-04-28,5,0,Tägliche Wartungstätigkeiten nach Vorgabe des ...,,Tägliche Interne Wartungstätigkeiten Weberei,2022-04-28,Intern UTT - Sichtkontrolle,Sichtkontrolle durchgeführt\n\nAuffälligkeiten...,,,2022-04-28,2022-04-14
14211,254914,2318,"A067, Webmaschine, DL 280 EMS Breite 280",3,Luft-Webmaschine,1,Wartung,2022-05-19,5,0,Tägliche Wartungstätigkeiten nach Vorgabe des ...,,Tägliche Interne Wartungstätigkeiten Weberei,2022-05-19,Intern UTT - Sichtkontrolle,Sichtkontrolle durchgeführt\n\nAuffälligkeiten...,,,2022-05-19,2022-04-28


In [70]:
temp_fil1['VorgangsDatum'].unique()

<DatetimeArray>
['2022-10-31 00:00:00', '2022-03-24 00:00:00', '2022-03-10 00:00:00',
 '2022-04-28 00:00:00', '2022-05-19 00:00:00', '2022-04-09 00:00:00',
 '2022-04-21 00:00:00', '2022-06-11 00:00:00', '2022-05-12 00:00:00',
 '2022-04-23 00:00:00',
 ...
 '2022-10-28 00:00:00', '2022-07-06 00:00:00', '2023-06-14 00:00:00',
 '2022-10-29 00:00:00', '2022-07-07 00:00:00', '2023-06-15 00:00:00',
 '2022-05-05 00:00:00', '2022-10-30 00:00:00', '2022-07-08 00:00:00',
 '2022-10-19 00:00:00']
Length: 462, dtype: datetime64[ns]

In [71]:
len(temp_fil1)

462

VorgangsID

In [None]:
uni_VorgangsID = temp['VorgangsID'].unique()
num_uni_VorgangsID = len(uni_VorgangsID)
print(f'Anzahl einzigartiger VorgangsID {num_uni_VorgangsID} mit Anteil am Gesamtdatensatz {num_uni_VorgangsID / len(temp) * 100:.2f} %')

Anzahl einzigartiger VorgangsID 1855 mit Anteil am Gesamtdatensatz 3.89 %


In [None]:
uni_VorgangsID[0]

155717

In [50]:
filt = temp['VorgangsID'] == uni_VorgangsID[0]
temp_fil1 = temp[filt]

In [51]:
temp_fil1

Unnamed: 0,VorgangsID,ObjektID,HObjektText,ObjektArtID,ObjektArtText,VorgangsTypID,VorgangsTypName,VorgangsDatum,VorgangsStatusId,VorgangsPrioritaet,VorgangsBeschreibung,VorgangsOrt,VorgangsArtText,ErledigungsDatum,ErledigungsArtText,ErledigungsBeschreibung,MPMelderArbeitsplatz,MPAbteilungBezeichnung,Arbeitsbeginn,ErstellungsDatum
288,155717,187,"246, Webmaschine Jacquard,",6,Jacquard-Webmaschine,1,Wartung,2022-04-01,5,0,Tägliche Wartungstätigkeiten nach Vorgabe des ...,,Tägliche Interne Wartungstätigkeiten Weberei,2022-04-01,Intern UTT - Sichtkontrolle,Sichtkontrolle durchgeführt\n\nAuffälligkeiten...,,,2022-04-01,2022-02-17
2718,155717,1792,"A057, Webmaschine Jacquard,",6,Jacquard-Webmaschine,1,Wartung,2022-04-01,5,0,Tägliche Wartungstätigkeiten nach Vorgabe des ...,,Tägliche Interne Wartungstätigkeiten Weberei,2022-04-01,Intern UTT - Sichtkontrolle,Sichtkontrolle durchgeführt\n\nAuffälligkeiten...,,,2022-04-01,2022-02-17
2719,155717,186,"245 J, Webmaschine Jacquard,",6,Jacquard-Webmaschine,1,Wartung,2022-04-01,5,0,Tägliche Wartungstätigkeiten nach Vorgabe des ...,,Tägliche Interne Wartungstätigkeiten Weberei,2022-04-01,Intern UTT - Sichtkontrolle,Sichtkontrolle durchgeführt\n\nAuffälligkeiten...,,,2022-04-01,2022-02-17
2720,155717,2473,"A056, Webmaschine Jacquard,",6,Jacquard-Webmaschine,1,Wartung,2022-04-01,5,0,Tägliche Wartungstätigkeiten nach Vorgabe des ...,,Tägliche Interne Wartungstätigkeiten Weberei,2022-04-01,Intern UTT - Sichtkontrolle,Sichtkontrolle durchgeführt\n\nAuffälligkeiten...,,,2022-04-01,2022-02-17
5504,155717,2559,"A070, Webmaschine Jacquard,",6,Jacquard-Webmaschine,1,Wartung,2022-04-01,5,0,Tägliche Wartungstätigkeiten nach Vorgabe des ...,,Tägliche Interne Wartungstätigkeiten Weberei,2022-04-01,Intern UTT - Sichtkontrolle,Sichtkontrolle durchgeführt\n\nAuffälligkeiten...,,,2022-04-01,2022-02-17
5505,155717,961,"A054, Webmaschine Jacquard,",6,Jacquard-Webmaschine,1,Wartung,2022-04-01,5,0,Tägliche Wartungstätigkeiten nach Vorgabe des ...,,Tägliche Interne Wartungstätigkeiten Weberei,2022-04-01,Intern UTT - Sichtkontrolle,Sichtkontrolle durchgeführt\n\nAuffälligkeiten...,,,2022-04-01,2022-02-17
5506,155717,962,"A055, Webmaschine Jacquard,",6,Jacquard-Webmaschine,1,Wartung,2022-04-01,5,0,Tägliche Wartungstätigkeiten nach Vorgabe des ...,,Tägliche Interne Wartungstätigkeiten Weberei,2022-04-01,Intern UTT - Sichtkontrolle,Sichtkontrolle durchgeführt\n\nAuffälligkeiten...,,,2022-04-01,2022-02-17
5507,155717,2166,"A061, Webmaschine Jacquard,",6,Jacquard-Webmaschine,1,Wartung,2022-04-01,5,0,Tägliche Wartungstätigkeiten nach Vorgabe des ...,,Tägliche Interne Wartungstätigkeiten Weberei,2022-04-01,Intern UTT - Sichtkontrolle,Sichtkontrolle durchgeführt\n\nAuffälligkeiten...,,,2022-04-01,2022-02-17
5508,155717,1793,"A058, Webmaschine Jacquard,",6,Jacquard-Webmaschine,1,Wartung,2022-04-01,5,0,Tägliche Wartungstätigkeiten nach Vorgabe des ...,,Tägliche Interne Wartungstätigkeiten Weberei,2022-04-01,Intern UTT - Sichtkontrolle,Sichtkontrolle durchgeführt\n\nAuffälligkeiten...,,,2022-04-01,2022-02-17
5509,155717,1794,"A059, Webmaschine Jacquard,",6,Jacquard-Webmaschine,1,Wartung,2022-04-01,5,0,Tägliche Wartungstätigkeiten nach Vorgabe des ...,,Tägliche Interne Wartungstätigkeiten Weberei,2022-04-01,Intern UTT - Sichtkontrolle,Sichtkontrolle durchgeführt\n\nAuffälligkeiten...,,,2022-04-01,2022-02-17


In [63]:
temp_fil2 = temp_fil1.fillna(value=False)
print(f'Anzahl Einträge mit gewählter VorgangsID: {len(temp_fil2)}')
uni_obj_id = len(temp_fil2['ObjektID'].unique())
print(f'Anzahl einzigartiger ObjektIDs darunter: {uni_obj_id}')

Anzahl Einträge mit gewählter VorgangsID: 11
Anzahl einzigartiger ObjektIDs darunter: 11


In [72]:
temp_fil2['ObjektID'].unique()

array([ 187, 1792,  186, 2473, 2559,  961,  962, 2166, 1793, 1794, 2165],
      dtype=int64)

In [55]:
temp_fil2

Unnamed: 0,VorgangsID,ObjektID,HObjektText,ObjektArtID,ObjektArtText,VorgangsTypID,VorgangsTypName,VorgangsDatum,VorgangsStatusId,VorgangsPrioritaet,VorgangsBeschreibung,VorgangsOrt,VorgangsArtText,ErledigungsDatum,ErledigungsArtText,ErledigungsBeschreibung,MPMelderArbeitsplatz,MPAbteilungBezeichnung,Arbeitsbeginn,ErstellungsDatum
288,155717,187,"246, Webmaschine Jacquard,",6,Jacquard-Webmaschine,1,Wartung,2022-04-01,5,0,Tägliche Wartungstätigkeiten nach Vorgabe des ...,False,Tägliche Interne Wartungstätigkeiten Weberei,2022-04-01,Intern UTT - Sichtkontrolle,Sichtkontrolle durchgeführt\n\nAuffälligkeiten...,False,False,2022-04-01,2022-02-17
2718,155717,1792,"A057, Webmaschine Jacquard,",6,Jacquard-Webmaschine,1,Wartung,2022-04-01,5,0,Tägliche Wartungstätigkeiten nach Vorgabe des ...,False,Tägliche Interne Wartungstätigkeiten Weberei,2022-04-01,Intern UTT - Sichtkontrolle,Sichtkontrolle durchgeführt\n\nAuffälligkeiten...,False,False,2022-04-01,2022-02-17
2719,155717,186,"245 J, Webmaschine Jacquard,",6,Jacquard-Webmaschine,1,Wartung,2022-04-01,5,0,Tägliche Wartungstätigkeiten nach Vorgabe des ...,False,Tägliche Interne Wartungstätigkeiten Weberei,2022-04-01,Intern UTT - Sichtkontrolle,Sichtkontrolle durchgeführt\n\nAuffälligkeiten...,False,False,2022-04-01,2022-02-17
2720,155717,2473,"A056, Webmaschine Jacquard,",6,Jacquard-Webmaschine,1,Wartung,2022-04-01,5,0,Tägliche Wartungstätigkeiten nach Vorgabe des ...,False,Tägliche Interne Wartungstätigkeiten Weberei,2022-04-01,Intern UTT - Sichtkontrolle,Sichtkontrolle durchgeführt\n\nAuffälligkeiten...,False,False,2022-04-01,2022-02-17
5504,155717,2559,"A070, Webmaschine Jacquard,",6,Jacquard-Webmaschine,1,Wartung,2022-04-01,5,0,Tägliche Wartungstätigkeiten nach Vorgabe des ...,False,Tägliche Interne Wartungstätigkeiten Weberei,2022-04-01,Intern UTT - Sichtkontrolle,Sichtkontrolle durchgeführt\n\nAuffälligkeiten...,False,False,2022-04-01,2022-02-17
5505,155717,961,"A054, Webmaschine Jacquard,",6,Jacquard-Webmaschine,1,Wartung,2022-04-01,5,0,Tägliche Wartungstätigkeiten nach Vorgabe des ...,False,Tägliche Interne Wartungstätigkeiten Weberei,2022-04-01,Intern UTT - Sichtkontrolle,Sichtkontrolle durchgeführt\n\nAuffälligkeiten...,False,False,2022-04-01,2022-02-17
5506,155717,962,"A055, Webmaschine Jacquard,",6,Jacquard-Webmaschine,1,Wartung,2022-04-01,5,0,Tägliche Wartungstätigkeiten nach Vorgabe des ...,False,Tägliche Interne Wartungstätigkeiten Weberei,2022-04-01,Intern UTT - Sichtkontrolle,Sichtkontrolle durchgeführt\n\nAuffälligkeiten...,False,False,2022-04-01,2022-02-17
5507,155717,2166,"A061, Webmaschine Jacquard,",6,Jacquard-Webmaschine,1,Wartung,2022-04-01,5,0,Tägliche Wartungstätigkeiten nach Vorgabe des ...,False,Tägliche Interne Wartungstätigkeiten Weberei,2022-04-01,Intern UTT - Sichtkontrolle,Sichtkontrolle durchgeführt\n\nAuffälligkeiten...,False,False,2022-04-01,2022-02-17
5508,155717,1793,"A058, Webmaschine Jacquard,",6,Jacquard-Webmaschine,1,Wartung,2022-04-01,5,0,Tägliche Wartungstätigkeiten nach Vorgabe des ...,False,Tägliche Interne Wartungstätigkeiten Weberei,2022-04-01,Intern UTT - Sichtkontrolle,Sichtkontrolle durchgeführt\n\nAuffälligkeiten...,False,False,2022-04-01,2022-02-17
5509,155717,1794,"A059, Webmaschine Jacquard,",6,Jacquard-Webmaschine,1,Wartung,2022-04-01,5,0,Tägliche Wartungstätigkeiten nach Vorgabe des ...,False,Tägliche Interne Wartungstätigkeiten Weberei,2022-04-01,Intern UTT - Sichtkontrolle,Sichtkontrolle durchgeführt\n\nAuffälligkeiten...,False,False,2022-04-01,2022-02-17


*Frage: Können einem Vorgang mehrere ObjektIDs zugeordnet werden? Wenn ja, warum dann unterschiedliche Erledigungsdaten?*

**Länge der Beschreibungen**

In [73]:
descriptions = descriptions.to_frame()
descriptions['length_description'] = descriptions.applymap(func=lambda x: len(x))
descriptions = descriptions.sort_values(by=['length_description'], ascending=False)

In [74]:
# stats
len_descr = descriptions['length_description']
len_descr.describe()

count    124008.000000
mean         70.351751
std          53.080901
min           1.000000
25%          66.000000
50%          66.000000
75%          67.000000
max        3137.000000
Name: length_description, dtype: float64

In [75]:
descriptions.head()

Unnamed: 0,VorgangsBeschreibung,length_description
8704,Vorgaben aus Held Wartungsplan\n\nLC-X-Achse /...,3137
7826,Vorgaben aus Held Wartungsplan\n\nLC-X-Achse /...,3137
49779,Laut Wartungsvertrag (Hr.Radtke) Bestellnummer...,2311
124118,Laut Wartungsvertrag (Hr.Radtke) Bestellnummer...,2311
14853,Laut Wartungsvertrag (Hr.Radtke) Bestellnummer...,2311


In [76]:
descriptions

Unnamed: 0,VorgangsBeschreibung,length_description
8704,Vorgaben aus Held Wartungsplan\n\nLC-X-Achse /...,3137
7826,Vorgaben aus Held Wartungsplan\n\nLC-X-Achse /...,3137
49779,Laut Wartungsvertrag (Hr.Radtke) Bestellnummer...,2311
124118,Laut Wartungsvertrag (Hr.Radtke) Bestellnummer...,2311
14853,Laut Wartungsvertrag (Hr.Radtke) Bestellnummer...,2311
...,...,...
13450,,1
13451,,1
29979,,1
13452,,1
