# Versuch Konstruktion Zeitachse im Datensatz

- einzigartige ObjektIDs
    - Einzigartigkeit verifizieren mittels HObjektText
- je ObjektID Identifikation von Störungen
- Analyse ähnlicher Störbilder
- Nutzung:
    - VorgangsTypName 
    - VorgangsBeschreibung
    - VorgangsArtText
    - evtl. concat

In [1]:
%load_ext autoreload
%autoreload 2

In [1]:
import numpy as np
import pandas as pd
from pandas import DataFrame, Series
import spacy
from spacy.lang.de import German as GermanSpacyModel
import sentence_transformers
from sentence_transformers import SentenceTransformer
from collections import Counter
from itertools import combinations
from dateutil.parser import parse
import re


import logging
import sys
import pickle
import os
from pathlib import Path

from lang_main import (
    save_pickle,
    load_pickle,
    SAVE_PATH_FOLDER,
)

LOGGING_LEVEL = 'INFO'
logging.basicConfig(level=LOGGING_LEVEL, stream=sys.stdout)
logger = logging.getLogger('base')

  _torch_pytree._register_pytree_node(


INFO:ihm_analyse.helpers:Loaded TOML config file successfully.


In [2]:
model_stfr = SentenceTransformer('sentence-transformers/all-mpnet-base-v2')

INFO:sentence_transformers.SentenceTransformer:Load pretrained SentenceTransformer: sentence-transformers/all-mpnet-base-v2


  _torch_pytree._register_pytree_node(
  _torch_pytree._register_pytree_node(


INFO:sentence_transformers.SentenceTransformer:Use pytorch device_name: cpu


In [3]:
p = Path(os.getcwd()) / SAVE_PATH_FOLDER
p

WindowsPath('A:/Arbeitsaufgaben/lang-main/test-notebooks/results/test_new2')

In [4]:
folder = list(p.glob(r'*'))
folder

[WindowsPath('A:/Arbeitsaufgaben/lang-main/test-notebooks/results/test_new2/Pipe-TargetFeature_Step-3_remove_NA.pickle')]

In [5]:
ret = load_pickle(folder[0])
data = ret[0]
len(data)

INFO:ihm_analyse.helpers:Loaded file successfully.


123457

In [6]:
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 123457 entries, 0 to 123456
Data columns (total 20 columns):
 #   Column                   Non-Null Count   Dtype         
---  ------                   --------------   -----         
 0   VorgangsID               123457 non-null  int64         
 1   ObjektID                 123457 non-null  int64         
 2   HObjektText              123442 non-null  object        
 3   ObjektArtID              123457 non-null  int64         
 4   ObjektArtText            122880 non-null  object        
 5   VorgangsTypID            123457 non-null  int64         
 6   VorgangsTypName          123457 non-null  object        
 7   VorgangsDatum            123457 non-null  datetime64[ns]
 8   VorgangsStatusId         123457 non-null  int64         
 9   VorgangsPrioritaet       123457 non-null  int64         
 10  VorgangsBeschreibung     123457 non-null  object        
 11  VorgangsOrt              490 non-null     object        
 12  VorgangsArtText 

---

# Gather timeline candidates

In [23]:
from lang_main.analysis.timeline import (
    non_relevant_obj_ids,
    remove_non_relevant_obj_ids,
    filter_activities_per_obj_id,
    generate_model_input,
    get_timeline_candidates_index,
)

In [24]:
ret = load_pickle(folder[0])
data = ret[0]
print(f"{len(data)=}")
data = remove_non_relevant_obj_ids(data, thresh_unique_feat_per_id=4)
data.info()

INFO:ihm_analyse.helpers:Loaded file successfully.
len(data)=123457
<class 'pandas.core.frame.DataFrame'>
Index: 122958 entries, 0 to 123456
Data columns (total 20 columns):
 #   Column                   Non-Null Count   Dtype         
---  ------                   --------------   -----         
 0   VorgangsID               122958 non-null  int64         
 1   ObjektID                 122958 non-null  int64         
 2   HObjektText              122953 non-null  object        
 3   ObjektArtID              122958 non-null  int64         
 4   ObjektArtText            122880 non-null  object        
 5   VorgangsTypID            122958 non-null  int64         
 6   VorgangsTypName          122958 non-null  object        
 7   VorgangsDatum            122958 non-null  datetime64[ns]
 8   VorgangsStatusId         122958 non-null  int64         
 9   VorgangsPrioritaet       122958 non-null  int64         
 10  VorgangsBeschreibung     122958 non-null  object        
 11  VorgangsOrt    

In [25]:
data['VorgangsTypName'].unique()

array(['Reparaturauftrag (Portal)', 'Wartung', 'Störungsmeldung'],
      dtype=object)

In [26]:
activity_types = [
    'Reparaturauftrag (Portal)',
    'Störungsmeldung',
]

(data, num_activities_per_obj_id) =\
filter_activities_per_obj_id(data, relevant_activity_types=activity_types)
num_activities_per_obj_id

ObjektID
1       283
1654    243
7       223
151     189
140     140
       ... 
1698      2
683       2
1135      2
2170      2
297       2
Name: count, Length: 366, dtype: int64

In [27]:
data.info()

<class 'pandas.core.frame.DataFrame'>
Index: 6104 entries, 0 to 123456
Data columns (total 20 columns):
 #   Column                   Non-Null Count  Dtype         
---  ------                   --------------  -----         
 0   VorgangsID               6104 non-null   int64         
 1   ObjektID                 6104 non-null   int64         
 2   HObjektText              6103 non-null   object        
 3   ObjektArtID              6104 non-null   int64         
 4   ObjektArtText            6087 non-null   object        
 5   VorgangsTypID            6104 non-null   int64         
 6   VorgangsTypName          6104 non-null   object        
 7   VorgangsDatum            6104 non-null   datetime64[ns]
 8   VorgangsStatusId         6104 non-null   int64         
 9   VorgangsPrioritaet       6104 non-null   int64         
 10  VorgangsBeschreibung     6104 non-null   object        
 11  VorgangsOrt              0 non-null      object        
 12  VorgangsArtText          6104 non-nul

In [28]:
# VorgangsTypName, VorgangsArtText, VorgangsBeschreibung
prop_interest = ['VorgangsTypName', 'VorgangsArtText', 'VorgangsBeschreibung']
prop_interest = ['VorgangsArtText', 'VorgangsBeschreibung']
prop_interest = ['VorgangsBeschreibung']

target_feature_name = 'nlp_model_input'

In [29]:
anlys_data = generate_model_input(data, target_feature_name, model_input_features=prop_interest)

In [30]:
anlys_data.info()

<class 'pandas.core.frame.DataFrame'>
Index: 6104 entries, 0 to 123456
Data columns (total 21 columns):
 #   Column                   Non-Null Count  Dtype         
---  ------                   --------------  -----         
 0   VorgangsID               6104 non-null   int64         
 1   ObjektID                 6104 non-null   int64         
 2   HObjektText              6103 non-null   object        
 3   ObjektArtID              6104 non-null   int64         
 4   ObjektArtText            6087 non-null   object        
 5   VorgangsTypID            6104 non-null   int64         
 6   VorgangsTypName          6104 non-null   object        
 7   VorgangsDatum            6104 non-null   datetime64[ns]
 8   VorgangsStatusId         6104 non-null   int64         
 9   VorgangsPrioritaet       6104 non-null   int64         
 10  VorgangsBeschreibung     6104 non-null   object        
 11  VorgangsOrt              0 non-null      object        
 12  VorgangsArtText          6104 non-nul

In [31]:
anlys_data.loc[anlys_data['HObjektText'].isna()]

Unnamed: 0,VorgangsID,ObjektID,HObjektText,ObjektArtID,ObjektArtText,VorgangsTypID,VorgangsTypName,VorgangsDatum,VorgangsStatusId,VorgangsPrioritaet,...,VorgangsOrt,VorgangsArtText,ErledigungsDatum,ErledigungsArtText,ErledigungsBeschreibung,MPMelderArbeitsplatz,MPAbteilungBezeichnung,Arbeitsbeginn,ErstellungsDatum,nlp_model_input
52136,262888,315,,32,Flurförderzeuge / Putzmaschine / Rasenmäher,3,Reparaturauftrag (Portal),2022-07-11,5,0,...,,Flurförderzeug,2022-07-12,Intern UTT - Wartung,Räder gereinigt,Versand,Versand,2022-07-12,2022-07-11,Laufrollen verstopft (Garn)


In [32]:
anlys_data.loc[anlys_data['ObjektID']==315]

Unnamed: 0,VorgangsID,ObjektID,HObjektText,ObjektArtID,ObjektArtText,VorgangsTypID,VorgangsTypName,VorgangsDatum,VorgangsStatusId,VorgangsPrioritaet,...,VorgangsOrt,VorgangsArtText,ErledigungsDatum,ErledigungsArtText,ErledigungsBeschreibung,MPMelderArbeitsplatz,MPAbteilungBezeichnung,Arbeitsbeginn,ErstellungsDatum,nlp_model_input
1082,201309,315,"B15, Niederhubwagen,",32,Flurförderzeuge / Putzmaschine / Rasenmäher,3,Reparaturauftrag (Portal),2022-02-21,5,0,...,,Flurförderzeug,2022-02-22,Intern UTT - Reparatur,Laufrollen gesäubert und teilweise ausgewechselt.,Versand,Versand,2022-02-22,2022-02-21,Laufrollen vorne tauschen/säubern
1710,65146,315,"B15, Niederhubwagen,",32,Flurförderzeuge / Putzmaschine / Rasenmäher,3,Reparaturauftrag (Portal),2020-11-12,5,0,...,,Flurförderzeug,2020-11-12,Intern UTT - Reinigung,Räder von Fäden befreit.,Versand,Versand,2020-11-12,2020-11-12,Laufrollen vorne bedingt einsatzfähig
3525,146538,315,"B15, Niederhubwagen,",32,Flurförderzeuge / Putzmaschine / Rasenmäher,3,Reparaturauftrag (Portal),2021-12-16,5,0,...,,Flurförderzeug,2021-12-16,Intern UTT - Reparatur,Stützrad beide erneuert\n,Weberei,Weberei,2021-12-16,2021-12-16,Stützrad defekt
3786,260011,315,"B15, Niederhubwagen,",32,Flurförderzeuge / Putzmaschine / Rasenmäher,3,Reparaturauftrag (Portal),2022-06-01,5,0,...,,Flurförderzeug,2022-06-02,Intern UTT - Reparatur,Laufrollen gereinigt,Versand,Versand,2022-06-02,2022-06-01,Laufrollen reinigen (Garnfäden)
11101,520758,315,"B15, Niederhubwagen,",32,Flurförderzeuge / Putzmaschine / Rasenmäher,3,Reparaturauftrag (Portal),2023-04-05,5,0,...,,Flurförderzeug,2023-04-21,Extern - Reparatur,"Fahrzeug verliert öl, Monteur muss verständigt...",Vorwerk,Vorwerk,2023-04-06,2023-04-05,Verliert Öl.\nWenn Fz. länger steht bildet sic...
13645,139405,315,"B15, Niederhubwagen,",32,Flurförderzeuge / Putzmaschine / Rasenmäher,2,Störungsmeldung,2021-09-16,5,0,...,,Flurförderzeug,2021-09-16,Intern UTT - Reparatur,Räder gesäubert,,,2021-09-16,2021-09-16,Räder Sauber machen
14105,62552,315,"B15, Niederhubwagen,",32,Flurförderzeuge / Putzmaschine / Rasenmäher,3,Reparaturauftrag (Portal),2020-10-23,5,0,...,,Flurförderzeug,2020-10-22,Intern UTT - Reparatur,Laufrollen gesäubert,Versand,Versand,2020-10-22,2020-10-23,Laufrollen säubern
22686,61759,315,"B15, Niederhubwagen,",32,Flurförderzeuge / Putzmaschine / Rasenmäher,3,Reparaturauftrag (Portal),2020-09-23,5,0,...,,Flurförderzeug,2020-09-24,Intern UTT - Reparatur,Bügel ausgerichtet und Räder von Fäden befreit.,Weberei,Weberei,2020-09-24,2020-09-23,Schutzbügel defekt verbogen bitte richten und ...
24898,51614,315,"B15, Niederhubwagen,",32,Flurförderzeuge / Putzmaschine / Rasenmäher,3,Reparaturauftrag (Portal),2020-08-05,5,0,...,,Flurförderzeug,2020-08-05,Intern UTT - Reparatur,Bügel erneuert. Da ausrichten nicht möglich war,Weberei,Weberei,2020-08-05,2020-08-05,Bügel verbogen bitte ausrichten
25405,65283,315,"B15, Niederhubwagen,",32,Flurförderzeuge / Putzmaschine / Rasenmäher,3,Reparaturauftrag (Portal),2020-11-16,5,0,...,,Flurförderzeug,2020-11-19,Intern UTT - Reparatur,Bügel und Stützräder getauscht,Versand,Versand,2020-11-19,2020-11-16,Schutzbügel defekt >reparatur reicht am 17.11....


In [33]:
test = num_activities_per_obj_id.iloc[300:302].copy()
test

ObjektID
640    3
287    3
Name: count, dtype: int64

In [34]:
tl_candidates = get_timeline_candidates_index(
    data=anlys_data,
    num_activities_per_obj_id=test,
    model=model_stfr,
    cos_sim_threshold=0.1,
    model_input_feature=target_feature_name,
)

In [35]:
for (obj_id, cands) in tl_candidates:
    print(f'{obj_id=}, {cands=}')

INFO:ihm_analyse.graphs:Graph properties: 3 Nodes, 3 Edges
INFO:ihm_analyse.graphs:Node memory: 0.09 KB
INFO:ihm_analyse.graphs:Edge memory: 0.16 KB
INFO:ihm_analyse.graphs:Total memory: 0.26 KB
obj_id=640, cands=[14720, 27393, 3878]
INFO:ihm_analyse.graphs:Graph properties: 3 Nodes, 3 Edges
INFO:ihm_analyse.graphs:Node memory: 0.09 KB
INFO:ihm_analyse.graphs:Edge memory: 0.16 KB
INFO:ihm_analyse.graphs:Total memory: 0.26 KB
obj_id=287, cands=[19665, 61717, 15983]


In [36]:
res = anlys_data.loc[[14720, 27393, 3878]]
res

Unnamed: 0,VorgangsID,ObjektID,HObjektText,ObjektArtID,ObjektArtText,VorgangsTypID,VorgangsTypName,VorgangsDatum,VorgangsStatusId,VorgangsPrioritaet,...,VorgangsOrt,VorgangsArtText,ErledigungsDatum,ErledigungsArtText,ErledigungsBeschreibung,MPMelderArbeitsplatz,MPAbteilungBezeichnung,Arbeitsbeginn,ErstellungsDatum,nlp_model_input
14720,3798,640,"R35, Schnelllauftor,",36,Falt- und Schnelllauftore,2,Störungsmeldung,2019-07-03,5,0,...,,Schnelllauftor,2019-07-04,Reparatur UTT,Elektrokabel aus dem Führungsrahmen entfernt.,,,2019-07-04,2019-07-03,Behang hängt bei Bedinung schief \nbitte kont...
27393,10974,640,"R35, Schnelllauftor,",36,Falt- und Schnelllauftore,3,Reparaturauftrag (Portal),2019-09-11,5,0,...,,Schnelllauftor,2019-09-11,Reparatur UTT,vom Schnelllauftor die Schiene ausgebaut und a...,Weberei,Weberei,2019-09-11,2019-09-11,Schnellauftor R35 Defekt in Halle 54\nGewalts...
3878,145910,640,"R35, Schnelllauftor,",36,Falt- und Schnelllauftore,2,Störungsmeldung,2021-11-24,5,0,...,,Allgemeine Reparaturarbeiten,2021-12-16,Intern UTT - Reparatur,Beim Tor unterstes Torelement ausgerichtet abe...,,,2021-12-16,2021-11-24,"Abdeckung austauschen, wurde angefahren"


In [49]:
import plotly.express as px
import plotly.io as pio
pio.renderers.default = 'iframe'

In [73]:
def filter_df(data, obj_id, cands):
    res = data.loc[cands]
    texts = res['HObjektText']
    obj_text = texts.loc[~(texts.isna())].iat[0]
    obj_text = obj_text.strip(r' ,.:')
    return obj_text

In [74]:
text = filter_df(anlys_data, 640, [14720, 27393, 3878])

In [75]:
text

'R35, Schnelllauftor'

In [50]:
t = res['ErstellungsDatum'].sort_values(ascending=True)

In [51]:
t

14720   2019-07-03
27393   2019-09-11
3878    2021-11-24
Name: ErstellungsDatum, dtype: datetime64[ns]

In [57]:
fig = px.scatter(data_frame=res, x='ErstellungsDatum')
fig.update_yaxes(type='category')

In [113]:
# filter each ObjID, get model input with index
for obj_id in test.index:
    test2 = anlys_data.loc[anlys_data[test.index.name]==obj_id]
    test2 = test2[target_feature_name]
test2

123735    Kettschrauben abgebrochen (Gewinde schneiden)
Name: nlp_model_input, dtype: object

In [292]:
batch = obj_data.conc.to_list()
batch

['Regalbediengerät fällt immer wieder aus.\nFehlercode VZK ER 204/ER 226 während der Fahrt.\nFehlercode VZK ER 208 / ER 209',
 'Hochregalstapler stoppt ständig.\nFehleranzeige: VZA ER 179',
 'Hier wird ein Hochlagerstapler Spezialist benötigt..\n\nToyota Herr Jörg Langner tel_Nr. 0172-8218647 UVV\nDambach B12 (A)\n\n\nFehlermeldung:\nKetten schlaff\nFehlermeldung: VZK - ER229\n\n\nfehlermeldung trift nur sporadisch auf...\nLaut Herr Frick beibt Gerät in Höhe stehen und fährt erst nach mehrmaligem Neustart oder teilweiseerst nach bis zu ca. 30Min.\nwieder. \n\nLaut Herr Spennesberger soll Herr Langner (Toyota) anscheinend nächste Woche auch zur UVV erscheinen.',
 'Gabeldrehen defekt > Kette gerissen\n\nSeitenhub defekt > Führung verbogen gerissen\n\nStapler ist irgendwo (? Regal ? ) angefahren\n\n',
 'Herrn Langner bitte nochmals anfordern. Aktuell steht das Fahrzeug. Fehlercode VZA OK / VZK Error(s) Er229 / VZB OK\nFr. Stöppel hat Herr Langer benachrichtigt.\nElektriker bitte Schalter 

In [293]:
embds = model_stfr.encode(batch)

Batches: 100%|██████████| 1/1 [00:01<00:00,  1.77s/it]


In [294]:
cos_sim = sentence_transformers.util.cos_sim(embds, embds).numpy()
np.fill_diagonal(cos_sim, 0.)
cos_sim = np.triu(cos_sim)
#cos_sim

In [299]:
THRESHOLD = 0.5
#np.where(cos_sim > THRESHOLD, cos_sim, 0)
indices = np.argwhere(cos_sim >= THRESHOLD)

In [287]:
for idx_pair in indices:
    idx1 = idx_pair[0]
    idx2 = idx_pair[1]
    text1 = batch[idx1]
    text2 = batch[idx2]
    
    cos_sim_val = cos_sim[idx1,idx2]
    
    print(f"{text1=}, \n {text2=}, \n {cos_sim_val=} \n\n")

text1='Reparaturauftrag (Portal) - Allgemeine Reparaturarbeiten  - bei Laser1 an Bandsäge band abgerissen\nund bitte Hydraulikbremsfeder kontrollieren', 
 text2='Reparaturauftrag (Portal) - Allgemeine Reparaturarbeiten  - Bandsäge ein-aus schalter defekt.\n(Haltering von Stellschraube gebrochen) dieser fährt auf Endschalter', 
 cos_sim_val=0.60256654 


text1='Reparaturauftrag (Portal) - Allgemeine Reparaturarbeiten  - bei Laser1 an Bandsäge band abgerissen\nund bitte Hydraulikbremsfeder kontrollieren', 
 text2='Reparaturauftrag (Portal) - Allgemeine Reparaturarbeiten  - Bandsäge defekt geht sehr schwer hoch Hydraulik Problem     NICHT ERLEDIGT!!!!!!!\n\n13.06.2022: Feder eingebaut durch Hr. Özdemir und funtkionstüchtig', 
 cos_sim_val=0.56998414 


text1='Reparaturauftrag (Portal) - Allgemeine Reparaturarbeiten  - Bandsäge ein-aus schalter defekt.\n(Haltering von Stellschraube gebrochen) dieser fährt auf Endschalter', 
 text2='Reparaturauftrag (Portal) - Allgemeine Reparaturarbeiten  

In [290]:
# test ID with small amount of entries
# e.g. 19
OBJ_ID_INTEREST = 311 # 311 # 87 #19
obj_data = anlys_data.loc[
    ((anlys_data.ObjektID==OBJ_ID_INTEREST) & 
    (anlys_data.VorgangsTypName=='Reparaturauftrag (Portal)')),:
].copy()

'\nobj_data = anlys_data.loc[\n    anlys_data.ObjektID==OBJ_ID_INTEREST,:\n].copy()\n'

In [3]:
LOAD_CALC_FILES = False

# load preprocessed dataset
DATA_SET_ID = 'Export4'

SAVE_PATH_DF_DUPL_OCCUR = f'./02_1_Preprocess1/{DATA_SET_ID}_00_DF_wo_dupl.parquet'
data = pd.read_parquet(SAVE_PATH_DF_DUPL_OCCUR)

data.head()

In [11]:
data.iloc[:10,:].HObjektText.unique()

array(['427 C , Webmaschine, DL 280 EMS Breite 280 ',
       '621 C , Webmaschine, DL 280 EMS Breite 280 ',
       '285 C, Webmaschine, SG 220 EMS', '107, Webmaschine, OM 220 EOS',
       '00138, Schärmaschine 9, ', 'Warenschau allgemein',
       'Neben der Türe', 'Schlagloch im Kettregalgang',
       '294 C, Webmaschine, SG 240 EMS',
       'Umkleideraum Herren beim Haupteingang'], dtype=object)

In [13]:
ret = data.loc[(data.ObjektID==0), 'HObjektText']

In [14]:
len(ret)

517

In [15]:
len(ret.unique())

306

In [25]:
# mapping: dict[ObjektID, (total num of entries for given ID,
# total num of unique objekt texts)]
id_to_num_objs: dict[int, (int, int)] = dict()

for obj_id in data.ObjektID.unique():
    temp = data.loc[(data.ObjektID==obj_id), 'HObjektText']
    temp1 = len(temp)
    temp2 = len(temp.unique())
    
    id_to_num_objs[obj_id] = (temp1, temp2)
    
    if temp2 > 3:
        print(f"{obj_id=}, uni texts: {temp2}")

obj_id=0, uni texts: 306
obj_id=906, uni texts: 4
obj_id=1110, uni texts: 4


In [199]:
# get ObIDs with repair orders and sort by number of occurences
repair_freq = data.loc[(data.VorgangsTypName=='Reparaturauftrag (Portal)'), 'ObjektID'].value_counts()
repair_freq

ObjektID
0       443
1       253
1654    223
7       207
151     185
       ... 
686       1
942       1
387       1
1122      1
1797      1
Name: count, Length: 389, dtype: int64

In [236]:
num_entry = 150
count = repair_freq.iat[num_entry]
idx = repair_freq.index[num_entry]
print(f'{idx=}, {count=}')

idx=311, count=12


In [237]:
idx_overview = pd.DataFrame.from_dict(
    id_to_num_objs, 
    orient='index',
    columns=['num_entries', 'num_uni_ids']
).sort_index()
idx_overview.index.name = 'ObID'
idx_overview = idx_overview.sort_values(by='num_entries', ascending=False)
idx_overview

Unnamed: 0_level_0,num_entries,num_uni_ids
ObID,Unnamed: 1_level_1,Unnamed: 2_level_1
1110,1289,4
1698,930,2
910,732,2
1726,698,2
1694,646,1
...,...,...
2705,1,1
2702,1,1
2701,1,1
2700,1,1


In [190]:
idx_overview.iloc[1500,:]

num_entries    2
num_uni_ids    1
Name: 2472, dtype: int64

- nur ObjektID==0 mehrfach vergeben
- andere IDs nutzbar

In [126]:
anlys_data = data.loc[(data.ObjektID!=0), :].copy()

In [127]:
print(f"{len(data)=}, {len(anlys_data)=}")

len(data)=128936, len(anlys_data)=128419


In [288]:
# VorgangsTypName, VorgangsArtText, VorgangsBeschreibung
prop_interest = [
    'VorgangsTypName', 
    'VorgangsArtText', 
    'VorgangsBeschreibung'
]

prop_interest = [
    'VorgangsArtText', 
    'VorgangsBeschreibung'
]

prop_interest = [
    'VorgangsBeschreibung'
]


In [289]:
# concat features of interest
for it, prop in enumerate(prop_interest):
    if it == 0:
        anlys_data['conc'] = anlys_data[prop].fillna('').astype(str)
    else:
        anlys_data['conc'] = anlys_data['conc'] + ' - ' + anlys_data[prop].fillna('').astype(str)

In [290]:
# test ID with small amount of entries
# e.g. 19
OBJ_ID_INTEREST = 311 # 311 # 87 #19
obj_data = anlys_data.loc[
    ((anlys_data.ObjektID==OBJ_ID_INTEREST) & 
    (anlys_data.VorgangsTypName=='Reparaturauftrag (Portal)')),:
].copy()
"""
obj_data = anlys_data.loc[
    anlys_data.ObjektID==OBJ_ID_INTEREST,:
].copy()
"""

'\nobj_data = anlys_data.loc[\n    anlys_data.ObjektID==OBJ_ID_INTEREST,:\n].copy()\n'

In [291]:
obj_data.head()

Unnamed: 0,VorgangsID,ObjektID,HObjektText,ObjektArtID,ObjektArtText,VorgangsTypID,VorgangsTypName,VorgangsDatum,VorgangsStatusId,VorgangsPrioritaet,...,VorgangsOrt,VorgangsArtText,ErledigungsDatum,ErledigungsArtText,ErledigungsBeschreibung,MPMelderArbeitsplatz,MPAbteilungBezeichnung,Arbeitsbeginn,ErstellungsDatum,conc
254,142283,311,"B12 (A), Regalbediengerät,",32,Flurförderzeuge / Putzmaschine / Rasenmäher,3,Reparaturauftrag (Portal),2021-11-02,5,0,...,,Flurförderzeug,2021-11-23,Extern - Kundendienst,Externer Kundendienst wurde durchgeführt\n\nBe...,Versand,Versand,2021-11-23,2021-11-02,Regalbediengerät fällt immer wieder aus.\nFehl...
12485,136107,311,"B12 (A), Regalbediengerät,",32,Flurförderzeuge / Putzmaschine / Rasenmäher,3,Reparaturauftrag (Portal),2021-08-17,5,0,...,,Flurförderzeug,2021-08-23,Extern - Reparatur,Externe Reparatur wurde durchgeführt\n\nBeanst...,Versand,Versand,2021-08-23,2021-08-17,Hochregalstapler stoppt ständig.\nFehleranzeig...
14160,3998,311,"B12 (A), Regalbediengerät,",32,Flurförderzeuge / Putzmaschine / Rasenmäher,3,Reparaturauftrag (Portal),2019-07-12,5,0,...,,Flurförderzeug,2019-07-18,Kundendienst,,Versand,Versand,2019-07-12,2019-07-12,Hier wird ein Hochlagerstapler Spezialist benö...
15016,62522,311,"B12 (A), Regalbediengerät,",32,Flurförderzeuge / Putzmaschine / Rasenmäher,3,Reparaturauftrag (Portal),2020-10-22,5,0,...,,Flurförderzeug,2020-10-23,Intern UTT - Reparatur,Kettenmitnehmer für Gabeldrehen angefertigt (F...,Versand,Versand,2020-10-22,2020-10-22,Gabeldrehen defekt > Kette gerissen\n\nSeitenh...
19343,4122,311,"B12 (A), Regalbediengerät,",32,Flurförderzeuge / Putzmaschine / Rasenmäher,3,Reparaturauftrag (Portal),2019-07-23,0,0,...,,Flurförderzeug,2019-08-27,Externe Reparatur,Wurde durch Hr. Heuberger repariert.,Versand,Versand,2019-08-27,2019-07-23,Herrn Langner bitte nochmals anfordern. Aktuel...


In [292]:
batch = obj_data.conc.to_list()
batch

['Regalbediengerät fällt immer wieder aus.\nFehlercode VZK ER 204/ER 226 während der Fahrt.\nFehlercode VZK ER 208 / ER 209',
 'Hochregalstapler stoppt ständig.\nFehleranzeige: VZA ER 179',
 'Hier wird ein Hochlagerstapler Spezialist benötigt..\n\nToyota Herr Jörg Langner tel_Nr. 0172-8218647 UVV\nDambach B12 (A)\n\n\nFehlermeldung:\nKetten schlaff\nFehlermeldung: VZK - ER229\n\n\nfehlermeldung trift nur sporadisch auf...\nLaut Herr Frick beibt Gerät in Höhe stehen und fährt erst nach mehrmaligem Neustart oder teilweiseerst nach bis zu ca. 30Min.\nwieder. \n\nLaut Herr Spennesberger soll Herr Langner (Toyota) anscheinend nächste Woche auch zur UVV erscheinen.',
 'Gabeldrehen defekt > Kette gerissen\n\nSeitenhub defekt > Führung verbogen gerissen\n\nStapler ist irgendwo (? Regal ? ) angefahren\n\n',
 'Herrn Langner bitte nochmals anfordern. Aktuell steht das Fahrzeug. Fehlercode VZA OK / VZK Error(s) Er229 / VZB OK\nFr. Stöppel hat Herr Langer benachrichtigt.\nElektriker bitte Schalter 

In [293]:
embds = model_stfr.encode(batch)

Batches: 100%|██████████| 1/1 [00:01<00:00,  1.77s/it]


In [294]:
cos_sim = sentence_transformers.util.cos_sim(embds, embds).numpy()
np.fill_diagonal(cos_sim, 0.)
cos_sim = np.triu(cos_sim)
#cos_sim

In [299]:
THRESHOLD = 0.5
#np.where(cos_sim > THRESHOLD, cos_sim, 0)
indices = np.argwhere(cos_sim >= THRESHOLD)

In [287]:
for idx_pair in indices:
    idx1 = idx_pair[0]
    idx2 = idx_pair[1]
    text1 = batch[idx1]
    text2 = batch[idx2]
    
    cos_sim_val = cos_sim[idx1,idx2]
    
    print(f"{text1=}, \n {text2=}, \n {cos_sim_val=} \n\n")

text1='Reparaturauftrag (Portal) - Allgemeine Reparaturarbeiten  - bei Laser1 an Bandsäge band abgerissen\nund bitte Hydraulikbremsfeder kontrollieren', 
 text2='Reparaturauftrag (Portal) - Allgemeine Reparaturarbeiten  - Bandsäge ein-aus schalter defekt.\n(Haltering von Stellschraube gebrochen) dieser fährt auf Endschalter', 
 cos_sim_val=0.60256654 


text1='Reparaturauftrag (Portal) - Allgemeine Reparaturarbeiten  - bei Laser1 an Bandsäge band abgerissen\nund bitte Hydraulikbremsfeder kontrollieren', 
 text2='Reparaturauftrag (Portal) - Allgemeine Reparaturarbeiten  - Bandsäge defekt geht sehr schwer hoch Hydraulik Problem     NICHT ERLEDIGT!!!!!!!\n\n13.06.2022: Feder eingebaut durch Hr. Özdemir und funtkionstüchtig', 
 cos_sim_val=0.56998414 


text1='Reparaturauftrag (Portal) - Allgemeine Reparaturarbeiten  - Bandsäge ein-aus schalter defekt.\n(Haltering von Stellschraube gebrochen) dieser fährt auf Endschalter', 
 text2='Reparaturauftrag (Portal) - Allgemeine Reparaturarbeiten  

In [300]:
for idx_pair in indices:
    idx1 = idx_pair[0]
    idx2 = idx_pair[1]
    text1 = batch[idx1]
    text2 = batch[idx2]
    
    cos_sim_val = cos_sim[idx1,idx2]
    
    print(f"{text1=}, \n {text2=}, \n {cos_sim_val=} \n\n")

text1='Regalbediengerät fällt immer wieder aus.\nFehlercode VZK ER 204/ER 226 während der Fahrt.\nFehlercode VZK ER 208 / ER 209', 
 text2='Hochregalstapler stoppt ständig.\nFehleranzeige: VZA ER 179', 
 cos_sim_val=0.5726533 


text1='Regalbediengerät fällt immer wieder aus.\nFehlercode VZK ER 204/ER 226 während der Fahrt.\nFehlercode VZK ER 208 / ER 209', 
 text2='Herrn Langner bitte nochmals anfordern. Aktuell steht das Fahrzeug. Fehlercode VZA OK / VZK Error(s) Er229 / VZB OK\nFr. Stöppel hat Herr Langer benachrichtigt.\nElektriker bitte Schalter messen evtl. tauschen\nHerr Frick und Herr Hochberger wissen bescheid', 
 cos_sim_val=0.5984524 


text1='Hochregalstapler stoppt ständig.\nFehleranzeige: VZA ER 179', 
 text2='Herrn Langner bitte nochmals anfordern. Aktuell steht das Fahrzeug. Fehlercode VZA OK / VZK Error(s) Er229 / VZB OK\nFr. Stöppel hat Herr Langer benachrichtigt.\nElektriker bitte Schalter messen evtl. tauschen\nHerr Frick und Herr Hochberger wissen bescheid', 
 cos_