5.5M
Largest dataset (rows)
Größter Datensatz
3,200
Job postings (NLP)
Stellenanzeigen (NLP)
2.91M
Flights analysed
Analysierte Flüge
40%
Tech debt reduced
Tech-Debt reduziert
1
Peer-reviewed paper
Peer-Review-Publikation
Rainfall Estimation via Heterogeneous Data Fusion & ML
Niederschlagsabschätzung durch heterogene Datenfusion & ML
Traditional rain gauges create dangerous blind spots. This pipeline fuses Ground Sensors + Weather Radars + Meteosat satellite imagery into one signal via a Hierarchical Probabilistic Ensemble Classifier — outperforming the industry-standard Kriging with External Drift baseline.
Klassische Regenmesser erzeugen gefährliche Blindstellen. Diese Pipeline fusioniert Bodensensoren + Wetterradar + Meteosat-Satellitenbilder über einen HPEC-Klassifikator — und schlägt den Industrie-Standard KED.
Ground SensorsBodensensoren
→
→
→
POD = 0.58
POD = 0,58
outperforms Kriging with External Drift (KED) — industry baseline
schlägt Kriging with External Drift (KED) — Industrie-Baseline
Python
Random Forest
Meta-Learner Stacking
Spatiotemporal Analysis
Meteosat
German Job Market Intelligence Corpus
Intelligenz-Korpus des deutschen Tech-Job-Marktes
4,183 raw postings (StepStone + Indeed DE + LinkedIn) → 3,200 validated records → TF-IDF + spaCy EntityRuler NER → K-Means k=4 (silhouette 0.61). Result: Python + SQL co-occur in 65% of all postings — the empirical minimum viable skill pair for the German market.
4.183 Anzeigen (StepStone + Indeed DE + LinkedIn) → 3.200 validierte Datensätze → TF-IDF + spaCy NER → K-Means k=4 (Silhouette 0,61). Ergebnis: Python + SQL in 65% aller Anzeigen — das empirische Minimum-Skillpaar für den deutschen Markt.
Top skills by posting frequency
Top-Skills nach Anzeigenhäufigkeit
3,200
Validated Postings
Validierte Anzeigen
156
Skills Extracted
Extrahierte Skills
88.4%
NER Precision
NER-Präzision
0.61
Silhouette (k=4)
Silhouette (k=4)
PythonspaCyTF-IDFscikit-learnK-MeansPCABeautifulSoup
Cyclistic Bike-Share: Casual → Member Conversion
Cyclistic Bike-Share: Casual → Mitglieds-Konversion
5.5M real Divvy trip records — too large for spreadsheets, so: GCS → BigQuery → CTEs → window functions → Tableau. The headline finding: casual riders are NOT failed members. They are a different behavioural category. 5% conversion = ~97,500 new annual members.
5,5 Mio. echte Divvy-Fahrten — zu viel für Tabellen: GCS → BigQuery → CTEs → Window Functions → Tableau. Die Kernaussage: Casual-Fahrer sind keine „gescheiterten" Mitglieder, sondern eine eigene Verhaltenskategorie. 5% Conversion ≈ 97.500 neue Jahresmitglieder.
Casual vs Member — key behavioural differences
Casual vs. Mitglied — wichtigste Verhaltensunterschiede
Avg ride duration
Ø Fahrtdauer
19.2 min
vs
11.8 min
Peak day
Höchsttag
Saturday
Samstag
vs
Thursday
Donnerstag
Seasonal drop
Saisonaler Rückgang
−93%
vs
−75%
1.63×
Casual Ride Length
Casual-Fahrtlänge
93%
Seasonal Drop
Saisonaler Rückgang
3
Recommendations
Empfehlungen
BigQuerySQL CTEsWindow FunctionsTableau PublicGoogle Cloud StorageR · ggplot2
Fintech Real Estate Intelligence System
Fintech-Immobilien-Intelligence-System
Rebuilt a monolithic fintech platform into an event-driven, cloud-native data system serving 500+ concurrent users with financial-grade reliability. LangChain + GPT-4/Llama pipeline collapsed a 15h/week manual audit to 3h/week.
Einen monolithischen Fintech-Stack in ein event-getriebenes, cloud-natives Datensystem für 500+ gleichzeitige Nutzer umgebaut. LangChain + GPT-4/Llama kollabierte einen 15h/Woche manuellen Audit auf 3h/Woche.
Partner PDFs & Portals
Partner-PDFs & Portale
500+ User Events
500+ Nutzer-Events
LangChain · GPT-4 · Llama
PDF extract → ledger cross-check
LangChain · GPT-4 · Llama
PDF-Extraktion → Ledger-Abgleich
Firebase Firestore
Sub-second monitoringSub-Sekunden-Monitoring
Power BI · RESTful APIs · Microservices
Power BI · RESTful APIs · Microservices
500+
Concurrent Users
Gleichzeitige Nutzer
40%
Tech Debt ↓
Tech-Debt ↓
15h+
Saved / Week
Eingespart / Woche
PythonFirebase FirestoreLangChainGPT-4MicroservicesEvent-DrivenRESTful APIs
Quantifying Data Quality — Statistical Framework & Return-Rate Analysis
Datenqualität quantifizieren — Statistisches Framework & Retourenanalyse
A four-dimension scoring framework (Completeness · Consistency · Accuracy · Timeliness) producing a single composite Data Quality Index — validated on UCI Air Quality (9,357 records). Composite DQI: 0.840. The only failing dimension: Timeliness (0.626), correctly identifying a 20-year-old dataset as unsuitable for real-time monitoring.
Ein vierdimensionales Scoring-Framework (Vollständigkeit · Konsistenz · Genauigkeit · Aktualität) → ein Composite Data Quality Index — validiert auf UCI Air Quality (9.357 Datensätze). Composite DQI: 0,840. Einzige versagende Dimension: Aktualität (0,626) — erkennt korrekt, dass ein 20 Jahre alter Datensatz nicht für Echtzeit-Monitoring geeignet ist.
Data Quality Index — dimension scores
Data Quality Index — Dimensionswerte
CompletenessVollständigkeit
0.930
PASS
ConsistencyKonsistenz
0.978
PASS
AccuracyGenauigkeit
0.824
PASS
TimelinessAktualität
0.626
FAIL
Composite DQIComposite DQI
0.840
PythonpandasscipystatsmodelsUCI Air QualityHypothesis TestingJupyter
U.S. Flight Delay Analysis — Predictive Risk Modelling
US-Flugverspätungsanalyse — Prädiktives Risikomodell
2.91M BTS domestic flights (2019–2023). Late aircraft alone accounts for 41.1% of all delay minutes — more than weather, NAS, carrier, and security combined. Logistic Regression + Decision Tree predict delay probability from pre-flight schedule data alone (accuracy: 59.2%).
2,91 Mio. BTS-Inlandsflüge (2019–2023). Verspätete Flugzeuge allein verursachen 41,1% aller Verspätungsminuten — mehr als Wetter, NAS, Carrier und Sicherheit zusammen. Logistic Regression + Decision Tree sagen Verspätungswahrscheinlichkeit aus Vorab-Plandaten voraus (Genauigkeit: 59,2%).
Delay cause breakdown (% of total delay minutes)
Verspätungsursachen (% der Gesamtverspätungsminuten)
Late AircraftVerspätetes Flugzeug
41.1%
CarrierFluggesellschaft
27.8%
2.91M
Flights Analysed
Analysierte Flüge
41.1%
Late Aircraft Share
Verspätungsanteil Flugzeug
17.5%
Overall Delay Rate
Gesamtverspätungsrate
59.2%
Model Accuracy
Modellgenauigkeit
Python 3.10pandasscikit-learnLogistic RegressionDecision TreeBTS DataJupyter