Alles über DATA All About DATA
Blog über Datenanalyse, Data Engineering und Data Science Blog about Data Analysis, Data Engineering and Data Science
Idee hinter dem Blog Idea behind the blog
Von der ersten Zeile Code bis zur Enterprise-Lösung – hier dokumentiere ich meinen Weg durch die Datenwelt. Was als kleine Skripte begann, entwickelte sich zu komplexen BI-Architekturen. Dieser Blog ist mein Notizbuch: Gelerntes festhalten, Angewendetes teilen, von Mini-Tools bis zu großen Projekten. Praktisch, ehrlich, aus der echten Arbeit. From the first line of code to enterprise solutions — this is where I document my journey through the data world. What started as small scripts evolved into complex BI architectures. This blog is my notebook: capture what I learn, share what I apply, from mini tools to large projects. Practical, honest, and from real work.
Data Modeling mit dbt — Von rohen Daten zu analytischen Modellen
Prolog: SQL als Transformationssprache Rohe Daten sind wertlos, solange sie nicht transformiert, getestet und dokumentiert werden. dbt (data build tool) ...
CI/CD Pipelines — Vom git push zum Production Deploy
Prolog: Manuelles Deployment ist ein Risiko Jedes manuelle Deployment ist eine Fehlerquelle: ein vergessener Build-Step, ein übersprungener Test, eine falsche ...
API Design & REST — Vom Endpoint-Entwurf zur produktionsreifen Schnittstelle
Prolog: APIs sind die Sprache moderner Software Jede moderne Anwendung kommuniziert über APIs. Dein Frontend spricht mit dem Backend über ...
Monitoring & Logging — Server-Überwachung mit Prometheus, Grafana und Loki
Prolog: Warum Monitoring kein Luxus ist Ein Server ohne Monitoring ist wie ein Auto ohne Armaturenbrett: Du fährst blind. Du ...
Docker & Linux Server Setup — Vom leeren Server zur Data-Engineering-Umgebung
Prolog: Dein eigener Server — Dein eigenes Labor Cloud-Dienste sind bequem, aber teuer — und du lernst wenig dabei. Ein ...
Data-Warehouse-Design: Dimensionale Modellierung vom Star-Schema bis zur Partitionierung
Prolog: Die Spurensuche im Datenozean Es begann mit einer simplen Frage, die mich nicht mehr losließ: Warum dauert diese verdammte ...
Datenpipeline-Architektur: ETL, ELT und der Weg zur produktionsreifen Pipeline
Prolog: Der Datenfluss, der nie ankam Ein mittelständisches E-Commerce-Unternehmen betreibt einen Linux-Server mit PostgreSQL, einer REST-API für Bestelldaten und einem ...
Interaktive Dashboards für Omics-Daten: Plotly, D3.js und dynamische Regler
Prolog: Warum statische Plots nicht reichen Ein Volcano-Plot zeigt 20.000 Gene — aber welches ist Ihr Kandidat? Eine Heatmap zeigt ...
Circos-Plots: Genomische Daten zirkulär visualisieren – Chromosomen, miRNA-Loci und Interaktionen
Prolog: Warum Kreise statt Linien? Das menschliche Genom ist linear — 3,2 Milliarden Basenpaare, verteilt auf 23 Chromosomenpaare. Aber die ...
Enrichment-Visualisierung: Dot Plots, Bubble Charts und Pathway-Analyse für miRNA-Seq
Prolog: Von der Genliste zum biologischen Verständnis Eine Differenzielle Expressionsanalyse liefert Hunderte signifikanter Gene. Aber was bedeuten sie? Eine Liste ...
Forest Plot und Meta-Analyse: Effektgrößen und Konfidenzintervalle für Omics-Studien
Prolog: Wenn eine Studie nicht reicht Einzelstudien lügen — nicht absichtlich, aber systematisch. Jede Studie hat ihre Stichprobe, ihre Methodik, ...
Kaplan-Meier und Survival-Analyse: miRNA-Biomarker in klinischen Studien visualisieren
Prolog: Die Uhr tickt In der klinischen Onkologie gibt es eine Frage, die alles andere überschattet: Wie lange überlebt der ...
Netzwerk-Graphen in der Omics-Forschung: Von Co-Expression zu miRNA-Target-Netzwerken
Prolog: Die Landkarte der Regulatoren Gene arbeiten nicht allein. Jedes Gen ist Teil eines Netzwerks aus Regulatoren, Targets und Feedback-Schleifen. ...
PCA und Dimensionsreduktion: Hochdimensionale Omics-Daten verstehen
Prolog: 1.000 Dimensionen, ein Blatt Papier Stellen Sie sich vor, Sie stehen vor einer Tabelle mit 60 Zeilen (Patientenproben) und ...
MA-Plot: Mean-Difference-Analyse für RNA-Seq und miRNA-Seq
Prolog: Die Asymmetrie, die niemand sieht Es gibt ein Problem, das in jeder RNA-Seq-Analyse lauert, aber selten diskutiert wird: Gene ...
Heatmaps und hierarchisches Clustering: Expressionsmuster in Omics-Daten sichtbar machen
Abstract Wenn 80 Plasmaproben von vier Krebstypen auf dem Tisch liegen und das Clustering „keinen Sinn macht“, beginnt die eigentliche ...
Volcano Plot für Omics-Daten: Effektstärke und Signifikanz auf einen Blick
Prolog: Die Akte der 2.500 Verdächtigen Es ist Montagmorgen im Bioinformatik-Labor der translationalen Onkologie. Auf dem Bildschirm leuchtet eine Tabelle ...
Polars + DuckDB für schnelle Omics-Analytics: Memory-effiziente Pipelines zwischen Notebook und Produktion
Abstract Polars und DuckDB repräsentieren eine neue Generation von Datenverarbeitungstools, die für analytische Workloads auf modernen Hardware-Architekturen optimiert sind. Während ...
Quarto für wissenschaftliche Reporting-Workflows: R und Python in einem reproduzierbaren Narrativ
Abstract Quarto ist das Open-Source-Publikationssystem der nächsten Generation für wissenschaftliches und technisches Schreiben. Als Nachfolger von R Markdown unterstützt es ...
tidymodels für klinische Omics-Modelle: Tuning, Resampling und saubere Vergleichbarkeit
Abstract tidymodels ist das R-Ökosystem für maschinelles Lernen im Tidyverse-Stil: deklarativ, modular und reproduzierbar. Es ersetzt das ältere caret-Paket durch ...
scikit-learn Pipeline für Biomarker-Klassifikation: Leakage vermeiden, Evidenz steigern
Abstract scikit-learn ist die Standard-Bibliothek für maschinelles Lernen in Python – und in der Bioinformatik ein unverzichtbares Werkzeug für Klassifikation, ...
scanpy in Single-Cell-Projekten: QC, Clustering und robuste Markerlogik
Abstract scanpy ist das Python-Referenzpaket für die Analyse von Single-Cell-RNA-Seq-Daten (scRNA-Seq). Es deckt die gesamte Pipeline ab – von der ...
WGCNA für Omics-Module: Von Koexpression zu klinisch interpretierbaren Clustern
Abstract WGCNA (Weighted Gene Co-expression Network Analysis) identifiziert Module ko-exprimierter Gene in großen Expressionsdatensätzen und korreliert diese mit klinischen oder ...
limma-voom in großen RNA-seq-Kohorten: Präzision, Speed und Modelltransparenz
Abstract limma-voom transformiert RNA-Seq-Zähldaten in gewichtete Log-CPM-Werte und analysiert sie mit dem bewährten linearen Modell-Framework von limma – einem der ...
edgeR in Omics-Pipelines: Dispersion-kontrollierte DE unter Produktionsdruck
Abstract edgeR (empirical analysis of digital gene expression in R) ist seit 2010 eines der meistzitierten Bioconductor-Pakete für die Analyse ...
Data Analyst Engineering in Pipelines: Rolle, Methode und Wertbeitrag
AbstractDieser Beitrag untersucht die Rolle eines Data Analyst Engineers in produktiven Datenpipelines. Im Zentrum steht die Frage, wie analytische Anforderungen ...
Power BI: Überblick und Vergleich mit Tableau und Qlik