Alles über DATA All About DATA

Blog über Datenanalyse, Data Engineering und Data Science Blog about Data Analysis, Data Engineering and Data Science

Idee hinter dem Blog Idea behind the blog

Von der ersten Zeile Code bis zur Enterprise-Lösung – hier dokumentiere ich meinen Weg durch die Datenwelt. Was als kleine Skripte begann, entwickelte sich zu komplexen BI-Architekturen. Dieser Blog ist mein Notizbuch: Gelerntes festhalten, Angewendetes teilen, von Mini-Tools bis zu großen Projekten. Praktisch, ehrlich, aus der echten Arbeit. From the first line of code to enterprise solutions — this is where I document my journey through the data world. What started as small scripts evolved into complex BI architectures. This blog is my notebook: capture what I learn, share what I apply, from mini tools to large projects. Practical, honest, and from real work.

Data Modeling mit dbt — Von rohen Daten zu analytischen Modellen
Data Architecture 13 Min.

Data Modeling mit dbt — Von rohen Daten zu analytischen Modellen

Prolog: SQL als Transformationssprache Rohe Daten sind wertlos, solange sie nicht transformiert, getestet und dokumentiert werden. dbt (data build tool) ...

CI/CD Pipelines — Vom git push zum Production Deploy
Data Architecture 12 Min.

CI/CD Pipelines — Vom git push zum Production Deploy

Prolog: Manuelles Deployment ist ein Risiko Jedes manuelle Deployment ist eine Fehlerquelle: ein vergessener Build-Step, ein übersprungener Test, eine falsche ...

API Design & REST — Vom Endpoint-Entwurf zur produktionsreifen Schnittstelle
Data Architecture 12 Min.

API Design & REST — Vom Endpoint-Entwurf zur produktionsreifen Schnittstelle

Prolog: APIs sind die Sprache moderner Software Jede moderne Anwendung kommuniziert über APIs. Dein Frontend spricht mit dem Backend über ...

Monitoring & Logging — Server-Überwachung mit Prometheus, Grafana und Loki
Data Architecture 12 Min.

Monitoring & Logging — Server-Überwachung mit Prometheus, Grafana und Loki

Prolog: Warum Monitoring kein Luxus ist Ein Server ohne Monitoring ist wie ein Auto ohne Armaturenbrett: Du fährst blind. Du ...

Docker & Linux Server Setup — Vom leeren Server zur Data-Engineering-Umgebung
Data Architecture 13 Min.

Docker & Linux Server Setup — Vom leeren Server zur Data-Engineering-Umgebung

Prolog: Dein eigener Server — Dein eigenes Labor Cloud-Dienste sind bequem, aber teuer — und du lernst wenig dabei. Ein ...

Data-Warehouse-Design: Dimensionale Modellierung vom Star-Schema bis zur Partitionierung
Data Architecture 28 Min.

Data-Warehouse-Design: Dimensionale Modellierung vom Star-Schema bis zur Partitionierung

Prolog: Die Spurensuche im Datenozean Es begann mit einer simplen Frage, die mich nicht mehr losließ: Warum dauert diese verdammte ...

Datenpipeline-Architektur: ETL, ELT und der Weg zur produktionsreifen Pipeline
Data Architecture 18 Min.

Datenpipeline-Architektur: ETL, ELT und der Weg zur produktionsreifen Pipeline

Prolog: Der Datenfluss, der nie ankam Ein mittelständisches E-Commerce-Unternehmen betreibt einen Linux-Server mit PostgreSQL, einer REST-API für Bestelldaten und einem ...

Interaktive Dashboards für Omics-Daten: Plotly, D3.js und dynamische Regler
Data Visualization 10 Min.

Interaktive Dashboards für Omics-Daten: Plotly, D3.js und dynamische Regler

Prolog: Warum statische Plots nicht reichen Ein Volcano-Plot zeigt 20.000 Gene — aber welches ist Ihr Kandidat? Eine Heatmap zeigt ...

Circos-Plots: Genomische Daten zirkulär visualisieren – Chromosomen, miRNA-Loci und Interaktionen
Data Visualization 10 Min.

Circos-Plots: Genomische Daten zirkulär visualisieren – Chromosomen, miRNA-Loci und Interaktionen

Prolog: Warum Kreise statt Linien? Das menschliche Genom ist linear — 3,2 Milliarden Basenpaare, verteilt auf 23 Chromosomenpaare. Aber die ...

Enrichment-Visualisierung: Dot Plots, Bubble Charts und Pathway-Analyse für miRNA-Seq
Data Visualization 9 Min.

Enrichment-Visualisierung: Dot Plots, Bubble Charts und Pathway-Analyse für miRNA-Seq

Prolog: Von der Genliste zum biologischen Verständnis Eine Differenzielle Expressionsanalyse liefert Hunderte signifikanter Gene. Aber was bedeuten sie? Eine Liste ...

Forest Plot und Meta-Analyse: Effektgrößen und Konfidenzintervalle für Omics-Studien
Data Visualization 10 Min.

Forest Plot und Meta-Analyse: Effektgrößen und Konfidenzintervalle für Omics-Studien

Prolog: Wenn eine Studie nicht reicht Einzelstudien lügen — nicht absichtlich, aber systematisch. Jede Studie hat ihre Stichprobe, ihre Methodik, ...

Kaplan-Meier und Survival-Analyse: miRNA-Biomarker in klinischen Studien visualisieren
Data Visualization 8 Min.

Kaplan-Meier und Survival-Analyse: miRNA-Biomarker in klinischen Studien visualisieren

Prolog: Die Uhr tickt In der klinischen Onkologie gibt es eine Frage, die alles andere überschattet: Wie lange überlebt der ...

Netzwerk-Graphen in der Omics-Forschung: Von Co-Expression zu miRNA-Target-Netzwerken
Data Visualization 8 Min.

Netzwerk-Graphen in der Omics-Forschung: Von Co-Expression zu miRNA-Target-Netzwerken

Prolog: Die Landkarte der Regulatoren Gene arbeiten nicht allein. Jedes Gen ist Teil eines Netzwerks aus Regulatoren, Targets und Feedback-Schleifen. ...

PCA und Dimensionsreduktion: Hochdimensionale Omics-Daten verstehen
Data Visualization 8 Min.

PCA und Dimensionsreduktion: Hochdimensionale Omics-Daten verstehen

Prolog: 1.000 Dimensionen, ein Blatt Papier Stellen Sie sich vor, Sie stehen vor einer Tabelle mit 60 Zeilen (Patientenproben) und ...

MA-Plot: Mean-Difference-Analyse für RNA-Seq und miRNA-Seq
Data Visualization 8 Min.

MA-Plot: Mean-Difference-Analyse für RNA-Seq und miRNA-Seq

Prolog: Die Asymmetrie, die niemand sieht Es gibt ein Problem, das in jeder RNA-Seq-Analyse lauert, aber selten diskutiert wird: Gene ...

Heatmaps und hierarchisches Clustering: Expressionsmuster in Omics-Daten sichtbar machen
Data Visualization 14 Min.

Heatmaps und hierarchisches Clustering: Expressionsmuster in Omics-Daten sichtbar machen

Abstract Wenn 80 Plasmaproben von vier Krebstypen auf dem Tisch liegen und das Clustering „keinen Sinn macht“, beginnt die eigentliche ...

Volcano Plot für Omics-Daten: Effektstärke und Signifikanz auf einen Blick
Data Visualization 9 Min.

Volcano Plot für Omics-Daten: Effektstärke und Signifikanz auf einen Blick

Prolog: Die Akte der 2.500 Verdächtigen Es ist Montagmorgen im Bioinformatik-Labor der translationalen Onkologie. Auf dem Bildschirm leuchtet eine Tabelle ...

Polars + DuckDB für schnelle Omics-Analytics: Memory-effiziente Pipelines zwischen Notebook und Produktion
Data Analyst Foundations 11 Min.

Polars + DuckDB für schnelle Omics-Analytics: Memory-effiziente Pipelines zwischen Notebook und Produktion

Abstract Polars und DuckDB repräsentieren eine neue Generation von Datenverarbeitungstools, die für analytische Workloads auf modernen Hardware-Architekturen optimiert sind. Während ...

Quarto für wissenschaftliche Reporting-Workflows: R und Python in einem reproduzierbaren Narrativ
Reporting 9 Min.

Quarto für wissenschaftliche Reporting-Workflows: R und Python in einem reproduzierbaren Narrativ

Abstract Quarto ist das Open-Source-Publikationssystem der nächsten Generation für wissenschaftliches und technisches Schreiben. Als Nachfolger von R Markdown unterstützt es ...

tidymodels für klinische Omics-Modelle: Tuning, Resampling und saubere Vergleichbarkeit
Data Tools 10 Min.

tidymodels für klinische Omics-Modelle: Tuning, Resampling und saubere Vergleichbarkeit

Abstract tidymodels ist das R-Ökosystem für maschinelles Lernen im Tidyverse-Stil: deklarativ, modular und reproduzierbar. Es ersetzt das ältere caret-Paket durch ...

scikit-learn Pipeline für Biomarker-Klassifikation: Leakage vermeiden, Evidenz steigern
Data Tools 10 Min.

scikit-learn Pipeline für Biomarker-Klassifikation: Leakage vermeiden, Evidenz steigern

Abstract scikit-learn ist die Standard-Bibliothek für maschinelles Lernen in Python – und in der Bioinformatik ein unverzichtbares Werkzeug für Klassifikation, ...

scanpy in Single-Cell-Projekten: QC, Clustering und robuste Markerlogik
R Packages for Data Processing 10 Min.

scanpy in Single-Cell-Projekten: QC, Clustering und robuste Markerlogik

Abstract scanpy ist das Python-Referenzpaket für die Analyse von Single-Cell-RNA-Seq-Daten (scRNA-Seq). Es deckt die gesamte Pipeline ab – von der ...

WGCNA für Omics-Module: Von Koexpression zu klinisch interpretierbaren Clustern
R Packages for Data Processing 11 Min.

WGCNA für Omics-Module: Von Koexpression zu klinisch interpretierbaren Clustern

Abstract WGCNA (Weighted Gene Co-expression Network Analysis) identifiziert Module ko-exprimierter Gene in großen Expressionsdatensätzen und korreliert diese mit klinischen oder ...

limma-voom in großen RNA-seq-Kohorten: Präzision, Speed und Modelltransparenz
R Packages for Data Processing 12 Min.

limma-voom in großen RNA-seq-Kohorten: Präzision, Speed und Modelltransparenz

Abstract limma-voom transformiert RNA-Seq-Zähldaten in gewichtete Log-CPM-Werte und analysiert sie mit dem bewährten linearen Modell-Framework von limma – einem der ...

edgeR in Omics-Pipelines: Dispersion-kontrollierte DE unter Produktionsdruck
R Packages for Data Processing 12 Min.

edgeR in Omics-Pipelines: Dispersion-kontrollierte DE unter Produktionsdruck

Abstract edgeR (empirical analysis of digital gene expression in R) ist seit 2010 eines der meistzitierten Bioconductor-Pakete für die Analyse ...

Data Analyst Engineering in Pipelines: Rolle, Methode und Wertbeitrag
Data Analyst Foundations 3 Min.

Data Analyst Engineering in Pipelines: Rolle, Methode und Wertbeitrag

AbstractDieser Beitrag untersucht die Rolle eines Data Analyst Engineers in produktiven Datenpipelines. Im Zentrum steht die Frage, wie analytische Anforderungen ...

Power BI: Überblick und Vergleich mit Tableau und Qlik
Data Tools 1 Min.

Power BI: Überblick und Vergleich mit Tableau und Qlik

No track selected

Click play to start