Notizen aus der Datenwelt Notes from the Data World
Werkzeuge, Methoden und Beispiele aus Analyse, Engineering und Science Tools, methods, and examples from analysis, engineering, and science
Worum es hier geht What this is about
Eine Sammlung von Notizen rund um Daten – von Analyse über Visualisierung bis zu Pipelines und Architektur. Manches entsteht aus aktuellen Fragen, manches aus Lektüre, vieles aus Ausprobieren. Der Blog ist mehr ein offenes Notizbuch als ein Lehrbuch. A collection of notes around data — from analysis and visualization to pipelines and architecture. Some entries come from current questions, some from reading, many from trying things out. This blog is more of an open notebook than a textbook.
Developer Dashboard: Sicheres Server-Monitoring mit DjangoDeveloper Dashboard: Sicheres Server-Monitoring mit Django
Developer Dashboard — sicheres Server-Monitoring mit Django Im Rahmen meines Django-Blog-Projekts datemyhobby.com habe ich ein passwortgeschütztes Developer Dashboard entwickelt. Es ...Developer Dashboard — secure server monitoring with Django As part of my Django blog project datemyhobby.com, I built a password-protected ...
Data Modeling mit dbt — Von rohen Daten zu analytischen ModellenData Modeling with dbt — From Raw Data to Analytical Models
Prolog: SQL als Transformationssprache Rohe Daten sind wertlos, solange sie nicht transformiert, getestet und dokumentiert werden. dbt (data build tool) ...Prologue: SQL as a Transformation Language Raw data is worthless until it's transformed, tested, and documented. dbt (data build tool) ...
CI/CD Pipelines — Vom git push zum Production DeployCI/CD Pipelines — From git push to Production Deploy
Prolog: Manuelles Deployment ist ein Risiko Jedes manuelle Deployment ist eine Fehlerquelle: ein vergessener Build-Step, ein übersprungener Test, eine falsche ...Prologue: Manual Deployment Is a Risk Every manual deployment is a source of error: a forgotten build step, a skipped ...
API Design & REST — Vom Endpoint-Entwurf zur produktionsreifen SchnittstelleAPI Design & REST — From Endpoint Design to Production-Ready Interface
Prolog: APIs sind die Sprache moderner Software Jede moderne Anwendung kommuniziert über APIs. Dein Frontend spricht mit dem Backend über ...Prologue: APIs Are the Language of Modern Software Every modern application communicates through APIs. Your frontend talks to the backend ...
Monitoring & Logging — Server-Überwachung mit Prometheus, Grafana und LokiMonitoring & Logging — Server Observability with Prometheus, Grafana, and Loki
Prolog: Warum Monitoring kein Luxus ist Ein Server ohne Monitoring ist wie ein Auto ohne Armaturenbrett: Du fährst blind. Du ...Prologue: Why Monitoring Is Not a Luxury A server without monitoring is like a car without a dashboard: You're driving ...
Docker & Linux Server Setup — Vom leeren Server zur Data-Engineering-UmgebungDocker & Linux Server Setup — From Empty Server to Data Engineering Environment
Prolog: Dein eigener Server — Dein eigenes Labor Cloud-Dienste sind bequem, aber teuer — und du lernst wenig dabei. Ein ...Prologue: Your Own Server — Your Own Laboratory Cloud services are convenient but expensive — and you learn little from ...
Data-Warehouse-Design: Dimensionale Modellierung vom Star-Schema bis zur PartitionierungData Warehouse Design: Dimensional Modeling from Star Schema to Partitioning
Prolog: Die Spurensuche im Datenozean Es begann mit einer simplen Frage, die mich nicht mehr losließ: Warum dauert diese verdammte ...Prologue: Searching for Clues in the Data Ocean It started with a simple question that wouldn't let me go: Why ...
Datenpipeline-Architektur: ETL, ELT und der Weg zur produktionsreifen PipelineData Pipeline Architecture: ETL, ELT, and the Path to Production-Ready Pipelines
Prolog: Der Datenfluss, der nie ankam Ein mittelständisches E-Commerce-Unternehmen betreibt einen Linux-Server mit PostgreSQL, einer REST-API für Bestelldaten und einem ...Prologue: The Data Flow That Never Arrived A mid-sized e-commerce company runs a Linux server with PostgreSQL, a REST API ...
Interaktive Dashboards für Omics-Daten: Plotly, D3.js und dynamische ReglerInteractive Dashboards for Omics Data: Plotly, D3.js and Dynamic Controls
Prolog: Warum statische Plots nicht reichen Ein Volcano-Plot zeigt 20.000 Gene — aber welches ist Ihr Kandidat? Eine Heatmap zeigt ...Prologue: Why Static Plots Aren't Enough A volcano plot shows 20,000 genes — but which one is your candidate? A ...
Circos-Plots: Genomische Daten zirkulär visualisieren – Chromosomen, miRNA-Loci und InteraktionenCircos Plots: Circular Visualization of Genomic Data – Chromosomes, miRNA Loci and Interactions
Prolog: Warum Kreise statt Linien? Das menschliche Genom ist linear — 3,2 Milliarden Basenpaare, verteilt auf 23 Chromosomenpaare. Aber die ...Prologue: Why Circles Instead of Lines? The human genome is linear — 3.2 billion base pairs distributed across 23 chromosome ...
Enrichment-Visualisierung: Dot Plots, Bubble Charts und Pathway-Analyse für miRNA-SeqEnrichment Visualization: Dot Plots, Bubble Charts and Pathway Analysis for miRNA-Seq
Prolog: Von der Genliste zum biologischen Verständnis Eine Differenzielle Expressionsanalyse liefert Hunderte signifikanter Gene. Aber was bedeuten sie? Eine Liste ...Prologue: From Gene Lists to Biological Understanding A differential expression analysis yields hundreds of significant genes. But what do they ...
Forest Plot und Meta-Analyse: Effektgrößen und Konfidenzintervalle für Omics-StudienForest Plot and Meta-Analysis: Effect Sizes and Confidence Intervals for Omics Studies
Prolog: Wenn eine Studie nicht reicht Einzelstudien lügen — nicht absichtlich, aber systematisch. Jede Studie hat ihre Stichprobe, ihre Methodik, ...Prologue: When One Study Isn't Enough Individual studies lie — not intentionally, but systematically. Every study has its sample, its ...
Kaplan-Meier und Survival-Analyse: miRNA-Biomarker in klinischen Studien visualisierenKaplan-Meier and Survival Analysis: Visualizing miRNA Biomarkers in Clinical Studies
Prolog: Die Uhr tickt In der klinischen Onkologie gibt es eine Frage, die alles andere überschattet: Wie lange überlebt der ...Prologue: The Clock Is Ticking In clinical oncology, one question overshadows everything else: How long will the patient survive? No ...
Netzwerk-Graphen in der Omics-Forschung: Von Co-Expression zu miRNA-Target-NetzwerkenNetwork Graphs in Omics Research: From Co-Expression to miRNA-Target Networks
Prolog: Die Landkarte der Regulatoren Gene arbeiten nicht allein. Jedes Gen ist Teil eines Netzwerks aus Regulatoren, Targets und Feedback-Schleifen. ...Prologue: The Map of Regulators Genes do not work alone. Every gene is part of a network of regulators, targets, ...
PCA und Dimensionsreduktion: Hochdimensionale Omics-Daten verstehenPCA and Dimensionality Reduction: Understanding High-Dimensional Omics Data
Prolog: 1.000 Dimensionen, ein Blatt Papier Stellen Sie sich vor, Sie stehen vor einer Tabelle mit 60 Zeilen (Patientenproben) und ...Prologue: 1,000 Dimensions, One Sheet of Paper Imagine standing before a table with 60 rows (patient samples) and 1,000 columns ...
MA-Plot: Mean-Difference-Analyse für RNA-Seq und miRNA-SeqMA Plot: Mean-Difference Analysis for RNA-Seq and miRNA-Seq
Prolog: Die Asymmetrie, die niemand sieht Es gibt ein Problem, das in jeder RNA-Seq-Analyse lauert, aber selten diskutiert wird: Gene ...Prologue: The Asymmetry Nobody Sees There is a problem lurking in every RNA-Seq analysis that is rarely discussed: Low-count genes ...
Heatmaps und hierarchisches Clustering: Expressionsmuster in Omics-Daten sichtbar machenHeatmaps and Hierarchical Clustering: Revealing Expression Patterns in Omics Data
Abstract Wenn 80 Plasmaproben von vier Krebstypen auf dem Tisch liegen und das Clustering „keinen Sinn macht“, beginnt die eigentliche ...Abstract When 80 plasma samples from four cancer types are on the table and the clustering “makes no sense,” the ...
Volcano Plot für Omics-Daten: Effektstärke und Signifikanz auf einen BlickVolcano Plot for Omics Data: Effect Size and Significance at a Glance
Prolog: Die Akte der 2.500 Verdächtigen Es ist Montagmorgen im Bioinformatik-Labor der translationalen Onkologie. Auf dem Bildschirm leuchtet eine Tabelle ...Prologue: The Case File of 2,500 Suspects It's Monday morning in the translational oncology bioinformatics lab. On the screen glows ...
Polars + DuckDB für schnelle Omics-Analytics: Memory-effiziente Pipelines zwischen Notebook und ProduktionPolars + DuckDB für schnelle Omics-Analytics: Memory-effiziente Pipelines zwischen Notebook und Produktion
Abstract Polars und DuckDB repräsentieren eine neue Generation von Datenverarbeitungstools, die für analytische Workloads auf modernen Hardware-Architekturen optimiert sind. Während ...Abstract Polars and DuckDB represent a new generation of data processing tools optimized for analytical workloads on modern hardware architectures. ...
Quarto für wissenschaftliche Reporting-Workflows: R und Python in einem reproduzierbaren NarrativQuarto for Scientific Reporting Workflows: R and Python in One Reproducible Narrative
Abstract Quarto ist das Open-Source-Publikationssystem der nächsten Generation für wissenschaftliches und technisches Schreiben. Als Nachfolger von R Markdown unterstützt es ...Abstract Quarto is the next-generation open-source publishing system for scientific and technical writing. As the successor to R Markdown, it ...
tidymodels für klinische Omics-Modelle: Tuning, Resampling und saubere Vergleichbarkeittidymodels for Clinical Omics Models: Tuning, Resampling, and Clean Comparability
Abstract tidymodels ist das R-Ökosystem für maschinelles Lernen im Tidyverse-Stil: deklarativ, modular und reproduzierbar. Es ersetzt das ältere caret-Paket durch ...Abstract tidymodels is the R ecosystem for machine learning in tidyverse style: declarative, modular, and reproducible. It replaces the older ...
scikit-learn Pipeline für Biomarker-Klassifikation: Leakage vermeiden, Evidenz steigernscikit-learn Pipeline for Biomarker Classification: Avoiding Leakage, Increasing Evidence
Abstract scikit-learn ist die Standard-Bibliothek für maschinelles Lernen in Python – und in der Bioinformatik ein unverzichtbares Werkzeug für Klassifikation, ...Abstract scikit-learn is the standard library for machine learning in Python—and in bioinformatics an indispensable tool for classification, regression, and ...
scanpy in Single-Cell-Projekten: QC, Clustering und robuste Markerlogikscanpy in Single-cell Projects: QC, Clustering, and Robust Marker Logic
Abstract scanpy ist das Python-Referenzpaket für die Analyse von Single-Cell-RNA-Seq-Daten (scRNA-Seq). Es deckt die gesamte Pipeline ab – von der ...Abstract scanpy is the Python reference package for single-cell RNA-Seq (scRNA-Seq) data analysis. It covers the entire pipeline—from quality control ...
WGCNA für Omics-Module: Von Koexpression zu klinisch interpretierbaren ClusternWGCNA for Omics Modules: From Co-expression to Clinically Interpretable Clusters
Abstract WGCNA (Weighted Gene Co-expression Network Analysis) identifiziert Module ko-exprimierter Gene in großen Expressionsdatensätzen und korreliert diese mit klinischen oder ...Abstract WGCNA (Weighted Gene Co-expression Network Analysis) identifies modules of co-expressed genes in large expression datasets and correlates them with ...
limma-voom in großen RNA-seq-Kohorten: Präzision, Speed und Modelltransparenzlimma-voom for Large RNA-seq Cohorts: Precision, Speed, and Model Transparency
Abstract limma-voom transformiert RNA-Seq-Zähldaten in gewichtete Log-CPM-Werte und analysiert sie mit dem bewährten linearen Modell-Framework von limma – einem der ...Abstract limma-voom transforms RNA-Seq count data into weighted log-CPM values and analyzes them using limma’s proven linear model framework—one of ...
edgeR in Omics-Pipelines: Dispersion-kontrollierte DE unter ProduktionsdruckedgeR in Omics Pipelines: Dispersion-aware Differential Expression Under Production Pressure
Abstract edgeR (empirical analysis of digital gene expression in R) ist seit 2010 eines der meistzitierten Bioconductor-Pakete für die Analyse ...Abstract edgeR (empirical analysis of digital gene expression in R) has been one of the most cited Bioconductor packages for ...
Data Analyst Engineering in Pipelines: Rolle, Methode und WertbeitragData Analyst Engineering in Pipelines: Role, Method, and Value
AbstractDieser Beitrag untersucht die Rolle eines Data Analyst Engineers in produktiven Datenpipelines. Im Zentrum steht die Frage, wie analytische Anforderungen ...
Power BI: Überblick und Vergleich mit Tableau und QlikPower BI: Overview and Comparison with Tableau and Qlik