Layered Panorama der Clinical-Development Data Foundation
2026-03-01
Geschichtete Architektur von Quellsystemen bis zu auditierbaren Apps und Agents.
Backbone-Transformationskette
Extract (Nachvollziehbar)
Clean (Nutzbar)
Conform (Kombinierbar)
Canonical (Gemeinsame Semantik)
Productize (Wiederverwendbar)
Operationalize (Im Workflow)
L0
Layer 0 — Source Systems
Wie diese Ebene aussieht
CTMS/eTMF/RTSM/PV/QMS, EDC/ePRO/Labs/Imaging, Protocol/CSR-Dokumente, RWD/RWE und externe Register.
Input aus der unteren Ebene
Kein Upstream. Hier entstehen die Fakten.
Transformation zur naechsten Ebene
Connectoren + Extraktion (API/SFTP/CDC/Events/Files) -> Raw-Extract + Source-Lineage-Metadaten.
Typischer Fallstrick
Daten ohne Extraktions-Evidenzkette machen alle nachgelagerten Ebenen nicht verifizierbar.
L1
Layer 1 — Landing / Raw
Wie diese Ebene aussieht
Immutable Raw-Zone nach Quelle/Zeit partitioniert, mit Hashes, Row-Checks, PHI-Tags und Regionenlabels.
Input aus der unteren Ebene
Raw-Extracts und Extraktionsmetadaten aus Layer 0.
Transformation zur naechsten Ebene
Leichte Normalisierung (Decode, Dedupe, Typ/Zeitzone, Keys) -> Cleaned Raw / Bronze.
Typischer Fallstrick
Zu viel Bereinigung in Raw ueberschreibt Fakten und bricht Audit-Erklaerbarkeit.
L2
Layer 2 — Conformed
Wie diese Ebene aussieht
Qualitaetskontrollierte Subject/Visit/Site/Case/Document-Objekte mit Regel- und Anomalieergebnissen.
Input aus der unteren Ebene
Cleaned-Raw-Objekte aus Layer 1.
Transformation zur naechsten Ebene
Terminologie/Standards-Mapping + Master-ID-Abgleich -> Conformed-Datasets und Entity-Links.
Typischer Fallstrick
Feld-Harmonisierung ohne Entity-ID-Vereinheitlichung blockiert systemuebergreifende Analytik.
L3
Layer 3 — Semantic / Canonical
Wie diese Ebene aussieht
Canonical-Modell fuer Clinical/Operations/Safety/Documents plus governancefaehige Metrikdefinitionen.
Input aus der unteren Ebene
Conformed-Datasets, Mapping-Dictionaries und Entity-Links aus Layer 2.
Transformation zur naechsten Ebene
Dimensionale Modellierung + Feature Engineering + Dokumentstrukturierung -> Semantic Marts und Feature-Artefakte.
Typischer Fallstrick
Ohne Metrik-Governance berechnen Teams denselben KPI unterschiedlich.
L4
Layer 4 — Analytical / Data Products
Wie diese Ebene aussieht
Trial-Performance-, Patient-Journey-, Safety- und Authoring-Marts sowie Feature/Metric-Stores.
Input aus der unteren Ebene
Kanonische Semantik-Assets aus Layer 3.
Transformation zur naechsten Ebene
Serving-Anpassung (Index/Cache/Vektor/Graph) + rollenbasierter Zugriff + Service-APIs -> wiederverwendbare Produkte.
Typischer Fallstrick
Daten sind da, aber nicht produktisiert; jede App baut ihre eigene Datenschicht neu.
L5
Layer 5 — Apps / Agents
Wie diese Ebene aussieht
Dashboards, Entscheidungs-Apps und Agent-Workflows fuer Authoring, Operations und Quality-Loops.
Input aus der unteren Ebene
Abhaengig von semantischer Konsistenz und wiederverwendbaren Produkten aus Layer 3/4.
Transformation zur naechsten Ebene
Evidenzbasierte Entscheidungen + erklaerbare Outputs + optionales governance-konformes Write-back.
Typischer Fallstrick
Ohne Evidenz-Traceability gewinnen LLM/Agent-Ergebnisse kein GxP-Vertrauen.
Drei Querschnittsfaehigkeiten
Identity Resolution
Studien/Site/Subject/Investigator/Vendor-Identitaeten systemuebergreifend vereinheitlichen.
Lineage & Audit
Jede Kennzahl und Schlussfolgerung muss auf Quellenversionen und Regeln rueckfuehrbar sein.
Governed Access
Rollenbasierte Views, PHI/PII-Kontrollen und regionale Datensouveraenitaet.
“Die Foundation ist erst fertig, wenn jede Schlussfolgerung einen Evidenzpfad hat.”