Layered Panorama der Clinical-Development Data Foundation

2026-03-01

Geschichtete Architektur von Quellsystemen bis zu auditierbaren Apps und Agents.

Extract -> Clean -> Conform -> Canonical -> Productize -> Operationalize.

Backbone-Transformationskette

Extract (Nachvollziehbar)

Clean (Nutzbar)

Conform (Kombinierbar)

Canonical (Gemeinsame Semantik)

Productize (Wiederverwendbar)

Operationalize (Im Workflow)

Layer 0 — Source Systems

Wie diese Ebene aussieht

CTMS/eTMF/RTSM/PV/QMS, EDC/ePRO/Labs/Imaging, Protocol/CSR-Dokumente, RWD/RWE und externe Register.

Input aus der unteren Ebene

Kein Upstream. Hier entstehen die Fakten.

Transformation zur naechsten Ebene

Connectoren + Extraktion (API/SFTP/CDC/Events/Files) -> Raw-Extract + Source-Lineage-Metadaten.

Typischer Fallstrick

Daten ohne Extraktions-Evidenzkette machen alle nachgelagerten Ebenen nicht verifizierbar.

Layer 1 — Landing / Raw

Wie diese Ebene aussieht

Immutable Raw-Zone nach Quelle/Zeit partitioniert, mit Hashes, Row-Checks, PHI-Tags und Regionenlabels.

Input aus der unteren Ebene

Raw-Extracts und Extraktionsmetadaten aus Layer 0.

Transformation zur naechsten Ebene

Leichte Normalisierung (Decode, Dedupe, Typ/Zeitzone, Keys) -> Cleaned Raw / Bronze.

Typischer Fallstrick

Zu viel Bereinigung in Raw ueberschreibt Fakten und bricht Audit-Erklaerbarkeit.

Layer 2 — Conformed

Wie diese Ebene aussieht

Qualitaetskontrollierte Subject/Visit/Site/Case/Document-Objekte mit Regel- und Anomalieergebnissen.

Input aus der unteren Ebene

Cleaned-Raw-Objekte aus Layer 1.

Transformation zur naechsten Ebene

Terminologie/Standards-Mapping + Master-ID-Abgleich -> Conformed-Datasets und Entity-Links.

Typischer Fallstrick

Feld-Harmonisierung ohne Entity-ID-Vereinheitlichung blockiert systemuebergreifende Analytik.

Layer 3 — Semantic / Canonical

Wie diese Ebene aussieht

Canonical-Modell fuer Clinical/Operations/Safety/Documents plus governancefaehige Metrikdefinitionen.

Input aus der unteren Ebene

Conformed-Datasets, Mapping-Dictionaries und Entity-Links aus Layer 2.

Transformation zur naechsten Ebene

Dimensionale Modellierung + Feature Engineering + Dokumentstrukturierung -> Semantic Marts und Feature-Artefakte.

Typischer Fallstrick

Ohne Metrik-Governance berechnen Teams denselben KPI unterschiedlich.

Layer 4 — Analytical / Data Products

Wie diese Ebene aussieht

Trial-Performance-, Patient-Journey-, Safety- und Authoring-Marts sowie Feature/Metric-Stores.

Input aus der unteren Ebene

Kanonische Semantik-Assets aus Layer 3.

Transformation zur naechsten Ebene

Serving-Anpassung (Index/Cache/Vektor/Graph) + rollenbasierter Zugriff + Service-APIs -> wiederverwendbare Produkte.

Typischer Fallstrick

Daten sind da, aber nicht produktisiert; jede App baut ihre eigene Datenschicht neu.

Layer 5 — Apps / Agents

Wie diese Ebene aussieht

Dashboards, Entscheidungs-Apps und Agent-Workflows fuer Authoring, Operations und Quality-Loops.

Input aus der unteren Ebene

Abhaengig von semantischer Konsistenz und wiederverwendbaren Produkten aus Layer 3/4.

Transformation zur naechsten Ebene

Evidenzbasierte Entscheidungen + erklaerbare Outputs + optionales governance-konformes Write-back.

Typischer Fallstrick

Ohne Evidenz-Traceability gewinnen LLM/Agent-Ergebnisse kein GxP-Vertrauen.

Drei Querschnittsfaehigkeiten

Identity Resolution

Studien/Site/Subject/Investigator/Vendor-Identitaeten systemuebergreifend vereinheitlichen.

Lineage & Audit

Jede Kennzahl und Schlussfolgerung muss auf Quellenversionen und Regeln rueckfuehrbar sein.

Governed Access

Rollenbasierte Views, PHI/PII-Kontrollen und regionale Datensouveraenitaet.

“Die Foundation ist erst fertig, wenn jede Schlussfolgerung einen Evidenzpfad hat.”