临床研发 Data Foundation 分层全景图
2026-03-01
从事实源到可审计应用与 Agent 的临床研发数据底座分层架构。
主干转换链路
Extract(可追溯)
Clean(可用)
Conform(可拼接)
Canonical(同语义)
Productize(可复用)
Operationalize(进工作流)
L0
Layer 0|数据源层 Source Systems
这一层长什么样
CTMS/eTMF/RTSM/PV/QMS、EDC/ePRO/Labs/Imaging、Protocol/CSR 文档、RWD/RWE 与外部登记库。
输入来自哪一层
无上游,这是事实发生地。
到下一层怎么转
连接器与抽取(API/SFTP/CDC/事件/文件)-> raw extract 包 + 源血缘元数据。
最易踩的坑
只拿数据不拿提取证据链,会让下游层全部失去可验证性。
L1
Layer 1|落地层 Landing / Raw
这一层长什么样
按来源与时间分区的不可变 Raw 区,附带哈希、行数校验、PHI 标签与合规地域标签。
输入来自哪一层
来自 Layer 0 的原始抽取包与抽取元数据。
到下一层怎么转
轻量标准化(解码、去重、类型/时区统一、键预整理)-> cleaned raw / bronze。
最易踩的坑
在 Raw 层过度清洗会改写事实,破坏审计可解释性。
L2
Layer 2|规范化层 Conformed
这一层长什么样
质量可控的 subject/visit/site/case/document 对象,并行沉淀规则结果与异常标记。
输入来自哪一层
来自 Layer 1 的 cleaned raw 对象。
到下一层怎么转
术语映射 + 标准映射 + 主数据 ID 对齐 -> conformed 数据集与实体链接。
最易踩的坑
只统一字段不统一实体 ID,会彻底阻断跨系统分析。
L3
Layer 3|语义标准层 Semantic / Canonical
这一层长什么样
覆盖 Clinical/Operations/Safety/Documents 的 Canonical 模型与受治理的指标口径定义。
输入来自哪一层
来自 Layer 2 的 conformed 数据、映射字典与实体链接。
到下一层怎么转
维度建模 + 特征工程 + 文档结构化 -> semantic marts 与特征资产。
最易踩的坑
没有指标口径治理,“同一 KPI”会被不同团队算成不同答案。
L4
Layer 4|分析与产品层 Analytical / Data Products
这一层长什么样
Trial performance/patient journey/safety/authoring marts,以及 feature store 与 metric store。
输入来自哪一层
来自 Layer 3 的语义标准资产。
到下一层怎么转
服务层适配(索引/缓存/向量/图)+ 角色权限裁剪 + 服务化 API -> 可复用产品。
最易踩的坑
数据存在但未产品化,导致每个应用都在重复造自己的数据层。
L5
Layer 5|应用与智能层 Apps / Agents
这一层长什么样
仪表盘、决策应用与 Agent 工作流,作用于撰写、运营与质量干预闭环。
输入来自哪一层
依赖 Layer 3/4 的语义一致性与可复用产品。
到下一层怎么转
生成有证据的决策与可解释输出,并在合规下回写业务系统。
最易踩的坑
没有证据链,LLM/Agent 结果很难获得 GxP 语境下的信任。
三条横切能力
Identity Resolution
统一 Study/Site/Subject/Investigator/Vendor 跨系统身份映射。
Lineage & Audit
任何指标和结论都能追溯到源系统版本与转换规则。
Governed Access
角色视图、PHI/PII 管控与国别数据主权约束。
“当每个结论都能追溯证据路径时,底座才算完成。”