临床研发 Data Foundation 分层全景图

2026-03-01

从事实源到可审计应用与 Agent 的临床研发数据底座分层架构。

Extract -> Clean -> Conform -> Canonical -> Productize -> Operationalize。

主干转换链路

Extract（可追溯）

Clean（可用）

Conform（可拼接）

Canonical（同语义）

Productize（可复用）

Operationalize（进工作流）

Layer 0｜数据源层 Source Systems

这一层长什么样

CTMS/eTMF/RTSM/PV/QMS、EDC/ePRO/Labs/Imaging、Protocol/CSR 文档、RWD/RWE 与外部登记库。

输入来自哪一层

无上游，这是事实发生地。

到下一层怎么转

连接器与抽取（API/SFTP/CDC/事件/文件）-> raw extract 包 + 源血缘元数据。

最易踩的坑

只拿数据不拿提取证据链，会让下游层全部失去可验证性。

Layer 1｜落地层 Landing / Raw

这一层长什么样

按来源与时间分区的不可变 Raw 区，附带哈希、行数校验、PHI 标签与合规地域标签。

输入来自哪一层

来自 Layer 0 的原始抽取包与抽取元数据。

到下一层怎么转

轻量标准化（解码、去重、类型/时区统一、键预整理）-> cleaned raw / bronze。

最易踩的坑

在 Raw 层过度清洗会改写事实，破坏审计可解释性。

Layer 2｜规范化层 Conformed

这一层长什么样

质量可控的 subject/visit/site/case/document 对象，并行沉淀规则结果与异常标记。

输入来自哪一层

来自 Layer 1 的 cleaned raw 对象。

到下一层怎么转

术语映射 + 标准映射 + 主数据 ID 对齐 -> conformed 数据集与实体链接。

最易踩的坑

只统一字段不统一实体 ID，会彻底阻断跨系统分析。

Layer 3｜语义标准层 Semantic / Canonical

这一层长什么样

覆盖 Clinical/Operations/Safety/Documents 的 Canonical 模型与受治理的指标口径定义。

输入来自哪一层

来自 Layer 2 的 conformed 数据、映射字典与实体链接。

到下一层怎么转

维度建模 + 特征工程 + 文档结构化 -> semantic marts 与特征资产。

最易踩的坑

没有指标口径治理，“同一 KPI”会被不同团队算成不同答案。

Layer 4｜分析与产品层 Analytical / Data Products

这一层长什么样

Trial performance/patient journey/safety/authoring marts，以及 feature store 与 metric store。

输入来自哪一层

来自 Layer 3 的语义标准资产。

到下一层怎么转

服务层适配（索引/缓存/向量/图）+ 角色权限裁剪 + 服务化 API -> 可复用产品。

最易踩的坑

数据存在但未产品化，导致每个应用都在重复造自己的数据层。

Layer 5｜应用与智能层 Apps / Agents

这一层长什么样

仪表盘、决策应用与 Agent 工作流，作用于撰写、运营与质量干预闭环。

输入来自哪一层

依赖 Layer 3/4 的语义一致性与可复用产品。

到下一层怎么转

生成有证据的决策与可解释输出，并在合规下回写业务系统。

最易踩的坑

没有证据链，LLM/Agent 结果很难获得 GxP 语境下的信任。

三条横切能力

Identity Resolution

统一 Study/Site/Subject/Investigator/Vendor 跨系统身份映射。

Lineage & Audit

任何指标和结论都能追溯到源系统版本与转换规则。

Governed Access

角色视图、PHI/PII 管控与国别数据主权约束。

“当每个结论都能追溯证据路径时，底座才算完成。”