StochStack

信号日志

临床研发 Data Foundation 分层全景图

2026-03-01

从事实源到可审计应用与 Agent 的临床研发数据底座分层架构。

Extract -> Clean -> Conform -> Canonical -> Productize -> Operationalize。

主干转换链路

01

Extract(可追溯)

02

Clean(可用)

03

Conform(可拼接)

04

Canonical(同语义)

05

Productize(可复用)

06

Operationalize(进工作流)

L0

Layer 0|数据源层 Source Systems

这一层长什么样

CTMS/eTMF/RTSM/PV/QMS、EDC/ePRO/Labs/Imaging、Protocol/CSR 文档、RWD/RWE 与外部登记库。

输入来自哪一层

无上游,这是事实发生地。

到下一层怎么转

连接器与抽取(API/SFTP/CDC/事件/文件)-> raw extract 包 + 源血缘元数据。

最易踩的坑

只拿数据不拿提取证据链,会让下游层全部失去可验证性。

L1

Layer 1|落地层 Landing / Raw

这一层长什么样

按来源与时间分区的不可变 Raw 区,附带哈希、行数校验、PHI 标签与合规地域标签。

输入来自哪一层

来自 Layer 0 的原始抽取包与抽取元数据。

到下一层怎么转

轻量标准化(解码、去重、类型/时区统一、键预整理)-> cleaned raw / bronze。

最易踩的坑

在 Raw 层过度清洗会改写事实,破坏审计可解释性。

L2

Layer 2|规范化层 Conformed

这一层长什么样

质量可控的 subject/visit/site/case/document 对象,并行沉淀规则结果与异常标记。

输入来自哪一层

来自 Layer 1 的 cleaned raw 对象。

到下一层怎么转

术语映射 + 标准映射 + 主数据 ID 对齐 -> conformed 数据集与实体链接。

最易踩的坑

只统一字段不统一实体 ID,会彻底阻断跨系统分析。

L3

Layer 3|语义标准层 Semantic / Canonical

这一层长什么样

覆盖 Clinical/Operations/Safety/Documents 的 Canonical 模型与受治理的指标口径定义。

输入来自哪一层

来自 Layer 2 的 conformed 数据、映射字典与实体链接。

到下一层怎么转

维度建模 + 特征工程 + 文档结构化 -> semantic marts 与特征资产。

最易踩的坑

没有指标口径治理,“同一 KPI”会被不同团队算成不同答案。

L4

Layer 4|分析与产品层 Analytical / Data Products

这一层长什么样

Trial performance/patient journey/safety/authoring marts,以及 feature store 与 metric store。

输入来自哪一层

来自 Layer 3 的语义标准资产。

到下一层怎么转

服务层适配(索引/缓存/向量/图)+ 角色权限裁剪 + 服务化 API -> 可复用产品。

最易踩的坑

数据存在但未产品化,导致每个应用都在重复造自己的数据层。

L5

Layer 5|应用与智能层 Apps / Agents

这一层长什么样

仪表盘、决策应用与 Agent 工作流,作用于撰写、运营与质量干预闭环。

输入来自哪一层

依赖 Layer 3/4 的语义一致性与可复用产品。

到下一层怎么转

生成有证据的决策与可解释输出,并在合规下回写业务系统。

最易踩的坑

没有证据链,LLM/Agent 结果很难获得 GxP 语境下的信任。

三条横切能力

Identity Resolution

统一 Study/Site/Subject/Investigator/Vendor 跨系统身份映射。

Lineage & Audit

任何指标和结论都能追溯到源系统版本与转换规则。

Governed Access

角色视图、PHI/PII 管控与国别数据主权约束。

当每个结论都能追溯证据路径时,底座才算完成。