StochStack

ops eval

Agent 评估看板

把每个 agent 当作可量化的决策模块来验证,而不是黑盒。

Agent 评分卡

Country Feasibility · vB

准确度

76%

偏差

-0.05

稳定性

78%

采纳率

73%

样本数: 38 · 2026-03-02

Site Scout · vB

准确度

74%

偏差

-0.07

稳定性

75%

采纳率

72%

样本数: 51 · 2026-03-02

StartUp Workflow · vB

准确度

79%

偏差

-0.03

稳定性

80%

采纳率

76%

样本数: 36 · 2026-03-02

Recruitment Dynamics · vB

准确度

78%

偏差

-0.06

稳定性

77%

采纳率

75%

样本数: 48 · 2026-03-02

Risk Officer · vB

准确度

81%

偏差

-0.02

稳定性

82%

采纳率

79%

样本数: 33 · 2026-03-02

Country Feasibility · vB

准确度

73%

偏差

-0.06

稳定性

76%

采纳率

71%

样本数: 27 · 2026-03-02

Site Scout · vB

准确度

71%

偏差

-0.09

稳定性

73%

采纳率

69%

样本数: 39 · 2026-03-02

StartUp Workflow · vB

准确度

76%

偏差

-0.04

稳定性

79%

采纳率

75%

样本数: 29 · 2026-03-02

Recruitment Dynamics · vB

准确度

75%

偏差

-0.07

稳定性

76%

采纳率

73%

样本数: 42 · 2026-03-02

Risk Officer · vB

准确度

79%

偏差

-0.03

稳定性

81%

采纳率

77%

样本数: 26 · 2026-03-02

Country Feasibility · vB

准确度

72%

偏差

-0.08

稳定性

74%

采纳率

69%

样本数: 23 · 2026-03-02

Site Scout · vB

准确度

69%

偏差

-0.11

稳定性

70%

采纳率

66%

样本数: 34 · 2026-03-02

StartUp Workflow · vB

准确度

74%

偏差

-0.05

稳定性

77%

采纳率

72%

样本数: 25 · 2026-03-02

Recruitment Dynamics · vB

准确度

71%

偏差

-0.09

稳定性

73%

采纳率

68%

样本数: 36 · 2026-03-02

Risk Officer · vB

准确度

77%

偏差

-0.04

稳定性

79%

采纳率

74%

样本数: 22 · 2026-03-02

版本对比(vA vs vB)

AgentvAvB差值
Country Feasibilityacc 68% · bias -0.12 · stab 71% · adopt 64%acc 76% · bias -0.05 · stab 78% · adopt 73%
acc 8.0%
bias 0.07
stab 7.0%
adopt 9.0%
Site Scoutacc 61% · bias -0.18 · stab 66% · adopt 59%acc 74% · bias -0.07 · stab 75% · adopt 72%
acc 13.0%
bias 0.11
stab 9.0%
adopt 13.0%
StartUp Workflowacc 70% · bias -0.09 · stab 74% · adopt 67%acc 79% · bias -0.03 · stab 80% · adopt 76%
acc 9.0%
bias 0.06
stab 6.0%
adopt 9.0%
Recruitment Dynamicsacc 64% · bias -0.16 · stab 68% · adopt 60%acc 78% · bias -0.06 · stab 77% · adopt 75%
acc 14.0%
bias 0.10
stab 9.0%
adopt 15.0%
Risk Officeracc 72% · bias -0.08 · stab 73% · adopt 66%acc 81% · bias -0.02 · stab 82% · adopt 79%
acc 9.0%
bias 0.06
stab 9.0%
adopt 13.0%

人工反馈闭环

已采纳: 0已拒绝: 0反馈记录数: 0

Site Scout · vB

建议: Replace 2 low-conversion sites in France

依据: vB predicts 14% slower conversion in current bottom quartile sites.

Recruitment Dynamics · vB

建议: Increase pre-screening support in Germany

依据: Screen-fail burden contributes most of month-4 gap.

StartUp Workflow · vB

建议: Parallelize ethics and contract package

依据: Critical-path lag is concentrated in startup packet handoff.

Risk Officer · vB

建议: Escalate monitoring cadence for 3 sites

依据: Risk scoring flags persistent quality variance.