多数团队把 HITL 当应急后备方案，结果审核员不堪重负、Agent 升级率失控。本文从工程视角出发，给出生产级人机协作的五层架构模型，详解三层信号栈设计、EscalationPayload 状态序列化方案、一键决策审核面板，以及让升级率收敛至 10-15% 的运营纪律。

AI Agent 人机协作工程：从升级协议到审批工作流的生产实践

文章配图

引言：60% 升级率的惨案

一家金融科技公司的交易审核 Agent 上线三周后，团队收到了审核员的集体投诉：Agent 把 60% 的案件升级给人工审核。审核员每天处理 400+ 条待审任务，平均每条需要 15 分钟重建上下文——因为 Agent 递交的只是一段原始对话记录。

审核员开始跳过详细审查，直接点"通过"。一个月后，三笔违规交易溜过了防线。

产品负责人质疑 Agent 为什么不能自己处理更多；审核员抱怨信息不足；管理层开始怀疑 Human-in-the-Loop 是否值得投入。

问题不在于"是否需要人类参与"，而在于没有把人机协作当作工程问题来设计。

Logiciel.io 在 2026 年 5 月的企业级 HITL 架构报告中指出：多数团队把 HITL 当作应急后备方案来实现，等审核员开始倦怠时才发现应该提前设计的架构。Tian Pan 的升级协议研究更为直接——当 Agent 递交结构化决策摘要而非原始对话记录时，审核员的准备时间从 15 分钟降到 30 秒，降幅 97%。

本文从工程视角出发，讲解生产级 Agent 人机协作的五层架构、信号栈设计、状态序列化方案，以及让升级率收敛而非膨胀的运营机制。

一、为什么"加个人工审批"不是 HITL 架构

1.1 两种截然不同的实现

大多数团队对 Human-in-the-Loop 的理解停留在"Agent 不确定时抛给人工"。这产生了两种截然不同的系统形态：

维度	应急后备型	工程设计型
升级触发	模型 confidence < 阈值	多信号栈综合决策
递交内容	原始对话记录	结构化决策摘要 + 行动选项
审核界面	聊天窗口里看 transcript	专用决策面板，一键操作
审核员负载	不可预测，高峰期崩溃	按人分配预算，轮班机制

模式	恢复速度	可移植性	适用场景
有状态快照	微秒级	绑定单进程	同步审批（分钟级响应）
无状态检查点	需重放	跨进程可移植	异步审批（小时/天级响应）
混合方案	视情况	兼顾	生产推荐

指标	健康区间	告警阈值
升级率	10-15%	>20%
审核员平均决策时间	<60s	>180s
审核一致性（同类案件）	>85%	<70%
学习闭环转化率	>30 eval cases/周	<10/周
审核员每日处理量偏差	±20% 平均值	>50%

AI Agent 人机协作工程：从升级协议到审批工作流的生产实践

AI Agent 人机协作工程：从升级协议到审批工作流的生产实践

引言：60% 升级率的惨案

一、为什么"加个人工审批"不是 HITL 架构

1.1 两种截然不同的实现

1.2 五层架构模型

二、信号栈：何时升级给人类

2.1 Confidence 阈值的陷阱

2.2 三层信号栈设计

2.3 升级率的黄金区间

三、状态序列化：递交什么给人类

3.1 对话记录 vs. 决策摘要

3.2 三层递交载荷设计

3.3 快照策略选择

四、审核界面与回流路径

4.1 为什么聊天窗口是错误的审核介质

4.2 回流路径：Agent 如何恢复执行

五、学习闭环与运营纪律

5.1 审核决策转化为 Eval 用例

5.2 运营模型：防止审核员倦怠

5.3 关键指标仪表板

六、实战模式选择

模式 A：同步审批门控

模式 B：异步工单流转

模式 C：渐进自主（最推荐的长期模式）

总结：行动清单