关于最近很火的Harness Engineering
AI 工程经历了三个发展阶段:
Prompt Engineering(提示词工程):解决”模型有没有听懂你在说什么”的问题,通过优化语言表达来塑造模型的概率空间 Context Engineering(上下文工程):解决”模型有没有拿到足够且正确的信息”的问题,关注如何在合适时机提供正确信息 Harness Engineering(约束工程):解决”模型在真实执行力中能否持续做对”的问题,关注如何监督、约束和纠偏模型的执行过程 三者是包含关系而非替代关系:Prompt 是对指令的工程化,Context 是对输入环境的工程化,Harness 则是对整个运行系统的工程化。
Harness 的六层架构
Harness 工程拆解为六个层次:
- 信息边界管理 明确角色定义、裁剪选择相关信息、结构化组织上下文
- 工具系统 决定给模型什么工具、何时调用、如何处理工具返回结果
- 执行编排 规划任务执行流程,包括理解目标、捕获信息、分析、生成输出、检查修正
- 状态管理 区分当前任务状态、会话中间结果、长期记忆和用户偏好
- 评估和观测 建立输出验收、环境验证、自动测试、日志监控和错误归因机制
- 约束、校验、失败恢复 设定行为边界、执行前后检查、失败后的重试/回滚策略
一线公司实践案例
- Anthropic 采用 Context Reset(而非简单压缩)解决长程任务的上下文焦虑;将 Planner、Generator、Evaluator 分离,实现生产验收分离
- OpenAI 重新定义工程师角色为”设计环境”而非写代码;采用渐进式披露策略(将大文档拆分为目录+子文档);构建自动化验收系统和治理规则
核心价值
Harness Engineering 标志着 AI 开发重心的转变:从”让模型显得聪明”转向”让系统确保模型可靠做事”。真正决定 AI 应用能否稳定交付的不是模型本身,而是模型外部的运行系统。当任务进入长链路、可执行、低容错的真实场景时,Harness 几乎是不可避免的。