← → 翻页 · ESC 索引
AI Coding · Team Share
Vol.01
2026.05 · 组内分享

从 Vibe Coding
到 Harness Engineering

这轮变化的重点:把 AI 放进可执行、可验证、可恢复的工作流。

ContextVerificationHarnessLoop
AI Coding Notes
01 / 14
Evidence · 两个阶段对照
02 / 14
历史样本 vs 当前长周期样本

数据看的是工作重心变化。

旧阶段已经证明 AI 能承担大量编码;当前阶段更关心 loop、恢复、验证资产和外部资料校准。

Vibe Coding · Historical Sample
证明 AI 可以承担大部分编码。
8mo
持续迭代周期
1k+
累计 commits
200+
活跃天数
40%
feat 占比,功能冲刺明显
旧阶段的重点是把项目规则、上下文入口、质量门禁和结构化检索跑通,让 AI 输出能进工程流程。
Harness Engineering · Current Sample
开始把 AI 当长期运行系统管理。
2,047
从 2026-03-10 到现在
1,345
触达文件,覆盖面变宽
748
fix,边界和稳定性占比上升
177
docs + tests,验证资产增多
当前阶段更关心 loop、恢复、验证矩阵和外部资料校准;代码只是系统跑出来的结果。
Data · Historical Anonymized Sample + Current Anonymized Sample
Data
The Shift · 核心变化
03 / 14
先给一个土话定义
把 AI 放进一条轨道: 可读、可查、可测、可恢复。

这里说的 harness,就是模型外面那层工程约束:范围、工具、权限、验证、日志和恢复路径。

From Output to Operating System
Shift
Before / After · 范式变化
04 / 14
旧经验继续有用,生产环境还要再加一层

Vibe 打开入口,Harness 托住交付。

Vibe Coding

人盯输出

  • 把需求讲清楚,让模型写。
  • 靠 CLAUDE.md / AGENTS.md 喂上下文。
  • 靠测试、lint、review 做验收。
  • 失败后继续改 prompt。
Harness Engineering

系统约束输出

  • 任务先落成 spec、scope、done 条件。
  • 工具、权限、上下文都有预算和边界。
  • 循环带 retry、abort、fallback、回归矩阵。
  • 失败后优先补 harness,再调整说法。
早期经验总结的下一层
Comparison
Act I · 旧方法的复利
05 / 14
先保留有效资产

上下文 + 验证

早期总结里最有价值的公式仍然成立:AI 交付质量 = 上下文质量 × 验证自动化 × 任务适配度。

Vibe Coding Engineering Practice
Act I
Context · Attention Budget
06 / 14
“多给上下文”会把任务撑爆

上下文要按预算管。

这轮实践里,有用的是“路由 + 渐进披露”:先告诉 agent 去哪里找,再让它按需读取。

AGENTS.md 写成百科全书会失控。更适合做索引:规则、入口、验证命令、边界和下一层文档位置。
Codex / Anthropic / early notes
Project
稳定规则:目录、命令、禁令、提交与 review 约束。
LOW CHURN
Task
本次目标:范围、非目标、验收标准、风险点。
ACTIVE
Runtime
工具结果、日志、截图、测试输出,小片段进入上下文。
METERED
Memory
只沉淀可复用决策,不把历史聊天整包塞回去。
SELECTIVE
Progressive disclosure
Context
Workflow · 基础执行闭环
07 / 14
最小闭环

Read -> Search -> Change -> Verify

这条顺序有实际作用:先读系统、查证据,再动文件。

Coding Harness · Minimum Loop
01
Read
读 README、AGENTS、旧文、关键实现。
02
Search
ace / rg / ast-grep / nmem / Exa 定位证据。
03
Change
小范围 patch,拒绝顺手重构。
04
Verify
窄测试先跑,再按风险扩大。
05
Record
把反复踩坑写回 rules、tests、memory。
Project rule as harness
Loop
Autoresearch · 无人值守迭代
08 / 14
从“一次性回答”到“实验循环”

Autoresearch 先定指标。

先给 agent 一个指标、一个 guard、一个验证命令;每轮只允许一个可回滚变化。

Modify -> Verify -> Keep / Discard -> Repeat。没有机械验证,就不叫 autoresearch。
Codex Autoresearch Skill
Goal
要优化什么,不用一句“提升质量”糊过去。
INTENT
Metric
通过率、耗时、错误数、覆盖率、截图 diff。
MEASURE
Guard
不准越界、不准降级、不准动无关文件。
BOUNDARY
Log
每轮留结果,方便人醒来只看保留/丢弃原因。
AUDIT
Long-running iteration
Autoresearch
Act II · Ralph Loop
09 / 14
持久单负责人执行

Ralph Loop

这里的 Ralph Loop 先理解成一个执行模式:同一个 owner 持续推进,先有 PRD 和 test spec,再让 agent 跑长任务。

PRD First · Test Spec as Companion
Act II
Planning Harness · 从访谈到执行
10 / 14
别把不清楚的问题直接丢给执行侧

规划要写成执行约束。

Full Flow
01
Clarify
先问边界:入口、非目标、失败模型。
02
Plan
把方案、风险和拆分先拧一遍。
03
Spec
写清 done when、out of scope、改动面。
04
Gates
落到测试、日志字段、边界案例。
05
Execute
单 owner 持续跑,必要时再拆 worker。
个人轻量版:5 行 PRD + 3 个验收点 + 1 条验证命令。先把这三件事写清楚,再让 agent 开始改。
Solo Version
Planning creates executable certainty
Workflow
Failure Harness · 出错怎么处理
11 / 14
出错后先别急着继续跑

先判断:停、重试,还是补 harness。

失败处理也要工程化。否则 agent 很容易把“该停止的问题”当成“再试一次的问题”。

翻车例子:用户已经拒绝,agent 继续尝试,结果越界。修法是把“拒绝”写成停止语义。
Failure story · stop / retry / patch
用户拒绝、权限阻断、会产生副作用、重复空转。
STOP
重试
网络抖动、参数可修、读取失败且没有副作用。
RETRY
同类错误第二次出现,补测试、规则、脚本或日志。
PATCH
留下触发条件、验证命令和下次该看的证据。
MEMORY
Failure handling as harness
Recovery
Research · 外部资料怎么用
12 / 14
别让模型凭感觉定策略

用 Exa 找参照系。

我的习惯是先用 Exa / web search 把官方文档、工程博客、真实 issue 拉一圈,再回到当前 repo 做判断。

我查的通常会落到具体问题:超时设多少、失败要不要重试、默认策略怎么拆、主流工具在哪些地方踩过坑。
External Research as Decision Support
触发
参数没把握、策略像拍脑袋、验证边界不清楚,就先停一下查资料。
WHEN
检索
优先看官方 docs、工程博客、真实 issue;issue 更容易看到失败样本。
SEARCH
消化
只拿默认值、边界条件、反例和取舍理由,不搬对方的上下文。
DISTILL
落地
把结论落到 spec、项目规则、测试或脚本里,下次不用重新查一遍。
APPLY
Tools · Exa / web search · official docs · engineering posts · issues
Research
Act III · 团队落地
13 / 14
The Question

我们的 harness
现在缺哪一环?

把问题从“哪个模型更强”换成:上下文、工具、权限、验证、恢复和记忆,哪一层还在靠人肉兜底。

Team checklist
Question
Takeaway · 行动清单
14 / 14
先别搞宏大改造

明天先抄 3 步。

01 · Scope
每个中型任务写清 done when 和 out of scope。
02 · Evidence
让 agent 先列文件、证据和改动面,确认后再允许修改。
03 · Gate
失败一次后先补测试、规则或脚本,再继续让 agent 跑。
对个人开发者来说,harness 先不用完整平台化。先让任务可读、证据可查、失败可复盘。
Harness Engineering · 2026
/slides/harness-engineering-ai-coding/
End