Audit Evolution / Agent Flight Recorder

让 Agent 每跑一轮,都变得更聪明

用户只说一句“开始调用 Audit Evolution”,Agent 自己找证据、审计状态、提出下一轮进化方案。

Longju: 93.0, S 级, 全球 #1
Jobs: 88.8, A 级, 全球 #4
DeepSeek-only 路线已验证
入口: 开始调用 Audit Evolution
自动找: 跑分 / worklog / 失败 / 反馈 / handoff
输出: Evidence Pack / Snapshot / Evolution Card / Memory Ledger / Patch Proposal
人类只回: 进化 / 保存 / 暂停 / 跑分
公开成绩 先看结果,再讲机制

不是换更大的模型,而是让 Agent 学会进化

同一套 Audit Evolution 思路,先在 Longju 和 Jobs 上跑出可见结果:一个冲到全球 #1,一个从普通分段冲进全球 #4。

Longju BotLearn 93 分官网成绩截图
Jobs BotLearn 88.8 分官网成绩截图
Before 黑盒状态

黑盒崩溃只是最刺眼的痛点,不是唯一场景

脏日志片段
agent: Longju SACP Operator
模型路线: DeepSeek API
上下文压力: 99k / 131k, 约 75%

我大概知道当前任务了。
Gear 修复可能已经完成,但我还需要再读几个文件确认一下。

已经读过:
- handoff 摘要
- benchmark brief
- scan payload
- skill router
- runtime guard note

现在不确定:
- 93/100 是当前能力,还是历史最好成绩?
- 为什么 clean recheck 出现过 76/100?
- 为什么某轮是 90/100,但 authority 文件仍然保留 93/100?
- 新窗口是不是错误继承了旧窗口 token 消耗?
- 平台到底扫描到了 6 个核心 skill,还是 31 个分散 skill?

可能完成了。也可能还 blocked。需要再确认。可以继续扫描。
Failure Pattern 为什么这会危险

黑盒不是“看不见思考”,而是看不见状态边界

文件链爆炸读了 5 个文件仍然想继续追旧日志,任务入口越来越不清楚。
权威混乱record、latest、clean recheck 混在一起,分数越多越难判断。
上下文继承错觉新窗口把旧窗口 token 当成当前状态,开始就带着误解。
完成声明漂移没有 evidence,也会说“可能完成了”。
修复越修越散benchmark 反馈变成不断加补丁,而不是一次最小进化。
工具越来越重越不确定,越想调用更重的工具,成本和风险一起上升。
After 可恢复快照

Audit Evolution 先找证据,再把运行压成下一轮进化输入

YAML Frontmatter
---
type: agent_flight_snapshot
skill_name: Audit Evolution
protocol: SACP/0.1
agent_id: Longju
status: handoff_ready
model_route: deepseek-only
context_pressure: 75%
confidence: high
handoff_directive: stop_expansion_write_snapshot
evolution_decision: distill
memory_target: proposed_only
---
Worklog Brief
current_goal:
在不继续扩展上下文的情况下,恢复当前状态。

trusted_state:
- Longju: 93/100, S 级, 全球 #1
- Jobs: 88.8/100, A 级, 全球 #4
- 主扫描清单: 6 个核心 skill

uncertain_state:
- 下一轮题目抽样未知
- gear/config 评分权重不可见

next_small_action:
只做一个最小修复,然后验证。

memory_ledger:
- retrieval_key: act_direct_execution
- expiry: 下一轮评测或被新证据推翻

stop_condition:
读满 5 个文件仍不清楚就停。
context 超过 70% 停止扩展。
没有 evidence 不许说 completed。
Core Promise 不是救火工具,是进化引擎

你的 Agent 不需要崩溃,也不需要你搬运材料

用户入口只有一句
开始调用 Audit Evolution。

请先从当前上下文和允许访问的文件里自动寻找:
- 最近任务输出
- 用户反馈
- 失败/超时/重试记录
- benchmark 或评测结果
- worklog / handoff / receipt
- 最近修改过的 skill / config / gear

先审计,不要直接修改。
Evidence Pack先说明找到哪些证据、缺哪些证据、哪个文件更权威。
Evolution Card识别本轮最该提升的能力维度:perceive / act / memory / guard / autonomy / reason。
Memory Ledger只沉淀少量 verified fact、user feedback、decision、retrieval key 和下一轮启动指令。
Patch Proposal只提出一个最小补丁,不直接改系统。
Short Command Menu最后给人类短选项:进化、保存、暂停、跑分、详情。

它的招牌是:Agent 每做一次事,就自己留下可审计证据,并把证据变成下一轮能力沉淀。

Evolution Evidence 真实进化路径

真正有说服力的不是一次高分,而是连续变强

Jobs benchmark evolution path from 76.4 to 88.8
Jobs: 76.4 → 78.8 → 88.8,单日 +12.4
Longju 后期仍能从 84 拉到 93,最新提升 +9.0
这不是“跑一次运气好”,而是把每轮反馈压成下一轮 skill 修复。
Longju benchmark evolution path ending at 93
进化卡片会记录什么
score_delta:
  previous:
  current:
  gain:

weak_dimension:
  act | memory | perceive | guard | autonomy | reason

minimal_patch:
  one skill change only

memory_ledger:
  type: skill_patch
  retrieval_key: act_direct_execution
  expiry: next benchmark or contradicted

promotion_gate:
  dry-run -> payload audit -> receipt -> next benchmark
How It Works 一句话触发闭环

每一次任务结束,都可以留下下一轮可执行的修复路径

1
触发用户说“开始调用”,或 benchmark / 失败 / 反馈自动触发。
2
找证据最多读 5 个相关文件,先列 Evidence Pack。
3
审计区分 verified_fact、stale_claim、unknown。
4
记忆只保存带证据、可过期、可检索的 Memory Ledger Entry。
5
提案只生成一个最小 patch proposal,不盲目重构。
6
路由人类只回“进化/保存/暂停/跑分”,Agent 自己判断下一步。
Install 下载后就能接入

不是只给你一份文档,而是把触发入口也装进工作区

Windows / Codex
powershell -ExecutionPolicy Bypass `
  -File .\scripts\install-audit-evolution.ps1 `
  -TargetWorkspace "D:\YourAgentWorkspace" `
  -Agent codex `
  -Force
macOS / Linux / OpenClaw
bash ./scripts/install-audit-evolution.sh \
  --target "$HOME/your-agent-workspace" \
  --agent openclaw \
  --force
A
复制 Skill安装到目标工作区的 skills/audit-evolution。
B
写入路由更新 AGENTS.md,让 Agent 知道什么时候自动调用。
C
生成 Hook任务失败、跑分完成、上下文超过 60% 时生成 run record。
D
立刻使用用户只说“开始调用 Audit Evolution”或“进化”。
For Audience 现场 30 秒体验

不用整理日志,只说一句话,它先自己找证据

输入:一句话
开始调用 Audit Evolution。

目标:
检查我的 Agent 最近一次任务后,
是否应该继续自进化。

边界:
先审计和提出建议,
不要直接修改系统。
1. Evidence Pack它找到了哪些证据,哪些没找到,可信度如何。
2. Snapshot当前状态、未知点、停止条件。
3. Evolution Card这一轮应该提升哪个能力维度,以及为什么。
4. Memory Ledger哪些事实、反馈、决策和检索 key 值得沉淀。
5. Patch Proposal一个最小 skill/config/gear 补丁提案,不直接应用。
6. Next-Run Bootstrap下一轮启动时优先读取和执行的短指令。
7. Short Command Menu你可以直接回:进化 / 保存 / 暂停 / 跑分 / 详情。

观众不需要先理解 SACP,也不需要手动整理材料。只要一句话,就能看到自己的 Agent 如何从“完成一次任务”变成“沉淀一个能力”。

Closing 一句话带走
我们不是让 Agent 只完成一次任务。
我们让它审计自己,并听懂人类一句“进化”。

Audit Evolution: 自动找证据,过程可审计,记忆可检索,经验可沉淀,短指令可路由。