写代码一文不值的时代，什么才值钱？

最近一周没怎么写文章，因为忙着用 OpenAI 刚发布的 Codex 3 xHigh 糊东西。趁着双倍额度，我把 200 刀的配额几乎用完了，让它在 Pigsty 的十几个子项目上并行出活：主项目、中英文文档、博客、包管理器、扩展目录、基础设施包、RPM/DEB 构建 Spec、pg_exporter 监控采集器……

目前 Codex 已经成了我的主力工具，Claude Code 作为备用，GLM 作为额度打爆之后的替补。正好今天有点时间，聊聊感想。直接口述，我就不用 AI 生成润色了，比较随意。

Codex 5.3：到底能不能打？
#

两个字：能打。之前我不喜欢用 Codex 的一个主要原因就是太磨叽，一个简单的活也要拖很长时间。到了 5.3 版本，不知道是用了 Cerebras 大缓存 SRAM 推理芯片，还是别的技术改进，体感上快了不少。而且这个客户端做得挺不错，我同时开 8 - 10 个左右的 Session，配合 Typelesss 动嘴输入，体验非常好，就像指挥官一样。

但速度只是体验层面的改善，真正让我刮目相看的是靠谱程度。在合理的指挥和提示下，它已经能扮演一个称职的中级程序员了。具体来说，以 Code Review 为例，找 Bug 大概 20 个里面只有一个需要我来人工纠正，粗略估计整体准确率在 95% 左右。

不过关于模型能力，老冯从来都不看什么榜单，只相信它们在自己场景上的真实效果。我有一个简单粗暴的评估方法：交叉扫描。

Pigsty 4.0 发布前，我曾经用 Claude Code 对代码仓库进行了连续两三周的密集扫描：逐日扫描、逐个修复、标记误报，直到它再也扫不出新问题。然后 Opus 4.5 和 Codex 5.3 同时发布，我让两个模型再次扫描同一个仓库：

结果 Codex 5.3 xHigh 又给我揪出了二三十个问题。而 Claude Opus 4.6：表现平平，没能发现更多问题，这就是一种很直观的模型能力对比。

不过 Claude 也有自己的长处，Claude 的优势在于写码速度快、沟通风格直接不谄媚；但在“代码质量”这件事上，特别是 Code Review，Codex 5.3 xHigh 有明显优势。

我用 Codex / Claude 做什么？
#

现在有很不少同行以每天烧了多少 Token 为荣，有一种攀比的风气，老冯是懒得玩这种数豆子的无聊游戏。反正我每周基本上都能把 Claude Code / Codex 的额度烧光，主要都用在了 Pigsty 里面的几个项目上。但非要一个量化指标的话，大概每天平均产出在四千行代码左右，基本上达到了正常自己写几十倍的速度，我的体感大约在 20 倍速左右。

最近我在主要折腾的是 pig 命令行工具，我准备把它作为一个 Agent Native CLI 的样板来实现：包装 PostgreSQL，Patroni，Pgbouncer，Pgbackrest 管理能力，主动为 Agent 提供上下文与能力地图，以 yaml/json 格式化输出。然后也加了很多功能，大概 5 天时间，新增了四万行左右的 Go 代码。

当然还有其他很多项目都在并行推进，但其中 Pigsty 是最有代表性的一个。

在改进的全程中，我只在开始时进行了几次头脑风暴，给出了项目的整体改进思路。在系统自动循环运转了四天之后，我来进行验收并做了一个冒烟测试，接着将生成的能力提取出来。最后在几轮优化之后，项目就完工了。

整个过程我只是“出嘴”确认几个关键问题，然后不断机械地循环执行以下四轮流程：CreateStory -> DevStory -> CodeReview -> FixThis

就这样把活儿给干出来了。在这个过程中，我没有写过一行具体的代码。

当写代码一文不值，什么才值钱？
#

很多人 Vibe Coding 都是在写 Demo，糊出一个看起来能用的东西很简单，糊出一个质量可靠的东西相当难。

我的看法是：当“写代码”本身不再稀缺，剩下最有价值的东西只有两样：

你能提出有品位的设计。
你能进行可靠的工程验收。

我在实践中总结了两个核心方法。

设计：中心法则：从意图到代码的信息级联
#

这个名字借自分子生物学的中心法则：DNA -> RNA -> 蛋白质。在软件工程中，对应关系是：

具体的工作流是 BMAD 方法论，当然实践中我就简化为 BMA 三个缩写了：

Brainstorm：头脑风暴，讨论要做什么。
Map：根据头脑风暴产出 PRD，拆解为 EPIC 和 Story。
Act：循环处理这些 EPIC 和 Story。

这套流程的关键在于：你不能凭感觉写代码。不能这里糊一锤子、那里敲一下。你得先有总体纲领（DNA），然后再出设计规格（RNA），再由规格生成代码（蛋白质）。这样产出的代码是可追溯的、可验证的：每一行代码都能回溯到它对应的 Story，每个 Story 都能回溯到 PRD，PRD 能回溯到最初的意图。

没有这条信息链，就不是在做工程，而是在做手工艺。每次用小锤子东敲敲西敲敲，做点小型手工软件也没啥问题，但是复杂度一旦上来就完蛋了。

验收：Agent 对抗：让 AI 互相找茬
#

只用一个 Agent 来开发加 Code Review，质量是不够的。最佳实践是让不同的 Agent 各司其职，彼此制衡。

我的做法是：Claude Code 做原型与粗活，负责创建和开发 Story，快速出初版代码。Codex 5.3 做 Code Review 审查未提交的修改，逐条提出 P0/P1/P2 级别的问题。在这个过程中，需要人类的判断力介入，判断 Codex 哪些问题要修，哪些是误报。

真实问题：确认是 Bug，直接让它修。
误判：你认为这是 Feature 而非 Bug，或者错误理解了你的设计意图，就让它写清楚注释，更新设计文档，防止以后重复误报。

Codex Review 完成之后，就进入来回打铁的环节。让 Claude 来 Review Codex 的修改，评价它的 Review 结果。然后不断反复，如有分歧，继续对抗，直到达成共识。

本质上这是管理术中的制衡机制。假设你是一个不懂技术的领导，如何确保技术团队不偷懒、不犯傻？一个简单的办法：让他们互相找茬。经过充分辩论后达成的共识，大概率是靠谱的。

把这个逻辑套到 AI Agent 上同样成立：两个不同架构、不同训练数据的模型，犯同一个错误的概率远低于单个模型。这不是什么高深理论，就是朴素的交叉验证。

实际操作中，一个 Story 我一般会跑 3 到 8 轮 Review/修复循环。如果几轮下来两个 Agent 还是无法达成共识，我就人工介入仲裁。

当然，最后还是要有一个人工验收的环节。你可以事先写好测试用例，定义好边界。如果你很懒的话，另一个取巧的办法就是让 Agent 自己去拉 Docker 设计一个测试环境并设计各种测试用例，然后反复测试。这里面其实就是一个朴素的技巧：你让它来回重复测。每次测完换个角度、换一个测试的焦点，有时候它就能发现一些问题，大力出奇迹。当然最后像 Pigsty，我还是得自己来做冒烟测试。但是前面的很多轮拉扯，基本上都已经把各种问题都提前发现并处理好了。

当然，其实还有很多软件工程的小技巧。比如说，你要及时地去处理技术债：做几个 EPIC 就定期重构，做一次整体的瘦身与代码优化。把降低复杂度当作一个首要的设计与实现目标，及时移除死代码；充分利用级联文档和注释来提高理解的精准程度。这些就不详细展开介绍了。