专家能被蒸馏吗？

波兰尼的“默会知识”与 AI 时代的 70% 天花板，真正的直觉、体感与判断力只能在也许只能实践中生长。

一、蒸馏员工
#

最近有一个很流行的说法：把员工的知识“蒸馏”进 AI 里。

做法大同小异。让资深员工写 SOP，梳理排障手册，把多年经验整理成文档，然后作为上下文喂给 Agent 复制这个人的能力。

听起来很有吸引力：一个人只能 7×24 值守一套系统，AI 可以同时盯一万套。把专家蒸馏成 Agent，就等于把一个人复制一万份。

很多公司已经在这么干了。DBA Agent、运维 Agent、客服 Agent、法务 Agent，遍地开花。老冯自己也在做 DBA Agent。

但老冯想说一个不太好听的事实：这条路有一个非常硬的天花板，而大部分人还没撞到它。

二、70% 的天花板
#

老冯自己就是个例子。

搞了十年 PostgreSQL，在 PG DBA 领域算是做到了天花板。虽然我确实能把很多东西写成文档：参数怎么调、索引怎么建、高可用怎么搭、备份恢复怎么做，这些知识都是可以显性化的，写出来就是 SOP，喂给 AI 就能用。开源 PG 发行版 Pigsty 本身就是老冯蒸馏自己的产物：把专家经验固化为代码和配置。

但我非常诚实地说：我写得出来的，大概只有我能力的 70%。

剩下的 30% 是什么？

是我看一眼 Grafana 仪表盘就觉得“不对劲”的那种感觉。是两个方案都说得通的时候，我选了那个“对”的，但你问我为什么，我只能说“直觉”。是生产环境出了一个从没见过的故障，所有文档都没覆盖到，但我能从过去的经验碎片中涌现出一条新的解决路径。

这些东西，我写不出来。不是不愿意写，是它们根本不以可写的形式存在。我在写 SOP 的时候经常遇到这种情况：写到某一步，我知道实际操作中我会根据“当时的感觉”做一个判断，但这个判断没法编码成一条规则。我只能写“请根据实际情况酌情处理”这八个字就是那 30% 的马甲。

你让一个初级工程师看到“请根据实际情况酌情处理”，他只会茫然。因为“酌情”的能力不在文档里。

三、波兰尼早就说过
#

这个现象不是老冯第一个发现的。六十多年前就有人把它说透了。

1958 年，犹太裔英国学者迈克尔·波兰尼（Michael Polanyi）在他的巨著《个人知识》里写了一句话：

“We can know more than we can tell.”

我们知道的，远比我们能说出来的多。

波兰尼不是书斋哲学家。他首先是一个硬核科学家，物理化学家，在柏林威廉皇帝研究所干了十三年，发了两百多篇论文，是势能面理论的奠基人之一。1948 年他把物理化学教席换成了社会研究教席，全职搞哲学，因为他在科学实践中深刻地感受到，最重要的知识恰恰是形式化方法捕捉不了的那部分。

他用余生搭建了一套理论。核心有三层：

第一层：背景与焦点。 所有认知都有双层结构。你钉钉子时注意力在钉子上（焦点），对手掌的触感只有模糊的背景觉察。你开车时注意力在路况上，对方向盘和踏板的操控只有背景觉察。关键是，这个结构不可逆：钉钉子时一旦把注意力转向手掌的肌肉发力，你立刻钉不准。老司机开车时一旦刻意关注自己的脚怎么踩刹车，反而会踩错。有些知识只能待在“背景”里才管用。你一旦试图把它拎到“焦点”下审视，它就失效了。

第二层，寓居（Indwelling）。 盲人用拐杖探路，意识不在手柄而在路面，拐杖已成为身体的延伸，他“住进”了拐杖里。同理，老司机“住进”了他的车，老厨师“住进”了他的厨房，程序员“住进”了他的编辑器。你把一个用了十年 Vim 的人换成别的编辑器，不只是换工具，你切掉了他一部分思考能力。专家和他的工具、环境之间，不是“使用”关系，是“融合”关系。

第三层：不可完全形式化。 这不是“暂时说不出来”。波兰尼的主张更强：默会知识是一切知识的地基。你把一个技巧写成手册，读手册的人需要新的默会知识来理解它。外化了一层，底下还有一层。像剥洋葱，永远剥不到一个没有皮的核心。

波兰尼之后，日本管理学家野中郁次郎把他的理论简化成了“SECI 模型”，假设隐性知识可以被“外化”为显性知识。这个简化版极为流行，也是“隐性知识”在中文世界的主要传播渠道。但它恰恰扭曲了波兰尼最锐利的洞察。而今天的“蒸馏员工”，本质上就是 SECI 模型的 AI 时代翻版，还是那个假设：只要方法对，隐性知识就能被显性化。

波兰尼说：不能。你以为你在蒸馏知识，其实你蒸馏的只是知识的副产品。

四、菜谱不等于手感
#

用深度学习打个比方

专家的大脑是一个训练了十年的神经网络。你让他写 SOP，相当于让这个网络导出一批推理日志。日志确实反映了网络的部分能力，但不等于网络本身。

然后你把这些日志塞给 Agent 当提示词。

专家的输出，变成了 Agent 的输入。层次差了一级。

现在许多模型都在蒸馏 Claude，用 Claude 输出训练数据，但没有一个真正做到 Claude 的水准。

你拿到的是大厨写的菜谱，不是大厨本人。菜谱上写着 “中火翻炒两分钟”，但大厨在灶台前根本不看表 —— 他听油的声音就知道温度到没到，他颠勺的手感就知道什么时候该起锅。这些东西菜谱上写不了，因为“中火”到底是多大火、“两分钟” 到底是多久，每一道菜、每一口锅、每一种食材都不一样。

菜谱能让新手做出及格的菜。但光看菜谱不掌勺，永远成不了大厨——因为大厨的能力不在菜谱里，在 “手感” 里。

手感是什么？是权重。是那个被十年颠勺炒菜反复锤打过的神经回路。它决定了大厨"怎么想"，而不仅仅是"想什么"。你给 AI 再多菜谱（SOP），改变的是它 “想什么”（输入），不是它 “怎么想”（参数）。

这就是 70% 天花板的本质：SOP 编码的是推理日志，但专家直觉活在权重里。你蒸馏不出权重。

五、湿件体感
#

那专家的那 30% 到底是什么？它怎么来的？

在计算机文化中，相对于硬件（Hardware）和软件（Software），人的大脑和身体被称为湿件（Wetware），碳基的、含水的、活的计算基质。专家那 30% 的判断力，老冯管它叫湿件体感。

硬件和软件可复制、可序列化。湿件有一个致命的不同：计算和存储不可分离。 冯·诺依曼架构里 CPU 和内存是分开的。但在大脑里，神经元既是计算单元也是存储单元，知识结构决定感知方式，感知方式又重塑知识结构。每一次使用都在改造基质本身。

而“体感”不是比喻。认知科学家 Damasio 的“躯体标记假说”指出：大脑做决策时会重激活过去类似情境中的身体状态，心率、肌肉张力、内脏感受，用这些信号快速缩小决策空间。高阶专业判断确实以身体感觉的形式运作：胸口发紧、直觉不对、说不清哪里但就是不舒服。

老飞行员在气流颠簸中知道“没事”还是“要拉起来”。老司机过弯时脚上就知道该给多少油。老厨师颠勺时手上就知道咸淡。老中医三根手指搭上去就知道“滑”还是“涩”。这些不是逻辑推理，是身体在重放过去无数次类似情境的感觉模式。

德雷福斯技能获取模型则进一步细化了这个模型。专家系统的设计依赖"知识工程师"从领域专家那里提取知识并编码为规则。但德雷福斯指出，专家之所以是专家，恰恰是因为他们的核心能力已经内化为身体性的、情境性的默会知识，也就是体感直觉。

这种体感怎么长出来？四个条件缺一不可：

时间。 不是读一万小时资料，是在真实场景中暴露一万小时。

后果。 犯了错会真的出事，没有真实后果就没有情绪标记，模式刻不进身体。

归因。 做了决策，要能快速看到后果并归因到自己头上。

变异。 同类问题的不同变体反复出现，迫使身体发展弹性而非背答案。

合在一起，这不是信息的输入、存储、检索，是神经回路在真实后果的压力下被反复雕刻。

以前这个过程有个名字：学徒制。师父带徒弟，不是把 SOP 塞给他，是让他在真实环境里跟着干，用手去摸、用眼去看、用身体去试错。读再多书不动手，形不成手感。手感只能在真实的环境中长出来。

这是波兰尼六十年前就说透了的事情。

六、AI Agent 的天花板
#

现在把这个框架对准 AI Agent。

当前所有 Agent 框架，无论怎么包装，本质上都在同一层发力，Harness 层：系统提示词、工具定义、RAG 知识库、SOP 决策树、Few-shot 示例。全部是显性的、可序列化的。用波兰尼的话说：全是焦点知识，全是推理日志。

Harness 层确实能做到不错的水平。一个顶尖专家把 70% 的能力编码进去，Agent 就能在大部分日常场景中表现得像个靠谱的中级从业者。这已经有巨大的商业价值，因为大量日常工作本就是例行的、可规则化的。

但天花板在那里。

那种“SOP 说不清，现场才知道”的专家直觉，不在 Harness 层。它活在权重里。而当前的 Agent 架构不动权重，LLM 推理时是“只读”的，无论你给多丰富的上下文，它的参数一个也不会变。

这意味着：当前的 Agent 可以在上下文中“记住”上次的错误，但不会因此“变成”一个不犯这种错误的 Agent。 记住教训是数据层面的操作；长出直觉是权重层面的改变。

它能仿真一个照章办事的中级工程师，但模拟不了专家的直觉。

七、给 Agent 一个身体
#

那怎么办？老冯的判断是两步。

第一步：给 Agent 一个可以“住进去”的环境。

波兰尼说知识必须“寓居”在环境中。翻译成工程语言：Agent 不能只有大脑（LLM），还需要一个持久的、有状态的、有后果的运行环境。这个东西叫 Runtime，Agent 的身体。

老冯做的 DBA Agent，它的 Runtime 就是 Pigsty，Pigsty 是它“寓居”的环境。监控系统是它的“眼睛”，CLI 工具是它的“手脚”。它在这个环境中持续运行，每次操作都有真实后果，后果被记录下来影响后续决策。这就是学徒期，在真实环境中积累实践体感。

一个跑了一年的 Agent 和一个刚部署的同模型 Agent，能力天差地别。不是模型变了，是前者在 Runtime 里积累了经验，操作历史、失败记录、对这个系统脾气的记忆。

第二步：让体感沉淀回权重。

光有 Runtime 还不够。你可以把实践中的经验记录下来塞回提示词，把 Harness 层的天花板再往上抬，也许能到 80% 甚至 90% 分位点。但真正的专家直觉，那种不查记录就知道该怎么做的能力，老冯的直觉是：最终只能通过调整权重来实现。Agent 积累的经验不能只存在上下文里，得回灌到模型参数中去，真正改变它“怎么想”。

这是当前 AI 架构的根本缺失。LLM 推理时权重不变，不会因为今天的操作在明天变成更好的模型。而生物大脑每时每刻都在重塑突触连接，特别是睡眠时。也许未来的方向是某种持续学习机制：白天执行积累经验，定期增量微调更新权重，像人类睡眠一样，白天干活，晚上整理。

但即便如此，冯·诺依曼架构下计算和存储的分离，仍是根本瓶颈。真正的“每次使用都在改造自身”，可能需要全新的硬件范式。也许这也会是本地推理的一个真正杀手级动机，运行在真正环境中培养出湿件体感的千人千面的模型。

这是后话。但方向是清楚的。

八、智能可以下载，体感只能生长
#

回到开头的问题：专家能被蒸馏吗？

能。但只能蒸馏 70%。

那 70% 是 SOP、文档、规则，可以喂给 AI，效果立竿见影。一个中高级水平的 Agent 能解决大量重复性工作，为此付出的努力完全值得。

但剩下的 30%，专家直觉、实践体感、那种说不出来但确实知道的判断力，蒸馏不出来。 波兰尼六十年前就解释了为什么：它不是信息，是结构；不是推理日志，是权重；不是你“拥有”的东西，是你“成为”的东西。

对人来说：你最不可替代的不是你知道什么，而是你被真实后果反复锤打后“成为”的那个判断者。护城河不在脑子里，在身体里。AI 能复制你写下的一切，但复制不了你这个人。

对 Agent 来说：光有大脑和知识不够，还需要身体（Runtime）和成长（权重更新）。Harness 层走到 70%，Runtime 经验也许到 85%，但逼近专家水平需要触及权重层，这是当前架构最缺的一环。

波兰尼用一生论证了一件事：知识不是一种“东西”，而是一种“关系”，认知者与世界之间活的、动态的耦合。你把它从关系中抽出来变成可传输的对象，它就不再是原来的东西了。

智能可以下载，体感只能生长。

六十年前一个放弃了实验室的科学家说出的道理，今天仍然是 AI 时代的定海神针。

参考文献

Michael Polanyi,《Personal Knowledge》, 1958
Michael Polanyi,《The Tacit Dimension》, 1966
Antonio Damasio,《Descartes’ Error》, 1994
Ikujiro Nonaka,《The Knowledge-Creating Company》, 1995

一、蒸馏员工#

二、70% 的天花板#

三、波兰尼早就说过#

四、菜谱不等于手感#

五、湿件体感#

六、AI Agent 的天花板#

七、给 Agent 一个身体#

八、智能可以下载，体感只能生长#

相关文章