跳过正文
  1. AI/

专家能被蒸馏吗?

·4821 字·10 分钟· ·
冯若航
作者
冯若航
Pigsty 创始人, @Vonng
目录

波兰尼的“默会知识”与 AI 时代的 70% 天花板,真正的直觉、体感与判断力只能在也许只能实践中生长。

一、蒸馏员工
#

最近有一个很流行的说法:把员工的知识“蒸馏”进 AI 里。

做法大同小异。让资深员工写 SOP,梳理排障手册,把多年经验整理成文档,然后作为上下文喂给 Agent 复制这个人的能力。

听起来很有吸引力:一个人只能 7×24 值守一套系统,AI 可以同时盯一万套。把专家蒸馏成 Agent,就等于把一个人复制一万份。

很多公司已经在这么干了。DBA Agent、运维 Agent、客服 Agent、法务 Agent,遍地开花。老冯自己也在做 DBA Agent。

但老冯想说一个不太好听的事实:这条路有一个非常硬的天花板,而大部分人还没撞到它。


二、70% 的天花板
#

老冯自己就是个例子。

搞了十年 PostgreSQL,在 PG DBA 领域算是做到了天花板。虽然我确实能把很多东西写成文档:参数怎么调、索引怎么建、高可用怎么搭、备份恢复怎么做,这些知识都是可以显性化的, 写出来就是 SOP,喂给 AI 就能用。开源 PG 发行版 Pigsty 本身就是老冯蒸馏自己的产物:把专家经验固化为代码和配置。

但我非常诚实地说:我写得出来的,大概只有我能力的 70%。

剩下的 30% 是什么?

是我看一眼 Grafana 仪表盘就觉得“不对劲”的那种感觉。是两个方案都说得通的时候,我选了那个“对”的,但你问我为什么,我只能说“直觉”。是生产环境出了一个从没见过的故障,所有文档都没覆盖到,但我能从过去的经验碎片中涌现出一条新的解决路径。

这些东西,我写不出来。不是不愿意写,是它们根本不以可写的形式存在。我在写 SOP 的时候经常遇到这种情况:写到某一步,我知道实际操作中我会根据“当时的感觉”做一个判断,但这个判断没法编码成一条规则。我只能写“请根据实际情况酌情处理”这八个字就是那 30% 的马甲。

你让一个初级工程师看到“请根据实际情况酌情处理”,他只会茫然。因为“酌情”的能力不在文档里。


三、波兰尼早就说过
#

这个现象不是老冯第一个发现的。六十多年前就有人把它说透了。

1958 年,犹太裔英国学者迈克尔·波兰尼(Michael Polanyi)在他的巨著《个人知识》里写了一句话:

“We can know more than we can tell.”

我们知道的,远比我们能说出来的多。

波兰尼不是书斋哲学家。他首先是一个硬核科学家,物理化学家,在柏林威廉皇帝研究所干了十三年,发了两百多篇论文,是势能面理论的奠基人之一。1948 年他把物理化学教席换成了社会研究教席,全职搞哲学,因为他在科学实践中深刻地感受到,最重要的知识恰恰是形式化方法捕捉不了的那部分。

他用余生搭建了一套理论。核心有三层:

第一层:背景与焦点。 所有认知都有双层结构。你钉钉子时注意力在钉子上(焦点),对手掌的触感只有模糊的背景觉察。你开车时注意力在路况上,对方向盘和踏板的操控只有背景觉察。关键是,这个结构不可逆:钉钉子时一旦把注意力转向手掌的肌肉发力,你立刻钉不准。老司机开车时一旦刻意关注自己的脚怎么踩刹车,反而会踩错。有些知识只能待在“背景”里才管用。你一旦试图把它拎到“焦点”下审视,它就失效了。

第二层,寓居(Indwelling)。 盲人用拐杖探路,意识不在手柄而在路面,拐杖已成为身体的延伸,他“住进”了拐杖里。同理,老司机“住进”了他的车,老厨师“住进”了他的厨房,程序员“住进”了他的编辑器。你把一个用了十年 Vim 的人换成别的编辑器,不只是换工具,你切掉了他一部分思考能力。专家和他的工具、环境之间,不是“使用”关系,是“融合”关系。

第三层:不可完全形式化。 这不是“暂时说不出来”。波兰尼的主张更强:默会知识是一切知识的地基。你把一个技巧写成手册,读手册的人需要新的默会知识来理解它。外化了一层,底下还有一层。像剥洋葱,永远剥不到一个没有皮的核心。

波兰尼之后,日本管理学家野中郁次郎把他的理论简化成了“SECI 模型”,假设隐性知识可以被“外化”为显性知识。这个简化版极为流行,也是“隐性知识”在中文世界的主要传播渠道。但它恰恰扭曲了波兰尼最锐利的洞察。而今天的“蒸馏员工”,本质上就是 SECI 模型的 AI 时代翻版,还是那个假设:只要方法对,隐性知识就能被显性化。

波兰尼说:不能。你以为你在蒸馏知识,其实你蒸馏的只是知识的副产品。


四、菜谱不等于手感
#

用深度学习打个比方

专家的大脑是一个训练了十年的神经网络。你让他写 SOP,相当于让这个网络导出一批推理日志。日志确实反映了网络的部分能力,但不等于网络本身。

然后你把这些日志塞给 Agent 当提示词。

专家的输出,变成了 Agent 的输入。层次差了一级。

现在许多模型都在蒸馏 Claude,用 Claude 输出训练数据,但没有一个真正做到 Claude 的水准。

你拿到的是大厨写的菜谱,不是大厨本人。菜谱上写着 “中火翻炒两分钟”,但大厨在灶台前根本不看表 —— 他听油的声音就知道温度到没到,他颠勺的手感就知道什么时候该起锅。 这些东西菜谱上写不了,因为“中火”到底是多大火、“两分钟” 到底是多久,每一道菜、每一口锅、每一种食材都不一样。

菜谱能让新手做出及格的菜。但光看菜谱不掌勺,永远成不了大厨——因为大厨的能力不在菜谱里,在 “手感” 里。

手感是什么?是权重。是那个被十年颠勺炒菜反复锤打过的神经回路。它决定了大厨"怎么想",而不仅仅是"想什么"。 你给 AI 再多菜谱(SOP),改变的是它 “想什么”(输入),不是它 “怎么想”(参数)。

这就是 70% 天花板的本质:SOP 编码的是推理日志,但专家直觉活在权重里。你蒸馏不出权重。


五、湿件体感
#

那专家的那 30% 到底是什么?它怎么来的?

在计算机文化中,相对于硬件(Hardware)和软件(Software),人的大脑和身体被称为湿件(Wetware),碳基的、含水的、活的计算基质。专家那 30% 的判断力,老冯管它叫湿件体感

硬件和软件可复制、可序列化。湿件有一个致命的不同:计算和存储不可分离。 冯·诺依曼架构里 CPU 和内存是分开的。但在大脑里,神经元既是计算单元也是存储单元,知识结构决定感知方式,感知方式又重塑知识结构。每一次使用都在改造基质本身。

而“体感”不是比喻。认知科学家 Damasio 的“躯体标记假说”指出:大脑做决策时会重激活过去类似情境中的身体状态,心率、肌肉张力、内脏感受,用这些信号快速缩小决策空间。高阶专业判断确实以身体感觉的形式运作:胸口发紧、直觉不对、说不清哪里但就是不舒服。

老飞行员在气流颠簸中知道“没事”还是“要拉起来”。老司机过弯时脚上就知道该给多少油。老厨师颠勺时手上就知道咸淡。老中医三根手指搭上去就知道“滑”还是“涩”。这些不是逻辑推理,是身体在重放过去无数次类似情境的感觉模式。

德雷福斯技能获取模型则进一步细化了这个模型。专家系统的设计依赖"知识工程师"从领域专家那里提取知识并编码为规则。但德雷福斯指出,专家之所以是专家,恰恰是因为他们的核心能力已经内化为身体性的、情境性的默会知识,也就是体感直觉。

这种体感怎么长出来?四个条件缺一不可:

时间。 不是读一万小时资料,是在真实场景中暴露一万小时。

后果。 犯了错会真的出事,没有真实后果就没有情绪标记,模式刻不进身体。

归因。 做了决策,要能快速看到后果并归因到自己头上。

变异。 同类问题的不同变体反复出现,迫使身体发展弹性而非背答案。

合在一起,这不是信息的输入、存储、检索,是神经回路在真实后果的压力下被反复雕刻

以前这个过程有个名字:学徒制。师父带徒弟,不是把 SOP 塞给他,是让他在真实环境里跟着干,用手去摸、用眼去看、用身体去试错。读再多书不动手,形不成手感。手感只能在真实的环境中长出来。

这是波兰尼六十年前就说透了的事情。


六、AI Agent 的天花板
#

现在把这个框架对准 AI Agent。

当前所有 Agent 框架,无论怎么包装,本质上都在同一层发力,Harness 层:系统提示词、工具定义、RAG 知识库、SOP 决策树、Few-shot 示例。全部是显性的、可序列化的。用波兰尼的话说:全是焦点知识,全是推理日志。

Harness 层确实能做到不错的水平。一个顶尖专家把 70% 的能力编码进去,Agent 就能在大部分日常场景中表现得像个靠谱的中级从业者。这已经有巨大的商业价值,因为大量日常工作本就是例行的、可规则化的。

但天花板在那里。

那种“SOP 说不清,现场才知道”的专家直觉,不在 Harness 层。它活在权重里。而当前的 Agent 架构不动权重,LLM 推理时是“只读”的,无论你给多丰富的上下文,它的参数一个也不会变。

这意味着:当前的 Agent 可以在上下文中“记住”上次的错误,但不会因此“变成”一个不犯这种错误的 Agent。 记住教训是数据层面的操作;长出直觉是权重层面的改变。

它能仿真一个照章办事的中级工程师,但模拟不了专家的直觉。


七、给 Agent 一个身体
#

那怎么办?老冯的判断是两步。

第一步:给 Agent 一个可以“住进去”的环境。

波兰尼说知识必须“寓居”在环境中。翻译成工程语言:Agent 不能只有大脑(LLM),还需要一个持久的、有状态的、有后果的运行环境。这个东西叫 Runtime,Agent 的身体。

老冯做的 DBA Agent,它的 Runtime 就是 Pigsty,Pigsty 是它“寓居”的环境。监控系统是它的“眼睛”,CLI 工具是它的“手脚”。它在这个环境中持续运行,每次操作都有真实后果,后果被记录下来影响后续决策。这就是学徒期,在真实环境中积累实践体感。

一个跑了一年的 Agent 和一个刚部署的同模型 Agent,能力天差地别。不是模型变了,是前者在 Runtime 里积累了经验,操作历史、失败记录、对这个系统脾气的记忆。

第二步:让体感沉淀回权重。

光有 Runtime 还不够。你可以把实践中的经验记录下来塞回提示词,把 Harness 层的天花板再往上抬,也许能到 80% 甚至 90% 分位点。但真正的专家直觉,那种不查记录就知道该怎么做的能力,老冯的直觉是:最终只能通过调整权重来实现。Agent 积累的经验不能只存在上下文里,得回灌到模型参数中去,真正改变它“怎么想”。

这是当前 AI 架构的根本缺失。LLM 推理时权重不变,不会因为今天的操作在明天变成更好的模型。而生物大脑每时每刻都在重塑突触连接,特别是睡眠时。也许未来的方向是某种持续学习机制:白天执行积累经验,定期增量微调更新权重,像人类睡眠一样,白天干活,晚上整理。

但即便如此,冯·诺依曼架构下计算和存储的分离,仍是根本瓶颈。真正的“每次使用都在改造自身”,可能需要全新的硬件范式。也许这也会是本地推理的一个真正杀手级动机,运行在真正环境中培养出湿件体感的千人千面的模型。

这是后话。但方向是清楚的。


八、智能可以下载,体感只能生长
#

回到开头的问题:专家能被蒸馏吗?

能。但只能蒸馏 70%。

那 70% 是 SOP、文档、规则,可以喂给 AI,效果立竿见影。一个中高级水平的 Agent 能解决大量重复性工作,为此付出的努力完全值得。

但剩下的 30%,专家直觉、实践体感、那种说不出来但确实知道的判断力,蒸馏不出来。 波兰尼六十年前就解释了为什么:它不是信息,是结构;不是推理日志,是权重;不是你“拥有”的东西,是你“成为”的东西。

对人来说:你最不可替代的不是你知道什么,而是你被真实后果反复锤打后“成为”的那个判断者。护城河不在脑子里,在身体里。AI 能复制你写下的一切,但复制不了你这个人。

对 Agent 来说:光有大脑和知识不够,还需要身体(Runtime)和成长(权重更新)。Harness 层走到 70%,Runtime 经验也许到 85%,但逼近专家水平需要触及权重层,这是当前架构最缺的一环。

波兰尼用一生论证了一件事:知识不是一种“东西”,而是一种“关系”,认知者与世界之间活的、动态的耦合。你把它从关系中抽出来变成可传输的对象,它就不再是原来的东西了。

智能可以下载,体感只能生长。

六十年前一个放弃了实验室的科学家说出的道理,今天仍然是 AI 时代的定海神针。


参考文献

  • Michael Polanyi,《Personal Knowledge》, 1958
  • Michael Polanyi,《The Tacit Dimension》, 1966
  • Antonio Damasio,《Descartes’ Error》, 1994
  • Ikujiro Nonaka,《The Knowledge-Creating Company》, 1995

相关文章

是的,我用 AI 写文章

·1777 字·4 分钟
AI是倍乘器,比例放大人的深刻与平庸。答案廉价的时代,问题才是货币。用 AI 写作没什么好遮遮掩掩的。