跳过正文
  1. AI/

本地 AI 的关键时刻:2027

·3731 字·8 分钟· ·
冯若航
作者
冯若航
Pigsty 创始人, @Vonng
目录

当补贴退潮、硬件就绪、模型成熟三条线在 2027 年交汇,“自建 AI” 将从理念变为现实。

一个群聊引发的思考
#

前几天群里有朋友说,他现在觉得“自建”这个观点有点道理了。

这让我想起过去一年我反复在讲的一个判断:GPU 时代的云,和 CPU 时代的云,是两种完全不同的东西。 CPU 云是充分竞争的市场,AWS、Azure、GCP、阿里云,谁都能买 Intel/AMD 的服务器,硬件是标准品,云厂商没有定价权。按需按量的模式对用户是公平的。

但 GPU 云不是。

NVIDIA 几乎垄断了高端 AI 芯片,产能有限且优先供给大客户。云厂商拿到卡本身就是稀缺资源,转手加价是必然的,这不是服务溢价,而是卡贩子溢价。你训练模型需要连续占用 GPU 几周几个月,弹性伸缩的故事讲不通;你必须年 commit 才能租到 GPU,用 API 必须预付费充值,这哪里是云?这是传统 IDC 换了个皮。

当市场从充分竞争变成卖方市场,“租”就不再是理性选择,“买”才是。 云的本质承诺是弹性和按需,当这个承诺兑现不了的时候,云就只剩下了一个高价中间商的角色。

这是“数据自主”叙事的一部分。但今天我不想再讲宏大叙事,我想聊一个更具体的问题:本地 AI 到底什么时候能真正可用?

我的判断是:2027 年。


“补贴时代”的甜蜜陷阱
#

先说说现状。

现在用 AI 的体验其实很好,太好了,好得不正常。Claude Max 20x 订阅每月 200 美元,有人追踪了 8 个月重度使用 Claude Code 的开销,API 等价成本超过 15,000 美元,实际只付了 800 美元左右。这意味着 Anthropic 在这些用户身上承受着近 20 倍的补贴。OpenAI 的 Codex、ChatGPT Plus 同理。

这是倒贴钱换市场的阶段。 就像当年滴滴和 Uber 的补贴大战,先培养习惯,再收割利润。

但补贴不会永远持续。这些公司估值已经到了 600 亿美元以上,资本市场迟早要看到盈利路径。最可能的转变不是直接涨价,而是引入更精细的分层,限制高频用户的 Opus 调用量、区分模型等级的用量上限、推出企业级定价,把重度用户往上迁移。

对我个人来说,一个人每月的 AI API 等价支出就在 2 万美元左右(Claude Code + Codex + Claude API)。一旦补贴停止、恢复按量计费,这个数字会让任何小团队窒息。

所以现在的最优策略很清楚:薅羊毛。能薅多久薅多久。 但同时要提前规划,当补贴退潮的那天到来,你的替代方案是什么?


本地 AI 的三个层次
#

“本地 AI” 不是一个单一的概念。根据模型规模和硬件需求的不同,它天然分为三个层次:

第一层:端侧 AI(~8B 参数)
#

这是手机、笔记本电脑上的 AI。Apple Intelligence、Gemini Nano、Phi-4-mini,都属于这个层次。

现状: 已经基本可用。iPhone 16 上的 Apple Intelligence、搭载 NPU 的 Windows PC,都能在本地跑 8B 级别的模型。能做文本摘要、简单问答、图片理解等轻量任务。

瓶颈: 8B 模型的能力天花板很低。复杂推理、代码生成、长文档分析,都力不从心。它是“AI 辅助”,不是“AI 驱动”。

2027 年展望: M6 芯片、下一代骁龙,端侧算力继续提升,但模型规模不太可能有质的飞跃。端侧 AI 的定位是入门级助手和隐私敏感场景,不会替代云端大模型。

第二层:桌面 AI(30B-70B 参数)
#

这是 Mac Studio、高端工作站、AMD AI MAX 之类设备的主场。

现状: 刚刚进入实用阶段。M4 Max Mac Studio 配 128GB 内存,可以流畅运行 Q4 量化的 70B 模型;AMD AI MAX 395 配 128GB 统一内存,同样能跑 70B,但带宽限制导致速度只有 Mac 的一半左右。

30B-70B 的开源模型(Llama 4 Scout、Qwen3-72B)在代码生成、文档处理、日常问答上已经达到了 2024 年 GPT-4 的水平。对大多数日常工作场景来说,够用了。

瓶颈: 内存带宽。Mac Studio M3 Ultra 跑 DeepSeek R1 672B 量化版,理论上限约 40 tok/s,实测只有 17-19 tok/s,因为计算也成了瓶颈。Apple Silicon 的 GPU 没有专用的 8bit/4bit Tensor Core 加速,这是个架构层面的短板。

2027 年展望: M6 Ultra 采用 2nm 制程,统一内存可能达到 256GB-512GB,带宽突破 1 TB/s。这意味着 70B 模型可以做到接近实时交互,120B+ 模型也能流畅运行。对两三个人的小团队来说,一台 M6 Ultra Mac Studio 就是一个不错的“桌面 AI 服务器”。

但 Mac Studio 有它的硬伤,没有 CUDA 生态,vLLM/TensorRT-LLM 跑不了,MLX 生态虽然在进步但仍然落后一个身位。它更适合做个人 AI 助手,不适合做团队级的推理服务。

第三层:SOTA 开源 AI(400B+ 参数 / 1T MoE 模型)
#

这才是真正能替代 Claude Sonnet、GPT-4o 的层次,也是我们讨论“自建 AI”时真正关心的层次。

当下的前沿开源模型已经进入这个区间:DeepSeek V3 是 671B MoE(37B 活跃参数);Llama 4 Maverick 是 400B+ MoE;Qwen3 MoE 也在这个量级。到 2027 年,开源 SOTA 很可能是 1T+ MoE 或 200-400B 稠密模型,能力对标今天的 Claude Sonnet 4.6。

跑这种模型需要什么?

首先是显存容量。400B 稠密模型 FP16 需要 800GB,FP4 量化也要 200GB,只有 HBM 才装得下。其次是显存带宽,22 TB/s 级别的 HBM4 才能让大模型推理达到交互级速度。最后是算力,50 PFLOPS FP4 级别的 Tensor Core。

满足这些条件的设备,目前只有一种产品形态能做到:DGX Station。


2027:三条线的交汇
#

为什么我说 2027 年是关键时刻?因为有三条原本独立的趋势线,恰好在这个时间点交汇。

第一条线:补贴退潮
#

AI 公司的 C 端补贴不可能无限持续。Anthropic、OpenAI 的每轮融资都伴随着更高的盈利预期压力。我预计到 2027 年中,当前这种“200 美元/月无限量”的模式会显著收紧,可能变成精细分层、按模型计费,或者直接涨价到 1000+ 美元/月的“真·无限量”。

届时,一个重度 AI 用户的月支出很可能从现在的几百美元跳到几千甚至上万美元。

第二条线:硬件成熟
#

NVIDIA 的产品节奏是一年一代:Blackwell(2024)→ Blackwell Ultra GB300(2025)→ Vera Rubin(2026 H2)→ Rubin Ultra(2027 H2)。

2026 年 3 月,GB300 DGX Station 开始出货,OEM 售价约 10 万美元,搭载单颗 Blackwell Ultra GPU,252GB HBM3e,7.1 TB/s 内存带宽,20 PFLOPS FP4 算力。

到 2027 年 Q1-Q2,如果 Rubin DGX Station 按计划推出,规格将跃升到:288GB HBM4、约 20 TB/s 内存带宽、约 40-50 PFLOPS FP4 算力。每一项都是 GB300 的 2.5-3 倍。

更关键的是定价。DGX Station 的价格区间($10 万-$18 万)对一家年收入百万级的技术公司来说,是一笔可以下决心的投资,不需要几千万建机房,一台桌面设备就够用。

即便不看 NVIDIA,Apple 的 M6 Ultra Mac Studio(预计 2027 年下半年)和 AMD 的下一代 APU 也在同步推进。桌面级 AI 算力正在跨过一个临界点。

第三条线:开源模型成熟
#

这是最关键的一条线。硬件再强,没有好模型也白搭。

开源模型过去两年的进化速度令人瞠目:2024 年中 Llama 3 70B 约等于 GPT-3.5 水平;2025 年初 DeepSeek V3 逼近 GPT-4;2025 年末 Llama 4 Maverick 和 Qwen 系列已经接近 GPT-4o。按照这个速度外推,到 2027 年,开源 SOTA 达到今天 Claude Sonnet 4.6 的水平是大概率事件。

这意味着什么?意味着一台 Rubin DGX Station 跑 2027 年的开源 SOTA 模型,可以覆盖你 80%-90% 的日常 AI 需求,coding assistant、文档分析、RAG 检索、数据处理、翻译、总结,只有最前沿的复杂推理和 agentic 任务才需要调闭源 API。


关键时刻的经济账
#

让我们算一笔具体的账。

场景设定: 2-3 人技术团队,当前每月 AI 支出约 $2 万(Claude Code + Codex + Claude API 等价),假设 2027 年补贴收紧后,按量付费的月均成本达到 $1 万-$2 万。

方案: 购买一台 Rubin DGX Station,预算 $15 万。

年度成本对比:

项目纯 API 方案自建 + 轻量 API
硬件折旧(3 年)$0~$50,000/年
电费(~1.5kW×24h×365d×$0.20)$0~$2,600/年
API 支出(按量)$120,000-$240,000/年$24,000-$36,000/年
年度总成本$120,000-$240,000$76,600-$88,600

结论:自建方案在 9-12 个月内回本,三年累计节省 $15 万-$45 万。

这还没算另一个隐性价值,不受供应商约束。API 随时可能涨价、限速、改 ToS。而你自己的机器,24/7 在你控制之下。


行动路线图
#

如果你认同上述判断,那么行动路线很清晰:

现在到 2027 年初(薅羊毛期):

  • 享受当前的补贴价格,不买任何硬件
  • Claude Max / Codex / ChatGPT Pro 能用多少用多少
  • 关注开源模型进展,在 Mac/AMD 设备上试用,建立本地推理的技术栈经验(Ollama/vLLM/MLX)
  • 跟踪 DGX Station 的 OEM 渠道,和 Dell/Supermicro 等建立联系

2027 年 Q1-Q2(决策窗口):

  • 评估 Rubin DGX Station 的实际出货规格和价格
  • 对比当时的 API 定价(补贴可能已经收紧)
  • 如果 Rubin Station 延迟,GB300 Station 到那时可能降到 $7 万-$8 万,同样是好选择
  • M6 Ultra Mac Studio 也在这个时间点出来,作为桌面级方案的备选

2027 年 Q2 之后(切换期):

  • 部署本地推理服务,覆盖 80%-90% 日常需求
  • 保留轻量 API 订阅处理最前沿任务
  • 享受“AI 自主”的自由,无限量、无审查、无延迟、无账单焦虑

这不只是省钱的故事
#

最后说一点超越经济计算的东西。

“本地 AI” 的意义不仅仅在于省钱。它更深层的价值是:你的思维工具不应该依赖于别人的善意。

当你把核心生产力工具,代码助手、知识检索、决策辅助,完全托管在闭源 API 上时,你的业务命脉系在别人的服务器上。API 可以涨价、可以停服、可以改变使用条款、可以审查你的输入输出。云厂商在 GPU 稀缺时代的行为已经证明了,当市场不充分竞争时,供给方会毫不犹豫地利用它的优势地位。

本地 AI 是数据自主的最后一块拼图。你拥有自己的数据(PostgreSQL)、拥有自己的基础设施(Pigsty),再拥有自己的 AI 算力,你的数字主权就完整了。

2027 年,这块拼图就归位了。

相关文章