原文地址:https://www.cs.cmu.edu/~pavlo/blog/2026/01/2025-databases-retrospective.html
作者:Andy Pavlo,翻译与评论:冯若航
2025 数据库世界年度回顾#
作者: Andy Pavlo - 卡内基梅隆大学
发布日期: 2026 年 1 月 4 日
译者注: 本文翻译自 CMU Andy Pavlo 教授的博客
又是一年过去了。本来想多写几篇文章,别光指着年底憋一篇大的,奈何春季学期实在太忙,差点累死,根本抽不出时间。不管怎样,还是来聊聊过去这一年里,我眼中数据库领域的重大趋势和事件吧。
这一年,数据库世界发生了许多激动人心的大事:"氛围编程"(Vibe Coding)这个词风靡全网;嘻哈传奇武当派(Wu-Tang Clan)宣布了他们的时间胶囊项目;Databricks 今年依然没有上市,却接连完成了两轮巨额融资。
与此同时,还有一些意料之中的事。Redis 公司在背刺开源社区一年后,又把许可证改了回来(去年我就预判到了)。 SurrealDB 发布了漂亮的基准测试数据,但后来被发现是因为他们压根没把写入刷盘,数据丢了。 还有 Coldplay 能把你的婚姻搞砸(译者注:此处指某CEO外遇被曝)。不过话说回来,Astronomer 倒是把这事儿做成了一个不错的宣传梗。
正式开始之前,我想回应一下每年评论区都会出现的问题。总有人问:为什么没提到 系统X?为什么不聊聊数据库Y? 为什么分析里没有公司Z?原因很简单:我能写的东西有限,除非过去一年发生了什么有趣或值得关注的事,否则没什么好讨论的。 但也不是所有数据库大事件都适合我来评论。比如最近试图揭露 AvgDatabase CEO 身份的事件算公共话题,但 MongoDB 自杀诉讼案绝对不适合我置喙。
说完这些,咱们开始吧。这些年度总结一年比一年长,先说声抱歉。
往年回顾:
PostgreSQL 持续称霸#
2021 年,我首次写到 PostgreSQL 正在 吞噬整个数据库世界。这一趋势丝毫没有减缓,数据库领域最有趣的进展大多数还是围绕 PostgreSQL 展开。最新版本(v18)于 2025 年 11 月发布,最亮眼的特性是新的异步 I/O 存储子系统,这将最终让 PostgreSQL 摆脱对操作系统页面缓存的依赖。此外还增加了 Skip Scan 支持:即使缺少前导键(即前缀),查询仍可使用多键 B+ 树索引。查询优化器也有一些改进(例如消除冗余自连接)。
资深数据库鉴赏家们肯定会急着指出:这些功能并不是什么开创性的东西,其他数据库早就有了。PostgreSQL 是唯一仍依赖操作系统页面缓存的主流数据库,而 Oracle 早在 2002 年(9i 版本)就支持 Skip Scan 了!那你可能会问:为什么我还说 2025 年数据库领域最火热的动作都发生在 PostgreSQL 身上?
收购与发布#
原因在于:数据库领域的大部分能量和活动都涌向了 PostgreSQL 相关的公司、产品、项目和衍生系统。过去一年,最火的数据初创公司(Databricks)花了 10 亿美元收购了一家 PostgreSQL DBaaS 公司(Neon)。紧接着,全球最大的数据库公司之一(Snowflake)又花了 2.5 亿美元买下另一家 PostgreSQL DBaaS 公司(CrunchyData)。然后,地球上最大的科技公司之一(Microsoft)推出了新的 PostgreSQL DBaaS(HorizonDB)。Neon 和 HorizonDB 沿用了 Amazon Aurora 在 2010 年代的原始高层架构:单主节点、计算存储分离。目前 Snowflake 的 PostgreSQL DBaaS 使用的核心架构与标准 PostgreSQL 相同,因为他们基于 Crunchy Bridge 构建。
分布式 PostgreSQL#
上述服务都是单主节点架构——应用把写请求发给主节点,主节点再把变更同步给从副本。但 2025 年,有两个新项目宣布要为 PostgreSQL 构建横向扩展(即水平分片)服务。
2025 年 6 月,Supabase 宣布聘请了 Sugu(Vitess 联合创始人、前 PlanetScale 联合创始人/CTO)来领导 Multigres 项目,目标是为 PostgreSQL 创建类似 Vitess 为 MySQL 提供的分片中间件。Sugu 于 2023 年离开 PlanetScale,蛰伏了两年。现在他大概已经避开了所有法律问题,可以在 Supabase 大展拳脚了。你知道当一个数据库工程师加入公司时,官宣重点在人而不是系统,那就说明这是大事件。SingleStore 的联合创始人/CTO 于 2024 年加入 Microsoft 领导 HorizonDB,但微软(错误地)没把这事当回事宣传。Sugu 加入 Supabase,就像 Ol’ Dirty Bastard(RIP,武当派说唱歌手)假释出狱两年后,在出狱第一天就宣布签约新唱片公司。
Multigres 消息发布一个月后,PlanetScale 宣布了自己的 Vitess-for-PostgreSQL 项目 Neki。PlanetScale 于 2025 年 3 月推出了其初始 PostgreSQL DBaaS,但核心架构就是标准的 PostgreSQL + pgBouncer。
商业格局#
随着 2025 年 Microsoft 推出 HorizonDB,所有主要云厂商现在都有了自己认真打造的增强版 PostgreSQL 产品。Amazon 自 2013 年提供 RDS PostgreSQL,2017 年推出 Aurora PostgreSQL。Google 在 2022 年推出 AlloyDB。就连老古董 IBM 也从 2018 年就有云版 PostgreSQL。Oracle 在 2023 年发布了 PostgreSQL 服务,但有传言说其内部 PostgreSQL 团队在 2025 年 9 月的 MySQL OCI 裁员中被波及。ServiceNow 在 2024 年推出了 RaptorDB 服务,基于其 2021 年对 Swarm64 的收购。
是的,我知道 Microsoft 在 2019 年收购了 Citus。Citus 在 2019 年被更名为 Azure Database for PostgreSQL Hyperscale,然后在 2022 年又改名为 Azure Cosmos DB for PostgreSQL。但还有个 Azure Database for PostgreSQL with Elastic Clusters 也使用 Citus,但它和 Citus 驱动的 Azure Cosmos DB for PostgreSQL 不是一回事。等等,我可能搞错了。Microsoft 在 2023 年停用了 Azure PostgreSQL Single Server,但保留了 Azure PostgreSQL Flexible Server。这有点像 Amazon 忍不住在 DSQL 名字里加上"Aurora"一样。不管怎样,至少 Microsoft 这次聪明地把新系统就叫"Azure HorizonDB"(暂时)。
仍有一些独立软件供应商(ISV)的 PostgreSQL DBaaS 公司。Supabase 按实例数量可能是最大的。其他包括 YugabyteDB、TigerData(前身为 TimeScale)、PlanetScale、Xata、PgEdge 和 Nile。还有一些系统提供 Postgres 兼容的前端,但后端系统并非基于 PostgreSQL(例如 CockroachDB、CedarDB、Spanner)。Xata 最初架构基于 Amazon Aurora,但今年宣布切换到自己的基础设施。Tembo 在 2025 年放弃了托管 PostgreSQL,转型为可以做一些数据库调优的编码 Agent。ParadeDB 尚未宣布其托管服务。Hydra 和 PostgresML 在 2025 年倒闭了(见下文),出局了。还有像 Aiven 和 Tessel 这样的托管公司也提供 PostgreSQL DBaaS,但同时也提供其他系统。
Andy 的看法#
在 Databricks 和 Snowflake 收购 PostgreSQL 公司之后,下一个大买家会是谁还不清楚。再说一遍,每家大科技公司都已经有了 Postgres 产品。EnterpriseDB 是最老牌的 PostgreSQL ISV,但错过了过去五年最重大的两笔 PostgreSQL 收购。不过他们可以继续跟着 Bain Capital 混,或者指望 HPE 收购他们,尽管那个合作关系已经是八年前的事了。这种并购格局让人想起 2000 年代末的 OLAP 收购潮,当时 Vertica 是最后一个在公交站等车的,等 AsterData、Greenplum 和 DATAllegro 都被收购之后。
两个相互竞争的分布式 PostgreSQL 项目(Multigres、Neki)的出现是个好消息。这不是第一次有人尝试做这件事。当然,Greenplum、ParAccel 和 Citus 在 OLAP 领域已经存在二十年了。是的,Citus 支持 OLTP 工作负载,但他们 2010 年起步时重点是 OLAP。对于 OLTP,15 年前 NTT 的 RiTaDB 项目与 GridSQL 联手创建了 Postgres-XC。Postgres-XC 的开发者创立了 StormDB,后来被 Translattice 在 2013 年收购。Postgres-X2 是现代化 XC 的尝试,但开发者放弃了这个努力。Translattice 将 StormDB 开源为 Postgres-XL,但项目自 2018 年以来就处于休眠状态。YugabyteDB 诞生于 2016 年,可能是部署最广泛的分片 PostgreSQL 系统(而且仍然开源!),但它是硬分叉,所以只兼容 PostgreSQL v15。Amazon 在 2024 年宣布了自己的分片 PostgreSQL(Aurora Limitless),但它是闭源的。
PlanetScale 那帮人对对手毫不客气,公开怼 Neon 和 Timescale。数据库公司互喷不是什么新鲜事(参见 Yugabyte vs. CockroachDB)。我猜随着 PostgreSQL 战争升温,以后这种情况会更多。我建议这些小公司把枪口对准大型云厂商,而不是内斗。
全民 MCP 时代#
如果说 2023 年是每个 DBMS 都加入向量索引的一年,那么 2025 年就是每个 DBMS 都加入 Anthropic Model Context Protocol(MCP)支持的一年。MCP 是一个标准化的客户端-服务器 JSON-RPC 接口,让 LLM 无需自定义胶水代码就能与外部工具和数据源交互。MCP 服务器充当数据库前面的中间件,暴露它提供的工具、数据和操作列表。MCP 客户端(例如 Claude 或 ChatGPT 等 LLM 宿主)发现并使用这些工具,通过向服务器发送请求来扩展模型能力。对于数据库来说,MCP 服务器将这些查询转换为适当的数据库查询(如 SQL)或管理命令。换句话说,MCP 就是那个让数据库和 LLM 互相信任并做生意的中间人,负责把账算清楚。
Anthropic 在 2024 年 11 月宣布 MCP,但真正火起来是 2025 年 3 月 OpenAI 宣布将在其生态系统中支持 MCP。接下来几个月,所有类别的 DBMS 厂商都发布了 MCP 服务器:OLAP(如 ClickHouse、Snowflake、Firebolt、Yellowbrick)、SQL(如 YugabyteDB、Oracle、PlanetScale)和 NoSQL(如 MongoDB、Neo4j、Redis)。由于没有官方的 Postgres MCP 服务器,每个 Postgres DBaaS 都发布了自己的版本(如 Timescale、Supabase、Xata)。云厂商发布了可以与其任何托管数据库服务通信的多数据库 MCP 服务器(如 Amazon、Microsoft、Google)。允许单一网关与异构数据库通信,这几乎但还不完全是圣杯级别的联邦数据库。据我所知,这些 MCP 服务器的每个请求一次只针对单个数据库,所以跨源连接还是应用自己负责。
除了官方厂商的 MCP 实现外,几乎所有 DBMS 都有数百个第三方 MCP 服务器实现。有些试图支持多个系统(如 DBHub、DB MCP Server)。DBHub 发布了一篇关于 PostgreSQL MCP 服务器的不错的概述。
一个对 Agent 特别有用的有趣功能是数据库分支。虽然不是 MCP 服务器特有的,但分支允许 Agent 快速测试数据库变更而不影响生产应用。Neon 在 2025 年 7 月报告说 Agent 创建了他们 80% 的数据库。Neon 从一开始就设计为支持分支(Nikita 在系统还叫"Zenith“的时候给我展示过早期演示),而其他系统是后来才加入分支支持的。可以看看 Xata 最近关于数据库分支的对比文章。
Andy 的看法#
一方面,我很高兴现在有了一个标准来将数据库暴露给更多应用。但没人应该信任一个对数据库有不受限访问权限的应用,无论是通过 MCP 还是系统的常规 API。最佳实践仍然是只给账户最小权限。当无人监管的 Agent 可能在你的数据库里撒野时,限制账户权限尤为重要。这意味着给每个账户管理员权限、或所有服务使用同一账户这种偷懒做法,在 LLM 开始胡来时会翻车。当然,如果你的公司把数据库敞开给全世界的同时还让最富有公司的股价暴跌 6000 亿美元,那失控的 MCP 请求就不是你最大的问题了。
从我粗略检查的几个 MCP 服务器实现来看,它们都是简单的代理,将 MCP JSON 请求翻译成数据库查询。没有深入的内省来理解请求的目的以及是否合适。总有人会在你的应用里订购 18000 杯水,你得确保这不会搞崩你的数据库。一些 MCP 服务器有基本的保护机制(例如 ClickHouse 只允许只读查询)。DBHub 提供了一些额外的保护,如限制每个请求返回的记录数和实现查询超时。Supabase 的文档提供了 MCP Agent 的最佳实践指南,但这依赖于人类去遵守。当然,如果你指望人类做对的事,坏事就会发生。
企业级 DBMS 已经有了开源系统所缺乏的自动化护栏和其他安全机制,因此它们更好地为 Agent 生态做好了准备。例如,IBM Guardium 和 Oracle Database Firewall 可以识别和阻止异常查询。我不是在为这些大科技公司打广告,我知道未来会有更多 Agent 毁掉生活的例子,比如不小心删除数据库。将 MCP 服务器与代理(如连接池)结合,是引入自动化保护机制的好机会。
MongoDB, Inc. 诉 FerretDB Inc.#
MongoDB 二十年来一直是 NoSQL 的中坚力量。FerretDB 由 Percona 高管于 2021 年创立,提供一个中间件代理,将 MongoDB 查询转换为 SQL 发送到 PostgreSQL 后端。这个代理让 MongoDB 应用无需重写查询就能切换到 PostgreSQL。
他们共存了几年,直到 2023 年 MongoDB 向 FerretDB 发送了律师函,指控 FerretDB 侵犯了 MongoDB 的专利、版权和商标,并违反了 MongoDB 对其文档和线协议规范的许可。2025 年 5 月,MongoDB 对 FerretDB 提起联邦诉讼,这封信才公开。他们的主要争议之一是 FerretDB 对外声称拥有 MongoDB 的”即插即用替代品“而没有获得授权。MongoDB 的法庭文件包含所有标准投诉:(1) 误导开发者,(2) 稀释商标,(3) 损害声誉。
故事因 Microsoft 宣布将其 MongoDB 兼容的 DocumentDB 捐赠给 Linux Foundation 而更加复杂。项目网站提到 DocumentDB 与 MongoDB 驱动兼容,并旨在”构建一个 MongoDB 兼容的开源文档数据库"。Amazon 和 Yugabyte 等其他主要数据库厂商也参与了该项目。粗略一看,这些措辞似乎与 MongoDB 指控 FerretDB 做的事情类似。
Andy 的看法#
我找不到数据库公司因复制 API 而起诉另一家的先例。最接近的是 Oracle 起诉 Google 在 Android 中使用洁净室实现的 Java API。最高法院最终以合理使用为由判决 Google 胜诉,该案影响了重新实现在法律上的处理方式。
我不知道如果真的开庭,这场官司会怎么发展。一群随机挑选的陪审员可能理解 MongoDB 线协议的细节,但他们肯定能理解 FerretDB 最初的名字叫 MangoDB。当你只改了一个字母的公司名时,很难让陪审团相信你不是在试图截流客户。更别说这名字本身也不是原创的:已经有另一个叫 MangoDB 的恶搞数据库,把所有东西都写到 /dev/null。
说到数据库系统命名,Microsoft 选择"DocumentDB"这个名字很不幸。已经有 Amazon DocumentDB(顺便说一下,它也与 MongoDB 兼容,但 Amazon 可能为此付了钱)、InterSystems DocDB 和 Yugabyte DocDB。Microsoft 在 2016 年"Cosmos DB"的原名也是 DocumentDB。
最后,MongoDB 的法庭文件声称他们"……开创了’非关系型’数据库的发展"。这种说法是错误的。第一批通用 DBMS 就是非关系型的,因为关系模型当时还没被发明。General Electric 的 Integrated Data Store(1964)使用网状数据模型,IBM 的 Information Management System(1966)使用层次数据模型。MongoDB 也不是第一个文档数据库。那个头衔属于 1980 年代末的面向对象数据库(如 Versant)或 2000 年代的 XML 数据库(如 MarkLogic)。当然,MongoDB 是这些方法中最成功的(除了可能是 IMS)。
文件格式大战#
文件格式是数据系统中过去十年基本处于休眠状态的领域。2011 年,Meta 发布了用于 Hadoop 的列式存储格式 RCFile。两年后,Meta 改进了 RCFile 并宣布了基于 PAX 的 ORC(Optimized Record Columnar File)格式。ORC 发布一个月后,Twitter 和 Cloudera 发布了 Parquet 的第一个版本。近 15 年后,Parquet 是主导的开源文件格式。
2025 年,有五个新的开源文件格式发布,试图挑战 Parquet 的王座:
这些新格式加入了 2024 年发布的其他格式:
SpiralDB 今年动静最大,宣布将 Vortex 捐赠给 Linux Foundation 并建立了多组织指导委员会。Microsoft 在 2025 年底某个时候悄悄砍掉了 Amudai(或至少闭源了)。其他项目(FastLanes、F3、Anyblox)是学术原型。Anyblox 今年获得了 VLDB 最佳论文奖。
这场新竞争点燃了 Parquet 开发者社区现代化其功能的热情。可以看看 Parquet PMC 主席(Julien Le Dem)对列式文件格式现状的深入技术分析。
Andy 的看法#
Parquet 的主要问题不在于格式本身,规范可以而且已经在演进。没人期望组织会重写 PB 级的遗留文件来更新到最新 Parquet 版本。问题在于有太多不同语言的读写库实现,每个都支持规范的不同子集。我们对野生 Parquet 文件的分析发现,94% 的文件只使用了 2013 年 v1 的功能,尽管它们的创建时间戳在 2020 年之后。这种最低公分母意味着,如果有人使用 v2 功能创建 Parquet 文件,不清楚系统是否有正确的版本来读取它。
我与清华(曾星宇、张焕晨)、CMU(Martin Prammer、Jignesh Patel)和 Wes McKinney 等杰出人才一起开发了 F3 文件格式。我们的重点是解决这个互操作性问题,通过提供原生解码器作为共享对象(Rust crates)和嵌入在文件中的 WASM 版本解码器。如果有人创建了新的编码方式而 DBMS 没有原生实现,它仍然可以通过传递 Arrow 缓冲区使用 WASM 版本读取数据。每个解码器针对单个列,允许 DBMS 对单个文件混合使用原生和 WASM 解码器。AnyBlox 采用了不同的方法,生成单个 WASM 程序来解码整个文件。
我不知道谁会赢得文件格式战争。下一场战役可能是 GPU 支持。SpiralDB 正在做出正确的举措,但 Parquet 的普及性将是一个难以克服的挑战。我甚至还没讨论 DuckLake 如何试图颠覆 Iceberg…
当然,每当讨论这个话题时,总有人会发这张 xkcd 竞争标准漫画。我看过了,不用再发给我了。
杂项动态#
数据库是大生意。让我们逐一过一遍!
收购#
今年的并购很多。Pinecone 在 9 月更换了 CEO 以准备被收购,但之后我没听到任何消息。以下是已经完成的收购:
- DataStax → IBM
- Cassandra 的老牌公司在年初被 IBM 收购,估值约 30 亿美元。
- Quickwit → DataDog
- Lucene 替代品 Tantivy(全文搜索引擎)背后的领先公司在年初被收购。好消息是 Tantivy 开发仍在继续。
- SDF → dbt
- 这次收购是 dbt 今年 Fusion 发布的重要组成部分,使他们能够在 DAG 中进行更严格的 SQL 分析。
- Voyage.ai → MongoDB
- Mongo 收购了一家早期 AI 公司,以扩展其云产品中的 RAG 能力。我最好的学生之一在公告前一周加入了 Voyage。他以为没签数据库公司就是背叛"家族",结果还是进了一家。
- Neon → Databricks
- 显然,这家 PostgreSQL 公司有竞标战,但 Databricks 以令人垂涎的 10 亿美元拿下。Neon 今天仍作为独立服务存在,但 Databricks 很快将其在生态系统中更名为 Lakebase。
- CrunchyData → Snowflake
- 你知道 Snowflake 不会让 Databricks 独占夏天的头条,所以他们花了 2.5 亿美元收购了这家 13 年历史的 PostgreSQL 公司 CrunchyData。Crunchy 近年来招募了顶尖的前 Citus 人才,并在被 Snowflake 收购前扩展其 DBaaS 产品。Snowflake 在 2025 年 12 月宣布其 Postgres 服务的公开预览。
- Informatica → Salesforce
- 1990 年代的老牌 ETL 公司 Informatica 被 Salesforce 以 80 亿美元收购。这是在他们 1999 年上市、2015 年被 PE 私有化、2021 年再次上市之后。
- Couchbase → 私募股权
- 说实话,我从来没理解 Couchbase 2021 年是怎么上市的。我猜是蹭 MongoDB 的热度?Couchbase 几年前通过整合 UC Irvine AsterixDB 项目的组件做了一些有趣的工作。
- Tecton → Databricks
- Tecton 为 Databricks 提供了构建 Agent 的额外工具。我的另一个前学生是…
- Tobiko Data → Fivetran
- 这个团队是两个实用工具的幕后:SQLMesh 和 SQLglot。前者是 dbt 唯一可行的开源竞争者(见下文他们与 Fivetran 的合并)。SQLglot 是一个方便的 SQL 解析器/反解析器,支持基于启发式的查询优化器。这些工具在 Fivetran 以及 SDF 在 dbt 中的组合,在未来几年会是这个领域有趣的技术较量。
- SingleStore → 私募股权
- 收购 SingleStore 的 PE 公司(Vector Capital)有管理数据库公司的经验。他们之前在 2020 年收购了 XML 数据库公司 MarkLogic,并在 2023 年卖给了 Progress。
- Codership → MariaDB
- 在 2024 年被 PE 收购后,MariaDB Corporation 今年开始了收购狂潮。首先是 MariaDB Galera Cluster 横向扩展中间件背后的公司。参见我 2023 年关于 MariaDB 垃圾场火灾的概述。
- SkySQL → MariaDB
- 然后是第二笔 MariaDB 收购。让大家搞清楚:支持 MariaDB 的原始商业公司在 2010 年叫"SkySQL Corporation",2014 年更名为"MariaDB Corporation"。然后在 2020 年,MariaDB Corporation 发布了叫 SkySQL 的 MariaDB DBaaS。但因为他们在烧钱,MariaDB Corporation 在 2023 年将 SkySQL Inc. 拆分为独立公司。而现在,2025 年,MariaDB Corporation 回购了 SkySQL Inc,绕了一圈。这步棋不在我今年的数据库宾果卡上。
- Crystal DBA → Temporal
- 自动化数据库优化工具公司去了 Temporal,自动优化他们的数据库!很高兴听到 Crystal 创始人、Berkeley 数据库组校友 Johann Schleier-Smith 在那里发展不错。
- HeavyDB → Nvidia
- 这个系统(前身为 OmniSci,更前身为 MapD)是最早的 GPU 加速数据库之一,可追溯到 2013 年。除了一家并购公司列出的成功交易外,我找不到他们关闭的官方公告。然后我们与 Nvidia 开会讨论潜在的数据库研究合作,一些 HeavyDB 朋友出现了。
- DGraph → Istari Digital
- Dgraph 之前在 2023 年被 Hypermode 收购。看起来 Istari 只买了 Dgraph 而不是 Hypermode 的其他部分(或者他们抛弃了)。我还没遇到过任何正在积极使用 Dgraph 的人。
- DataChat → Mews
- 这是最早的"与你的数据库聊天"系统之一,来自 Wisconsin 大学和现 CMU-DB 教授 Jignesh Patel。但他们被一家欧洲酒店管理 SaaS 收购了。你自己理解这意味着什么吧。
- Datometry → Snowflake
- Datometry 多年来一直在解决将遗留 SQL 方言(如 Teradata)自动转换为较新 OLAP 系统这个棘手问题。Snowflake 收购他们以扩展其迁移工具。更多信息请参见 Datometry 2020 年的 CMU-DB 技术讲座。
- LibreChat → ClickHouse
- 像 Snowflake 收购 Datometry 一样,ClickHouse 的这次收购是改善高性能商用 OLAP 引擎开发者体验的好例子。
- Mooncake → Databricks
- 收购 Neon 后,Databricks 又收购了 Mooncake,使 PostgreSQL 能够读写 Apache Iceberg 数据。更多信息请参见他们 2025 年 11 月的 CMU-DB 讲座。
- Confluent → IBM
- 这是如何从草根开源项目打造公司的典范。Kafka 最初于 2011 年在 LinkedIn 开发。Confluent 于 2014 年作为独立创业公司拆分出来。七年后的 2021 年 IPO。然后 IBM 写了一张大支票接手。和 DataStax 一样,还需要观察 IBM 会不会对 Confluent 做 IBM 通常对被收购公司做的事,还是能像 RedHat 那样保持自治。
- Kuzu → ???
- 来自 Waterloo 大学的嵌入式图数据库被一家未具名公司在 2025 年收购。KuzuDB 公司随后宣布放弃开源项目。LadybugDB 项目是维护 Kuzu 代码分叉的尝试。
合并#
2025 年 10 月,Fivetran 和 dbt Labs 宣布合并为一家公司,这是意想不到的消息。
我能想到的数据库领域上一次合并是 2019 年 Cloudera 和 Hortonworks 的合并。但那笔交易就是厨房里被掺了水的货:两家在 Hadoop 市场挣扎求存的公司合并成一家来寻找市场定位(剧透:他们没找到)。2022 年 MariaDB Corporation 通过 SPAC 与 Angel Pond Holdings Corporation 的合并在技术上也算,但那笔交易是为了让 MariaDB 走后门上市。而且投资者的结局并不好。Fivetran + dbt 合并不同(也更好),他们是两家互补的技术公司合并成为 ETL 巨头,为不久的将来正式 IPO 做准备。
融资#
除非我漏掉了或者没有公布,今年数据库初创公司的早期融资轮次没有那么多。向量数据库的热度已经消退,VC 只给 LLM 公司开支票。
- Databricks - 40 亿美元 L 轮
- Databricks - 10 亿美元 K 轮
- ClickHouse - 3.5 亿美元 C 轮
- Supabase - 2 亿美元 D 轮
- Astronomer - 9300 万美元 D 轮
- Timescale - 1.1 亿美元 C 轮
- Tessel - 6000 万美元 B 轮
- ParadeDB - 1200 万美元 A 轮
- SpiralDB - 2200 万美元 A 轮
- CedarDB - 590 万美元种子轮
- TopK - 550 万美元种子轮
- Columnar - 400 万美元种子轮
- SereneDB - 210 万美元 Pre-Seed
- Starburst - 金额未公布
改名#
我年度总结中的新类别:数据库公司改名。
- HarperDB → Harper
- 这家 JSON 数据库公司去掉了名字中的"DB"后缀,以强调其作为数据库支持应用平台的定位,类似于 Convex 和 Heroku。我喜欢 Harper 的人。他们 2021 年的 CMU-DB 技术讲座展示了我听过的最糟糕的 DBMS 想法。好在他们意识到这有多糟糕后就放弃了,转向了 LMDB。
- EdgeDB → Gel
- 这是个明智之举,因为"Edge"这个名字让人以为是边缘设备或服务的数据库(如 Fly.io)。但我不确定"Gel"能传达项目的更高层次目标。可以看看 CMU 校友关于 Gel 查询语言(仍叫 EdgeQL)的 2025 年讲座。
- Timescale → TigerData
- 这是数据库公司将自己重命名以区别于其主要数据库产品的罕见案例。通常是公司把自己重命名为数据库的名字(如"Relational Software, Inc.“改为"Oracle Systems Corporation”,“10gen, Inc.“改为"MongoDB, Inc.")。但对公司来说,试图摆脱被视为专业时序数据库的印象,转而被看作通用应用的增强版 PostgreSQL 是有意义的,因为后者的市场规模要大得多。
死亡#
完全披露:我曾是其中两家失败创业公司的技术顾问。到目前为止,我作为顾问的成功率很糟糕。我也是 Splice Machine 的顾问,但他们 2021 年就关门了。在我辩护一下:我只和这些公司讨论技术想法,不是商业策略。我确实告诉过 Fauna 他们应该添加 SQL 支持,但他们没采纳我的建议。
- Fauna
- 一个有趣的分布式 DBMS,基于 Dan Abadi 关于确定性并发控制的研究。他们在 NoSQL 潮流退去、Spanner 让事务再次酷起来的时候提供了强一致性事务。但他们有专有查询语言,还在 GraphQL 上下了大赌注。
- PostgresML
- 这个想法看起来很明显:让人们在 PostgreSQL DBMS 内部运行 ML/AI 操作。挑战在于说服人们把现有数据库迁移到他们的托管平台。他们推广 pgCat 作为镜像数据库流量的代理。其中一位联合创始人加入了 Anthropic。另一位联合创始人创建了新的代理项目 pgDog。
- Derby
- 这是最早用 Java 编写的 DBMS 之一,可追溯到 1997 年(最初叫"Java DB"或"JBMS”)。IBM 在 2000 年代将其捐赠给 Apache Foundation,并更名为 Derby。2025 年 10 月,项目宣布系统将进入"只读模式”,因为没人再积极维护了。
- Hydra
- 虽然这家 DuckDB-inside-Postgres 创业公司没有官方公告,但联合创始人和员工已经分散到其他公司了。
- MyScaleDB
- 这是 ClickHouse 的一个分叉,添加了使用 Tantivy 的向量搜索和全文索引。他们在 2025 年 5 月宣布关闭。
- Voltron Data
- 这本应该是数据库公司的超级组合。想象一下 Run the Jewels 级别的重量级阵容。你有来自 Nvidia Rapids 的顶尖工程师、Apache Arrow 和 Python Pandas 的发明者,以及来自 BlazingSQL 的秘鲁 GPU 奇才。再加上来自顶级公司的 1.1 亿美元 VC 资金,其中包括未来的 Intel CEO(也是卡内基梅隆大学董事会成员)。他们构建了一个 GPU 加速数据库(Theseus),但未能及时推出。
最后,虽然不是商业公司,但我不得不提一下 IBM Research Almaden 的关闭。IBM 于 1986 年建造了这个园区,几十年来一直是数据库研究的圣地。我 2013 年在 Almaden 面试时,发现那里的风景很美。IBM Research 数据库组已不是当年的样子了。但这片神圣的数据库土地的校友名单令人印象深刻:Rakesh Agrawal、Donald Chamberlin、Ronald Fagin、Laura Haas、Mohan、Pat Selinger、Moshe Vardi、Jennifer Widom 和 Guy Lohman。
Andy 的看法#
有人声称我根据支持公司筹集的资金多少来判断数据库的质量。这显然不对。我追踪这些动态是因为数据库研究领域竞争激烈、能量充沛。我不仅要与其他大学的学者"竞争",大科技公司和小型创业公司也在推出我需要关注的有趣系统。除了 Microsoft Research 仍在积极招聘顶尖人才并做出令人难以置信的工作外,行业研究实验室已不是当年的样子了。
我在 2022 年预测 2025 年会有大量数据库公司倒闭。是的,今年的倒闭比往年多,但规模没有我预期的那么大。
Voltron 的死亡和 HEAVY 的类似收购整合似乎延续了 GPU 加速数据库不可行的趋势。Kinetica 多年来一直在榨取那些政府合同,Sqream 似乎仍然活着。这些公司仍然是小众的,没有人能够在 CPU 驱动的 DBMS 的主导地位上取得重大突破。我不能说是谁或什么,但你会在 2026 年听到厂商的一些重大 GPU 加速数据库公告。这也进一步证明了 OLAP 引擎的商品化:现代系统在低级操作(扫描、连接)上已经变得如此之快,以至于它们之间的性能差异可以忽略不计,所以区分一个系统和另一个系统的是用户体验和优化器生成的查询计划质量。
私募股权(PE)公司收购 Couchbase 和 SingleStore 可能预示着数据库行业的未来趋势。当然,PE 收购以前也发生过,但它们似乎都是近期的:(1) 2020 年的 MarkLogic,(2) 2021 年的 Cloudera,(3) 2023 年的 MariaDB。2020 年之前我只能找到 2007 年的 SolidDB 和 2015 年的 Informatica。PE 收购可能会取代停滞不前的数据库公司被控股公司收购、榨取维护费直到永远的趋势(Actian、Rocket)。甚至 Oracle 在 30 年前收购 RDB/VMS 后仍在从中赚钱!
最后,向 Nikita Shamgunov 致敬。据我所知,他是唯一一个联合创立的两家数据库公司(SingleStore 和 Neon)都在同一年被收购的人。就像 DMX(RIP)在同一年发行了两张冠军专辑(It’s Dark and Hell Is Hot、Flesh of My Flesh)一样,我认为短期内不会有人打破 Nikita 的记录。
巅峰男性的极致表现#
对数据库界 OG(元老)Larry Ellison 来说,这是辉煌的一年。这位 81 岁的老人在一年内取得的成就比大多数人一辈子都多。我按时间顺序一一道来。
Larry 年初时是全球第三富有的人。比 Mark Zuckerberg 身价低这件事让他夜不能寐。有人说 Larry 失眠是因为他买了一家著名的英国酒吧后改变了饮食,吃了更多的派。但我向你保证,Larry 30 年来的"素食海鲜“饮食没有改变。然后在 2025 年 4 月,消息传来:Larry 成为了全球第二富有的人。他睡得好了一点,但还是不够。他生活中还有很多事让他压力很大。比如,Larry 终于决定出售他那辆稀有的、半合法上路的 McLaren F1 超级跑车,附带手套箱里的原始车主手册。
2025 年 7 月,Larry 发布了他 13 年来的第三条推文(Larry 爱好者如我称之为”#3")。这是关于 Larry 在牛津大学附近建立的 Ellison Institute of Technology(EIT)的更新。从名字 EIT 及其与牛津的关联来看,它听起来像是一个纯粹的研究性非营利机构,类似于斯坦福的 SRI 或 CMU 的 SEI。但事实证明,它是一系列由加州有限责任公司持有的营利性公司的伞形组织。当然,一群怪人回复 #3,承诺区块链驱动的冷冻保存或室温超导体。Larry 告诉我他忽略那些。还有像这位仁兄才是懂的。
年度(可能是世纪)最大的数据库新闻在 2025 年 9 月 10 日星期三下午约 3:00(美东时间)降临。在等待了几十年之后,Larry Joseph Ellison 终于加冕为全球首富。$ORCL 当天上午股价上涨 40%,由于 Larry 仍持有公司 40% 的股份,他的估计总身价达到 3930 亿美元。从这个角度来看,这不仅使他成为世界上最富有的人,也是人类历史上最富有的人。John D. Rockefeller 和 Andrew Carnegie(是的,CMU 的那个"C")经通胀调整后的峰值净资产分别只有 3400 亿美元和 3100 亿美元。
在 Larry 登顶世界之巅的同时,Oracle 还参与了收购控制 TikTok 的美国公司的交易,Larry 还资助 Paramount(由他第四次婚姻的儿子控制)竞标收购华纳兄弟。美国总统甚至敦促 Larry 控制 CNN 新闻部门,因为 Larry 是 Paramount 的大股东。
Andy 的看法#
我都不知道从哪里开始。当然,当我得知 Larry Ellison 成为世界首富,而且全靠数据库,我深受鼓舞,终于有好事发生在我们生活中了。我不在乎 Oracle 的股票是被大肆宣传的 AI 数据中心交易而不是传统软件业务人为抬高的。我不在乎他在两个月内个人损失了 1300 亿美元后排名下滑。这就像你我把一个月工资全砸在 FortuneCoins 上。有点疼,我们不得不吃两周混着从 Taco Bell 顺来的过期辣酱包的米饭和豆子,但我们会没事的。
有人声称 Larry 与普通人脱节。或者说他迷失了方向,因为他参与了与数据库不直接相关的事情。他们指出他的夏威夷机器人农场以 24 美元/磅的价格出售生菜(41 欧元/公斤)。或者 81 岁的人不会有天然金发。
事实是,Larry Ellison 已经征服了企业数据库世界、竞技帆船和科技兄弟养生水疗。显而易见的下一步是接管一个每天有成千上万人在机场等候时观看的有线电视频道。每次我和 Larry 交流,他都明确表示他一点也不在乎别人怎么说或怎么想他。他知道他的粉丝爱他。他(新)妻子爱他。归根结底,这才是最重要的。
结语#
在结束之前,我想简单致敬几位。首先是 PT,在监狱里用 Turso 保持数据库技术的精进(出来再见)。向 JT 表示慰问,因为私藏 KevoDB 数据库小三而丢了工作。我和我的博士生们也有一个新的创业公司。希望很快能分享更多。一言为定。
原文链接:https://www.cs.cmu.edu/~pavlo/blog/2026/01/2025-databases-retrospective.html
老冯评论#
Andy Pavlo 这篇年终总结写得确实精彩,嘻哈梗玩得飞起, 这篇文章是 2025 年数据库领域最好的年终总结,没有之一。 他的信息量、洞察力和文笔都是顶级的。
作为一个在战壕里的前沿创业者,老冯也从不同的角度来聊聊两个主要问题。
一、PostgreSQL 赢了,然后呢?#
早在从十年前,老冯就坚定的相信 PostgreSQL 一定会赢,但那时候这么说,也就自说自话罢了,应者寥寥。 到两年前,老冯写了《PostgreSQL 正在吞噬数据库世界》,在 HackerNews 上火了,点燃了 PG 社区的激情。一些观点成为了社区的共识。 再到今天,基本上 PostgreSQL 主宰数据库世界这件事,在全球已经是行业共识了。无数资本用真金白银证明了这一点。 但是老冯却感觉有点空虚,PG 确实赢了,然后呢?
但如果你仔细看这份胜利的账单,会发现一个尴尬的事实:项目赢了,公司却没了。 Neon 卖给了 Databricks,CrunchyData 卖给了 Snowflake,Citus 早就归了微软。 创始人们套现离场,云厂商则顺手把这些团队里最懂 PostgreSQL 的人才一网打尽。 剩下还在独立运营的 PostgreSQL ISV 屈指可数,而且每一家头上都悬着"何时被招安"的达摩克利斯之剑。
Andy 在文章里提了一句很有意思的话:这些小公司应该联合起来,把枪口对准云厂商,而不是自己先打起来。 PlanetScale 怼 Neon,Yugabyte 怼 CockroachDB——打来打去,最后便宜的是坐山观虎斗的 AWS 和 Google。 真正的对手是那些拿着开源代码做托管服务、一分钱不回馈社区、还用规模优势碾压所有独立厂商的巨头。
PostgreSQL 生态里需要一个真正体现自由软件精神的发行版立起来。 不是又一个 DBaaS,不是又一个被 VC 催着变现的创业公司,而是一个像 Debian 之于 Linux 那样的存在——坚持开放、坚持可自托管、坚持用户对自己数据的完全掌控权。 当所有人都被云厂商赶进围墙花园的时候,这样的项目就是那扇还没上锁的门。而老冯的 Pigsty,要做的就是这样的事情。
二、分布式的 PG 是伪需求吗?#
Andy 花了不少笔墨写 Multigres 和 Neki 的对决,但他没有触及一个更根本的问题:为什么之前所有的分布式 PostgreSQL 尝试都 “失败了”?
Postgres-XC/XL 烂尾了,Citus 被微软收购后创新停滞,YugabyteDB 作为硬分叉永远追不上主版本。这些项目的命运难道只是偶然吗?
我的观点可能有些刺耳:在当下的硬件条件下,分布式 OLTP 数据库本身很可能是个伪需求。
问题在于,“单机"的定义已经被硬件革命彻底改写了。Gen5 NVMe SSD 单卡能到 256TB、几百万级的 IOPS;顶配服务器七八百个核、几TB 内存,全闪单机1U 放进 8个PB。 现在几乎没有哪个 TP 数据库能把这些恐怖的硬件性能榨干。硬件的进步让集中式数据库的容量和吞吐达到了前所未有的高度,而分布式数据库还在解决一个十年前的问题。
像 OpenAI 这样的独角兽巨无霸,用一套一主四十从的经典主从架构 PG 集群撑起了业务。那么普通用户使用 “分布式” 的意义又在哪里?
分布式不是死路,但它的生态位比很多人想象的小得多。 真正需要分布式的场景确实存在,但那是极少数的头部玩家 —— 人家大概率自己也就直接应用层分片搞了。 对于绝大多数企业来说,与其折腾分布式,不如把一套 PostgreSQL 用好、调好、管好。









