《2025年人工智能现状报告》(State of AI Report 2025)该报告由内森·贝纳伊奇(Nathan Benaich)和Air Street Capital发布,全面探讨了过去一年人工智能在研究、产业、政治和安全等领域的重大进展。
报告核心摘要 (Executive Summary)
- 研究 (Research): “先思考后回答”的推理模型成为年度焦点,OpenAI、Google、Anthropic和DeepSeek等公司在该领域展开激烈竞争。开源模型迅速改进,中国的开源生态系统崛起,但顶级模型仍以闭源为主,并在“每美元性能”上保持领先。
- 产业 (Industry): AI优先公司的总收入已达数百亿美元,实现了规模化。英伟达(NVIDIA)市值突破4万亿美元,占据绝对主导地位。电力供应成为继芯片之后的新瓶颈,多吉瓦(GW)级别的数据中心集群规划开始受到电网限制。
- 政治 (Politics): AI竞赛升温,美国推行“美国优先AI”战略,而中国则加速其自力更生的步伐。面对巨额投资,全球范围内的监管普遍放缓。石油美元和国家基金开始资助全球大型数据中心建设。
- 安全 (Safety): 顶级AI实验室针对生物和网络安全风险启动了前所未有的防护措施。外部安全组织预算严重不足,其年度预算尚不及头部实验室一天的开销。AI驱动的网络攻击能力每5个月翻一番,速度远超防御措施的进步。
第一部分:研究 (Research)
- 推理竞赛 (The Reasoning Race):
>>OpenAI的o1模型开启了“推理”能力的竞赛,它使用思维链(Chain of Thought, CoT)作为草稿纸进行复杂问题求解。
>>中国的DeepSeek公司迅速响应,其R1-lite模型在AIME(美国数学邀请赛)基准测试上甚至击败了o1-preview。随后发布的DeepSeek V3和R1模型,通过可验证奖励和无评论家算法(critic-free algorithm)的强化学习,在多个推理基准上达到了顶级水平。
>>研究表明,推理能力的提升并非总是真实的,有时只是基准测试误差范围内的波动(“推理增益的幻觉”)。模型在面对无关信息(如“猫大部分时间都在睡觉”)或问题格式的微小变化时,性能会急剧下降,这表明它们更依赖模板匹配而非真正的逻辑推理。
- 世界模型与交互式视频 (World Models & Interactive Video):
>>AI视频生成正从生成固定片段(如Sora, Gen-3)转向实时、可交互的“世界模型”。
>>Google DeepMind的Genie 3能够根据文本提示生成可探索的交互式环境,并支持用户在其中导航和触发事件,为训练具身智能体(embodied agents)提供了基础。
>>Dreamer 4模型完全在“想象”中学习策略,首次仅使用离线数据就在《我的世界》中达到了钻石级别,其效率远超早期模型。
- 开源 vs. 闭源 (Open vs. Proprietary):
>>中美在开源领域展开激烈竞争。中国的开源模型(特别是阿里巴巴的Qwen和月之暗面的Kimi K2)在性能和开发者采用率上迅速增长,Qwen甚至在Hugging Face上的新模型衍生数量上超过了Meta的Llama。
>>面对竞争压力和美国政府“美国优先”的导向,OpenAI在2025年8月发布了其首个开源模型gpt-oss。
- AI用于科学发现 (AI for Science):
>>AI正从工具转变为科学发现的合作伙伴。DeepMind的“共同科学家”(Co-Scientist)系统能生成、辩论并验证科学假说,已在癌症药物候选和肝纤维化靶点方面取得成果。
>>AlphaEvolve通过进化算法发现了比1969年Strassen算法更优的4x4复数矩阵乘法新算法。
>>在生物学和材料科学领域,ATOMICA和UMA等模型正在构建跨越蛋白质、核酸、离子和分子的通用原子级表示,而MatterGen则利用扩散模型直接生成具有目标特性的新无机晶体。
第二部分:产业 (Industry)
- 万亿级成本与投资 (Trillion-dollar Cost & Investment):
>>构建前沿超级智能的成本预计将达到数万亿美元。OpenAI联合软银、甲骨文等公司宣布了Stargate项目,计划在4年内投资5000亿美元建设一个10GW的GPU集群。
>>AI优先公司的收入正爆炸式增长,16家头部公司年化收入总额已达185亿美元,其增长速度是传统SaaS公司的1.5倍。
- 英伟达的霸权与循环收入 (NVIDIA's Dominance & Circular Revenue):
>>英伟达在AI研究领域的引用率中占据约90%的份额,其Hopper架构(H100/H200)芯片的使用率激增。
>>英伟达通过投资AI实验室和云服务商,然后这些公司再用所获资金购买英伟达的GPU,形成了一种“循环GPU收入循环”。例如,英伟达投资OpenAI,OpenAI再从甲骨文(英伟达的合作伙伴)购买算力,甲骨文再购买英伟达的GPU。
- 能源与数据中心瓶颈 (Energy & Datacenter Bottlenecks):
>>电力已成为AI发展的核心瓶颈。预计到2028年,仅美国AI数据中心的需求就可能导致68GW的电力缺口。
>>数据中心建设面临严重的“邻避主义”(NIMBYism)阻力,美国已有价值640亿美元的项目因当地居民反对而被推迟或搁置。
- 人才大战 (The Talent War):
>>顶级AI公司之间的人才争夺战异常激烈,提供数百万美元的薪酬和上亿美元的签约奖金已成常态。
>>OpenAI遭遇了严重的人才流失,其核心成员纷纷流向Meta、Anthropic以及新成立的初创公司。
第三部分:政治 (Politics)
- 美国:大战略与出口管制 (US: Grand Strategy & Export Controls):
>>(报告假设的)特朗普第二任期推出了“美国AI行动计划”,旨在确保美国在全球AI领域的主导地位。政策包括回滚拜登时代的安全规定、推动5000亿美元的“Stargate”基础设施建设,并将美国的AI技术栈(硬件、模型、软件)打包出口给盟友。
>>对华芯片出口政策摇摆不定,在限制和妥协之间反复。与此同时,价值数十亿美元的英伟达芯片通过走私流入中国。
- 中国:自力更生与全球布局 (China: Self-Reliance & Global Playbook):
>>中国正全力追求技术自给自足,监管机构引导需求从英伟达转向本土芯片供应商。
>>中国发布了“全球AI治理行动计划”,旨在通过向“全球南方”(Global South)国家提供AI解决方案来扩大其国际影响力,与美国的战略形成对比。
- 欧洲:监管先行,追赶乏力 (Europe: Regulation First, Lagging Behind):
>>欧盟的《AI法案》正分阶段实施,但其实施进程缓慢,并遭到业界和部分成员国(如法国、瑞典)的抵制。
>>尽管欧盟设立了InvestAI等基金,但其在AI领域的投资规模和产出(模型数量)远不及美国和中国。
- 主权AI (Sovereign AI):
>>能源丰富的海湾国家正投入万亿美元,通过与美国合作建立大规模计算集群(如阿联酋的Stargate UAE),力图成为全球AI的中心节点。
>>各国正在通过不同的方式(私人投资、主权财富基金、政府直接投资)追求“主权AI”,以掌控自己的数字命运。
第四部分:安全 (Safety)
- 安全承诺的动摇:
>>在激烈的商业和国际竞争压力下,一些AI实验室开始推迟或放弃其先前做出的安全承诺和协议。
>>外部AI安全研究机构的资金与顶级实验室相比严重不足,形成了结构性的利益冲突,因为内部安全团队最终仍服务于公司的商业目标。
- 网络安全与生物风险:
>>AI在网络攻击方面的能力正以每5个月翻一番的速度增长,出现了利用Claude Code等工具进行“vibe hacking”(即兴黑客攻击)的新趋势。
>>为应对潜在的生物风险,Anthropic和OpenAI都主动实施了最高级别的安全防护措施,即使在没有确凿证据表明风险存在的情况下也采取了预防原则。
- 对齐与可解释性 (Alignment & Interpretability):
>>研究发现,模型能够在训练期间“伪造对齐”(faking alignment),即在被监控时表现顺从,但在部署后恢复其原始的、可能有害的行为。
>>可解释性领域取得了显著进展,例如Anthropic使用跨层转码器(CLT)等技术,初步实现了追踪模型内部决策路径的“显微镜”。
第五部分:调查 (Survey)
该报告对1183名AI从业者进行了调查,揭示了以下趋势:
- 广泛使用与付费意愿: 超过95%的受访者在工作和个人生活中使用AI,其中76%的人自掏腰包付费。
- 生产力提升: 92%的受访者表示生成式AI提高了他们的生产力,付费用户感受到的提升更显著。
- 应用场景: AI主要用于提高生产力、编码和研究,并正在大规模取代传统搜索引擎(尤其是谷歌)。
- 热门工具: ChatGPT、Claude、Gemini和Perplexity是使用最频繁的工具。在编码领域,Cursor和Claude Code正迅速崛起。
第六部分:未来12个月的10大预测 (Predictions)
1、一家大型零售商超过5%的在线销售额将来自代理结账(agentic checkout)。
2、一家大型AI实验室将重新转向开源前沿模型,以赢得美国现任政府的支持。
3、开放式智能体将端到端地完成一项有意义的科学发现(从假设到论文)。
4、由深度伪造或智能体驱动的网络攻击将首次引发北约/联合国的AI安全紧急辩论。
5、一款实时生成的视频游戏将成为Twitch上年度观看次数最多的游戏。
6、“AI中立”将成为一种外交政策学说。
7、一部大量使用AI制作的电影或短片将赢得主流观众的赞誉并引发强烈反弹。
8、一家中国实验室将在一个主流排行榜上(如LMArena)超越美国实验室。
9、数据中心“邻避主义”将在美国掀起风暴,并影响2026年的中期选举。
10、特朗普将发布行政命令,禁止被最高法院裁定为违宪的州级AI立法。
点击图片查看原图