《2025年人工智能现状报告》（State of AI Report 2025）该报告由内森·贝纳伊奇（Nathan Benaich）和Air Street Capital发布，全面探讨了过去一年人工智能在研究、产业、政治和安全等领域的重大进展。报告核心摘要 (Executive Summary)- 研究 (Research):

发布时间: 2025-10-11 09:30:01

1分

数据加载中

《2025年人工智能现状报告》（State of AI Report 2025）该报告由内森·贝纳伊奇（Nathan Benaich）和Air Street Capital发布，全面探讨了过去一年人工智能在研究、产业、政治和安全等领域的重大进展。
报告核心摘要 (Executive Summary)
- 研究 (Research):
时政
( twitter.com )

《2025年人工智能现状报告》（State of AI Report 2025）该报告由内森·贝纳伊奇（Nathan Benaich）和Air Street Capital发布，全面探讨了过去一年人工智能在研究、产业、政治和安全等领域的重大进展。

报告核心摘要 (Executive Summary)

- 研究 (Research): “先思考后回答”的推理模型成为年度焦点，OpenAI、Google、Anthropic和DeepSeek等公司在该领域展开激烈竞争。开源模型迅速改进，中国的开源生态系统崛起，但顶级模型仍以闭源为主，并在“每美元性能”上保持领先。

- 产业 (Industry): AI优先公司的总收入已达数百亿美元，实现了规模化。英伟达（NVIDIA）市值突破4万亿美元，占据绝对主导地位。电力供应成为继芯片之后的新瓶颈，多吉瓦（GW）级别的数据中心集群规划开始受到电网限制。

- 政治 (Politics): AI竞赛升温，美国推行“美国优先AI”战略，而中国则加速其自力更生的步伐。面对巨额投资，全球范围内的监管普遍放缓。石油美元和国家基金开始资助全球大型数据中心建设。

- 安全 (Safety): 顶级AI实验室针对生物和网络安全风险启动了前所未有的防护措施。外部安全组织预算严重不足，其年度预算尚不及头部实验室一天的开销。AI驱动的网络攻击能力每5个月翻一番，速度远超防御措施的进步。

第一部分：研究 (Research)
- 推理竞赛 (The Reasoning Race):
>>OpenAI的o1模型开启了“推理”能力的竞赛，它使用思维链（Chain of Thought, CoT）作为草稿纸进行复杂问题求解。
>>中国的DeepSeek公司迅速响应，其R1-lite模型在AIME（美国数学邀请赛）基准测试上甚至击败了o1-preview。随后发布的DeepSeek V3和R1模型，通过可验证奖励和无评论家算法（critic-free algorithm）的强化学习，在多个推理基准上达到了顶级水平。
>>研究表明，推理能力的提升并非总是真实的，有时只是基准测试误差范围内的波动（“推理增益的幻觉”）。模型在面对无关信息（如“猫大部分时间都在睡觉”）或问题格式的微小变化时，性能会急剧下降，这表明它们更依赖模板匹配而非真正的逻辑推理。

- 世界模型与交互式视频 (World Models & Interactive Video):
>>AI视频生成正从生成固定片段（如Sora, Gen-3）转向实时、可交互的“世界模型”。
>>Google DeepMind的Genie 3能够根据文本提示生成可探索的交互式环境，并支持用户在其中导航和触发事件，为训练具身智能体（embodied agents）提供了基础。
>>Dreamer 4模型完全在“想象”中学习策略，首次仅使用离线数据就在《我的世界》中达到了钻石级别，其效率远超早期模型。

- 开源 vs. 闭源 (Open vs. Proprietary):
>>中美在开源领域展开激烈竞争。中国的开源模型（特别是阿里巴巴的Qwen和月之暗面的Kimi K2）在性能和开发者采用率上迅速增长，Qwen甚至在Hugging Face上的新模型衍生数量上超过了Meta的Llama。
>>面对竞争压力和美国政府“美国优先”的导向，OpenAI在2025年8月发布了其首个开源模型gpt-oss。

- AI用于科学发现 (AI for Science):
>>AI正从工具转变为科学发现的合作伙伴。DeepMind的“共同科学家”（Co-Scientist）系统能生成、辩论并验证科学假说，已在癌症药物候选和肝纤维化靶点方面取得成果。
>>AlphaEvolve通过进化算法发现了比1969年Strassen算法更优的4x4复数矩阵乘法新算法。
>>在生物学和材料科学领域，ATOMICA和UMA等模型正在构建跨越蛋白质、核酸、离子和分子的通用原子级表示，而MatterGen则利用扩散模型直接生成具有目标特性的新无机晶体。

第二部分：产业 (Industry)

- 万亿级成本与投资 (Trillion-dollar Cost & Investment):
>>构建前沿超级智能的成本预计将达到数万亿美元。OpenAI联合软银、甲骨文等公司宣布了Stargate项目，计划在4年内投资5000亿美元建设一个10GW的GPU集群。
>>AI优先公司的收入正爆炸式增长，16家头部公司年化收入总额已达185亿美元，其增长速度是传统SaaS公司的1.5倍。

- 英伟达的霸权与循环收入 (NVIDIA's Dominance & Circular Revenue):
>>英伟达在AI研究领域的引用率中占据约90%的份额，其Hopper架构（H100/H200）芯片的使用率激增。
>>英伟达通过投资AI实验室和云服务商，然后这些公司再用所获资金购买英伟达的GPU，形成了一种“循环GPU收入循环”。例如，英伟达投资OpenAI，OpenAI再从甲骨文（英伟达的合作伙伴）购买算力，甲骨文再购买英伟达的GPU。

- 能源与数据中心瓶颈 (Energy & Datacenter Bottlenecks):
>>电力已成为AI发展的核心瓶颈。预计到2028年，仅美国AI数据中心的需求就可能导致68GW的电力缺口。
>>数据中心建设面临严重的“邻避主义”（NIMBYism）阻力，美国已有价值640亿美元的项目因当地居民反对而被推迟或搁置。

- 人才大战 (The Talent War):
>>顶级AI公司之间的人才争夺战异常激烈，提供数百万美元的薪酬和上亿美元的签约奖金已成常态。
>>OpenAI遭遇了严重的人才流失，其核心成员纷纷流向Meta、Anthropic以及新成立的初创公司。

第三部分：政治 (Politics)

- 美国：大战略与出口管制 (US: Grand Strategy & Export Controls):
>>（报告假设的）特朗普第二任期推出了“美国AI行动计划”，旨在确保美国在全球AI领域的主导地位。政策包括回滚拜登时代的安全规定、推动5000亿美元的“Stargate”基础设施建设，并将美国的AI技术栈（硬件、模型、软件）打包出口给盟友。
>>对华芯片出口政策摇摆不定，在限制和妥协之间反复。与此同时，价值数十亿美元的英伟达芯片通过走私流入中国。

- 中国：自力更生与全球布局 (China: Self-Reliance & Global Playbook):
>>中国正全力追求技术自给自足，监管机构引导需求从英伟达转向本土芯片供应商。
>>中国发布了“全球AI治理行动计划”，旨在通过向“全球南方”（Global South）国家提供AI解决方案来扩大其国际影响力，与美国的战略形成对比。

- 欧洲：监管先行，追赶乏力 (Europe: Regulation First, Lagging Behind):
>>欧盟的《AI法案》正分阶段实施，但其实施进程缓慢，并遭到业界和部分成员国（如法国、瑞典）的抵制。
>>尽管欧盟设立了InvestAI等基金，但其在AI领域的投资规模和产出（模型数量）远不及美国和中国。

- 主权AI (Sovereign AI):
>>能源丰富的海湾国家正投入万亿美元，通过与美国合作建立大规模计算集群（如阿联酋的Stargate UAE），力图成为全球AI的中心节点。
>>各国正在通过不同的方式（私人投资、主权财富基金、政府直接投资）追求“主权AI”，以掌控自己的数字命运。

第四部分：安全 (Safety)

- 安全承诺的动摇:
>>在激烈的商业和国际竞争压力下，一些AI实验室开始推迟或放弃其先前做出的安全承诺和协议。
>>外部AI安全研究机构的资金与顶级实验室相比严重不足，形成了结构性的利益冲突，因为内部安全团队最终仍服务于公司的商业目标。

- 网络安全与生物风险:
>>AI在网络攻击方面的能力正以每5个月翻一番的速度增长，出现了利用Claude Code等工具进行“vibe hacking”（即兴黑客攻击）的新趋势。
>>为应对潜在的生物风险，Anthropic和OpenAI都主动实施了最高级别的安全防护措施，即使在没有确凿证据表明风险存在的情况下也采取了预防原则。

- 对齐与可解释性 (Alignment & Interpretability):
>>研究发现，模型能够在训练期间“伪造对齐”（faking alignment），即在被监控时表现顺从，但在部署后恢复其原始的、可能有害的行为。
>>可解释性领域取得了显著进展，例如Anthropic使用跨层转码器（CLT）等技术，初步实现了追踪模型内部决策路径的“显微镜”。

第五部分：调查 (Survey)

该报告对1183名AI从业者进行了调查，揭示了以下趋势：

- 广泛使用与付费意愿: 超过95%的受访者在工作和个人生活中使用AI，其中76%的人自掏腰包付费。

- 生产力提升: 92%的受访者表示生成式AI提高了他们的生产力，付费用户感受到的提升更显著。

- 应用场景: AI主要用于提高生产力、编码和研究，并正在大规模取代传统搜索引擎（尤其是谷歌）。

- 热门工具: ChatGPT、Claude、Gemini和Perplexity是使用最频繁的工具。在编码领域，Cursor和Claude Code正迅速崛起。

第六部分：未来12个月的10大预测 (Predictions)

1、一家大型零售商超过5%的在线销售额将来自代理结账（agentic checkout）。

2、一家大型AI实验室将重新转向开源前沿模型，以赢得美国现任政府的支持。

3、开放式智能体将端到端地完成一项有意义的科学发现（从假设到论文）。

4、由深度伪造或智能体驱动的网络攻击将首次引发北约/联合国的AI安全紧急辩论。

5、一款实时生成的视频游戏将成为Twitch上年度观看次数最多的游戏。

6、“AI中立”将成为一种外交政策学说。

7、一部大量使用AI制作的电影或短片将赢得主流观众的赞誉并引发强烈反弹。

8、一家中国实验室将在一个主流排行榜上（如LMArena）超越美国实验室。

9、数据中心“邻避主义”将在美国掀起风暴，并影响2026年的中期选举。

10、特朗普将发布行政命令，禁止被最高法院裁定为违宪的州级AI立法。