转译自原推:谷歌2025 I/O大会发布了一大波AI新模型、工具和订阅服务,以下是最值得关注的更新及上线时间汇总
生成式媒体(Generative Media)
- 视频生成模型 Veo 3
- 谷歌史上最强的视频生成模型,能自动生成带音效甚至人物对话的视频。
- 美国地区的 Google AI Ultra 订阅用户现已可通过 Gemini App 和全新工具 Flow 体验;Vertex AI 则启动了封闭预览,未来几周内将逐步扩大到更多用户。
- 视频生成模型 Veo 2 更新
- 新增了基于参考的视频创作(风格与人物更加一致)、精准的镜头控制、自动扩展画面(outpainting)以及物体增减功能。
- 部分新功能现已上线 Flow,完整功能不久后登陆 Vertex AI。
- 图片生成模型 Imagen 4
- 图片细节更丰富、效果更准确、文字渲染能力大幅提升。
- 现已免费登陆 Gemini App、Whisk 和 Workspace 应用(包括 Slides、Docs 和 Vids)以及 Vertex AI;更快的快速版本即将上线。
- AI电影制作工具 Flow
- 让用户通过自然语言与资源管理,轻松调用 Veo、Imagen 和 Gemini 创建电影级短片。
- 已面向美国地区的 Google AI Pro 和 Ultra 订阅用户上线。
- 音乐生成模型 Lyria 2
- 提供高保真自适应音乐创作服务,现已上线 Vertex AI。
- 实时互动版 Lyria RealTime 则以实验性质登陆 Gemini API 与 Google AI Studio,允许用户实时演奏生成音乐。
Gemini 应用升级
- Canvas 内容一键生成
- 聊天内容一键变成45种语言的互动内容(如信息图、测验、播客)。
- 深度研究(Deep Research)新增文件与图片上传功能,未来将整合 Google Drive 和 Gmail。
- Gemini Live(实时相机和屏幕共享)
- Android 和 iOS 平台免费使用(逐步上线中),未来还将整合至谷歌自家应用如日历(Calendar)、备忘录(Keep)、地图(Maps)和任务(Tasks)。
订阅服务详情
- Google AI Pro(每月19.99美元)
- 已面向美国及其他国家开放,但最新功能(如Flow、Chrome版Gemini)会率先在美国推出,随后全球铺开。
- Google AI Ultra(每月249.99美元,新用户前三个月享半价优惠)
- 提供最高使用额度、最早体验先进模型如 Veo 3、Gemini 2.5 Pro 深度思考模式、最高额度的 Flow、专属 Agent Mode、YouTube Premium 以及 30TB 云存储。
- 美国地区已上线,未来数月将扩大到其他国家。
- 学生福利
- 美国、英国、巴西、印尼、日本的大学生可免费体验一年 Google AI Pro。
Chrome 版 Gemini 与 Agent Mode
- Chrome 版 Gemini
- 面向美国地区的 Google AI Pro 和 Ultra 用户推出,可在桌面端直接总结、解释网页内容,提供隐私保护,仅当用户主动调用时才启动。
- Agent Mode
- 即将面向 Ultra 桌面用户上线,可帮用户自动完成复杂网络任务,如筛选信息、填写表格、安排日程等,基于全新的 MCP 协议实现自动化浏览。
搜索中的AI增强
- AI Mode(AI模式)
- 在美国用户中逐步上线,基于 Gemini 2.5,支持更深入的推理、更长的查询、多模态搜索与即时高质量解答;“深度搜索”(Deep Search)则能同时进行数百个查询并提供综合报告。
- 实时体验与个性化整合
- 项目Astra的实时相机互动(指向物体提问)、项目Mariner的自动任务管理(购票、订餐)以及 Gmail 等个人数据的整合将在 AI 模式中推出,用户可完全掌控隐私。
Gemini 2.5 系列模型
- Gemini 2.5 Pro 与 Flash
- 在编码和推理能力上领先行业,Flash版特别升级了速度与效率,预计2025年6月全面开放。
- Gemini 2.5 Pro 深度思考模式
- 推出全新实验性“平行思考模式”,适合复杂任务,优先面向受信用户开放测试,通过 Gemini API 接口逐步推广,未来还将允许用户自定义推理深度和速度。
- 模型上下文协议(MCP)
- 现在已原生支持 Gemini API 和 SDK,使AI代理和工具更易整合。
- 推理过程详解
- Gemini API 和 Vertex AI 现在可生成清晰的逐步推理过程和工具使用记录,方便用户理解AI决策过程。
项目名称与定位调整
- Project Starline 更名 Google Beam
- 一种基于AI的3D视频通话工具,可将普通视频升级为沉浸式会议体验,年内将与惠普等企业合作伙伴共同推出。
- Gemini Live 整合 Astra
- 提供实时相机与屏幕共享功能,Android 已免费开放,iOS 正在陆续上线。
- Agent Mode 整合 Mariner
- 项目Mariner的电脑自动化功能已在美国地区面向 Ultra 用户开放,即将开放给开发者通过 Gemini API 和 Vertex AI 使用。
开源模型与开发者工具
- Gemma 3n
- 新一代高效多模态开源模型,面向低功耗设备,可同时支持文本、语音、图片、多语言输入,目前在AI Studio 和 AI Edge平台面向开发者预览。
- 异步编程助手 Jules
- 基于 Gemini 2.5 Pro,支持在 GitHub 或用户代码库内自动执行真实编程任务,支持多任务并行以及语音更新日志,目前公开测试中免费使用。
- 快速文本生成模型 Gemini Diffusion
- 新型实验性模型,文本生成速度比此前最快模型快5倍,目前仅限开发者申请等待名单进行测试。
- AI内容鉴别工具 SynthID Detector
- 用于检测图片、音频、视频或文本是否由谷歌AI生成,目前已向首批测试用户开放,后续将逐步扩大测试范围。
点击图片查看原图