吴恩达老师:想让 AI 更强大,我们该往哪儿走?一个令人兴奋的新方向正浮出水面:并行智能体 (Parallel agents)。
一直以来,提升 AI 能力主要靠三驾马车:更多的训练数据、更强的训练算力,以及更强的推理阶段算力 (test-time compute)。如今,让多个 AI 智能体 (AI Agent) 并肩作战,正成为一种扩展 AI 能力、提升性能的新浪潮。
我们早就发现一个规律——这在我之前在百度带的团队和后来的 OpenAI 的工作中都得到了验证——那就是 AI 模型的性能,会随着数据量和训练算力的投入而稳步提升。如果你再让 AI 在推理(也就是解决问题)的时候多花点“力气”,比如让它像人一样思考、反思、迭代答案,它的表现还会更上一层楼。但问题是,这些方法会让用户等太久。而并行智能体,恰恰为我们提供了另一条路:既能提升结果质量,又不用牺牲用户的时间。
推理模型生成内容时,是一个字一个字往外蹦的,所以运行起来可能很慢。同样,大多数的智能体工作流 (agentic workflows) 一开始也是按顺序一步步执行的。但现在情况变了:一方面,大语言模型 (LLM) 每个 token 的价格持续跳水,让这些“大力出奇迹”的方法在经济上变得可行;另一方面,产品团队也希望更快地给用户呈现结果。于是,越来越多的智能体工作流开始被并行化。
这里有几个例子:
现在很多做研究的智能体,会同时抓取多个网页并并行阅读,从而更快地综合信息,写出富有洞察力的深度研究报告。
一些智能体编程框架,允许用户指挥多个智能体同时在同一个代码库的不同部分上工作。我们在关于 Claude Code 的短期课程中,就展示了如何使用 git worktree 来实现这一点。1
在智能体工作流中,一个迅速流行的设计模式是:让一个“劳工”智能体在后台花几分钟甚至更长时间去处理一项重度计算任务,同时派另一个“监工”智能体在前台不断向用户汇报简短的进度,让他们随时了解情况。从这个模式再往前走一小步,就演变成了多个智能体在后台埋头苦干,而一个“UI 智能体”则负责与用户沟通,甚至还能将用户的异步反馈传递给后台的“同事们”。
对于人类管理者来说,要把一个像“开发一款复杂软件”这样的艰巨任务,拆解成能让工程师们并行处理的小任务,是一件非常困难的事;想让成百上千名工程师高效协作,更是难上加难。同样,如何为并行的 AI 智能体们“拆解任务”,也极具挑战。但好在,大语言模型推理成本的降低,让我们有底气用上“人海战术”。通过并行处理,我们可以消耗海量的 token 来换取更好的结果,同时又不会显著增加用户的等待时间。
看到学术界也在积极探索这个方向,我备受鼓舞。例如,我最近读到一篇由 Ryan Ehrlich 等人撰写的论文《CodeMonkeys:扩展软件工程中的推理阶段算力》,读来津津有味。它展示了并行生成代码如何帮助你探索更广阔的解决方案空间。而王俊林(Junlin Wang)提出的多智能体混合 (mixture-of-agents) 架构,其组织并行智能体的方式简单得出奇:让多个大语言模型针对同一个问题给出不同的答案,再派出一个“总管”大语言模型,将这些答案博采众长,融合成最终的输出。
当然,如何才能最好地利用并行智能体,还有大量的研究和工程问题等待我们去探索。但我坚信,未来能够高效协作的智能体的数量——就像能够高效协作的人类一样——将会是一个非常、非常庞大的数字。