JIm Fan: 最近我在X上有点沉默。这一年对我来说,是一次充满蜕变的旅程。
尽管Grok-4和Kimi K2这些新兴大语言模型很棒,但如今的机器人领域却依然像一片奇妙的西部荒野。它让我回想起2018年的NLP领域,那时GPT-1刚刚诞生,BERT横空出世,成千上万种新奇的想法纷纷涌现。没人知道最终哪个想法能成为日后的ChatGPT。争论不休、混沌无序,但创意火花四溅,令人兴奋。
现在,我相信机器人的“GPT-1时刻”其实已经到来,就隐藏在Arxiv的论文海洋中,只不过我们还不知道它到底是哪篇。它可能是世界模型(World Models)、强化学习(RL)、从人类视频学习、仿真到现实(sim2real)、现实到仿真(real2sim),或者它们的某种组合。目前的局势依然像当初NLP一样:争论激烈、熵值极高,但点子又新奇又好玩,而不是挤破头去刷什么AIME和GPQA榜单的最后一点百分比。
机器人设计的复杂性远超大语言模型。因为LLM只需要处理干净简单的“比特世界”(即文本),而机器人则需要面对混乱而真实的“原子世界”。毕竟,我们手中控制的是一坨被软件定义的真实金属。搞LLM的人可能难以想象,到现在为止,机器人领域甚至连一个统一的基准测试标准都还没确定下来!不同的机器人各有长处:有的擅长杂技动作,有的更会精细操控物体;有的适合工业场景,有的则擅长做家务。跨不同载体、适用于各种机器人的通用大脑,不只是研究里的噱头,更是实现真正智能体的必要条件。
过去一段时间,我跟数十位不同机器人公司的高管们聊过,其中有老牌企业也有新兴初创。有些公司卖完整的机器人整机,有些专门卖高灵巧度的机械手。还有更多的公司,则选择卖铲子——比如机器人制造工具、仿真平台,或者用于训练的数据采集系统。机器人商业领域的创意,同样百花齐放,简直就像一场新淘金热潮,就像2022年ChatGPT带来的创业热潮一样。
而最佳的进入时间,往往就在共识最少、混乱最大的时刻。目前,我们还在损失函数曲线的开头——虽然看到了一些强有力的生命迹象,但离收敛还远得很。每一次梯度的探索,都会把我们带往未知的领域。但有一点我坚信不疑:如果不深入现实世界去触摸、感知,并被赋予一个真实的身体,所谓的AGI(通用人工智能)也就无从谈起。
说些更个人的话——掌管一家研究实验室,让我感受到了一种前所未有的责任感。当我需要直接向一家市值4万亿美元公司的CEO汇报进展时,说实话,这种体验既刺激又让人精神高度紧张。再也不像从前那样,可以轻轻松松地跟上并深入研究每一条AI领域的新资讯了。
我会尽量抽时间,继续与你们分享我的旅程。
点击图片查看原图