就像OpenAI的Hyung说的,AI领域有一个非常特别的反直觉性质决定了,算力将一直是瓶颈
把时间线拉长,过去几十年的AI发展历史来看,更复杂的架构往往在短期的表现很好,但是更长期的决定性因素一定是算力(scaling)提升之后用更简单的架构带来革命性提升
这和其他几乎所有领域都不一样:很多看似巧妙的做法往往是算力不足时代的权宜之计,当算力再上一个台阶之后,这些做法通常会成为绊脚石
越依赖人类主观设计的复杂结构,越容易在scaling上遇到瓶颈,更复杂的架构意味着scaling更难做
Hyung自己做过太多的架构,他的感受是,无论怎么改动transformer架构,都只能带来微小的提升,不是架构没用,而是架构不再是眼前最关键瓶颈
还是那句话,AI的发展主旋律和dominating driving factor只有一个:算力加速的指数型上升。十年加速六个数量级:软件/算法加速三个数量级,硬件加速三个数量级
Scaling law在各个层面上就像摩尔定律一样,会一直在怀疑中延续,只不过会有间歇性平缓期
-------------------------------------------------------
Nvidia Blackwell Ultra和Vera Rubin的发布,标志着英伟达已成功将芯片更新周期从两年缩短至一年,感觉这个对业界影响不小
作为业界标杆,NV在AI硬件的指引性是很强的,这个指引性不亚于苹果在移动互联网时代对手机行业的影响
最可能的直观的影响,各个互联网公司自己做的AI ASIC芯片迭代速度再过不久也会跟上。之前各个互联网公司自己开发的ASIC芯片算力和带宽是直接对标NV下一代芯片的,只不过功耗会高很多,靠后期针对workload的compiler优化来弥补,反正只要能节省成本不被Nvidia压榨就行
但是看NV的步子迈的这么大,我其实有点怀疑,互联网公司自己几百人的tiny小作坊真的能跟得上步伐每年一代吗?我看到MTIA的扩张速度令人咂舌,可以用不计成本来形容了,但芯片这种长周期产业,靠短期大扩张真的不容易赶上,半导体的圈子实在是太小了,稍微挖一下就没了,开薪水再高也没法满足这个人才缺口
这么看来,NV步子这么大,结果可能也会延缓ASIC代替GPU的节奏,对标NV下一代产品的难度越来越大,能大规模取代NV的难度也会变高
----------------------------------------
算力将一直是瓶颈,但即便是如此,各公司的商业化进程对于在LLM基建的投入热情上的影响是最终决定性因素:为什么genAI应用层还跟不上,似乎除了一个chatbot就没其他东西了?
我的感觉是开发速度跟不上,因为架构改变太多太多了
做个原型是很容易的,但是大规模的产品scaling是完全不一样的概念,拿Amzon最近发布的Alexa+来说,整个产品的架构从头重新设计,一万三千人的Alexa部门不停reorg,再花了一年半爆肝的时间(Alexa org绝对是Amazon内部这一年来员工体验最差的org),不停推迟发布,前几周才终于推出一个初步的稳定prototype
这个Alexa+和Alexa有啥区别?就是背后连了Claude,能连接几百个service,有一定的personalized context,仅此而已,没了
Apple Intelligence也是一样,架构改变太大,新产生的问题太多一直难产。
即便是这样大成本长时间(一年半)的制作,Alexa也确实变聪明太多了(Claude3.5),实用性比以前好了很多,但Alexa+的发布,仍然没有激起丝毫的水花。
发展是需要超过阶段性门槛的里程碑才会被感知的
实际上这两年agent工作流的进步速度有目共睹,未来两三年随时可能超过某些实用性门槛的里程碑爆发
所以对互联网公司来说,减少投入踏空的风险明显高于高投入降低利润的影响,我看不出降低AI capex的理由。可能未来几年AI capex的增长会逐渐接近互联网公司营收增长,也就是放缓
点击图片查看原图