以下为Jim Fan原文翻译整理:
在Twitter上很快就能看到很多"Llama-2已经击败ChatGPT"或者"OpenAI已经完蛋了"之类的帖子,在此之前分享我的笔记:
▸ Llama-2 训练费用可能花费了超过2000万美元。Meta通过以商业友好的许可证发布模型,这对社区来说是重大利好!以前大公司的AI研究人员可能由于许可协议的问题对Llama-1持谨慎态度,现在Llama-2的免费可商用许可协议应该能打消他们的疑虑,开始使用Llama-2,并反过来为开源社区贡献成果。
▸ Meta的团队使用4千个Prompts对Llama-2进行了评估,其中70B的模型与GPT-3.5-0301大致相当,比Falcon,MPT和Vicuna的表现明显更强。由于这些是真人的评测而不是学术基准评测,相对来说结果会更科学。
▸ Llama-2还没有达到GPT-3.5的水平,主要是因为它写代码能力比较弱。在"HumanEval"(标准编码基准)上,它并不如StarCoder或许多其他专为代码生成设计的模型那么好。但由于Llama-2是开放权重的,预计很快就能补齐这方面的短板。
▸ Meta的团队在AI安全问题上做得不遗余力。事实上,这篇论文几乎有一半的篇幅都在谈论安全护栏、红队和评估。我们应该为这种负责任的努力鼓掌!
在之前的研究中,帮助性和安全性之间存在着棘手的权衡问题。Meta 通过训练两个独立的奖励模型来缓解这一问题。这些模型还没有开源,但对社区来说非常有价值。
▸ 我认为Llama-2将极大地推动多模态AI和机器人研究。这些领域需要的不仅仅是对API的黑箱访问。到目前为止,我们必须将复杂的感官信号(视频,音频,3D感知)转换为文本描述,然后再输入到 LLM,这很麻烦,而且会导致大量信息丢失。将感官模块直接嫁接到强大的 LLM 骨干上会更有效。
▸ 白皮书本身就是一部杰作。GPT-4 的白皮书只分享了很少的信息,而 Llama-2 则不同,它详细介绍了整个配方,包括模型细节、训练阶段、硬件、数据管道和注释过程。例如,论文对 RLHF 的影响进行了系统分析,并提供了漂亮的可视化效果。
引用白皮书的第 5.1 节:"我们认为,LLMs 在某些任务中超越人类注释者的超强写作能力,从根本上说是由 RLHF 驱动的"。
再次祝贺团队