OpenAI 连续 12 天 AI 发布会:第二天完整视频(中英文双语字幕)
第二天分享的内容其实价值蛮大,只是目前和普通人关系没那么大,但是对于专业领域尤其是科研领域的研究者相当有价值,因为你可以让 o1 在某个领域具有超强的推理能力,把你的数据和 o1 的推理能力结合起来。
今天的文稿比较长放不下,我摘录一部分放下面:
Julie: 是的,你们中有些人会熟悉我们去年初推出的监督微调 API。监督微调非常强大。你是让模型复制它在输入文本或图像中发现的特征。如果你想改变模型的语气、风格或响应格式,这是很好的。
现在,通过强化微调,或者我们应该说"驯鹿强化学习"(注:Day 1 的段子)。通过强化微调,它实际上是不同的。你不是仅仅在教模型模仿它的输入,而是在教它以新的方式在自定义领域中进行推理。
John: 当模型看到一个问题时,我们给它空间去思考问题,然后我们评估模型的最终答案。利用强化学习的力量,我们强化那些导致正确答案的思维路径,并抑制那些导致错误答案的思维路径。
Julie: 你会看到,仅仅用几十个例子,模型就能以新的有效方式在自定义领域中推理。
John: 用 12 个例子就能做到这一点,真是太神奇了。这不是常规微调能做到的。
Julie: 是的,确实如此。
John: 科学研究是一个充满令人兴奋 应用的领域。但不要仅仅相信我们的话。这就是为什么今天我们邀请了 Justin Reese。Justin 是劳伦斯伯克利国家实验室的研究员,他的研究领域之一是使用计算方法来理解罕见疾病背后的遗传原因。Justin,非常感谢你的到来。你可以多谈谈你的研究,以及强化学习如何对其有所帮助吗?
Justin: 当然,谢谢,能来这里真的很高兴。我的研究领域之一是罕见遗传病。与其名字相反,罕见遗传病其实并不罕见。单个罕见疾病可能很少见,但合在一起,它们其实相当普遍。因此,我们谈论的是全球有 3 亿人患有罕见疾病。更糟糕的是,这些人通常要经过长达数月甚至数年的诊断过程才能了解自己的病情。
Julie: 这相当于整个美国的人口。
Justin: 是的,这不是一个小数目。所以我们正在研究更好的计算工具和方法,以深入研究关键问题,并帮助我们理解和治疗这些疾病。我们在学术环境中研究罕见疾病及其成因,希望能够在未来改善这些人的医疗保健。评估神经疾病相对较难,因为需要具备两方面的能力。你需要具备医学专业知识以及对生物医学数据的系统推理能力。这是我们认为 o1 模型能够大有帮助的领域,因其出色的推理能力。
John: 没错。我们的各种大语言模型具备领域知识,而 o1 模型非常适合系统推理。因此,现在似乎有了一种很好的计算方法来解决这些问题。
Julie: 没错。能否介绍一下你正在使用的数据集?
Justin: 当然。这是我们团队与德国 Charité 医院、Peter Robinson 的实验室以及 Monarch Initiative 的合作成果。我们从数百份关于罕见疾病的病例报告的科学出版物中提取了疾病信息,并整理了有关患者存在和排除的体征和症状列表。然后当然是他们所患的疾病,更重要的是,在这些人中,哪一个基因发生了突变导致了这些问题。
Julie: 我明白了,所以你和一些医生可能正在做什么呢,给定患者的症状,尝试找出哪个基因可能已经发生突变,导致了这些症状。
Justin: 是的,没错,我们和 Open AI 团队合作,一直在训练旧模型以更有效地推理疾病的原因。
John: 不可思议。谢谢你,Justin。现在我们将展示强化学习微调的工作原理,并且不抢任何人的风头,我们将通过 o1-mini 使其在该任务中超越 o1 的表现。这是我们昨天刚发布的 o1,之所以重要,是因为 o1-mini 是一个更小、更快、更便宜的模型。
Julie: 是的,借助 Justin 的数据集,我们将展示如何大大提升性能。o1-mini 在这个任务上的表现,当给出一份症状清单时,你将尝试预测哪个基因可能导致遗传疾病。
John: 是的。我是说,在大语言模型和大规模机器学习的领域——几十个例子基本上算不了什么。
Julie: 因此,我们的模型定制平台将首次支持强化学习。值得注意的是,我们在 Open AI 内部用于训练前沿模型(如 GPT-4o 和 o1 系列)时使用的也是相同的技术。