语言学家 An Qu 只利用数千个翻译数据,成功使用Claude3 实现了对一种非常小众语言(车臣语)的理解和翻译,而此前专业学者需要花费两年时间方可完成该项工作。相比之下,他在GPT-4上进行了相似的测试,却并未成功。
原作者后来发了个更新,发现自己弄错了Claude 3并不是完全不懂车臣语,所以不是纯粹通过样本学会的。
---以下是原推---
今天在测试 @AnthropicAI 的新模型Claude 3 Opus时,我见证了一些令人惊讶的事情,它真的感觉像个奇迹。不想听起来像标题党,但这就是我的感受。
重要的背景是:我过去两年一直在研究我的母语——车臣语的自然语言处理。车臣语是非常低资源的语言,几乎没有互联网存在。它是车臣-阿布哈兹孤立语言组的一部分,这意味着它没有相关的语言。由于其复杂的形态和有限的数据,车臣语是语言模型面临的一个严重挑战。
在这些年里,我费尽心思地从稀缺资源中筛选出了64K个翻译对,并训练了专门的模型(如T5、MLM-100、NLLB-200等),以实现相当不错的俄罗斯-卡巴尔达语机器翻译。
我决定用Claude Opus做一个实验。我开始了一个新聊天,并附加了随机选择的近6千个单词/句子的翻译对——这只是我的64K数据集的一部分,甚至没有覆盖完整的词汇量。我想看看它是否能根据这些示例翻译出新句子。
我并不指望会有什么成果,所以我只是让它翻译一个简单的句子——从俄语翻译到车臣语的“我躺在床上”。Claude不仅提供了完美的翻译,还拆分了语法和形态。
我以为它只是走了运,这个句子一定在示例中出现过。但这不是事实。
我尝试想出一个原创的非常不寻常的句子,不可能在数据中出现。然而,又是一个完美的翻译和分析。有了很少量的数据,Claude就接近了我专门针对机器翻译训练的专业模型的表现。我简直无法相信自己的眼睛。
我进一步测试了来自文学、最新新闻文章甚至是不同车臣方言(语法和书写系统明显不同)的复杂段落,Claude始终表现出对语言结构的深入掌握,智能推断未知单词,恰当地使用外来词,给出合理的词源分析,保持原文翻译的风格,甚至在需要时创造新术语。这些都不在样本集中,只有几千个翻译对。车臣语是一种非常困难的语言,具有复杂的形态和语法。
完成这些任务需要对语言有深入的理解,同样的输入,一个对该语言不熟悉的语言学家要花上一年或更长时间才能实现。而Opus仅用不到一分钟就能轻松掌握这些微妙之处,只需几千个随机的翻译对。
为了比较,我在GPT-4上进行了相同的测试,但它完全失败了。甚至连最简单的句子都不愿意翻译,更别说掌握语法上的复杂性了。我之前还尝试过在类似的数据集上微调GPT-3.5,但结果不好。
我不知道Anthropic在这个模型上做了什么,但它与其他任何模型完全不同。很多人对它在合成基准方面的领先地位持怀疑态度,但我所目睹的是在一个新的、非常具有挑战性的基准测试上取得了惊人的成果,而这个基准测试在训练数据集中有0%的机会。
为了测试可能的污染情况,我尝试了相同的提示,没有附加样本翻译,但是Claude失败了并拒绝回答,说它不熟悉车臣语。
这意味着什么?Claude仅用几千个示例,就完成了我两年的专业工作。对于资源不足的小语种等许多其他领域来说,这是一个飞跃。
我原本预计的在未来很多年才会发生的事情,今天已经发生了。未来已经到来。