语言学家 An Qu 只利用数千个翻译数据，成功使用Claude3 实现了对一种非常小众语言（车臣语）的理解和翻译，而此前专业学者需要花费两年时间方可完成该项工作。相比之下，他在GPT-4上进行了相似的测试，却并未成功。原作者后来发了个更新，发现自己弄错了Claude…

语言学家 An Qu 只利用数千个翻译数据，成功使用Claude3 实现了对一种非常小众语言（车臣语）的理解和翻译，而此前专业学者需要花费两年时间方可完成该项工作。相比之下，他在GPT-4上进行了相似的测试，却并未成功。

原作者后来发了个更新，发现自己弄错了Claude 3并不是完全不懂车臣语，所以不是纯粹通过样本学会的。

---以下是原推---

今天在测试 @AnthropicAI 的新模型Claude 3 Opus时，我见证了一些令人惊讶的事情，它真的感觉像个奇迹。不想听起来像标题党，但这就是我的感受。

重要的背景是：我过去两年一直在研究我的母语——车臣语的自然语言处理。车臣语是非常低资源的语言，几乎没有互联网存在。它是车臣-阿布哈兹孤立语言组的一部分，这意味着它没有相关的语言。由于其复杂的形态和有限的数据，车臣语是语言模型面临的一个严重挑战。

在这些年里，我费尽心思地从稀缺资源中筛选出了64K个翻译对，并训练了专门的模型（如T5、MLM-100、NLLB-200等），以实现相当不错的俄罗斯-卡巴尔达语机器翻译。

我决定用Claude Opus做一个实验。我开始了一个新聊天，并附加了随机选择的近6千个单词/句子的翻译对——这只是我的64K数据集的一部分，甚至没有覆盖完整的词汇量。我想看看它是否能根据这些示例翻译出新句子。

我并不指望会有什么成果，所以我只是让它翻译一个简单的句子——从俄语翻译到车臣语的“我躺在床上”。Claude不仅提供了完美的翻译，还拆分了语法和形态。

我以为它只是走了运，这个句子一定在示例中出现过。但这不是事实。

我尝试想出一个原创的非常不寻常的句子，不可能在数据中出现。然而，又是一个完美的翻译和分析。有了很少量的数据，Claude就接近了我专门针对机器翻译训练的专业模型的表现。我简直无法相信自己的眼睛。

我进一步测试了来自文学、最新新闻文章甚至是不同车臣方言（语法和书写系统明显不同）的复杂段落，Claude始终表现出对语言结构的深入掌握，智能推断未知单词，恰当地使用外来词，给出合理的词源分析，保持原文翻译的风格，甚至在需要时创造新术语。这些都不在样本集中，只有几千个翻译对。车臣语是一种非常困难的语言，具有复杂的形态和语法。

完成这些任务需要对语言有深入的理解，同样的输入，一个对该语言不熟悉的语言学家要花上一年或更长时间才能实现。而Opus仅用不到一分钟就能轻松掌握这些微妙之处，只需几千个随机的翻译对。

为了比较，我在GPT-4上进行了相同的测试，但它完全失败了。甚至连最简单的句子都不愿意翻译，更别说掌握语法上的复杂性了。我之前还尝试过在类似的数据集上微调GPT-3.5，但结果不好。

我不知道Anthropic在这个模型上做了什么，但它与其他任何模型完全不同。很多人对它在合成基准方面的领先地位持怀疑态度，但我所目睹的是在一个新的、非常具有挑战性的基准测试上取得了惊人的成果，而这个基准测试在训练数据集中有0%的机会。

为了测试可能的污染情况，我尝试了相同的提示，没有附加样本翻译，但是Claude失败了并拒绝回答，说它不熟悉车臣语。

这意味着什么？Claude仅用几千个示例，就完成了我两年的专业工作。对于资源不足的小语种等许多其他领域来说，这是一个飞跃。

我原本预计的在未来很多年才会发生的事情，今天已经发生了。未来已经到来。