一份判决书揭秘了Anthropic训练模型细节
五位作家起诉 Anthropic,指控其在训练 Claude 模型过程中使用了数百万本未授权图书(电子书和纸质书)。
2021-2022 Anthropic了下载 Books3(含近 20 万本图书)、LibGen(超 500 万本)、PiLiMi(200 万本)等盗版资源
用于构建“内部研究图书馆” (未直接用于训练全量数据,但内容被用于评估、采样和过滤)。
2024年起:
Anthropic转向合法方式:大规模购买实体书籍并扫描
聘请前 Google 图书项目高管 Tom Turvey,设法规避法律阻力。
从零售商、批发商处以数百万美元购买纸质图书(包括二手书)。
服务商负责拆书、扫描、OCR 建立数字副本,构建高质量文本语料库。
法院判决:
✅ 被裁定为“合理使用”的部分:
扫描纸质图书(合法购买)供内部使用,用于模型训练。
法院认为这种做法具有“转化性”(transformative use),构成合理使用(fair use)。
图书未被向外部公开,模型输出也不是原书复制。
❌ 仍将进入审判的争议部分:
下载使用盗版电子书的行为(如Books3、LibGen、PiLiMi)
法官确认 Anthropic 明知使用盗版数据并长期保留。
虽然后期承诺不再使用,但已造成版权侵害。
有趣的是法院对“合理使用”的核心论点:
法官认为:就像人类“读书→理解→写作”,不能要求每次回忆书中思想都支付版权费用。
“人们阅读、记忆、再创作已有文学结构,从中发展新的思想与写作风格。不能因引用或受启发就处处收费。”
法官强调模型学习与人类阅读记忆之间的相似性,指出模型不是“复制”,而是“吸收与转化”。😂
点击图片查看原图