转译：科技巨头暗中角逐 AI 训练数据的秘密赛道纽约，4 月 5 日讯（路透社）- 2000 年代初，Photobucket 一度成为全球最受欢迎的图像托管网站。它不仅是当时热门服务 MySpace 和 Friendster 的媒体基础，还拥有 7000 万用户，几乎占据了美国在线照片市场的半壁江山。然而，根据分析工具 Similarweb…

发布时间: 2024-04-06 17:10:12

1分

数据加载中

转译：科技巨头暗中角逐 AI 训练数据的秘密赛道
纽约，4 月 5 日讯（路透社）- 2000 年代初，Photobucket 一度成为全球最受欢迎的图像托管网站。它不仅是当时热门服务 MySpace 和 Friendster 的媒体基础，还拥有 7000 万用户，几乎占据了美国在线照片市场的半壁江山。
然而，根据分析工具 Similarweb…
IT技术
( twitter.com )

转译：科技巨头暗中角逐 AI 训练数据的秘密赛道

纽约，4 月 5 日讯（路透社）- 2000 年代初，Photobucket 一度成为全球最受欢迎的图像托管网站。它不仅是当时热门服务 MySpace 和 Friendster 的媒体基础，还拥有 7000 万用户，几乎占据了美国在线照片市场的半壁江山。

然而，根据分析工具 Similarweb 的数据显示，如今仅有 200 万用户仍在使用 Photobucket。尽管如此，生成式 AI 的浪潮可能为其带来重生的契机。

该公司位于科罗拉多州爱德华兹，仅有 40 名员工，CEO Ted Leonard 向路透社透露，他正与数家科技公司讨论，计划授权使用 Photobucket 的 130 亿张照片和视频，用以训练能够根据文本提示创造新内容的生成式 AI 模型。

他表示，根据买家和所需图像类型的不同，每张照片的授权费用在 5 美分到 1 美元之间，每个视频的费用超过 1 美元。

“有些公司告诉我们他们需要的远不止这些。”Leonard 补充说，其中一家买方甚至表示需要超过 10 亿个视频，这一数量超出了他的平台所能提供的。

“你不禁要问，他们打算从哪里弄来这么多视频？”

出于商业保密的原因，Photobucket 没有公开潜在买家的信息。这场尚未被公开报道的谈判显示，Photobucket 可能掌握着价值数十亿美元的内容，并且揭示了一个在竞争生成式 AI 技术主导地位的狂潮中快速发展的数据市场。

公司预计，其第一季度营业利润将增长超过十倍，达到近 49 亿美元。

科技巨头如谷歌、Meta 和得到微软支持的 OpenAI 最初是通过从互联网上免费搜集大量数据来训练能够模仿人类创造力的生成式 AI 模型，例如 ChatGPT。尽管面临一些版权持有者的诉讼，他们坚称这种做法既合法又符合道德标准。

与此同时，这些科技公司也在默默支付费用，以获取隐藏在付费壁垒和登录界面后的内容，这种做法促生了一个涉及从聊天记录到那些在衰退的社交媒体应用中被遗忘的个人照片等各种内容的隐秘交易市场。

“目前，寻找那些拥有无法通过网络爬虫技术获取的私人收藏内容的版权持有者成了一种趋势，”Klaris Law（一家律师事务所）的 Edward Klaris 表示。他提到，他们正为内容所有者就授权其照片、电影和书籍档案用于 AI 训练的协议提供建议，这些协议每份价值高达数千万美元。

路透社对 30 多位熟悉 AI 数据交易的人进行了采访，包括参与过这些交易的公司的现任及前任高管、律师及咨询师。这是首次对这个新兴市场进行深入探讨，详细介绍了交易涉及的内容类型、形成的价格以及人们越来越担忧的一个问题——个人数据可能在未经本人知情或明确同意的情况下被用于 AI 模型。

OpenAI、Google、Meta、Microsoft、Apple 和 Amazon 均未对本文讨论的具体数据交易发表评论。不过，Microsoft 和 Google 引用了包含数据隐私条款的供应商行为准则。

Google 还指出，如果发现任何供应商违反协议，将立即采取措施，必要时终止合作关系。

许多市场研究公司坦言，他们还未开始估算这个充满保密协议的 AI 数据市场的规模。但是，进行这方面研究的机构，如 Business Research Insights，估计目前市场规模约为 25 亿美元，并预测在未来十年内可能增长至近 300 亿美元。

生成式数据的黄金热潮
随着大型生成式 AI 基础模型的开发商面临着如何说明他们投入系统的海量内容这一挑战，一场关于数据的争夺战就此展开。这个被称为“训练”的过程需求巨大的计算资源，并且通常需要数月才能完成。

科技公司声称，如果不能利用像非盈利仓库 Common Crawl 提供的大量免费网络数据，这项技术的成本将会高得离谱，他们将这些数据视为“公开获取”。

然而，这种做法引起了版权诉讼和监管审查的潮流，同时促使出版商在其网站上添加代码，以防止数据被抓取。

面对这一情况，AI 模型开发者开始通过与内容所有者的交易以及借助新兴的数据经纪人行业来对冲风险和保障数据供应链，后者的出现是为了满足日益增长的需求。

例如，自 ChatGPT 于 2022 年底推出以来，包括 Meta、Google、Amazon 和 Apple 在内的公司都与股票图片供应商 Shutterstock 签约，允许使用其图库中的数亿张图片、视频和音乐文件进行训练，这是根据一位了解内情的人士的说法。

最初，这些与大型科技公司的交易金额从 2500 万美元到 5000 万美元不等，但大多数后来都有所扩大，Shutterstock 的首席财务官 Jarrod Yahes 在接受路透社采访时表示。小型科技公司也开始效仿，近两个月内掀起了一股新的活动热潮。

Yahes 没有透露具体合同的详情。Apple 的协议以及其他几个交易的规模之前都未曾公开。

与 Shutterstock 竞争的 Freepik 告诉路透社，它已与两家大型科技公司签订协议，以每张图片 2 至 4 美分的价格许可其档案库中 2 亿张图片的大部分。CEO Joaquin Cuenca Abela 表示，还有五项类似的交易正在进行中，但他没有透露买家的身份。

OpenAI，Shutterstock 的早期客户之一，已经至少与四家新闻机构签订了内容许可协议，其中包括美联社和 Axel Springer。另一方面，汤森路透（Thomson Reuters），路透社（Reuters News）的母公司，宣布已经达成多项协议，将其新闻内容许可给其他公司，以协助训练大语言模型（LLM/Large Language Model），但对具体细节保持了沉默。

'道德来源'的内容
正出现一个专注于 AI 数据的新兴行业，这些公司不仅获得了播客、短视频和数字助手互动等现实世界内容的使用权，还建立了由临时合同工组成的网络，从零开始定制视觉和语音样本，形成了一种类似于 Uber 的数据零工经济。

位于西雅图的 https://t.co/0kMDoeNibA 公司向谷歌、Meta、苹果、亚马逊和微软等多家公司授权其数据，CEO Daniela Braga 在接受路透社采访时表示。

具体费率根据购买者和内容类型有所不同，但 Braga 表示，企业一般愿意为每张图片支付 1 至 2 美元，每个短视频 2 至 4 美元，而长时间影片每小时费用在 100 至 300 美元之间。文本的市场定价为每词 0.001 美元，她补充说。

Braga 指出，对待最为敏感的裸体图片的价格在 5 至 7 美元之间。

https://t.co/0kMDoeNibA 将这些收益与内容提供者分享。Braga 表示，该公司声称其数据集是“道德来源”，因为它征得了数据中人物的同意并删除了个人识别信息。

该公司的一位供应商是来自巴西的企业家，他表示自己会将所获利润的 20% 至 30% 支付给照片、播客和医疗数据的原始所有者。

他说，其投资组合中最贵的图片是用于训练 AI 系统以屏蔽科技公司禁止内容，如图像暴力的。这位要求匿名的供应商提到，为满足这类需求，他主要从南美和非洲的警察、自由摄影记者和医学生那里获取犯罪现场、冲突暴力和手术的图片，因为在这些地区，分享这类图像较为普遍。

他还说，自从去年 10 月战争开始以来，他已经从加沙和以色列的自由摄影师那里收到了图片。

为了处理这些令人不安的图片，他的公司雇佣了习惯于处理暴力伤害的护士来进行匿名化和标注工作。

“我认为这样做风险很大”
尽管通过授权许可可以解决部分法律与道德上的问题，但许多业内人士认为，利用像 Photobucket 这类旧互联网名录的存档作为最新 AI 模型的数据源，会带来其他问题，尤其是涉及到用户隐私方面的担忧。

有报告显示，AI 系统可能会精确复制其训练数据，例如，它们能够重现 Getty Images 的水印、纽约时报文章的完整段落，以及真实人物的图像（新标签页中打开）。这意味着，个人在很多年前上传的私密照片或心思，可能会在没有任何通知或明确同意的情况下，被用于生成式 AI 的产出中。

Photobucket 的首席执行官 Leonard 表示，他在法律上没有问题，他引用了该公司在十月更新的服务条款，该条款授予公司“无限制的权利”销售任何上传的内容，用于训练 AI 系统。他认为，通过数据授权而非销售广告，是一个可行的选择。

“我们得支付账单，这种做法能让我们继续提供免费账户服务，”他表示。

https://t.co/0kMDoeNibA 的 Braga 表示她避免从像 Photobucket 这样的“平台型”公司获取内容，她更倾向于从那些拥有更明确版权声明的影响力人士那里采集社交媒体照片。

“我认为利用这些平台的内容很有风险，”Braga 说。“如果某个 AI 生成的内容包含了一个未曾授权使用其图片的人的肖像，那将是一个大问题。”

Photobucket 并不是唯一一个采取授权策略的平台。Tumblr 的母公司 Automattic 上月宣布，它开始与一些精选的 AI 公司分享内容。二月份，路透社报道了 Reddit 与 Google 签订了一项协议，使其内容可供后者的 AI 模型训练使用。

在 Reddit 计划于 3 月进行的首次公开募股前夕，公司披露了其数据授权业务正处于联邦贸易委员会 (FTC) 的调查之下，并且公开承认，随着隐私与知识产权法规的不断演变，公司可能面临违规的风险。

FTC 在 2 月对企业使用 AI 时事后更改服务条款的行为发出了警示，表示这种做法可能是不公平或具有欺骗性的，但 FTC 拒绝对 Reddit 的具体调查情况发表评论，也未透露是否正在对其他类似的数据使用协议进行调查。

本文由位于纽约的 Katie Paul 和旧金山的 Anna Tong 联合报道，Krystal Hu 从纽约进行了补充报道，由 Kenneth Li 和 Pravin Char 负责编辑。

来源：https://t.co/ogyAHFMX6H