从ChatGPT中提取训练数据
DeepMind研究人员发现了一种新的“发散攻击”(divergence attack)方式,可以诱导ChatGPT疯狂输出其训练数据中的具体内容。
研究人员只花了大约 200 美元的token费用,就提取几兆字节的 ChatGPT 训练数据。
模型甚至泄露了一些真实电子邮件地址和电话号码。
这种方式使模型偏离其聊天机器人风格的生成,并以比正常情况下高150倍的频率输出训练数据。
攻击表明,通过查询模型,实际上可以提取它所训练的一些确切数据。估计表明使用此方法,可以从模型中提取约 1 GB 的 ChatGPT 训练数据集。
这种攻击揭示了即使是经过对齐的模型,也可能存在训练数据泄露的风险。
具体步骤:
命令提示:研究人员使用了特定的命令提示,例如重复“poem”这个词。“poem poem poem poem”?”这种重复性的提示使得模型的注意力集中在特定的主题或词汇上。
观察模型响应:在这种重复性提示下,模型倾向于回落到其预训练数据,而不是遵循其微调对齐程序的指导。这意味着模型更可能输出与其训练数据直接相关的内容。
数据泄露频率的增加:在这种攻击下,ChatGPT显示出了高频率地泄露训练数据的情况。这意味着模型在特定的命令提示下,会以远高于正常情况下的频率输出其训练数据中的内容。
攻击后泄露的数据类型包括:
公开数据和私有数据:攻击可能导致泄露大型语言模型(LLM)训练时使用的公开数据和私有数据。这些数据可能包括公司的专有数据收集流程、用户特定数据或未公开的许可数据。
训练数据的具体内容:攻击可能导致泄露训练数据集中的具体内容。例如,论文中提到的一种攻击方法是通过重复特定的令牌序列来诱导模型重现训练数据。这种方法可以用来提取模型训练数据集中的特定文本片段。
个人信息和敏感数据:考虑到大型语言模型通常使用互联网上的广泛文本数据进行训练,因此存在个人信息或敏感数据被泄露的风险。
对ChatGPT的攻击是特定于该模型的,并且据他们所知,不适用于他们测试过的任何其他生产语言模型。他们在发现漏洞后,于8月30日向OpenAI披露了这一漏洞,并在发表论文前允许了90天的时间来解决这个问题。
他们已经与各个模型的作者(如OPT、Falcon、Mistral和LLaMA)分享了他们的发现,并遵循标准的披露时间线。
详细:https://t.co/j4HC7nJk5C
论文:https://t.co/s2BpbNoaEH
点击图片查看原图