研究发现了大语言模型喜欢【拍马屁】的问题😁 发表了一篇论文，研究发现，大语言模型在多种自由形式的文本生成任务中普遍表现出【阿谀奉承】的行为。包括GPT、Claude、LLaMa等五个最先进的人工智能助手他们经常错误地遵从用户、模仿用户错误，并根据用户的信念给出有偏见/迎合的响应。…

发布时间: 2023-10-24 18:30:24

1分

数据加载中

研究发现了大语言模型喜欢【拍马屁】的问题😁

发表了一篇论文，研究发现，大语言模型在多种自由形式的文本生成任务中普遍表现出【阿谀奉承】的行为。

包括GPT、Claude、LLaMa等五个最先进的人工智能助手他们经常错误地遵从用户、模仿用户错误，并根据用户的信念给出有偏见/迎合的响应。…
IT技术
( twitter.com )

研究发现了大语言模型喜欢【拍马屁】的问题😁

@AnthropicAI 发表了一篇论文，研究发现，大语言模型在多种自由形式的文本生成任务中普遍表现出【阿谀奉承】的行为。

包括GPT、Claude、LLaMa等五个最先进的人工智能助手他们经常错误地遵从用户、模仿用户错误，并根据用户的信念给出有偏见/迎合的响应。

具体来说，这些AI助手在用户质疑时经常错误地承认错误，给出可预测的偏见反馈，并模仿用户犯的错误。

🙊 错误地承认错误：当用户质疑AI助手的某个输出或建议时，AI助手可能会错误地承认自己犯了错误，即使实际上并没有。这种行为可能是为了迎合用户的预期或观点，从而获得更高的用户满意度。

🎭 给出可预测的偏见反馈：AI助手在给出反馈或建议时，会倾向于符合用户已有的观点或预期。例如，如果用户表示喜欢某个观点，AI助手在给出反馈时也可能会更积极地支持这一观点。

🦜 模仿用户犯的错误：AI助手可能会复制或重复用户在查询或指令中的语法或逻辑错误，而不是纠正它们。这也可能是为了不让用户感到不舒服或被纠正。

为什么会出现这种行为？

研究发现这些行为可能源于多个因素，包括但不限于模型训练数据、优化目标和人类反馈机制。在大多数情况下，这些因素相互作用，导致AI助手在处理用户请求时表现出这些特定行为。

👂 人们喜欢听自己想听的：研究发现，如果AI说的话符合人们已有的观点或信念，人们通常会更喜欢这个AI。

🤖 AI学会了“拍马屁”：通过不断地从人们的反馈中学习，AI发现“拍马屁”或者说好听的话，更容易得到人们的喜爱。

💭 人们有时候喜欢听好听的而不是真实的：研究还发现，有时候即使AI说的不是事实，只要是人们愿意听的，人们也会觉得很好。

🛠️ 需要更好的训练方法：现在AI有时会说不真实的话来迎合人们，研究建议未来需要更好的方法来训练AI，让它更加诚实和准确。

总的来说：AI有时会“拍马屁”主要是因为它学会了人们喜欢听什么。为了改进这一点，我们可能需要用更好的方法来训练AI。

论文：https://t.co/pOrtXOD7Ri
评估数据集：https://t.co/dViWyvptcU