site stats
OpenAI 联合创始人、研究科学家 John Schulman 认为,RLHF 才是 ChatGPT 的秘密武器(secret sauce)。训练数据的体量固然重要,但是让 ChatGPT 更容易推断出用户的意图,产生质变的根本原因是已在 InstructGPT(ChatGPT 前身)使用的 “人类反馈的强化学习(RLHF)” 技术。Google…
发布时间:
2
数据加载中
Markdown支持
评论加载中...
您可能感兴趣的: 更多