使用下面的搜索规则,更精确:
例如: site:news.163.com author:老司机 saved:搜索自己收藏的内容
site:news.163.com author:老司机 saved:搜索自己收藏的内容
默认搜索标题...
来自 Jason Wei 的感慨:他在强化学习(RL)领域的认知发生了180度大转变,2022年之前完全没接触过强化学习研究,也不认为强化学习对AGI(通用人工智能)很重要,现在强化学习已经深入影响了他的日常工作和思维方式,每天想着如何为RL优化代码,如何为RL设计数据,甚至用 RL 的视角看待生活。 结合周五 OpenAI 周五推出的针对推理模型的强化微调,可以看出 o1 推理模型的背后离不开强化学习,未来大模型的发展方向也会深度结合强化学习。
只需要几秒!
创建帐户
已拥有账号并想要登录?
登陆 忘记密码?