site stats
「LLM x RL」DeepSeek 最新论文:Inference-Time Scaling for Generalist Reward Modeling在 RL 中,Reward Modeling(RM)是一个非常重要的部分。RM 主要用于对 LLM 的生成结果进行打分,从而调整 LLM 的 policy,使其更符合 RM 设定的要求,比如更强的 reasoning 能力。
发布时间:
1
数据加载中
Markdown支持
评论加载中...
您可能感兴趣的: 更多