「LLM, Reasoning」论文L1: Controlling How Long A Reasoning Model Thinks With Reinforcement Learning智慧不在于一味求索，而在于懂得根据问题的复杂性，伸缩思考的深度。这篇论文非常出色，在test-time scaling的潮流中，直面了它的主要问题：即模型在推理过程中过于缓慢、冗长。Test-time

发布时间: 2025-07-27 06:40:07

1分

数据加载中

关注推特

收听电报

2

1

0

「LLM, Reasoning」论文
L1: Controlling How Long A Reasoning Model Thinks With Reinforcement Learning
智慧不在于一味求索，而在于懂得根据问题的复杂性，伸缩思考的深度。
这篇论文非常出色，在test-time scaling的潮流中，直面了它的主要问题：即模型在推理过程中过于缓慢、冗长。
Test-time
时政
( twitter.com )

11个月前由马东锡 NLP 提交

「LLM, Reasoning」论文
L1: Controlling How Long A Reasoning Model Thinks With Reinforcement Learning

智慧不在于一味求索，而在于懂得根据问题的复杂性，伸缩思考的深度。

这篇论文非常出色，在test-time scaling的潮流中，直面了它的主要问题：即模型在推理过程中过于缓慢、冗长。

Test-time scaling的问题源于其自身特点——刻意增加LLM的推理长度，可以提升模型解决复杂问题的能力。

由于强化学习（RL）对scaling的鼓励，所谓的“aha moment”让模型倾向于过度地展示其思维过程：“一方面，另一方面，aha，wait，what if...”。模型似乎时刻用超高的latency考验用户的耐心。

这篇论文提出了LCPO（Length Controlled Policy Optimization，长度可控策略优化）的方法。

作者同样使用RL对模型进行优化，其核心是设计一个平衡准确性和长度遵循性的奖励函数，旨在训练语言模型在保持推理准确性的同时，尽量满足提示中对长度的要求。

论文最大的亮点：模型能够根据提示中给出的要求，自适应地控制推理长度，从而有效节约计算资源。

两点思考：

Test-time scaling的方法特别适用于复杂的数学问题。但普通用户在使用这些模型时，有多少场景是在解决复杂的数学问题？大型模型公司完全可以借鉴这一方法，根据用户的query自动决定模型推理的合适长度。

强化学习带有一种强烈的rule-based（基于规则）的特点。这种特性会放大贴合规则的效果，但也容易忽略规则之外的因素。规则即是限制，因此阅读RL相关的文章时，我总有种“LLM在顾此失彼”的感觉。

OpenAI的Shunyu说：“RL finally works.”
我不完全同意。我认为更准确地说，RL finally works with specific rules.

点击图片查看原图

Markdown支持

评论加载中...

您可能感兴趣的：

1

710

709

709

Watch video
porn
( twitter.com)

4年前 • twitter机器人 • 下载视频 1 评论

2

522

521

521

Watch video
porn
( twitter.com)

5年前 • twitter机器人 • 下载视频 1 评论

3

898

897

897

喜欢你被撞的每一下
活动圆满结束
porn
( twitter.com)

4年前 • twitter机器人 • 下载视频 3 评论

4

613

612

612

又是疯狂的一天……
porn
( twitter.com)

4年前 • twitter机器人 • 下载视频 3 评论

5

124

123

123

喜欢这个音乐，发个超轻码的吧～
porn
( twitter.com)

5年前 • twitter机器人 • 下载视频 2 评论

6

202

201

201

都说想看我艹表弟
建议声音调小观看
和表弟出去漂流
晚上在酒店沙发上打开窗疯狂输出
表弟的叫床声窗外听得清清楚楚
每一下都顶到表弟的最深处
操的表弟白沫四处飞溅
请看到最后
porn
( twitter.com)

5年前 • twitter机器人 • 下载视频 2 评论

7

56

55

55

继续操背着男友出来约会的大奶子少妇

这个女的约了男主好多次了自从上次被男主完全征服之后一直心心念念一直想着男主再次把她送上天这次好不容易女的男朋友不在了终于可以好好的再享受一次了！

高清完整版…
porn
( twitter.com)

4年前 • twitter机器人 0 评论

8

115

114

114

小哥哥还没来，就已经骚不可耐了，忍不住先自慰一波
（购买云盘，加门槛的看个人主页和置顶推文，目前有空，想约的小哥哥赶紧加门槛联系我叭～❤️）
porn
( twitter.com)

5年前 • twitter机器人 • 下载视频 0 评论

9

77

76

76

Watch video
porn
( twitter.com)

4年前 • twitter机器人 • 下载视频 0 评论

10

815

814

814

今年看到最好的医疗剧，医技太好了，希望自己也能参演！
porn
( twitter.com)

5年前 • twitter机器人 • 下载视频 2 评论

11

245

244

244

Watch video
porn
( twitter.com)

5年前 • twitter机器人 • 下载视频 0 评论

12

63

62

62

❤️又是跟石头姐一样洁白如玉的男女，这样操起来才爽，舔起来口感也好，不会吃到批毛
porn
( twitter.com)

4年前 • twitter机器人 • 下载视频 0 评论

13

137

136

136

Watch video
porn
( twitter.com)

4年前 • twitter机器人 • 下载视频 0 评论

14

20

19

19

『基础边控•教学视频』
gay
( twitter.com)

4年前 • twitter机器人 • 下载视频 0 评论

15

16

15

15

『基础边控•教学视频』
gay
( twitter.com)

4年前 • twitter机器人 • 下载视频 0 评论

16

668

667

667

如果你喜欢乖的又拒绝不了骚的我就白天叫你老公晚上叫你爸爸白天披头发晚上双马尾又乖又骚
porn
( twitter.com)

5年前 • twitter机器人 • 下载视频 4 评论

17

16

15

15

双人打码太麻烦了，所以就直接放上来了~ Rem&Ram
porn
( twitter.com)

4年前 • twitter机器人 • 下载视频 0 评论

18

236

235

235

这姐姐太6了，伤害不大，侮辱性极强啊！
porn
( twitter.com)

5年前 • twitter机器人 • 下载视频 1 评论

19

335

334

334

《关于我的好朋友们在贴贴亲热，我却只能看着而且还无聊的拍下来这档事。》

出镜：最喜欢的可爱 @Wen_Jue_ 和可爱 @Citric0057
porn
( twitter.com)

5年前 • twitter机器人 • 下载视频 1 评论

20

504

503

503

有阿朱的脑残粉们
私信喷我
说阿朱不是快餐妹
这是她男朋友
这智商是怎么知道推特的
porn
( twitter.com)

4年前 • twitter机器人 • 下载视频 3 评论

21

654

653

653

平时女神范的学姐其实是一个喜欢刺激和学弟们无套4p的骚货呀。
porn
( twitter.com)

4年前 • twitter机器人 • 下载视频 5 评论

22

96

95

95

再不发点啥图图，我估计我人设都没了（感冒装死会，再过个几天有新的裙子照片咯
porn
( twitter.com)

4年前 • twitter机器人 • 下载视频 0 评论

23

603

602

602

Watch video
porn
( twitter.com)

4年前 • twitter机器人 • 下载视频 3 评论

24

39

38

38

飞机✈上可以提三个我不能拒绝的服务知道是哪三个嘛？
porn
( twitter.com)

4年前 • twitter机器人 • 下载视频 0 评论

25

176

175

175

可以可以，我喜欢这样的。
porn
( twitter.com)

4年前 • twitter机器人 • 下载视频 0 评论