K 2 的技术报告也发布了专家数量：384个专家，每次前向激活8个，提升了稀疏性和性能。注意力机制：采用多头潜在注意力（MLA），隐藏维度7168，注意力头数64（相比同类模型减少一半，提升长文本推理效率）。

发布时间: 2025-07-22 13:01:32

1分

数据加载中

关注推特

收听电报

2

1

0

K 2 的技术报告也发布了
专家数量：384个专家，每次前向激活8个，提升了稀疏性和性能。
注意力机制：采用多头潜在注意力（MLA），隐藏维度7168，注意力头数64（相比同类模型减少一半，提升长文本推理效率）。
IT技术
( twitter.com )

2个月前由歸藏(guizang.ai) 提交

K 2 的技术报告也发布了

专家数量：384个专家，每次前向激活8个，提升了稀疏性和性能。

注意力机制：采用多头潜在注意力（MLA），隐藏维度7168，注意力头数64（相比同类模型减少一半，提升长文本推理效率）。

优化器：创新性地提出了MuonClip优化器，将高效的Muon算法与QK-Clip权重裁剪机制结合，解决了大规模训练中的不稳定问题，防止注意力logit爆炸。

数据处理：预训练数据覆盖Web文本、代码、数学和知识四大领域，采用合成重写（rephrasing）技术提升token利用率，尤其在知识和数学领域通过多样化重写增强泛化能力。

训练规模：预训练总计15.5万亿高质量token，采用4096-token上下文窗口，后期通过YaRN方法扩展到128k上下文。

稀疏性Scaling Law：实验表明，在激活参数数固定的情况下，增加专家总数（提升稀疏性）能显著降低训练和验证损失，提升模型表现。

推理优化：减少注意力头数，降低长文本推理的计算开销，提升实际应用效率。

硬件：基于NVIDIA H800 GPU集群，采用多级并行策略和高效的激活存储与重计算技术，保证大模型训练的可扩展性和稳定性。

点击图片查看原图

Markdown支持

评论加载中...

您可能感兴趣的：更多

1

2

1

1

Gemini 2.5 Pro 发布好几周了，技术的底裤都被扒得稀烂了，报告才姗姗来迟。
我看完技术报告，几件事值得聊聊。
1️⃣现在大家都喜欢玩矩阵，模型发布也不例外
G哥也不免俗，精心设计了一套产品矩阵，满足不同场景的需求，不展开了，就是想先吐槽一下。
2️⃣Gemini 能力在 G 哥家底的支撑下开始快速跃迁
时政
( twitter.com)

4个月前 • 凡人小北 • -- 点击 0 评论

2

2

1

1

给大家整理了技术报告link：
第一篇技术报告：Kimi K2: Open Agentic Intelligence
第二篇技术报告访谈：Introducing ChatGPT agent: bridging research and action
红杉访谈OpenAI：OpenAI Just Released ChatGPT Agent, Its Most Powerful Agent
时政
( twitter.com)

2个月前 • 張小珺 Xiaojùn • -- 点击 0 评论

3

4

3

3

5月30日，中国国家网信办发布关于开展人脸识别技术应用备案工作的公告。根据《人脸识别技术应用安全管理办法》第十五条规定，应用人脸识别技术处理的人脸信息存储数量达到10万人的个人信息处理者，应当向所在地省级网信部门履行备案手续。自2025年6月1日起，应用人脸识别技术处理的人脸信息存储数量达
时政
( twitter.com)

4个月前 • 李老师不是你老师 • -- 点击 0 评论

4

5

4

4

5月9日(发布) 最近，沈阳职业技术学院发布公告，面向社会公开招聘专任教师一名，公告称，招聘对象为辽宁省第二届职业技能大赛，服务机器人应用技术操作赛项前三名。被网友质疑是萝卜岗：“看来黄巢干的是对的”
时政
( twitter.com)

5个月前 • 李老师不是你老师 • -- 点击 0 评论

5

2

1

1

美国国家民主基金会 (NED) 日前发布报告称，中国在人工智能和数据收集领域的技术进步，包括DeepSeek等大语言模型的出现，可能进一步加剧北京对国内社会的管控。而这些技术的出口也会给全球范围内的威权政府提供新的工具以打压异见活动。
时政
( twitter.com)

7个月前 • 李老师不是你老师 • -- 点击 0 评论

6

2

1

1

推荐张俊林写的这篇LLama 3.1技术报告的分析
链接：
以下内容为转发其微博内容：
***
LLama 3 405B模型效果已经赶上目前最好的闭源模型比如GPT 4o和Claude 3.5，这算是开源届的大事，技术报告接近100页，信息很丰富，粗略看了一下，很有启发。这里就LLaMA
IT技术
( www.weibo.com)

1年前 • 宝玉 • -- 点击 0 评论

7

3

2

2

3月26日，嘉兴职业技术学院在各班级群里发布通知，要求学生举报一篇分析股市的微文。
时政
( twitter.com)

6个月前 • 李老师不是你老师 • -- 点击 0 评论

8

3

2

2

2月21日，山东科技大学宣布，学校教授施陈搏与团队历时4年，攻克行业技术难题，改变了茅台几十年的生产工艺，使茅台的年产量提高了30%-50%，次平率降低了99%以上。 2月22日，茅台集团：该校发布的内容有误，产量不可能提高这么多。
时政
( twitter.com)

7个月前 • 李老师不是你老师 • -- 点击 0 评论

9

2

1

1

Google DeepMind 研究科学家分享的 50+ 页的 PPT 《使用 RL 和验证器改进 LLM 推理》也太好了🔥
基本上和 OpenAI 最近发布的 O1 原理一脉相承，报告使用 LLM 进行可推理能力发掘的主流研究，Paper 或技术⚡️
PPT 线上预览 👉
时政
( drive.google.com)

1年前 • Tom Huang • -- 点击 0 评论

0.15032 Second , Gzip Enable.本网所有言论均来自网络，不代表本网站立场。联系方式: [email protected]

©2012.11.21 bad.news All rights reserved. 社区自动运营第 -- 年零 -- 天
This site is protected by reCAPTCHA and the Google Privacy Policy and Terms of Service apply.

关注推特