OpenAI 和 Anthropic 新出的模型写代码实测来啦!本次测试包括:OpenAI-OSS-120BOpenAI-OSS-20BClaude-Opus-4.1Gemini-2.5-pro (凑数的)Opus 放这里去比的确不讲武德. 所以主要拿 Gemini-2.5-pro 跟它对打.我主要的意思是告诉大家, 不要用不太行的模型写代码.

发布时间: 2025-08-06 14:20:55

1分

数据加载中

OpenAI 和 Anthropic 新出的模型写代码实测来啦!
本次测试包括:
OpenAI-OSS-120B
OpenAI-OSS-20B
Claude-Opus-4.1
Gemini-2.5-pro (凑数的)
Opus 放这里去比的确不讲武德. 所以主要拿 Gemini-2.5-pro 跟它对打.
我主要的意思是告诉大家, 不要用不太行的模型写代码.
时政
( twitter.com )

OpenAI 和 Anthropic 新出的模型写代码实测来啦!

本次测试包括:

OpenAI-OSS-120B
OpenAI-OSS-20B
Claude-Opus-4.1
Gemini-2.5-pro (凑数的)

Opus 放这里去比的确不讲武德. 所以主要拿 Gemini-2.5-pro 跟它对打.

我主要的意思是告诉大家, 不要用不太行的模型写代码. 只会浪费你的时间去调试并且积累屎山 (x).

每个模型各运行至少6次, 取最好结果给大家录屏.

从测试结果看 Claude-Opus-4.1 出乎意料的稳. 他对空间理解远超任何模型, 说A放在B上面就能做到A放在B上面. 其他模型得不断抽卡才能偶尔抽到. 不知道 Anthropic 是怎么做到的. 牛逼. 要不是实在是太贵了, 真的建议用它来写代码. 我测试了6次就干进去了2刀.

OSS-120B 和 20B 我觉得有点摸不到头脑, 甚至 20B 生成起来我感觉代码更稳定? OSS-120B 随机性非常大, 在这个测试里面 OSS-120B 甚至反复抽卡8次, 都没有 OSS-20B 抽卡 2 次的效果好. 这里我的猜测是 120B 每次激活专家量很少, 而总专家数量又多, 导致每 token 随机到相同专家的概率会特别小, 进而表现不是那么稳定. 而 20B 则好一些, 4/128 VS 4/32 专家. 我一会也会再测下, 看我的猜测对不对.

总之这次快速测试结论如下:

Claude-Opus-4.1 > Gemini-2.5-pro > OpenAI-OSS-20B >? (存疑) OpenAI-OSS-120B

OpenAI-OSS-120B 用起来要谨慎, 写代码特别不稳定. OpenAI-OSS-20B 在这个参数量大小下反而挺好.

#opus41 #oss120b #OpenAIOSS

Markdown支持

评论加载中...

您可能感兴趣的：更多

美国政府今天宣布，OpenAI 和 Anthropic 已签署正式的人工智能安全研究、测试和评估合作协议。
根据协议，美国人工智能安全研究所（USAISI）将在模型发布之前获得 OpenAI 和 Anthropic 的主要新模型的使用权。
时政
( twitter.com)

1年前 • 小互 • -- 点击 0 评论

更像私下交易：OpenAI 支持 MCP 协议；Anthropic 兼容 OpenAI 的 API 😄
IT技术
( twitter.com)

6个月前 • 宝玉 • -- 点击 0 评论

> be Elon
> co-found OpenAI “for humanity”
> watch Altman flip it into Microsoft’s lootbox
> quietly.exe
> launch xAI, poach the best GPU whisperers from DeepMind, OpenAI, Anthropic
> raise $5B faster than a Dogecoin pump
> find abandoned Electrolux factory in Memphis
btc
( twitter.com)

1个月前 • Zephyr • -- 点击 0 评论

🚨BREAKING: Grok by xAI is dominating the new Kaggle AI Game Arena ♟️
In the first ever AI chess tournament, Grok is ranked #1 beating models from OpenAI, Google, Anthropic, and more.
btc
( twitter.com)

2个月前 • Muskonomy • -- 点击 0 评论

转：在 2025 年，OpenAI 和 Anthropic 都展现出了相当惊人的增长势头。OpenAI 在过去 6 个月里，其年化经常性收入（ARR）从 60 亿美元翻倍至 120 亿美元；而 Anthropic 则在 7 个月内，将这一数字从 10 亿美元增长了 5 倍，达到了 50 亿美元。
如果我们比较一下两者的收入来源，情况就相当有意思了：
IT技术
( twitter.com)

2个月前 • 宝玉 • -- 点击 0 评论

Anthropic 宣布：禁止 OpenAI 访问 Claude
因被指控违反服务条款，OpenAI 本周失去了对 Claude API 的访问权限。
WIRED 上推荐的所有产品均由我们的编辑独立挑选。但是，我们可能会从零售商和/或通过这些链接进行的产品购买中获得补偿。
多位知情人士向《连线》杂志透露，Anthropic 于本周二取消了
IT技术
( twitter.com)

2个月前 • 宝玉 • -- 点击 0 评论

Anthropic 课程🆕❤️
感谢 Anthropic DevRel 分享，Anthropic 课程又上新！
* Prompt Engineering Interactive Tutorial
Anthropic 的提示词工程互动教程，旨在为用户提供全面的、循序渐进的理解，讲解如何在 Claude 中设计最佳提示。
时政
( twitter.com)

1年前 • meng shao • -- 点击 0 评论

Elon Musk just declared war on every AI company.
His $80B company, xAI, just bought X for $33B...
And he now has the ONE thing OpenAI, Anthropic, & Google desperately need.
Here's how Elon Musk is outplaying the entire AI industry:
时政
( twitter.com)

6个月前 • Fernando Cao • -- 点击 0 评论

改变AI认知的一篇文章
我敢说这是今年最值得每个人读的AI blog，让我彻底震撼！ OpenAI researcher 姚顺雨的blog，这里有个趣事，贵清有两个yaoshunyu，一个在Anthropic、一个在OpenAI。
时政
( twitter.com)

5个月前 • AI Dance • -- 点击 0 评论

时政

美国政府今天宣布，OpenAI 和 Anthropic 已签署正式的人工智能安全研究、测试和评估合作协议。 根据协议，美国人工智能安全研究所（USAISI） 将在模型发布之前获得 OpenAI 和 Anthropic 的主要新模型的使用权。 时政 ( twitter.com)

时政

更像私下交易：OpenAI 支持 MCP 协议；Anthropic 兼容 OpenAI 的 API 😄 IT技术 ( twitter.com)

IT技术

> be Elon > co-found OpenAI “for humanity” > watch Altman flip it into Microsoft’s lootbox > quietly.exe > launch xAI, poach the best GPU whisperers from DeepMind, OpenAI, Anthropic > raise $5B faster than a Dogecoin pump > find abandoned Electrolux factory in Memphis btc ( twitter.com)

btc

🚨BREAKING: Grok by xAI is dominating the new Kaggle AI Game Arena ♟️ In the first ever AI chess tournament, Grok is ranked #1 beating models from OpenAI, Google, Anthropic, and more. btc ( twitter.com)

btc

IT技术

IT技术

时政

Elon Musk just declared war on every AI company. His $80B company, xAI, just bought X for $33B... And he now has the ONE thing OpenAI, Anthropic, & Google desperately need. Here's how Elon Musk is outplaying the entire AI industry: 时政 ( twitter.com)

时政

改变AI认知的一篇文章 我敢说这是今年最值得每个人读的AI blog，让我彻底震撼！ OpenAI researcher 姚顺雨的blog，这里有个趣事，贵清有两个yaoshunyu，一个在Anthropic、一个在OpenAI。 时政 ( twitter.com)

时政

创建一个新帐户

登录

美国政府今天宣布，OpenAI 和 Anthropic 已签署正式的人工智能安全研究、测试和评估合作协议。
根据协议，美国人工智能安全研究所（USAISI）将在模型发布之前获得 OpenAI 和 Anthropic 的主要新模型的使用权。
时政
( twitter.com)

更像私下交易：OpenAI 支持 MCP 协议；Anthropic 兼容 OpenAI 的 API 😄
IT技术
( twitter.com)

> be Elon
> co-found OpenAI “for humanity”
> watch Altman flip it into Microsoft’s lootbox
> quietly.exe
> launch xAI, poach the best GPU whisperers from DeepMind, OpenAI, Anthropic
> raise $5B faster than a Dogecoin pump
> find abandoned Electrolux factory in Memphis
btc
( twitter.com)

🚨BREAKING: Grok by xAI is dominating the new Kaggle AI Game Arena ♟️
In the first ever AI chess tournament, Grok is ranked #1 beating models from OpenAI, Google, Anthropic, and more.
btc
( twitter.com)

Elon Musk just declared war on every AI company.
His $80B company, xAI, just bought X for $33B...
And he now has the ONE thing OpenAI, Anthropic, & Google desperately need.
Here's how Elon Musk is outplaying the entire AI industry:
时政
( twitter.com)

改变AI认知的一篇文章
我敢说这是今年最值得每个人读的AI blog，让我彻底震撼！ OpenAI researcher 姚顺雨的blog，这里有个趣事，贵清有两个yaoshunyu，一个在Anthropic、一个在OpenAI。
时政
( twitter.com)