OpenAI 和 Anthropic 新出的模型写代码实测来啦!
本次测试包括:
OpenAI-OSS-120B
OpenAI-OSS-20B
Claude-Opus-4.1
Gemini-2.5-pro (凑数的)
Opus 放这里去比的确不讲武德. 所以主要拿 Gemini-2.5-pro 跟它对打.
我主要的意思是告诉大家, 不要用不太行的模型写代码. 只会浪费你的时间去调试并且积累屎山 (x).
每个模型各运行至少6次, 取最好结果给大家录屏.
从测试结果看 Claude-Opus-4.1 出乎意料的稳. 他对空间理解远超任何模型, 说A放在B上面就能做到A放在B上面. 其他模型得不断抽卡才能偶尔抽到. 不知道 Anthropic 是怎么做到的. 牛逼. 要不是实在是太贵了, 真的建议用它来写代码. 我测试了6次就干进去了2刀.
OSS-120B 和 20B 我觉得有点摸不到头脑, 甚至 20B 生成起来我感觉代码更稳定? OSS-120B 随机性非常大, 在这个测试里面 OSS-120B 甚至反复抽卡8次, 都没有 OSS-20B 抽卡 2 次的效果好. 这里我的猜测是 120B 每次激活专家量很少, 而总专家数量又多, 导致每 token 随机到相同专家的概率会特别小, 进而表现不是那么稳定. 而 20B 则好一些, 4/128 VS 4/32 专家. 我一会也会再测下, 看我的猜测对不对.
总之这次快速测试结论如下:
Claude-Opus-4.1 > Gemini-2.5-pro > OpenAI-OSS-20B >? (存疑) OpenAI-OSS-120B
OpenAI-OSS-120B 用起来要谨慎, 写代码特别不稳定. OpenAI-OSS-20B 在这个参数量大小下反而挺好.
#opus41 #oss120b #OpenAIOSS