来啦!GPT-4.1 测评!
KCORES 大模型竞技场为大家带来 GPT-4.1 测评!直接说结论:
Gemini-2.5-Pro 仍然领先榜首
GPT-4.1 大概与 Qwen-2.5-Max 相当, 甚至在我的测试集里面是不如 OpenAI-O3-mini-high 和 OpenAI-o1 的
GPT-4.1-mini 则与老的 DeepSeek-V3 差不多, 或者说, 是一个价格便宜的 GPT-4.5
至于 GPT-4.1-nano, 甚至打不过文心一言, 就....别用了吧
分项成绩:
20小球物理模拟测试
GPT-4.1 代码运行的质量是不错的, 但是问题是, 小球的摩擦并没有带来小球的旋转,
GPT-4.1-mini 也是同样问题
而 GPT-4.1-nano 则是只剩一个小球
mandelbrot-set-meet-libai 测试
GPT-4.1 的结果主要问题是颜色弄反了, 以及图形渲染的有点大
GPT-4.1-mini 则因为没有全屏渲染扣了分数
GPT-4.1-nano 则指令遵循都有一些问题了, 包括内部全都填充了文本, 中心不正确, 性能太低等等
火星任务测试,
这个就惨不忍睹了, GPT-4.1 渲染的轨道和飞行器执行窗口完全不正确
GPT-4.1-mini 则连星球和飞船都没有
至于 GPT-4.1-nano, 抱歉, 生成的代码跑不起来, 报错了
太阳系模拟测试,
这个也很完蛋, GPT-4.1 把水星与太阳重叠了.
而 GPT-4.1-mini 得分反而比较高, 没有什么太大的失误.
GPT-4.1-nano, 它.... 只画了几个圆圈就交卷了.
天梯地址:https://t.co/uUHyWq1J6c
#大模型竞技场
点击图片查看原图
点击图片查看原图
点击图片查看原图
点击图片查看原图