GPT-4.1测评出炉！结果居然不如文心一言？

作者：GPT-4.1测评出炉！结果居然不如文心一言？

KCORES 大模型竞技场上线啦！这次带来的是【GPT-4.1 测评】——直接上结论，不绕弯子！ --- 测评结论一览： Gemini-2.5-Pro 依然稳居榜首，领先地位毫无悬念 GPT-4.1 ≈ Qwen-2.5-Max，甚至在测试集里不如 OpenAI-O3-mini-high 和 o1 GPT-4.1-mini ≈ 老版 DeepSeek-V3，可以理解为一个价格便宜的“GPT-4.5” GPT-4.1-nano：被文心一言吊打，基本没法用…… 分项测试成绩如下（槽点满满）： 1. 20小球物理模拟测试 GPT-4.1 的代码运行质量是可以的，但没有摩擦带来的旋转效果。 mini 也一样的问题，而 nano 只剩一个小球在场上挣扎…… 2. mandelbrot-set-meet-libai 测试 GPT-4.1：颜色反了 + 图形渲染过大 mini：因为没做到全屏渲染被扣分 nano：指令遵循失败，填满了文本，中心不准，性能拉垮 3. 火星任务测试惨烈程度直线上升： GPT-4.1：轨道渲染错误，飞行器执行窗口全错 mini：星球和飞船都没生成出来 nano：生成代码直接报错，完全跑不起来 4. 太阳系模拟测试 GPT-4.1：水星和太阳重叠，一口气回到地心说？ mini：反而得分还不错，没有太明显失误 nano：只画了几个圆圈就交卷，属实有点摆烂了写在最后： GPT-4.1 的表现说实话有点“泼冷水”，看名字以为要起飞，实测下来却是“有点平”。要性能？还是 Gemini 更猛；要性价比？mini 还能凑合用；nano 真的……算了吧。你们最近都在用哪款大模型？有被哪一款惊艳到 or 惊吓到？评论区集合，我们一起开个“大模型吐槽会”！ #大模型测评 #GPT4.1 #AI谁最强 #OpenAI翻车现场 #小红书测评党

⚡ 技术纵深 · 洞见未来

GPT-4.1测评出炉！结果居然不如文心一言？

深度推荐 · 延伸阅读