KCORES 大模型竞技场上线啦!这次带来的是【GPT-4.1 测评】——直接上结论,不绕弯子! --- 测评结论一览: Gemini-2.5-Pro 依然稳居榜首,领先地位毫无悬念 GPT-4.1 ≈ Qwen-2.5-Max,甚至在测试集里不如 OpenAI-O3-mini-high 和 o1 GPT-4.1-mini ≈ 老版 DeepSeek-V3,可以理解为一个价格便宜的“GPT-4.5” GPT-4.1-nano:被文心一言吊打,基本没法用…… 分项测试成绩如下(槽点满满): 1. 20小球物理模拟测试 GPT-4.1 的代码运行质量是可以的,但没有摩擦带来的旋转效果。 mini 也一样的问题,而 nano 只剩一个小球在场上挣扎…… 2. mandelbrot-set-meet-libai 测试 GPT-4.1:颜色反了 + 图形渲染过大 mini:因为没做到全屏渲染被扣分 nano:指令遵循失败,填满了文本,中心不准,性能拉垮 3. 火星任务测试 惨烈程度直线上升: GPT-4.1:轨道渲染错误,飞行器执行窗口全错 mini:星球和飞船都没生成出来 nano:生成代码直接报错,完全跑不起来 4. 太阳系模拟测试 GPT-4.1:水星和太阳重叠,一口气回到地心说? mini:反而得分还不错,没有太明显失误 nano:只画了几个圆圈就交卷,属实有点摆烂了 写在最后: GPT-4.1 的表现说实话有点“泼冷水”,看名字以为要起飞,实测下来却是“有点平”。 要性能?还是 Gemini 更猛;要性价比?mini 还能凑合用;nano 真的……算了吧。 你们最近都在用哪款大模型?有被哪一款惊艳到 or 惊吓到? 评论区集合,我们一起开个“大模型吐槽会”! #大模型测评 #GPT4.1 #AI谁最强 #OpenAI翻车现场 #小红书测评党