怎么解决DeepSeek V4 Pro无法识图的问题？

作者：怎么解决DeepSeek V4 Pro无法识图的问题？

怎么解决 DeepSeek V4 Pro 不能识别图片的问题，分享下我的经验。简单说，就是我找到了一个价格差不多，但支持多模态的平替模型：Step 3.7 Flash。这是国内另外一家 AI 创业公司阶跃星辰最近发布的新模型。哎，之前我居然不知道，进入了自己的信息茧房。端午假期用下来，感觉挺惊喜的。它的声量还没有那么大，很多人可能没注意到，但这几天真实用下来，我觉得它很适合放到 Coding 和 Agent 工作流里。性价比很高，而且原生多模态。事情是这样的。端午假期，我想做一个 AI 写作类 App。最开始是准备用 GPT-5.5 来跑，但上周用得太狠，额度很快就不够了。于是我切到了 DeepSeek V4 Pro。但做的过程中碰到一个大问题，V4 Pro 没有多模态，不能理解图片。这对我来说没法接受。我 Vibe Coding 的流程一般都是先出设计图或者截图，让 AI 理解我想要的效果，再去实现。它不能识别图片，我就得纯靠嘴说，怎么可能说得清楚。后来在小红书上翻了一圈，找到了 Step 3.7 Flash 这个模型。用了两天之后，我觉得自己发现了新的宝藏模型。说一下我的具体感受。第一，它可以搞定 80% 的 Coding 任务。我的理解是，如果你有无限的旗舰模型额度，那当然可以全程用旗舰模型，不用纠结。但真实情况是，大多数人都会碰到额度和成本的问题。尤其是做一个完整的应用，中间要写大量的业务代码，反复修改、反复调试，模型的消耗量是很大的。所以我现在更倾向于做模型分层。最开始的产品结构、技术架构、任务拆解，可以交给 GPT-5.5 这样的旗舰模型处理。因为这个阶段需要模型做判断，需要它把整个系统想清楚。但后面那些具体功能的实现，就可以交给 Step3.7 Flash 去跑。如果中间遇到疑难的问题，确实 Flash 模型兜圈子搞不定，那我们可以再切回去，让 GPT-5.5 这样的旗舰模型去解决。第二，速度非常快。在用 Step 3.7 Flash 写代码的时候，我的体感就是快。后来去官网查了一下，它的吞吐量最高可以做到 400 Token/s。这个什么概念呢，大部分模型的吞吐速度也就是 100 Token/s 这个水准。

⚡ 技术纵深 · 洞见未来

怎么解决DeepSeek V4 Pro无法识图的问题？

深度推荐 · 延伸阅读