怎么解决 DeepSeek V4 Pro 不能识别图片的问题,分享下我的经验。 简单说,就是我找到了一个价格差不多,但支持多模态的平替模型:Step 3.7 Flash。 这是国内另外一家 AI 创业公司阶跃星辰最近发布的新模型。哎,之前我居然不知道,进入了自己的信息茧房。 端午假期用下来,感觉挺惊喜的。 它的声量还没有那么大,很多人可能没注意到,但这几天真实用下来,我觉得它很适合放到 Coding 和 Agent 工作流里。性价比很高,而且原生多模态。 事情是这样的。端午假期,我想做一个 AI 写作类 App。最开始是准备用 GPT-5.5 来跑,但上周用得太狠,额度很快就不够了。 于是我切到了 DeepSeek V4 Pro。但做的过程中碰到一个大问题,V4 Pro 没有多模态,不能理解图片。 这对我来说没法接受。我 Vibe Coding 的流程一般都是先出设计图或者截图,让 AI 理解我想要的效果,再去实现。 它不能识别图片,我就得纯靠嘴说,怎么可能说得清楚。 后来在小红书上翻了一圈,找到了 Step 3.7 Flash 这个模型。 用了两天之后,我觉得自己发现了新的宝藏模型。说一下我的具体感受。第一,它可以搞定 80% 的 Coding 任务。 我的理解是,如果你有无限的旗舰模型额度,那当然可以全程用旗舰模型,不用纠结。 但真实情况是,大多数人都会碰到额度和成本的问题。尤其是做一个完整的应用,中间要写大量的业务代码,反复修改、反复调试,模型的消耗量是很大的。 所以我现在更倾向于做模型分层。 最开始的产品结构、技术架构、任务拆解,可以交给 GPT-5.5 这样的旗舰模型处理。 因为这个阶段需要模型做判断,需要它把整个系统想清楚。 但后面那些具体功能的实现,就可以交给 Step3.7 Flash 去跑。 如果中间遇到疑难的问题,确实 Flash 模型兜圈子搞不定,那我们可以再切回去,让 GPT-5.5 这样的旗舰模型去解决。 第二,速度非常快。在用 Step 3.7 Flash 写代码的时候,我的体感就是快。 后来去官网查了一下,它的吞吐量最高可以做到 400 Token/s。这个什么概念呢,大部分模型的吞吐速度也就是 100 Token/s 这个水准。