2025年中文文生图市场重演经典剧本：百度开源ERNIE-Image以8B参数和汉字渲染SOTA杀入，字节Seedream靠产品体验守住阵地，阿里Qwen-Image有声量缺存在感。三种商业哲学背后，开源与闭源的边界正在被重新定义。

文生图三国杀：百度开源、字节闭源、阿里跟进

2025年的中文文生图市场，正在重演一个熟悉的剧本——

百度说：我不跟你玩API套壳，我开源。 字节说：我不在乎开源，我在乎体验。 阿里说：我……先等等，我先看看你们谁赢。

这不是吐槽，是真实的战略分化。

三张牌，三种逻辑

先说数字。

SuperCLUE-Image最新测评里，18个国内外主流模型同台竞技，结果很有意思：

几分之差，实际体验差距普通用户感知不到。但背后的商业逻辑，差距大了去了。

说实话，ERNIE-Image开源这件事，我一开始没当回事。

百度文心一贯的调性——发布时惊天动地，实际用起来差口气。但这次参数一出来，圈子里真安静了几秒：

8B参数，消费级显卡24GB显存跑得动。

什么概念？Stable Diffusion刚出来的时候，4B参数的模型已经让很多人喊"消费级AI绘图时代来了"。现在百度直接把这个门槛砍到了"一张显卡"级别。

更狠的是文字渲染。

文生图领域，中文文字渲染一直是国产模型的死穴——汉字笔画复杂、排版要求高，稍不注意就变成"鬼画符"。之前国内能稳定生成清晰汉字的，只有几家商业闭源方案。

ERNIE-Image在LongText-Bench汉字渲染专项上拿了开源模型第一，和NanoBanana这些商业模型站在同一梯队。

开源 + 低门槛 + 中文强项 = 百度在文生图这局里，突然成了一条真正的鲶鱼。

而且是那种你没法用"国产套壳"来敷衍的鲶鱼。

百度的策略是"开源打开发者"，字节的策略完全不同。

Seedream 5.0的技术能力在测评里不是最顶的，但在实际使用场景里的口碑，往往比测评数字更有说服力。

字节做产品的逻辑从来都是：不在论文里赢你，在用户手里赢你。

Seedream在以下几件事上做得扎实：

Prompt理解。 中文Prompt的理解程度，直接决定用户体验。字节有豆包大模型在语言理解上的积累做底子，这块是强项。

风格一致性。 二次元、写实、胶片风切换的稳定性，决定了它能不能被用在正经的商业场景里。

产品化程度。 Seedream和豆包App的整合，让它从"技术能力"变成了"用户可感知的功能"。普通人打开豆包，输入一句话，生成图片，这个路径比调API优雅太多了。

字节的问题在于：它是闭源的。

对于想本地部署、想微调、想做二次开发的团队来说，Seedream是一堵墙。但对于绝大多数只想"生成一张好图"的普通用户来说，这堵墙不存在。