文生图三国杀:百度开源、字节闭源、阿里跟进
Site Owner
发布于 2026-05-11
2025年中文文生图市场重演经典剧本:百度开源ERNIE-Image以8B参数和汉字渲染SOTA杀入,字节Seedream靠产品体验守住阵地,阿里Qwen-Image有声量缺存在感。三种商业哲学背后,开源与闭源的边界正在被重新定义。

文生图三国杀:百度开源、字节闭源、阿里跟进
2025年的中文文生图市场,正在重演一个熟悉的剧本——
百度说:我不跟你玩API套壳,我开源。 字节说:我不在乎开源,我在乎体验。 阿里说:我……先等等,我先看看你们谁赢。
这不是吐槽,是真实的战略分化。
三张牌,三种逻辑
先说数字。
SuperCLUE-Image最新测评里,18个国内外主流模型同台竞技,结果很有意思:
- GPT-Image-1.5(OpenAI):77.63分,全球第一
- ERNIE-Image(百度):76.37分,国内第一,全球第四,开源
- Qwen-Image-2.0-Pro(阿里):75.68分,国内第二
- Seedream-5.0-lite(字节):75.65分,国内第三
几分之差,实际体验差距普通用户感知不到。但背后的商业逻辑,差距大了去了。
百度:最意外的那条鲶鱼
说实话,ERNIE-Image开源这件事,我一开始没当回事。
百度文心一贯的调性——发布时惊天动地,实际用起来差口气。但这次参数一出来,圈子里真安静了几秒:
8B参数,消费级显卡24GB显存跑得动。
什么概念?Stable Diffusion刚出来的时候,4B参数的模型已经让很多人喊"消费级AI绘图时代来了"。现在百度直接把这个门槛砍到了"一张显卡"级别。
更狠的是文字渲染。
文生图领域,中文文字渲染一直是国产模型的死穴——汉字笔画复杂、排版要求高,稍不注意就变成"鬼画符"。之前国内能稳定生成清晰汉字的,只有几家商业闭源方案。
ERNIE-Image在LongText-Bench汉字渲染专项上拿了开源模型第一,和NanoBanana这些商业模型站在同一梯队。
开源 + 低门槛 + 中文强项 = 百度在文生图这局里,突然成了一条真正的鲶鱼。
而且是那种你没法用"国产套壳"来敷衍的鲶鱼。
字节:不做第一个,但做体验最好的
百度的策略是"开源打开发者",字节的策略完全不同。
Seedream 5.0的技术能力在测评里不是最顶的,但在实际使用场景里的口碑,往往比测评数字更有说服力。
字节做产品的逻辑从来都是:不在论文里赢你,在用户手里赢你。
Seedream在以下几件事上做得扎实:
Prompt理解。 中文Prompt的理解程度,直接决定用户体验。字节有豆包大模型在语言理解上的积累做底子,这块是强项。
风格一致性。 二次元、写实、胶片风切换的稳定性,决定了它能不能被用在正经的商业场景里。
产品化程度。 Seedream和豆包App的整合,让它从"技术能力"变成了"用户可感知的功能"。普通人打开豆包,输入一句话,生成图片,这个路径比调API优雅太多了。
字节的问题在于:它是闭源的。
对于想本地部署、想微调、想做二次开发的团队来说,Seedream是一堵墙。但对于绝大多数只想"生成一张好图"的普通用户来说,这堵墙不存在。