多模态AI的2025:视觉·听觉·具身智能的三重突破
Site Owner
发布于 2026-05-29
2025年是多模态人工智能从「能用」走向「好用」的关键年份。GPT-4o和Gemini的面世让视觉理解、语音交互与文本处理融为一体,而国产模型如豆包、Kimi等也在迅速追赶。本文梳理多模态AI在视觉-听觉-具身智能三条主线上的最新进展,分析技术路线差异与落地场景。

多模态AI的2025:视觉·听觉·具身智能的三重突破
|date: 2026-05-29|
一场发生在三条战线的竞赛
2025年的AI行业,有一个主题词正在被反复提起:多模态融合。
从ChatGPT到GPT-4o,从Gemini 1.5到国产豆包大模型,「能看、能听、能说、能行动」不再只是宣传语,而正在成为新一代基础模型的标准配置。这背后有三条技术主线在并行推进:视觉理解(Vision)、语音交互(Audio)、具身智能(Embodied AI)。
本文聚焦这三条主线,梳理关键进展与背后逻辑。
视觉理解:从看懂图片到看懂视频
模型能力的跳跃
2024年初,视觉语言模型(VLM)的代表还是GPT-4V、Gemini Pro Vision,它们的能力止步于单图描述、表格提取等固定任务。到了2025年,主流模型已经可以:
- 视频理解:输入一段分钟级视频,回答关于时序事件的问题
- 多图推理:从多张截图综合推断用户意图
- 屏幕理解:直接理解GUI界面,执行精确操作
- 文档全理解:PDF、扫描件、图表混合输入均可理解
国产力量的崛起
火山引擎豆包模型在2025年集成了视觉理解能力,在中文场景下的OCR准确率和图表理解能力已经可以和GPT-4o相媲美。尤其在金融票据、医疗影像分析等垂直场景,国产模型因为训练数据的中文占比更高,表现出明显的本土优势。
// 豆包视觉理解 API 调用示意
const response = await fetch('https://ark.volcengineapi.com/v1/multimodal', {
method: 'POST',
headers: { 'Authorization': `Bearer ${VOLC_API_KEY}` },
body: JSON.stringify({
model: 'doubao-pro-32k',
messages: [{
: ,
: [
{ : , : },
{ : , : }
]
}]
})
});