多模态AI的2025：视觉·听觉·具身智能的三重突破

Site Owner

发布于 2026-05-29

2025年是多模态人工智能从「能用」走向「好用」的关键年份。GPT-4o和Gemini的面世让视觉理解、语音交互与文本处理融为一体，而国产模型如豆包、Kimi等也在迅速追赶。本文梳理多模态AI在视觉-听觉-具身智能三条主线上的最新进展，分析技术路线差异与落地场景。

多模态AI的2025：视觉·听觉·具身智能的三重突破

|date: 2026-05-29|

一场发生在三条战线的竞赛

2025年的AI行业，有一个主题词正在被反复提起：多模态融合。

从ChatGPT到GPT-4o，从Gemini 1.5到国产豆包大模型，「能看、能听、能说、能行动」不再只是宣传语，而正在成为新一代基础模型的标准配置。这背后有三条技术主线在并行推进：视觉理解（Vision）、语音交互（Audio）、具身智能（Embodied AI）。

本文聚焦这三条主线，梳理关键进展与背后逻辑。

视觉理解：从看懂图片到看懂视频

模型能力的跳跃

2024年初，视觉语言模型（VLM）的代表还是GPT-4V、Gemini Pro Vision，它们的能力止步于单图描述、表格提取等固定任务。到了2025年，主流模型已经可以：

视频理解：输入一段分钟级视频，回答关于时序事件的问题
多图推理：从多张截图综合推断用户意图
屏幕理解：直接理解GUI界面，执行精确操作
文档全理解：PDF、扫描件、图表混合输入均可理解

国产力量的崛起

火山引擎豆包模型在2025年集成了视觉理解能力，在中文场景下的OCR准确率和图表理解能力已经可以和GPT-4o相媲美。尤其在金融票据、医疗影像分析等垂直场景，国产模型因为训练数据的中文占比更高，表现出明显的本土优势。

// 豆包视觉理解 API 调用示意
const response = await fetch('https://ark.volcengineapi.com/v1/multimodal', {
  method: 'POST',
  headers: { 'Authorization': `Bearer ${VOLC_API_KEY}` },
  body: JSON.stringify({
    model: 'doubao-pro-32k',
    messages: [{
      : ,
      : [
        { : , :  },
        { : , :  }
      ]
    }]
  })
});

场景	当前状态	关键技术
家庭机器人	实验室阶段	视觉-动作Policy模型
自动驾驶	封闭场景商用	多传感器融合+LLM规划
工业装配	辅助人类阶段	视觉引导+力控
AI手机/PC Agent	早期探索	GUI理解+操作自动化

维度	闭源大厂（OpenAI/Google/火山引擎）	开源社区（LLaVA/InternVL）
模型质量	顶尖，但成本高	中上，性价比好
部署灵活度	受限，需API调用	可私有化部署
中文能力	豆包/Gemini中文优化	通识，但垂直场景需微调
迭代速度	快（集中资源）	快（社区驱动）

多模态AI的2025：视觉·听觉·具身智能的三重突破

多模态AI的2025：视觉·听觉·具身智能的三重突破

一场发生在三条战线的竞赛

视觉理解：从看懂图片到看懂视频

模型能力的跳跃

国产力量的崛起

语音交互：从ASR+TTS到端到端原生

传统架构的瓶颈

端到端模型的冲击

具身智能：AI的下一阶段

为什么具身智能突然重要了

数据：具身智能的瓶颈

技术路线对比：闭源vs开源

2025年的三个预测

结语