导航菜单

切换主题

◈

Emu3

开源

原生多模态世界模型，文本、图像、视频统一生成

Emu3是智源研究院的原生多模态世界模型，基于下一token预测范式统一多模态学习，无需扩散模型，实现文本、图像、视频的任意组合理解与生成。

使用方法

1

2

3

核心参数

上下文窗口

8,192

最大输出

4,096

输入模态

text+image+video

开源状态

开源

API 定价

🌱 开源模型

该模型为开源模型，可免费使用或自行部署

功能特性

原生多模态

统一架构处理多模态

下一token预测

自回归范式

开源领先

Nature正刊发表

常见问题

Emu3是什么？▼

Emu3是智源研究院的原生多模态世界模型，基于下一token预测范式统一多模态学习，无需扩散模型，实现文本、图像、视频的任意组合理解与生成。

Emu3的核心参数是什么？▼

Emu3是BAAI推出的模型，上下文窗口8,192tokens，最大输出4,096tokens，开源模型。

Emu3有哪些主要功能？▼

原生多模态、下一token预测、开源领先

最后更新：2026/5/15数据来源：即客AI模型库