导航菜单
切换主题

Emu3

开源

原生多模态世界模型,文本、图像、视频统一生成

Emu3是智源研究院的原生多模态世界模型,基于下一token预测范式统一多模态学习,无需扩散模型,实现文本、图像、视频的任意组合理解与生成。

使用方法

1
2
3

核心参数

上下文窗口
8,192
最大输出
4,096
输入模态
text+image+video
开源状态
开源

API 定价

🌱 开源模型

该模型为开源模型,可免费使用或自行部署

功能特性

原生多模态

统一架构处理多模态

下一token预测

自回归范式

开源领先

Nature正刊发表

常见问题

Emu3是什么?
Emu3是智源研究院的原生多模态世界模型,基于下一token预测范式统一多模态学习,无需扩散模型,实现文本、图像、视频的任意组合理解与生成。
Emu3的核心参数是什么?
Emu3是BAAI推出的模型,上下文窗口8,192tokens,最大输出4,096tokens,开源模型。
Emu3有哪些主要功能?
原生多模态、下一token预测、开源领先
最后更新:2026/5/15数据来源:即客AI模型库