◈
Emu3是智源研究院的原生多模态世界模型,基于下一token预测范式统一多模态学习,无需扩散模型,实现文本、图像、视频的任意组合理解与生成。
使用方法
1
2
3
核心参数
上下文窗口
8,192
最大输出
4,096
输入模态
text+image+video
开源状态
开源
API 定价
🌱 开源模型
该模型为开源模型,可免费使用或自行部署
功能特性
原生多模态
统一架构处理多模态
下一token预测
自回归范式
开源领先
Nature正刊发表
常见问题
Emu3是什么?▼
Emu3是智源研究院的原生多模态世界模型,基于下一token预测范式统一多模态学习,无需扩散模型,实现文本、图像、视频的任意组合理解与生成。
Emu3的核心参数是什么?▼
Emu3是BAAI推出的模型,上下文窗口8,192tokens,最大输出4,096tokens,开源模型。
Emu3有哪些主要功能?▼
原生多模态、下一token预测、开源领先
最后更新:2026/5/15数据来源:即客AI模型库