文本多模态

共 53 个模型

Llama 4

Llama 3.2 90B Vision

Meta·2024-09

Llama 3.2 90B Vision 是 Meta 最大的多模态模型，支持图像推理任务，如文档理解、图像描述和视觉定位。

国外开源

128,000

◈

Llama 3.2 11B Vision

Meta·2024-09

Llama 3.2 11B Vision 是中等规模的多模态模型，在图像推理任务上表现优秀，适合需要视觉能力的应用场景。

国外开源

128,000

◈

MiniCPM-2.4B

OpenBMB小型CPM模型

Granite 3.3 MoE

IBM Granite MoE模型

Jina ColBERT v2

Jina ColBERT检索模型

ERNIE-4.5-VL-424B-A47B

百度

ERNIE 4.5 VL 开源多模态模型

国内开源

◈

ERNIE-4.5-VL-28B-A3B-Thinking

百度

ERNIE 4.5 VL 轻量多模态思考模型

国内开源

◈

Qwen-Audio

阿里巴巴

通义千问音频理解模型

国内开源

◈

Qwen-Audio-Chat

阿里巴巴

通义千问音频对话模型

国内开源

◈

MiMo V2.5 ASR

小米

小米语音识别模型，支持中英双语、中文方言、Code-Switch，在强噪音、多说话人场景下表现优异

国内开源

◈

LongCat-Flash-Chat

美团

MoE架构通用大语言模型，560B总参数，27B激活参数

国内开源

1,048,576

◈

LongCat-Flash-Thinking

美团

深度推理模型，首个同时具备深度思考+工具调用与非形式化+形式化推理能力的国产模型

国内开源

1,048,576

◈

LongCat-Flash-Omni

美团

全模态实时交互模型，支持文本、图像、音频输入

国内开源

1,048,576

◈

Ling-1T

MoE架构通用大语言模型，万亿参数规模

Ling-Turbo

轻量级通用模型，高效推理

Ring-1T

万亿参数思维模型，开源SOTA推理能力

Ring-mini

轻量级推理模型，适配复杂长序列解码场景

Ming-Omni

蚂蚁集团

统一多模态架构，支持文本、图像、音频、视频的跨模态理解与生成

国内开源

32,768

◈

InternLM-2.5

书生语言大模型，开源通用对话模型

InternLM-XComposer

图文多模态模型，支持图文理解和生成

Emu3

BAAI

原生多模态世界模型，文本、图像、视频统一生成

国内开源

8,192

◈

BGE-Large

BAAI

通用向量模型，Hugging Face月度下载第一的国产模型

国内开源

512

◈

Aquila-2

BAAI

悟道语言大模型，中文能力超过GPT-4的90%

国内开源

32,768

◈

Tele-FLM-52B

万亿参数稠密模型，训练成本降低一个数量级

Pangu Pro MoE 72B

华为

华为盘古Pro MoE 72B开源模型

国内开源

◈

Llama 3.3 8B

Llama Guard 3

Nemotron-4-340B-Reward

NVIDIA奖励模型

Nemotron-VLM

NVIDIA视觉语言模型

Phi-4

Microsoft小型高效模型

Phi-4 Mini

Microsoft超小型模型

Phi-3.5-MoE

Microsoft MoE架构模型

Phi-3.5-Vision

Microsoft多模态模型

Phi-3.5-Mini

Microsoft轻量版模型

Jamba-1-9B

AI21小规模Jamba模型

Jina Embeddings v3

Jina多语言嵌入模型

Jina Reranker v2

Jina重排序模型

Granite 3.3

IBM企业级大模型

Granite Code

IBM代码生成模型

h2oGPT

H2O.ai开源企业模型

MiniCPM

OpenBMB

OpenBMB小型高效模型

国外开源

◈

Sarvam-2B

Sarvam AI印度语言模型

Falcon 3

TII Falcon系列最新模型

SWE-agent

Princeton

Princeton软件工程AI代理

国外开源

◈

Zephyr 7B

Hugging Face开源对话模型

LTX-13B

Lightricks

Lightricks 13B视频模型

国外开源

◈

Sarvam-2B-Chat

Sarvam AI对话模型

Falcon 3 10B

TII Falcon 3 10B模型

h2oVL

H2O.ai视觉语言模型

OpenPI

Princeton

Princeton具身智能模型

国外开源

◈

Sonic-OS

Cartesia

Cartesia开源语音合成模型

国外开源

◈

Skywork-R1V

昆仑万维

昆仑天工 R1V 多模态推理模型

国内开源