🎵 音频模型

Udio v2

Udio v2音乐生成

Eleven-Multilingual-v2

ElevenLabs 多语言语音合成模型

Eleven-Turbo-v2

ElevenLabs

ElevenLabs Turbo 高速语音合成模型

音频国外闭源

Suno-v3.5

Suno v3.5 音乐生成模型

Gemini 3.1 Flash TTS Preview

Google 针对性价比和低延迟优化的文本转语音模型

音频国外闭源

8,192

Lyria 3 Pro

Google 专业级音乐生成模型

CosyVoice V3.5 Plus

高质量语音合成模型，支持多种音色和情感控制

音频国内闭源

MiniMax Speech 2.8

MiniMax Speech 2.8 最新语音合成模型

音频国内闭源

Udio v1.5

Udio高保真AI音乐生成模型

Suno v4

Suno v4音乐生成

Fish Speech v2

Fish Audio

Fish Audio语音合成v2

Suno-v3

Suno

Suno v3 音乐生成模型

Gemini 3.1 Flash Live Preview

Google 低延迟音频到音频模型，针对实时对话优化

1,048,576

文心语音合成

百度

文心语音合成模型

Gemini 2.5 Flash Native Audio

Gemini 2.5 Flash 的原生音频版本

1,048,576

文心语音识别

百度

文心语音识别模型

Lyria 3 Clip

Google 高质量音乐片段生成模型

Lyria RealTime

Google 实时音乐生成模型

speech-2.8-hd

MiniMax 语音合成 2.8 高清版

speech-2.8-turbo

MiniMax 语音合成 2.8 快速版

Music-2.6

MiniMax 音乐生成 2.6 模型

Doubao-Speech-Recognition

字节跳动

豆包语音识别模型

Doubao-Speech-Synthesis

字节跳动

豆包语音合成模型

GPT Realtime 1.5

OpenAI

OpenAI 实时多模态模型，支持低延迟音频交互

Doubao-Music

字节跳动

豆包音乐生成模型

GPT Realtime Mini

OpenAI

轻量级实时多模态模型

通义听悟

通义听悟音视频理解服务

MiMo V2.5 TTS

小米语音合成模型，内置多款精品音色，支持导演级语音控制，可通过自然语言指令精细调度语速、情绪与语气

MiMo V2.5 TTS VoiceDesign

小米音色设计模型，支持通过一句自然语言描述生成全新音色，可从年龄、性别、口音、音质等多维度自由定义

MiMo V2.5 TTS VoiceClone

小米音色克隆模型，仅需数秒参考音频即可高保真复刻人声，无需训练或微调

MiMo V2.5 ASR

小米语音识别模型，支持中英双语、中文方言、Code-Switch，在强噪音、多说话人场景下表现优异

Qwen ASR Realtime

千问实时语音识别模型，适用于实时会议记录、直播字幕等场景

CosyVoice V3.5 Flash

快速语音合成模型，低延迟适合实时场景

LongCat-Audio-Codec

美团

高效语音编解码器，助力实时交互落地

Fish Audio S1

Fish Audio

表现力语音克隆和文本转语音模型

Fish Audio S2 Pro

Fish Audio

多语言TTS，80+语言，1000万小时训练数据，Dual-AR架构

GLM-TTS

智谱AI

智谱AI GLM-TTS 语音合成模型

GLM-TTS-Clone

智谱AI

智谱AI GLM-TTS-Clone 音色克隆模型

GLM-ASR-2512

智谱AI

智谱AI GLM-ASR-2512 语音识别模型

MiniMax Speech 2.6

MiniMax Speech 2.6 语音合成模型

MiniMax Music 2.5

MiniMax Music 2.5 音乐生成模型

MiniMax Music 2.6

MiniMax Music 2.6 最新音乐生成模型

Spark ASR Pro

科大讯飞星火语音识别大模型

Kimi Audio

月之暗面

月之暗面 Kimi Audio 音频多模态模型

Qwen3 Omni Flash

通义千问 Qwen3 Omni Flash 全模态模型

32,768

Qwen3 TTS Flash

通义千问 Qwen3 TTS Flash 语音合成模型

Qwen3 ASR Flash

通义千问 Qwen3 ASR Flash 语音识别模型

Udio v1

Udio

Udio基础音乐生成模型

Step Audio 2

阶跃星辰

阶跃 Step Audio 2 语音模型

Step ASR

阶跃星辰

阶跃 Step ASR 语音识别模型

Sonic

Cartesia

Cartesia实时语音合成模型

Aura-2

Deepgram

Deepgram最新语音识别模型

TicVoice

出门问问

Mobvoi智能语音助手

星火语音合成

科大讯飞超拟人语音合成模型

星火语音识别

科大讯飞语音识别大模型

一句话复刻

科大讯飞一句话复刻模型

Sonic-OS

Cartesia

Cartesia开源语音合成模型

国外开源

Nova-3

Deepgram

Deepgram Nova-3语音识别

ElevenLabs Turbo v2.5

ElevenLabs

ElevenLabs快速语音合成