🎵 音频模型

CosyVoice V3.5 Plus

主流

高质量语音合成模型，支持多种音色和情感控制

音频国内闭源

MiniMax Speech 2.8

主流

MiniMax Speech 2.8 最新语音合成模型

音频国内闭源

Fish Speech v2

Fish Audio

Fish Audio语音合成v2

文心语音合成

百度

文心语音合成模型

文心语音识别

百度

文心语音识别模型

speech-2.8-hd

MiniMax 语音合成 2.8 高清版

speech-2.8-turbo

MiniMax 语音合成 2.8 快速版

Music-2.6

MiniMax 音乐生成 2.6 模型

Doubao-Speech-Recognition

字节跳动

豆包语音识别模型

Doubao-Speech-Synthesis

字节跳动

豆包语音合成模型

Doubao-Music

字节跳动

豆包音乐生成模型

通义听悟

通义听悟音视频理解服务

MiMo V2.5 TTS

小米语音合成模型，内置多款精品音色，支持导演级语音控制，可通过自然语言指令精细调度语速、情绪与语气

MiMo V2.5 TTS VoiceDesign

小米音色设计模型，支持通过一句自然语言描述生成全新音色，可从年龄、性别、口音、音质等多维度自由定义

MiMo V2.5 TTS VoiceClone

小米音色克隆模型，仅需数秒参考音频即可高保真复刻人声，无需训练或微调

MiMo V2.5 ASR

小米语音识别模型，支持中英双语、中文方言、Code-Switch，在强噪音、多说话人场景下表现优异

Qwen ASR Realtime

千问实时语音识别模型，适用于实时会议记录、直播字幕等场景

CosyVoice V3.5 Flash

快速语音合成模型，低延迟适合实时场景

LongCat-Audio-Codec

美团

高效语音编解码器，助力实时交互落地

Fish Audio S1

Fish Audio

表现力语音克隆和文本转语音模型

Fish Audio S2 Pro

Fish Audio

多语言TTS，80+语言，1000万小时训练数据，Dual-AR架构

GLM-TTS

智谱AI

智谱AI GLM-TTS 语音合成模型

GLM-TTS-Clone

智谱AI

智谱AI GLM-TTS-Clone 音色克隆模型

GLM-ASR-2512

智谱AI

智谱AI GLM-ASR-2512 语音识别模型

MiniMax Speech 2.6

MiniMax Speech 2.6 语音合成模型

MiniMax Music 2.5

MiniMax Music 2.5 音乐生成模型

MiniMax Music 2.6

MiniMax Music 2.6 最新音乐生成模型

Spark ASR Pro

科大讯飞星火语音识别大模型

Kimi Audio

月之暗面

月之暗面 Kimi Audio 音频多模态模型

Qwen3 Omni Flash

通义千问 Qwen3 Omni Flash 全模态模型

32,768

Qwen3 TTS Flash

通义千问 Qwen3 TTS Flash 语音合成模型

Qwen3 ASR Flash

通义千问 Qwen3 ASR Flash 语音识别模型

Step Audio 2

阶跃星辰

阶跃 Step Audio 2 语音模型

Step ASR

阶跃星辰

阶跃 Step ASR 语音识别模型

TicVoice

出门问问

Mobvoi智能语音助手

星火语音合成

科大讯飞超拟人语音合成模型

星火语音识别

科大讯飞语音识别大模型

一句话复刻

科大讯飞一句话复刻模型