TTS语音合成

Udio v2

Udio

Udio v2音乐生成

Eleven-Multilingual-v2

ElevenLabs

ElevenLabs 多语言语音合成模型

Eleven-Turbo-v2

ElevenLabs

ElevenLabs Turbo 高速语音合成模型

Gemini 3.1 Flash TTS Preview

Google

Google 针对性价比和低延迟优化的文本转语音模型

8,192

CosyVoice V3.5 Plus

高质量语音合成模型，支持多种音色和情感控制

MiniMax Speech 2.8

MiniMax Speech 2.8 最新语音合成模型

Udio v1.5

Udio

Udio高保真AI音乐生成模型

Suno v4

Suno

Suno v4音乐生成

Fish Speech v2

Fish Audio

Fish Audio语音合成v2

Gemini 3.1 Flash Live Preview

Google

Google 低延迟音频到音频模型，针对实时对话优化

1,048,576

文心语音合成

百度

文心语音合成模型

Gemini 2.5 Flash Native Audio

Google

Gemini 2.5 Flash 的原生音频版本

1,048,576

speech-2.8-hd

MiniMax 语音合成 2.8 高清版

speech-2.8-turbo

MiniMax 语音合成 2.8 快速版

Doubao-Speech-Synthesis

字节跳动

豆包语音合成模型

GPT Realtime 1.5

OpenAI

OpenAI 实时多模态模型，支持低延迟音频交互

GPT Realtime Mini

OpenAI

轻量级实时多模态模型

MiMo V2.5 TTS

小米

小米语音合成模型，内置多款精品音色，支持导演级语音控制，可通过自然语言指令精细调度语速、情绪与语气

MiMo V2.5 TTS VoiceDesign

小米

小米音色设计模型，支持通过一句自然语言描述生成全新音色，可从年龄、性别、口音、音质等多维度自由定义

MiMo V2.5 TTS VoiceClone

小米

小米音色克隆模型，仅需数秒参考音频即可高保真复刻人声，无需训练或微调

CosyVoice V3.5 Flash

快速语音合成模型，低延迟适合实时场景

LongCat-Audio-Codec

美团

高效语音编解码器，助力实时交互落地

Fish Audio S1

Fish Audio

表现力语音克隆和文本转语音模型

Fish Audio S2 Pro

Fish Audio

多语言TTS，80+语言，1000万小时训练数据，Dual-AR架构

GLM-TTS

智谱AI

智谱AI GLM-TTS 语音合成模型

GLM-TTS-Clone

智谱AI

智谱AI GLM-TTS-Clone 音色克隆模型

MiniMax Speech 2.6

MiniMax Speech 2.6 语音合成模型

Kimi Audio

月之暗面

月之暗面 Kimi Audio 音频多模态模型

Qwen3 Omni Flash

通义千问 Qwen3 Omni Flash 全模态模型

32,768

Qwen3 TTS Flash

通义千问 Qwen3 TTS Flash 语音合成模型

Udio v1

Udio

Udio基础音乐生成模型

Step Audio 2

阶跃星辰

阶跃 Step Audio 2 语音模型

TicVoice

出门问问

Mobvoi智能语音助手

星火语音合成

科大讯飞

科大讯飞超拟人语音合成模型

ElevenLabs Turbo v2.5

ElevenLabs

ElevenLabs快速语音合成