🎵 音频模型
共 59 个模型
其他模型(59)
Udio v2
主流Udio v2音乐生成
Eleven-Multilingual-v2
主流ElevenLabs 多语言语音合成模型
Eleven-Turbo-v2
主流ElevenLabs Turbo 高速语音合成模型
Suno-v3.5
主流Suno v3.5 音乐生成模型
Gemini 3.1 Flash TTS Preview
主流Google 针对性价比和低延迟优化的文本转语音模型
Lyria 3 Pro
主流Google 专业级音乐生成模型
CosyVoice V3.5 Plus
主流高质量语音合成模型,支持多种音色和情感控制
MiniMax Speech 2.8
主流MiniMax Speech 2.8 最新语音合成模型
Udio v1.5
主流Udio高保真AI音乐生成模型
Suno v4
主流Suno v4音乐生成
Fish Speech v2
Fish Audio语音合成v2
Suno-v3
Suno v3 音乐生成模型
Gemini 3.1 Flash Live Preview
Google 低延迟音频到音频模型,针对实时对话优化
文心语音合成
文心语音合成模型
Gemini 2.5 Flash Native Audio
Gemini 2.5 Flash 的原生音频版本
文心语音识别
文心语音识别模型
Lyria 3 Clip
Google 高质量音乐片段生成模型
Lyria RealTime
Google 实时音乐生成模型
speech-2.8-hd
MiniMax 语音合成 2.8 高清版
speech-2.8-turbo
MiniMax 语音合成 2.8 快速版
Music-2.6
MiniMax 音乐生成 2.6 模型
Doubao-Speech-Recognition
豆包语音识别模型
Doubao-Speech-Synthesis
豆包语音合成模型
GPT Realtime 1.5
OpenAI 实时多模态模型,支持低延迟音频交互
Doubao-Music
豆包音乐生成模型
GPT Realtime Mini
轻量级实时多模态模型
通义听悟
通义听悟音视频理解服务
MiMo V2.5 TTS
小米语音合成模型,内置多款精品音色,支持导演级语音控制,可通过自然语言指令精细调度语速、情绪与语气
MiMo V2.5 TTS VoiceDesign
小米音色设计模型,支持通过一句自然语言描述生成全新音色,可从年龄、性别、口音、音质等多维度自由定义
MiMo V2.5 TTS VoiceClone
小米音色克隆模型,仅需数秒参考音频即可高保真复刻人声,无需训练或微调
MiMo V2.5 ASR
小米语音识别模型,支持中英双语、中文方言、Code-Switch,在强噪音、多说话人场景下表现优异
Qwen ASR Realtime
千问实时语音识别模型,适用于实时会议记录、直播字幕等场景
CosyVoice V3.5 Flash
快速语音合成模型,低延迟适合实时场景
LongCat-Audio-Codec
高效语音编解码器,助力实时交互落地
Fish Audio S1
表现力语音克隆和文本转语音模型
Fish Audio S2 Pro
多语言TTS,80+语言,1000万小时训练数据,Dual-AR架构
GLM-TTS
智谱AI GLM-TTS 语音合成模型
GLM-TTS-Clone
智谱AI GLM-TTS-Clone 音色克隆模型
GLM-ASR-2512
智谱AI GLM-ASR-2512 语音识别模型
MiniMax Speech 2.6
MiniMax Speech 2.6 语音合成模型
MiniMax Music 2.5
MiniMax Music 2.5 音乐生成模型
MiniMax Music 2.6
MiniMax Music 2.6 最新音乐生成模型
Spark ASR Pro
科大讯飞星火语音识别大模型
Kimi Audio
月之暗面 Kimi Audio 音频多模态模型
Qwen3 Omni Flash
通义千问 Qwen3 Omni Flash 全模态模型
Qwen3 TTS Flash
通义千问 Qwen3 TTS Flash 语音合成模型
Qwen3 ASR Flash
通义千问 Qwen3 ASR Flash 语音识别模型
Udio v1
Udio基础音乐生成模型
Step Audio 2
阶跃 Step Audio 2 语音模型
Step ASR
阶跃 Step ASR 语音识别模型
Sonic
Cartesia实时语音合成模型
Aura-2
Deepgram最新语音识别模型
TicVoice
Mobvoi智能语音助手
星火语音合成
科大讯飞超拟人语音合成模型
星火语音识别
科大讯飞语音识别大模型
一句话复刻
科大讯飞一句话复刻模型
Sonic-OS
Cartesia开源语音合成模型
Nova-3
Deepgram Nova-3语音识别
ElevenLabs Turbo v2.5
ElevenLabs快速语音合成