导航菜单
切换主题

🎵 音频模型

38 个模型

其他模型(38)

CosyVoice V3.5 Plus

主流
阿里巴巴

高质量语音合成模型,支持多种音色和情感控制

音频国内闭源

MiniMax Speech 2.8

主流
MiniMax

MiniMax Speech 2.8 最新语音合成模型

音频国内闭源

Fish Speech v2

Fish Audio

Fish Audio语音合成v2

国内闭源

文心语音合成

百度

文心语音合成模型

国内闭源

文心语音识别

百度

文心语音识别模型

国内闭源

speech-2.8-hd

MiniMax

MiniMax 语音合成 2.8 高清版

国内闭源

speech-2.8-turbo

MiniMax

MiniMax 语音合成 2.8 快速版

国内闭源

Music-2.6

MiniMax

MiniMax 音乐生成 2.6 模型

国内闭源

Doubao-Speech-Recognition

字节跳动

豆包语音识别模型

国内闭源

Doubao-Speech-Synthesis

字节跳动

豆包语音合成模型

国内闭源

Doubao-Music

字节跳动

豆包音乐生成模型

国内闭源

通义听悟

阿里巴巴

通义听悟音视频理解服务

国内闭源

MiMo V2.5 TTS

小米

小米语音合成模型,内置多款精品音色,支持导演级语音控制,可通过自然语言指令精细调度语速、情绪与语气

国内闭源

MiMo V2.5 TTS VoiceDesign

小米

小米音色设计模型,支持通过一句自然语言描述生成全新音色,可从年龄、性别、口音、音质等多维度自由定义

国内闭源

MiMo V2.5 TTS VoiceClone

小米

小米音色克隆模型,仅需数秒参考音频即可高保真复刻人声,无需训练或微调

国内闭源

MiMo V2.5 ASR

小米

小米语音识别模型,支持中英双语、中文方言、Code-Switch,在强噪音、多说话人场景下表现优异

国内开源

Qwen ASR Realtime

阿里巴巴

千问实时语音识别模型,适用于实时会议记录、直播字幕等场景

国内闭源

CosyVoice V3.5 Flash

阿里巴巴

快速语音合成模型,低延迟适合实时场景

国内闭源

LongCat-Audio-Codec

美团

高效语音编解码器,助力实时交互落地

国内开源

Fish Audio S1

Fish Audio

表现力语音克隆和文本转语音模型

国内开源

Fish Audio S2 Pro

Fish Audio

多语言TTS,80+语言,1000万小时训练数据,Dual-AR架构

国内开源

GLM-TTS

智谱AI

智谱AI GLM-TTS 语音合成模型

国内闭源

GLM-TTS-Clone

智谱AI

智谱AI GLM-TTS-Clone 音色克隆模型

国内闭源

GLM-ASR-2512

智谱AI

智谱AI GLM-ASR-2512 语音识别模型

国内闭源

MiniMax Speech 2.6

MiniMax

MiniMax Speech 2.6 语音合成模型

国内闭源

MiniMax Music 2.5

MiniMax

MiniMax Music 2.5 音乐生成模型

国内闭源

MiniMax Music 2.6

MiniMax

MiniMax Music 2.6 最新音乐生成模型

国内闭源

Spark ASR Pro

科大讯飞

科大讯飞星火语音识别大模型

国内闭源

Kimi Audio

月之暗面

月之暗面 Kimi Audio 音频多模态模型

国内开源

Qwen3 Omni Flash

阿里巴巴

通义千问 Qwen3 Omni Flash 全模态模型

国内闭源
32,768

Qwen3 TTS Flash

阿里巴巴

通义千问 Qwen3 TTS Flash 语音合成模型

国内闭源

Qwen3 ASR Flash

阿里巴巴

通义千问 Qwen3 ASR Flash 语音识别模型

国内闭源

Step Audio 2

阶跃星辰

阶跃 Step Audio 2 语音模型

国内闭源

Step ASR

阶跃星辰

阶跃 Step ASR 语音识别模型

国内闭源

TicVoice

出门问问

Mobvoi智能语音助手

国内闭源

星火语音合成

科大讯飞

科大讯飞超拟人语音合成模型

国内闭源

星火语音识别

科大讯飞

科大讯飞语音识别大模型

国内闭源

一句话复刻

科大讯飞

科大讯飞一句话复刻模型

国内闭源