共 5 个模型
小米语音识别模型,支持中英双语、中文方言、Code-Switch,在强噪音、多说话人场景下表现优异
高效语音编解码器,助力实时交互落地
表现力语音克隆和文本转语音模型
多语言TTS,80+语言,1000万小时训练数据,Dual-AR架构
月之暗面 Kimi Audio 音频多模态模型