导航菜单

切换主题

多模态应用

多模态应用模块：图像生成、语音处理、视频应用、跨模态应用

学习分支(4 个)

图像生成

图像生成分支：扩散模型基础、Stable Diffusion、DALL-E系列、Midjourney、ControlNet与LoRA、图像生成应用实践

语音处理

语音处理分支：语音识别ASR、语音合成TTS、声音克隆、音频理解、实时语音应用

视频应用

视频应用分支：视频生成模型、Sora与视频理解、AI视频编辑、实时视频处理、视频应用最佳实践

跨模态应用

跨模态应用分支：视觉语言模型、图像描述生成、视觉问答、文档理解、多模态RAG、多模态Agent