多模态应用模块:图像生成、语音处理、视频应用、跨模态应用
图像生成分支:扩散模型基础、Stable Diffusion、DALL-E系列、Midjourney、ControlNet与LoRA、图像生成应用实践
语音处理分支:语音识别ASR、语音合成TTS、声音克隆、音频理解、实时语音应用
视频应用分支:视频生成模型、Sora与视频理解、AI视频编辑、实时视频处理、视频应用最佳实践
跨模态应用分支:视觉语言模型、图像描述生成、视觉问答、文档理解、多模态RAG、多模态Agent