视觉语言模型

理解视觉语言模型的核心架构，掌握多模态大模型的原理和应用。VLM架构：视觉编码器 + LLM融合；代表模型：GPT-4V、Gemini、Claude Vision；开源VLM：LLaVA、Qwen-VL、Yi-VL；训练方法：预训练、指令微调、对齐；能力评估：视觉问答、图像理解、推理。