理解视觉语言模型的核心架构,掌握多模态大模型的原理和应用。VLM架构:视觉编码器 + LLM融合;代表模型:GPT-4V、Gemini、Claude Vision;开源VLM:LLaVA、Qwen-VL、Yi-VL;训练方法:预训练、指令微调、对齐;能力评估:视觉问答、图像理解、推理。
智谱视觉模型
文心视觉API