导航菜单
切换主题

视觉语言模型

理解视觉语言模型的核心架构,掌握多模态大模型的原理和应用。VLM架构:视觉编码器 + LLM融合;代表模型:GPT-4V、Gemini、Claude Vision;开源VLM:LLaVA、Qwen-VL、Yi-VL;训练方法:预训练、指令微调、对齐;能力评估:视觉问答、图像理解、推理。

学习资源(0 个)

📭

没有符合筛选条件的资源