导航菜单

切换主题

视觉语言模型

理解视觉语言模型的核心架构，掌握多模态大模型的原理和应用。VLM架构：视觉编码器 + LLM融合；代表模型：GPT-4V、Gemini、Claude Vision；开源VLM：LLaVA、Qwen-VL、Yi-VL；训练方法：预训练、指令微调、对齐；能力评估：视觉问答、图像理解、推理。

资源类型

全部 📄 文章 🎬 视频 💻 代码 📚 官方文档 🤖 大模型官方

难度

全部入门进阶高级专家

学习资源(2 个)

智谱GLM-4V

智谱视觉模型

百度文心一言视觉

文心视觉API