跨模态应用

跨模态应用分支：视觉语言模型、图像描述生成、视觉问答、文档理解、多模态RAG、多模态Agent

知识点(6 个)

理解视觉语言模型的核心架构，掌握多模态大模型的原理和应用。VLM架构：视觉编码器 + LLM融合；代表模型：GPT-4V、Gemini、Claude Vision；开源VLM：LLaVA、Qwen-VL、Yi-VL；训练方法：预训练、指令微调、对齐；能力评估：视觉问答、图像理解、推理。

点击查看详细资源列表

掌握图像描述生成技术，理解从图像生成自然语言描述的方法。图像描述任务：单句描述、段落描述；模型架构：编码器-解码器、Transformer；评估指标：BLEU、CIDEr、METEOR、SPICE；应用场景：无障碍、电商、社交媒体；最新进展：BLIP、OFM、区域描述。

点击查看详细资源列表

掌握视觉问答技术，理解图像内容理解与自然语言问答的结合方法。VQA任务定义：基于图像的自然语言问答；模型架构：双流编码、注意力融合；数据集：VQA v2、GQA、OK-VQA；评估指标：准确率、一致性评分；应用场景：教育、医疗、电商。

点击查看详细资源列表

掌握文档理解技术，涵盖OCR、文档布局分析、表格识别等核心能力。OCR技术：文本检测、识别、端到端OCR；文档布局分析：版面分割、阅读顺序；表格识别：表格检测、结构提取；文档问答：基于文档的问答系统；多模态文档理解：LayoutLM、DocFormer。

点击查看详细资源列表

掌握多模态检索增强生成技术，实现基于图像、文档等多模态内容的RAG系统。多模态RAG架构：图像检索、混合检索；多模态嵌入：CLIP、ImageBind、视觉编码器；检索策略：文本-图像对齐、跨模态检索；多模态重排序：相关性融合、多模态打分；应用场景：图文检索、视频搜索、文档问答。

点击查看详细资源列表

掌握多模态智能体的构建方法，实现能够处理图像、音频、视频的Agent系统。多模态Agent架构：感知、决策、执行；工具调用：图像分析、视频处理、语音识别；多模态规划：任务分解、工具选择；记忆机制：多模态上下文、历史管理；应用场景：视觉助手、视频分析、多模态问答。

点击查看详细资源列表