多模态 Agent
掌握多模态智能体的构建方法,实现能够处理图像、音频、视频的Agent系统。多模态Agent架构:感知、决策、执行;工具调用:图像分析、视频处理、语音识别;多模态规划:任务分解、工具选择;记忆机制:多模态上下文、历史管理;应用场景:视觉助手、视频分析、多模态问答。
学习资源(12 个)
📎
Multimodal Agents
多模态Agent论文
高级
📎
LangChain Multimodal Agent
LangChain多模态Agent
进阶
📎
GPT-4V Agent
GPT-4V Agent研究
进阶
📎
Visual Tool Use
视觉工具使用论文
高级
📎
Agent Planning
Agent规划论文
高级
📎
Multimodal Memory
多模态记忆论文
高级
📎
Vision Assistant
视觉助手论文
高级
📎
GPT-4V Agent实践
掘金GPT-4V Agent
进阶
📎
视觉助手技术栈
机器之心视觉助手
进阶
📎
多模态规划算法
51CTO规划算法
高级
📎
多模态记忆机制
InfoQ记忆机制
高级
📎
智谱多模态Agent
智谱Agent API
入门