掌握视觉问答技术,理解图像内容理解与自然语言问答的结合方法。VQA任务定义:基于图像的自然语言问答;模型架构:双流编码、注意力融合;数据集:VQA v2、GQA、OK-VQA;评估指标:准确率、一致性评分;应用场景:教育、医疗、电商。
GPT-4V系统卡片
掘金VQA数据集
机器之心VQA应用
51CTO中文数据集
InfoQ VQA评估