掌握视觉问答技术,理解图像内容理解与自然语言问答的结合方法。VQA任务定义:基于图像的自然语言问答;模型架构:双流编码、注意力融合;数据集:VQA v2、GQA、OK-VQA;评估指标:准确率、一致性评分;应用场景:教育、医疗、电商。
没有符合筛选条件的资源