Llama 3.2 Vision 系列是 Meta 的多模态模型,支持图像理解和视觉推理。
Llama 3.2 11B Vision 是中等规模的多模态模型,在图像推理任务上表现优秀,适合需要视觉能力的应用场景。
Llama 3.2 90B Vision 是 Meta 最大的多模态模型,支持图像推理任务,如文档理解、图像描述和视觉定位。