Phi-3.5-Vision 是Microsoft的多模态模型,支持图像和文本的联合理解,参数仅4.2B。
使用方法
1
通过Azure OpenAI调用
2
或从HuggingFace下载
3
发送多模态请求
核心参数
上下文窗口
128,000
最大输出
4,096
输入模态
text+image
开源状态
开源
API 定价
🌱 开源模型
该模型为开源模型,可免费使用或自行部署
功能特性
多模态理解
轻量高效
图像文本联合
适用场景
开发者
视觉应用
常见问题
Phi-3.5-Vision是什么?▼
Phi-3.5-Vision 是Microsoft的多模态模型,支持图像和文本的联合理解,参数仅4.2B。
Phi-3.5-Vision的核心参数是什么?▼
Phi-3.5-Vision是Microsoft推出的模型,上下文窗口128,000tokens,最大输出4,096tokens,开源模型。
Phi-3.5-Vision的API价格是多少?▼
Phi-3.5-Vision是开源模型,可以免费下载使用。如需API服务,可使用各大推理平台提供的托管服务。
Phi-3.5-Vision有哪些主要功能?▼
多模态理解、轻量高效、图像文本联合
