Nemotron-4-340B-Reward 是NVIDIA的奖励模型,用于RLHF训练和内容质量评估。
使用方法
1
从NVIDIA NIM下载
2
部署为奖励模型
3
评估内容质量
核心参数
上下文窗口
4,096
最大输出
1
输入模态
文本
开源状态
开源
API 定价
🌱 开源模型
该模型为开源模型,可免费使用或自行部署
功能特性
奖励模型
RLHF训练
质量评估
适用场景
研究人员
AI训练
常见问题
Nemotron-4-340B-Reward是什么?▼
Nemotron-4-340B-Reward 是NVIDIA的奖励模型,用于RLHF训练和内容质量评估。
Nemotron-4-340B-Reward的核心参数是什么?▼
Nemotron-4-340B-Reward是NVIDIA推出的模型,上下文窗口4,096tokens,最大输出1tokens,开源模型。
Nemotron-4-340B-Reward的API价格是多少?▼
Nemotron-4-340B-Reward是开源模型,可以免费下载使用。如需API服务,可使用各大推理平台提供的托管服务。
Nemotron-4-340B-Reward有哪些主要功能?▼
奖励模型、RLHF训练、质量评估
