导航菜单
切换主题
🧠 模型行业应用

理解和防止错位泛化

2025年6月18日
0 阅读
阅读原文
OpenAI研究如何通过不正确响应的训练导致语言模型更广泛的错位,并识别驱动此行为的内部特征——这一特征可以通过最少的微调来逆转。研究为AI对齐问题提供了新见解。

相关推荐