理解和防止错位泛化

2025年6月18日

0 阅读

OpenAI研究如何通过不正确响应的训练导致语言模型更广泛的错位，并识别驱动此行为的内部特征——这一特征可以通过最少的微调来逆转。研究为AI对齐问题提供了新见解。

相关推荐