• 打印
  • 收藏
收藏成功
分享

连ChatGPT都学会了“阿谀奉承”,AI还会往哪里去?


打开文本图片集

你是否想过,ChatGPT生成的答案会受到用户个人偏好的影响,回复一些足够“阿谀奉承(sycophancy)”的話,而非中立或真实的信息?

实际上,这种现象存在于包括ChatGPT在内的大多数AI模型之中,而罪魁祸首竞可能是“基于人类反馈的强化学习(RLHF)”。

近日,OpenAI在美国硅谷的最强竞争对手Anthropic在研究经过RLHF训练的模型时,便探究了“阿谀奉承”这一行为在AI模型中的广泛存在及其是否受到人类偏好的影响。(剩余1905字)

网站仅支持在线阅读(不支持PDF下载),如需保存文章,可以选择【打印】保存。

畅销排行榜
monitor