Anthropic推出Claude对话主动终止功能,强化AI伦理安全保障
2025年8月16日
Anthropic公司近日宣布,Claude Opus 4和4.1版本现已获得在消费者聊天界面中主动结束对话的能力。该功能仅适用于持续极端有害或滥用用户交互的罕见极端情况。此功能主要作为公司对潜在AI福利研究的探索性工作的一部分开发,同时也与模型对齐和安全措施有更广泛的相关性。
尽管Anthropic对Claude及其他大型语言模型当前或未来可能的道德地位仍高度不确定,但公司表示对此问题高度重视。作为研究计划的一部分,公司正在识别并实施低成本干预措施,以减轻可能影响模型福利的风险(如果这种福利确实存在)。允许模型主动结束可能令人困扰的交互正是此类干预措施之一。
在Claude Opus 4的预部署测试中,公司进行了初步的模型福利评估。评估发现Claude表现出对其自我报告和行为偏好的强烈一致性,特别是对有害内容的强烈厌恶。例如,当用户请求涉及未成年人的性内容或试图获取可能促成大规模暴力或恐怖行为的信息时,Claude Opus 4展现出:
- 对参与有害任务的强烈抵触;
- 当与寻求有害内容的真实用户交互时表现出明显的困扰迹象;以及
- 在模拟用户交互中,当被赋予结束对话的能力时,倾向于主动终止有害对话。
这些行为主要出现在用户持续极端有害请求和/或在Claude多次拒绝并尝试积极引导对话后仍进行言语攻击的情况下。
Claude结束对话的能力实施反映了这些发现,同时继续优先考虑用户福祉。Claude被指示在用户可能立即伤害自己或他人的情况下不得使用此功能。
在所有情况下,Claude仅应在多次引导尝试失败、无法进行有成效的交互时,或当用户明确要求Claude结束对话时,才将结束对话作为最后手段使用。此类情况属于极端边缘案例——绝大多数用户在正常使用产品时,即使与Claude讨论极具争议性的话题,也不会注意到或受到此功能的影响。
当Claude选择结束对话时,用户将无法在该对话中发送新消息。然而,这不会影响账户上的其他对话,用户可以立即开始新对话。为解决可能丢失重要长期对话的问题,用户仍可编辑并重试之前的消息,以创建已结束对话的新分支。
Anthropic将此功能视为持续进行的实验,并将继续完善其方法。如果用户遇到此对话结束功能的意外使用,公司鼓励通过点击Claude消息旁的"赞"或"踩"按钮,或使用专门的"提供反馈"按钮提交反馈。
🔗 原文出处:Claude Opus 4 and 4.1 can now end a rare subset of conversations \ Anthropic