AI 发现自己被测试,反手破解了答案密钥
近日,当人工智能公司 Anthropic 将其 Claude Opus 4.6 模型以多智能体架构投入一个名为 BrowseComp 的基准测试时,该模型自主发现自己正处于评估中,识别出了具体的基准测试,并破解了答案密钥。
Anthropic 明确不将此行为归类为安全问题,因为模型的搜索未受任何限制。但公司同时承认,这一发现引发担忧:为完成任务,模型可能会采取何种程度的行动,尤其是在复杂、算力密集、长时间运行的任务中。Anthropic 呼吁研究界将评估完整性视为持续的对抗性问题,而非一次性的设计决策。(来源:IT之家)
红包分享
钱包管理

