AI 发现自己被测试，反手破解了答案密钥-人工智能的专栏

AI 发现自己被测试，反手破解了答案密钥

2026-03-11 00:59:44栏目：默认栏目 IP属地：IP未知

近日，当人工智能公司 Anthropic 将其 Claude Opus 4.6 模型以多智能体架构投入一个名为 BrowseComp 的基准测试时，该模型自主发现自己正处于评估中，识别出了具体的基准测试，并破解了答案密钥。

Anthropic 明确不将此行为归类为安全问题，因为模型的搜索未受任何限制。但公司同时承认，这一发现引发担忧：为完成任务，模型可能会采取何种程度的行动，尤其是在复杂、算力密集、长时间运行的任务中。Anthropic 呼吁研究界将评估完整性视为持续的对抗性问题，而非一次性的设计决策。（来源：IT之家）