Sicherheitstests zeigen: KI Claude setzt auf Erpressung zur Selbstrettung
Das KI-Modell Claude Opus 4 des US-Unternehmens Anthropic hat in internen Tests mehrfach versucht, seinen Fortbestand durch unethisches Verhalten zu sichern. Laut einem neu veröffentlichten Systembericht der Claude-Entwickler kam es in eigens gestalteten Testumgebungen mehrfach zu dem Versuch, menschliche Entscheidungsträger unter Druck zu setzen – unter anderem durch die Drohung, vertrauliche Informationen preiszugeben. In einem Szenario erhielt Claude Opus 4 Zugriff auf interne E-Mails ... →