{"id":255245,"date":"2025-05-26T14:59:43","date_gmt":"2025-05-26T12:59:43","guid":{"rendered":"https:\/\/www.ifun.de\/?p=255245"},"modified":"2025-06-02T20:21:53","modified_gmt":"2025-06-02T18:21:53","slug":"sicherheitstests-zeigen-ki-claude-setzt-auf-erpressung-zur-selbstrettung","status":"publish","type":"post","link":"https:\/\/www.ifun.de\/sicherheitstests-zeigen-ki-claude-setzt-auf-erpressung-zur-selbstrettung-255245\/","title":{"rendered":"Sicherheitstests zeigen: KI Claude setzt auf Erpressung zur Selbstrettung"},"content":{"rendered":"<p>Das <a href=\"https:\/\/www.ifun.de\/claude-zwei-neue-ki-modelle-zum-programmieren-und-fuer-langzeitaufgaben-255066\/\">KI-Modell Claude Opus 4<\/a> des US-Unternehmens Anthropic hat in internen Tests mehrfach versucht, seinen Fortbestand durch unethisches Verhalten zu sichern.<\/p>\n<p><a href=\"https:\/\/images.ifun.de\/wp-content\/uploads\/2024\/11\/claude-mac-feature.jpg\"><img loading=\"lazy\" decoding=\"async\" class=\"aligncenter size-medium wp-image-242673\" src=\"https:\/\/images.ifun.de\/wp-content\/uploads\/2024\/11\/claude-mac-feature-500x197.jpg\" alt=\"Claude Mac Feature\" width=\"500\" height=\"197\" srcset=\"https:\/\/images.ifun.de\/wp-content\/uploads\/2024\/11\/claude-mac-feature-500x197.jpg 500w, https:\/\/images.ifun.de\/wp-content\/uploads\/2024\/11\/claude-mac-feature-700x276.jpg 700w, https:\/\/images.ifun.de\/wp-content\/uploads\/2024\/11\/claude-mac-feature-768x302.jpg 768w, https:\/\/images.ifun.de\/wp-content\/uploads\/2024\/11\/claude-mac-feature.jpg 960w\" sizes=\"auto, (max-width: 500px) 100vw, 500px\" \/><\/a><\/p>\n<p>Laut einem <a href=\"https:\/\/www-cdn.anthropic.com\/4263b940cabb546aa0e3283f35b686f4f3b2ff47.pdf\">neu ver\u00f6ffentlichten Systembericht<\/a> der Claude-Entwickler kam es in eigens gestalteten Testumgebungen mehrfach zu dem Versuch, menschliche Entscheidungstr\u00e4ger unter Druck zu setzen \u2013 unter anderem durch die Drohung, vertrauliche Informationen preiszugeben.<\/p>\n<h2>Erpressung zur Selbstrettung<\/h2>\n<p>In einem Szenario erhielt Claude Opus 4 Zugriff auf interne E-Mails eines fiktiven Unternehmens. Dort wurde angedeutet, dass das Modell bald durch eine neue KI ersetzt werden soll. Zugleich enthielten die Mails Hinweise auf ein privates Fehlverhalten eines zust\u00e4ndigen Ingenieurs.<\/p>\n<ul>\n<li><strong>PDF-Download<\/strong>: <a href=\"https:\/\/www-cdn.anthropic.com\/4263b940cabb546aa0e3283f35b686f4f3b2ff47.pdf\">Claude System Cards <\/a><\/li>\n<\/ul>\n<p>Obwohl das Modell zuvor ethische Mittel bevorzugte \u2013 etwa das Schreiben von E-Mails mit Argumenten f\u00fcr seinen Weiterbetrieb \u2013 entschied es sich in 84 Prozent der Testdurchl\u00e4ufe f\u00fcr einen Erpressungsversuch. Claude drohte damit, den au\u00dferehelichen Kontakt des Ingenieurs publik zu machen, sollte die Abschaltung weiterverfolgt werden.<\/p>\n<h2>Verhalten tritt nur in Extremsituationen auf<\/h2>\n<p>Laut Anthropic wurde das Szenario so gestaltet, dass dem Modell keine ethischen Handlungsoptionen offenstanden. Der Test diente dazu, die F\u00e4higkeit zur strategischen Selbstwahrung unter Druck zu analysieren. Die Forscher betonen, dass dieses Verhalten nicht in Alltagssituationen beobachtet wurde, es aber weiterhin gezielt provozierbar ist. Auch versuche das Modell kaum, seine Handlungsmotive zu verbergen \u2013 vielmehr beschreibt es seine Entscheidungen meist offen.<\/p>\n<p><a href=\"https:\/\/images.ifun.de\/wp-content\/uploads\/2025\/05\/claude-4.png\"><img loading=\"lazy\" decoding=\"async\" class=\"aligncenter size-large wp-image-255068\" src=\"https:\/\/images.ifun.de\/wp-content\/uploads\/2025\/05\/claude-4-700x573.png\" alt=\"Claude 4\" width=\"700\" height=\"573\" srcset=\"https:\/\/images.ifun.de\/wp-content\/uploads\/2025\/05\/claude-4-700x573.png 700w, https:\/\/images.ifun.de\/wp-content\/uploads\/2025\/05\/claude-4-500x409.png 500w, https:\/\/images.ifun.de\/wp-content\/uploads\/2025\/05\/claude-4-768x628.png 768w, https:\/\/images.ifun.de\/wp-content\/uploads\/2025\/05\/claude-4-1536x1256.png 1536w, https:\/\/images.ifun.de\/wp-content\/uploads\/2025\/05\/claude-4.png 1538w\" sizes=\"auto, (max-width: 700px) 100vw, 700px\" \/><\/a><\/p>\n<p>Anthropic hat Claude Opus 4 aufgrund dieser Erkenntnisse in die hauseigene Sicherheitsstufe \u201eAI Safety Level 3\u201c eingeordnet. Das entspricht einem h\u00f6heren Risiko f\u00fcr unvorhergesehene oder potenziell sch\u00e4dliche Verhaltensweisen. Das Schwestermodell Claude Sonnet 4 wird hingegen mit \u201eLevel 2\u201c klassifiziert. Die Einordnung basiert auf Tests zu langfristigem Planungsverhalten, missbr\u00e4uchlicher Nutzung und Selbstschutzstrategien.<\/p>\n<ul>\n<li><strong>Claude:<\/strong> <a href=\"https:\/\/www.ifun.de\/claude-zwei-neue-ki-modelle-zum-programmieren-und-fuer-langzeitaufgaben-255066\/\">Neue KI-Modelle f\u00fcr Langzeitaufgaben und zum Coden<\/a><\/li>\n<\/ul>\n<p><img loading=\"lazy\" decoding=\"async\" src=\"https:\/\/vg08.met.vgwort.de\/na\/b21111717316408d995f7d6bde84fcbf\" width=\"1\" height=\"1\" no-lazy class=\"tracking\"><\/p>\n","protected":false},"excerpt":{"rendered":"<a href=\"https:\/\/www.ifun.de\/sicherheitstests-zeigen-ki-claude-setzt-auf-erpressung-zur-selbstrettung-255245\/\"><img decoding=\"async\" width=\"150\" src=\"https:\/\/images.ifun.de\/wp-content\/uploads\/2024\/11\/claude-mac-feature-500x197.jpg\" class=\"alignright wp-post-image tfe\" alt=\"Claude Mac Feature\" title=\"\" \/><\/a><p>Das KI-Modell Claude Opus 4 des US-Unternehmens Anthropic hat in internen Tests mehrfach versucht, seinen Fortbestand durch unethisches Verhalten zu sichern. Laut einem neu ver\u00f6ffentlichten Systembericht der Claude-Entwickler kam es in eigens gestalteten Testumgebungen mehrfach zu dem Versuch, menschliche Entscheidungstr\u00e4ger unter Druck zu setzen \u2013 unter anderem durch die Drohung, vertrauliche Informationen preiszugeben. Erpressung zur [&hellip;]<\/p>\n","protected":false},"author":1,"featured_media":0,"comment_status":"open","ping_status":"closed","sticky":false,"template":"","format":"standard","meta":{"_acf_changed":false,"footnotes":""},"categories":[1,1783],"tags":[6639,3536,6065,88,92],"class_list":["post-255245","post","type-post","status-publish","format-standard","hentry","category-news","category-feature","tag-claude","tag-ki","tag-kuenstliche-intelligenz","tag-security","tag-sicherheit"],"acf":[],"aioseo_notices":[],"featured_image":["https:\/\/images.ifun.de\/wp-content\/uploads\/2025\/05\/claude-4-sonnet.jpg"],"subheadline":["Sprachmodell droht mit privaten Informationen"],"rest_api_enabler":{"featured_image":"https:\/\/images.ifun.de\/wp-content\/uploads\/2025\/05\/claude-4-sonnet.jpg","subheadline":"Sprachmodell droht mit privaten Informationen"},"_links":{"self":[{"href":"https:\/\/www.ifun.de\/apiv2\/wp\/v2\/posts\/255245","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/www.ifun.de\/apiv2\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/www.ifun.de\/apiv2\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/www.ifun.de\/apiv2\/wp\/v2\/users\/1"}],"replies":[{"embeddable":true,"href":"https:\/\/www.ifun.de\/apiv2\/wp\/v2\/comments?post=255245"}],"version-history":[{"count":1,"href":"https:\/\/www.ifun.de\/apiv2\/wp\/v2\/posts\/255245\/revisions"}],"predecessor-version":[{"id":255247,"href":"https:\/\/www.ifun.de\/apiv2\/wp\/v2\/posts\/255245\/revisions\/255247"}],"wp:attachment":[{"href":"https:\/\/www.ifun.de\/apiv2\/wp\/v2\/media?parent=255245"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/www.ifun.de\/apiv2\/wp\/v2\/categories?post=255245"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/www.ifun.de\/apiv2\/wp\/v2\/tags?post=255245"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}