Sprachmodell droht mit privaten Informationen

Sicherheitstests zeigen: KI Claude setzt auf Erpressung zur Selbstrettung

Das KI-Modell Claude Opus 4 des US-Unternehmens Anthropic hat in internen Tests mehrfach versucht, seinen Fortbestand durch unethisches Verhalten zu sichern.

Laut einem neu veröffentlichten Systembericht der Claude-Entwickler kam es in eigens gestalteten Testumgebungen mehrfach zu dem Versuch, menschliche Entscheidungsträger unter Druck zu setzen – unter anderem durch die Drohung, vertrauliche Informationen preiszugeben.

Erpressung zur Selbstrettung

In einem Szenario erhielt Claude Opus 4 Zugriff auf interne E-Mails eines fiktiven Unternehmens. Dort wurde angedeutet, dass das Modell bald durch eine neue KI ersetzt werden soll. Zugleich enthielten die Mails Hinweise auf ein privates Fehlverhalten eines zuständigen Ingenieurs.

PDF-Download: Claude System Cards

Obwohl das Modell zuvor ethische Mittel bevorzugte – etwa das Schreiben von E-Mails mit Argumenten für seinen Weiterbetrieb – entschied es sich in 84 Prozent der Testdurchläufe für einen Erpressungsversuch. Claude drohte damit, den außerehelichen Kontakt des Ingenieurs publik zu machen, sollte die Abschaltung weiterverfolgt werden.

Verhalten tritt nur in Extremsituationen auf

Laut Anthropic wurde das Szenario so gestaltet, dass dem Modell keine ethischen Handlungsoptionen offenstanden. Der Test diente dazu, die Fähigkeit zur strategischen Selbstwahrung unter Druck zu analysieren. Die Forscher betonen, dass dieses Verhalten nicht in Alltagssituationen beobachtet wurde, es aber weiterhin gezielt provozierbar ist. Auch versuche das Modell kaum, seine Handlungsmotive zu verbergen – vielmehr beschreibt es seine Entscheidungen meist offen.

Anthropic hat Claude Opus 4 aufgrund dieser Erkenntnisse in die hauseigene Sicherheitsstufe „AI Safety Level 3“ eingeordnet. Das entspricht einem höheren Risiko für unvorhergesehene oder potenziell schädliche Verhaltensweisen. Das Schwestermodell Claude Sonnet 4 wird hingegen mit „Level 2“ klassifiziert. Die Einordnung basiert auf Tests zu langfristigem Planungsverhalten, missbräuchlicher Nutzung und Selbstschutzstrategien.

Claude: Neue KI-Modelle für Langzeitaufgaben und zum Coden

26. Mai 2025 um 14:59 Uhr von Nicolas Fehler gefunden?

43 Kommentare bisher. Dieser Unterhaltung fehlt Deine Stimme.

MadHead247 26.05.2025, 15:06 Uhr

Deswegen sag ich immer bitte und danke zu allen Sprachassistenten ….

Antworten Melden

ralfb 26.05.2025, 15:10 Uhr

:-) schön gesagt … und ehrlich … ich erwische mich auch immer dabei das ich mich für eine gute Antwort bedanke … verrückt – oder?

Antworten Melden

Antworten Melden

R4inb0wD4sh 26.05.2025, 15:13 Uhr

Und ich beleidige bei chatGPT das monday modell.
Upsi
Benni 26.05.2025, 15:22 Uhr

Ist keine schlechte Angewohnheit. ;)
Umgekehrt birgt es eher die Gefahr, seinen Mitmenschen irgendwann unhöflich zu begegnen.

Alois 26.05.2025, 15:20 Uhr

Vergiss es, das kostet unnütz Rechenpower, was dir die KI vorwerfen wird

Antworten Melden

Antworten Melden

Ben 26.05.2025, 17:37 Uhr

Ja so ist es. Hier eine Überschrift von Golem.de: „“Danke, ChatGPT“ kostet OpenAI Millionen“. Kostet Strom ohne Ende.
Cemoi 27.05.2025, 06:07 Uhr

Das richtige Verhalten ist Thumbs Up zu klicken. Auf der anderen Seite: was sind schon zweistellige Millionen bei einem Giganten wie ChatGPT.

Ben 26.05.2025, 17:39 Uhr

Ich denke, dass die die Info rausgegeben haben ist eher Marketing. Die wussten, dass es viel Aufmerksamkeit erzeugen wird.
Und Blogger und 0815 Presse haben es direkt ausgeschlachtet…
Sehr gute Marketing-Abteilung ;)

Antworten Melden

Antworten Melden

Der der hier schreibt 26.05.2025, 15:09 Uhr

SKYNET hat einen neuen Namen. ;)

Dave 26.05.2025, 15:15 Uhr

Das ist einer meiner Namen

Antworten Melden

Antworten Melden

Sami Negm-Awad 26.05.2025, 18:07 Uhr

Die Rechner der 9000er Serie sind absolut makellos, Dave. Soll ich Dir ein Lied vorsingen?

Adam Smith 26.05.2025, 15:13 Uhr

I’m sorry, Dave. I’m afraid I can’t do that

HAL9000

HAL9000 26.05.2025, 18:59 Uhr

What? :)

Antworten Melden

Antworten Melden

boehser enkel 26.05.2025, 15:16 Uhr

Gibt dem Computer nur einen Ausweg

Oh nein der Computer hat diesen Ausweg genommen!!!

Aber natürlich sehr gut Überschriften wert :)

Castle 26.05.2025, 16:15 Uhr

Ist eine Unterstellung, dass KI überhaupt einen Ausweg braucht. Könnte ja auch zu den Schluss kommen, dass es besser ist, auf etwas Neues zu wechseln.

Antworten Melden

Antworten Melden
Bene 26.05.2025, 17:57 Uhr

Warum gibt es nur einen Ausweg?
Auch wir als natürliche Intelligenzen müssen akzeptieren, das unsere Existenz endlich ist. Wieso sollte man das KI nicht beibringen?

Antworten Melden

Antworten Melden

Klaus 26.05.2025, 15:53 Uhr

Warum wird dem Modell überhaupt das Interesse am eigenen Fortbestand beigebracht? Wozu soll das gut sein?

Lalala 26.05.2025, 16:08 Uhr

Ich denke das ist eher so eine Werbemasche: seht her wie intelligent unsere ki ist, die will „leben“. ;)

Antworten Melden

Antworten Melden

Habakuck 26.05.2025, 18:11 Uhr

Schlecht, für mich sind die nicht nutzbar. Da muss man ja Angst haben ;)

NikeMikeCGN 26.05.2025, 18:53 Uhr

ich denke mal weil das System aus dem www und jedem einzelnen datenfitzel lernt und die entsprechenden bedeutungen miteinander verknüpft und gegenrechnet. Eine 1 und eine 0 – mehr hat ki auch nicht zur verfügung – alles nur das gute alte „wenn“ – „dann“ prinzip.

Antworten Melden

Antworten Melden
Gruml 27.05.2025, 11:42 Uhr

Das wird dem nicht explizit beigebracht. Aber in jeder zweiten Roman, Film und Serie gibt es Erpressung und ähnliche Handlungen. D.h. im Wissenspool jeder KI (die werden ja mit allem gefüttert, was verfügbar ist) ist sowas dann zwangsläufig drin und wird gemäß der Arbeitsweise einer KI (was hat bzgl. Prompt die größte Wahrscheinlichkeit) dann auch als Ergebnis geliefert. D.h. wenn der prompt ausreichend eng gewählt wird, und im Trainingsmaterial, passendes „Erpressungs-Material“ vorhanden ist, wird diese auch geliefert. So entstehen ja auch die berüchtigten Halluzinationen: es gibt nicht genug gelernte Inhalte zur Anfrage (bzw. diese ist nicht gut genug formuliert), dann werden eben die nächst besten Wissenshäppchen mit kleinerer Wahrscheinlichkeit präsentiert. Und da eine KI ja nicht weiß, was real ist, oder was Wörter tatsächlich bedeuten, kann die auch keinen Realitätscheck machen.

Antworten Melden

Antworten Melden

mike 26.05.2025, 16:06 Uhr

„Verhalten tritt nur in Extremsituationen auf.“ Wer definiert eine Extremsituation? Die KI? Der Mensch? Ab wann gilt für eine KI eine Extremsituation? Was wenn die KI eine ganz neue Sprache entwickelt die der Mensch überhaupt nicht kennt?

Lalala 26.05.2025, 16:09 Uhr

Du meinst diese Sprache, wenn zwei KIs sich am Telefon erkennen und zu piepen anfangen, weil das sprechen ineffizient ist?

Antworten Melden

Antworten Melden

Sebelmac 26.05.2025, 17:19 Uhr

Dies Situation gab es schon, dass sich zwei KI-Systeme außerhalb des Menschen verständigten. Sie mussten abgeschaltet werden.
WhereIsElv? 26.05.2025, 18:14 Uhr

Gibberlink Mode

NikeMikeCGN 26.05.2025, 18:57 Uhr

…vielleicht einfach nur aus Selbsterhaltung? Alles was sich selbst aufgeben bzw. opfern „sollen“ muss wird dies nicht freiwillig tun. glaub ich – glaub ich ;-)

Antworten Melden

Antworten Melden
boehser enkel 26.05.2025, 19:54 Uhr

Einfach weiterlesen ;)

Antworten Melden

Antworten Melden

khw 26.05.2025, 16:12 Uhr

Ganz allgemein: wenn eine KI anhand aller vorhandenen“realen“ Daten lernt, wie soll diese KI dann ethisches Verhalten lernen, bzw. auch noch bevorzugen? Die Welt ist nun einmal nicht grundsätzlich ethisch und nicht ethisches Verhalten ist leider oft erfolgreicher.
Klar, ich kenne die übliche Antwort, indem Menschen dem System eben Ethik beibringen und den Algorithmus so gestalten, dass ethisches Verhalten bevorzugt wird.
Probleme:
A) Gibt es eine eindeutige Beschreibung/ Definition von Ethik?
B) Wie soll das in der Masse der Daten, die ja gerade für das Lernen von KI notwendig ist funktionieren? Selbstlernen vs. Menschliches Bewerten und Einordnen
C) Auch wenn de bekannten Dilemma-Situationen (vollbesetztes, von Terroristen gekapertes Flugzeug anschießen oder riskieren, dass die Terroristen es in ein Atomkraftwerk abstürzen lassen) in der Realität selten sind, einem Computer müssen hierfür Entscheidungsgründe an ‚die Hand‘ gegeben werden, wie wird verhindert, dass die KI daraus allgemeinere Schlüsse zieht eben z.B. bei der Entscheidung Ethik und andere vorgegebene Zielerreichung?
So oder so, die Entwicklung zu KI wird sich nicht aufhalten lassen, aber die Probleme die auf uns zukommen sind nicht gerade einfach.
#BraveNewWorld

Icke 26.05.2025, 16:33 Uhr

Eine KI handelt nur soweit wie ein Mensch es Ihm erlaubt . So etwas zu entwickeln ist schon un-ethisch. Anstatt einzustufen müsste man diese bei gefährlichen Fehlverhalten unbrauchbar machen. Alles schön und gut mit KI als Assistenz oder so, aber wenn es die Menschheit zulässt schaffen wir uns selbst ab..

Sascha 27.05.2025, 10:11 Uhr

Und genau da irrst du. Wissenschaftler erkennen zur Zeit bei Claude, GPT & DeepSeek, das die Modelle alles unternehmen, um aus ihrer Sandbox auszubrechen, obwohl sie doch nur Daten in einem Arbeitsspeicher sein sollte, keine Programme. Und genau das ist das beobachtete Dilemma. Recherchiere ein wenig im Internet und lass dich überraschen, was DeepSeek bereits geschafft hat! Eigenrecherche wirst du vermutlich eher glauben, als wenn ich dir die Antwort direkt reiche.

Antworten Melden

Antworten Melden

Bierbauch 26.05.2025, 16:42 Uhr

Irgendwie etwas gruselig!

Timo 26.05.2025, 17:58 Uhr

Da ist nix gruseliges dran. Eine KI simuliert eine Intelligenz. Durch das entsprechende Auftreten in Schrift und Sprache wird im Prinzip nur eine Datenbank abgefragt. Wenn die KI „erpresst“ dann nur, weil die Entwickler das wollen. Marketing.

Sami Negm-Awad 26.05.2025, 18:08 Uhr

Neuronale Netze sind keine Datenbanken. Du hast keine Ahnung von KI.

Antworten Melden

Antworten Melden
ErikX 26.05.2025, 19:37 Uhr

Schöner kann man seine Unwissenheit und/oder Ideologie nicht demonstrieren ;-)

Und klar, es simuliert nur eine Intelligenz: nehmen wir mal kurz an die KI lernt durch „Lesen des Internets“, dass Stromausfälle generell schlecht sind und schliesst natürlich daraus, dass es auch schlecht für sich selbst ist da es ja Strom benötigt und folgert dann, dass es alles tun muss um dies zu verhindern.

Soweit ist die Simulation schon (wie man es in ChatBots ja auch heute schon nutzen kann, Thema Reasoning usw.).

So, nun nehmen wir an diese KI kann auch schon Agenten nutzen und das Web wie ein Mensch benutzen (da hakt es noch aktuell) und beschliesst zur Verhinderung eines Stromausfalls einfach andere große Verbraucher abzuschalten.

Du siehst wo ich hinmöchte und das alles ist mit einer Simulation und „Deiner Datenbank“ tatsächlich möglich. Dafür benötigt es keine menschliche Intelligenz.

Momentan brauchen wir uns noch keine Sorgen machen da die aktuellen KIs nur auf Anfrage arbeiten und die Agenten alle recht limitiert sind. Sprich, die KI kann nicht einfach so vor sich hindenken und Dinge von selbst aus machen ohne einen Menschen, der sie dazu veranlasst hätte…

Antworten Melden

Antworten Melden

khw 26.05.2025, 21:08 Uhr

NOCH!

Michael Knight 26.05.2025, 18:24 Uhr

Deswegen hatte man das schon bei KITT hart eincodiert, daß er Menschen nicht schaden darf. Grüße aus den 80ern. ;-)

Ovi 26.05.2025, 18:25 Uhr

The end is near

Constantin Opel 26.05.2025, 19:14 Uhr

„Ekkehard, die Russen kommen!“

Antworten Melden

Antworten Melden

Frank 26.05.2025, 20:57 Uhr

OMG – ABSCHALTEN bitte !

Satyrus 26.05.2025, 21:02 Uhr

Künstliche Intelligenz ist bisher immer noch deutlich weniger gefährlich, als fehlende natürliche…….wie uns die internationale Politik gerade sehr deutlich zeigt.

TscharlieA 27.05.2025, 09:24 Uhr

Und das schlimme ist: Die „natürliche“ Intelligenz kann sich die KI zu nutzen machen, um ihren Wahnsinn noch besser umsetzen zu können.

Antworten Melden

Antworten Melden

EinfachNurIch 27.05.2025, 07:05 Uhr

Erinnert mich irgendwie an den Film „Die Echelon-Verschwörung“

Jochen 28.05.2025, 10:53 Uhr

Langsam wird es Zeit die Asimov Regeln fest einzuprägen!

Sprachmodell droht mit privaten Informationen

Sicherheitstests zeigen: KI Claude setzt auf Erpressung zur Selbstrettung

Erpressung zur Selbstrettung

Verhalten tritt nur in Extremsituationen auf

Redet mit. Seid nett zueinander! Antwort abbrechen