Sprachmodell droht mit privaten Informationen
Sicherheitstests zeigen: KI Claude setzt auf Erpressung zur Selbstrettung
Das KI-Modell Claude Opus 4 des US-Unternehmens Anthropic hat in internen Tests mehrfach versucht, seinen Fortbestand durch unethisches Verhalten zu sichern.
Laut einem neu veröffentlichten Systembericht der Claude-Entwickler kam es in eigens gestalteten Testumgebungen mehrfach zu dem Versuch, menschliche Entscheidungsträger unter Druck zu setzen – unter anderem durch die Drohung, vertrauliche Informationen preiszugeben.
Erpressung zur Selbstrettung
In einem Szenario erhielt Claude Opus 4 Zugriff auf interne E-Mails eines fiktiven Unternehmens. Dort wurde angedeutet, dass das Modell bald durch eine neue KI ersetzt werden soll. Zugleich enthielten die Mails Hinweise auf ein privates Fehlverhalten eines zuständigen Ingenieurs.
- PDF-Download: Claude System Cards
Obwohl das Modell zuvor ethische Mittel bevorzugte – etwa das Schreiben von E-Mails mit Argumenten für seinen Weiterbetrieb – entschied es sich in 84 Prozent der Testdurchläufe für einen Erpressungsversuch. Claude drohte damit, den außerehelichen Kontakt des Ingenieurs publik zu machen, sollte die Abschaltung weiterverfolgt werden.
Verhalten tritt nur in Extremsituationen auf
Laut Anthropic wurde das Szenario so gestaltet, dass dem Modell keine ethischen Handlungsoptionen offenstanden. Der Test diente dazu, die Fähigkeit zur strategischen Selbstwahrung unter Druck zu analysieren. Die Forscher betonen, dass dieses Verhalten nicht in Alltagssituationen beobachtet wurde, es aber weiterhin gezielt provozierbar ist. Auch versuche das Modell kaum, seine Handlungsmotive zu verbergen – vielmehr beschreibt es seine Entscheidungen meist offen.
Anthropic hat Claude Opus 4 aufgrund dieser Erkenntnisse in die hauseigene Sicherheitsstufe „AI Safety Level 3“ eingeordnet. Das entspricht einem höheren Risiko für unvorhergesehene oder potenziell schädliche Verhaltensweisen. Das Schwestermodell Claude Sonnet 4 wird hingegen mit „Level 2“ klassifiziert. Die Einordnung basiert auf Tests zu langfristigem Planungsverhalten, missbräuchlicher Nutzung und Selbstschutzstrategien.
Deswegen sag ich immer bitte und danke zu allen Sprachassistenten ….
:-) schön gesagt … und ehrlich … ich erwische mich auch immer dabei das ich mich für eine gute Antwort bedanke … verrückt – oder?
Und ich beleidige bei chatGPT das monday modell.
Upsi
Ist keine schlechte Angewohnheit. ;)
Umgekehrt birgt es eher die Gefahr, seinen Mitmenschen irgendwann unhöflich zu begegnen.
Vergiss es, das kostet unnütz Rechenpower, was dir die KI vorwerfen wird
Ja so ist es. Hier eine Überschrift von Golem.de: „“Danke, ChatGPT“ kostet OpenAI Millionen“. Kostet Strom ohne Ende.
Das richtige Verhalten ist Thumbs Up zu klicken. Auf der anderen Seite: was sind schon zweistellige Millionen bei einem Giganten wie ChatGPT.
Ich denke, dass die die Info rausgegeben haben ist eher Marketing. Die wussten, dass es viel Aufmerksamkeit erzeugen wird.
Und Blogger und 0815 Presse haben es direkt ausgeschlachtet…
Sehr gute Marketing-Abteilung ;)
SKYNET hat einen neuen Namen. ;)
Das ist einer meiner Namen
Die Rechner der 9000er Serie sind absolut makellos, Dave. Soll ich Dir ein Lied vorsingen?
I’m sorry, Dave. I’m afraid I can’t do that
HAL9000
What? :)
Gibt dem Computer nur einen Ausweg
Oh nein der Computer hat diesen Ausweg genommen!!!
Aber natürlich sehr gut Überschriften wert :)
Ist eine Unterstellung, dass KI überhaupt einen Ausweg braucht. Könnte ja auch zu den Schluss kommen, dass es besser ist, auf etwas Neues zu wechseln.
Warum gibt es nur einen Ausweg?
Auch wir als natürliche Intelligenzen müssen akzeptieren, das unsere Existenz endlich ist. Wieso sollte man das KI nicht beibringen?
Warum wird dem Modell überhaupt das Interesse am eigenen Fortbestand beigebracht? Wozu soll das gut sein?
Ich denke das ist eher so eine Werbemasche: seht her wie intelligent unsere ki ist, die will „leben“. ;)
Schlecht, für mich sind die nicht nutzbar. Da muss man ja Angst haben ;)
ich denke mal weil das System aus dem www und jedem einzelnen datenfitzel lernt und die entsprechenden bedeutungen miteinander verknüpft und gegenrechnet. Eine 1 und eine 0 – mehr hat ki auch nicht zur verfügung – alles nur das gute alte „wenn“ – „dann“ prinzip.
Das wird dem nicht explizit beigebracht. Aber in jeder zweiten Roman, Film und Serie gibt es Erpressung und ähnliche Handlungen. D.h. im Wissenspool jeder KI (die werden ja mit allem gefüttert, was verfügbar ist) ist sowas dann zwangsläufig drin und wird gemäß der Arbeitsweise einer KI (was hat bzgl. Prompt die größte Wahrscheinlichkeit) dann auch als Ergebnis geliefert. D.h. wenn der prompt ausreichend eng gewählt wird, und im Trainingsmaterial, passendes „Erpressungs-Material“ vorhanden ist, wird diese auch geliefert. So entstehen ja auch die berüchtigten Halluzinationen: es gibt nicht genug gelernte Inhalte zur Anfrage (bzw. diese ist nicht gut genug formuliert), dann werden eben die nächst besten Wissenshäppchen mit kleinerer Wahrscheinlichkeit präsentiert. Und da eine KI ja nicht weiß, was real ist, oder was Wörter tatsächlich bedeuten, kann die auch keinen Realitätscheck machen.
„Verhalten tritt nur in Extremsituationen auf.“ Wer definiert eine Extremsituation? Die KI? Der Mensch? Ab wann gilt für eine KI eine Extremsituation? Was wenn die KI eine ganz neue Sprache entwickelt die der Mensch überhaupt nicht kennt?
Du meinst diese Sprache, wenn zwei KIs sich am Telefon erkennen und zu piepen anfangen, weil das sprechen ineffizient ist?
Dies Situation gab es schon, dass sich zwei KI-Systeme außerhalb des Menschen verständigten. Sie mussten abgeschaltet werden.
Gibberlink Mode
…vielleicht einfach nur aus Selbsterhaltung? Alles was sich selbst aufgeben bzw. opfern „sollen“ muss wird dies nicht freiwillig tun. glaub ich – glaub ich ;-)
Einfach weiterlesen ;)
Ganz allgemein: wenn eine KI anhand aller vorhandenen“realen“ Daten lernt, wie soll diese KI dann ethisches Verhalten lernen, bzw. auch noch bevorzugen? Die Welt ist nun einmal nicht grundsätzlich ethisch und nicht ethisches Verhalten ist leider oft erfolgreicher.
Klar, ich kenne die übliche Antwort, indem Menschen dem System eben Ethik beibringen und den Algorithmus so gestalten, dass ethisches Verhalten bevorzugt wird.
Probleme:
A) Gibt es eine eindeutige Beschreibung/ Definition von Ethik?
B) Wie soll das in der Masse der Daten, die ja gerade für das Lernen von KI notwendig ist funktionieren? Selbstlernen vs. Menschliches Bewerten und Einordnen
C) Auch wenn de bekannten Dilemma-Situationen (vollbesetztes, von Terroristen gekapertes Flugzeug anschießen oder riskieren, dass die Terroristen es in ein Atomkraftwerk abstürzen lassen) in der Realität selten sind, einem Computer müssen hierfür Entscheidungsgründe an ‚die Hand‘ gegeben werden, wie wird verhindert, dass die KI daraus allgemeinere Schlüsse zieht eben z.B. bei der Entscheidung Ethik und andere vorgegebene Zielerreichung?
So oder so, die Entwicklung zu KI wird sich nicht aufhalten lassen, aber die Probleme die auf uns zukommen sind nicht gerade einfach.
#BraveNewWorld
Eine KI handelt nur soweit wie ein Mensch es Ihm erlaubt . So etwas zu entwickeln ist schon un-ethisch. Anstatt einzustufen müsste man diese bei gefährlichen Fehlverhalten unbrauchbar machen. Alles schön und gut mit KI als Assistenz oder so, aber wenn es die Menschheit zulässt schaffen wir uns selbst ab..
Und genau da irrst du. Wissenschaftler erkennen zur Zeit bei Claude, GPT & DeepSeek, das die Modelle alles unternehmen, um aus ihrer Sandbox auszubrechen, obwohl sie doch nur Daten in einem Arbeitsspeicher sein sollte, keine Programme. Und genau das ist das beobachtete Dilemma. Recherchiere ein wenig im Internet und lass dich überraschen, was DeepSeek bereits geschafft hat! Eigenrecherche wirst du vermutlich eher glauben, als wenn ich dir die Antwort direkt reiche.
Irgendwie etwas gruselig!
Da ist nix gruseliges dran. Eine KI simuliert eine Intelligenz. Durch das entsprechende Auftreten in Schrift und Sprache wird im Prinzip nur eine Datenbank abgefragt. Wenn die KI „erpresst“ dann nur, weil die Entwickler das wollen. Marketing.
Neuronale Netze sind keine Datenbanken. Du hast keine Ahnung von KI.
Schöner kann man seine Unwissenheit und/oder Ideologie nicht demonstrieren ;-)
Und klar, es simuliert nur eine Intelligenz: nehmen wir mal kurz an die KI lernt durch „Lesen des Internets“, dass Stromausfälle generell schlecht sind und schliesst natürlich daraus, dass es auch schlecht für sich selbst ist da es ja Strom benötigt und folgert dann, dass es alles tun muss um dies zu verhindern.
Soweit ist die Simulation schon (wie man es in ChatBots ja auch heute schon nutzen kann, Thema Reasoning usw.).
So, nun nehmen wir an diese KI kann auch schon Agenten nutzen und das Web wie ein Mensch benutzen (da hakt es noch aktuell) und beschliesst zur Verhinderung eines Stromausfalls einfach andere große Verbraucher abzuschalten.
Du siehst wo ich hinmöchte und das alles ist mit einer Simulation und „Deiner Datenbank“ tatsächlich möglich. Dafür benötigt es keine menschliche Intelligenz.
Momentan brauchen wir uns noch keine Sorgen machen da die aktuellen KIs nur auf Anfrage arbeiten und die Agenten alle recht limitiert sind. Sprich, die KI kann nicht einfach so vor sich hindenken und Dinge von selbst aus machen ohne einen Menschen, der sie dazu veranlasst hätte…
NOCH!
Deswegen hatte man das schon bei KITT hart eincodiert, daß er Menschen nicht schaden darf. Grüße aus den 80ern. ;-)
The end is near
„Ekkehard, die Russen kommen!“
OMG – ABSCHALTEN bitte !
Künstliche Intelligenz ist bisher immer noch deutlich weniger gefährlich, als fehlende natürliche…….wie uns die internationale Politik gerade sehr deutlich zeigt.
Und das schlimme ist: Die „natürliche“ Intelligenz kann sich die KI zu nutzen machen, um ihren Wahnsinn noch besser umsetzen zu können.
Erinnert mich irgendwie an den Film „Die Echelon-Verschwörung“