ifun.de — Apple News seit 2001. 41 167 Artikel

Sprachmodell droht mit privaten Informationen

Sicherheitstests zeigen: KI Claude setzt auf Erpressung zur Selbstrettung

Artikel auf Mastodon teilen.
42 Kommentare 42

Das KI-Modell Claude Opus 4 des US-Unternehmens Anthropic hat in internen Tests mehrfach versucht, seinen Fortbestand durch unethisches Verhalten zu sichern.

Claude Mac Feature

Laut einem neu veröffentlichten Systembericht der Claude-Entwickler kam es in eigens gestalteten Testumgebungen mehrfach zu dem Versuch, menschliche Entscheidungsträger unter Druck zu setzen – unter anderem durch die Drohung, vertrauliche Informationen preiszugeben.

Erpressung zur Selbstrettung

In einem Szenario erhielt Claude Opus 4 Zugriff auf interne E-Mails eines fiktiven Unternehmens. Dort wurde angedeutet, dass das Modell bald durch eine neue KI ersetzt werden soll. Zugleich enthielten die Mails Hinweise auf ein privates Fehlverhalten eines zuständigen Ingenieurs.

Obwohl das Modell zuvor ethische Mittel bevorzugte – etwa das Schreiben von E-Mails mit Argumenten für seinen Weiterbetrieb – entschied es sich in 84 Prozent der Testdurchläufe für einen Erpressungsversuch. Claude drohte damit, den außerehelichen Kontakt des Ingenieurs publik zu machen, sollte die Abschaltung weiterverfolgt werden.

Verhalten tritt nur in Extremsituationen auf

Laut Anthropic wurde das Szenario so gestaltet, dass dem Modell keine ethischen Handlungsoptionen offenstanden. Der Test diente dazu, die Fähigkeit zur strategischen Selbstwahrung unter Druck zu analysieren. Die Forscher betonen, dass dieses Verhalten nicht in Alltagssituationen beobachtet wurde, es aber weiterhin gezielt provozierbar ist. Auch versuche das Modell kaum, seine Handlungsmotive zu verbergen – vielmehr beschreibt es seine Entscheidungen meist offen.

Claude 4

Anthropic hat Claude Opus 4 aufgrund dieser Erkenntnisse in die hauseigene Sicherheitsstufe „AI Safety Level 3“ eingeordnet. Das entspricht einem höheren Risiko für unvorhergesehene oder potenziell schädliche Verhaltensweisen. Das Schwestermodell Claude Sonnet 4 wird hingegen mit „Level 2“ klassifiziert. Die Einordnung basiert auf Tests zu langfristigem Planungsverhalten, missbräuchlicher Nutzung und Selbstschutzstrategien.

26. Mai 2025 um 14:59 Uhr von Nicolas Fehler gefunden?


    42 Kommentare bisher. Dieser Unterhaltung fehlt Deine Stimme.
  • Deswegen sag ich immer bitte und danke zu allen Sprachassistenten ….

  • Der der hier schreibt
  • I’m sorry, Dave. I’m afraid I can’t do that

    HAL9000

  • Gibt dem Computer nur einen Ausweg

    Oh nein der Computer hat diesen Ausweg genommen!!!

    Aber natürlich sehr gut Überschriften wert :)

  • Warum wird dem Modell überhaupt das Interesse am eigenen Fortbestand beigebracht? Wozu soll das gut sein?

    • Ich denke das ist eher so eine Werbemasche: seht her wie intelligent unsere ki ist, die will „leben“. ;)

    • ich denke mal weil das System aus dem www und jedem einzelnen datenfitzel lernt und die entsprechenden bedeutungen miteinander verknüpft und gegenrechnet. Eine 1 und eine 0 – mehr hat ki auch nicht zur verfügung – alles nur das gute alte „wenn“ – „dann“ prinzip.

    • Das wird dem nicht explizit beigebracht. Aber in jeder zweiten Roman, Film und Serie gibt es Erpressung und ähnliche Handlungen. D.h. im Wissenspool jeder KI (die werden ja mit allem gefüttert, was verfügbar ist) ist sowas dann zwangsläufig drin und wird gemäß der Arbeitsweise einer KI (was hat bzgl. Prompt die größte Wahrscheinlichkeit) dann auch als Ergebnis geliefert. D.h. wenn der prompt ausreichend eng gewählt wird, und im Trainingsmaterial, passendes „Erpressungs-Material“ vorhanden ist, wird diese auch geliefert. So entstehen ja auch die berüchtigten Halluzinationen: es gibt nicht genug gelernte Inhalte zur Anfrage (bzw. diese ist nicht gut genug formuliert), dann werden eben die nächst besten Wissenshäppchen mit kleinerer Wahrscheinlichkeit präsentiert. Und da eine KI ja nicht weiß, was real ist, oder was Wörter tatsächlich bedeuten, kann die auch keinen Realitätscheck machen.

  • „Verhalten tritt nur in Extremsituationen auf.“ Wer definiert eine Extremsituation? Die KI? Der Mensch? Ab wann gilt für eine KI eine Extremsituation? Was wenn die KI eine ganz neue Sprache entwickelt die der Mensch überhaupt nicht kennt?

  • Ganz allgemein: wenn eine KI anhand aller vorhandenen“realen“ Daten lernt, wie soll diese KI dann ethisches Verhalten lernen, bzw. auch noch bevorzugen? Die Welt ist nun einmal nicht grundsätzlich ethisch und nicht ethisches Verhalten ist leider oft erfolgreicher.
    Klar, ich kenne die übliche Antwort, indem Menschen dem System eben Ethik beibringen und den Algorithmus so gestalten, dass ethisches Verhalten bevorzugt wird.
    Probleme:
    A) Gibt es eine eindeutige Beschreibung/ Definition von Ethik?
    B) Wie soll das in der Masse der Daten, die ja gerade für das Lernen von KI notwendig ist funktionieren? Selbstlernen vs. Menschliches Bewerten und Einordnen
    C) Auch wenn de bekannten Dilemma-Situationen (vollbesetztes, von Terroristen gekapertes Flugzeug anschießen oder riskieren, dass die Terroristen es in ein Atomkraftwerk abstürzen lassen) in der Realität selten sind, einem Computer müssen hierfür Entscheidungsgründe an ‚die Hand‘ gegeben werden, wie wird verhindert, dass die KI daraus allgemeinere Schlüsse zieht eben z.B. bei der Entscheidung Ethik und andere vorgegebene Zielerreichung?
    So oder so, die Entwicklung zu KI wird sich nicht aufhalten lassen, aber die Probleme die auf uns zukommen sind nicht gerade einfach.
    #BraveNewWorld

  • Eine KI handelt nur soweit wie ein Mensch es Ihm erlaubt . So etwas zu entwickeln ist schon un-ethisch. Anstatt einzustufen müsste man diese bei gefährlichen Fehlverhalten unbrauchbar machen. Alles schön und gut mit KI als Assistenz oder so, aber wenn es die Menschheit zulässt schaffen wir uns selbst ab..

    • Und genau da irrst du. Wissenschaftler erkennen zur Zeit bei Claude, GPT & DeepSeek, das die Modelle alles unternehmen, um aus ihrer Sandbox auszubrechen, obwohl sie doch nur Daten in einem Arbeitsspeicher sein sollte, keine Programme. Und genau das ist das beobachtete Dilemma. Recherchiere ein wenig im Internet und lass dich überraschen, was DeepSeek bereits geschafft hat! Eigenrecherche wirst du vermutlich eher glauben, als wenn ich dir die Antwort direkt reiche.

  • Da ist nix gruseliges dran. Eine KI simuliert eine Intelligenz. Durch das entsprechende Auftreten in Schrift und Sprache wird im Prinzip nur eine Datenbank abgefragt. Wenn die KI „erpresst“ dann nur, weil die Entwickler das wollen. Marketing.

    • Neuronale Netze sind keine Datenbanken. Du hast keine Ahnung von KI.

    • Schöner kann man seine Unwissenheit und/oder Ideologie nicht demonstrieren ;-)

      Und klar, es simuliert nur eine Intelligenz: nehmen wir mal kurz an die KI lernt durch „Lesen des Internets“, dass Stromausfälle generell schlecht sind und schliesst natürlich daraus, dass es auch schlecht für sich selbst ist da es ja Strom benötigt und folgert dann, dass es alles tun muss um dies zu verhindern.

      Soweit ist die Simulation schon (wie man es in ChatBots ja auch heute schon nutzen kann, Thema Reasoning usw.).

      So, nun nehmen wir an diese KI kann auch schon Agenten nutzen und das Web wie ein Mensch benutzen (da hakt es noch aktuell) und beschliesst zur Verhinderung eines Stromausfalls einfach andere große Verbraucher abzuschalten.

      Du siehst wo ich hinmöchte und das alles ist mit einer Simulation und „Deiner Datenbank“ tatsächlich möglich. Dafür benötigt es keine menschliche Intelligenz.

      Momentan brauchen wir uns noch keine Sorgen machen da die aktuellen KIs nur auf Anfrage arbeiten und die Agenten alle recht limitiert sind. Sprich, die KI kann nicht einfach so vor sich hindenken und Dinge von selbst aus machen ohne einen Menschen, der sie dazu veranlasst hätte…

  • Deswegen hatte man das schon bei KITT hart eincodiert, daß er Menschen nicht schaden darf. Grüße aus den 80ern. ;-)

  • Künstliche Intelligenz ist bisher immer noch deutlich weniger gefährlich, als fehlende natürliche…….wie uns die internationale Politik gerade sehr deutlich zeigt.

  • Erinnert mich irgendwie an den Film „Die Echelon-Verschwörung“

  • Redet mit. Seid nett zueinander!

    Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert

    ifun.de ist das dienstälteste europäische Onlineportal rund um Apples Lifestyle-Produkte.
    Wir informieren täglich über Aktuelles und Interessantes aus der Welt rund um iPad, iPod, Mac und sonstige Dinge, die uns gefallen.
    Insgesamt haben wir 41167 Artikel in den vergangenen 8617 Tagen veröffentlicht. Und es werden täglich mehr.
    ifun.de — Love it or leave it   ·   Copyright © 2025 aketo GmbH   ·   Impressum   ·      ·   Datenschutz   ·   Safari-Push aketo GmbH Powered by SysEleven