Umfangreiche Daten, schwankende Bewertungen

Kritik an ChatGPT Health: Gesundheitsdaten falsch interpretiert

Ein aktueller Erfahrungsbericht der Washington Post wirft ein kritisches Licht auf den neuen Gesundheitsbereich von OpenAI. Der Autor analysierte mit ChatGPT Health über Jahre gesammelte Daten aus Apple Health, darunter Millionen Schritt und Pulswerte seiner Apple Watch.

Das Ergebnis waren wechselnde und teils widersprüchliche Bewertungen der eigenen Herzgesundheit, die sich von Abfrage zu Abfrage deutlich unterschieden.

Umfangreiche Daten, schwankende Bewertungen

ChatGPT Health soll langfristige Muster in Gesundheits und Fitnessdaten verständlich aufbereiten. In der Praxis zeigte sich jedoch, dass identische Fragen zu stark abweichenden Einschätzungen führten. Mal attestierte das System eine schlechte Herzgesundheit, kurz darauf fiel die Bewertung milder aus.

Grundlage waren unter anderem von der Apple Watch geschätzte Werte wie die maximale Sauerstoffaufnahme und die Herzratenvariabilität. Messgrößen, die ohnehin als anfällig für Ungenauigkeiten gelten.

Kritisch ist dabei, dass das System diese Daten wie verlässliche medizinische Befunde behandelte. Auch der Abgleich mit weiteren Gesundheitsdaten wie Blutwerten führte nicht zu stabileren Ergebnissen. Fachärzte, die der Autor konsultierte, stuften die Schlussfolgerungen der KI als nicht belastbar ein. Sie verwiesen darauf, dass einzelne Fitnessmetriken ohne Kontext keine Aussage über das individuelle Krankheitsrisiko erlauben.

Grenzen von KI bei Gesundheitsfragen

OpenAI betont, dass ChatGPT Health keine Diagnose stellen soll und lediglich bei der Vorbereitung auf Arztgespräche helfen möchte. Dennoch liefert der Dienst konkrete Bewertungen, die Nutzer verunsichern können. Hinzu kommt, dass das System relevante Informationen wie Alter oder aktuelle Laborwerte nicht immer konsistent berücksichtigte. Auch konkurrierende Angebote wie Anthropics neu veröffentlichte Gesundheitsfunktionen zeigten ähnliche Schwächen.

Der Bericht macht deutlich, dass die Auswertung langfristiger Körperdaten komplex ist und spezialisierte Modelle erfordert, die Messfehler und medizinische Zusammenhänge einordnen können. Solange dies nicht gewährleistet ist, bleiben KI basierte Gesundheitsbewertungen ein Hilfsmittel mit begrenzter Aussagekraft, das weit davon entfernt scheint, ärztliche Einschätzungen zu ersetzen.

27. Jan. 2026 um 15:30 Uhr von Nicolas Fehler gefunden?

28 Kommentare bisher. Dieser Unterhaltung fehlt Deine Stimme.

Rich 27.01.2026, 15:37 Uhr

Die KI liefert sehr häufig unterschiedliche Aussagen zu vielen Fragen. Wenn ein Ergebnis vorliegt und du sagst „Bewerte das nochmal realistisch neu“ höre ich oft „ich muss mich korrigieren…“

Antworten Melden

Halber 27.01.2026, 15:47 Uhr

1+++

Antworten Melden

Antworten Melden
Tim 27.01.2026, 16:31 Uhr

Leider auch meine Erfahrung. Es ist super selten, dass nichts korrigiert wird, wenn man nochmal kritisch nachfragt.

Und es werden gerne auch wichtige Details plötzlich bei Zusammenfassungen ausgelassen.

Antworten Melden

Antworten Melden
Satyrus 27.01.2026, 18:50 Uhr

Reden wir nicht lange drum herum, es ist derzeit (notfalls sogar gefährlicher) Müll.
Man kann die Ergebnisse eigentlich nur nutzen, wenn man die Frage eigentlich nicht hätte stellen brauchen, weil man die korrekte Antwort genau kennt und Fehler bemerkt.

Antworten Melden

Antworten Melden

Peter 30.01.2026, 22:39 Uhr

1+++

Rowi 27.01.2026, 15:45 Uhr

Man muss eine KI auch interpretieren und einschätzen können. Und seien wir mal ehrlich: Gute Ärzte – schlechte Ärzte. Da wäre das Ergebnis wahrscheinlich ähnlich.

khw 27.01.2026, 16:30 Uhr

Wenn der ’schlechte‘ Arzt sich auf KI verlassen hat, dann vielleicht

Antworten Melden

Antworten Melden
Maik 27.01.2026, 19:53 Uhr

Du fragst ja die „KI“ zur Einschätzung, weil du keinen Dunst hast. Sonst würdest du ja nicht fragen. Wenn dein Arzt schlecht ist, wechselst du. Bei „KI“ dumm gelaufen, weil die da alle in etwa gleich schlecht sind. Menschliche Gesundheit ist eine ganz andere Kiste als Wahrscheinlichkeiten für auftretende Worte zu berechnen.

Antworten Melden

Antworten Melden
Gruml 28.01.2026, 09:25 Uhr

Nein. Denn wenn du einschätzen oder prüfen könntest ob die Angaben der KI korrekt sind, bräuchtest du die KI ja gar nicht, denn du wüsstest die Antworten ja schon. Du nutzt die KI ja nur, weil du die Antworten nicht selbst ermitteln kannst, oder zu faul bist, das zu tun.

Antworten Melden

Antworten Melden

revosback 27.01.2026, 16:04 Uhr

Ähnlich ist es mit der KI von Bevel (keine Ahnung worauf die basiert), die hier letztens wegen des geänderten Bezahlmodells vorgestellt wurde.
Hab die für den Probezeitraum ausprobiert. Aber für die Interpretation von Langzeitdaten ist diese KI (ebenso) nicht zuverlässig zu gebrauchen.
Für andere Dinge ist sie brauchbarer, oder kann es sein.

khw 27.01.2026, 16:28 Uhr

Der neue König „KI“ mag nicht ganz ohne Kleider dastehen, aber es wird immer besser erkennbar, dass die schönen neuen Kleider eher Lumpen sind.

Marcel 27.01.2026, 17:30 Uhr

Waren es nicht des Kaisers neue Kleider, auf die du anspielen willst. ;-)

Antworten Melden

Antworten Melden

Peter 30.01.2026, 22:41 Uhr

KI kann halt Bildung nicht ersetzen!

Andre 28.01.2026, 08:39 Uhr

Hast recht, dann doch lieber wieder zurück zur Pferdekutsche XD

Antworten Melden

Antworten Melden

Need4Features 27.01.2026, 17:25 Uhr

Die „begrenzte Aussagekraft“ rührt daher, dass Daten ohne medizinischen Kontext eben nur Zahlen sind. Erst wenn KI-Modelle so weit sind, dass sie beispielsweise Vorerkrankungen, aktuelle Medikation und Laborparameter in Echtzeit mit den Sensordaten verknüpfen können, wird aus dem Spielzeug ein echtes Medizinprodukt.

Peter 30.01.2026, 22:45 Uhr

Alle Menschen sind Individuen, keiner ist gleich, und lassen sich Menschen nur individuell behandeln. Der menschliche Körper lässt sich – zum Glück – nicht allein durch Zahlen oder „Werte“ beschreiben. Das wird KI wohl erst in ferner Zukunft besser verstehen.

Antworten Melden

Antworten Melden

Frankfaster 27.01.2026, 17:38 Uhr

Ki kann für einen Arzt eine gute Unterstützung sein solange sie nur zu arbeitet . In Spezial Sprechstunden und Kliniken wird es so kommen das Werte und Aussagen des Patienten vom Arzt abgearbeitet werden und die die KI Vorschläge unterbreiten wird . Der gute Arzt sieht es als Möglichkeit an die er vieleicht nicht bedacht hat und der schlechte Arzt wird sich darauf verlassen. Die KI der nächsten 10-20 Jahre wird keinen Arzt ersetzen können.
Was später kommt ist eine andere Sache .

Maik 27.01.2026, 19:57 Uhr

Auch danach nicht. LLM sind dafür gar nicht gedacht. Man versucht jetzt den Bums irgendwie zu monetarisieren. Menschliche Sprache zu analysieren und Muster zu erkennen, ist ziemlich billo gegenüber der menschlichen Gesundheit, die viel komplexer ist. Gesundheit folgt keinem festen Muster wie Sprache.

Antworten Melden

Antworten Melden

MacManux 27.01.2026, 22:06 Uhr

Danke Maik. Das ist exakt das Problem. LLMs (Sprachmodelle auf deutsch) sind genau das: Modelle, die nach statistischen Wahrscheinlichkeiten mit Sprache umgehen können. Das ist auf keinen Fall gleichzusetzen mit KI, schon gar nicht mit medizinischer KI.

Medizinische KI sind zum Beispiel selbstlernende Systeme, die ein Hautkrebsscreening durchführen, basierend auf hunderttausenden von Datensätzen/Fotos, was ein Hautkrebs ist und was nicht. Oder Darmpolypenerkennnung.

Aber Sprachmodelle haben eben KEIN medizinisches Wissen. Sie sind nicht durch die oben erwähnte Art von Trainingsmaterial trainiert worden, sondern vielmehr durch das „Lesen“ vieler medizinischer Texte. Aber das gibt ihnen eben immer noch keine analytischen Fähigkeiten, sondern lediglich Wahrscheinlichkeiten, dass zum Beispiel oft in einem Text, in dem Atemnot und Brustschmerzen vorkommen, auch die Diagnose Herzinfarkt vorkommt. Aber das ist ein reines Text-Training und kann von daher keine eigenen analytischen Fähigkeiten haben.

Auch bei der iFun-Redaktion fände ich es super, statt des Oberbegriffs „KI“ lieber die spezifische Ausprägung der KI (also selbstlernendes Expertensystem, Sprachmodell, Bildmodell, Videomodell etc.) im Text zu verwenden. Sonst denkt man, ein LLM, das ein Textverständnis hätte, wäre wirklich intelligent. Ist es nicht. Und Faktenwissen ist sowieso nicht sein Spezialgebiet. Von daher ist es auch unverantwortlich durch diese Hersteller, das als „Gesundheitsberater“ zu vermarkten.

Satyrus 27.01.2026, 18:47 Uhr

Bei aller Freude am Neuen…..es ist mir absolut unklar, wie man mit wichtigen Belangen so einem wirren Müll wie der heutigen KI glauben kann!
Bestimmt wird es irgendwann total toll, aber heute ist es Schrott!

Peter 30.01.2026, 22:46 Uhr

1+++

Antworten Melden

Antworten Melden

Catanzaro 27.01.2026, 18:55 Uhr

KI bringt uns alle ins Grab. So oder so. Manipulieren tut KI jetzt schon. Aber alle laufen diesem Sch…… hinterher. Lauft werdet schon sehen

Peter 30.01.2026, 22:47 Uhr

Sehenden Auges gegen die Wand, das liegt leider schon immer im menschlichen Naturell.

Antworten Melden

Antworten Melden

Habakuck 27.01.2026, 20:30 Uhr

Und keiner sagt: ich gebe doch meine Daten nicht der KI

Bei Einführung von Health gab es Aufschreie obwohl in gesichertem Speicher.

boehser enkel 28.01.2026, 17:02 Uhr

Äpfel und Birnen.,

Antworten Melden

Antworten Melden

conectas 27.01.2026, 20:42 Uhr

Wo kann Ki überhaupt was?
Fehler, Halluzinationen und falsche Ergebnisse… immer frei nach dem Motto: Man kann nicht ausschließen das bei einer Ki: 2 + 2 auch mal 4 ergibt.

Was soll der Schwachsinn überhaupt?
Einziger Effekt ist, das ich für eine SSD, für die ich letztes Jahr 26€ bezahlt habe, jetzt 76€ zahlen soll..

Für die andere 4Tb waren es 200€ irgendwas, jetzt 700 irgendwas, das ist doch irre.

Andre 28.01.2026, 08:38 Uhr

KI, die halluziniert. Wer hätte das gedacht

Boonkid 29.01.2026, 18:56 Uhr

ChatGPT is deinstalliert… nur falsche Ergebnisse

Umfangreiche Daten, schwankende Bewertungen

Kritik an ChatGPT Health: Gesundheitsdaten falsch interpretiert

Umfangreiche Daten, schwankende Bewertungen

Grenzen von KI bei Gesundheitsfragen

Redet mit. Seid nett zueinander! Antwort abbrechen