Umfangreiche Daten, schwankende Bewertungen
Kritik an ChatGPT Health: Gesundheitsdaten falsch interpretiert
Ein aktueller Erfahrungsbericht der Washington Post wirft ein kritisches Licht auf den neuen Gesundheitsbereich von OpenAI. Der Autor analysierte mit ChatGPT Health über Jahre gesammelte Daten aus Apple Health, darunter Millionen Schritt und Pulswerte seiner Apple Watch.
Das Ergebnis waren wechselnde und teils widersprüchliche Bewertungen der eigenen Herzgesundheit, die sich von Abfrage zu Abfrage deutlich unterschieden.
Umfangreiche Daten, schwankende Bewertungen
ChatGPT Health soll langfristige Muster in Gesundheits und Fitnessdaten verständlich aufbereiten. In der Praxis zeigte sich jedoch, dass identische Fragen zu stark abweichenden Einschätzungen führten. Mal attestierte das System eine schlechte Herzgesundheit, kurz darauf fiel die Bewertung milder aus.
Grundlage waren unter anderem von der Apple Watch geschätzte Werte wie die maximale Sauerstoffaufnahme und die Herzratenvariabilität. Messgrößen, die ohnehin als anfällig für Ungenauigkeiten gelten.
Kritisch ist dabei, dass das System diese Daten wie verlässliche medizinische Befunde behandelte. Auch der Abgleich mit weiteren Gesundheitsdaten wie Blutwerten führte nicht zu stabileren Ergebnissen. Fachärzte, die der Autor konsultierte, stuften die Schlussfolgerungen der KI als nicht belastbar ein. Sie verwiesen darauf, dass einzelne Fitnessmetriken ohne Kontext keine Aussage über das individuelle Krankheitsrisiko erlauben.
Grenzen von KI bei Gesundheitsfragen
OpenAI betont, dass ChatGPT Health keine Diagnose stellen soll und lediglich bei der Vorbereitung auf Arztgespräche helfen möchte. Dennoch liefert der Dienst konkrete Bewertungen, die Nutzer verunsichern können. Hinzu kommt, dass das System relevante Informationen wie Alter oder aktuelle Laborwerte nicht immer konsistent berücksichtigte. Auch konkurrierende Angebote wie Anthropics neu veröffentlichte Gesundheitsfunktionen zeigten ähnliche Schwächen.
Der Bericht macht deutlich, dass die Auswertung langfristiger Körperdaten komplex ist und spezialisierte Modelle erfordert, die Messfehler und medizinische Zusammenhänge einordnen können. Solange dies nicht gewährleistet ist, bleiben KI basierte Gesundheitsbewertungen ein Hilfsmittel mit begrenzter Aussagekraft, das weit davon entfernt scheint, ärztliche Einschätzungen zu ersetzen.


Die KI liefert sehr häufig unterschiedliche Aussagen zu vielen Fragen. Wenn ein Ergebnis vorliegt und du sagst „Bewerte das nochmal realistisch neu“ höre ich oft „ich muss mich korrigieren…“
1+++
Leider auch meine Erfahrung. Es ist super selten, dass nichts korrigiert wird, wenn man nochmal kritisch nachfragt.
Und es werden gerne auch wichtige Details plötzlich bei Zusammenfassungen ausgelassen.
Man muss eine KI auch interpretieren und einschätzen können. Und seien wir mal ehrlich: Gute Ärzte – schlechte Ärzte. Da wäre das Ergebnis wahrscheinlich ähnlich.
Wenn der ’schlechte‘ Arzt sich auf KI verlassen hat, dann vielleicht
Ähnlich ist es mit der KI von Bevel (keine Ahnung worauf die basiert), die hier letztens wegen des geänderten Bezahlmodells vorgestellt wurde.
Hab die für den Probezeitraum ausprobiert. Aber für die Interpretation von Langzeitdaten ist diese KI (ebenso) nicht zuverlässig zu gebrauchen.
Für andere Dinge ist sie brauchbarer, oder kann es sein.
Der neue König „KI“ mag nicht ganz ohne Kleider dastehen, aber es wird immer besser erkennbar, dass die schönen neuen Kleider eher Lumpen sind.
Waren es nicht des Kaisers neue Kleider, auf die du anspielen willst. ;-)
Die „begrenzte Aussagekraft“ rührt daher, dass Daten ohne medizinischen Kontext eben nur Zahlen sind. Erst wenn KI-Modelle so weit sind, dass sie beispielsweise Vorerkrankungen, aktuelle Medikation und Laborparameter in Echtzeit mit den Sensordaten verknüpfen können, wird aus dem Spielzeug ein echtes Medizinprodukt.