Umfangreiche Daten, schwankende Bewertungen
Kritik an ChatGPT Health: Gesundheitsdaten falsch interpretiert
Ein aktueller Erfahrungsbericht der Washington Post wirft ein kritisches Licht auf den neuen Gesundheitsbereich von OpenAI. Der Autor analysierte mit ChatGPT Health über Jahre gesammelte Daten aus Apple Health, darunter Millionen Schritt und Pulswerte seiner Apple Watch.
Das Ergebnis waren wechselnde und teils widersprüchliche Bewertungen der eigenen Herzgesundheit, die sich von Abfrage zu Abfrage deutlich unterschieden.
Umfangreiche Daten, schwankende Bewertungen
ChatGPT Health soll langfristige Muster in Gesundheits und Fitnessdaten verständlich aufbereiten. In der Praxis zeigte sich jedoch, dass identische Fragen zu stark abweichenden Einschätzungen führten. Mal attestierte das System eine schlechte Herzgesundheit, kurz darauf fiel die Bewertung milder aus.
Grundlage waren unter anderem von der Apple Watch geschätzte Werte wie die maximale Sauerstoffaufnahme und die Herzratenvariabilität. Messgrößen, die ohnehin als anfällig für Ungenauigkeiten gelten.
Kritisch ist dabei, dass das System diese Daten wie verlässliche medizinische Befunde behandelte. Auch der Abgleich mit weiteren Gesundheitsdaten wie Blutwerten führte nicht zu stabileren Ergebnissen. Fachärzte, die der Autor konsultierte, stuften die Schlussfolgerungen der KI als nicht belastbar ein. Sie verwiesen darauf, dass einzelne Fitnessmetriken ohne Kontext keine Aussage über das individuelle Krankheitsrisiko erlauben.
Grenzen von KI bei Gesundheitsfragen
OpenAI betont, dass ChatGPT Health keine Diagnose stellen soll und lediglich bei der Vorbereitung auf Arztgespräche helfen möchte. Dennoch liefert der Dienst konkrete Bewertungen, die Nutzer verunsichern können. Hinzu kommt, dass das System relevante Informationen wie Alter oder aktuelle Laborwerte nicht immer konsistent berücksichtigte. Auch konkurrierende Angebote wie Anthropics neu veröffentlichte Gesundheitsfunktionen zeigten ähnliche Schwächen.
Der Bericht macht deutlich, dass die Auswertung langfristiger Körperdaten komplex ist und spezialisierte Modelle erfordert, die Messfehler und medizinische Zusammenhänge einordnen können. Solange dies nicht gewährleistet ist, bleiben KI basierte Gesundheitsbewertungen ein Hilfsmittel mit begrenzter Aussagekraft, das weit davon entfernt scheint, ärztliche Einschätzungen zu ersetzen.


Die KI liefert sehr häufig unterschiedliche Aussagen zu vielen Fragen. Wenn ein Ergebnis vorliegt und du sagst „Bewerte das nochmal realistisch neu“ höre ich oft „ich muss mich korrigieren…“
1+++
Leider auch meine Erfahrung. Es ist super selten, dass nichts korrigiert wird, wenn man nochmal kritisch nachfragt.
Und es werden gerne auch wichtige Details plötzlich bei Zusammenfassungen ausgelassen.
Reden wir nicht lange drum herum, es ist derzeit (notfalls sogar gefährlicher) Müll.
Man kann die Ergebnisse eigentlich nur nutzen, wenn man die Frage eigentlich nicht hätte stellen brauchen, weil man die korrekte Antwort genau kennt und Fehler bemerkt.
1+++
Man muss eine KI auch interpretieren und einschätzen können. Und seien wir mal ehrlich: Gute Ärzte – schlechte Ärzte. Da wäre das Ergebnis wahrscheinlich ähnlich.
Wenn der ’schlechte‘ Arzt sich auf KI verlassen hat, dann vielleicht
Du fragst ja die „KI“ zur Einschätzung, weil du keinen Dunst hast. Sonst würdest du ja nicht fragen. Wenn dein Arzt schlecht ist, wechselst du. Bei „KI“ dumm gelaufen, weil die da alle in etwa gleich schlecht sind. Menschliche Gesundheit ist eine ganz andere Kiste als Wahrscheinlichkeiten für auftretende Worte zu berechnen.
Nein. Denn wenn du einschätzen oder prüfen könntest ob die Angaben der KI korrekt sind, bräuchtest du die KI ja gar nicht, denn du wüsstest die Antworten ja schon. Du nutzt die KI ja nur, weil du die Antworten nicht selbst ermitteln kannst, oder zu faul bist, das zu tun.
Ähnlich ist es mit der KI von Bevel (keine Ahnung worauf die basiert), die hier letztens wegen des geänderten Bezahlmodells vorgestellt wurde.
Hab die für den Probezeitraum ausprobiert. Aber für die Interpretation von Langzeitdaten ist diese KI (ebenso) nicht zuverlässig zu gebrauchen.
Für andere Dinge ist sie brauchbarer, oder kann es sein.
Der neue König „KI“ mag nicht ganz ohne Kleider dastehen, aber es wird immer besser erkennbar, dass die schönen neuen Kleider eher Lumpen sind.
Waren es nicht des Kaisers neue Kleider, auf die du anspielen willst. ;-)
KI kann halt Bildung nicht ersetzen!
Hast recht, dann doch lieber wieder zurück zur Pferdekutsche XD
Die „begrenzte Aussagekraft“ rührt daher, dass Daten ohne medizinischen Kontext eben nur Zahlen sind. Erst wenn KI-Modelle so weit sind, dass sie beispielsweise Vorerkrankungen, aktuelle Medikation und Laborparameter in Echtzeit mit den Sensordaten verknüpfen können, wird aus dem Spielzeug ein echtes Medizinprodukt.
Alle Menschen sind Individuen, keiner ist gleich, und lassen sich Menschen nur individuell behandeln. Der menschliche Körper lässt sich – zum Glück – nicht allein durch Zahlen oder „Werte“ beschreiben. Das wird KI wohl erst in ferner Zukunft besser verstehen.
Ki kann für einen Arzt eine gute Unterstützung sein solange sie nur zu arbeitet . In Spezial Sprechstunden und Kliniken wird es so kommen das Werte und Aussagen des Patienten vom Arzt abgearbeitet werden und die die KI Vorschläge unterbreiten wird . Der gute Arzt sieht es als Möglichkeit an die er vieleicht nicht bedacht hat und der schlechte Arzt wird sich darauf verlassen. Die KI der nächsten 10-20 Jahre wird keinen Arzt ersetzen können.
Was später kommt ist eine andere Sache .
Auch danach nicht. LLM sind dafür gar nicht gedacht. Man versucht jetzt den Bums irgendwie zu monetarisieren. Menschliche Sprache zu analysieren und Muster zu erkennen, ist ziemlich billo gegenüber der menschlichen Gesundheit, die viel komplexer ist. Gesundheit folgt keinem festen Muster wie Sprache.
Danke Maik. Das ist exakt das Problem. LLMs (Sprachmodelle auf deutsch) sind genau das: Modelle, die nach statistischen Wahrscheinlichkeiten mit Sprache umgehen können. Das ist auf keinen Fall gleichzusetzen mit KI, schon gar nicht mit medizinischer KI.
Medizinische KI sind zum Beispiel selbstlernende Systeme, die ein Hautkrebsscreening durchführen, basierend auf hunderttausenden von Datensätzen/Fotos, was ein Hautkrebs ist und was nicht. Oder Darmpolypenerkennnung.
Aber Sprachmodelle haben eben KEIN medizinisches Wissen. Sie sind nicht durch die oben erwähnte Art von Trainingsmaterial trainiert worden, sondern vielmehr durch das „Lesen“ vieler medizinischer Texte. Aber das gibt ihnen eben immer noch keine analytischen Fähigkeiten, sondern lediglich Wahrscheinlichkeiten, dass zum Beispiel oft in einem Text, in dem Atemnot und Brustschmerzen vorkommen, auch die Diagnose Herzinfarkt vorkommt. Aber das ist ein reines Text-Training und kann von daher keine eigenen analytischen Fähigkeiten haben.
Auch bei der iFun-Redaktion fände ich es super, statt des Oberbegriffs „KI“ lieber die spezifische Ausprägung der KI (also selbstlernendes Expertensystem, Sprachmodell, Bildmodell, Videomodell etc.) im Text zu verwenden. Sonst denkt man, ein LLM, das ein Textverständnis hätte, wäre wirklich intelligent. Ist es nicht. Und Faktenwissen ist sowieso nicht sein Spezialgebiet. Von daher ist es auch unverantwortlich durch diese Hersteller, das als „Gesundheitsberater“ zu vermarkten.
Bei aller Freude am Neuen…..es ist mir absolut unklar, wie man mit wichtigen Belangen so einem wirren Müll wie der heutigen KI glauben kann!
Bestimmt wird es irgendwann total toll, aber heute ist es Schrott!
1+++
KI bringt uns alle ins Grab. So oder so. Manipulieren tut KI jetzt schon. Aber alle laufen diesem Sch…… hinterher. Lauft werdet schon sehen
Sehenden Auges gegen die Wand, das liegt leider schon immer im menschlichen Naturell.
Und keiner sagt: ich gebe doch meine Daten nicht der KI
Bei Einführung von Health gab es Aufschreie obwohl in gesichertem Speicher.
Äpfel und Birnen.,
Wo kann Ki überhaupt was?
Fehler, Halluzinationen und falsche Ergebnisse… immer frei nach dem Motto: Man kann nicht ausschließen das bei einer Ki: 2 + 2 auch mal 4 ergibt.
Was soll der Schwachsinn überhaupt?
Einziger Effekt ist, das ich für eine SSD, für die ich letztes Jahr 26€ bezahlt habe, jetzt 76€ zahlen soll..
Für die andere 4Tb waren es 200€ irgendwas, jetzt 700 irgendwas, das ist doch irre.
KI, die halluziniert. Wer hätte das gedacht
ChatGPT is deinstalliert… nur falsche Ergebnisse