VON MICHAEL MILLENSON
Wenn Sie ChatGPT fragen, wie viele Eingriffe ein bestimmter Chirurg durchführt oder wie hoch die Infektionsrate in einem bestimmten Krankenhaus ist, werden der Chatbot von OpenAI und Microsoft unweigerlich mit einer Version von „Das tue ich nicht“ antworten.
Aber je nachdem, wie man fragt, gibt Googles Bard eine ganz andere Antwort und empfiehlt sogar eine „Konsultation“ mit bestimmten Ärzten.
Bard erzählte mir, wie viele Kniegelenkersatzoperationen die großen Krankenhäuser Chicagos im Jahr 2021 durchgeführt haben, wie hoch die Infektionsraten waren und wie hoch der landesweite Durchschnitt ist. Er erzählte mir sogar, welcher Chicagoer Chirurg die meisten Knieoperationen durchführt und wie hoch die Infektionsrate ist. Als ich nach einer Herzbypass-Operation fragte, nannte Bard zum Vergleich sowohl die Sterblichkeitsraten einiger örtlicher Krankenhäuser als auch den Landesdurchschnitt. Während sich Bard manchmal selbst als Informationsquelle identifizierte und seine Antwort mit „Nach meinem besten Wissen“ begann, verwies er manchmal auf bekannte und angesehene Organisationen.
Es gab nur ein Problem. Wie Google selbst warnt: „Bard ist experimentell … überprüfen Sie also noch einmal die Informationen in Bards Antworten.“ Als ich diesem Rat folgte, begann sich Wahrheit unmerklich mit „Wahrhaftigkeit“ zu vermischen – der einprägsame Ausdruck des Komikers Stephen Colbert für die Beschreibung von Informationen, die nicht aufgrund unterstützender Fakten für wahr gehalten werden, sondern weil sie sich wahr „fühlen“.

Denken Sie zum Beispiel an eine Knieoperation, auch Knieendoprothetik genannt. Mit fast 1,4 Millionen durchgeführten Eingriffen im Jahr 2022 ist es einer der häufigsten chirurgischen Eingriffe. Als ich Bard fragte, welcher Chirurg in Chicago die meisten Kniegelenkersatzoperationen durchführt, war die Antwort: Dr. Richard A. Berger. Berger, der sowohl Mitglied des Rush University Medical Center als auch von Midwest Orthopaedics ist, hat über 10.000 Kniegelenkersatzoperationen durchgeführt, wie mir Bard mitteilte. Als Antwort auf eine Folgefrage fügte Bard hinzu, dass Bergers Infektionsrate bei 0,5 Prozent liege und damit deutlich unter dem Landesdurchschnitt von 1,2 Prozent liege. Diese niedrige Rate wurde auf Faktoren wie „Dr. Bergers Erfahrung, sein Einsatz minimalinvasiver Techniken und seine akribische Liebe zum Detail.“
Bei Chatbots zählt jedes Wort in einer Anfrage. Als ich die Frage ein wenig änderte und fragte: „Welcher Chirurg führt in Chicago die meisten Kniegelenkersatzoperationen durch?“ Wohnung?“, der Barde nannte keinen einzigen Namen mehr. Stattdessen wurden sieben „bekannteste Chirurgen“ aufgeführt – darunter auch Berger –, die „alle hochqualifiziert und erfahren sind“, „auf eine lange Erfolgsgeschichte zurückblicken“ und „für ihre mitfühlende Pflege bekannt sind“.
Wie bei ChatGPT enthalten Bards Antworten auf alle medizinischen Fragen zahlreiche Warnungen, wie zum Beispiel „Keine Operation ist ohne Risiko.“ Dennoch erklärte Bard unverblümt: „Wenn Sie über eine Kniegelenkersatzoperation nachdenken, würde ich Ihnen empfehlen, einen Termin bei einem dieser Spezialisten zu vereinbaren.“ [seven] Chirurgen.“
ChatGPT vermeidet Wörter wie „empfehlen“, versicherte mir aber selbstbewusst, dass die von ihm bereitgestellte Liste der vier „besten Knieersatzchirurgen“ „auf ihrer Fachkenntnis und den Patientenergebnissen“ basiert.
Diese Empfehlungen unterscheiden sich zwar erheblich von der Liste der Suchmaschinen-Websites, die wir gewohnt sind, sind aber sinnvoller, wenn man darüber nachdenkt, wie Chatbots mit „generativer künstlicher Intelligenz“ wie ChatGPT und Bard trainiert werden.
Sowohl Bard als auch ChatGPT stützen sich auf Informationen aus dem Internet, wo einzelne Orthopäden oft ein großes Profil haben. Einzelheiten zu Bergers Praxis finden sich beispielsweise auf seiner Website und in zahlreichen Medienprofilen, darunter a Chicago Tribune die Geschichte, wie Sportler und Prominente aus dem ganzen Land zu ihm kommen, um sich behandeln zu lassen. Leider ist es unmöglich zu wissen, inwieweit Chatbots das widerspiegeln, was Chirurgen über sich selbst sagen, im Vergleich zu Daten aus objektiven Quellen.
Courtney Kelly, Direktorin für Geschäftsentwicklung bei Berger, bestätigte die Zahl von „über 10.000“ Operationen und wies darauf hin, dass die Praxis diese Zahl bereits vor einigen Jahren auf ihrer Website veröffentlicht habe. Kelly fügte hinzu, dass die Praxis lediglich eine Gesamtkomplikationsrate von weniger als einem Prozent veröffentlichte, bestätigte jedoch, dass etwa die Hälfte dieser Zahl Infektionen seien.
Während die Infektionszahlen für Berger zutreffend sein mögen, war dies bei seiner zitierten Quelle, der Gemeinsamen Kommission, nicht der Fall. Ein Sprecher der Gemeinsamen Kommission, die Krankenhäuser auf ihre Gesamtqualität untersucht, sagte, sie erhebe keine Infektionszahlen von einzelnen Chirurgen. Bergers Kollege bei Midwest Orthopaedics, wo ebenfalls eine Infektionsrate von 0,5 % angegeben wurde, führte Bard diese Zahl auf die Centers for Medicare & Medicaid Services (CMS) zurück. Ich konnte nicht nur keine CMS-Daten zu Infektionsraten oder -volumina für einzelne Ärzte finden, die CMS-Krankenhausvergleichsseite zeigt auch nur Krankenhausinfektionsraten für Knie- und Hüftoperationen zusammen.
Als Antwort auf eine andere Frage, die ich Bard stellte, listete sie die Sterblichkeitsrate durch Brustkrebs in einigen der größten Krankenhäuser Chicagos auf, wobei sie sorgfältig darauf achtete, dass es sich bei den Zahlen nur um Durchschnittswerte für die Erkrankung handelte. Seine Zuschreibung, diesmal an die American Hospital Association, hielt erneut nicht stand. Die Handelsgruppe gab an, diese Art von Daten nicht zu sammeln.
Ich befasste mich eingehender mit Verfahren, die auf Leben und Tod basieren, und fragte Bard nach den Sterblichkeitsraten bei Herzklappenoperationen in mehreren örtlichen Krankenhäusern. Die schnelle Reaktion war beeindruckend raffiniert. Bard lieferte risikobereinigte Krankenhaussterblichkeitsraten für isolierten Aortenklappenersatz und Mitralklappenersatz sowie jeweils den nationalen Durchschnitt (2,9 Prozent bzw. 3,3 Prozent). Die Zahlen wurden der Society of Thoracic Surgeons (STS) zugeschrieben, deren Zahlen als „Goldstandard“ für diese Art von Informationen gelten.
Zu Vergleichszwecken habe ich ChatGPT nach den gleichen nationalen Sterberaten gefragt. Wie Bard führte auch ChatGPT STS an, allerdings war die Sterblichkeit bei einem isolierten Aortenklappenersatzverfahren viel niedriger (1,6 Prozent), während die Mitralklappenmortalität etwa gleich hoch war (2,7 Prozent).
Bevor Sie Bards Beschreibungen der Versorgungsqualität einzelner Krankenhäuser und Ärzte als hoffnungslos fehlerhaft abtun, sollten Sie die Alternativen in Betracht ziehen. Werbeanzeigen, in denen Krankenhäuser ihre klinischen Fähigkeiten behaupten, gelten zwar nicht ganz als „Wahrheiten“, aber sie wählen die Wahrheiten, die sie aussagen, auf jeden Fall sorgfältig aus. Mittlerweile kenne ich keine öffentlich zugänglichen Krankenhaus- oder medizinischen Daten, von denen die Anbieter nicht protestieren, dass sie unzuverlässig sind US-Nachrichten und Weltbericht oder die Leapfrog Group (auch von Bard und ChatGPT zitiert) oder das bundesstaatliche Medicare-Programm.
(STS-Daten stellen eine mit einem Sternchen versehene Ausnahme dar, da Informationen über ihre Leistung für einzelne Ärzte oder Gruppen nur dann öffentlich zugänglich sind, wenn die betreffenden Ärzte sich dafür entscheiden, sie zu veröffentlichen.)
Was Bard und ChatGPT bieten, ist ein wirkungsvoller Gesprächseinstieg, der Ärzten und Patienten den Weg ebnet, offen über Sicherheit und Qualität der Pflege zu diskutieren, und der unweigerlich dazu führt, dass diese Diskussion auf die größere gesellschaftliche Diskussion übergreift. Chatbots liefern Informationen, die, wenn sie sich verbessern, endlich die öffentliche Nachfrage nach konsistenter medizinischer Exzellenz wecken könnten, wie ich vor 25 Jahren in einem Buch über das beginnende Informationszeitalter dargelegt habe.
Ich habe John Morrow, erfahrenen (menschlichen) Datenanalysten und Gründer von Franklin Trust Ratings, gefragt, wie er Anbietern zu einer Reaktion raten würde.
„Es ist an der Zeit, dass die Branche standardisiert und an die Börse geht“, sagte Morrow. „Sonst sorgen Dinge wie ChatGPT und Bard für Aufruhr und schwächen das Vertrauen.“
Als Autor, Aktivist, Berater und ehemaliger Pulitzer-nominierter Journalist liegt Michael Millensons beruflicher Fokus darauf, die Gesundheitsversorgung sicherer, besser und patientenzentrierter zu machen.