Studie: Erklärbare KI verbessert Diagnosen in der Radiologie

Große Sprachmodelle wie ChatGPT werden zunehmend als mögliche Unterstützung in der Medizin betrachtet. Sie können Informationen verdichten, Diagnosen vorschlagen und ihre Einschätzungen in verständlicher Sprache begründen. Gerade diese Fähigkeit, nicht nur eine Antwort zu liefern, sondern auch deren Herleitung zu erklären, gilt als eines der zentralen Versprechen solcher Systeme. Bislang war jedoch unklar, ob solche Erklärungen Ärztinnen und Ärzten im Alltag tatsächlich helfen und welche Form dabei den größten Nutzen bringt.

Ein Forschungsteam der Ludwig-Maximilians-Universität München, des LMU Klinikums, des Karlsruher Instituts für Technologie und der Universität Bayreuth hat deshalb untersucht, wie verschiedene Arten von KI-Erklärungen die diagnostische Genauigkeit in der Radiologie beeinflussen. In einem randomisierten Experiment beurteilten 101 Radiologinnen und Radiologen reale klinische Fälle mit radiologischen Aufnahmen, darunter CT- und MRT-Bilder, und formulierten ihre Diagnose jeweils in freier Textform.

Boj Friedrich Hoppe vom LMU Klinikum erläuterte, dass in der Radiologie häufig komplexe Bildbefunde mit klinischen Informationen zusammengeführt werden müssten. Sprachmodelle könnten dabei grundsätzlich unterstützen. Die Studie zeige jedoch, dass nicht jede Art von KI-Hilfe gleichermaßen nützlich sei. Entscheidend sei vielmehr, ob Ärztinnen und Ärzte die Empfehlungen nachvollziehen und kritisch einordnen könnten.

Nicht nur das Ergebnis, auch die Begründung zählt

Die Teilnehmenden wurden zufällig in vier Gruppen eingeteilt. Eine Gruppe arbeitete ohne Unterstützung durch KI. Drei weitere Gruppen erhielten unterschiedliche Hinweise eines multimodalen Sprachmodells. Dieses gab entweder nur eine Diagnose aus, nannte eine Differentialdiagnose oder lieferte eine schrittweise Erklärung im Stil einer sogenannten Chain-of-Thought. Diese letzte Variante beschrieb nachvollziehbar Bildmerkmale, klinische Hinweise und Ausschlusskriterien und unterstützte die Ärztinnen und Ärzte besonders dabei, die Empfehlung mit ihrem eigenen Fachwissen abzugleichen.

siehe auch   Aus Pflanzen Impfstoffe gewinnen

Hoppe machte deutlich, dass es für die klinische Praxis nicht genüge, wenn ein KI-System lediglich eine plausibel klingende Antwort liefere. Ärztinnen und Ärzte müssten auch verstehen können, welche Hinweise für eine Diagnose sprechen und an welchen Stellen Unsicherheiten bestehen.

Schrittweise KI-Erklärungen schnitten am besten ab

Die Untersuchung zeigt, dass Radiologinnen und Radiologen mit schrittweisen KI-Erklärungen die höchste diagnostische Genauigkeit erreichten. Ihre Trefferquote lag 12,2 Prozentpunkte über der Kontrollgruppe ohne KI-Unterstützung. Reine Diagnoseausgaben und Differentialdiagnosen schnitten dagegen schwächer ab.

Auffällig war zudem, dass Teilnehmende bei fehlerhaften KI-Vorschlägen den Differentialdiagnosen häufiger folgten. Die Forschenden sehen darin einen Hinweis auf sogenannten Automationsbias, also die Tendenz, maschinellen Vorschlägen zu stark zu vertrauen. Schrittweise Erklärungen halfen dagegen eher dabei, zutreffende Hinweise gezielt zu übernehmen und Fehler im Vorschlag der KI eher zu erkennen.

Die Ergebnisse legen damit nahe, dass nicht allein die Qualität der Diagnose selbst entscheidend ist, sondern auch die Form, in der sie erklärt wird. Wenn die Argumentation eines Modells sichtbar gemacht wird, fällt es leichter, diese mit dem eigenen Wissen abzugleichen.

Warum Differentialdiagnosen auch problematisch sein können

Differentialdiagnosen spielen in der Medizin grundsätzlich eine wichtige Rolle. Im Umgang mit Sprachmodellen können sie allerdings auch einen trügerischen Eindruck erzeugen. Wenn mehrere mögliche Diagnosen genannt werden, kann das so wirken, als sei der diagnostische Raum bereits vollständig abgedeckt. Gerade bei seltenen oder komplexen Fällen besteht dann die Gefahr, dass Ärztinnen und Ärzte weniger über die genannten Möglichkeiten hinausdenken.

Bedeutung reicht über die Medizin hinaus

Auch wenn sich die Studie auf die Radiologie konzentriert, sehen die Forschenden darin Hinweise mit größerer Tragweite. Stefan Feuerriegel, Professor an der LMU Munich School of Management und korrespondierender Autor der Studie, betonte, dass Systeme wie ChatGPT zunehmend auch bei Entscheidungen im Berufsalltag und im privaten Bereich genutzt würden. Die Ergebnisse zeigten, dass sich solche Systeme deutlich besser einsetzen ließen, wenn nicht nur nach einer Antwort, sondern auch nach einer nachvollziehbaren Begründung gefragt werde.

siehe auch   Fünfjähriges Projekt zur Finanzbildungsforschung

Entscheidend sei daher die Art der Interaktion mit KI-Systemen. Nutzerinnen und Nutzer sollten Antworten nicht einfach übernehmen, sondern aktiv überprüfen. Eine gute KI-Antwort zeichne sich nicht nur dadurch aus, dass sie korrekt wirke, sondern auch dadurch, dass sie überprüfbar sei.

Forschende warnen vor überzeugend klingenden Fehlern

Die Wissenschaftlerinnen und Wissenschaftler weisen zugleich darauf hin, dass Sprachmodelle Fehler machen können, sowohl bei Diagnosen als auch bei den dazugehörigen Begründungen. Gerade deshalb können schrittweise Erklärungen hilfreich sein, weil sie eine kritische Prüfung erleichtern. Die Studie macht deutlich, dass KI die diagnostische Leistung vor allem dann verbessern kann, wenn ihre Vorschläge transparent und nachvollziehbar präsentiert werden. Knappe Antworten oder bloße Aufzählungen bergen dagegen eher das Risiko von Fehlvertrauen.

Dieser Text basiert auf einer Pressemitteilung von Ludwig-Maximilians-Universität München/Veröffentlicht am 22.05.2026 und wurde unter Zuhilfenahme von KI erstellt.