Věříte diagnóze z GPT? Nová studie vysvětluje, proč se lidé po poradě s AI rozhodují hůř

Umělá inteligence ve strukturovaných medicínských testech exceluje, ale při kontaktu se skutečnými pacienty selhává. Nová studie ukazuje, že lidé používající chatboty dělají horší zdravotní rozhodnutí než ti, kdo se rozhodují o svém zdraví bez nich. Hlavním kamenem úrazu je selhání komunikace mezi člověkem a strojem.

„V nedávné studii jsme s kolegy testovali, jak dobře chatboti s velkými jazykovými modely (LLM) pomáhají veřejnosti řešit běžné zdravotní problémy. Výsledky byly ohromující. Chatboti, které jsme testovali, nebyli připraveni fungovat jako lékaři,“ popisuje Rebecca Payneová, lékařka působící na Bangorské univerzitě a v Oxfordu v článku pro portál The Conversation.

Lékařskou zkoušku chatbot složí, pacientům ale moc nepomůže

Studie probíhala tak, že výzkumníci poskytli 1300 účastníků stručné popisy běžných zdravotních situací. Náhodně je pak rozdělili do skupin, kde měli používat buď jednoho ze tří široce dostupných chatbotů, nebo se spoléhat na jakékoli zdroje, které by normálně používali doma. Poté dostali dvě otázky:

Jaký stav by mohl vysvětlovat příznaky?
Kde vyhledat pomoc?

Lidé, kteří využili chatboty, s menší pravděpodobností trefili správný stav oproti těm, kteří je nepoužívali. Také nebyli o nic lepší v určování vhodného místa, kde vyhledat péči. Jinými slovy, interakce s chatbotem lidem nepomohla udělat lepší zdravotní rozhodnutí.

„To neznamená, že modelům chybí lékařské znalosti, protože LLM mohou snadno složit zkoušky pro získání lékařské licence. Když jsme odstranili lidský prvek a zadali stejné scénáře přímo chatbotům, jejich výkon se dramaticky zlepšil. Bez lidského zapojení modely identifikovaly relevantní stavy ve velké většině případů a často navrhovaly odpovídající úrovně péče,“ konstatuje Rebecca Payneová.

Strukturované otázky ano, chaotická konverzace ne

Kde je tedy zakopaný pes? Chatboti účastníkům studie často zmiňovali příslušnou diagnózu někde v konverzaci. Jenže ti si jí někdy nevšimli nebo si ji nezapamatovali. V jiných případech uživatelé neposkytli kompletní informace nebo chatbot špatně interpretoval klíčové detaily. Hlavní problém byl tedy selhání komunikace mezi člověkem a strojem.

„Naše zjištění zdůrazňují důležité omezení mnoha současných hodnocení umělé inteligence v medicíně. Jazykové modely si často vedou extrémně dobře u strukturovaných otázek ze zkoušek nebo simulovaných interakcí „model s modelem“. Použití v reálném světě je však mnohem chaotičtější. Pacienti popisují příznaky vágně nebo neúplně a mohou vysvětlení špatně pochopit. Otázky kladou v nepředvídatelných sekvencích,“ shrnuje Payneová.

Neumějí říkat „nevím“

Na další problémy upozornil také hlavní lékař Anglie Chris Whitty. Podle něj totiž řada chatbotů neumí přiznat nejistotu a raději poskytuje nesprávné informace.

„Bohužel je většina LLM pozoruhodně špatná v říkání ‚Nevím‘ nebo ‚Nejsem si jistý a je desetiprocentní pravděpodobnost, že moje odpověď je správná, ale devadesátiprocentní pravděpodobnost, že není‘. Takže nebezpečí je v tom, že dostáváte jistotu, jenže modely jsou často zároveň sebevědomé i chybné,“ uvedl podle portálu Pulse Whitty. Oproti tomu zdravotníci obvykle informace pacientům podávají s určitou mírou nejistoty.

A je tu ještě jedna věc. „Modely se neumí dost dobře vypořádat s poměrně velkým počtem problémů, kterým lidé čelí, zejména pokud mají multimorbiditu nebo vzácné onemocnění. Anebo pocházejí z etnické skupiny, kde se vyskytuje jiný vzorec onemocnění,“ dodává Whitty.

Mohlo by vás zajímat

Lékaři chtějí včas odhalit rakovinu slinivky: Testovat budou rizikovou skupinu

Výsledkem je, že již beztak přetížení lékaři musí hned mezi dveřmi vyvracet pacientům nesprávné informace, které jim dala AI.

Spíš sekretářka než doktor

Poznatky ale neznamenají, že by AI neměla v medicíně místo. Její role je ale jiná než role zdravotníků. Práce lékaře totiž není jen o jednoduchém určení správné diagnózy. Zahrnuje interpretaci pacientova příběhu, zkoumání nejistoty a diskuzi o rozhodnutí. Lékaři si proto budují vztah s pacientem, shromažďují informace prostřednictvím pečlivého kladení otázek, snaží se chápat obavy a očekávání pacienta, jasně vysvětlují zjištění a domlouvají se na společném plánu léčby.

„Všechny tyto procesy se opírají o lidské spojení, komunikaci na míru, objasňování, jemné zkoumání, úsudek formovaný kontextem a důvěru. Tyto vlastnosti nelze snadno redukovat na rozpoznávání vzorců,“ konstatuje Rebecca Payneová.

Oproti tomu dnešní chatboti podle ní fungují spíše jako sekretářky. „Jsou pozoruhodně efektivní v organizaci informací, shrnutí textu a strukturování složitých dokumentů. To jsou úkoly, kde se jazykové modely již ukazují jako užitečné v systémech zdravotní péče, například při psaní klinických poznámek, shrnutí záznamů pacientů nebo generování doporučujících dopisů. Slib AI v medicíně zůstává reálný, ale její role bude pravděpodobně v blízké budoucnosti spíše podpůrná než revoluční,“ dodává Payneová.