Úterý, 28. září, 2021

Probírání hromad pacientských záznamů zvládne počítač. Vědci vynalezli efektivnější metodu vytěžování dat

DALŠÍ ČLÁNKY AUTORA

Sběr, vytěžování a analýza dat jsou, jak už jsme opakovaně psali také ve Zdravotnickém deníku, budoucností medicíny. Dnes je ale vyhodnocování klinických dat, které by pomohlo s rozvojem personalizované medicíny, velmi náročné. Pomoci by do budoucna mohla metoda vyvinutá odborníky z lékařské fakulty při nemocnicích Mount Sinai v New Yorku, která dělá práci, jíž by za normálních okolností museli dělat lidé. Z elektronických zdravotních záznamů totiž umí vyhodnotit data charakterizující určité onemocnění, a vytvořit tak tzv. fenotyp, díky němuž je možno onemocnění ze záznamů rozpoznat.

Vědci z Icahn School of Medicine při Mount Sinai vyvinuli automatickou metodu studia elektronických zdravotních záznamů, která výrazně šetří čas a práci. Podle studie publikované nyní v odborném časopise Patterns je metoda stejně efektivní jako standardní postup při klasifikaci diagnózy.

Při svém výzkumu vědci popsali nový, automatický algoritmus založený na umělé inteligenci, který umí pročítat pacientská data z elektronických zdravotních záznamů. Nová metoda nazvaná Phe2vec přitom dokázala identifikovat určité choroby stejně přesně jako tradiční postup, který ovšem vyžaduje mnohem více ruční práce.

„Pokračuje exploze množství a typů dat elektronicky shromažďovaných v pacientských zdravotních záznamech. Rozplétání této složité sítě dat může být velmi zatěžující, což zpomaluje pokroky v klinickém výzkumu. V této studii jsme vytvořili novou metodu pro vytěžování dat z elektronických zdravotních záznamů za pomoci strojového učení, která je rychlejší a méně pracná než běžný standard. Doufáme, že to bude cenný nástroj, který umožní další, méně ovlivnitelný výzkum v klinické informatice,“ popisuje genetik a jeden z autorů studie Benjamin S. Glicksberg z Institutu Hassa Plattnera pro digitální zdraví při Mount Sinai.

Fenotyp vynalezne počítač sám

V současné době spoléhají vědci při vytěžování dat z elektronických zdravotních záznamů na sadu zavedených počítačových programů nebo algoritmů. Vývoj a ukládání těchto algoritmů se provádí systémem zvaným Phenotype Knowledgebase (PheKB, tj. znalostní databáze fenotypů). I když je systém velmi efektivní při správné identifikaci pacientovy diagnózy, proces vývoje algoritmu může být velmi zdlouhavý a neflexibilní.

Při studiu určité choroby totiž výzkumníci musí nejprve pročesat stohy zdravotních záznamů, aby vyhledali data, jako jsou některé laboratorní testy nebo předpisy, které jsou jedinečně spjaté s daným onemocněním. Potom naprogramují algoritmus, který navádí počítač, aby hledal pacienty, kteří tyto údaje specifické pro danou chorobu (čili fenotyp) v záznamu mají. Seznam pacientů identifikovaných počítačem pak ještě musí být ručně znovu zkontrolován výzkumníky. Pokaždé, když přitom vědci chtějí studovat nové onemocnění, musejí celý tento proces opakovat.

V nové studii ale výzkumníci zkusili jiný přístup. Ten využívá strojového učení k tomu, aby sám rozpoznal fenotyp daného onemocnění, čímž šetří vědcům čas a námahu. Nová metoda je přitom založena na studiích, které již tým provedl v minulosti.

„Již dříve jsme ukázali, že i strojové učení, na které nedohlížíme, může být velmi efektivní a vhodnou strategií pro vytěžování elektronických zdravotních záznamů. Potenciální přínos našeho přístupu je, že zjišťuje to, co onemocnění reprezentuje, z dat sám. Díky tomu přístroj udělá většinu práce, kterou by normálně museli udělat vědci, aby z elektronických záznamů definovali kombinaci jednotlivých datových prvků nejlépe vystihujících onemocnění,“ vysvětluje další autor studie Riccardo Miotto.

Více času na analýzy

Počítač tak byl v zásadě naprogramován k tomu, aby prošel miliony elektronických zdravotních záznamů a zjistil, jak najít spojení mezi daty a onemocněním. Takovéto programování spoléhá na algoritmy, které byly vytvořeny dříve jinými výzkumníky, například lingvisty, ke studiu slovních sítí v různých jazycích (velmi efektivní je zejména algoritmus zvaný word2vec). Poté byl počítač naprogramován, aby využíval to, co zjistil, a identifikoval diagnózy u skoro dvou milionů pacientů, jejichž data jsou uložena ve zdravotnickém systému Mount Sinai.

Nakonec odborníci srovnali efektivitu nového a starého přístupu. U devíti z deseti onemocnění přitom zjistili, že nový Phe2vec systém byl stejně efektivní nebo dokonce o něco málo lepší než běžně používaný postup používaný ke správné identifikaci diagnózy z elektronického zdravotního záznamu. Mezi zahrnutá onemocnění patřila například demence, roztroušená skleróza či srpkovitá anémie.

„Celkově jsou naše výsledky povzbudivé a naznačují, že Phe2vec je slibnou technologií pro fenotypování nemocí z elektronických zdravotních záznamů ve velkém měřítku. Doufáme, že s dalšími testy a upřesněními by mohla být používána k automatizaci mnoha úvodních kroků klinického informatického výzkumu, a tak umožnila vědcům, aby zaměřili své úsilí na navazující analýzy, jako je prediktivní modelování,” dodává Glicksberg.

mk

DALŠÍ ČLÁNKY Z RUBRIKY