Ilustrační foto: Freepik

ÚZIS otevírá datové sady. Identifikovat pacienty neumožní

Jak ředitel Ústavu zdravotnických informací a statistiky (ÚZIS) Ladislav Dušek slíbil letos v dubnu v rozhovoru pro Zdravotnický deník, jeho úřad otevírá data velkých registrů. K dispozici je nyní již více než sto datových sad a souhrnů. K dispozici zatím nejsou všechna data, ta zveřejněná ale mohou již nyní sloužit nejen pro lékařské odborníky a výzkumníky, nýbrž i pro zákonodárce jako nástroj pro plánování účinných politik. Vedoucí představitelé ÚZIS na včerejší konferenci NZIS Open popsali národní strategii v oblasti otevřených dat i jejich praktické a legislativní aspekty. Zahájení konference se rovněž zúčastnil ministr zdravotnictví Vlastimil Válek.

„Správná správa dat může zásadním způsobem přispět ke zvyšování efektivity a nalézání nových příležitost,“ řekl na úvod konference ředitel nově zřízené Digitální a informační agentury (DIA) Martin Mesršmíd. Hlavní slova se však zhostil ředitel ÚZIS Ladislav Dušek, který hovořil o celkové koncepci otevřených dat ve zdravotnictví, jejím aktuálním stavu a sekundárním vytěžování dat z Národního zdravotnického informačního systému (NZIS), který představuje síť navzájem propojených databází.

Podílet se může kdokoliv

Dušek uvedl, že priority otevírání dat vycházejí ze strategie zdravotnictví. Dosud ÚZIS zveřejnil něco málo přes sto datových sad a souhrnů a přibližně sedm desítek dílčích agend, přičemž do budoucna má v plánu otevřít všechny komponenty NZIS, a to včetně dat z klasifikačního systému DRG. Počítá se přitom s aktivní participací uživatelů na tvorbě datových sad dle standardizovaných žádostí. V této souvislosti Dušek apeloval na experty napříč obory s nabídkou na vylepšování zpřístupňovaných datových sad. Byly to totiž právě četné diskuze s odborníky, konkrétně z DIA, které podle ředitele ÚZIS formovaly koncepci poskytování dat.

V současné době fungují celkem tři kategorie zdrojů neboli přístupů. Prvním jsou veřejné informační zdroje na bázi primárních dat. Druhým je zpřístupnění dat dálkovým přístupem zákonem určenému čtenáři (sem patří například seznam vyřazených dárců kostní dřeně). Třetí typ zpřístupnění dat je podmíněn nezbytnými úpravami a patří sem například analytické reporty, agregované „excelové“ souhrny, dílčí (tematické) datové sady, komplexní otevřená data za pomoci syntetických dat (ta zatím nejsou zpřístupněna). Kromě toho zahrnuje specifické nástroje, jako jsou resortní referenční statistiky, portál zdravotnických ukazatelů a přístup ve zvláštním režimu, přezdívaném „safe room”. Ten by umožňoval přístup k datům ve speciálním chráněném prostředí, podle všeho podmíněném smlouvou a blíže neurčeným protokolem. Tento druh přístupu dosud není funkční.

Syntetická data jen profesionálům

O syntetických datech a jejich pilotním použití v datech NZIS na konferenci blíže pohovořil vedoucí odboru informačních technologií ÚZIS Daniel Klimeš. „Syntetická data nejsou pro laiky,“ řekl na úvod s tím, že taková práce s daty vyžaduje vysokou datovou gramotnost. Pro méně zkušené uživatele jsou vhodnější analytické studie či o něco složitější datové souhrny. Otevřená data však jsou až pro odborníky. Uživatel v nich pracuje s reálnou databází a strukturou, ale data, která vidí, jsou smyšlená (syntetická). Dokáže si ovšem podle nich připravit tzv. skript, na jehož základě mu ÚZIS následně poskytne skutečná data. „Jelikož jde o citlivá data, nejsou takto zpřístupněna data o vzácných onemocněních, pohlavních chorobách a psychiatrických nemocech,“ dodal Dušek.

V souvislosti se zveřejňováním zdravotnických dat Dušek neopomněl ani problematiku ochrany osobních údajů a citlivých dat, která může být s otevíráním dat s velkým rozlišením v konfliktu. ÚZIS riziko nepřímé identifikace jedince vyřešil tím, že tematické sady daného zdroje zveřejňuje pouze „jednorozměrně“ a nemůže k nim být přidán další atribut pacienta, který by ho blíže specifikoval.

Parametrizace je zásadní

Mezi agendy, které ÚZIS dosud zpřístupnil, patří mimo jiné Národní registr hospitalizací, Informační systém pro řízení populačních screeningů a také Národní registr hrazených zdravotních služeb (NRHZS). O něm více pohovořil šéf odboru analýzy dat při ÚZIS Jiří Jarkovský. „Jde o komplexní datový zdroj pokrývající od roku 2010 většinu populace a zdravotní péče v České republice,“ popsal registr, který představuje významný zdroj pro  sekundární využití dat vznikajících v rámci veřejného zdravotního pojištění.

NRHZS nyní obsahuje devět datových sad a souhrnů, mezi něž patří mimo jiné vykázané výkony zdravotní péče, vykázané hromadně vyráběné léčivé přípravky či vykázaný zdravotnický materiál. „Vidíme ovšem pouze ta data, která byla vykázána parametrizovaně,“ popsal Jarkovský jeden z limitujících faktorů sběru dat. V podobném duchu se vyjádřil i Dušek: „Můžeme otevírat a sdílet pouze ta data, která máme.“

-fk-