Projekty > Stepper > Guide-X

 

Guide-X – Aplikace metodiky na lékařské doporučené postupy

1.  Úvod

Guide-X (Medical Guideline formalization based on XML) je první praktickou realizací metodiky víceúrovňové formalizace, která vznikla za účelem zpracování specifických lékařských dokumentů souhrnně nazývaných "lékařské doporučené postupy".

Guide-X rozkládá formalizační proces do pěti úrovní (včetně nulté), kde jeho konečným výstupem byla původně počítačová reprezentace znalostní báze založená na jazyku OCML (Operational Concept Modelling Language). V současnosti vzniká alternativa směřující do programovacího jazyka Java (výstupem je zdrojový kód).

Cílem procesu je získat programový celek, který je schopen komunikovat s databází elektronických záznamů o pacientech a na základě znalostní báze tyto záznamy porovnávat s obsahem lékařských doporučení. Výsledky takového srovnání jsou například identifikace částí lékařských doporučení, které lékaři nejčastěji nedodržují, preferované varianty léčby v případech, kde je lékařům ponechán volný výběr apod. Jedná se tedy o konfrontaci reality obsažené v elektronických záznamech s předepsanou teorií z lékařských doporučení. Obdržené výsledky srovnání mohou sloužit k dalšímu statistickému či data-minigovému šetření vedoucímu k lepšímu porozumění celé problematiky.

Jednotlivé úrovně lze charakterizovat takto:

2.  Schéma Guide-X

2.1.  Vstupní dokument XHTML

Doporučené postupy pro léčbu hypertenze z roku 1999 jsou dostupné ve třech variantách – krátké, střední a dlouhé. Metodika Guide-Xbyla testována na středně dlouhé variantě. Nultá úroveň (formát XHTML) byla získána poměrně snadnými úpravami ze zdrojového textu, který je volně k dispozici ve formátu HTML, a proto se jí nebudeme hlouběji zabývat.

2.2.  GLML-Simple

První úroveň se nazývá GLML-S (GuildeLines Mark-Up Language - Simple) a slouží k vyznačení základních znalostních bloků v textu. Při definování základních typů zachycovaných znalostních bloků jsme kladli důraz na minimalizaci jejich počtu. Současně byly tyto bloky voleny dostatečně obecně, aby bylo možné s jejich pomocí označit co největší množství textu ve zdrojovém dokumentu. Nakonec se počet znalostních bloků ustálil na pěti - definice konceptů, kauzální vztahy, procedurální bloky, cíle léčby a "ostatní".

Definice lékařských konceptů (concept-def) slouží k označení medicínských a případně i jiných pojmů, které jsou v textu vysvětleny a pracuje se s nimi jako s jednoznačně určenými. Jako příklad můžeme uvést pacienta s normálním krevním tlakem

Kauzální vztahy (causal-rel), jak už sám název napovídá, se týkají dvou a více parametrů či událostí a upřesňují jejich kauzalitu.


  Přechod z úrovně XHTML do GLML-S

Velmi jasně bývají v textu popsány i cíle léčby (goal). Po zkušenostech z praxe se tento element identifikuje nejsnáze a nebývají s ním spojeny žádné nejasnosti. Přestože všechny cíle dohromady mají mezi sebou určitou hierarchii a následnost, tak jsou v této úrovni chápány prozatím individuálně. Zmíněná hierarchie se přidává až v následujících úrovních.

Nejdůležitějším znalostním blokem jsou procedurální údaje (procedural), které říkají, co se má za jakých podmínek v léčbě podniknout, tzn. popisují scénáře léčby. Tento typ znalostí tvoří jádro doporučených postupů.

Poslední blok (other) zachycuje takové části textu, které nelze zařadit do předešlých bloků, ale přesto v nich vidíme potenciální znalosti mající alespoň nějaký význam pro další zpracování.

Uvedené elementy nejsou vybrány náhodně. Jednak jsou v obdobných variacích nejednou použity jako základní třídy v některých podobných projektech vycházejících ze studií zabývajících se formalizací lékařských doporučení.

2.3.  GLML-Rich

Zanesení podrobnější sémantické struktury do znalostních bloků je provedeno ve druhé úrovni nazvané GLML-Rich (GuideLines Mark-up Language – Rich). Jednotlivé znalostní bloky se výrazným způsobem nemění resp. nerozkládají. Především se doplňuje celá řada atributů a sub-elementů, aby se podstatným způsobem eliminoval volný text obsažený v blocích na úrovni GLML-S. Bloky typu "other" v tuto chvíli slouží především jako podpůrné znalosti pro vytváření vnitřní struktury ostatních bloků.


  Přechod z úrovně GLML-S do GLML-R

Z obrázku je patrné, že jediný rozklad bloku se provádí v případě definic konceptů. Ty koncepty, které lze triviálně definovat jako matematické proměnné, začínají tvořit takzvaný datový slovník (data dictionary) a již v této úrovni mohou být využity při zápisu předpokladů a závěrů scénářů léčby stejně jako při definici cílů.

Podobně jako v předešlé úrovni i zde byla snaha implementovat již zavedené standardy. Tentokrát se jednalo o způsob zachycování struktur reprezentujících znalosti a zápis definic konceptů pomocí jazyka XML.

Jako jeden z nejzajímavějších  standardů se ukázal být jazyk PMML 1.0 (Predictive Model Mark-up Language) Tento jazyk, plně založený na XML, byl přímo vytvořen za účelem definovat statistické a data-miningové modely a sdílet tyto modely s ostatními aplikacemi komunikujícími přes PMML. V PMML jsou definovány proměnné různých typů, jmenovitě proměnné spojité, kategorické a ordinální. Takto definované proměnné lze v podstatě beze změn využít pro část lékařských konceptů. PMML zaštiťuje veškeré proměnné v rámci elementu data-dictionary, jehož předpis je zakomponován do úrovně GLML-R. Navíc je v datovém slovníku zaveden také typ logické proměnné, jakožto obdoba kategorické proměnné s předdefinovanými kategoriemi.

Příklad 3.1 – Datový slovník
<data-dictionary>
<logical name="Smoking" />
<continuous name="Total cholesterol" />
<categorical name="Gender" >
    <category value="male" />
    <category value="female" />
</categorical>
</data-dictionary>

Nejdůležitější je pochopitelně správné zachycení scénářů. Scénář je zde v základní podobě chápán jako vztah – je-li splněn předpoklad  nebo podmínka P, vykonej akci A.  Pokud je datový slovník úplný a vhodně navržený, pak jsou v něm obsaženy parametry podmínek a předpokladů ze všech scénářů. V tomto případě není problém programově vyhodnotit všechny scénáře pro určitého pacienta a zjistit, které z nich jsou v danou chvíli aplikovatelné a které nikoli. Pro představu jak vypadá samotná formalizace by bylo vhodné uvést konkrétní příklad přechodu z úrovně GLML-S do GLML-R.

Ukázka zdrojového textu pro scénář na úrovni GLML-S
<procedural type="complex" source="text">
    Situations in which ambulatory BP monitoring should be considered:
        - Unusual <con>variability of BP</con> over the same or different visits
        - <con>Office hypertension</con> in subjects with low
          <con>cardiovascular risk</con>
</procedural>

V ukázce zdrojového textu je znázorněna krátká pasáž procedurálního bloku. V úrovni GLML-S je tato pasáž zařazena do elementu procedural a všechny pojmy které bude potřeba zaznamenat v datovém slovníku jsou označkovány elementem con. V následující ukázce je znázorněna část datového slovníku odpovídající pojmům z elementu procedural.

Část datového slovníku, která vznikne z uvedeného elementu procedural
<logical name="BP variability" />
<logical name="office hypertension" />
<ordinal name="cardiovascular risk">
    <order value="low" rank="1" />
    <order value="medium" rank="2" />
    …
</ordinal>

Zápis samotného scénáře může na první pohled vypadat poněkud chaoticky, ale při bližším prostudování zdrojového textu a proměnných definovaných v datovém slovníku není nikterak složitý. Pochopitelně jsou některé scénáře řádově komplikovanější a pro jejich reprezentaci je již potřeba vhodný softwarový nástroj.

Zápis scénáře na úrovni GLML-R [1]
<scenario id="sample scenario">
  <descr> ambulatory BP monitoring - arguments </descr>
  <condition>
    <compound-predicate bool-op="or">
    <predicate attribute="BP variability" op="eq value="yes"/>
    <compound-predicate bool-op="and">
      <predicate attribute="office hypertension" op="eq" value="yes"/>
      <predicate attribute="cardiovascular risk" op="eq" value="low"/>
    </compound-predicate>
  </compound-predicate>
  </condition>
  <recommendation>
    ambulatory BP monitoring
  </recommendation>
</scenario>

2.4.  GLKL

Poslední úroveň před exportem se nazývá GLKL (GuideLine Knowledge Language).  Dokument se v ní dostává do stádia, kdy můžeme pomalu začít hovořit o znalostní bázi. Jeden ze základních rysů této úrovně je globální přetřídění elementů podle jejich sémantického obsahu a následné shlukování do větších znalostních celků. Jako příklad takového celku dobře poslouží datový slovník z předešlé úrovně, který v sobě zahrnoval všechny definice konceptů formulovatelné v podobě matematických proměnných.

V GLKL existuje celkem pět znalostních celků - datový slovník, slovník konceptů, slovník akcí, struktura cílů a struktura scénářů. Každý z těchto celků vzniká odlišným způsobem, a proto je vhodné se věnovat každému zvlášť. Na následujícím obrázku je znázorněn vznik těchto celků a naznačen i směr použití podpůrných znalostí a vliv elektronického záznamu o pacientovy.


  Přechod z úrovně  GLML-R do GLKL

Datový slovník je v zásadě stejný jako v předešlé úrovni a tím pádem dochází pouze k jeho okopírování. Jednotlivé proměnné se pouze doplňují o informace spojené s elektronickým záznamem o pacientovi resp. o údaje, kde se daná proměnná přesně nachází v databázi záznamů. Může dojít také k určitým úpravám, aby byla dosažena typová kompatibilita mezi datovým slovníkem a elektronickým záznamem.

Slovník konceptů vzniká logicky z těch konceptů, které nelze triviálně popsat jako proměnné v datovém slovníku. Přesto je potřeba tyto koncepty jasně definovat. Děje se tak pomocí časově variabilních hodnot v elektronickém záznamu o pacientovi. Například hypertenze "bílých plášťů" je v lékařských doporučení popsaná jako případ vysokého tlaku způsobeného nervózní reakcí pacienta na lékařská vyšetření a přítomnost lékařů vůbec. Pokud jsou hodnoty krevního tlaku v záznamu pacienta pravidelně vyšší při měřeních v nemocnici než při měřeních doma, lze s velkou pravděpodobností hovořit o hypertenzi bílých plášťů. Hodnota naměřeného krevního tlaku a místo měření jsou součástí datového slovníku a tím pádem je možné odvodit, zda pacient podléhá této formě hypertenze či nikoli.

Cíle i scénáře léčby definované v GLML-R, mohou ve svých předpokladech i závěrech obsahovat lékařské "akce", které opět nelze postihnout v rámci datového slovníku. Z tohoto důvodu jsou všechny akce zaneseny ve slovníku akcí, kde jsou definovány vztahy, které jednotlivým akcím přidělují sekvence či kombinace hodnot v elektronickém záznamu o pacientovi. "Akce" je zde chápána jako velmi široký pojem. Akcí může být například "iniciace podávání léků" (změna hodnoty proměnné léčba lékyžádná na mono-terapie) atd.

Cíle jsou v této úrovni hierarchicky uspořádány resp. je vytvořena struktura cílů. Určitě lze rozlišovat mezi cíli globálními a podřadnými. Obdobně lze některé cíle začít sledovat až po dosažení cílů předešlých. Všechny tyto informace o následnostech a dalších vztazích musí být v podobě atributů doplněny tak, aby skutečně vznikla plnohodnotná struktura všech cílů.

Podobná situace nastává v případě scénářů, které by měly být zdokumentovány tak, aby bylo možné na základě těchto informací vytvořit orientovaný graf scénářů obecně reprezentující průběh léčby pro všechny pacienty.

2.5.  Testování

V současnosti je Guide-X testován na doporučených postupech pro léčbu hypertenze vydaných Světovou zdravotní organizací v roce 1999 (1999 WHO/ISH Hypertension Guidelines) a na doporučeních pro diagnostiku a léčbu akutního infarktu myokardu a nestabilní anginy pectoris vydané Českou kardiologickou společností z roku 2002.


[1] Na rozdíl od ostatních ukázek se zde nacházejí elementy, které nejsou na první pohled zcela jasné. Element predicate porovnává atribut attribute s hodnotou value na základe operátoru op. Operátor muže být typu "vetší než", "menší než" apod. ("eq" znamená equal nebo-li rovno).  Element compound-predicate pak představuje jakési uzávorkování více vnořených elementů s podmínkou jejich naplnění (OR/AND). Detailní popis těchto elementů a jejich atributů je popsán v definici jazyka PMML 1.0.

Tisk stránky

Projekty > Stepper > Guide-X

 

Mail to: webmaster ;   datum poslední aktualizace: 28. 02. 2003