EuroMISE centrum – Kardio, spolunositelské pracoviště Vysoká škola ekonomická Praha

Schéma metodiky víceúrovňové formalizace

1.  Úvod

V mnoha oborech se můžeme setkat s textovými dokumenty, které představují jistou formu předpisu nebo doporučení. Mohou to být např. lékařská doporučení pro léčbu určité choroby, stavební standardy a normy či právní spisy. Z pohledu obsažených znalostí se tyto dokumenty vyznačují určitými specifickými rysy. Především zahrnují ucelený soubor doménových znalostí o dané problematice a dále na sebe vážou jistou všeobecnou platnost.

Formalizace těchto dokumentů může být přínosná hned z několika důvodů. Na základě formálního modelu můžeme provádět různé úlohy počínaje hledáním logických chyb až po porovnání předpisů obsažených v dokumentech s jejich plnění v realitě. Proces formalizace  bývá komplikovaný a místy značně nepřehledný. Zde je navržena metodika formalizace obdobných dokumentů, která je si bere za cíl maximálně zprůhlednit celý proces, aby ho bylo možné snadným způsobem zpětně verifikovat.

2.  Schémaformalizační metodiky

2.1.  Víceúrovňová formalizace

Většina přístupů k extrakci znalostí z textových dokumentů předpokládá během procesu formalizace intenzivní spolupráci mezi doménovým expertem a znalostním inženýrem, která vede k vytvoření formálního modelu. Jedná se tedy o jednofázový proces formalizace. Ten však skýtá jistá úskalí vyplývající z dominantní role doménového experta. Jedno ze základních omezení spočívá v tom, že doménový expert většinou nemá dostatek času poskytovat znalostnímu inženýrovi dlouhé konzultace. Další problém lze popsat jako subjektivizace znalostí. Vycházíme-li z dokumentu, který představuje objektivní popis určité oblasti, a při formalizaci využíváme výkladu od doménového experta, zákonitě se nemůžeme vyhnout “přimíchání“ subjektivních znalostí tohoto experta (často i nechtěnému). Samotné zapracování obou typů znalostí není samo o sobě vadou, ale protože neexistuje průhledná vazba mezi prvky formálního modelu a odpovídajícími fragmenty zdrojového textu, je při tomto přístupu takřka nemožné typy znalostí odlišit.

Obdobná situace vzniká v momentě, kdy se snažíme provést verifikaci modelu, případně ho aktualizovat na základě změn ve zdrojovém textu. Všechny tyto operace vyžadují jasné propojení mezi modelem a textem.

Snažili jsme se proto vyvinout metodiku, která by uvedené problémy řešila. Její podstatou je vícefázový proces formalizace, který vychází z původního textu (úroveň 0), a každá následující úroveň rekurentně slouží jako základ pro další zpracování. Všechny významné ucelené části textu v nové úrovni musí obsahovat jednoznačný odkaz na svůj zdroj v úrovni předešlé.

2.2.  XML jako syntaktický základ

Zatím nebyl pojem úroveň nijak blíže specifikován. Pro naše potřeby tím myslíme nový dokument vzniklý z původního dokumentu zavedením nebo přidáním sémantických struktur v kombinaci s přímými nutnými úpravami v textu. Nedochází tedy k vytváření žádných schématických či grafických reprezentací, nýbrž se stále držíme čistě textového zápisu.

Pro tyto účely se zdá být optimální značkovací jazyk XML (eXtensible Mark-up Language) a s ním spojené nástroje, se kterým tato metodika počítá jako s formátem pro ukládání většiny úrovní. Díky XML je možné do textového dokumentu snadno zanést sémantickou strukturu, která je přesně definovaná v odpovídajícím souboru DTD (Document Type Definition). Před začátkem samotného zpracování textu je proto potřeba vytvořit pro každou úroveň (s výjimkou první a poslední) soubor DTD. Tato část se pochopitelně neobejde bez přímé dohody mezi znalostním inženýrem a doménovým expertem o tom, jaké typy znalostí se budou v textu zachycovat a jakou podobu budou mít průběžně ve všech úrovních.

Od počátku je nutné jasně stanovit výstupní formát resp. finální úroveň, ke které celý formalizační proces směřuje.  Tato úroveň již pravděpodobně nebude ve formátu XML nýbrž se bude jednat o formát vhodný pro zpracování některým softwarovým nástrojem (např. zápis v jazyce Prolog). V každém případě je potřeba zohlednit možnosti výstupního formátu při návrhu jednotlivých úrovní.

Volba jazyka XML pro tuto metodiky je mimo jiné daná i existujícími příbuznými nástroji. XML disponuje vysoce propracovaným referenčním jazykem XLink, umožňující odkazovat na libovolnou část XML dokumentů (v kooperaci s jazykem XPointer v podstatě i na pouhý jeden znak). Díky němu můžeme provádět dohledávání zdrojového textu pro konkrétní části formálního modelu. Velmi přínosný je i nástroj XSLT určený k transformacím dokumentů XML, a to i do zcela odlišného formátu. Díky tomu je značně ulehčen přechod do výstupní úrovně, který XSLT zajišťuje z větší části automaticky.

3.  Návrh jednotlivých rovní

3.1.  XHTML – vstupní textový formát – úroveň 0

Jak již bylo zmíněno, jednotlivé úrovně formalizace jsou uchovávány ve formátu XML. Otázkou zůstává, jaký formát by měl mít původní dokument v ještě nezměněné podobě. Jako ideální řešení se zdá být jazyk XHTML (eXtended HyperText Mark-up Language ), a to z následujících důvodů :

3.2.  Úroveň 1 – bloky textu jako nositelé potenciálních znalostí

Vznik této úrovně resp. první krok se skládá ze dvou částí. První představuje kompletní odstranění dosavadní značkovací struktury, která má v XHTML čistě formátovací význam. Druhá pak místo ní zavádí prvotní sémantickou strukturu. Smyslem této úrovně ale není detailní zachycení a rozbor všech nalezených znalostí, ale jen prosté vymezení bloků textu jako potenciálních nositelů určitého typu znalosti. Tato úroveň by mohla být bez větších problémů vyhotovena znalostním inženýrem (obeznámeným s podstatou hlavních doménových pojmů), který by pouze v případech větších nejasností kontaktoval doménového experta.

Co se týče vymezování znalostních bloků z textových pasáží, měly by být dodržovány určité zásady. Za prvé je to snaha, aby pokud možno z každé části textu vznikal alespoň jeden znalostní blok. Z povahy vstupních dokumentů (znalostní bohatost) vyplývá, že většina textu by měl mít po znalostní stránce nějaký význam. Je možné, aby ze stejné pasáže vznikalo více různých znalostních bloků, případně aby se zdrojový text více bloků částečně kryl. Rozlišení v tomto případě zajišťují XLink odkazy. Dále by se ve znalostních blocích v rámci této úrovně neměla vyznačovat vnitřní struktura, pouze snad značky nastiňující  provázanost mezi znalostními bloky v této úrovni.

3.3.  Úroveň 2 – detailní sémantická struktura

Ve druhé úrovni by mělo dojít již k vyznačení detailní sémantické struktury s odpovídajícími úpravami v textu. Proto by většinu zpracování měl provést sám doménový expert. Pro tuto úroveň je opět klíčový správný návrh struktury souboru DTD, aby expertem vyznačené znalosti mohly být účelně využity v dalších krocích.

V rámci této úrovně dochází k určitému zlomu, protože podstatná část původního textu se rozmělní mezi hodnoty atributů a drobné fragmenty textu v sub-elementech. Na rozdíl od předešlé úrovně je tedy podoba s původním dokumentem jen těžko patrná. Na dokument je nyní nutné nahlížet jako na soubor znalostních bloků v pokročilém stádiu formalizace.

3.4.  Úroveň 3 – znalostní báze

Označený text z předcházející úrovně je již solidním základem pro vybudování znalostní báze. Nyní je potřeba učinit jisté úpravy, aby mohl být text úspěšně exportován. Činnosti jako přetřídění, validace a shlukování znalostních bloků, přidání globální struktury či hierarchie některým typům znalostí a případné doplnění chybějících hodnot provádí znalostní inženýr. To se pochopitelně neobejde bez intenzivního využití softwarových nástrojů.

Při návrhu souboru DTD je bezpodmínečně nutné brát v úvahu i možnosti formátu, do kterého se bude znalostní báze exportovat. Pokud tak učiněno není, je více než pravděpodobné, že příprava exportních pravidel bude neúnosně komplikovaná a v extrémních případech dokonce nemožná.

3.5.  Export pomocí XSLT

Poslední krok formalizace se od ostatních liší v tom, že jeho výsledkem již není dokument ve formátu XML, nýbrž model v jiném standardu, s nímž umí pracovat některý ze znalostních systémů (případně jiný výpočetní nástroj). Tento krok je proto vhodné co možná nejvíce zautomatizovat. K tomu nám poslouží standard XSLT (eXtensible Stylesheet Language Transformation), vyvinutý právě pro transformaci dokumentu XML

Během tvorby souboru XSLT je nutná spolupráce s expertem na výstupní formát, a to jak při seznamování se s detaily syntaxe, tak i při mapování elementů XML a atributů na odpovídající objekty v tomto formátu. Tato činnost by měla být uvážlivě rozdělena mezi návrh souboru DTD předešlé úrovně a mezi pravidla XSLT.

4.  Dodatečné práce s hotovým modelem

Po úspěšném dokončení formalizačního procesu nabízí metodika některé zajímavé možnosti dodatečných úprav, které v případě jednofázových postupů nelze provést. V úvodu byla zmíněna možnost dohledání zdrojového textu pro elementární část modelu a obdobně dohledání všech částí modelu pro určenou pasáž v textu. Tímto způsobem si sice můžeme formalizační proces prohlížet "ze všech možných stran", ale samo o sobě to až takový význam nemá. Hlavní přednost těchto funkcí je spojena se skutečností, že zdrojový dokument je periodicky aktualizován. Pokud chceme vytvořit model pro aktualizovanou verzi, postačuje na základě srovnání obou dokumentů najít všechny části modelu i jednotlivých úrovní, které jsou změnou ovlivněny a jejich obsah upravit, případně nahradit jinými znalostními bloky.

Obdobně když je model aktivně užíván, mohou se objevit například problematická nebo těžko srozumitelná místa. Při přesné identifikaci takových míst je dále triviální záležitostí odhalit veškerý vstupní text, upravit ho aby vyhovoval novým požadavků a na jeho základě vytvořit nový model, který by měl být prozatím bezproblémový.

Všechny tyto činnosti jsou zcela závislé na XLink odkazech. Proto je nutné, aby pečlivě sledovaly vývoj každého znalostního bloku od jeho zrodu až k exportu do výstupního formátu.


Datum: 21. 09. 2017

URL: