EuroMISE centrum – Kardio, spolunositelské pracoviště Vysoká škola ekonomická Praha

1  Proces dobývání znalostí

Dobývání znalostí bývá definováno jako proces netriviální extrakce implicitních, dříve neznámých a potenciálně užitečných informací z dat [Fayyad a kol, 1996]. O dobývání znalostí z databází se začíná intenzivněji mluvit v polovině 90. let kdy si nárůst objemu dat uchovávaných v různých organizacích spolu s potřebou tato data analyzovat vynutil propojení poznatků ze tří oblastí: statisitky, databází a strojového učení.

S postupem doby začaly vznikat metodologie, které si kladou za cíl poskytnout uživatelům jednotný rámec pro řešení různých úloh z oblasti dobývání znalostí. Tyto metodologie umožňují sdílet a přenášet zkušenosti z úspěšných projektů. Za některými metodologiemi stojí producenti software (metoda „5A“ firmy SPSS nebo metodologie SEMMA firmy SAS), jiné vznikají ve spolupráci výzkumných a komerčních institucí jako „softwarově nezávislé“ (CRISP-DM). My se při našem postupu přidržíme metodologie CRISP-DM.

Metodologie CRISP-DM (CRoss-Industry Standard Process for Data Mining) vznikla v rámci výzkumného projektu Evropské komise. Cílem projektu je navrhnout univerzální postup (tzv. standardní model procesu dobývání znalostí z databází), který bude použitelný v nejrůznějších komerčních aplikacích. Vytvoření takovéto metodologie umožní řešit rozsáhlé úlohy dobývání znalostí rychleji, efektivněji, spolehlivěji a s nižšími náklady. Kromě návrhu standardního postupu má CRISP-DM nabízet „průvodce“ potenciálními problémy a řešeními, které se mohou vyskytnout v reálných aplikacích.

Životní cyklus projektu dobývání znalostí je podle metodologie CRISP-DM tvořen šesti fázemi (Obr. 1). Pořadí jednotlivých fází není pevně dáno. Výsledek dosažený v jedné fázi ovlivňuje volbu kroků následujících, často je třeba se k některým krokům a fázím vracet. Vnější kruh na obrázku symbolizuje cyklickou povahu procesu dobývání znalostí z databází jako takovou.

Metodologie CRISP-DM
Obr. 1 – Metodologie CRISP-DM

Porozumění problematice je úvodní fáze zaměřená na pochopení cílů projektu a požadavků na řešení formulovaných z manažerského hlediska. Tato manažerská formulace musí být převedena do zadání úlohy pro dobývání znalostí z databází.

Fáze porozumění datům začíná prvotním sběrem dat. Následují činnosti které umožní získat základní představu o datech, která jsou k dispozici (posouzení kvality dat, první „vhled“ do dat, vytipování zajímavých podmnožin záznamů v databázi…). Obvykle se zjišťují různé deskriptivní charakteristiky dat (četnosti hodnot různých atributů, průměrné hodnoty, minima, maxima apod.), s výhodou se využívají i různé vizualizační techniky.

Příprava dat zahrnuje činnosti, které vedou k vytvoření datového souboru, který bude zpracováván jednotlivými analytickými metodami. Tato data by tedy měla obsahovat údaje relevantní k dané úloze, a mít podobu, která je vyžadována vlastními analytickými algoritmy.

Analytické metody použité ve fázi modelování zahrnují algoritmy pro dobývání znalostí. Obvykle existuje řada různých metod pro řešení dané úlohy, je tedy třeba vybrat ty nejvhodnější (doporučuje se použít více různých metod a jejich výsledky kombinovat) a vhodně nastavit jejich parametry. Jde tedy opět o iterativní činnost (opakovaná aplikace algoritmů s různými parametry), navíc, použití analytických algoritmů může vést k potřebě modifikovat data a tedy k návratu k datovým transformacím z předcházející fáze.

Ve fázi interpretace se dosažené výsledky vyhodnocují z pohledu uživatelů, tedy z pohledu zda byly splněny cíle formulované na počátku projektu.

Vytvořením vhodného modelu celý projekt obecně nekončí. Dokonce i v případě, že řešenou úlohou byl „pouze“ popis dat, získané znalosti je třeba upravit do podoby použitelné pro podporu rozhodování. Podle typu úlohy tedy využití (nasazení) výsledků může na jedné straně znamenat prosté sepsání závěrečné zprávy, na straně druhé pak zavedení (hardwarové, softwarové, organizační) systému pro automatickou klasifikaci nových případů.

Jednotlivé kroky procesu dobývání znalostí jsou různě časově náročné a mají i různou důležitost pro úspěšné vyřešení dané úlohy. Praktici v oboru uvádějí, že nejdůležitější je fáze porozumění problému (80 % významu, 20 % času) a časově nejnáročnější je fáze přípravy dat (80 % času, 20 % významu). Překvapivě málo práce zaberou vlastní analýzy (5 % času, 2 % významu).


Datum: 21. 11. 2017

URL: