EuroMISE centrum – Kardio, spolunositelské pracoviště Vysoká škola ekonomická Praha

3  Systémy pro dobývání znalostí z databází

Jako v jiných oblastech umělé inteligence, tak i v oblasti strojového učení se první programové systémy objevily v akademické sféře. Obvykle se jednalo o systémy, ve kterých se kladl důraz na implementování vlastního algoritmu; uživatelská přátelskost stála na pokraji zájmu. Přesto tyto systémy výrazně ovlivnily vývoj celé disciplíny. Připomeňme v této souvislosti alespoň Quinlanův C4.5 [Quinlan, 1993] nebo CN2 Clarka a Nibbleta [Clark, Nibblet, 1989]. Systémy pro dobývání znalostí z databází navazují tedy jednak na tuto linii, často přebírají úspěšné algoritmy. Druhou oblastí inspirace se staly velké balíky statistického software obsahující desítky metod pro analýzu dat i moduly pro transformaci dat. Aby systémy prorazily ke koncovému uživateli, dostaly (ve srovnání s programy pro strojové učení) přívětivější podobu.

Systémy pro dobývání znalostí z databází tedy

Tyto systémy lze rozdělit zhruba na výzkumné a komerční ([Siebes, 2000]). V každé této skupině můžeme opět nalézt dva typy systémů: zaměřené na dobývání znalostí obecně (tzv. horizontální) a zaměřené na nějakou konkretní aplikační oblast (tzv. vertikální). Zde uváděný přehled je zaměřen na obecné systémy pro dobývání znalostí komerční i výzkumné.

Systémy pro dobývání znalostí nabízejí jak malé firmy vzešlé z akademického prostředí (RuleQuest nebo Dialogis), tak význační producenti statistického software (SAS nebo SPSS). O rostoucím zájmu o dobývání znalostí z databází svědčí fakt, že mezi výrobce softwaru se zařadily i firmy jako IBM nebo Silicon Graphics. Tab. 2 uvádí některé nám známé systémy pro dobývání znalostí z dat. Podrobný seznam systémů je možno nalézt např. na http://www.kdnuggets.com.

Tab. 2 – Přehled systémů
Systém Výrobce URL
CART Salford Systems http://www.salford-systems.com
Clementine Integral Solutions (SPSS) www.spss.com/clementine/
Enterprise Miner SAS Institute www.sas.com/technologies/analytics/datamining/miner/ -
Intelligent Miner IBM http://www-4.ibm.com/software/data/iminer
Kepler Dialogis http://www.dialogis.de
KnowledgeStudio Angoss http://www.angoss.com
LISp Miner VŠE http://lispminer.vse.cz
MineSet Silicon Graphics http://www.sgi.com/tech/mlc/trees.html
See5 RuleQuest Research http://www.rulequest.com/see5-info.html
Weka University of Waikato http://www.cs.waikato.ac.nz/~ml/weka
WizWhy WizSoft www.wizsoft.com/default.asp?Win=7

Výše uvedené systémy nabízejí celou škálu metod, stručný přehled toho, co je v tom kterém systému k dispozici je uveden v tab. 3.

Tab. 3 – Používané metody
Systém Rozhodovací stromy Rozhodovací pravidla Asociační pravidla Neuronové sítě Lineární statistické metody Nejbližší soused
CART ano
Clementine ano ano ano ano ano ano
Enterprise Miner ano ano ano ano ano
Intelligent Miner ano ano ano ano ano
KnowledgeStudio ano ano ano ano ano
Kepler ano ano ano ano
LISp Miner ano ano
MineSet ano ano
See5 ano ano
Weka ano ano ano ano ano ano
WizWhy ano

V našem přehledu se podíváme na tři typické představitele systémů pro dobývání znalostí:

Velice stručně si rovněž přiblížíme způsob práce se systémem LISp-Miner vyvíjeným na VŠE.


Datum: 23. 11. 2017

URL: