Bakalářská práce se zabývá klasifikačními úlohami v data miningu. Cílem této práce je vytvoření modelu, který bude schopen spolehlivě klasifikovat data do cílových atributů. Pro splnění cíle byl proveden sběr dat na tři klasifikační úlohy, které mají za úkol roztřídit data do skupin podle souvislostí mezi nimi. Z výsledků měření vzešly jako optimální tyto klasifikační techniky: rozhodovací stromy s algoritmy C5.0, CHAID, CART, QUEST a neuronové sítě. Data zpracovaná pomocí těchto technik jsou poté analyzována a v závěru je vyhodnocena nejpřesnější technika.
Anotace v angličtině
The bachelor thesis deals with the classification tasks for data mining. The goal of the thesis is to create the model that is able to qualify data to target attributes. For reach the aim data for three classification task was collected. Data was analyzed with these methods: decision trees with algorithms C5.0, CHAID, CART, QUEST and neural networks. Selected methods were compared on the basis of the results of testing and the precise method was chosen.
Klíčová slova
data mining, dobývání znalostí, klasifikace, klasifikační metody, rozhodovací stromy, neuronové sítě, IBM SPSS Modeler
Klíčová slova v angličtině
data mining, knowledge discovery, classification, classification methods, decision trees, neural networks, IBM SPSS Modeler
Rozsah průvodní práce
59 s.
Jazyk
CZ
Anotace
Bakalářská práce se zabývá klasifikačními úlohami v data miningu. Cílem této práce je vytvoření modelu, který bude schopen spolehlivě klasifikovat data do cílových atributů. Pro splnění cíle byl proveden sběr dat na tři klasifikační úlohy, které mají za úkol roztřídit data do skupin podle souvislostí mezi nimi. Z výsledků měření vzešly jako optimální tyto klasifikační techniky: rozhodovací stromy s algoritmy C5.0, CHAID, CART, QUEST a neuronové sítě. Data zpracovaná pomocí těchto technik jsou poté analyzována a v závěru je vyhodnocena nejpřesnější technika.
Anotace v angličtině
The bachelor thesis deals with the classification tasks for data mining. The goal of the thesis is to create the model that is able to qualify data to target attributes. For reach the aim data for three classification task was collected. Data was analyzed with these methods: decision trees with algorithms C5.0, CHAID, CART, QUEST and neural networks. Selected methods were compared on the basis of the results of testing and the precise method was chosen.
Klíčová slova
data mining, dobývání znalostí, klasifikace, klasifikační metody, rozhodovací stromy, neuronové sítě, IBM SPSS Modeler
Klíčová slova v angličtině
data mining, knowledge discovery, classification, classification methods, decision trees, neural networks, IBM SPSS Modeler
Zásady pro vypracování
Závěrečná práce se bude týkat problematiky Data Mining-u (DM) a metod klasifikace.
Na vybraných příkladech budou vysvětleny: základní pojmy z klasifikačních metod, vybraná problematika
sběru a předzpracování dat pro tři klasifikační úlohy, vybrané zásady návrhu a analýzy modelů pro jednotlivé úlohy.
Vysvětlení základních pojmů DM a metod klasifikace
Sběr dat pro tři klasifikační úlohy
Modelování jednotlivých úloh
Vyhodnocení výsledků
Zásady pro vypracování
Závěrečná práce se bude týkat problematiky Data Mining-u (DM) a metod klasifikace.
Na vybraných příkladech budou vysvětleny: základní pojmy z klasifikačních metod, vybraná problematika
sběru a předzpracování dat pro tři klasifikační úlohy, vybrané zásady návrhu a analýzy modelů pro jednotlivé úlohy.
Vysvětlení základních pojmů DM a metod klasifikace
Sběr dat pro tři klasifikační úlohy
Modelování jednotlivých úloh
Vyhodnocení výsledků
Seznam doporučené literatury
1) BERKA, Petr. Dobývání znalostí z databází. 1. vyd. Praha: Academica, 2003. ISBN 80-200-1062-9.
2) PETR, Pavel. Data Mining - Díl I. 3. vyd. Pardubice: Univerzita Pardubice, 2010.
ISBN 978-80-7395-325-6.
3) RUD, Olivia Parr. Data Mining: praktický průvodce dolováním dat pro efektivní prodej,
cílený marketing a podporu zákazníků (CRM). Praha: Computer Press, 2001. ISBN 80-7226-577-6.
4) BERRY, Michael J. A., LINOFF Gordon. Data mining techniques: for marketing,
sales and customer support. New York: John Wiley & Sons, 1997. ISBN 0-471-17980-9.
Seznam doporučené literatury
1) BERKA, Petr. Dobývání znalostí z databází. 1. vyd. Praha: Academica, 2003. ISBN 80-200-1062-9.
2) PETR, Pavel. Data Mining - Díl I. 3. vyd. Pardubice: Univerzita Pardubice, 2010.
ISBN 978-80-7395-325-6.
3) RUD, Olivia Parr. Data Mining: praktický průvodce dolováním dat pro efektivní prodej,
cílený marketing a podporu zákazníků (CRM). Praha: Computer Press, 2001. ISBN 80-7226-577-6.
4) BERRY, Michael J. A., LINOFF Gordon. Data mining techniques: for marketing,
sales and customer support. New York: John Wiley & Sons, 1997. ISBN 0-471-17980-9.
Přílohy volně vložené
-
Přílohy vázané v práci
-
Převzato z knihovny
Ne
Plný text práce
Přílohy
Posudek(y) oponenta
Hodnocení vedoucího
Záznam průběhu obhajoby
Studentka seznámila komisi s tématem své bakalářské práce Klasifikační úlohy pro Data Mining.
Jak si vysvětlujete úspěšnost "posilovací metody (boost)", s.30?
Vystačila byste si v návrhu Vašich modelů s "default" nastavení použitého SW?
Je podle Vás reálná 100 procetní přesnost klasifikace a nemůže to být způsobeno např. přeučením modelu?
Třídila jste země v Africe a mimo Afriku pomocí atributu ID?
Jaká kritéria jste použila pro třídění hodnot?
Jak jste si stanovila hranice pro určení, do jaké skupiny spadají jednotlivé země? Ovlivnily by jiné hodnoty hranic výsledky Vaší práce?
Studentka na otázky pohotově odpovídala.