Předmětem této diplomové práce je představit způsob, jakým lze pracovat a analyzovat výsledky experimentů, jež generují velmi obsáhlé datové sady. Pro tuto úlohu jsou využity analytické nástroje pro velká data. Pomocí těchto nástrojů je zařízeno načtení dat, které je následováno hledáním užitečných informací a jejich následným zobrazením v přívětivé formě vizualizované pomocí tabulek a grafů. V teoretické části je vysvětlen proces a techniky dolovaní dat společně s představením nástrojů použitelných pro tento úkol. Praktická část pak obsahuje postup analyzování dat s pomocí nástroje Apache Spark u vzorové datové sady získané při běhu algoritmu symbolické regrese za pomocí nástroje Apache Spark.
Anotace v angličtině
The main subject of this diploma thesis is to introduce a way how to work and analyze the results of experiments which generate very big data sets. For this purpose, are used Big Data analytics tools. By using these tools, it is possible to load the data which is followed by the searching for the useful information which is later visualized in form of charts and data tables. There is explanation of data mining process and its techniques together with the introduction of tools usable for this task. Practical part contains solution of analyzing data using the Apache Spark on the example data set which was obtained by running symbolic regression algorithm.
Data Mining, data set, Big Data, visualization, data analysis, Apache Spark
Rozsah průvodní práce
83 s.
Jazyk
CZ
Anotace
Předmětem této diplomové práce je představit způsob, jakým lze pracovat a analyzovat výsledky experimentů, jež generují velmi obsáhlé datové sady. Pro tuto úlohu jsou využity analytické nástroje pro velká data. Pomocí těchto nástrojů je zařízeno načtení dat, které je následováno hledáním užitečných informací a jejich následným zobrazením v přívětivé formě vizualizované pomocí tabulek a grafů. V teoretické části je vysvětlen proces a techniky dolovaní dat společně s představením nástrojů použitelných pro tento úkol. Praktická část pak obsahuje postup analyzování dat s pomocí nástroje Apache Spark u vzorové datové sady získané při běhu algoritmu symbolické regrese za pomocí nástroje Apache Spark.
Anotace v angličtině
The main subject of this diploma thesis is to introduce a way how to work and analyze the results of experiments which generate very big data sets. For this purpose, are used Big Data analytics tools. By using these tools, it is possible to load the data which is followed by the searching for the useful information which is later visualized in form of charts and data tables. There is explanation of data mining process and its techniques together with the introduction of tools usable for this task. Practical part contains solution of analyzing data using the Apache Spark on the example data set which was obtained by running symbolic regression algorithm.
Data Mining, data set, Big Data, visualization, data analysis, Apache Spark
Zásady pro vypracování
Numerické experimenty s algoritmy, jako jsou např. algoritmy genetického programování, vedou k produkci rozsáhlých souborů dat, které je obtížné manuálně analyzovat. Přitom jsou ovlivněny mnoha vlivy, jako je např. zvolený generátor pseudonáhodných čísel a jejich rozdělení, soubor funkcí (stavebních bloků), algoritmus, ale i vlivy operačního systému. Jednou z možností jejich zpracování je použití vhodného open source data-miningového nástroje, který by mohl pomoci odhalit skryté souvislosti.
Cílem práce je nalézt takovýto nástroj a ověřit jeho vhodnost. V teoretické části se očekává analyzujte dostupného souboru dat a na jeho základě i volba vhodné data-miningové metody. V praktické části pak nasazení vhodného data-miningového nástroje implementujícího tuto metodu, volba vhodné reprezentace dat a jejich úložiště, jakož i prezentace získaných výsledků.
Zásady pro vypracování
Numerické experimenty s algoritmy, jako jsou např. algoritmy genetického programování, vedou k produkci rozsáhlých souborů dat, které je obtížné manuálně analyzovat. Přitom jsou ovlivněny mnoha vlivy, jako je např. zvolený generátor pseudonáhodných čísel a jejich rozdělení, soubor funkcí (stavebních bloků), algoritmus, ale i vlivy operačního systému. Jednou z možností jejich zpracování je použití vhodného open source data-miningového nástroje, který by mohl pomoci odhalit skryté souvislosti.
Cílem práce je nalézt takovýto nástroj a ověřit jeho vhodnost. V teoretické části se očekává analyzujte dostupného souboru dat a na jeho základě i volba vhodné data-miningové metody. V praktické části pak nasazení vhodného data-miningového nástroje implementujícího tuto metodu, volba vhodné reprezentace dat a jejich úložiště, jakož i prezentace získaných výsledků.
Seznam doporučené literatury
SHAFFER Clifford A.: A Practical Introduction to Data Structures and Algorithm Analysis Third Edition (Java). Virginia: Department of Computer Science, Virginia Tech, 2009 AGGARWAL, Charu C.: Data Mining - The Textbook. New York: Springer, 2015. ISBN 978-3-319-14142-8 SKALSKÁ H.: Data mining a klasifikační modely. Praha: Gaudeamus, 2010
Seznam doporučené literatury
SHAFFER Clifford A.: A Practical Introduction to Data Structures and Algorithm Analysis Third Edition (Java). Virginia: Department of Computer Science, Virginia Tech, 2009 AGGARWAL, Charu C.: Data Mining - The Textbook. New York: Springer, 2015. ISBN 978-3-319-14142-8 SKALSKÁ H.: Data mining a klasifikační modely. Praha: Gaudeamus, 2010
Přílohy volně vložené
-
Přílohy vázané v práci
-
Převzato z knihovny
Ne
Plný text práce
Přílohy
Posudek(y) oponenta
Hodnocení vedoucího
Záznam průběhu obhajoby
Diplomant na základě své znalosti programování, operačních systémů Linux a Windows, databází a algoritmizace implementoval v jazyce Scala v prostředí Appache Spark určeném pro práci s Big data prostředí a algoritmy pro vyhodnocení výsledků velmi rozsáhlého souboru experimentů z oblasti genetického programování. Práci považuji za zdařilou, velmi obsáhlou a zabývající se na diplomovou práci velmi rozsáhlou problémovou oblastí, kterou se z pohledu nároků na diplomovou práci podařilo diplomantovi zvládnout.
Kontrola plagiátorství zřejmě díky nepříliš frekventovanému tématu, použitým knihovnám a neobvyklému programovacímu jazyku uvedla neuvěřitelnou míru shody 0%, proto můžeme práci považovat za zcela původní.
Oponent celkově diplomovou práci hodnotí jako kvalitní. Diplomant prokázal, že se umí orientovat ve
složitém prostředí práce s velkými daty, a to nejen teoreticky, ale především prakticky. Velmi oceňuji, že se mu podařilo vyřešit všechny problémy, ke kterým v praktickém použití došlo. Zejména ta část, ve které došlo k selhání při pokusu načítat a zpracovávat data z objemné databázové tabulky, svědčí o důkladném zvládnutí technologie diplomantem. Mimoto, vyřešení problému načítáním dat po částech pomocí integrovaných funkcí Apache Spark je dosti obtížné a je jasným důkazem, že diplomant úlohu zvládl na úrovni, která je vyšší, než je běžně od studentů požadováno.
Diplomová práce byla vypracována na velmi vysoké úrovni. Položené otázky byly odpovězeny k spokojenosti komise.
Práce byla zkontrolována v systému IS/STAG, dle hodnocení komise nejeví známky