Cílem této diplomové práce je představit čtenářům možnosti a využiti Data Science a vizualizace dat. V první části bude představena historie oboru Data Science, možnosti využití a popis vybraných typů vizualizací. Diplomová práce představuje procesní model CRISP-DM, model vyspělosti Data Science Maturity a Data Life Cycle Management. Poslední teoretická část se zaměřuje na nástroje používané datovými vědci, jako je Jupyter, Python, R, Scala, MATLAB, Julia a Elastic Stack. Praktická část je věnována vybraným nástrojům z teoretické části, pomocí kterých bude provedena vizualizace a demonstrace analýzy totožných dat. Praktická část bude dodržovat metodiku Data Science a zohledňovat metodiky popisované v teoretické části.
Anotace v angličtině
The aim of this master's thesis is to introduce readers to the possibilities and utilization of Data Science and data visualization. The first part will present the history of the Data Science field, its potential applications, and describe selected types of data visualizations. The thesis introduces the CRISP-DM process model, the Data Science Maturity model, and Data Life Cycle Management. The final theoretical section focuses on tools commonly used by data scientists, such as Jupyter, Python, R, Scala, MATLAB, Julia, and the Elastic Stack. The practical portion will focus on the selected tools from the theoretical part, through which data visualization and the demonstration analysis of identical data will be performed. The practical section will adhere to the methodology of Data Science and incorporate the methodologies described in the theoretical part.
Cílem této diplomové práce je představit čtenářům možnosti a využiti Data Science a vizualizace dat. V první části bude představena historie oboru Data Science, možnosti využití a popis vybraných typů vizualizací. Diplomová práce představuje procesní model CRISP-DM, model vyspělosti Data Science Maturity a Data Life Cycle Management. Poslední teoretická část se zaměřuje na nástroje používané datovými vědci, jako je Jupyter, Python, R, Scala, MATLAB, Julia a Elastic Stack. Praktická část je věnována vybraným nástrojům z teoretické části, pomocí kterých bude provedena vizualizace a demonstrace analýzy totožných dat. Praktická část bude dodržovat metodiku Data Science a zohledňovat metodiky popisované v teoretické části.
Anotace v angličtině
The aim of this master's thesis is to introduce readers to the possibilities and utilization of Data Science and data visualization. The first part will present the history of the Data Science field, its potential applications, and describe selected types of data visualizations. The thesis introduces the CRISP-DM process model, the Data Science Maturity model, and Data Life Cycle Management. The final theoretical section focuses on tools commonly used by data scientists, such as Jupyter, Python, R, Scala, MATLAB, Julia, and the Elastic Stack. The practical portion will focus on the selected tools from the theoretical part, through which data visualization and the demonstration analysis of identical data will be performed. The practical section will adhere to the methodology of Data Science and incorporate the methodologies described in the theoretical part.
Cílem práce je popsat možnosti a způsoby využití Data Science a vizualizace dat a demonstrace formou ukázek analýzy totožných dat a jejich vizualizace pomocí jazyků a nástrojů využívaných v této oblasti, a to minimálně pomocí jazyka Python s využitím DS knihoven (NumPy, Pandas, Plotly), R a Scala a příslušných nástrojů, a to nejméně využití JupyterLab nebo Jupyter notebooku, Apache Zeppelin ve spojení s Apache Spark a dále ELK Stack. Práce bude dodržovat metodiku Data Science, zohledňovat Data Lifecycle Management, procesní model CRoss Industry Standard Process for Data Mining (CRISP-DM) a model vyspělosti Data Science Maturity Models. V rámci práce budou využity historická data odpovídajícího rozsahu.
Zásady pro vypracování
Cílem práce je popsat možnosti a způsoby využití Data Science a vizualizace dat a demonstrace formou ukázek analýzy totožných dat a jejich vizualizace pomocí jazyků a nástrojů využívaných v této oblasti, a to minimálně pomocí jazyka Python s využitím DS knihoven (NumPy, Pandas, Plotly), R a Scala a příslušných nástrojů, a to nejméně využití JupyterLab nebo Jupyter notebooku, Apache Zeppelin ve spojení s Apache Spark a dále ELK Stack. Práce bude dodržovat metodiku Data Science, zohledňovat Data Lifecycle Management, procesní model CRoss Industry Standard Process for Data Mining (CRISP-DM) a model vyspělosti Data Science Maturity Models. V rámci práce budou využity historická data odpovídajícího rozsahu.
Seznam doporučené literatury
HILL, Raymond R. Becoming a Data Head: How to Think, Speak and Understand Data Science, Statistics and Machine Learning. 2021.
VANDERPLAS, Jake. Python data science handbook: Essential tools for working with data. " O'Reilly Media, Inc.".
MCKINNEY, Wes. Python for data analysis: Data wrangling with Pandas, NumPy, and IPython. " O'Reilly Media, Inc.".
Seznam doporučené literatury
HILL, Raymond R. Becoming a Data Head: How to Think, Speak and Understand Data Science, Statistics and Machine Learning. 2021.
VANDERPLAS, Jake. Python data science handbook: Essential tools for working with data. " O'Reilly Media, Inc.".
MCKINNEY, Wes. Python for data analysis: Data wrangling with Pandas, NumPy, and IPython. " O'Reilly Media, Inc.".
Přílohy volně vložené
-
Přílohy vázané v práci
-
Převzato z knihovny
Ne
Plný text práce
Přílohy
Posudek(y) oponenta
Hodnocení vedoucího
Záznam průběhu obhajoby
Dle vedoucí práce byly cíle splněny. Výstup práce byl vytvořen podle zadání a ačkoliv se jednalo dle vedoucí práce o novou oblast, pro studenta, v oblasti používaných metodik a principů obecně v oblasti Data Science splnil vše dle zadání a dle domluvy. Na implementaci byl patrný zájem autora o řešenou problematiku a zároveň časová náročnost, kterou autor vynaložil při jejím řešení hodnotí vedoucí práce kladně.
Dle oponenta se práci vyskytlo několik formálních nedostatků.
Student se snažil reagovat na připomínky oponenta. Diplomant zodpověděl dotazy vedoucího i členů komise.