Informace o kvalifikační práci Návrh robota pro automatické vyhledávání informací na Internetu týkajících se zvolených témat a jejich ukládání do databáze.
Cílem projektu je navrhnout automatizovaný vyhledávač informací v prostředí Internetu vztahujících se ke vznikajícím společenským akcím a jejich ukládání do databáze. V práci se věnujeme morální a legální stránce této tematiky, vhodnými případy nasazení a dále jsou popsány některé postupy používající se v problematice web scrapingu, jako je například konfigurace a spuštění web crawlerů.
Anotace v angličtině
The goal of the project is to design an automated program searching environment of the Internet that aims to search for information about new cultural events, its parsing and saving them into database. The thesis describes moral and legal aspect connected with the issue, suitable use cases of web scraping and then we cover some of the practices used in problematic of web scraping, such as using fulltext search engines, or configuring and running a web crawler.
Klíčová slova
Web scraping, web crawling, big data, Scrapy, Python, Apache Cassandra
Klíčová slova v angličtině
Web scraping, web crawling, big data, Scrapy, Python, Apache Cassandra
Rozsah průvodní práce
43
Jazyk
CZ
Anotace
Cílem projektu je navrhnout automatizovaný vyhledávač informací v prostředí Internetu vztahujících se ke vznikajícím společenským akcím a jejich ukládání do databáze. V práci se věnujeme morální a legální stránce této tematiky, vhodnými případy nasazení a dále jsou popsány některé postupy používající se v problematice web scrapingu, jako je například konfigurace a spuštění web crawlerů.
Anotace v angličtině
The goal of the project is to design an automated program searching environment of the Internet that aims to search for information about new cultural events, its parsing and saving them into database. The thesis describes moral and legal aspect connected with the issue, suitable use cases of web scraping and then we cover some of the practices used in problematic of web scraping, such as using fulltext search engines, or configuring and running a web crawler.
Klíčová slova
Web scraping, web crawling, big data, Scrapy, Python, Apache Cassandra
Klíčová slova v angličtině
Web scraping, web crawling, big data, Scrapy, Python, Apache Cassandra
Zásady pro vypracování
Cílem projektu je navrhnout automatizovaný vyhledávač informací v prostředí Internetu vztahujících se ke zvoleným tématům (např. počasí, kulturní a společenské akce, doprava a pod.) a jejich ukládání do vhodné databáze pro další zpracování.
\medskip
Vyhledávač může využívat komunikaci se standardními vyhledávači (Google, Seznam a pod.), ale může mít i podobu samostatného web crawleru dle zhodnocení situace studentem.
\medskip
Cílem je získávat maximálně relevantní informace a ukládat je do vhodné databáze (např. Apache Cassandra) pro další zpracování v prostředí Apache Spark Streaming nebo Apache Kafka. Jedná se o prostředí dovolující zpracovávat i velmi rozsáhlé soubory takto získaných dat (tzv. big data).
Zásady pro vypracování
Cílem projektu je navrhnout automatizovaný vyhledávač informací v prostředí Internetu vztahujících se ke zvoleným tématům (např. počasí, kulturní a společenské akce, doprava a pod.) a jejich ukládání do vhodné databáze pro další zpracování.
\medskip
Vyhledávač může využívat komunikaci se standardními vyhledávači (Google, Seznam a pod.), ale může mít i podobu samostatného web crawleru dle zhodnocení situace studentem.
\medskip
Cílem je získávat maximálně relevantní informace a ukládat je do vhodné databáze (např. Apache Cassandra) pro další zpracování v prostředí Apache Spark Streaming nebo Apache Kafka. Jedná se o prostředí dovolující zpracovávat i velmi rozsáhlé soubory takto získaných dat (tzv. big data).
Seznam doporučené literatury
SHEVAT A., Designing Bots: Creating Conversational Experiences. O'Reilly. 2017. ISBN 978-1491974827
\medskip
HEWITT E., Cassandra: The definitive Guide. O'Reilly, 2012. ISBN: 978-1-449-39041-9
Seznam doporučené literatury
SHEVAT A., Designing Bots: Creating Conversational Experiences. O'Reilly. 2017. ISBN 978-1491974827
\medskip
HEWITT E., Cassandra: The definitive Guide. O'Reilly, 2012. ISBN: 978-1-449-39041-9
Přílohy volně vložené
-
Přílohy vázané v práci
-
Převzato z knihovny
Ne
Plný text práce
Přílohy
Posudek(y) oponenta
Hodnocení vedoucího
Záznam průběhu obhajoby
Cílem práce bylo navrhnout automatizovaný vyhledávač informací v prostředí Internetu vztahujících se ke zvoleným tématům( například počasí, kulturní a společenské akce, doprava apod.).
Vedoucí vytkl práci několik drobností, na které student při obhajobě výborně reagoval a nejasnosti se snažil objasnit. Dle vedoucího práce se jedná o výbornou bakalářskou práci, kde student prokázal schopnost osvojit si znalosti nad rámec bakalářského studia a orientovat se v novém prostředí.
Nejvyšší míra shody 21% byla při kontrole plagiátorství zjištěna u souboru middlewares.py. Ostatní soubory mají shodu pod 5%. Web spider je založen na unifikovaném prostředí Scrapy, proto je takováto míra shody očekávatelná. Vlastní text práce je též původní. Práce není plagiát.