lunch-crawler

Dieses Repository ist im Zusammenhang mit einer Bachelorarbeit erstellt worden.

Abstract

Ziel dieser Arbeit ist das Erstellen einer Suchmaschine, über welches sich Menüs und Speisen suchen lassen. Die Grundlage einer solchen Suchmaschine sind Websites von Restaurants, welche relevante Speiseinformationen beinhalten. Im Kontext dieser Bachelorarbeit wurde manuell ein Gold-Standard aus Restaurantseiten zusammengestellt. Für die Erstellung des Gold-Standards wurde eigens ein Webcrawler implementiert, welcher eine Vielzahl von Restaurant-Links besucht und den Webseiteninhalt abspeichert. Der erstellte Gold-Standard dient dazu, eine Klassifikation der Restaurantseiten anhand zwei verschiedener Ansätze durchzuführen und zu messen. Die zwei Ansätze sind regelbasiertes Klassifizieren sowie das Klassifizieren mittels Machine-Learning. Um die einzelnen Klassifikationen prüfen zu können, wurden in beiden Bereichen mehrere Experimente durchgeführt. Im praktischen Teil der Arbeit wurde neben dem Webcrawler eine Webapplikation erarbeitet, welche die Suchmaschine den Benutzern zugänglich macht.

The aim of this work is to create a search engine, which searches for menus and meals. The basis of this search engine are websites of restaurants, which contain relevant food information. In the context of this bachelor thesis, a gold standard has been created manually from restaurant pages. To get the data for this gold standard, a webcrawler was implemented, which visits a large number of restaurant links and saves the website content. This gold standard is used to execute and measure a classification of the restaurant webpages using two different approaches. The two approaches are rule-based classification and classifying by means of machine learning. In order to measure both classification outcomes, several experiments were executed for both approaches. In the practical part of the work, a web application was developed in addition to the web crawler, which makes the search engine accessible to users.

Dateistruktur

Webcrawler

Implementierung StormCrawler
- Angepasste Komponenten
- Docker-Compose
Script zur Analyse der gecrawlten Rohdaten

Gold Standard

Gold Standard
Tool zum manuellen Labeln
Script zur Extrahierung zufälliger Daten aus den gecrawlten Rohdaten

Klassifikationspipeline

Übersicht
Code
Konfigurationen
- Konfiguration für regelbasierte Klassifikation
- Konfiguration für Klassifikation mittels Machine Learning
Diverse Files

Produktive Pipeline

Pipeline zur Klassifikation der Rohdaten
Script zur Standardisierung von Restaurantinformationen
Script zur Analyse von Restaurantinformationen

Webapplikation

Webapp
Frontend
- Scripts
- HTML
Backend
- Routes
Basics für Elasticsearch

Informationen

Abgabedatum: 09.08.2019

Studenten:

Sandro Santoro
Gian Brunner

Referenten:

Prof. Corsin Capol
Lukas Toggenburger

Schule: NTB | Interstaatliche Hochschule für Technik Buchs

Studiengang: Systemtechnik

Vertiefungsrichtung: Informations- und Kommunikationssysteme

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

README.md

README.md

lunch-crawler

Abstract

Dateistruktur

Webcrawler

Gold Standard

Klassifikationspipeline

Produktive Pipeline

Webapplikation

Informationen

Files

README.md

Latest commit

History

README.md

File metadata and controls

lunch-crawler

Abstract

Dateistruktur

Webcrawler

Gold Standard

Klassifikationspipeline

Produktive Pipeline

Webapplikation

Informationen