Dieses Repository ist im Zusammenhang mit einer Bachelorarbeit erstellt worden.
Ziel dieser Arbeit ist das Erstellen einer Suchmaschine, über welches sich Menüs und Speisen suchen lassen. Die Grundlage einer solchen Suchmaschine sind Websites von Restaurants, welche relevante Speiseinformationen beinhalten. Im Kontext dieser Bachelorarbeit wurde manuell ein Gold-Standard aus Restaurantseiten zusammengestellt. Für die Erstellung des Gold-Standards wurde eigens ein Webcrawler implementiert, welcher eine Vielzahl von Restaurant-Links besucht und den Webseiteninhalt abspeichert. Der erstellte Gold-Standard dient dazu, eine Klassifikation der Restaurantseiten anhand zwei verschiedener Ansätze durchzuführen und zu messen. Die zwei Ansätze sind regelbasiertes Klassifizieren sowie das Klassifizieren mittels Machine-Learning. Um die einzelnen Klassifikationen prüfen zu können, wurden in beiden Bereichen mehrere Experimente durchgeführt. Im praktischen Teil der Arbeit wurde neben dem Webcrawler eine Webapplikation erarbeitet, welche die Suchmaschine den Benutzern zugänglich macht.
The aim of this work is to create a search engine, which searches for menus and meals. The basis of this search engine are websites of restaurants, which contain relevant food information. In the context of this bachelor thesis, a gold standard has been created manually from restaurant pages. To get the data for this gold standard, a webcrawler was implemented, which visits a large number of restaurant links and saves the website content. This gold standard is used to execute and measure a classification of the restaurant webpages using two different approaches. The two approaches are rule-based classification and classifying by means of machine learning. In order to measure both classification outcomes, several experiments were executed for both approaches. In the practical part of the work, a web application was developed in addition to the web crawler, which makes the search engine accessible to users.
- Gold Standard
- Tool zum manuellen Labeln
- Script zur Extrahierung zufälliger Daten aus den gecrawlten Rohdaten
- Übersicht
- Code
- Konfigurationen
- Diverse Files
- Pipeline zur Klassifikation der Rohdaten
- Script zur Standardisierung von Restaurantinformationen
- Script zur Analyse von Restaurantinformationen
Abgabedatum: 09.08.2019
Studenten:
Referenten:
- Prof. Corsin Capol
- Lukas Toggenburger
Schule: NTB | Interstaatliche Hochschule für Technik Buchs
Studiengang: Systemtechnik
Vertiefungsrichtung: Informations- und Kommunikationssysteme