Skip to content

s-santoro/lunch-crawler

Repository files navigation

lunch-crawler

Dieses Repository ist im Zusammenhang mit einer Bachelorarbeit erstellt worden.

Abstract

Ziel dieser Arbeit ist das Erstellen einer Suchmaschine, über welches sich Menüs und Speisen suchen lassen. Die Grundlage einer solchen Suchmaschine sind Websites von Restaurants, welche relevante Speiseinformationen beinhalten. Im Kontext dieser Bachelorarbeit wurde manuell ein Gold-Standard aus Restaurantseiten zusammengestellt. Für die Erstellung des Gold-Standards wurde eigens ein Webcrawler implementiert, welcher eine Vielzahl von Restaurant-Links besucht und den Webseiteninhalt abspeichert. Der erstellte Gold-Standard dient dazu, eine Klassifikation der Restaurantseiten anhand zwei verschiedener Ansätze durchzuführen und zu messen. Die zwei Ansätze sind regelbasiertes Klassifizieren sowie das Klassifizieren mittels Machine-Learning. Um die einzelnen Klassifikationen prüfen zu können, wurden in beiden Bereichen mehrere Experimente durchgeführt. Im praktischen Teil der Arbeit wurde neben dem Webcrawler eine Webapplikation erarbeitet, welche die Suchmaschine den Benutzern zugänglich macht.

The aim of this work is to create a search engine, which searches for menus and meals. The basis of this search engine are websites of restaurants, which contain relevant food information. In the context of this bachelor thesis, a gold standard has been created manually from restaurant pages. To get the data for this gold standard, a webcrawler was implemented, which visits a large number of restaurant links and saves the website content. This gold standard is used to execute and measure a classification of the restaurant webpages using two different approaches. The two approaches are rule-based classification and classifying by means of machine learning. In order to measure both classification outcomes, several experiments were executed for both approaches. In the practical part of the work, a web application was developed in addition to the web crawler, which makes the search engine accessible to users.

Dateistruktur

Webcrawler

Gold Standard

Klassifikationspipeline

Produktive Pipeline

Webapplikation

Informationen

Abgabedatum: 09.08.2019

Studenten:

Referenten:

  • Prof. Corsin Capol
  • Lukas Toggenburger

Schule: NTB | Interstaatliche Hochschule für Technik Buchs

Studiengang: Systemtechnik

Vertiefungsrichtung: Informations- und Kommunikationssysteme