Skip to content

UL-FRI-NLP-2023-2024/ul-fri-nlp-course-project-nlp-hitchhikers

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

10 Commits
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

Natural language processing course 2023/24: Natural Language Inference Dataset

 

ENG

Project Overview:

This project aims to delve into the realm of Slovenian dialect exploration within the context of creating a Natural Language Inference (NLI) dataset. Our primary goal is to develop a dataset that challenges the comprehension abilities of Large Language Models (LLMs) regarding entailment, neutrality, and contradiction within longer text passages. Additionally, we focus on investigating the capacity of LLMs to accurately replicate various Slovenian dialects, including Štajersko, Notranjsko, and Kraško. Through this exploration, we seek to deepen our understanding of dialectical nuances and their implications for natural language processing tasks.

Since this project focuses on researching Slovenian language, a certain degree of proficiency in the language is required to make use of the findings.

 

Methodology:

  1. Literature Review: A thorough study of existing NLI datasets to grasp dataset construction methodologies.
  2. Dataset Extension: Development of a strategy to extend the dataset to encompass longer contexts for more comprehensive evaluation.
  3. Prompt Design: Creation of diverse prompts to generate two-paragraph texts using LLMs, ensuring each passage exhibits clear entailment, contradiction, or neutrality.
  4. Text Generation
  5. Validation and Correction: A manual validation of the generated texts based on their logical relationships and dialect accuracy, and correction of any errors.
  6. Data Compilation: Assembling of samples into a unified dataframe for collective analysis.
  7. Model Training: Training a small model to evaluate the difficulty level of the created dataset and assessment the LLMs' ability to reproduce Slovenian dialects authentically.
  8. Report Compilation: A detailed report documenting the text generation process, evaluation outcomes, and insights into dialect reproduction by LLMs.

 

SLO

Opis projekta:

Namen tega projekta je raziskovanje slovenskih narečij v kontekstu ustvarjanja podatkovne zbirke za logično sklepanje v naravnem jeziku (Natural Language Inference - NLI). Naš glavni cilj je razviti podatkovno zbirko, ki bo izzvala sposobnosti razumevanja velikih jezikovnih modelov (LLM) glede implikacije (entailment), nevtralnosti (neutrality) in kontradikcije (contradiction) v daljših besedilnih odsekih. Poleg tega se osredotočimo na raziskovanje zmožnosti LLM za ustrezno repliciranje različnih slovenskih narečij, vključno s štajerskim, notranjskim in kraškim. S tem raziskovanjem želimo poglobiti razumevanje narečnih nians in njihovih implikacij za naloge obdelave naravnega jezika.

 

Metodologija:

  1. Pregled literature: Za razumevanje metodologij izdelave nabora podatkov smo temeljito preučile obstoječe nabore podatkov NLI.
  2. Razširitev nabora podatkov: Razvoj strategije za razširitev nabora podatkov, ki vključuje daljše kontekste za bolj celovito evalvacijo.
  3. Oblikovanje navodil: Oblikovanje različnih navodil za ustvarjanje dvostavčnih besedil z uporabo LLM, pri čemer mora vsak odlomek jasno izražati implikacijo, kontradikcijo ali nevtralnost.
  4. Generiranje besedil
  5. Potrjevanje in popravljanje: Ročno preverjanje generiranih besedil na podlagi njihovih logičnih povezav in narečne pravilnosti ter popravljanje morebitnih napak.
  6. Zbiranje podatkov: Zbiranje vzorcev v enoten podatkovni okvir za skupno analizo.
  7. Treniranje modelov: Usposabljanje majhnega modela za ocenjevanje težavnostne stopnje ustvarjenega nabora podatkov in ocenjevanje zmožnosti LLM za avtentično reprodukcijo slovenskih narečij.
  8. Sestavljanje poročila: Podrobno poročilo, ki dokumentira postopek ustvarjanja besedila, rezultate ocenjevanja in vpogled v reprodukcijo narečij s strani LLM.

About

ul-fri-nlp-course-project-nlp-hitchhikers created by GitHub Classroom

Resources

License

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published