🏝 멤버 구성 및 역할

전현욱	곽수연	김가영	김신우	안윤주

전현욱
- 팀 리더, Label Error Detection, G2P Noise
곽수연
- 특수문자 및 한자 처리, Back Translation
김가영
- Semantic Similarity Analysis
김신우
- Data Augmentation
안윤주
- Text Keyword Extraction

🍍 프로젝트 기간

2024.01.24 10:00 ~ 2024.02.01 19:00

🍌 프로젝트 소개

자연어에서 독해 및 분석 과정을 거쳐 주어진 태스크를 수행하기 위해서는 자연어의 주제에 대한 이해가 필수적이다. KLUE-Topic Classification benchmark는 뉴스의 헤드라인을 통해 그 뉴스가 어떤 topic을 갖는지를 분류해 내는 task로, 각 자연어 데이터에서 생활문화, 스포츠, 세계, 정치, 경제, IT과학, 사회 등 다양한 주제 중 하나로 라벨링한다.
본 프로젝트는 Data-Centric의 목적에 맞게 주어진 데이터셋을 바탕으로 베이스라인 모델의 수정 없이 오로지 데이터의 수정으로만 성능 향상을 이끌어내야 한다.

🥥 프로젝트 구조

Train Data : 7,000개
Test Data : 47,785개

데이터셋 구조

Column	설명
ID	데이터 샘플의 고유번호
text	분류의 대상이 되는 연합 뉴스 기사의 헤드라인. 한국어 텍스트에 일부 영어, 한자 등의 단어가 포함
target	정수로 인코딩된 라벨
url	데이터 샘플의 뉴스 url (출처)
date	데이터 샘플의 뉴스가 작성된 날짜와 시간

Label Class 기준

id	0	1	2	3	4	5	6
설명	IT과학	경제	사회	생활문화	세계	스포츠	정치

평가 지표

macro F1 score : 모든 class f1 score의 평균
accuracy

🤿 사용 모델

klue/bert-base (고정)

👒 폴더 구조

.
|-- README.md
|-- Special_character_check.ipynb
|-- back_translation.ipynb
|-- category_per_cnt.ipynb
|-- category_word_add.ipynb
|-- data
|   |-- culture.txt
|   |-- economy.txt
|   |-- it_science.txt
|   |-- politics.txt
|   |-- society.txt
|   |-- sport.txt
|   |-- train_special_characters.csv
|   `-- world.txt
|-- error_detection.ipynb
|-- functions.py
|-- g2pk.ipynb
|-- hanja.ipynb
|-- kmeans.ipynb
|-- sentence_similarty.py
|-- special_character.ipynb
`-- wrap-up_report.pdf

🍸 Leaderboard

	f1	accuracy
Public	0.8454	0.8484
Private	0.8414	0.8443

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

🏝 멤버 구성 및 역할

🍍 프로젝트 기간

🍌 프로젝트 소개

🥥 프로젝트 구조

데이터셋 구조

Label Class 기준

평가 지표

🤿 사용 모델

👒 폴더 구조

🍸 Leaderboard

About

Releases

Packages

Contributors 2

Languages

Name		Name	Last commit message	Last commit date
Latest commit History 5 Commits
.github		.github
data		data
README.md		README.md
Special_character_check.ipynb		Special_character_check.ipynb
back_translation.ipynb		back_translation.ipynb
category_per_cnt.ipynb		category_per_cnt.ipynb
category_word_add.ipynb		category_word_add.ipynb
error_detection.ipynb		error_detection.ipynb
functions.py		functions.py
g2pk.ipynb		g2pk.ipynb
hanja.ipynb		hanja.ipynb
kmeans.ipynb		kmeans.ipynb
sentence_similarty.py		sentence_similarty.py
special_character.ipynb		special_character.ipynb
wrap-up_report.pdf		wrap-up_report.pdf

boostcampaitech6/level2-nlp-datacentric-nlp-09

Folders and files

Latest commit

History

Repository files navigation

🏝 멤버 구성 및 역할

🍍 프로젝트 기간

🍌 프로젝트 소개

🥥 프로젝트 구조

데이터셋 구조

Label Class 기준

평가 지표

🤿 사용 모델

👒 폴더 구조

🍸 Leaderboard

About

Resources

Stars

Watchers

Forks

Releases

Packages 0

Contributors 2

Languages

Packages