Skip to content

boostcampaitech4lv23nlp1/level2_klue_nlp-level2-nlp-08

 
 

Repository files navigation

부스트캠프 4기 NLP 07조 염보라

Members


김한성 염성현 이재욱 최동민 홍인희
Github Github Github Github Github
 

Wrap up report

project report 바로가기

 

관계 추출 과제(RE task)

프로젝트 수행 기간

11/14 ~ 12/1

프로젝트 개요


관계 추출(Relation Extraction)은 문장의 단어(Entity)에 대한 속성과 관계를 예측하는 문제입니다. 관계 추출은 지식 그래프 구축을 위한 핵심 구성 요소로, 구조화된 검색, 감정 분석, 질문 답변하기, 요약과 같은 자연어처리 응용 프로그램에서 중요합니다. 비구조적인 자연어 문장에서 구조적인 triplet을 추출해 정보를 요약하고, 중요한 성분을 핵심적으로 파악할 수 있습니다.

 

데이터 설명

전체 데이터에 대한 통계는 다음과 같습니다.

  • train.csv: 총 32,470개
  • test_data.csv: 총 7,765개 (정답 라벨 blind = 100으로 임의 표현)

데이터셋에 대한 자세한 설명은 아래 링크를 참조하시기 바랍니다.
Klue Dataset Link

 

프로젝트 세부 내용

데이터

  • EDA
  • Preprocesisng, Re-labeling
  • Data Augmentation
  • Noise data experiment

모델

  • Add Marker
  • Binary Classification(Experimental)
  • RECENT
  • R-BERT

최적화

  • LRFinder
  • Scheduler
  • Focal Loss

후처리

  • Inference Analysis
  • CoRE(Debiasing)

 

프로젝트 구조


RE Project/
│
├── code/ 
│   ├── config/
│   ├── ...
│   └── main.py
│
├── for_binary/
│   ├── config/
│   ├── data/
│   ├── ...
│   ├── run.sh
│   └── inference.py - for all setting
│
├── multi_binary/
│   ├── config/
│   ├── ...
│   ├── binary_train.sh
│   ├── multiple_train.sh
│   └── para.train.sh - for recursive learning
│
│── rBERTa/ - for further reading
│   ├── ...
│   └── model for some code check more detail..
│
├── notebooks/
│   ├── ...
│   ├── EDA.ipynb
│   ├── noise_add.ipynb
│   └── dev_prob.ipynb
│
├── .gitignore
├── README.md
│
└── thanks for comming I'm Yeombora

About

level2_klue_nlp-level2-nlp-07 created by GitHub Classroom

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages

  • Jupyter Notebook 97.3%
  • Python 2.7%