Skip to content

Commit

Permalink
[Docs] Add README.md
Browse files Browse the repository at this point in the history
  • Loading branch information
dbsrlskfdk committed Jul 26, 2023
1 parent 0604dc2 commit eb32760
Showing 1 changed file with 80 additions and 0 deletions.
80 changes: 80 additions & 0 deletions README.md
Original file line number Diff line number Diff line change
@@ -0,0 +1,80 @@
# 📄 프로젝트 소개

하루에도 수백, 수천 개의 경제 뉴스가 발간되어 기업의 경제 활동에 대한 정보를 제공합니다. 하지만 양이 지나치게 방대하여 개인이 전부 읽은 뒤 주식 투자에 활용 하기에는 어려움이 있습니다. 따라서 저희는 기사 요약, 키워드 추출, 키워드와 기사에 대한 긍/부정 분류를 통해 주식시장의 흐름을 가독성이 높은 형태로 제공하려고 합니다.

# 🗓️ 개발 기간

23.07.03 - 23.07.28(총 26일)

# 👨‍👨‍👧‍👧 멤버 구성 및 역할

| [곽민석](https://github.com/kms7530) | [이인균](https://github.com/lig96) | [임하림](https://github.com/halimx2) | [최휘민](https://github.com/ChoiHwimin) | [황윤기](https://github.com/dbsrlskfdk) |
|---|---|---|---| --- |
| <img src="https://avatars.githubusercontent.com/u/6489395" width="140px" height="140px" title="Minseok Kwak" /> | <img src="https://avatars.githubusercontent.com/u/126560547" width="140px" height="140px" title="Ingyun Lee" /> | <img src="https://ca.slack-edge.com/T03KVA8PQDC-U04RK3E8L3D-ebbce77c3928-512" width="140px" height="140px" title="ChoiHwimin" /> | <img src="https://avatars.githubusercontent.com/u/102031218?v=4" width="140px" height="140px" title="이름" /> | <img src="https://avatars.githubusercontent.com/u/4418651?v=4" width="140px" height="140px" title="yungi" /> |

- **곽민석**
- 요약 모델
- 데이터셋 수집
- 모델 성능 실험
- 요약 모델 API 설계
- 기사 긍부정 분류 데이터셋
- LLM을 이용한 데이터셋 라벨링
- Backend
- Frontend
- **이인균**
- 뉴스 긍부정 분류
- 최신 Model 탐색
- 자체 Model 설계
- **임하림**
- 서기
- 뉴스 긍부정 분류
- 자체 Model 설계
- 모델 입력 데이터 설계
- 뉴스 긍부정 api 설계
- chat gpt 라벨링
- 기사 전처리
- **최휘민**
- 키워드 추출
- 자체 Model 설계 및 실험
- 키워드 추출 API 설계
- 평가 데이터 수집
- **황윤기**
- 프로젝트 리더
- 네이버 뉴스 크롤링
- Airflow
- Crawling Scheduling
- Serving Scheduling
- 키워드 추출
- KeyBERT 기반 Model

# ⚒️ 기능

## 키워드 추출

- 주어진 기사 내에서 중요한 키워드를 추출하기 위한 작업을 시행합니다.
- 기사 전체에서 단어의 가중치를 계산하고, 해당 가중치를 이용한 주요 단어 후보를 선정합니다.
- 한국어 키워드 추출의 성능을 측정하기 위한 데이터셋이 존재하지 않기 때문에 50개의 자체 평가 데이터셋을 구성하였습니다.

## 기사 긍부정 분류

- 추출된 키워드가 기업의 좋은 상황을 나타내는 단어인지, 나쁜 상황을 나타내는 단어인지 정보를 제공하기 위해 긍부정 분류 모델을 사용합니다. 기사 전체를 감성 분석한 뒤에 키워드의 대용 지표로 채택합니다.
- 총 학습 데이터는 기사 긍부정 분류에는 30개의 기업의 총 9000개의 기사를 chat gpt API를 활용해 긍부정 labeling을 진행했고, train set, dev set을 8:2로 나누어서 학습을 진행했습니다.

## 기사 요약

- IT / 경제분야 뉴스를 이용하여 학습한 모델(T5, polyglot-ko)을 이용하여 뉴스를 요약 제공합니다.
- T5 모델을 이용하여 한줄 요약을 만들어내고, 이후 자세한 내용은 polyglot-ko 모델을 이용하여 상대적으로 긴 요약 내용을 추가해 줍니다.
- 모델을 이용하여 생성된 결과는 유의미한 문장만을 가져와 후처리하여 반환합니다.

---

# 👨‍🔬 모델 연구

## 키워드 추출

- 주요 단어 후보와 기사를 한국어로 기학습된 `Sentence-Transformer`를 이용해서 Embedding을 계산한 후, 유사도를 계산하여 높은 점수를 낸 단어를 해당 기사의 주요 키워드로 선정하였습니다.
- 선정된 키워드들을 키워드의 형태(명사형 어구)로 표시하고자, 추출된 키워드에 대해 후처리를 진행하였습니다.

## 뉴스 긍부정 분류

## 기사 요약

0 comments on commit eb32760

Please sign in to comment.