-
Notifications
You must be signed in to change notification settings - Fork 0
Commit
This commit does not belong to any branch on this repository, and may belong to a fork outside of the repository.
- Loading branch information
1 parent
0604dc2
commit eb32760
Showing
1 changed file
with
80 additions
and
0 deletions.
There are no files selected for viewing
This file contains bidirectional Unicode text that may be interpreted or compiled differently than what appears below. To review, open the file in an editor that reveals hidden Unicode characters.
Learn more about bidirectional Unicode characters
Original file line number | Diff line number | Diff line change |
---|---|---|
@@ -0,0 +1,80 @@ | ||
# 📄 프로젝트 소개 | ||
|
||
하루에도 수백, 수천 개의 경제 뉴스가 발간되어 기업의 경제 활동에 대한 정보를 제공합니다. 하지만 양이 지나치게 방대하여 개인이 전부 읽은 뒤 주식 투자에 활용 하기에는 어려움이 있습니다. 따라서 저희는 기사 요약, 키워드 추출, 키워드와 기사에 대한 긍/부정 분류를 통해 주식시장의 흐름을 가독성이 높은 형태로 제공하려고 합니다. | ||
|
||
# 🗓️ 개발 기간 | ||
|
||
23.07.03 - 23.07.28(총 26일) | ||
|
||
# 👨👨👧👧 멤버 구성 및 역할 | ||
|
||
| [곽민석](https://github.com/kms7530) | [이인균](https://github.com/lig96) | [임하림](https://github.com/halimx2) | [최휘민](https://github.com/ChoiHwimin) | [황윤기](https://github.com/dbsrlskfdk) | | ||
|---|---|---|---| --- | | ||
| <img src="https://avatars.githubusercontent.com/u/6489395" width="140px" height="140px" title="Minseok Kwak" /> | <img src="https://avatars.githubusercontent.com/u/126560547" width="140px" height="140px" title="Ingyun Lee" /> | <img src="https://ca.slack-edge.com/T03KVA8PQDC-U04RK3E8L3D-ebbce77c3928-512" width="140px" height="140px" title="ChoiHwimin" /> | <img src="https://avatars.githubusercontent.com/u/102031218?v=4" width="140px" height="140px" title="이름" /> | <img src="https://avatars.githubusercontent.com/u/4418651?v=4" width="140px" height="140px" title="yungi" /> | | ||
|
||
- **곽민석** | ||
- 요약 모델 | ||
- 데이터셋 수집 | ||
- 모델 성능 실험 | ||
- 요약 모델 API 설계 | ||
- 기사 긍부정 분류 데이터셋 | ||
- LLM을 이용한 데이터셋 라벨링 | ||
- Backend | ||
- Frontend | ||
- **이인균** | ||
- 뉴스 긍부정 분류 | ||
- 최신 Model 탐색 | ||
- 자체 Model 설계 | ||
- **임하림** | ||
- 서기 | ||
- 뉴스 긍부정 분류 | ||
- 자체 Model 설계 | ||
- 모델 입력 데이터 설계 | ||
- 뉴스 긍부정 api 설계 | ||
- chat gpt 라벨링 | ||
- 기사 전처리 | ||
- **최휘민** | ||
- 키워드 추출 | ||
- 자체 Model 설계 및 실험 | ||
- 키워드 추출 API 설계 | ||
- 평가 데이터 수집 | ||
- **황윤기** | ||
- 프로젝트 리더 | ||
- 네이버 뉴스 크롤링 | ||
- Airflow | ||
- Crawling Scheduling | ||
- Serving Scheduling | ||
- 키워드 추출 | ||
- KeyBERT 기반 Model | ||
|
||
# ⚒️ 기능 | ||
|
||
## 키워드 추출 | ||
|
||
- 주어진 기사 내에서 중요한 키워드를 추출하기 위한 작업을 시행합니다. | ||
- 기사 전체에서 단어의 가중치를 계산하고, 해당 가중치를 이용한 주요 단어 후보를 선정합니다. | ||
- 한국어 키워드 추출의 성능을 측정하기 위한 데이터셋이 존재하지 않기 때문에 50개의 자체 평가 데이터셋을 구성하였습니다. | ||
|
||
## 기사 긍부정 분류 | ||
|
||
- 추출된 키워드가 기업의 좋은 상황을 나타내는 단어인지, 나쁜 상황을 나타내는 단어인지 정보를 제공하기 위해 긍부정 분류 모델을 사용합니다. 기사 전체를 감성 분석한 뒤에 키워드의 대용 지표로 채택합니다. | ||
- 총 학습 데이터는 기사 긍부정 분류에는 30개의 기업의 총 9000개의 기사를 chat gpt API를 활용해 긍부정 labeling을 진행했고, train set, dev set을 8:2로 나누어서 학습을 진행했습니다. | ||
|
||
## 기사 요약 | ||
|
||
- IT / 경제분야 뉴스를 이용하여 학습한 모델(T5, polyglot-ko)을 이용하여 뉴스를 요약 제공합니다. | ||
- T5 모델을 이용하여 한줄 요약을 만들어내고, 이후 자세한 내용은 polyglot-ko 모델을 이용하여 상대적으로 긴 요약 내용을 추가해 줍니다. | ||
- 모델을 이용하여 생성된 결과는 유의미한 문장만을 가져와 후처리하여 반환합니다. | ||
|
||
--- | ||
|
||
# 👨🔬 모델 연구 | ||
|
||
## 키워드 추출 | ||
|
||
- 주요 단어 후보와 기사를 한국어로 기학습된 `Sentence-Transformer`를 이용해서 Embedding을 계산한 후, 유사도를 계산하여 높은 점수를 낸 단어를 해당 기사의 주요 키워드로 선정하였습니다. | ||
- 선정된 키워드들을 키워드의 형태(명사형 어구)로 표시하고자, 추출된 키워드에 대해 후처리를 진행하였습니다. | ||
|
||
## 뉴스 긍부정 분류 | ||
|
||
## 기사 요약 |