[공유] 데이터 전처리 상황 #1 #1

coderJoon · 2022-12-27T02:58:51Z

coderJoon
Dec 27, 2022
Maintainer

데이터에 개행문자 \n 으로 줄바꿈 되어있고, 공백이 두칸이상 찍혀있는게 있음.
한글 영어 제외하고 다른 문자 (일본어, 아랍어, 한자) 가 많이 존재함.
-> 위 두개를 모두 제거 함.
-> 두개를 적용한 후 모델을 돌리고 리더보드에 제출했을때 베이스라인과 같은 성능을 보임 :
sparse 임베딩으로 retriever 가 구성되어 있어서 데이터 전처리에 큰 영향이 없어 보이는 느낌. Dense 임베딩인 retriever 모델에 적용하면 성능이 다르게 나올거 같다는 생각.

데이터 자체를 만들기 보다는 preprocess.py 를 import 해서 사용하는게 더 편할거 같음. (추후 결정)
데이터에 text 가 중복되는 경우가 존재하는거 같음 . unique 와 len 길이가 다름.
위키피디아 데이터에선 삭제하는게 좋을거 같은데, MRC 데이터에서는 지우지 않아도 될거같음.

import json

path = "./wikipedia_documents.json"
with open(path,"r") as data:
    dict_data = json.load(data)
#print(len(dict_data))

## 줄바꿈 없애기, 공백처리 없애기 (공백 2칸 이상)
import re
from collections import OrderedDict

processed_data_dic = OrderedDict()
text_lst = []
title_lst = []
document_id_lst = []

for index, data in enumerate(dict_data.items()):
    document_id = data[0]
    title_data = data[1]['title']
    text_data = data[1]['text']
    
    p_title_data = title_data.strip() # 공백 없애기
    p_text_data = ' '.join(text_data.split('\n')) # 줄바꿈 -> 공백으로
    p_text_data = re.sub(r"[\s]{2,}", " ", p_text_data) # 공백 2칸 이상 없애기
    p_text_data = re.sub('<.*?>','',p_text_data) # html 태그 제거
    p_text_data = re.sub('[ぁ-ゔァ-ヴー々〆〤一-龥]','',p_text_data) # 일본어, 한문 제거
    p_text_data = re.sub('[^가-힇ㄱ-ㅎㅏ-ㅣa-zA-Z0-9-=+,#/?:^$.@*\"※~&%ㆍ!』\\‘|\(\)\[\]\<\>`\'…》]','',p_text_data)

    
    processed_data_dic[document_id] = {
        "title" : p_title_data,
        "text" : p_text_data
    }

    document_id_lst.append(document_id)
    title_lst.append(len(p_title_data))
    text_lst.append(len(p_text_data))

with open("./wikipedia_preprocessed_documents.json","w",encoding="utf8") as json_file:
    json.dump(processed_data_dic,json_file,ensure_ascii=False)

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

[공유] 데이터 전처리 상황 #1 #1

{{title}}

Replies: 0 comments

Select a reply

[공유] 데이터 전처리 상황 #1 #1

coderJoon Dec 27, 2022 Maintainer

Replies: 0 comments

coderJoon
Dec 27, 2022
Maintainer