[공유] 데이터 전처리 상황 #2 #3

coderJoon · 2022-12-27T05:24:12Z

coderJoon
Dec 27, 2022
Maintainer

기존 dataframe 에 들어있는 데이터 개수와 unique 를 진행한 데이터의 개수가 약 4000개 가량 차이남을 알 수 있음.

text_df=pd.DataFrame(text)
title_df = pd.DataFrame(title)
docuId_df = pd.DataFrame(docuId)
df = pd.concat([text_df,title_df,docuId_df],axis=1)
df.columns=['text','title','docuId']
df.head()
a=df['text'].unique()
len(df),len(a)
>>> (60613, 56737)

아래와 같은 코드로 중복되는 context 를 하나의 df 로 만들어 주어서 확인 할 수 있었고, csv 로 저장하여 아예 똑같은 문서임을 알 수 있었음.
context 는 아예 똑같지만, 문서의 title 만이 다르다는것을 볼 수 있었음.

dup=df[df.duplicated(['text'],keep=False)]
dup=dup.sort_values(by='text')

중복을 없애고 처음에 나온 문서만 남겨서 새로운 df 를 만들었고, 이 데이터를 통해서 새롭게 Retriever WIKI json 형태의 데이터를 만들 예정.

new_df=df.drop_duplicates(['text'],keep='first',ignore_index=True)

이후 중복을 없앤 후 기본 Baseline 과 비교 했을 경우 성능향상은 존재 하지 않았다.

Drop_Duplicates

Baseline

성능향상이 존재 하지 않았던 이유는 현재 Baseline에 구성된 Retriever 는 Sparse Embedding 을 사용하는 TF-IDF의 방식으로 데이터 내의 중복이나 전처리로 효과를 보지 않는것 같다는 생각이다.

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

[공유] 데이터 전처리 상황 #2 #3

{{title}}

{{editor}}'s edit

{{editor}}'s edit

Replies: 0 comments

Select a reply

[공유] 데이터 전처리 상황 #2 #3

coderJoon Dec 27, 2022 Maintainer

Replies: 0 comments

coderJoon
Dec 27, 2022
Maintainer