[공유] 데이터 전처리 상황 #2 #3
coderJoon
started this conversation in
Show and tell
Replies: 0 comments
Sign up for free
to join this conversation on GitHub.
Already have an account?
Sign in to comment
-
기존 dataframe 에 들어있는 데이터 개수와 unique 를 진행한 데이터의 개수가 약 4000개 가량 차이남을 알 수 있음.
아래와 같은 코드로 중복되는 context 를 하나의 df 로 만들어 주어서 확인 할 수 있었고, csv 로 저장하여 아예 똑같은 문서임을 알 수 있었음.
context 는 아예 똑같지만, 문서의 title 만이 다르다는것을 볼 수 있었음.
중복을 없애고 처음에 나온 문서만 남겨서 새로운 df 를 만들었고, 이 데이터를 통해서 새롭게 Retriever WIKI json 형태의 데이터를 만들 예정.
이후 중복을 없앤 후 기본 Baseline 과 비교 했을 경우 성능향상은 존재 하지 않았다.
성능향상이 존재 하지 않았던 이유는 현재 Baseline에 구성된 Retriever 는 Sparse Embedding 을 사용하는 TF-IDF의 방식으로 데이터 내의 중복이나 전처리로 효과를 보지 않는것 같다는 생각이다.
Beta Was this translation helpful? Give feedback.
All reactions