[공유] 데이터 전처리 상황 #1 #1
coderJoon
started this conversation in
Show and tell
Replies: 0 comments
Sign up for free
to join this conversation on GitHub.
Already have an account?
Sign in to comment
-
-> 위 두개를 모두 제거 함.
-> 두개를 적용한 후 모델을 돌리고 리더보드에 제출했을때 베이스라인과 같은 성능을 보임 :
sparse 임베딩으로 retriever 가 구성되어 있어서 데이터 전처리에 큰 영향이 없어 보이는 느낌. Dense 임베딩인 retriever 모델에 적용하면 성능이 다르게 나올거 같다는 생각.
데이터 자체를 만들기 보다는 preprocess.py 를 import 해서 사용하는게 더 편할거 같음. (추후 결정)
데이터에 text 가 중복되는 경우가 존재하는거 같음 . unique 와 len 길이가 다름.
위키피디아 데이터에선 삭제하는게 좋을거 같은데, MRC 데이터에서는 지우지 않아도 될거같음.
Beta Was this translation helpful? Give feedback.
All reactions