Skip to content

2021 10 14

hihellohowareyou edited this page Oct 15, 2021 · 1 revision

ice breaking!

  • 20대의 남녀 성비가 심각하다... 1:1.3 수준...
  • 미국 개발자의 연봉이 엄청나다...! 매니저 수준이면 거의 10억이상....

baseline cone

  • 코드를 바로 직관적으로 이해하기는 어렵지만 깔끔하고 코드가 되게 좋은 것 같다.
  • preprocessing하는 함수에서 overflow 는 무슨 의미인가요? max sequence length보다 더 긴 단락은 나뉘게 되는데 이때 나뉜 단락들이 원래 같은 단락이라는 것을 알려준다. . 단락이 만약 나눠져서 정다비 없을때는 정답라벨이 cls토큰의 위치(0)을 가르킨다.
  • tokenizer하는 단계에서 유니코드로 토크나이징하면 좋지 않을까요? 궁극적으로 유니코드로 토크나이징을 하면 좋을 것 같다! 모든 언어에 적용되고 모든 상황에 적용할 수 있을 것 같다. 그런데 알파벳단계에서 다음의 알파벳을 예측하기 위해서는 엄청나게 많은 상상이상의 학습이 필요할 듯 하다. 그 절충안으로 subword 토크나이징을 하는 것 같다.

mrc pretrain 모델들

대회 관련 아이디어

  • reader와 retriever이외의 다른 모델이 있으면 좋을 수도 있을 것 같다. klue에서 뽀로로를 이용해 ner pos를 태깅한 것처럼 이를 응용할 수도 있을 것 같다.
Clone this wiki locally