continual-pretrain-tinyllama

추가 사전학습 실습용 코드입니다. 자세한 설명은 다음 글을 참고하길 바랍니다: 글 링크

본 실습에서는

📌 특히 Colab에서 돌릴 때, HuggingFace (이하, HF) Hub에 데이터셋, 체크포인트를 백업하는 것을 권장합니다.

다음 데이터셋을 사용합니다. 이미 사전학습을 위해 청크로 나누었고, 토큰화한 데이터셋입니다. 방법 및 코드는 Continual_Pretraining_With_TinyLlama_120M.ipynb의 Create Dataset 섹션에서 볼 수 있습니다.

토크나이저는 이미 한국어로 학습된 것을 사용합니다.

Name		Name	Last commit message	Last commit date
Latest commit History 4 Commits
Continual_Pretraining_With_TinyLlama_120M.ipynb		Continual_Pretraining_With_TinyLlama_120M.ipynb
README.md		README.md

Provide feedback