서버실험을 통해 얻은 결과

아직 인퍼런스가 안되서 부정확하지만, 대략적으로 기록해두겠습니다.

[결과]
1. 대화문만 가지고 학습하는 건 효율이 떨어진다.
2. 비식별화된 토큰들을 special 토큰으로 지정했었는데, 그냥 전처리해주고 학습시켰을때 0.1점 상승함
3. masking 비율에 대한 테스트는 진행했으나 체크 필요함. (0.15 vs 0.3)

[추가 시도]
1. mecab 을 토크나이저로 학습시켜서 사용해보기
2. 모델 사이즈 키워서 실험해보기 

추가로 적어주실 내용있으신 분들 댓글로 달아주세요!