아직 인퍼런스가 안되서 부정확하지만, 대략적으로 기록해두겠습니다. [결과] 1. 대화문만 가지고 학습하는 건 효율이 떨어진다. 2. 비식별화된 토큰들을 special 토큰으로 지정했었는데, 그냥 전처리해주고 학습시켰을때 0.1점 상승함 3. masking 비율에 대한 테스트는 진행했으나 체크 필요함. (0.15 vs 0.3) [추가 시도] 1. mecab 을 토크나이저로 학습시켜서 사용해보기 2. 모델 사이즈 키워서 실험해보기 추가로 적어주실 내용있으신 분들 댓글로 달아주세요!