요즘 한국어 BERT 모델로 텍스트 분류 작업을 하고 있는데 fine-tuning 과정에서 계속 오버피팅이 생기더라고요. learning rate를 줄여보라는 얘기는 많이 들었는데 구체적으로 얼마나 낮춰야 하는지 애매해서요.
지금은 5e-5 정도로 하고 있는데 validation loss가 자꾸 올라갑니다. 혹시 더 낮춰야 하나요, 아니면 다른 방법이 있나요? 배치 사이즈나 에포크도 건드려봐야 하는 건지 모르겠네요.
혹시 비슷한 작업 해보신 분 계신가요? 어떤 설정으로 했는지 궁금합니다.
추천 1 비추천 0