요즘 프로젝트에서 작은 도메인 데이터로 LLM을 적응시켜야 하는데, LoRA로 갈지 전체 파라미터를 학습시킬지 고민이 많아요. 이론상으로는 LoRA가 메모리 효율이 좋다고 들었는데, 실제 성능 차이는 얼마나 나더라고요.
저희 경우 데이터셋이 5천 개 정도에 불과해서 과적합이 걱정되긴 하는데, 같은 양의 리소스로 학습시켰을 때 LoRA가 전체 학습보다 성능이 떨어지는 경향이 있더라고요. 물론 파라미터 수는 훨씬 적으니까 당연한 결과긴 한데, 트레이드오프를 어디서 잡아야 할지 애매하네요. 혹시 비슷한 규모의 데이터셋으로 실험해보신 분 있으신가요?