요즘 자체 데이터로 모델 파인튜닝 하는 작업을 진행 중인데, LoRA와 QLoRA 중에 뭘 선택해야 할지 계속 고민이 되네요. 이론적으로는 알겠는데 실제 프로젝트에서 어떤 게 더 효율적인지 궁금합니다.
현재 상황이 좀 애매한데, GPU 메모리는 24GB 정도 여유가 있고 학습 시간은 크게 제약이 없어요. 데이터셋은 약 5천 개 정도의 한국어 도메인 특화 데이터들이거든요. LoRA가 파인튜닝 품질이 좋다고 들었는데, QLoRA는 메모리 효율이 훨씬 낫다고 하고... 어느 정도로 차이가 나는 건지 감이 안 와요.
혹시 실제로 둘 다 써본 분들 계신가요? 성능 차이가 정말 체감될 정도로 나는지, 아니면 그냥 리소스 문제일 때만 QLoRA 쓰면 되는 건지 알고 싶어요. 그리고 추론 속도나 최종 모델 크기도 차이가 있을까요?
개인적으로는 메모리가 충분하니까 LoRA 쓰는 게 맞을 것 같긴 한데, 학습 과정에서 실제로 문제가 되는 부분들이 있는지도 궁금하네요. 혹시 rank나 alpha 값 설정에서 팁이 있으면 그것도 같이 공유해주시면 좋겠습니다.