요즘 개인 프로젝트로 한국어 특화 모델 만들려고 파인튜닝 공부하고 있는데, LoRA랑 QLoRA 선택 기준이 헷갈려서요. 둘 다 파라미터 수를 줄인다는 건 알겠는데 실제 차이가 뭔지 명확하지 않네요.
제가 이해한 게 맞는지 확인해봐야 할 것 같아요. LoRA는 원래 모델 가중치는 고정하고 추가로 학습하는 저랭크 어댑터를 붙이는 방식이고, QLoRA는 여기에 양자화를 추가해서 메모리를 더 줄인다는 뜻인 걸까요? 그럼 QLoRA가 무조건 좋은 건가 싶기도 하고요.
실제로 프로젝트에 적용할 때 QLoRA 쓰려면 A100 같은 고사양 GPU도 필요 없을 것 같은데, 대신 학습 속도나 최종 결과 품질에서 손실이 좀 있는 건가요? 논문만 봐서는 큰 차이 없는 것처럼 느껴지는데 실전에선 좀 다를 것 같거든요.
그리고 데이터셋 크기가 작을 때(예를 들어 몇천 개 정도)랑 클 때 추천하는 방식이 다른지도 궁금해요. 저는 지금 RTX 4090 가지고 있는데 LoRA로 충분할까요, 아니면 QLoRA 써서 배치 사이즈 더 늘려가며 하는 게 나을까요.
경험 있으신 분들 조언 부탁드립니다.
추천 0 비추천 0