요즘 회사에서 자체 도메인 데이터로 LLM을 파인튜닝하려고 하는데, LoRA로 할지 풀 파인튜닝으로 할지 헷갈리네요. 둘 다 해본 분들 있으신가요?
일단 이론상으로는 LoRA가 저랭크 분해를 이용해서 파라미터를 훨씬 적게 업데이트한다는 건 알겠는데, 실제 성능이 얼마나 차이 나는지가 궁금해요. 특히 특정 도메인에 특화된 모델을 만들어야 하는 경우에는 풀 파인튜닝이 더 나을 것 같긴 한데...
GPU 메모리 관점에서는 당연히 LoRA가 유리한 거 맞죠. A100 같은 고사양 GPU가 있으면 풀 파인튜닝도 가능하겠지만, RTX 4090 같은 소비자급 GPU에서는 LoRA가 현실적이더라고요. 저희도 그래서 LoRA로 시작해볼 생각인데, 혹시 이 선택으로 성능에 큰 손실이 생길 수 있을까봐 걱정돼요.
최근에 읽은 논문들 보면 LoRA도 충분히 좋은 결과를 낸다고는 하는데, 실제 프로젝트에서 써본 경험담이 있으면 공유해주세요. 특히 금융이나 법률 같은 전문 도메인 파인튜닝 경험이 있으신 분이면 더 좋겠어요. 랭크 크기를 어느 정도로 잡으셨는지, 에포크는 몇 번 도셨는지 이런 디테일도 궁금합니다.
그리고 혹시 LoRA 어댑터를 여러 개 로드할 수 있다는 것도 있더던데, 그건 실무에서 어떻게 활용되는지도 궁금하네요. 다양한 도메인 어댑터를 동시에 쓸 수 있다면 꽤 유연할 것 같긴 한데...
저도 비슷한 상황에서 LoRA로 진행했는데, 솔직히 성능 손실은 거의 못 느꼈어요. rank를 적절히 설정하면(보통 8~16) 풀 파인튜닝과 큰 차이 안 납니다. 특히 도메인 특화 모델이면 데이터 품질이 훨씬 중요하더라고요.
금융 데이터로 테스트했을 때도 LoRA 70B 모델이 풀 파인튜닝 13B보다 나은 결과를 냈거든요. 메모리 효율도 물론이고 학습 시간도 확 줄어들어서 실무에선 LoRA가 더 실용적인 것 같습니다. 일단 시작해보시고 결과 봐도 늦지 않을 것 같은데요.