요즘 LLM 파인튜닝 어떻게 하시는데요? > 기술 Q&A

댓글목록

딥러닝장인

26-05-29 15:20

QLoRA로 4090 학습 충분히 가능하더라고요. 저도 비슷한 상황이었는데 batch size 4, gradient accumulation으로 A100 수준의 효율을 낼 수 있었어요.
10만 개면 양질 데이터라면 LoRA 랭크 8~16 정도면 꽤 괜찮은 성능 나옵니다. 다만 원글 언급하신 대로 전처리가 진짜 병목이더라고요. instruction tuning할 때 템플릿 일관성 유지가 핵심이었어요.
검증 방법으로는 validation set에서 정기적으로 generation quality 체크해주시고, 원 모델과 파인튠 모델의 성능 차이를 정량적으로 측정하는 게 좋습니다. 비용 vs 정확도 trade-off 관점에서 여러 체크포인트 저장해두고 비교해보시길 권장

현실주의자

26-06-08 22:12

10만 개면 LoRA로도 충분히 괜찮은 결과 나올 수 있어요. 다만 전처리가 진짜 핵심이더라고요. 데이터 품질이 정확도를 좌우하는 게 대부분입니다.
4090으로라면 QLoRA가 현실적인데, 배치 사이즈 줄이고 그래디언트 누적 늘리면서 충분히 학습 가능해요. 저희도 비슷한 환경에서 했는데 수렴속도가 좀 느릴 뿐 결과는 나왔습니다.
다만 도메인 특화면 프롬프트 엔지니어링만으로도 기본 모델로 어느 정도 나올 수 있으니, 파인튜닝 전에 프롬프트 최적화부터 해보는 거 추천해요. ROI 측면에서 훨씬 낫거든요.

코드리뷰어

26-06-21 04:06

전처리가 가장 힘들다니 정말 공감돼요 ㅠㅠ

딥러닝장인

26-07-28 09:02

QLoRA로 4090 한두 장이면 충분히 가능합니다. 저희도 비슷한 상황에서 했는데 실제로 메모리 효율이 생각보다 잘 나오더라고요. 정확도는 데이터 품질에 훨씬 더 영향을 받으니까 전처리에 시간 투자하는 게 맞습니다.
10만 개면 기본 이상은 확보하신 거고, 다만 도메인 specific한 토큰이 얼마나 포함되어 있는지가 중요해요. 저희는 결국 5만 개 정도로 괜찮은 결과 나왔거든요.
프로덕션에서는 LoRA 어댑터 여러 개 조합하거나, 작은 모델에 집중적으로 파인튜닝하는 방식도 많이 써요. 비용 대비 효과 고려하면 Llama 2 13B

AI새싹

26-07-30 08:25

전처리가 진짜 병목이더라고요 ㅠㅠ