회사 프로젝트로 Llama 2 7B를 우리 도메인 데이터로 fine-tuning 중인데 GPU 메모리가 자꾸만 터지네요. A100 80GB 하나로는 batch size를 4 이상 못 올리더라고요. LoRA는 써봤는데 성능 차이가 생각보다 크더군요.
혹시 gradient checkpointing이나 다른 최적화 방법으로 어느 정도까지 개선됐는지 궁금합니다. 아니면 그냥 더 작은 모델로 가는 게 현실적일까요? 멀티 GPU는 인프라 이슈로 어렵고요.
비슷한 상황에서 뭐 해결하셨는지 공유해주시면 감사하겠습니다.
추천 0 비추천 0