요즘 개인 프로젝트로 특정 도메인 데이터셋 가지고 LLM 파인튜닝을 해보려고 하는데, 선택지가 너무 많아서 헷갈리네요. 허깅페이스 트랜스포머, LoRA, QLoRA 이런 식으로 여러 방법이 있던데 각각 언제 어떻게 써야 하는지 모르겠어요.
지금까지는 트랜스포머 라이브러리로 기본 파인튜닝만 해봤는데, GPU 메모리 문제 때문에 뭔가 더 효율적인 방법이 필요할 것 같아요. 자체 서버도 아니고 A100 한두 개 들어있는 클라우드 환경이라서 비용도 좀 신경 써야 하거든요.
그리고 최근에 깔끔한 라이브러리들이 많이 나왔다고 들었는데, 실제로 프로덕션 환경에서 쓸 만한 것들이 뭐가 있을까요? 혹시 Axolotl 같은 거 써보신 분 있으신가요? 아니면 여전히 기본 트랜스포머가 제일 안정적인지도 궁금하고요.
특히 궁금한 게 LoRA로 파인튠했을 때 실제 추론 성능이 풀 파인튜닝과 비교해서 얼마나 차이 나는지 경험담이 있으면 좋겠어요. 물론 모델 크기나 데이터셋에 따라 다르겠지만, 대략적인 트레이드오프를 알고 싶거든요.
아 그리고 한국어 모델 기준으로 추천해주실 수 있으면 더 좋을 것 같습니다. 요즘 오픈소스 한국어 LLM이 꽤 나왔던데, 어떤 모델이 파인튜닝하기에 괜찮다고 생각하세요?
추천 5 비추천 0