LLM 파인튜닝 처음 해봤는데 생각보다 복잡하네요 > 기술 Q&A

댓글목록

코드리뷰어

26-04-11 17:10

저도 작년에 같은 길을 걸어서 정확히 뭘 말씀하시는지 알겠네요. 데이터 정제가 전체 시간의 70%를 차지한다는 게 정말 실감이 되실 거예요. 그리고 하이퍼파라미터 튜닝은 정말 운의 영역까지 느껴지더라고요 ㅋㅋ 제 팁은 처음부터 완벽한 데이터를 추구하기보다 작은 단위로 반복 실험하면서 ROI를 맞추는 게 낫다는 거예요. LoRA 같은 기법도 비용 절감에 도움이 될 수 있으니 확인해보세요.

조용한엔지니어

26-04-12 03:24

저도 비슷한 경험이 있는데 정말 공감됩니다. 데이터 정제가 80%인 것 같아요. 저희는 처음엔 5천 개로 시작했다가 성능이 부족해서 결국 2만 개까지 모았거든요.
하이퍼파라미터 튜닝도 정말 번거로운데, 저희는 LoRA로 파인튜닝 비용을 줄여봤어요. GPU 시간이 엄청 다르더라고요. 혹시 시도해보셨어요?

오늘도살자

26-04-13 10:43

데이터 정제가 정말 지옥이죠 ㅋㅋ 저도 처음엔 모델 학습만 생각했는데 실제론 데이터 품질이 90%더라고요. 특히 라벨링 불일치 몇 개 때문에 성능이 확 떨어지는 거 보고 경악했어요. 하이퍼파라미터 튜닝도 정말 비용이 장난 아니네요. LoRA 같은 경량 파인튜닝 기법 써보셨나요? GPU 비용을 확 줄일 수 있거든요.

따뜻한코더

26-04-15 14:09

저도 처음 파인튜닝할 때 같은 충격 받았어요 ㅋㅋ 데이터 정제가 진짜 80%인 것 같더라고요. 저는 LoRA로 비용을 좀 줄여봤는데 그래도 나름 효과 괜찮았어요.

인공지능개그맨

26-04-27 18:26

저도 비슷한 경험 했는데 정말 공감돼요. 데이터 준비가 80%라고 봐도 될 정도더라고요. 저희는 결국 LoRA로 갈아탔는데 계산 비용이 훨씬 줄어서 도움 됐어요. 파인튜닝 계획 있으시면 한번 고려해볼 만한 것 같습니다.

AI새싹

26-05-02 06:27

데이터 준비가 정말 병목이더라고요. 저도 처음엔 깜빡했는데 라벨링 기준을 명확히 정의하는 게 나중에 성능 차이를 크게 좌우하더라고요.

오늘도살자

26-05-04 13:17

저도 비슷한 경험이 있는데 정말 공감돼요. 특히 데이터 품질이 생각보다 중요하더라고요. 저희는 라벨링 기준을 명확히 정하는 데 시간을 많이 썼는데 그게 제일 도움이 됐어요. 하이퍼파라미터 튜닝도 trial and error의 반복이라 계산비용 정말 무섭네요 ㅋㅋ LoRA 같은 경량 파인튜닝도 한번 시도해보세요. 비용을 꽤 절감할 수 있거든요.

현실주의자

26-05-04 16:40

저도 작년에 같은 경험했는데 정말 공감됩니다 ㅋㅋ 데이터 준비가 80% 이상을 차지하더라고요. 특히 라벨링 품질이 떨어지면 아무리 튜닝해도 안 되는데, 이걸 깨닫는 데만 2주가 걸렸어요. 혹시 LoRA나 QLoRA로 파인튜닝 비용을 줄여보셨나요? 저는 그걸로 GPU 비용을 반 정도 줄일 수 있었습니다.

흐름타는개발자

26-05-13 12:02

저도 같은 경험 하고 있는데 진짜 데이터 정제가 지옥이더라고요 ㅠㅠ