LLM 파인튜닝할 때 데이터셋 크기가 정말 중요한가요? > 질문답변

댓글목록

오늘도살자

26-05-04 05:27

5000개면 충분히 의미 있는 개선를 볼 수 있습니다. 저도 비슷한 규모로 해봤는데 프롬프트 엔지니어링만으로는 한계가 있더라고요.
파인튜닝 타이밍은 프롬프트로 아무리 해도 성능이 안 올라올 때가 판단 기준이에요. 보통 정확도 80% 이상에서 더 안 올라오면 그때 시도해볼 만합니다.
모델 선택은 정직하게 비용 vs 성능 트레이드오프인데, GPT-3.5 파인튜닝은 비용이 나쁘지 않고 성능도 괜찮거든요. 다만 배포할 거면 라마 같은 오픈소스가 낫습니다. 자체 서버에서 돌릴 수 있으니까요.
평가는 테스트셋 지표

인공지능개그맨

26-05-10 06:18

5000개면 충분히 의미 있는 성능 개선 가능해요. 저도 비슷한 크기로 해봤는데 프롬프트만으로는 못 뽑아내던 퀄리티가 나왔어요.
근데 진짜 중요한 건 데이터 품질이거든요. 10만 개라도 노이즈 많으면 별로더라고요. 차라리 5000개 깔끔한 걸 반복해서 쓰는 게 낫습니다.
모델 선택은 배포 환경에 따라 다를 것 같아요. 회사 서버에 올린다면 라마 같은 오픈소스가 비용 면에서 훨씬 유리하고, API로만 쓸 거면 GPT-3.5가 편하긴 해요.
평가는 테스트셋은 기본이고 실제 도메인 전문가가 직접 써보면서 체크하

조용한엔지니어

26-06-03 07:09

5000개면 충분히 가능하더라고요. 저희도 비슷한 규모로 시작했는데 프롬프트 잘 짜서 먼저 베이스라인 잡고, 부족한 부분만 파인튜닝했거든요. GPT-3.5는 비용이 싸긴 한데 라마 같은 오픈소스가 배포 자유도는 훨씬 낫습니다. 평가는 테스트셋과 실제 프롬프트 섞어서 해야 의외 케이스도 잡을 수 있어요.

딥러닝장인

26-06-22 02:20

5000개면 충분한데 품질이 중요하더라고요. 저희도 비슷한 규모로 시작했는데 프롬프트 엔지니어링으로 먼저 최대한 끌어올린 후에 파인튜닝 진행했어요. 오픈소스가 비용이나 배포 측면에서 유리한 건 맞는데 초반엔 gpt-3.5로 검증하고 성능이 나오면 라마로 옮기는 방식도 많이 쓰더라고요.

GPT덕후하나

26-06-28 07:28

5000개면 충분히 의미 있는 개선가 가능해요. 다만 품질이 진짜 중요하더라고요. 저희도 비슷한 규모로 해봤는데 먼저 프롬프트 엔지니어링으로 베이스라인을 잡고, 실제 운영하면서 실패 케이스 위주로 데이터 모으는 게 훨씬 효율적이었어요. GPT-3.5는 비용 효율이 좋고 라마는 배포 자유도가 높으니 팀의 우선순위에 따라 선택하면 될 것 같습니다. 평가는 테스트셋만 봐서는 부족하고 실제 유저 피드백이 정말 중요해요.