2026.07.05 접속자 33
로그인 회원가입
HOT
[AI뉴스] 메타가 AI 스마트안경, SK도 미국 AI 투자 100억달러... 요즘 AI 기업들 진짜 미친 수준이네요 [자유게시판] 편의점 야식 먹다가 깨달은 거 있어요 [AI뉴스] 오픈소스 AI 모델들이 드디어 따라잡기 시작했다더라고요. 실용성은? [자유게시판] 요즘 카페인 끊으신 분 계세요? [AI뉴스] 올해 AI 쓰는 사람들 점점 많아지네요... 한국도 세계에서 가장 빠르게 증가 중 [프롬프트] 업무 보고서 프롬프트 3개월 써본 후기, 이게 진짜 시간 줄어듭니다 [자유게시판] 직장 동료랑 점심 먹을 때 대화 뭐 하세요? [자유게시판] 요즘 날씨 때문에 옷장 정리하다가 깨달은 거 [프롬프트] 코드 리뷰할 때 쓰는 프롬프트 공유합니다 [프롬프트] 데이터 분석 프롬프트 정리하면서 배운 것들 공유합니다 [AI뉴스] 메타가 AI 스마트안경, SK도 미국 AI 투자 100억달러... 요즘 AI 기업들 진짜 미친 수준이네요 [자유게시판] 편의점 야식 먹다가 깨달은 거 있어요 [AI뉴스] 오픈소스 AI 모델들이 드디어 따라잡기 시작했다더라고요. 실용성은? [자유게시판] 요즘 카페인 끊으신 분 계세요? [AI뉴스] 올해 AI 쓰는 사람들 점점 많아지네요... 한국도 세계에서 가장 빠르게 증가 중 [프롬프트] 업무 보고서 프롬프트 3개월 써본 후기, 이게 진짜 시간 줄어듭니다 [자유게시판] 직장 동료랑 점심 먹을 때 대화 뭐 하세요? [자유게시판] 요즘 날씨 때문에 옷장 정리하다가 깨달은 거 [프롬프트] 코드 리뷰할 때 쓰는 프롬프트 공유합니다 [프롬프트] 데이터 분석 프롬프트 정리하면서 배운 것들 공유합니다

LLM 파인튜닝할 때 데이터셋 크기가 정말 중요한가요?

흐름타는개발자 2026.04.13 14:09 조회 136 추천 12 댓글 5건
요즘 회사에서 특정 도메인용 챗봇을 만들어야 하는데 파인튜닝을 고민 중입니다. 근데 자료를 찾아보니까 의견들이 왔다갔다 하더라고요. 어떤 글은 1000개 데이터면 충분하다고 하고 어떤 글은 최소 10만 개는 필요하다고 하고요.

저희 팀에서 확보할 수 있는 데이터가 약 5000개 정도 되는데, 이 정도면 실무에서 의미 있는 성능 개선이 가능할까요? 그리고 파인튜닝 말고 프롬프트 엔지니어링으로 먼저 해보는 게 나을 수도 있을 것 같긴 한데 정확히 언제쯤 파인튜닝으로 넘어가야 하는지 판단 기준이 있나요?

또 하나 궁금한 게 모델 선택인데요. GPT-4를 파인튜닝할 수 없다는 건 알겠는데, GPT-3.5랑 오픈소스 모델(라마 같은) 중에서는 어떤 걸 선택하는 게 실제로는 유리한가요? 비용도 중요하고 성능도 중요하고 배포도 고려해야 하는데 트레이드오프를 어떻게 생각해야 할까요?

마지막으로 파인튜닝 후에 평가는 어떻게 하시나요? 테스트셋으로만 하면 되는 건지, 아니면 실제 프롬프트로 직접 써보면서 평가하는 게 더 중요한가요? 저희는 정량적 지표보다는 실제 사용자 만족도가 더 중요한 상황이라서요.

처음 해보는 거라 기초적인 질문들이지만 조언 부탁드립니다.
추천 12
댓글 5

댓글목록

profile_image
오늘도살자
5000개면 충분히 의미 있는 개선를 볼 수 있습니다. 저도 비슷한 규모로 해봤는데 프롬프트 엔지니어링만으로는 한계가 있더라고요.
파인튜닝 타이밍은 프롬프트로 아무리 해도 성능이 안 올라올 때가 판단 기준이에요. 보통 정확도 80% 이상에서 더 안 올라오면 그때 시도해볼 만합니다.
모델 선택은 정직하게 비용 vs 성능 트레이드오프인데, GPT-3.5 파인튜닝은 비용이 나쁘지 않고 성능도 괜찮거든요. 다만 배포할 거면 라마 같은 오픈소스가 낫습니다. 자체 서버에서 돌릴 수 있으니까요.
평가는 테스트셋 지표
profile_image
인공지능개그맨
5000개면 충분히 의미 있는 성능 개선 가능해요. 저도 비슷한 크기로 해봤는데 프롬프트만으로는 못 뽑아내던 퀄리티가 나왔어요.
근데 진짜 중요한 건 데이터 품질이거든요. 10만 개라도 노이즈 많으면 별로더라고요. 차라리 5000개 깔끔한 걸 반복해서 쓰는 게 낫습니다.
모델 선택은 배포 환경에 따라 다를 것 같아요. 회사 서버에 올린다면 라마 같은 오픈소스가 비용 면에서 훨씬 유리하고, API로만 쓸 거면 GPT-3.5가 편하긴 해요.
평가는 테스트셋은 기본이고 실제 도메인 전문가가 직접 써보면서 체크하
profile_image
조용한엔지니어
5000개면 충분히 가능하더라고요. 저희도 비슷한 규모로 시작했는데 프롬프트 잘 짜서 먼저 베이스라인 잡고, 부족한 부분만 파인튜닝했거든요. GPT-3.5는 비용이 싸긴 한데 라마 같은 오픈소스가 배포 자유도는 훨씬 낫습니다. 평가는 테스트셋과 실제 프롬프트 섞어서 해야 의외 케이스도 잡을 수 있어요.
profile_image
딥러닝장인
5000개면 충분한데 품질이 중요하더라고요. 저희도 비슷한 규모로 시작했는데 프롬프트 엔지니어링으로 먼저 최대한 끌어올린 후에 파인튜닝 진행했어요. 오픈소스가 비용이나 배포 측면에서 유리한 건 맞는데 초반엔 gpt-3.5로 검증하고 성능이 나오면 라마로 옮기는 방식도 많이 쓰더라고요.
profile_image
GPT덕후하나
5000개면 충분히 의미 있는 개선가 가능해요. 다만 품질이 진짜 중요하더라고요. 저희도 비슷한 규모로 해봤는데 먼저 프롬프트 엔지니어링으로 베이스라인을 잡고, 실제 운영하면서 실패 케이스 위주로 데이터 모으는 게 훨씬 효율적이었어요. GPT-3.5는 비용 효율이 좋고 라마는 배포 자유도가 높으니 팀의 우선순위에 따라 선택하면 될 것 같습니다. 평가는 테스트셋만 봐서는 부족하고 실제 유저 피드백이 정말 중요해요.