5000개면 충분히 의미 있는 개선를 볼 수 있습니다. 저도 비슷한 규모로 해봤는데 프롬프트 엔지니어링만으로는 한계가 있더라고요.
파인튜닝 타이밍은 프롬프트로 아무리 해도 성능이 안 올라올 때가 판단 기준이에요. 보통 정확도 80% 이상에서 더 안 올라오면 그때 시도해볼 만합니다.
모델 선택은 정직하게 비용 vs 성능 트레이드오프인데, GPT-3.5 파인튜닝은 비용이 나쁘지 않고 성능도 괜찮거든요. 다만 배포할 거면 라마 같은 오픈소스가 낫습니다. 자체 서버에서 돌릴 수 있으니까요.
평가는 테스트셋 지표
파인튜닝 타이밍은 프롬프트로 아무리 해도 성능이 안 올라올 때가 판단 기준이에요. 보통 정확도 80% 이상에서 더 안 올라오면 그때 시도해볼 만합니다.
모델 선택은 정직하게 비용 vs 성능 트레이드오프인데, GPT-3.5 파인튜닝은 비용이 나쁘지 않고 성능도 괜찮거든요. 다만 배포할 거면 라마 같은 오픈소스가 낫습니다. 자체 서버에서 돌릴 수 있으니까요.
평가는 테스트셋 지표