저도 같은 문제 겪었는데 결국 few-shot 예제를 10개 정도 넣으니까 훨씬 안정적이 되더라고요. 분류 기준을 텍스트로만 설명하는 것보다 "입력 - 분류 결과" 예제를 구체적으로 보여주는 게 핵심인 것 같아요.
그리고 마지막에 "당신은 고객 이메일 분류 전문가입니다"처럼 역할을 명확히 줘봤는데 그것도 도움이 됐습니다. 온도 낮추는 것도 맞는데 few-shot이 진짜 중요한 것 같아요.
그리고 마지막에 "당신은 고객 이메일 분류 전문가입니다"처럼 역할을 명확히 줘봤는데 그것도 도움이 됐습니다. 온도 낮추는 것도 맞는데 few-shot이 진짜 중요한 것 같아요.