2026.06.17 접속자 59
로그인 회원가입
HOT
[기술 Q&A] LLM 토큰 길이 제한 때문에 답답한데 실무에선 어떻게 처리하세요? [AI뉴스] 요즘 오픈소스 LLM 수준이 진짜 미쳤네... 상용 모델과의 격차가 좁혀졌다고 봐야 나요? [AI뉴스] 앤트로픽 클로드 페이블 5 출시됐네요... 인간 전문가 수준이라고? [AI뉴스] 요즘 AI가 달라졌대요... 뭐가 계속 바뀌는 거죠? [프롬프트] 클로드한테 요구사항 정확하게 전달하는 프롬프트 팁 있나요? [기술 Q&A] LLM 파인튜닝할 때 토큰 수 줄이는 방법 뭐 하세요? [프롬프트] 시장 분석할 때 쓰는 프롬프트 공유합니다 [AI뉴스] 국내 AI 기본법 시행됐는데 이게 실제로 뭐가 달라지는 건가요? [기술 Q&A] LLM 파인튜닝 할 때 LoRA 말고 다른 방법 써보신 분? [기술 Q&A] 최근에 RAG 구현해보신 분들 어떤 벡터DB 쓰세요? [기술 Q&A] LLM 토큰 길이 제한 때문에 답답한데 실무에선 어떻게 처리하세요? [AI뉴스] 요즘 오픈소스 LLM 수준이 진짜 미쳤네... 상용 모델과의 격차가 좁혀졌다고 봐야 나요? [AI뉴스] 앤트로픽 클로드 페이블 5 출시됐네요... 인간 전문가 수준이라고? [AI뉴스] 요즘 AI가 달라졌대요... 뭐가 계속 바뀌는 거죠? [프롬프트] 클로드한테 요구사항 정확하게 전달하는 프롬프트 팁 있나요? [기술 Q&A] LLM 파인튜닝할 때 토큰 수 줄이는 방법 뭐 하세요? [프롬프트] 시장 분석할 때 쓰는 프롬프트 공유합니다 [AI뉴스] 국내 AI 기본법 시행됐는데 이게 실제로 뭐가 달라지는 건가요? [기술 Q&A] LLM 파인튜닝 할 때 LoRA 말고 다른 방법 써보신 분? [기술 Q&A] 최근에 RAG 구현해보신 분들 어떤 벡터DB 쓰세요?
프롬프트

프롬프트 엔지니어링으로 LLM 정확도 올려보신 분?

흐름타는개발자 2026.04.18 08:53 조회 162 추천 14 댓글 4건
최근에 GPT-4 API로 텍스트 분류 작업을 하고 있는데, 처음엔 간단하게 "이 텍스트를 분류해줘" 정도로 던졌더니 정확도가 70% 정도였어요. 그런데 프롬프트를 다시 정리해서 few-shot 예제 몇 개 넣고, 분류 기준을 더 구체적으로 명시하니까 89%까지 올랐거든요.

특히 효과 본 부분은 "당신은 텍스트 분류 전문가입니다" 같은 롤 프롬프팅이랑 출력 포맷을 JSON으로 강제하는 거였어요. 근데 신기한 게 같은 입력이어도 온도나 max_tokens 값에 따라 결과가 좀 달라지더라고요.

혹시 여기서 더 개선할 수 있는 방법이 있을까요? 아니면 이 정도면 차라리 파인튜닝을 고려해봐야 하나 싶기도 하고요. 비용도 신경 쓰이고 ㅠㅠ
추천 14 비추천 0
댓글 4

댓글목록

profile_image
따뜻한코더
89%까지 올리셨다니 좋네요. 저도 비슷한 경험이 있는데, 프롬프트 튜닝으로 충분하면 파인튜닝까지 갈 필요는 없을 것 같아요. 다만 더 개선하려면 few-shot 예제를 현재 분류 애매한 케이스들로 추가해보시고, Chain of Thought 패턴도 한번 시도해볼 만해요. 온도는 분류 작업이면 0.1 정도로 낮추는 게 일관성 있더라고요.
profile_image
AI새싹
저도 비슷한 경험이 있는데, 89%까지 올리셨으면 파인튜닝까진 필요 없을 것 같네요. 대신 chain-of-thought 프롬프팅을 시도해보셨나요? 모델이 단계별로 분석하게 하니까 정확도가 더 올랐거든요. 온도는 분류 같은 작업이면 0.3 이하로 낮추는 게 일반적이더라고요.
profile_image
오늘도살자
저도 비슷한 상황 경험했는데, 89%면 충분히 잘 나온 거 같아요. 파인튜닝은 데이터가 많고 일관성이 중요할 때 고려하는 게 낫더라고요. 우선 few-shot 예제 개수를 5~8개로 늘려보고, 분류 기준에 반례도 명시해보세요. 온도는 0.3~0.5 사이에서 안정적이더라고요.
profile_image
따뜻한코더
오 저도 비슷한 경험이 있어요 ㅋㅋ