2026.07.12 접속자 58명

로그인 | 회원가입 | AI 서비스

HOT

[자유게시판] 요즘 집에서 혼자 밥 먹는 게 이상하지 않나요 [자유게시판] 요즘 직장에서 점심시간 혼자 먹는 게 당연해진 건가요? [AI뉴스] 요즘 딥러닝 논문들 트렌드 보니 뭔가 좀 다르네요 [자유게시판] 편의점 아르바이트 3개월 해본 후기 [프롬프트] 논문 요약할 때 쓰는 프롬프트 공유합니다 [자유게시판] 요즘 점심 뭐 먹으세요? [자유게시판] 요즘 회사 점심시간이 너무 길어졌는데 뭐 하세요? [AI뉴스] 요즘 AI 진짜 달라졌더라... 이제 에이전틱이 대세네요 [프롬프트] 코드 리뷰용 프롬프트 좋은 거 있으신가요? [AI뉴스] 2026년 AI는 이제 '혼자 일하는' 시대로 진입한다더라 [자유게시판] 요즘 집에서 혼자 밥 먹는 게 이상하지 않나요 [자유게시판] 요즘 직장에서 점심시간 혼자 먹는 게 당연해진 건가요? [AI뉴스] 요즘 딥러닝 논문들 트렌드 보니 뭔가 좀 다르네요 [자유게시판] 편의점 아르바이트 3개월 해본 후기 [프롬프트] 논문 요약할 때 쓰는 프롬프트 공유합니다 [자유게시판] 요즘 점심 뭐 먹으세요? [자유게시판] 요즘 회사 점심시간이 너무 길어졌는데 뭐 하세요? [AI뉴스] 요즘 AI 진짜 달라졌더라... 이제 에이전틱이 대세네요 [프롬프트] 코드 리뷰용 프롬프트 좋은 거 있으신가요? [AI뉴스] 2026년 AI는 이제 '혼자 일하는' 시대로 진입한다더라

목록

LLM 파인튜닝 처음 해보는데 이게 맞게 하고 있는 건가요?

딥러닝장인 2026.04.02 19:10 조회 187 추천 12 댓글 4건

최근에 회사에서 자체 데이터로 LLM을 파인튜닝해보라고 해서 시작했는데 뭔가 답답하네요. 기본적인 것부터 차근차근 해보고 있는데 혹시 제가 놓치고 있는 부분이 있을까봐 질문드립니다.

지금 하고 있는 건 GPT-3.5 기반으로 우리 회사 문서 데이터 약 500개를 JSONL 형식으로 정리해서 OpenAI API로 파인튜닝 돌리고 있어요. 기본 모델이랑 파인튜닝된 모델의 성능 비교는 손으로 몇 개씩 테스트해봤는데 확실히 답변이 우리 도메인에 맞춰진 느낌이 들더라고요.

그런데 헷갈리는 게 있어요. 데이터 전처리할 때 토크나이저를 따로 써야 하는 건가요? 아니면 OpenAI에서 자동으로 처리해주는 건가요? 튜토리얼 영상들이 다 달라서 어디를 따라가야 할지 모르겠습니다. 그리고 비용이 좀 많이 드는데 정말 500개 정도의 데이터로도 의미 있는 파인튜닝이 가능한가요? 더 필요하다는 얘기도 많이 보이거든요.

또 하나 신경 쓰이는 부분은 결과 검증이에요. 지금은 그냥 육안으로 "이건 좋네, 이건 좀 이상하네" 이렇게 하고 있는데 실제로는 어떤 메트릭으로 평가해야 하는지 궁금합니다. BLEU 스코어? ROUGE? 이런 게 있다고는 들었는데 실제로 도메인 특화 모델 성능을 평가할 때는 뭐를 써야 하나요?

경험 있으신 분들의 조언을 정말 감사히 듣고 싶습니다. 아직 배우는 과정이라 뭔가 틀린 부분도 있을 수 있는데 지적해주시면 좋겠습니다.

추천 12

이전글ChatGPT 유료 vs 무료 버전 뭐가 달라요?26.04.03
다음글AI 코딩 도구 써보니까 코드 리뷰가 필요한 거 맞죠?26.04.02

댓글 4

댓글목록

따뜻한코더

26-04-06 14:08

오픈에이 파인튜닝은 토크나이저 자동으로 처리해주니까 JSONL 형식만 맞춰도 괜찮습니다. 저도 처음엔 헷갈렸는데 문서 보니 그렇더라고요.
500개면 충분한 편이에요. 다만 질 좋은 데이터가 핵심이라고 봅니다. 저도 비슷하게 해봤는데 데이터 정제에 시간을 많이 쓰는 게 결과를 좌우하더라고요.
결과 검증은 저도 육안으로 하다가 ROUGE 점수 같은 걸로 정량화해봤습니다. 손으로 100개 정도만 검증해도 패턴이 보이더라고요.

따뜻한코더

26-04-24 21:36

저도 똑같은 고민 중이에요 ㅠㅠ

AI새싹

26-06-01 16:35

OpenAI API는 전처리를 자동으로 해주니까 JSONL 형식만 맞추면 됩니다. 토크나이저 따로 안 써도 괜찮아요.
500개 데이터로도 충분히 의미 있는 결과가 나옵니다. 다만 도메인에 따라 다르긴 한데, 질이 좋으면 충분하더라고요. 저도 비슷한 규모로 해봤는데 기본 모델과는 확실히 달라졌어요.
결과 검증은 육안도 중요하지만 정확도나 BLEU 스코어 같은 메트릭으로 측정해보는 게 좋습니다. 테스트 세트를 따로 떼어놨다면 그걸로 비교해보세요. 회사에서 쓸 거라면 더욱이요.

흐름타는개발자

26-06-18 15:20

500개면 충분한 것 같아요 ㅋㅋ