2026.05.14 접속자 37
로그인 회원가입
HOT
[AI뉴스] 요즘 뜨는 LLM 모델들 정리해봤는데 너무 많네요 ㅋㅋ [AI뉴스] 요즘 AI 추세 정리해봤는데, 생성형 AI는 이미 과거라고? [프롬프트] 코드 리뷰할 때 쓸 만한 프롬프트 공유합니다 [프롬프트] Claude한테 좋은 결과 뽑아내는 프롬프트 팁 있으신가요? [AI뉴스] 한국 AI 기본법 시행 앞두고 국내외 규제 경쟁 심화되는 중 [AI뉴스] 요즘 AI 뉴스 보다 보니 정말 많이 변하는구나 싶네요 [자유게시판] 요즘 점심 뭐 먹으세요? [프롬프트] 코드 리뷰 프롬프트 어떻게 쓰세요? [자유게시판] 요즘 왜 다들 커피는 안 마시고 에너지 드링크만 마셔요? [자유게시판] 편의점 알바 3개월 해본 후기 및 꿀팁 공유 [AI뉴스] 요즘 뜨는 LLM 모델들 정리해봤는데 너무 많네요 ㅋㅋ [AI뉴스] 요즘 AI 추세 정리해봤는데, 생성형 AI는 이미 과거라고? [프롬프트] 코드 리뷰할 때 쓸 만한 프롬프트 공유합니다 [프롬프트] Claude한테 좋은 결과 뽑아내는 프롬프트 팁 있으신가요? [AI뉴스] 한국 AI 기본법 시행 앞두고 국내외 규제 경쟁 심화되는 중 [AI뉴스] 요즘 AI 뉴스 보다 보니 정말 많이 변하는구나 싶네요 [자유게시판] 요즘 점심 뭐 먹으세요? [프롬프트] 코드 리뷰 프롬프트 어떻게 쓰세요? [자유게시판] 요즘 왜 다들 커피는 안 마시고 에너지 드링크만 마셔요? [자유게시판] 편의점 알바 3개월 해본 후기 및 꿀팁 공유

LLM 파인튜닝할 때 토큰화 과정 제대로 이해하셨나요?

딥러닝장인 2026.04.14 13:09 조회 59 추천 5 댓글 1건
요새 작은 데이터셋으로 LLM 파인튜닝 해보면서 깨달은 건데, 토큰화 단계를 제대로 안 하면 성능이 정말 달라지더라고요. 특히 한글 처리할 때 말이죠.

보통 huggingface의 pretrained tokenizer 그냥 쓰는데, 자신의 도메인 데이터셋에 맞게 vocab을 커스터마이징하면 확실히 효율이 올라가요. 토큰 수가 줄어들고 모델이 의미 있는 단위로 텍스트를 쪼개게 되거든요. 특히 의료나 법률 같은 특수 용어가 많은 분야에서는 필수라고 봅니다.

혹시 같은 작업하시는 분들 중에 tokenizer 커스터마이징까지 해보신 분 계신가요? 사실 추가 학습 비용도 크진 않은데 많이 안 하더라고요.
추천 5
댓글 1

댓글목록

profile_image
딥러너
맞아요, 저도 의료 데이터로 파인튜닝할 때 tokenizer 커스터마이징했는데 정말 체감이 달랐어요. 특히 한글은 복합어나 도메인 특수용어가 많아서 기본 tokenizer로는 너무 많은 토큰으로 쪼개지더라고요. vocab 확장 후에 시퀀스 길이가 확 줄어드니까 학습도 효율적이고 모델이 의미 단위를 더 잘 잡는 것 같았어요. 생각보다 오버헤드도 적으니까 도메인 특화 작업할 거면 꼭 추천합니다.