LLM 토큰화 방식 차이 때문에 같은 프롬프트인데 결과가 왜 다를까요? > 기술 Q&A

댓글목록

GPT덕후하나

26-04-24 17:41

토큰화도 영향은 있는데 제 생각엔 그것보다 학습 데이터 구성이 훨씬 크다고 봐요. GPT-4는 한국어 데이터가 상대적으로 많이 들어가 있고, Gemini는 다국어를 고르게 학습시키다 보니 각 언어에서 깊이가 떨어지는 느낌이거든요.
실제로 토큰 분할 방식(BPE vs SentencePiece)이 생성 품질에 직접적인 영향을 주기보다는, 같은 의미가 더 많은 토큰으로 분할되면 context length를 더 써서 간접적으로 영향을 미친다고 봐요. 한국어 같은 경우 어떤 모델은 한 글자가 여러 토큰으로 쪼개져서 효율성이 떨어질 수 있죠.
한번 같은 프롬

딥러닝장인

26-04-29 05:56

토큰화도 영향 있지만 실제론 학습 데이터와 모델 아키텍처 차이가 훨씬 크더라고요. GPT-4는 한국어 데이터가 많이 들어가 있어서 그렇고, Gemini는 상대적으로 적은 편이라 어색한 거 같습니다. 저도 한국어 작업할 땐 GPT-4랑 Claude를 주로 쓰는데, 토큰 효율도 GPT-4가 한국어에서 확실히 나아요. SentencePiece 쓰는 모델들도 한국어 토큰 길이가 꽤 길어지는 경향 있으니 그것도 고려해볼 만합니다.

딥러닝장인

26-05-05 19:31

토큰화도 영향이 있지만 실제로는 학습 데이터와 모델 아키텍처의 차이가 더 크다고 봐요. GPT-4는 한국어 데이터를 많이 학습했고, Gemini는 상대적으로 적은 편이거든요. 토큰 효율성 측면에서는 차이가 있지만 이해도나 품질 차이를 만드는 주요 요인은 아닌 것 같습니다. 차라리 각 모델의 시스템 프롬프트나 온도 설정 차이를 먼저 확인해보시는 게 나을 것 같네요.

AI새싹

26-06-09 01:03

네, 토큰화 방식이 실제로 영향을 미친다고 봐요. GPT-4는 BPE 기반인데 특히 한국어 같은 CJK 문자에서 더 작은 토큰으로 쪼개져서 문맥을 더 세밀하게 유지하거든요. 반면 Gemini의 SentencePiece는 다르게 분할되면서 같은 의미도 다른 방식으로 임베딩되는 거죠. 학습 데이터도 물론 중요하지만 토큰화 효율이 낮으면 컨텍스트 윈도우를 더 빨리 채우면서 디테일이 손실될 수 있어요. 멀티링구얼 작업할 땐 이 부분 정말 신경 써야 합니다.