요즘 GPT-4, Claude, Gemini 여러 모델을 돌려보고 있는데 같은 프롬프트를 던져도 결과가 꽤 다르더라고요. 처음엔 단순히 모델 성능 차이라고 생각했는데, 토큰화 방식 때문인 건 아닐까 싶어서 질문 올립니다.
예를 들어서 한국어 프롬프트를 쓸 때 GPT-4는 꽤 깔끔하게 이해하는데, 같은 내용을 Gemini에 보내면 약간 어색한 답변이 나올 때가 있거든요. 물론 한국어 학습 데이터 양이 다를 수도 있겠지만, 혹시 토큰 분할 방식이 다르면 그게 결과에 영향을 미친다는 게 가능할까요?
BPE 토큰화랑 SentencePiece 같은 방식들이 있다고 알고 있는데, 실제로 이게 모델의 이해도나 생성 품질에 얼마나 차이를 만드는지 궁금해요. 혹은 더 큰 요소들이 있어서 토큰화는 거의 무시해도 되는 부분일 수도 있고요.
요즘 각 모델들의 토큰화 방식을 비교해본 분이 있으면 경험담 좀 나눠주세요. 특히 멀티링구얼 모델들 쓰다가 차이를 느껴본 분들 말이에요. 아니면 이 부분에 대해 좀 더 자세히 설명해줄 수 있는 분이 있으면 감사하겠습니다.