요즘 여러 모델들 써보다가 토크나이저 효율 차이가 생각보다 크더라고요. 같은 텍스트를 처리할 때 모델마다 토큰 수가 꽤 달라서 정리해봤습니다.
영어 기준으로 GPT-4는 평균 단어당 1.3 토큰 정도 나오는데, Claude는 1.4~1.5 수준으로 조금 더 많이 써요. Llama 계열은 2.0에 가까울 때도 있어서 같은 비용이라도 입력할 수 있는 양이 줄어드는 거죠. 한국어는 더 심한데, 모델마다 처리 방식 차이가 커서 테스트해보지 않으면 예상하기 힘들어요.
특히 긴 프롬프트나 문서 분석하실 때 이 차이가 비용에 직접 영향을 미치니까 고려할 만한 것 같습니다. 혹시 다른 경험 있으신 분 계신가요?