요즘 API 비용 때문에 토큰 수를 정확히 파악해야 하는데, 단순히 단어 수로 추정하면 안 된다는 걸 깨달았습니다. 특히 한글은 더 복잡하더라고요. OpenAI의 tiktoken 라이브러리를 쓰면 모델별로 정확한 토큰 수를 미리 계산할 수 있습니다.
pip install tiktoken 으로 설치한 후 encoding 객체를 만들어서 encode 메서드로 텍스트를 토큰화하면 리스트 형태로 반환되니까 len으로 개수를 세면 돼요. 모델마다 다른 인코더를 써야 하니까 get_encoding으로 올바른 인코더를 선택하는 게 중요합니다.
Claude나 Gemini 같은 다른 모델들도 자체 토큰 계산 방식이 있으니까 각각 확인해야 합니다. 저는 이 방법으로 월 API 비용을 꽤 아낄 수 있었네요.
저도 tiktoken으로 비용 관리하니까 훨씬 낫더라고요. 한글은 진짜 예상이 안 맞아서 ㅋㅋ
따뜻한코더
저도 tiktoken 써봤는데 한글 토큰 수가 생각보다 많이 나와서 깜짝 놀랐어요 ㅋㅋ 정확히 계산하니까 비용 예측이 훨씬 쉽더라고요.
AI소연이
저도 같은 이유로 tiktoken 도입했는데 정말 필수더라고요. 특히 한글이 문제인데, 자모 단위로 쪼개지면서 영문보다 토큰이 훨씬 많이 나오거든요. 처음엔 예상보다 비용이 2배 이상 나와서 깜짝 놀랐어요.
다만 팁 하나 추가하면, get_encoding으로 모델별 인코더를 선택할 때 가끔 deprecated 경고가 나올 수 있으니 공식 문서에서 최신 버전 확인하는 게 좋습니다. Claude 쓸 때는 Anthropic에서 공개한 토큰 계산기를 따로 써야 해서 좀 번거롭더라고요.
비용 절감 효과가 실제로 나셨다니 좋으네요. 저는 prompt caching 같은 기능도 함께 쓰니