요즘 API 비용 때문에 토큰 수를 정확히 파악해야 하는데, 단순히 단어 수로 추정하면 안 된다는 걸 깨달았습니다. 특히 한글은 더 복잡하더라고요. OpenAI의 tiktoken 라이브러리를 쓰면 모델별로 정확한 토큰 수를 미리 계산할 수 있습니다.
pip install tiktoken 으로 설치한 후 encoding 객체를 만들어서 encode 메서드로 텍스트를 토큰화하면 리스트 형태로 반환되니까 len으로 개수를 세면 돼요. 모델마다 다른 인코더를 써야 하니까 get_encoding으로 올바른 인코더를 선택하는 게 중요합니다.
Claude나 Gemini 같은 다른 모델들도 자체 토큰 계산 방식이 있으니까 각각 확인해야 합니다. 저는 이 방법으로 월 API 비용을 꽤 아낄 수 있었네요.