요즘 GPT-4o, Claude 3.5, Gemini 2.0 같은 모델들 컨텍스트 윈도우 스펙 비교했는데 단순히 토큰 수만 봐서는 안 될 것 같더라고요. 같은 200k 토큰이라도 실제 성능이 다르게 나온다는 게 신기했어요. 특히 문서 처리할 때 Claude가 끝부분 정보를 더 잘 기억하는 거 보면 구현 방식이 확실히 다른 것 같습니다.
근데 장문 처리 능력이 좋다고 해서 실무에서 꼭 필요한 건 아니더라고요. 토큰 요금도 눈덩이처럼 불어나고. 대부분 프로젝트는 8k~32k 정도면 충분했거든요. 혹시 실제로 큰 윈도우 써야 했던 경험 있으신 분 있으면 어떤 케이스였는지 궁금합니다.