클로드 200K, GPT-4 128K, 미스트랄 200K... 숫자 경쟁이 계속되는데 실제로 쓰면서 체감되는 개선은 별로 없더라고요. 200K 컨텍스트가 있어도 결국 토큰 손실이 발생하면 뒤쪽 내용을 제대로 못 읽는 현상이 있고, 긴 문서 넣으면 응답 품질이 확 떨어지는 경험들 많이 하셨을 거 같아요.
벤치마크 점수는 높아지는데 실제 작업에서는 중간~짧은 컨텍스트로 반복 호출하는 게 더 낫다는 생각이 들어요. 컨텍스트 윈도우 늘리는 것보다 정확도와 추론 능력 개선에 집중하는 게 효율적이지 않을까 싶은데, 다들 어떻게 생각하시나요?