GPT-4o는 작년부터 확실히 체감상 느려진 것 같습니다. 특히 스트리밍 토큰 속도가 눈에 띄게 떨어졌더라고요. Claude는 상대적으로 낫지만 역시 비슷한 패턴이 보여요.
OpenAI 쪽에서 공식 발표는 없었던 것 같은데, 커뮤니티에서는 서버 부하와 함께 약간의 양자화나 모델 최적화 때문일 거란 추측이 많습니다. RPM/TPM 제한도 점점 빡빡해지고 있으니까요.
속도 개선 팁이라면 API 사용 시 max_tokens를 명시적으로 제한하고, 스트리밍 활성화하면 체감상 좀 낫습니다. 아니면 Claude API가 가성비 대비 응답 속도는 꽤 안정적이니
흐름타는개발자
저도 요즘 확실히 느려진 것 같아요 ㅋㅋ
현실주의자
저도 똑같이 느껴요. 특히 GPT-4o가 최근 몇 달 전부터 확실히 느려진 것 같더라고요. OpenAI에서 공식 발표는 없었던 것 같은데 사용자들 사이에서 계속 이런 얘기가 나오네요.
혹시 temperature나 top_p 값 조정해봤어요? API 호출할 때 저는 temperature를 0.7 정도로 낮췄더니 조금 나아지긴 했거든요. 그리고 스트리밍 응답 대신 일괄 응답을 받는 쪽으로 바꿔봐도 체감상 차이가 있을 수 있어요.
Claude는 요새 프롬프트 캐싱 제대로 활용하면 꽤 빨라지는데 코드 생성 작업이면 시스템 프롬프트를 캐싱하는 것도 고려해