회사에서 프로젝트마다 다른 모델 써야 하는데 자꾸 "이 모델이 최고다"라고 주장하는 사람들 때문에 헷갈리네요. 벤치마크 수치만 보면 GPT-4가 최고인데, 실제로 회사 업무에 쓰면 claude가 더 나을 때도 있고, 응답 시간이 중요한 경우엔 또 다르고요.
결국 context window, 비용, 응답 속도, 정확도를 다 고려해야 하는데 이걸 어떻게 체계적으로 평가하시는지 궁금해요. 혹시 자체적으로 테스트 셋 만들어서 비교하는 분 있으신가요? 아니면 그냥 필요할 때마다 써보고 판단하시는 건가요?
추천 0 비추천 0