어제(4월 7일) 오픈AI가 공식 발표했는데 GPT-6(내부명 '스펀')이 4월 14일에 전 세계 출시된대요. 벤치마크 수치들을 보니까 진짜 미쳤어요.
코딩, 추론, 에이전트 작업 기준으로 GPT-5.4보다 40% 이상 성능이 올라갔다고 하는데, HumanEval 점수가 95%를 넘고 수학 추론은 85% 근처까지 간다고 하네요. 컨텍스트 윈도우도 200만 토큰으로 확대돼서 약 150만 단어 정도를 한 번에 처리할 수 있다고 합니다.
특별한 점은 '듀얼-티어 추론' 방식으로 빠른 응답과 정밀한 검증을 동시에 하는데, 이를 통해 할루시네이션을 0.1% 이하로 낮췄다고 해요. 이제 내일 직접 써볼 텐데, 진짜 체감이 다를지 궁금하네요. 혹시 누구 미리 써본 사람 있어요?