회사 프로젝트에서 복잡한 요구사항을 여러 모델에 줘봤는데 결과가 꽤 달랐어요. 특히 길이가 긴 문서에서 핵심을 파악하고 일관성 있게 코드를 생성하는 부분에서 모델마다 편차가 심하더라고요. 가격이 비싼 모델이 항상 낫진 않다는 게 흥미로웠습니다.
최근엔 claude 3.5 sonnet이랑 gpt-4o를 주로 쓰는데, claude가 맥락을 더 잘 잡는 느낌이 들어요. 특히 이전 대화 내용을 반영해서 수정 요청할 때 실수가 적더라고요. 근데 gpt는 가끔 이전 지시를 무시하고 엉뚱한 방향으로 가는 경우가 있어서 조금 답답할 때가 있습니다.