최근에 팀 내에서 코드 리뷰 프로세스가 너무 오래 걸린다는 얘기가 나와서 Claude API를 활용해서 자동 리뷰 시스템을 만들어봤거든요. 기존에는 GPT-4를 썼었는데 요즘 Sonnet이 성능 대비 가격이 괜찮다고 해서 시도해본 거라서 결과를 공유하고 싶었어요.
일단 기본 설정은 간단했습니다. Python으로 깃허브 푸시 이벤트를 트리거로 해서 변경 사항을 Claude에 보내고 보안, 성능, 코드 스타일 측면에서 피드백을 받는 구조인데요. 처음엔 할루시네이션 때문에 좀 걱정했어요. 특히 존재하지 않는 함수명이나 라이브러리를 추천할까봐요. 그런데 실제로 써보니 그런 경우가 거의 없더라고요. Sonnet이 기존 코드 컨텍스트를 꽤 잘 파악하는 것 같았어요.
다만 약간의 한계도 느껴졌습니다. 복잡한 비즈니스 로직이나 팀의 내부 컨벤션 같은 건 못 알아채더라고요. 예를 들어 우리 팀은 특정 패턴의 에러 핸들링을 선호하는데, 그걸 모르니까 다른 방식을 제안하곤 했어요. 그래서 결국 시스템 프롬프트에 팀 규칙을 명시적으로 넣어서 해결했습니다.
비용 측면에서는 꽤 효율적이었어요. 월 코드 리뷰량으로 따져면 GPT-4보다 40% 정도 저렴했는데 퀄리티 차이는 거의 없었어요. 물론 완전히 자동화되진 않고 주니어 멤버 수준의 첫 번째 리뷰어 정도로 생각하는 게 맞는 것 같습니다. 최종 승인은 여전히 시니어가 해야 하고요.
지금은 팀에서 선택적으로 사용 중이고 반응이 꽤 좋습니다. 특히 문법이나 보안 관련 피드백은 거의 놓치지 않아서 멤버들이 만족해하는 편이에요. 혹시 비슷한 시도를 고려 중이신 분들 계신가요? 경험담이나 의견 공유해주시면 감사하겠습니다.