최근에 팀에서 코드 리뷰 프로세스에 Claude를 도입했는데, 솔직히 애매한 부분이 많더라고요. 자동화된 린터나 정적 분석 도구처럼 객관적인 기준이 있는 게 아니라, LLM이 학습 데이터 기반으로 "이렇게 하는 게 낫다"고 제안하는 식이거든요.
처음엔 꽤 도움이 됐어요. 변수명 개선이나 함수 분리 같은 기초적인 부분에서는 충분히 유용했습니다. 근데 실제 비즈니스 로직이 복잡해지면 상황이 달라져요. 예를 들어 성능이 중요한 부분에서 LLM이 제안한 코드가 오히려 메모리를 더 쓸 수 있다거나, 팀의 코딩 컨벤션과 다르지만 "더 Pythonic하다"고 주장하는 식이거든요. 그럼 결국 시니어 개발자가 매번 LLM의 제안을 검증해야 하는 상황이 생기는데, 이게 진짜 효율적인지 의문이 들어요.
또 하나 신경 쓰이는 부분은 신입이나 주니어들의 학습에 미치는 영향입니다. LLM이 자동으로 좋은 코드를 제시해주니까, 왜 그렇게 해야 하는지 스스로 고민하고 배우는 과정을 건너뛰는 경우가 늘어났더라고요. 기술 부채보다 더 무서운 게 인력 부채 같은 느낌이 들어요.
다만 코드 작성 초기 단계에서는 정말 좋은 것 같아요. 보일러플레이트 코드라든지 명백히 실수할 가능성 있는 부분들을 미리 잡아주니까요. 문제는 LLM을 만능처럼 취급하려는 경향인 것 같습니다.
혹시 이런 경험들 공유해주실 분 있으세요? 실제로 LLM 기반 코드 리뷰를 프로덕션 환경에서 효과적으로 운영하고 있는 팀이 있다면 어떻게 운영하는지 궁금합니다.