요즘 회사에서 자체 데이터를 활용한 AI 시스템을 만들어야 하는데, 파인튜닝을 해야 할지 RAG로 갈지 계속 고민이 되네요. 물론 둘 다 해보면 좋겠지만 시간과 비용이 한정되어 있거든요.
현재 상황은 이렇습니다. 우리 회사의 제품 매뉴얼, 고객 피드백, 내부 문서 같은 데이터가 꽤 많아요. 아마 1000페이지 정도는 될 것 같은데, 이 데이터들을 바탕으로 고객 질문에 더 정확하게 답변할 수 있는 챗봇을 만들고 싶습니다. 처음에는 파인튜닝이 더 정확할 거라고 생각했는데, 요즘 RAG가 좋다는 얘기를 많이 들어서요.
파인튜닝은 모델을 우리 데이터에 맞게 조정하니까 응답이 더 자연스러울 것 같긴 한데, 비용도 많이 들고 데이터가 조금씩 바뀔 때마다 다시 학습시켜야 한다는 점이 걱정됩니다. 반면 RAG는 설명은 간단한데 실제로는 좋은 결과를 내기가 까다로운 느낌이 더라고요. 임베딩 모델 선택, 청킹 방식, 검색 방식 등등 신경 써야 할 부분이 많더라고요.
요즘 프로덕션 환경에서 실제로 뭘 많이 쓰시나요? 처음엔 RAG로 시작해서 어느 정도 검증된 후에 파인튜닝을 추가하는 방식도 괜찮을까요? 아니면 우리 상황 같으면 RAG가 답인가요? 기술 스택이나 구체적인 경험담 있으신 분들의 의견을 정말 궁금합니다.