요즘 RAG 프로젝트를 진행 중인데 문서 청킹 부분에서 좀 고민이 생겼어요. 지금은 단순하게 고정 크기(512토큰)로 나누고 있는데, 실제로 겹치는 부분을 얼마나 줄 때 정확도가 좋던가요? 겹침이 너무 적으면 컨텍스트가 끊기고, 많으면 중복 처리가 문제더라고요.
시맨틱 청킹도 고려해봤는데 비용이 좀 많이 들어서 망설이고 있습니다. 혹시 라마인덱스나 랭체인으로 좋은 경험 있으신 분 계신가요? 프로덕션 환경에서는 어떤 방식을 선택하셨는지 궁금하네요.
추천 0 비추천 0