최근 RAG 프로젝트 하면서 청킹 방식으로 한참 고민했는데, 고정 크기 청킹만 해도 되는지 궁금하네요. 지금은 512 토큰 기준으로 겹치게 자르고 있는데 검색 정확도가 생각보다 낮더라고요.
Recursive 청킹이나 의미 기반 청킹 써본 분들 있으신가요? 오버헤드 대비 성능 개선이 얼마나 되는지 궁금합니다. 지금 문서는 기술 문서와 뉴스 기사 섞여 있어서 청킹 전략을 따로 써야 할 것 같은데 참고할 만한 사례나 팁이 있으면 공유 부탁드립니다.
추천 0 비추천 0