개인 프로젝트에서 RAG 시스템 만들고 있는데 문서 청킹 방식 때문에 고민이 생겼어요. 처음엔 그냥 고정 크기(512 토큰)로 잘라냈는데 의미 단위가 깨지는 경우가 많더라고요. 특히 테이블이나 리스트 형식 데이터는 거의 망가져요.
요즘엔 recursive character splitter 써보고 있는데 확실히 나아지는 느낌은 있어요. 다만 처리 속도가 조금 느려지는 게 단점이네요. 혹시 프로덕션에서는 어떤 방식 써보신 분 계신가요? 벡터 임베딩 품질 개선도 중요하지만 청킹 자체가 정말 중요하다는 걸 느껴요.