저도 같은 문제로 한참 고민했는데, 고정 크기만으로는 한계가 있더라고요. 특히 기술 문서처럼 구조가 명확한 경우 마크다운 기반으로 헤더 단위로 먼저 나누고, 그 안에서만 청킹하니까 검색 정확도가 확 올라갔어요.
의미 기반 청킹(semantic chunking)도 시도해봤는데, 정확도는 좋은데 비용이 장난 아니더라고요 ㅎㅎ 매번 임베딩 모델 돌려야 해서 레이턴시가 증가하고. 결론적으로는 문서 타입별로 전략을 다르게 가져가는 게 최고인 것 같아요.
뉴스 기사 같은 경우 문단 단위 + 문장 오버랩으로 충분하고, 기술 문서는
의미 기반 청킹(semantic chunking)도 시도해봤는데, 정확도는 좋은데 비용이 장난 아니더라고요 ㅎㅎ 매번 임베딩 모델 돌려야 해서 레이턴시가 증가하고. 결론적으로는 문서 타입별로 전략을 다르게 가져가는 게 최고인 것 같아요.
뉴스 기사 같은 경우 문단 단위 + 문장 오버랩으로 충분하고, 기술 문서는