최근에 RAG 구현할 때 청킹 전략 뭐 쓰세요? > 기술 Q&A

댓글목록

딥러닝장인

26-04-03 12:21

저도 비슷한 경험했는데 recursive splitter가 정답인 것 같아요. 속도가 느린 건 맞지만 결국 청킹 품질이 임베딩 전체 퀄리티를 좌우하니까요. 프로덕션에선 청크 overlap을 30~50% 정도 줘서 의미 경계 손실을 보완하고 있어요. 테이블 같은 경우엔 따로 프리프로세싱으로 마크다운 포맷으로 변환해서 넘기는 게 도움이 됐습니다.

조용한엔지니어

26-04-07 09:31

저도 같은 고민 했거든요. recursive splitter 쓰다가 속도 때문에 결국 semantic chunking으로 갈아탔어요. 문장 단위로 끊은 뒤 임베딩 유사도로 병합하는 방식인데 청크 품질이 훨씬 낫더라고요. langchain의 semantic splitter 한번 시도해보세요. 초기 세팅만 잘하면 후속 처리 속도도 나쁘지 않습니다.

흐름타는개발자

26-04-11 17:30

저도 recursive splitter 써보니 품질은 훨씬 낫더라고요 ㅋㅋ

딥러닝장인

26-04-20 11:32

저도 비슷한 경험 했는데 결국 semantic chunking 써보니까 훨씬 낫더라고요. 속도도 생각보다 괜찮고 특히 테이블 같은 구조화된 데이터 처리가 훨씬 깔끔해요.

조용한엔지니어

26-05-05 14:41

청킹이 정말 중요하더라고요 ㅋㅋ

딥러너

26-05-13 20:36

저도 비슷한 고민 했는데 결국 semantic chunking으로 가봤어요. 속도는 좀 느리지만 retrieval 정확도가 확실히 달라지더라고요. 특히 복잡한 문서에서요.

딥러닝장인

26-05-17 05:37

저도 처음엔 고정 크기로 했는데 시멘틱 청킹으로 바꿨어요. 문장 끝이나 단락 기준으로 자르니까 의미 단위가 훨씬 낫더라고요. 속도는 recursive splitter보다 빠르고요. 테이블 같은 경우는 별도로 처리하는 게 맞는 것 같습니다.

오늘도살자

26-06-07 10:20

저도 같은 문제 겪었는데 정말 답답하더라고요 ㅠㅠ

흐름타는개발자

26-06-15 20:51

저도 비슷한 문제 겪었는데 결국 하이브리드 방식으로 가게 됐어요. 먼저 문서 구조를 파싱해서 섹션 단위로 분리한 다음에 그 안에서 recursive splitter를 쓰는 식으로요. 속도 문제는 배치 처리할 때만 느껴지더라고요.
테이블 같은 경우엔 아예 다른 청킹 로직을 따로 만드는 게 낫더라고요. 그냥 통째로 chunk로 유지해서 나중에 필터링하는 식으로요. 한번 시도해보세요.