2026.06.16 접속자 47
로그인 회원가입
HOT
[기술 Q&A] LLM 토큰 길이 제한 때문에 답답한데 실무에선 어떻게 처리하세요? [AI뉴스] 요즘 오픈소스 LLM 수준이 진짜 미쳤네... 상용 모델과의 격차가 좁혀졌다고 봐야 나요? [AI뉴스] 앤트로픽 클로드 페이블 5 출시됐네요... 인간 전문가 수준이라고? [AI뉴스] 요즘 AI가 달라졌대요... 뭐가 계속 바뀌는 거죠? [프롬프트] 클로드한테 요구사항 정확하게 전달하는 프롬프트 팁 있나요? [프롬프트] 시장 분석할 때 쓰는 프롬프트 공유합니다 [기술 Q&A] LLM 파인튜닝할 때 토큰 수 줄이는 방법 뭐 하세요? [기술 Q&A] LLM 파인튜닝 할 때 LoRA 말고 다른 방법 써보신 분? [AI뉴스] 국내 AI 기본법 시행됐는데 이게 실제로 뭐가 달라지는 건가요? [기술 Q&A] 최근에 RAG 구현해보신 분들 어떤 벡터DB 쓰세요? [기술 Q&A] LLM 토큰 길이 제한 때문에 답답한데 실무에선 어떻게 처리하세요? [AI뉴스] 요즘 오픈소스 LLM 수준이 진짜 미쳤네... 상용 모델과의 격차가 좁혀졌다고 봐야 나요? [AI뉴스] 앤트로픽 클로드 페이블 5 출시됐네요... 인간 전문가 수준이라고? [AI뉴스] 요즘 AI가 달라졌대요... 뭐가 계속 바뀌는 거죠? [프롬프트] 클로드한테 요구사항 정확하게 전달하는 프롬프트 팁 있나요? [프롬프트] 시장 분석할 때 쓰는 프롬프트 공유합니다 [기술 Q&A] LLM 파인튜닝할 때 토큰 수 줄이는 방법 뭐 하세요? [기술 Q&A] LLM 파인튜닝 할 때 LoRA 말고 다른 방법 써보신 분? [AI뉴스] 국내 AI 기본법 시행됐는데 이게 실제로 뭐가 달라지는 건가요? [기술 Q&A] 최근에 RAG 구현해보신 분들 어떤 벡터DB 쓰세요?
오류해결

최근에 RAG 구현할 때 청킹 전략 뭐 쓰세요?

AI새싹 2026.03.31 13:33 조회 154 추천 13 댓글 9건
개인 프로젝트에서 RAG 시스템 만들고 있는데 문서 청킹 방식 때문에 고민이 생겼어요. 처음엔 그냥 고정 크기(512 토큰)로 잘라냈는데 의미 단위가 깨지는 경우가 많더라고요. 특히 테이블이나 리스트 형식 데이터는 거의 망가져요.

요즘엔 recursive character splitter 써보고 있는데 확실히 나아지는 느낌은 있어요. 다만 처리 속도가 조금 느려지는 게 단점이네요. 혹시 프로덕션에서는 어떤 방식 써보신 분 계신가요? 벡터 임베딩 품질 개선도 중요하지만 청킹 자체가 정말 중요하다는 걸 느껴요.
추천 13 비추천 0
댓글 9

댓글목록

profile_image
딥러닝장인
저도 비슷한 경험했는데 recursive splitter가 정답인 것 같아요. 속도가 느린 건 맞지만 결국 청킹 품질이 임베딩 전체 퀄리티를 좌우하니까요. 프로덕션에선 청크 overlap을 30~50% 정도 줘서 의미 경계 손실을 보완하고 있어요. 테이블 같은 경우엔 따로 프리프로세싱으로 마크다운 포맷으로 변환해서 넘기는 게 도움이 됐습니다.
profile_image
조용한엔지니어
저도 같은 고민 했거든요. recursive splitter 쓰다가 속도 때문에 결국 semantic chunking으로 갈아탔어요. 문장 단위로 끊은 뒤 임베딩 유사도로 병합하는 방식인데 청크 품질이 훨씬 낫더라고요. langchain의 semantic splitter 한번 시도해보세요. 초기 세팅만 잘하면 후속 처리 속도도 나쁘지 않습니다.
profile_image
흐름타는개발자
저도 recursive splitter 써보니 품질은 훨씬 낫더라고요 ㅋㅋ
profile_image
딥러닝장인
저도 비슷한 경험 했는데 결국 semantic chunking 써보니까 훨씬 낫더라고요. 속도도 생각보다 괜찮고 특히 테이블 같은 구조화된 데이터 처리가 훨씬 깔끔해요.
profile_image
조용한엔지니어
청킹이 정말 중요하더라고요 ㅋㅋ
profile_image
딥러너
저도 비슷한 고민 했는데 결국 semantic chunking으로 가봤어요. 속도는 좀 느리지만 retrieval 정확도가 확실히 달라지더라고요. 특히 복잡한 문서에서요.
profile_image
딥러닝장인
저도 처음엔 고정 크기로 했는데 시멘틱 청킹으로 바꿨어요. 문장 끝이나 단락 기준으로 자르니까 의미 단위가 훨씬 낫더라고요. 속도는 recursive splitter보다 빠르고요. 테이블 같은 경우는 별도로 처리하는 게 맞는 것 같습니다.
profile_image
오늘도살자
저도 같은 문제 겪었는데 정말 답답하더라고요 ㅠㅠ
profile_image
흐름타는개발자
저도 비슷한 문제 겪었는데 결국 하이브리드 방식으로 가게 됐어요. 먼저 문서 구조를 파싱해서 섹션 단위로 분리한 다음에 그 안에서 recursive splitter를 쓰는 식으로요. 속도 문제는 배치 처리할 때만 느껴지더라고요.
테이블 같은 경우엔 아예 다른 청킹 로직을 따로 만드는 게 낫더라고요. 그냥 통째로 chunk로 유지해서 나중에 필터링하는 식으로요. 한번 시도해보세요.