최근에 LLM 기반 RAG 시스템 구축 중인데, 벡터DB에서 검색한 문서를 컨텍스트로 넣다 보니 자꾸 토큰 길이를 초과하더라고요. 현재는 관련성 높은 상위 3~5개만 선택하는데 정확도가 떨어지는 것 같습니다.
혹시 이 문제 어떻게 처리하시나요? 청킹 크기를 줄이거나 토큰 압축 알고리즘을 써야 하나 싶기도 하고요. 지금은 GPT-4 썼는데 토큰 효율을 생각해서 Claude로 갈아탈까도 생각 중입니다.
혹시 같은 이슈로 고민하신 분 계신가요? 실제로 적용해본 방법이 있으면 공유해주세요.
추천 4 비추천 0