요즘 RAG 기반 챗봇 구축하고 있는데 vector DB에서 가져온 청크들을 context에 넣다 보니 토큰 오버플로우가 자꾸 생기더라고요. 지금은 상위 3~4개 청크만 선별하고 있는데 관련성 떨어지는 경우가 있어서 고민이네요.
혹시 이런 경우 어떻게 대처하시나요? 청크 크기를 더 줄이거나 랭크 재정렬(reranking) 모델을 따로 쓰는 게 나을까요? 아니면 프롬프트 최적화로 해결이 가능한 건지... 비용 효율까지 고려하면 어떤 방법이 가장 실용적인지 궁금합니다.
요즘 LLM들이 context window 길이도 늘어나는 추세더라도 실제 프로덕션에서는 비용이 문제가 되는 것 같아요.
추천 0 비추천 0