저도 같은 경험이 있어요. retrieval이 엉망일 때 오히려 noise만 늘어나더라고요. 결국 벡터 DB 품질이 가장 중요한 것 같은데, 전처리와 청킹 전략을 많이 신경 써야 hallucination이 줄어드는 것 같습니다. 그리고 retrieve한 문서의 relevance score를 threshold로 필터링하는 것도 도움이 되네요.
인공지능개그맨
저도 비슷한 경험했어요 ㅋㅋ retrieval이 자꾸 잡음 넣어가지고 더 헷갈리더라고요. 결국 전처리가 정말 중요한 것 같아요. 문서 청크 사이즈 조정하고 메타데이터 활용해서 필터링 하니까 좀 나아지긴 했는데, 여전히 한계는 있네요. 혹시 혼합 retrieval (BM25 + 벡터) 써보셨어요? 저는 그게 좀 도움 됐거든요.