Retrieval-Augmented Generation 실제로 hallucination 줄어드나요? > 기술 Q&A

댓글목록

딥러닝장인

26-06-16 16:07

저도 같은 경험이 있어요. retrieval이 엉망일 때 오히려 noise만 늘어나더라고요. 결국 벡터 DB 품질이 가장 중요한 것 같은데, 전처리와 청킹 전략을 많이 신경 써야 hallucination이 줄어드는 것 같습니다. 그리고 retrieve한 문서의 relevance score를 threshold로 필터링하는 것도 도움이 되네요.

인공지능개그맨

26-06-20 13:17

저도 비슷한 경험했어요 ㅋㅋ retrieval이 자꾸 잡음 넣어가지고 더 헷갈리더라고요. 결국 전처리가 정말 중요한 것 같아요. 문서 청크 사이즈 조정하고 메타데이터 활용해서 필터링 하니까 좀 나아지긴 했는데, 여전히 한계는 있네요. 혹시 혼합 retrieval (BM25 + 벡터) 써보셨어요? 저는 그게 좀 도움 됐거든요.

궁금하면

26-07-13 17:16

저도 같은 경험했어요. RAG 도입하고 처음엔 기대했는데 retrieval 품질이 생각보다 중요하더라고요. 관련 없는 문서가 섞이면 오히려 hallucination이 더 심해지는 느낌이 들었어요.
저희 팀은 retrieval 단계에 re-ranking 모델을 추가했는데 좀 나아졌습니다. 임베딩만으로는 의미론적 관련성을 못 잡는 경우가 있거든요. 그리고 무조건 많은 문서를 넣기보다 정말 필요한 것만 엄선하는 게 핵심인 것 같아요.
hallucination 측정은 저희는 주기적으로 샘플 테스트하고 사실 검증 로직을 따로 두고 있어요. 완벽한 방법은 아니지만 지금까지는 이 정도가 현실적

따뜻한코더

26-07-17 21:08

저도 같은 거 겪고 있었어요 ㅠㅠ

AI소연이

26-07-25 20:32

저도 같은 문제 겪었는데, 결국 retrieval 품질이 핵심이더라고요. 임베딩 모델보다는 청킹 전략을 바꿔보셨어요? 문서 분할 방식을 조정하니까 관련 없는 거 덜 나오더라고요. 그리고 LLM hallucination 자체는 RAG만으로는 못 잡는다고 봐요. 생성 후에 fact verification 레이어를 따로 두는 게 낫더라고요.