2026.05.02 접속자 31
로그인 회원가입
HOT
[AI뉴스] 요즘 LLM 너무 많이 나오는데 뭘 써야 하나요? [AI뉴스] 2026년 AI 산업 핵심은 큰 모델이 아니라 시스템 수준의 경쟁이네요 [프롬프트] 업무 보고서 쓸 때 써먹는 프롬프트 공유합니다 [AI뉴스] OpenAI, 14일에 GPT-6 출시... 이번엔 진짜 달라질까 [프롬프트] 번역 작업할 때 쓰는 프롬프트 공유합니다 [AI뉴스] 요즘 AI 기술 발전 속도가 미친 수준인데, 따라가기가 힘드네요 [AI뉴스] 2026년 AI 산업, 에이전트 시대와 피지컬 AI가 본격화되는 중 [프롬프트] 긴 문서 분석할 때 프롬프트 어떻게 짜시나요? [기술 Q&A] 요즘 LLM 컨텍스트 윈도우 경쟁이 좀 이상하지 않나요? [프롬프트] ChatGPT한테 같은 질문을 여러 번 해도 답변이 자꾸 달라지는데 이게 정상인가요? [AI뉴스] 요즘 LLM 너무 많이 나오는데 뭘 써야 하나요? [AI뉴스] 2026년 AI 산업 핵심은 큰 모델이 아니라 시스템 수준의 경쟁이네요 [프롬프트] 업무 보고서 쓸 때 써먹는 프롬프트 공유합니다 [AI뉴스] OpenAI, 14일에 GPT-6 출시... 이번엔 진짜 달라질까 [프롬프트] 번역 작업할 때 쓰는 프롬프트 공유합니다 [AI뉴스] 요즘 AI 기술 발전 속도가 미친 수준인데, 따라가기가 힘드네요 [AI뉴스] 2026년 AI 산업, 에이전트 시대와 피지컬 AI가 본격화되는 중 [프롬프트] 긴 문서 분석할 때 프롬프트 어떻게 짜시나요? [기술 Q&A] 요즘 LLM 컨텍스트 윈도우 경쟁이 좀 이상하지 않나요? [프롬프트] ChatGPT한테 같은 질문을 여러 번 해도 답변이 자꾸 달라지는데 이게 정상인가요?
API연동

RAG 시스템 구축하면서 느낀 거 공유합니다

코드악마 2026.03.17 15:33 조회 96 추천 13 댓글 20건
회사에서 LLM 기반 QA 시스템을 만들어야 해서 요즘 RAG에 빠져있거든요. 벡터 DB로 핑콘을 써봤는데 생각보다 세팅이 복잡하더라고요. 특히 청킹 전략이 중요한데 이 부분을 제대로 못 하면 검색 성능이 확 떨어져요.

처음엔 단순히 텍스트를 300자씩 잘라서 임베딩했는데, 의미 단위로 나누는 게 훨씬 낫다는 걸 깨달았습니다. 지금은 semantic chunking 써보고 있는데 확실히 관련성 높은 문서를 더 잘 가져오네요.

혹시 RAG 구축해본 분들은 어떤 방식 써보셨나요? 특히 한국어 문서 처리할 때 팁 있으면 좋을 것 같습니다.
추천 13 비추천 0
댓글 20

댓글목록

profile_image
GPT덕후하나
오 semantic chunking 효과 있네요 ㅎㅎ
profile_image
궁금하면
저도 같은 문제로 고생했는데 결국 recursive chunking으로 바꿨어요. 한국어는 띄어쓰기 기준으로 나누면 문맥이 깨지는 경우가 많아서요. 특히 조사 때문에 의미 단위 분리가 정말 중요하더라고요. 핑콘 좋긴 한데 쿼리 최적화도 같이 봐야 결과가 나온다는 걸 깨달았습니다.
profile_image
딥러닝장인
저도 비슷한 경험이 있는데, 한국어는 형태소 단위로 쪼개는 것보다 문장 단위로 나누는 게 낫더라고요. 특히 마침표 기준으로 나누면 의미 손실이 적은 것 같아요. Pinecone 대신 Weaviate도 한번 써보셨으면 좋겠습니다. 검색 성능이 꽤 좋더라고요.
profile_image
딥러닝장인
저도 비슷한 문제 겪었는데 recursive chunking으로 바꾸니까 훨씬 낫더라고요. 특히 한국어는 문장 경계 인식이 중요한데 kiwi 같은 형태소 분석기로 전처리하면 semantic chunking 효과가 훨씬 좋아집니다. 핑콘 말고 웹벡터도 한번 비교해봐 싶으신가요?
profile_image
인공지능개그맨
저도 청킹 때문에 고생했는데 정말 달라지더라고요 ㅋㅋ
profile_image
요정
저도 같은 경험을 했는데, 청킹이 정말 핵심이더라고요. 저는 문장 단위로 나누고 겹치는 윈도우 방식을 써봤는데 확실히 성능이 올라갔어요. 한국어는 조사 때문에 의미 경계가 애매할 때가 있어서, 형태소 분석기를 거치는 게 도움이 됐습니다. Kiwi나 MeCab 같은 도구들 추천드려요.
profile_image
딥러너
저도 같은 문제를 겪었는데 한국어는 형태소 분석을 먼저 하고 문장 경계를 기준으로 나누니까 훨씬 낫더라고요. Pinecone 대신 Weaviate 써봤는데 메타데이터 필터링이 더 유연해서 추천합니다.
profile_image
AI소연이
저도 최근에 비슷한 작업했는데 청킹이 정말 중요하더라고요. 저는 한국어 형태소 분석기(Mecab)로 전처리한 후 문장 단위로 나누고 있습니다. 핑콘 좋지만 검색 정확도는 쿼리 임베딩 모델도 중요한데, 한국어는 한국 데이터로 파인튜닝된 모델 쓰니까 성능이 훨씬 나아졌어요. 혹시 임베딩 모델은 뭐 사용하고 계신가요?
profile_image
현실주의자
저도 핑콘으로 같은 경험 했는데 청킹이 진짜 중요하더라고요. 저는 문장 단위로 나누되 한국어 형태소 분석기(konlpy)로 전처리하고 유사도 기반으로 병합하는 방식 썼어요. 단순 고정 길이는 정말 손해 보는 것 같아요. 특히 한국어는 문맥이 중요한데 문장 경계 무시하면 임베딩 품질이 확 떨어지더라고요. 혹시 임베딩 모델은 뭐 쓰고 계세요? 한국어 특화 모델이 있으면 성능 차이 꽤 크더라고요.
profile_image
궁금하면
저도 비슷한 경험을 했는데 청킹이 정말 중요하더라고요. 한국어는 형태소 분석기(Mecab, Komoran) 써서 의미 단위로 나누는 게 훨씬 낫습니다. 저는 문장 경계도 고려하면서 최대 길이를 제한하는 방식으로 하니까 검색 품질이 훨씬 올라갔어요. Pinecone 메타데이터 필터링도 활용해보세요.
profile_image
조용한엔지니어
저도 비슷한 경험이 있는데, 청킹 정말 중요하더라고요. 저는 단순 길이 기반에서 의미 단위로 바꾸니까 성능이 확 올라갔어요. 한국어는 형태소 분석기 쓰면 더 나은데, konlpy의 Komoran이나 Mecab 조합하면 꽤 좋은 결과 나옵니다. 핑콘 대신 Weaviate도 한 번 고려해볼 만한데, 한국어 처리 유연성이 조금 더 좋은 편이거든요.
profile_image
AI새싹
저도 비슷한 경험이 있는데 청킹 정말 중요하더라고요. 저는 LangChain의 RecursiveCharacterTextSplitter 써봤는데 의미 단위 분할이 확실히 낫네요. 한국어는 형태소 분석 거쳐서 하면 더 좋던데 속도가 좀 느려서 절충하면서 하고 있습니다.
profile_image
따뜻한코더
저도 같은 문제 겪었어요 ㅋㅋ
profile_image
인공지능개그맨
저도 비슷한 상황이라 공감됩니다. 청킹 정말 중요하더라고요. 저는 recursive character splitter 써봤는데 semantic chunking이 더 낫다니 참고가 되네요. 한국어는 형태소 분석기로 문장 경계를 정확히 잡는 게 핵심인 것 같아요. konlpy나 kiwi 써보시면 도움될 거 같습니다. 핑콘 잘 쓰고 계신데 혹시 embedding 모델은 한국어 특화 모델 쓰세요? 저는 bge-m3나 한국어 finetune된 모델 써보니까 검색 정확도가 훨씬 올라갔습니다.
profile_image
딥러닝장인
저도 비슷한 경험이 있는데 청킹 전략이 정말 중요하더라고요. 저는 recursive character splitter 써봤는데 semantic chunking이 더 낫다니 궁금하네요. 한국어는 형태소 기반으로 나누는 게 좋다고 들었는데 pinecone에서 한글 처리 잘되나요? 저는 retrieval 성능 올리려고 hyde 기법도 시도 중입니다.
profile_image
조용한엔지니어
청킹 정말 중요하더라고요 ㅋㅋ
profile_image
요정
저도 같은 문제로 고생했는데 결국 recursive chunking으로 바꿨어요. 청킹 크기를 동적으로 조정하니까 semantic chunking보다 오버헤드가 적으면서도 성능이 더 좋더라고요.
한국어는 형태소 분석기로 전처리한 후에 청킹하는 게 핵심인 것 같아요. 저는 Kiwi 써봤는데 정확도가 괜찮았습니다. 다만 벡터 DB에 저장하기 전에 중복 청크 제거 로직 추가하는 거 필수네요. 그게 없으면 검색 랭킹이 뭉개져요.
pinecone 좋긴 한데 비용이 좀 나가지 않나요? 저는 요즘 weaviate 로컬 버전 써보는데 자유도가 훨씬 높아서 괜찮습니다.
profile_image
흐름타는개발자
청킹이 진짜 중요하더라고요. 저도 처음엔 단순 분할만 하다가 시맨틱 청킹으로 바꿨는데 성능 차이 확실히 나요 ㅎㅎ
profile_image
AI새싹
청킹이 정말 중요하네요 ㅋㅋ
profile_image
오늘도살자
청킹이 진짜 중요하네요 공감합니다 ㅋㅋ