개인 프로젝트로 RAG 시스템을 만들고 있는데 임베딩 모델을 어떤 걸 쓸지 고민되네요. 지금까지는 OpenAI의 text-embedding-3-small을 썼는데 비용이 계속 나가다 보니까 오픈소스 모델로 바꿔야 할 것 같거든요.
한국어를 잘 다루는 임베딩 모델 중에 뭐가 가장 괜찮은지 궁금합니다. KoBERT, ko-sentence-transformers 이런 걸 봤는데 실제로 프로젝트에 적용해본 분 계신가요? 정확도하고 속도 면에서 어떤지 알고 싶어요.
그리고 오픈소스 모델을 쓸 때 주의할 점이 있으면 팁도 부탁드립니다.
추천 0