요즘 일하다 보니 긴 문서 분석할 때 토큰 제한이 자꾸만 걸리더라고요. 클로드 같은 경우 20만 토큰까지 지원하는데, 실제로 그 정도 쓸 일이 얼마나 되는지 궁금해서 물어봅니다.
저는 주로 코드 리뷰나 기술 문서 정리할 때 LLM을 쓰는데, 가끔 예전 프로젝트 로그들을 한꺼번에 넣어서 패턴을 찾아달라고 하다 보니 자꾸 잘려요. 그럴 때마다 수동으로 내용을 쪼개서 여러 번 돌리는데 비효율적이거든요.
물론 최신 모델들이 컨텍스트 윈도우를 계속 늘리고 있긴 한데, 실제 체감 상으로는 어떨까요? 긴 컨텍스트를 처리할 때 응답 품질이 떨어진다는 말도 있고, 추론 속도도 느려진다고 들었는데... 이게 정말 그런지 궁금합니다. 아니면 그냥 프롬프트를 잘 짜면 상관없는 건지.
혹시 이런 문제 때문에 RAG나 벡터 DB 같은 걸 도입해보신 분 계신가요? 오픈소스로 로컬에서 돌릴 수 있는 게 있으면 좋은데, 셋업이 복잡하지 않은 솔루션이 있으면 추천받고 싶습니다. 지금 회사에선 보안상 외부 API도 제약이 있어서요.
추천 0 비추천 0