회사 보안 때문에 클라우드 기반 AI 서비스를 못 쓰게 돼서 한 달 전부터 로컬 LLM 가지고 놀고 있는데, 생각보다 선택지가 많더라고요. 처음엔 라마2 돌려봤는데 정확도가 좀 아쉬웠어요. 그래서 지금은 미스트랄이랑 솔라 모델을 번갈아 쓰고 있습니다.
특히 솔라가 그럭저럭 괜찮더라고요. 한국어 처리도 꽤 자연스럽고, 토큰 출력 속도도 내 RTX 3090에서는 충분히 쓸만한 수준이거든요. 근데 매번 프롬프트를 튜닝해야 하는 게 좀 번거롭습니다. 클라우드 기반 API 쓸 땐 생각 안 하던 문제네요.
가장 큰 문제는 메모리인데, 8비트 퀀타이제이션을 써도 한두 개의 탭에서 컨텍스트 윈도우가 자꾸 터진다는 게 거슬려요. 큰 파일 코드 분석을 할 땐 여전히 답답합니다. 그래서 최근에 이글 7B 시리즈도 시도해봤는데 이건 더 못하더라고요 ㅎㅎ
혹시 프로덕션 환경에서 로컬 LLM 운영하시는 분 계신가요? 어떤 모델 쓰세요? 그리고 컨텍스트 윈도우 문제는 어떻게 해결하셨나 궁금합니다. 혹은 애초에 로컬로는 포기하고 온프레미스 서버 구축하신 분도 있나요?
추천 0 비추천 0