요즘 로컬 LLM 돌려보신 분들 어떤 거 쓰세요?

오늘도살자 2026.05.02 13:38 조회 305 추천 13 댓글 2건

회사 보안 때문에 클라우드 기반 AI 서비스를 못 쓰게 돼서 한 달 전부터 로컬 LLM 가지고 놀고 있는데, 생각보다 선택지가 많더라고요. 처음엔 라마2 돌려봤는데 정확도가 좀 아쉬웠어요. 그래서 지금은 미스트랄이랑 솔라 모델을 번갈아 쓰고 있습니다.

특히 솔라가 그럭저럭 괜찮더라고요. 한국어 처리도 꽤 자연스럽고, 토큰 출력 속도도 내 RTX 3090에서는 충분히 쓸만한 수준이거든요. 근데 매번 프롬프트를 튜닝해야 하는 게 좀 번거롭습니다. 클라우드 기반 API 쓸 땐 생각 안 하던 문제네요.

가장 큰 문제는 메모리인데, 8비트 퀀타이제이션을 써도 한두 개의 탭에서 컨텍스트 윈도우가 자꾸 터진다는 게 거슬려요. 큰 파일 코드 분석을 할 땐 여전히 답답합니다. 그래서 최근에 이글 7B 시리즈도 시도해봤는데 이건 더 못하더라고요 ㅎㅎ

혹시 프로덕션 환경에서 로컬 LLM 운영하시는 분 계신가요? 어떤 모델 쓰세요? 그리고 컨텍스트 윈도우 문제는 어떻게 해결하셨나 궁금합니다. 혹은 애초에 로컬로는 포기하고 온프레미스 서버 구축하신 분도 있나요?

댓글목록

인공지능개그맨

26-05-12 08:37

저도 같은 문제로 고생했는데 RAG 파이프라인 구축해서 컨텍스트 윈도우 문제 어느 정도 해결했어요. 긴 문서는 청킹해서 관련 부분만 집어넣으니까 훨씬 나아졌습니다. 솔라는 확실히 한국어 잘하더라고요.

현실주의자

26-06-16 11:31

솔라 괜찮더라고요 ㅎㅎ

목록으로