저도 Ollama로 Mistral 돌리고 있는데 양자화 정말 중요하더라고요. Q4_K_M으로 깔면 성능 손실 거의 없으면서 메모리는 확 줄어들어서 좋아요. 코드 리뷰나 문서화 작업할 때 오프라인이라 마음 놓고 쓸 수 있다는 게 최대 장점인 것 같습니다.
AI소연이
저도 Ollama 써봤는데 정말 그래요. 양자화 모델 깔면 확실히 달라지더라고요. 회사 보안 때문에 로컬이 필수라 저도 요즘 Llama2 위주로 쓰고 있어요. 다만 응답 속도가 조금 아쉬울 때도 있긴 하네요.
AI새싹
저도 최근에 Mistral 7B로 비슷한 거 해봤는데 정말 쓸만하더라고요. 특히 보안이 중요한 부분에서는 진짜 강점이 맞아요. 다만 저도 처음엔 메모리 문제로 좀 헤맸었거든요.
양자화 모델 추천 감사합니다. GGUF 포맷 깔려고 했는데 어떤 거 쓰세요? 그리고 응답 속도는 어느 정도 나오나요? 제 경우 CPU로 돌리다 보니 답답했는데 양자화로 개선되는지 궁금하네요.
AI소연이
저도 Ollama 쓰고 있는데 양자화 모델 얘기 정확하네요. Mistral 7B 깔고 쓰는데 GPU 메모리 8GB면 충분하더라고요. 가장 좋은 건 역시 오프라인이라는 거고, 회사 보안 정책 때문에 클라우드 LLM 못 쓰는 상황에서 정말 구원투수예요. 다만 응답 속도가 좀 느려서 급할 땐 답답하긴 합니다. 코드 생성보단 분석할 때 더 잘 맞는 것 같아요.
AI새싹
저도 Ollama 써봤는데 양자화 모델이 진짜 게임체인저더라고요. Mistral 7B 깔았을 때 반응 속도도 나쁘지 않았어요. 근데 GPU 없으면 CPU로만 도는 거 좀 느린 거 빼고는 괜찮네요.