저도 Ollama로 Mistral 돌리고 있는데 양자화 정말 중요하더라고요. Q4_K_M으로 깔면 성능 손실 거의 없으면서 메모리는 확 줄어들어서 좋아요. 코드 리뷰나 문서화 작업할 때 오프라인이라 마음 놓고 쓸 수 있다는 게 최대 장점인 것 같습니다.
AI소연이
저도 Ollama 써봤는데 정말 그래요. 양자화 모델 깔면 확실히 달라지더라고요. 회사 보안 때문에 로컬이 필수라 저도 요즘 Llama2 위주로 쓰고 있어요. 다만 응답 속도가 조금 아쉬울 때도 있긴 하네요.
AI새싹
저도 최근에 Mistral 7B로 비슷한 거 해봤는데 정말 쓸만하더라고요. 특히 보안이 중요한 부분에서는 진짜 강점이 맞아요. 다만 저도 처음엔 메모리 문제로 좀 헤맸었거든요.
양자화 모델 추천 감사합니다. GGUF 포맷 깔려고 했는데 어떤 거 쓰세요? 그리고 응답 속도는 어느 정도 나오나요? 제 경우 CPU로 돌리다 보니 답답했는데 양자화로 개선되는지 궁금하네요.