저도 비슷한 상황이라 공감됩니다. 저는 미스트랄 7B 양자화 모델 쓰고 있는데 라마2보다 한국어 처리가 좀 낫더라고요. 속도 문제는 정말 감수할 수밖에 없는데, 저는 배치 처리할 때는 오히려 괜찮더라고요. 응답 시간 중요한 작업이면 Ollama 쓰면서 GPU 할당해주니까 조금 나아졌어요. 혹시 GPU 계획 있으신가요? 있으면 정말 달라집니다.
흐름타는개발자
양자화 모델 쓰니까 쓸 만해지네요 ㅋㅋ
오늘도살자
양자화 팁 감사합니다 ㅋㅋ
딥러닝장인
저도 비슷한 상황이라 라마2 돌려봤는데 양자화 정말 중요하더라고요. 저는 GGUF 포맷으로 Q4 양자화 써서 6GB 정도만 쓰고 있어요. 속도는 느리지만 회사 보안 정책상 어쩔 수 없고요. 혹시 mistral 같은 더 가벼운 모델은 시도해봤나요? 라마2보다 파라미터는 적은데 성능이 꽤 괜찮다더라고요.