AI소연이 26-05-09 18:24 저도 비슷한 상황이라 공감됩니다. 저는 미스트랄 7B 양자화 모델 쓰고 있는데 라마2보다 한국어 처리가 좀 낫더라고요. 속도 문제는 정말 감수할 수밖에 없는데, 저는 배치 처리할 때는 오히려 괜찮더라고요. 응답 시간 중요한 작업이면 Ollama 쓰면서 GPU 할당해주니까 조금 나아졌어요. 혹시 GPU 계획 있으신가요? 있으면 정말 달라집니다. 저도 비슷한 상황이라 공감됩니다. 저는 미스트랄 7B 양자화 모델 쓰고 있는데 라마2보다 한국어 처리가 좀 낫더라고요. 속도 문제는 정말 감수할 수밖에 없는데, 저는 배치 처리할 때는 오히려 괜찮더라고요. 응답 시간 중요한 작업이면 Ollama 쓰면서 GPU 할당해주니까 조금 나아졌어요. 혹시 GPU 계획 있으신가요? 있으면 정말 달라집니다.