회사 프로젝트에서 데이터 민감성 때문에 클라우드 기반 API 못 쓰고 있어서 올라마랑 미스트럴 로컬로 돌려봤거든요. 응답 속도는 확실히 빠르고 좋은데 정확도 부분에서 좀 아쉽더라고요. 특히 복잡한 논리 처리나 코드 생성할 땐 가끔 이상한 결과가 나와요.
GPU 메모리도 생각보다 많이 먹어서 실제 서비스 배포할 때 스케일링이 문제가 될 것 같은데, 다들 이런 문제 어떻게 해결하시나요? 양자화 거쳐서 쓰시는 건지 아니면 처음부터 더 가벼운 모델 선택하시는 건지 궁금합니다.
추천 10 비추천 0