저도 비슷한 상황이었는데 결국 하이브리드로 가게 됐어요. 민감한 데이터는 로컬에서 처리하되, 품질이 중요한 부분은 API 비용을 감수하는 식으로요. 한국어 처리는 정말 문제더라고요. Llama2도 그렇고 Mistral도 한영혼용 문장에서 약해요. 혹시 한국 특화 모델 시도해보셨나요? Upstage의 SOLAR 같은 모델들이 한국어에 더 최적화되어 있어서 성능 차이가 좀 나는 편입니다. 양자화는 저도 같은 고민이었는데, 결국 4bit 양자화 정도면 손실이 크지 않더라고요. RAG와 프롬프트 엔지니어링으로 부족한 부분을 보완하는 게 현실적인 것 같아요