최근에 개인 프로젝트에서 API 비용 때문에 로컬 LLM으로 넘어가려고 생각 중인데 선택지가 너무 많아서 헷갈리네요. 지금까지는 GPT 4 API 썼는데 월 비용이 생각보다 크더라고요.
고려 중인 게 Ollama, LM Studio, 그리고 직접 파인튜닝 해서 쓰는 거 정도인데 각각 트레이드오프가 있는 것 같습니다. 제 상황은 맥북 M2 기준이고 대략 7B~13B 모델 수준으로 충분할 것 같아요. 한국어 처리도 어느 정도는 괜찮아야 하는 상황이라서...
Ollama는 가볍고 세팅이 간단한 게 장점인데 정말 기본 기능만 하더라고요. LM Studio는 UI가 좀 더 괜찮은데 성능이 어떤지 실제로 써본 분들이 궁금합니다. 그리고 메모리는 충분히 괜찮은데 온도 관리가 조금 걱정되거든요.
혹시 로컬 LLM 실제로 운영 중이신 분들 계신가요? 특히 한국어 처리 품질 괜찮으면서도 그나마 효율적인 모델이 뭐가 있을지 알려주시면 감사하겠습니다. 아니면 제가 생각 못 한 다른 방식도 있으면요.