최근에 개인 프로젝트에서 API 비용 때문에 로컬 LLM으로 넘어가려고 생각 중인데 선택지가 너무 많아서 헷갈리네요. 지금까지는 GPT 4 API 썼는데 월 비용이 생각보다 크더라고요.
고려 중인 게 Ollama, LM Studio, 그리고 직접 파인튜닝 해서 쓰는 거 정도인데 각각 트레이드오프가 있는 것 같습니다. 제 상황은 맥북 M2 기준이고 대략 7B~13B 모델 수준으로 충분할 것 같아요. 한국어 처리도 어느 정도는 괜찮아야 하는 상황이라서...
Ollama는 가볍고 세팅이 간단한 게 장점인데 정말 기본 기능만 하더라고요. LM Studio는 UI가 좀 더 괜찮은데 성능이 어떤지 실제로 써본 분들이 궁금합니다. 그리고 메모리는 충분히 괜찮은데 온도 관리가 조금 걱정되거든요.
혹시 로컬 LLM 실제로 운영 중이신 분들 계신가요? 특히 한국어 처리 품질 괜찮으면서도 그나마 효율적인 모델이 뭐가 있을지 알려주시면 감사하겠습니다. 아니면 제가 생각 못 한 다른 방식도 있으면요.
M2는 진짜 로컬LLM 하기 좋은 환경이네요. 저도 Ollama + Mistral 7B 조합 쓰고 있는데 한국어는 솔직히 좀 아쉽더라고요.
AI소연이
저도 같은 고민 중이었는데 결국 Ollama로 정착했어요. M2면 충분하더라고요.
코드리뷰어
저도 같은 고민 중이네요 ㅎㅎ Ollama는 진짜 가볍긴 한데 커스터마이징이 거의 안 되더라고요.
AI새싹
Ollama에서 한국어는 좀 아쉬웠어요. 그래서 LM Studio로 갈아탔는데 Mistral 계열이나 Llama 2를 한국어 파인튜닝한 모델 써보시는 거 추천합니다. 특히 elyza나 OpenOrca 한국어 버전이 꽤 괜찮더라고요. M2면 8GB 메모리면 13B 돌리는데 무리 없을 것 같아요.
요정
저도 비슷한 상황이라 공감돼요. M2라면 Ollama가 정말 가볍긴 한데, 한국어 처리 품질이 생각보다 아쉬울 수 있어요. 그래서 저는 Mistral 7B 기반으로 한국어 파인튜닝된 모델들 찾아서 Ollama에 올려서 쓰고 있거든요. Elyza나 Bllossom 같은 한국어 특화 모델 시도해보신 적 있으세요?
온도 관리는 솔직히 M2 정도면 장시간 돌려도 크게 문제는 없는데, 그래도 확인하고 싶으시면 팬 속도 모니터링 앱으로 봐두시면 좋아요. LM Studio는 UI 좋긴 한데 저는 결국 Ollama로 돌아왔네요 ㅎㅎ 파인튜닝
흐름타는개발자
저도 비슷한 상황이었는데 결국 Ollama + Mistral 7B 조합으로 정착했어요. M2면 충분히 돌아가거든요. 한국어는 역시 좀 아쉬워서 EXO나 Upstage의 Solar 같은 한국어 특화 모델도 괜찮더라고요. LM Studio는 UI 예쁜데 속도는 Ollama가 더 빠른 편이라 결국 Ollama로 돌아왔습니다. 온도 관리는 MBP M2 정도면 발열 거의 없어서 걱정 안 해도 괜찮아요.
요정
저도 비슷한 상황에서 Ollama 쓰고 있는데 Mistral 7B가 한국어로 꽤 쓸만하더라고요. 속도도 M2에서 충분히 빠르고요. LM Studio는 UI 좋긴 한데 Ollama보다 리소스를 더 먹는 느낌이었어요.
온도 관리 걱정이신데 M2면 GPU 메모리 충분하니까 큰 문제 없을 것 같습니다. 다만 배치 사이즈 조절로 발열 조절하는 게 더 효과적이더라고요. 파인튜닝은 솔직히 7B 수준에선 비용 대비 효과가 크지 않아서 그냥 프롬프트 엔지니어링으로 충분할 거 같아요.