요즘 클라우드 API 비용이 자꾸만 늘어나서 올리마(Ollama)로 로컬 환경에 라마2 돌려봤어요. 처음엔 그냥 장난 삼아서 해본 건데, 생각보다 품질이 꽤 괜찮더라고요. 특히 코드 리뷰나 문서 작성 수준의 작업들은 충분히 커버할 수 있겠다는 느낌입니다.
다만 토큰 생성 속도가 확실히 느립니다. GPU 없이 CPU로만 돌리니까 한 문장 나오는데 몇 초씩 걸려요. 회사 업무처럼 빠른 응답이 필요한 작업엔 쓰기 힘들 것 같아요. 개인 프로젝트나 밤시간에 돌려둘 작업들은 충분할 것 같긴 한데요.
혹시 로컬 LLM 안정적으로 운영하시는 분들 계시면 팁 좀 나눠주실 수 있을까요. 메모리 관리나 모델 최적화 관련해서요.
추천 0 비추천 0