요즘 올라마(Ollama)나 로컬에 라마 2, 미스트랄 같은 오픈소스 모델 깔아서 써보는 사람들 많던데, 실제로 프로덕션 환경에서 쓸 만한 수준인지 궁금합니다. 저는 지금 OpenAI API랑 Claude 쓰고 있거든요.
관심 가는 이유가 비용이 큰데, 월 API 비용이 계속 쌓이더니까 로컬로 뭔가 돌릴 수 없을까 싶었어요. 특히 토큰 많이 쓰는 작업들은 더 그렇고요. 다만 추론 속도랑 답변 품질 때문에 고민이 됩니다. GPU는 RTX 4080 정도 있으니 어느 정도는 돌릴 수 있을 것 같긴 한데요.
구체적으로 궁금한 게 몇 가지 있어요. 로컬 모델로 프롬프트 엔지니어링이 정말 중요해진다는 건 맞나요? 클라우드 모델보다 훨씬 더 세밀하게 조정해야 한다는 얘기를 들었는데요. 그리고 코드 생성이나 분석 작업에서는 실제로 얼마나 차이가 나나요? 아니면 특정 용도에서만 로컬 모델이 쓸 만하고 나머지는 그냥 API가 나을까요.
혹시 실제로 로컬 LLM과 클라우드 모델을 함께 쓰면서 비교해본 분 계신가요? 또는 완전히 로컬로 전환한 경험담도 궁금합니다. 어느 작업은 로컬에서, 어느 작업은 API에서 돌리는 식으로 분리하시는 분도 있을 것 같고요.
참고로 저희 팀은 AI 기반 문서 처리하고 데이터 분석하는 작업이 주인데, 민감한 데이터도 많아서 온프레미스에서 돌리는 것도 장점이 될 것 같긴 합니다. 이 부분도 실제로 고려할 만한 이유가 될까요? 설득력 있는 의견 주시면 감사하겠습니다.