오픈소스와 독점 AI 모델 간의 성능 격차가 2025년 주요 벤치마크에서 17.5%포인트에서 단 0.3%로 축소되었습니다. 진짜 경이로운 발전이 아닌가 싶어요. 작년만 해도 오픈소스 모델은 장난감 수준이라고 생각했는데 말이죠.
DeepSeek V3.2, Qwen3-235B, Llama 4 Scout는 이제 GPT-5.2 및 Claude Opus 4.5와 비용의 일부로 경쟁하며, 완전한 셀프 호스팅 기능을 갖추고 있습니다. 특히 비용 부분에서 엄청난 차이가 나는데, API 비용이 없다는 게 기업 입장에서는 정말 매력적일 수밖에 없죠.
최근에 Llama 4도 나왔는데, Meta는 2026년 4월에 Scout와 Maverick 변형을 포함한 Llama 4를 출시했으며, Llama 4 Scout는 이제 Ollama 라이브러리에서 안정적으로 사용 가능합니다. Scout의 핵심 특징은 소비자 하드웨어 적합성이 아니라 1,000만 토큰 컨텍스트 창과 멀티모달 입력입니다.
다만 실무에서 쓸만한 수준으로 배포하려면 아직 신경 써야 할 부분들이 있더라고요. 대규모 언어모델을 실제 서비스로 활용하려면 vLLM으로 실행하는 방식이 효과적이며, vLLM은 허깅페이스 같은 저장소에서 다양한 오픈소스 모델을 불러온 뒤, 데이터 흐름을 조율해 지속적으로 안정적인 실행을 가능하게 합니다.