최근에 오픈소스 AI 모델들이 정말 빠르게 발전하고 있더라고요. 2026년을 거치며 70B급 모델이 RTX 4090 한 장으로 양자화 구동 가능한 수준까지 발전했고, 한국어 성능도 상용 모델에 근접했습니다. 이게 정말 놀라운 부분인데 예전엔 고가의 GPU를 여러 장 써야만 했거든요.
구글은 최근 '젬마 4(Gemma 4)'를 공개했는데, 고급 추론과 에이전트 기반 워크플로우를 위해 특수 설계되었으며 파라미터당 전례 없는 수준의 지능을 제공하는 것이 특징입니다. 젬마 4는 아파치 2.0 라이선스로 제공되어, 상업적 활용을 포함한 폭넓은 사용이 가능합니다. 오픈소스인데 상업용도 쓸 수 있다는 게 의외네요.
딥시크도 화웨이 칩 기술에 맞춘 새로운 플래그십 모델 '딥시크-V4-프로'를 출시했습니다. 프로 버전은 1조6000억개의 매개변수로, 이제까지 등장한 오픈소스 모델 중 가장 크다고 합니다. 다만 가성비는 뛰어나지만, 오픈AI나 앤트로픽 등의 프론티어 모델에는 성능이 미치지 못하는 것으로 나타났습니다.
메타의 Llama 3.3 70B는 GPT-4o 클래스 성능을 4-bit 양자화 시 RTX 4090 1장으로 돌릴 수 있다는 점에서 사실상 표준이며, 코드, 한국어, 추론 어느 하나 빠지지 않고 Ollama·LM Studio 모두 1순