5월 허깅페이스에 올라온 오픈소스 비디오 생성 모델 'Sulphur 2'가 한 달 만에 53만 건 이상 다운로드된 거 봤어요? 정말 미친 것 같은데, 로컬 환경에서 실행 가능한 영상 생성 모델로 텍스트나 이미지 기반으로 10초 분량 영상을 직접 생성할 수 있다니 신기하네요. 회사나 개인 PC에서 클라우드 비용 걱정 없이 쓸 수 있는 게 장점인데, 대신 저작권 문제도 있다고 들었어요.
그리고 구글도 움직였더라고요. 구글이 4월에 '젬마 4(Gemma 4)'라는 오픈소스 모델을 공개했는데, 고급 추론과 에이전트 기반 워크플로우를 위해 특수 설계되었다고 하네요. 아파치 2.0 라이선스로 제공되어 상업적 활용도 가능하다고 하니까 기업에서도 쓸 수 있을 것 같아요.
2026년을 거치며 70B급 모델이 RTX 4090 한 장으로 양자화 구동 가능한 수준까지 발전했고, 한국어 성능도 상용 모델에 근접했다고 하니까 이제 진짜 현실적인 수준까지 왔다는 생각이 들어요. Meta의 Llama 3.3 70B는 GPT-4o 클래스 성능을 4-bit 양자화 시 RTX 4090 1장으로 돌릴 수 있다고 하니까 고사양 GPU 없어도 된다는 게 좋네요.
그런데 코드 보조, 번역, 요약 같은 걸 하려면 뭐가 가장 실용적인지 모르겠어요. 혼자 낑낑거리면서 하기보다