최근 딥러닝 논문들 보면 그동안의 "크면 좋다" 는 마인드가 좀 바뀐 것 같아요. 단순히 모델의 크기를 키우는 확장을 넘어, 시스템적 안정성, 복잡한 정보의 구조적 처리, 그리고 아키텍처의 근본적 효율성을 고민하는 방향으로 나아가고 있다네요.
특히 눈에 띄는 게 효율성 관련 연구들인데 모델의 덩치를 무작정 키우기보다, 훈련 및 추론 과정의 자원 소모를 극적으로 줄이는 최적화 기법들이 두드러지고 있고, 단 13개의 훈련 매개변수만으로도 모델의 추론 성능을 90% 이상 회복하는 논문도 나왔다고 해요. 이런 식이면 개인도 충분히 쓸 수 있겠는데요.