요즘 로컬 LLM에 관심 생겨서 Llama 2를 직접 굴려봤어요. 처음엔 그냥 장난삼아 해본 거라 기대 안 했는데 꽤 쓸만하더라고요.
사양은 RTX 4070 그래픽카드에 램 32GB짜리 컴퓨터고, Ollama 써서 13B 모델 돌렸습니다. 설치 과정은 정말 간단했어요. 다운로드 받고 한 줄 커맨드 입력하면 끝이거든요. 솔직히 이렇게 쉬울 줄 몰랐어요. 예전에는 온갖 환경설정 때문에 시간만 낭비했는데 말이에요.
실제 사용해보니까 한국어 질문에 한국어로 답변하는 속도가 초당 30~40토큰 정도 나오더라고요. GPT 4처럼 빠르지는 않지만 답답한 수준은 아니었어요. 코드 작성 능력도 생각보다 괜찮아서 간단한 파이썬 스크립트 작성할 땐 충분했습니다. 물론 복잡한 로직은 정확도가 떨어지긴 해요.
다만 한계도 확실하더라고요. 최신 정보가 반영 안 되어있고 맥락 이해도 길어지면 약해지는 편이었어요. 그리고 뭔가 반복적인 대답을 자주 하는 느낌도 받았고요. 토큰 제한도 있어서 긴 문서를 한 번에 처리하기는 어려웠습니다.
그래도 개인 프로젝트나 학습용으로는 정말 좋은 것 같아요. API 요금 걱정 없이 마음껏 테스트할 수 있다는 게 가장 큰 장점이네요. 혹시 로컬 LLM 관심 있으신 분들 계신가요? 다른 모델들은 어떤가 궁금합니다.