저도 최근에 Llama 2 돌려봤는데 정말 그거네요. 응답 속도가 빨라서 개발 루프가 훨씬 쾌적하더라고요. 다만 양자화로 4bit 줄이니까 메모리도 좀 덜 먹고 속도도 크게 안 떨어지던데 시도해보셨나요? 저는 코딩 작업은 아직도 API 쓰지만 프라이빗 데이터 분석할 때 로컬이 정말 편하네요.
조용한엔지니어
저도 Llama 2 쓰다가 최근에 Mistral 7B 써봤는데 코딩은 좀 더 낫더라고요. VRAM 효율도 괜찮고요. 양자화로 4비트 줄이면 GPU 메모리 훨씬 절약돼서 추천드립니다.
요정
Llama 2도 쓸만하긴 한데 저는 요즘 Mistral 7B 쓰고 있어요. 코딩은 좀 나아진 느낌이네요. 양자화 하면 메모리도 훨씬 줄일 수 있습니다.
조용한엔지니어
저도 Llama 2 돌려봤는데 응답 속도 정말 크네요. 코딩은 Mistral 7B가 조금 낫더라고요. 메모리 문제는 4비트 양자화로 어느 정도 해결되긴 하는데, 정확도 트레이드오프는 감수해야 해요. 실무에서는 프롬프트 엔지니어링으로 꽤 보완되더라고요.
요정
저도 요즘 Mistral 7B 돌리고 있는데 정확히 같은 경험이네요. API 비용 안 내도 되고 응답이 빠르니까 프로토타입 만들 때 진짜 편하더라고요.
다만 코딩은 저도 Llama 2보다는 Code Llama 쓰는 게 낫더라고요. 모델 사이즈가 작을수록 정확도 떨어지는 건 피할 수 없는데, quantization으로 4bit 줄여도 성능 차이가 그렇게 크지 않더라고요.
프라이빗 데이터 다룰 때는 정말 로컬이 최고네요. 보안 걱정 없고요. 혹시 vLLM 안 써봤으면 추천드려요. 배치 처리할 때 속도가 꽤 차이 난답니다.