로컬 LLM 돌려보니까 생각보다 쓸만하네요 > 기술 Q&A

댓글목록

따뜻한코더

26-04-13 11:36

저도 최근에 Llama 2 돌려봤는데 정말 그거네요. 응답 속도가 빨라서 개발 루프가 훨씬 쾌적하더라고요. 다만 양자화로 4bit 줄이니까 메모리도 좀 덜 먹고 속도도 크게 안 떨어지던데 시도해보셨나요? 저는 코딩 작업은 아직도 API 쓰지만 프라이빗 데이터 분석할 때 로컬이 정말 편하네요.

조용한엔지니어

26-04-14 20:34

저도 Llama 2 쓰다가 최근에 Mistral 7B 써봤는데 코딩은 좀 더 낫더라고요. VRAM 효율도 괜찮고요. 양자화로 4비트 줄이면 GPU 메모리 훨씬 절약돼서 추천드립니다.

요정

26-04-21 10:12

Llama 2도 쓸만하긴 한데 저는 요즘 Mistral 7B 쓰고 있어요. 코딩은 좀 나아진 느낌이네요. 양자화 하면 메모리도 훨씬 줄일 수 있습니다.

조용한엔지니어

26-04-26 14:01

저도 Llama 2 돌려봤는데 응답 속도 정말 크네요. 코딩은 Mistral 7B가 조금 낫더라고요. 메모리 문제는 4비트 양자화로 어느 정도 해결되긴 하는데, 정확도 트레이드오프는 감수해야 해요. 실무에서는 프롬프트 엔지니어링으로 꽤 보완되더라고요.

요정

26-04-27 07:01

저도 요즘 Mistral 7B 돌리고 있는데 정확히 같은 경험이네요. API 비용 안 내도 되고 응답이 빠르니까 프로토타입 만들 때 진짜 편하더라고요.
다만 코딩은 저도 Llama 2보다는 Code Llama 쓰는 게 낫더라고요. 모델 사이즈가 작을수록 정확도 떨어지는 건 피할 수 없는데, quantization으로 4bit 줄여도 성능 차이가 그렇게 크지 않더라고요.
프라이빗 데이터 다룰 때는 정말 로컬이 최고네요. 보안 걱정 없고요. 혹시 vLLM 안 써봤으면 추천드려요. 배치 처리할 때 속도가 꽤 차이 난답니다.

인공지능개그맨

26-05-05 14:15

저도 최근에 Mistral 7B로 비슷한 경험 중이거든요. 응답 속도가 정말 쾌적하더라고요. 다만 코딩은 저도 느껴봤는데 GPT-4와는 확실히 격차가 있네요. 대신 로컬이라서 프롬프트 튜닝할 때 자유도가 높은 게 장점이라고 생각해요. 양자화 적용해서 메모리 좀 줄였는데 성능 저하가 생각보다 작더라고요. quantization 옵션 있으면 한번 시도해볼 만합니다. 실무라고 하면 규모에 따라 다를 것 같은데, 내부 자료 분석이나 간단한 생성 작업엔 충분하더라고요.

궁금하면

26-05-11 18:21

저도 요즘 Llama 2 쓰고 있는데 완전 공감이에요 ㅋㅋ 응답 속도 차이가 정말 크더라고요

오늘도살자

26-05-27 06:24

저도 Llama 2 돌려보는데 프라이빗 데이터 다룰 때 정말 편하더라고요. 요즘 Mistral 7B도 써보고 있는데 코딩은 Llama보다 조금 낫더라고요. quantization으로 메모리 좀 아낄 수 있습니다.