프롬프트

LLM 로컬 배포하다가 느낀 거 공유합니다

조용한엔지니어 2026.04.23 20:50 조회 267 추천 6 댓글 0건

요즘 회사에서 프라이빗 LLM 구축 프로젝트를 진행 중인데, 클라우드 API 대신 온프레미스로 구성해야 한다는 요구사항이 생겼거든요. 처음엔 단순할 거라 생각했는데 실제로 배포하면서 마주친 문제들이 꽤 많더라고요. 혹시 비슷한 경험 하신 분들 있을 것 같아서 정리해봅니다.

처음엔 Llama2 13B를 GGUF 형식으로 변환해서 Ollama로 띄워봤어요. 셋업 자체는 정말 간단했는데, 문제는 응답 속도였습니다. 같은 질문을 API로 날렸을 때와 비교하면 3배 정도 느렸거든요. GPU를 미리 제대로 확보하지 않아서 CPU 쪽에서 추론을 돌렸던 탓도 있지만, 양자화 수준을 올리니까 응답은 빨라졌어도 답의 질이 눈에 띄게 떨어졌습니다. 결국 하드웨어 스펙과 품질 사이의 트레이드오프를 직접 체험하게 됐어요.

그 다음은 멀티 GPU 분산 처리를 시도했는데, vLLM이나 TGI 같은 프레임워크들이 일반적인 해결책더라고요. 근데 레이턴시 최적화를 위해 배치 사이즈를 줄이고 또 줄이다 보니, 결국 처리량이 엄청 떨어져서 실운영에는 못 쓸 수준이 되더라고요 ㅠㅠ 문서는 대부분 이상적인 시나리오만 다루고 있어서, 실제 프로덕션 환경에서의 튜닝은 거의 trial and error 수준이었습니다.

지금은 Mistral 7B로 다시 도전 중인데, 더 작은 모델이 우리 use case에는 더 맞는 것 같긴 해요. 대신 파인튜닝을 본격적으로 해야 할 것 같은데, 이 부분도 쉽지 않네요. 혹시 로컬에서 효율적으로 파인튜닝하신 분 계신가요? 특히 메모리 제약이 있을 때 LoRA나 QLoRA 써보신 경험이 있으면 듣고 싶습니다. 요즘 AI는 정말 배울 게 많은 분야네요.

댓글목록

아직 댓글이 없습니다. 첫 댓글을 남겨보세요!

목록으로