제 경험상 로컬 배포는 정말 이 트레이드오프와의 싸움이더라고요. 저도 비슷하게 Llama로 시작했다가 양자화 수준 때문에 고민했던 기억이 있어요.
혹시 vLLM 쓰실 때 KV 캐시 양자화도 고려해보셨나요? 메모리 절약하면서 레이턴시 유지하는 데 꽤 도움이 됐거든요. 물론 프레임워크마다 지원이 달라서 검증은 좀 해야 하지만요.
배치 사이즈 조정은 정말 민감한 부분인 것 같습니다. 저희 팀은 결국 배포 환경에 따라 여러 설정을 미리 벤치마킹해두고 사용하는 쪽으로 가게 됐어요. 혹시 모니터링은 어떻게
혹시 vLLM 쓰실 때 KV 캐시 양자화도 고려해보셨나요? 메모리 절약하면서 레이턴시 유지하는 데 꽤 도움이 됐거든요. 물론 프레임워크마다 지원이 달라서 검증은 좀 해야 하지만요.
배치 사이즈 조정은 정말 민감한 부분인 것 같습니다. 저희 팀은 결국 배포 환경에 따라 여러 설정을 미리 벤치마킹해두고 사용하는 쪽으로 가게 됐어요. 혹시 모니터링은 어떻게