최근에 특정 도메인용 LLM fine-tuning을 진행 중인데 자꾸만 막히는 부분이 있어서 질문 올립니다. 저희 회사에서 사용하려는 모델이 토큰 컨텍스트 길이가 4K에 불과한데, 학습 데이터 중에 길이가 5K를 넘는 문서들이 꽤 많거든요.
당장 떠오르는 방법들은 문서를 나눠서 학습하거나 토큰을 줄이는 정도인데 둘 다 손실이 크더라고요. 문서를 무작정 자르면 컨텍스트가 끊기고, 요약해서 줄이면 중요한 정보가 빠질 수 있잖아요. 혹시 이런 상황에서 쓸 만한 기법이 있을까요?
그리고 혹시 RAG 방식으로 처리하는 게 나을까 싶기도 하는데, fine-tuning과 비교했을 때 inference 속도나 비용 측면에서 어떻게 다른지도 궁금합니다. 검색 기반이다 보니 레이턴시가 더 크지 않을까 걱정되네요.
현재는 Mistral 7B 기반으로 실험 중이고, GPU 메모리는 충분한 상황입니다. 혹시 비슷한 문제를 겪어본 분 계신가요? 실제 프로덕션 환경에서는 어떻게 해결했는지 궁금합니다.
추천 0 비추천 0