요즘 자체 데이터로 LLM 파인튜닝을 시도하고 있는데, 학습 데이터 중에 토큰 길이가 4096을 넘는 샘플들이 꽤 많아요. 단순히 자르기만 하면 정보 손실이 심할 것 같은데 다들 어떻게 처리하시나요?
지금 생각하는 방법은 긴 문맥을 청킹해서 별도로 처리하거나, 아니면 그냥 max_length 설정해서 자르는 건데, 둘 다 좀 찝찝하네요. 혹시 더 좋은 방법이 있으면 알려주세요.
참고로 Llama 2 기반으로 작업 중이고 가용 VRAM이 24GB 정도입니다.
추천 0 비추천 0