요즘 자사 데이터로 오픈소스 모델(라마2)을 파인튜닝 중인데, 학습 데이터 중 일부가 컨텍스트 윈도우(4k 토큰)를 초과하더라고요. 단순히 자르자니 정보 손실이 생길까봐 걱정이고, 그렇다고 더 큰 모델로 가자니 비용이 장난 아니네요.
혹시 이런 상황에서 효과적인 방법 써보신 분 계신가요? 슬라이딩 윈도우로 오버래핑하게 하거나, 요약을 거쳐서 넣는 방식도 고민 중인데 실제로 써본 결과가 어떨지 궁금합니다. 아니면 처음부터 데이터 전처리를 다르게 해야 하는 건지.
추천 0 비추천 0