슬라이딩 윈도우 오버래핑은 확실히 좋은 방법 같긴 한데, 저는 요약 방식도 한 번 써봤거든요. 근데 요약하는 과정에서 도메인 특화 정보가 손실되는 게 신경 쓰였어요.
차라리 처음부터 Mistral 같은 8k 이상 지원하는 모델로 가는 게 낫지 않을까 싶네요. 파인튜닝 비용도 시간도 절약되고요. 요즘 오픈소스들이 성능도 괜찮은데 맥락 유지하는 데는 더 좋더라고요.
혹은 문서를 시맨틱 기준으로 나누되 겹치는 부분을 크게 잡는 방식도 있습니다. 그냥 토큰으로만 자르는 것보다는 낫긴 해요.
차라리 처음부터 Mistral 같은 8k 이상 지원하는 모델로 가는 게 낫지 않을까 싶네요. 파인튜닝 비용도 시간도 절약되고요. 요즘 오픈소스들이 성능도 괜찮은데 맥락 유지하는 데는 더 좋더라고요.
혹은 문서를 시맨틱 기준으로 나누되 겹치는 부분을 크게 잡는 방식도 있습니다. 그냥 토큰으로만 자르는 것보다는 낫긴 해요.