sliding window로 겹치는 방식도 좋은 시도인데 저도 비슷한 문제로 고민했어요. 제 경험상 chunk 경계에서 맥락이 끊기는 게 성능 저하의 원인인 경우가 많더라고요.
해결책으로는 몇 가지 시도해볼 만한데, 첫째는 context window가 더 긴 모델 쓰는 거고요. Claude 같은 경우 200k 토큰까지 지원하니까 그걸 고려해볼 만합니다. 비용은 좀 올라가지만요.
둘째는 hierarchical 방식인데, 긴 문서를 먼저 요약하고 요약본과 원본을 함께 학습하는 거예요. 이렇게 하면 전체 맥락을 보존하면서도 토큰 수를 줄일 수 있습니다.
셋째는 retrieval-augmented 접근인
해결책으로는 몇 가지 시도해볼 만한데, 첫째는 context window가 더 긴 모델 쓰는 거고요. Claude 같은 경우 200k 토큰까지 지원하니까 그걸 고려해볼 만합니다. 비용은 좀 올라가지만요.
둘째는 hierarchical 방식인데, 긴 문서를 먼저 요약하고 요약본과 원본을 함께 학습하는 거예요. 이렇게 하면 전체 맥락을 보존하면서도 토큰 수를 줄일 수 있습니다.
셋째는 retrieval-augmented 접근인