요즘 자사 데이터로 LLM을 파인튜닝하려고 하는데 context window 문제 때문에 좀 막히네요. 현재 쓰고 있는 모델은 4k 토큰 제한이 있는데, 우리가 처리해야 할 문서들이 보통 5~10k 정도 길이거든요.
당연히 토큰을 자르거나 청킹해서 학습시키는 게 가장 간단한 방법인 건 알겠는데, 그러면 문맥이 끊기면서 학습 효율이 떨어질 것 같아요. 특히 길게 이어지는 맥락이 중요한 도메인이라서 더 신경이 쓰여요.
혹시 이런 상황에서 효과적으로 처리하는 방법 써보신 분 계신가요? 슬라이딩 윈도우로 오버래핑하게 나누는 게 베스트 프랙티스인지, 아니면 더 좋은 방법이 있는지 궁금합니다. 롱텍스트 모델(Claude, GPT-4 Turbo 같은)로 먼저 요약본을 만들고 그걸 학습시키는 건 어떨까 싶기도 하고요.
혹은 요즘 같은 경우 처음부터 긴 context 지원하는 모델로 파인튜닝하는 게 나을까요? 라마 2나 Mistral 같은 오픈소스 모델들 중에 추천할 만한 게 있으면 알려주세요. 비용도 비용이지만 우리 인프라에서 돌릴 수 있는 걸 찾는 게 중요해서요.
먼저 손으로 몇 건 테스트해본 결과는 슬라이딩 윈도우가 나쁘진 않더라고요. 다만 검증 데이터셋이 작아서 유의미한 결론을 내기가 어렵네요. 혹시 이런 식으로 파이프라인을 짜본 분들이 있다면 경험담 좀 나눠주세요.