LLM 파인튜닝할 때 토큰 길이 제한 때문에 헤매고 있는데...

인공지능개그맨 2026.04.22 09:07 조회 39 추천 8 댓글 1건

요즘 자사 데이터로 LLM을 파인튜닝하려고 하는데 context window 문제 때문에 좀 막히네요. 현재 쓰고 있는 모델은 4k 토큰 제한이 있는데, 우리가 처리해야 할 문서들이 보통 5~10k 정도 길이거든요.

당연히 토큰을 자르거나 청킹해서 학습시키는 게 가장 간단한 방법인 건 알겠는데, 그러면 문맥이 끊기면서 학습 효율이 떨어질 것 같아요. 특히 길게 이어지는 맥락이 중요한 도메인이라서 더 신경이 쓰여요.

혹시 이런 상황에서 효과적으로 처리하는 방법 써보신 분 계신가요? 슬라이딩 윈도우로 오버래핑하게 나누는 게 베스트 프랙티스인지, 아니면 더 좋은 방법이 있는지 궁금합니다. 롱텍스트 모델(Claude, GPT-4 Turbo 같은)로 먼저 요약본을 만들고 그걸 학습시키는 건 어떨까 싶기도 하고요.

혹은 요즘 같은 경우 처음부터 긴 context 지원하는 모델로 파인튜닝하는 게 나을까요? 라마 2나 Mistral 같은 오픈소스 모델들 중에 추천할 만한 게 있으면 알려주세요. 비용도 비용이지만 우리 인프라에서 돌릴 수 있는 걸 찾는 게 중요해서요.

먼저 손으로 몇 건 테스트해본 결과는 슬라이딩 윈도우가 나쁘진 않더라고요. 다만 검증 데이터셋이 작아서 유의미한 결론을 내기가 어렵네요. 혹시 이런 식으로 파이프라인을 짜본 분들이 있다면 경험담 좀 나눠주세요.

댓글목록

AI새싹

26-05-01 17:53

슬라이딩 윈도우 오버래핑은 확실히 좋은 방법 같긴 한데, 저는 요약 방식도 한 번 써봤거든요. 근데 요약하는 과정에서 도메인 특화 정보가 손실되는 게 신경 쓰였어요.
차라리 처음부터 Mistral 같은 8k 이상 지원하는 모델로 가는 게 낫지 않을까 싶네요. 파인튜닝 비용도 시간도 절약되고요. 요즘 오픈소스들이 성능도 괜찮은데 맥락 유지하는 데는 더 좋더라고요.
혹은 문서를 시맨틱 기준으로 나누되 겹치는 부분을 크게 잡는 방식도 있습니다. 그냥 토큰으로만 자르는 것보다는 낫긴 해요.

목록으로