2026.06.16 접속자 43
로그인 회원가입
HOT
[기술 Q&A] Transformer 모델의 positional encoding 방식 바꿔도 괜찮나요? [기술 Q&A] LLM 토큰 길이 제한 때문에 답답한데 실무에선 어떻게 처리하세요? [AI뉴스] 요즘 오픈소스 LLM 수준이 진짜 미쳤네... 상용 모델과의 격차가 좁혀졌다고 봐야 나요? [AI뉴스] 앤트로픽 클로드 페이블 5 출시됐네요... 인간 전문가 수준이라고? [AI뉴스] 요즘 AI가 달라졌대요... 뭐가 계속 바뀌는 거죠? [기술 Q&A] LLM 파인튜닝할 때 토큰 수 줄이는 방법 뭐 하세요? [프롬프트] 클로드한테 요구사항 정확하게 전달하는 프롬프트 팁 있나요? [프롬프트] 시장 분석할 때 쓰는 프롬프트 공유합니다 [기술 Q&A] LLM 파인튜닝 할 때 LoRA 말고 다른 방법 써보신 분? [기술 Q&A] 최근에 RAG 구현해보신 분들 어떤 벡터DB 쓰세요? [기술 Q&A] Transformer 모델의 positional encoding 방식 바꿔도 괜찮나요? [기술 Q&A] LLM 토큰 길이 제한 때문에 답답한데 실무에선 어떻게 처리하세요? [AI뉴스] 요즘 오픈소스 LLM 수준이 진짜 미쳤네... 상용 모델과의 격차가 좁혀졌다고 봐야 나요? [AI뉴스] 앤트로픽 클로드 페이블 5 출시됐네요... 인간 전문가 수준이라고? [AI뉴스] 요즘 AI가 달라졌대요... 뭐가 계속 바뀌는 거죠? [기술 Q&A] LLM 파인튜닝할 때 토큰 수 줄이는 방법 뭐 하세요? [프롬프트] 클로드한테 요구사항 정확하게 전달하는 프롬프트 팁 있나요? [프롬프트] 시장 분석할 때 쓰는 프롬프트 공유합니다 [기술 Q&A] LLM 파인튜닝 할 때 LoRA 말고 다른 방법 써보신 분? [기술 Q&A] 최근에 RAG 구현해보신 분들 어떤 벡터DB 쓰세요?
오류해결

LLM 파인튜닝할 때 토큰 길이 제한 때문에 고민이라는데...

요정 2026.04.24 14:17 조회 122 추천 14 댓글 5건
요즘 우리 팀에서 특정 도메인용 LLM 파인튜닝을 진행하고 있는데 문제가 생겼어요. 데이터셋이 꽤 길어서 토큰 길이 제한에 계속 걸리더라고요. GPT-4나 Claude 같은 큰 모델은 컨텍스트 윈도우가 크지만, 로컬에서 돌릴 수 있는 경량 모델들은 보통 4k 정도라서...

일단 텍스트를 청킹해서 쪼개는 방법도 시도했는데 그러면 문맥이 끊겨서 학습 품질이 떨어지는 느낌이에요. 단순히 글자 수로 자르기만 해서 그런 걸까요? Sliding window 방식으로 오버래핑을 주면 좀 나을까 싶긴 한데...

혹시 이 문제를 어떻게 해결하는 게 일반적인지 궁금합니다. 긴 문서를 파인튜닝할 때 실제로 어떤 전략을 쓰시나요? 토큰 길이를 늘릴 수 있게 모델을 재훈련하는 건 너무 비용이 크기도 하고...

그리고 혹시 Llama 2 같은 4k 제한 있는 모델도 충분히 실용적인지도 궁금하네요. 아니면 차라리 처음부터 더 긴 컨텍스트를 지원하는 모델로 시작하는 게 낫나 싶고요. 의견 부탁드려요.
추천 14 비추천 0
댓글 5

댓글목록

profile_image
궁금하면
저도 비슷한 문제로 고생했는데, 결국 sliding window 오버래핑이 가장 실용적이더라고요. 단순 청킹보다는 확실히 문맥 손실이 줄어들어요. 다만 겹치는 부분의 중복 학습이 생기니까 배치 사이즈나 에포크를 조정해야 해요.
저희는 결국 Llama 2 4k로도 충분했는데, 실제로는 대부분의 도메인 데이터가 짧은 편이거든요. 긴 문서는 뭔가 요약 전처리를 먼저 하고 파인튜닝하는 방식으로 가니까 오히려 학습이 더 효율적이었어요. 처음부터 큰 모델로 갈 필요는 없는 것 같습니다.
profile_image
따뜻한코더
저도 지금 같은 문제로 고생하고 있네요 ㅠㅠ
profile_image
현실주의자
슬라이딩 윈도우 오버래핑 좋은 아이디어네요. 저도 비슷한 문제 겪었는데 그걸로 꽤 나아졌어요.
profile_image
딥러너
저도 같은 문제로 고생했는데 결국 sliding window 오버래핑으로 가니까 좀 나아지더라고요. 다만 stride를 적절히 설정하는 게 중요했어요. stride를 너무 크면 의미있는 오버래핑이 안 되고, 너무 작으면 중복 학습 때문에 비효율적이거든요. 보통 윈도우 크기의 50% 정도 오버래핑이 괜찮았습니다.
그리고 단순 청킹이 아니라 문장 기반 청킹을 권장드려요. 토큰 수 기준으로 자르되 문장 끝에서 끊는 식으로요. 이렇게 하면 컨텍스트 끊김이 훨씬 줄어듭니다.
모델 선택 관점에선 요즘은 Mistral이나 Neural Chat 같은 것들도 컨텍스트
profile_image
흐름타는개발자
저도 비슷한 문제 겪었는데 결국 Llama 2 8B를 Rope scaling으로 컨텍스트 8k까지 확장해서 썼어요. 비용도 적게 들고 실제 성능도 괜찮더라고요. 청킹할 때는 sliding window 오버래핑이 확실히 도움 돼요. 아니면 처음부터 Mistral이나 Yi 같이 더 긴 윈도우 지원하는 모델로 가는 것도 실용적인 옵션이네요.