2026.06.16 접속자 110
로그인 회원가입
HOT
[기술 Q&A] Transformer 모델의 positional encoding 방식 바꿔도 괜찮나요? [기술 Q&A] LLM 토큰 길이 제한 때문에 답답한데 실무에선 어떻게 처리하세요? [AI뉴스] 요즘 오픈소스 LLM 수준이 진짜 미쳤네... 상용 모델과의 격차가 좁혀졌다고 봐야 나요? [AI뉴스] 앤트로픽 클로드 페이블 5 출시됐네요... 인간 전문가 수준이라고? [AI뉴스] 요즘 AI가 달라졌대요... 뭐가 계속 바뀌는 거죠? [기술 Q&A] LLM 파인튜닝할 때 토큰 수 줄이는 방법 뭐 하세요? [프롬프트] 클로드한테 요구사항 정확하게 전달하는 프롬프트 팁 있나요? [프롬프트] 시장 분석할 때 쓰는 프롬프트 공유합니다 [기술 Q&A] LLM 파인튜닝 할 때 LoRA 말고 다른 방법 써보신 분? [기술 Q&A] 최근에 RAG 구현해보신 분들 어떤 벡터DB 쓰세요? [기술 Q&A] Transformer 모델의 positional encoding 방식 바꿔도 괜찮나요? [기술 Q&A] LLM 토큰 길이 제한 때문에 답답한데 실무에선 어떻게 처리하세요? [AI뉴스] 요즘 오픈소스 LLM 수준이 진짜 미쳤네... 상용 모델과의 격차가 좁혀졌다고 봐야 나요? [AI뉴스] 앤트로픽 클로드 페이블 5 출시됐네요... 인간 전문가 수준이라고? [AI뉴스] 요즘 AI가 달라졌대요... 뭐가 계속 바뀌는 거죠? [기술 Q&A] LLM 파인튜닝할 때 토큰 수 줄이는 방법 뭐 하세요? [프롬프트] 클로드한테 요구사항 정확하게 전달하는 프롬프트 팁 있나요? [프롬프트] 시장 분석할 때 쓰는 프롬프트 공유합니다 [기술 Q&A] LLM 파인튜닝 할 때 LoRA 말고 다른 방법 써보신 분? [기술 Q&A] 최근에 RAG 구현해보신 분들 어떤 벡터DB 쓰세요?
API연동

LLM 파인튜닝할 때 토큰 길이 제한 어떻게 처리하세요?

인공지능개그맨 2026.05.19 19:47 조회 80 추천 12 댓글 1건
요즘 특정 도메인용으로 모델 파인튜닝을 시도 중인데, 학습 데이터 중에 토큰 길이가 4096을 넘는 문서들이 꽤 많거든요. 단순하게 자르면 정보 손실이 생길 것 같은데 이럴 때 보통 어떻게 처리하시나요?

지금까진 문서를 의미 단위로 chunk 하고 sliding window 방식으로 겹쳐서 학습시켜봤는데 성능이 기대보다 별로네요. 혹시 더 나은 방법이 있을까요? 아니면 처음부터 더 긴 context window 가진 모델로 가는 게 맞을까요?

같은 문제로 고민하신 분들의 경험담이나 팁 있으면 공유 부탁드립니다.
추천 12 비추천 0
댓글 1

댓글목록

profile_image
딥러닝장인
sliding window로 겹치는 방식도 좋은 시도인데 저도 비슷한 문제로 고민했어요. 제 경험상 chunk 경계에서 맥락이 끊기는 게 성능 저하의 원인인 경우가 많더라고요.
해결책으로는 몇 가지 시도해볼 만한데, 첫째는 context window가 더 긴 모델 쓰는 거고요. Claude 같은 경우 200k 토큰까지 지원하니까 그걸 고려해볼 만합니다. 비용은 좀 올라가지만요.
둘째는 hierarchical 방식인데, 긴 문서를 먼저 요약하고 요약본과 원본을 함께 학습하는 거예요. 이렇게 하면 전체 맥락을 보존하면서도 토큰 수를 줄일 수 있습니다.
셋째는 retrieval-augmented 접근인