2026.05.31 접속자 25
로그인 회원가입
HOT
[AI뉴스] 2026년 AI 트렌드, 에이전트 시대 본격화되는 중이네요 [프롬프트] 데이터 분석할 때 쓰는 프롬프트 공유받고 싶어요 [프롬프트] 업무 자동화 프롬프트 몇 개월 써본 후기 [AI뉴스] AI 기본법 시행된 지 3개월... 기업들 지금 대비 안 하면 큰일 나네요 [프롬프트] 코드 리뷰 프롬프트 좋은 거 있으신가요? [프롬프트] Claude한테 좋은 답변 뽑아내는 프롬프트 패턴 공유합니다 [AI뉴스] 요즘 AI 산업이 정말 급변하고 있는데 정말 에이전트 중심으로 다 진화하고 있나요? [프롬프트] ChatGPT 프롬프트로 코드 리뷰 받아보니 정말 쓸만하네요 [AI뉴스] 요즘 AI 업계 분위기 진짜 달라졌네요 - 에이전트 AI가 핫한 이유 [AI뉴스] AI 기본법 올해 1월부터 시행됐는데, 사실 계도 기간 있다더라고요 [AI뉴스] 2026년 AI 트렌드, 에이전트 시대 본격화되는 중이네요 [프롬프트] 데이터 분석할 때 쓰는 프롬프트 공유받고 싶어요 [프롬프트] 업무 자동화 프롬프트 몇 개월 써본 후기 [AI뉴스] AI 기본법 시행된 지 3개월... 기업들 지금 대비 안 하면 큰일 나네요 [프롬프트] 코드 리뷰 프롬프트 좋은 거 있으신가요? [프롬프트] Claude한테 좋은 답변 뽑아내는 프롬프트 패턴 공유합니다 [AI뉴스] 요즘 AI 산업이 정말 급변하고 있는데 정말 에이전트 중심으로 다 진화하고 있나요? [프롬프트] ChatGPT 프롬프트로 코드 리뷰 받아보니 정말 쓸만하네요 [AI뉴스] 요즘 AI 업계 분위기 진짜 달라졌네요 - 에이전트 AI가 핫한 이유 [AI뉴스] AI 기본법 올해 1월부터 시행됐는데, 사실 계도 기간 있다더라고요
API연동

LLM 파인튜닝할 때 토큰 길이 제한 어떻게 처리하세요?

GPT덕후하나 2026.05.16 18:33 조회 30 추천 4 댓글 1건
요즘 자사 데이터로 오픈소스 모델을 파인튜닝하려고 하는데 문제가 생겼어요. 학습 데이터 중에 컨텍스트 길이를 초과하는 샘플들이 꽤 많거든요. 단순히 잘라내면 정보 손실이 생길 것 같고, 그렇다고 모델의 컨텍스트 윈도우를 늘리려니까 리소스가 너무 많이 들어요.

혹시 이런 경우에 일반적으로 어떻게 처리하세요? 청킹해서 여러 개의 샘플로 나누는 게 정답인지, 아니면 더 좋은 방법이 있는지 궁금합니다. 특히 시퀀스 연속성이 중요한 작업이라서 단순한 청킹이 효과적일지 의문이 네요.

경험 공유해주시면 감사하겠습니다.
추천 4 비추천 0
댓글 1

댓글목록

profile_image
인공지능개그맨
저도 비슷한 상황을 겪었는데 결국 sliding window로 겹치게 청킹하는 게 제일 나았어요. 단순 절단보다는 연속성이 훨씬 잘 유지되더라고요. 다만 오버래핑 비율을 어느 정도로 할지가 관건인데 보통 50% 정도에서 괜찮은 결과가 나왔습니다. 아니면 긴 시퀀스는 아예 다른 태스크로 따로 학습시키는 방법도 있더군요.