2026.05.03 접속자 9명

로그인 | 회원가입 | AI 서비스

HOT

[AI뉴스] TIME 선정 AI 빅10 발표… 중국이 자리 잡았네요 [프롬프트] 코드 리뷰 요청할 때 프롬프트 이렇게 해보세요 [프롬프트] Claude한테 물어볼 때 좋은 프롬프트 팁 있으신가요? [AI뉴스] 요즘 AI 기업들 데이터센터 투자에 정신없네요 ㅋㅋ [AI뉴스] 최근 빅테크의 AI 인프라 투자 규모가 미쳤네요... 이게 정상일까요? [AI뉴스] 4월 AI 모델 대전사 이렇게까지 쏟아질 줄이야 [프롬프트] 프롬프트 작성할 때 "역할 지정"이 얼마나 중요한지 깨달았어요 [AI뉴스] 요즘 AI 연구는 "모델 크기 늘리기" 끝, 시스템 효율성으로 가는 중 [프롬프트] 프롬프트 엔지니어링도 결국 '질문 잘 하기'더라고요 [프롬프트] 프롬프트 구체적으로 쓸수록 답이 달라지더라고요 [AI뉴스] TIME 선정 AI 빅10 발표… 중국이 자리 잡았네요 [프롬프트] 코드 리뷰 요청할 때 프롬프트 이렇게 해보세요 [프롬프트] Claude한테 물어볼 때 좋은 프롬프트 팁 있으신가요? [AI뉴스] 요즘 AI 기업들 데이터센터 투자에 정신없네요 ㅋㅋ [AI뉴스] 최근 빅테크의 AI 인프라 투자 규모가 미쳤네요... 이게 정상일까요? [AI뉴스] 4월 AI 모델 대전사 이렇게까지 쏟아질 줄이야 [프롬프트] 프롬프트 작성할 때 "역할 지정"이 얼마나 중요한지 깨달았어요 [AI뉴스] 요즘 AI 연구는 "모델 크기 늘리기" 끝, 시스템 효율성으로 가는 중 [프롬프트] 프롬프트 엔지니어링도 결국 '질문 잘 하기'더라고요 [프롬프트] 프롬프트 구체적으로 쓸수록 답이 달라지더라고요

목록

오류해결

LLM 파인튜닝할 때 토큰 길이 제한 때문에 고민이라는데...

요정 2026.04.24 14:17 조회 36 추천 9 댓글 2건

요즘 우리 팀에서 특정 도메인용 LLM 파인튜닝을 진행하고 있는데 문제가 생겼어요. 데이터셋이 꽤 길어서 토큰 길이 제한에 계속 걸리더라고요. GPT-4나 Claude 같은 큰 모델은 컨텍스트 윈도우가 크지만, 로컬에서 돌릴 수 있는 경량 모델들은 보통 4k 정도라서...

일단 텍스트를 청킹해서 쪼개는 방법도 시도했는데 그러면 문맥이 끊겨서 학습 품질이 떨어지는 느낌이에요. 단순히 글자 수로 자르기만 해서 그런 걸까요? Sliding window 방식으로 오버래핑을 주면 좀 나을까 싶긴 한데...

혹시 이 문제를 어떻게 해결하는 게 일반적인지 궁금합니다. 긴 문서를 파인튜닝할 때 실제로 어떤 전략을 쓰시나요? 토큰 길이를 늘릴 수 있게 모델을 재훈련하는 건 너무 비용이 크기도 하고...

그리고 혹시 Llama 2 같은 4k 제한 있는 모델도 충분히 실용적인지도 궁금하네요. 아니면 차라리 처음부터 더 긴 컨텍스트를 지원하는 모델로 시작하는 게 낫나 싶고요. 의견 부탁드려요.

추천 9 비추천 0

이전글LLM 토큰화 방식 차이 때문에 같은 프롬프트인데 결과가 왜 다를까요?26.04.24
다음글LLM 로컬 배포하다가 느낀 거 공유합니다26.04.23

댓글 2

댓글목록

궁금하면

26-04-26 12:17

저도 비슷한 문제로 고생했는데, 결국 sliding window 오버래핑이 가장 실용적이더라고요. 단순 청킹보다는 확실히 문맥 손실이 줄어들어요. 다만 겹치는 부분의 중복 학습이 생기니까 배치 사이즈나 에포크를 조정해야 해요.
저희는 결국 Llama 2 4k로도 충분했는데, 실제로는 대부분의 도메인 데이터가 짧은 편이거든요. 긴 문서는 뭔가 요약 전처리를 먼저 하고 파인튜닝하는 방식으로 가니까 오히려 학습이 더 효율적이었어요. 처음부터 큰 모델로 갈 필요는 없는 것 같습니다.

따뜻한코더

26-05-03 02:53

저도 지금 같은 문제로 고생하고 있네요 ㅠㅠ