2026.05.02 접속자 53
로그인 회원가입
HOT
[AI뉴스] 요즘 LLM 너무 많이 나오는데 뭘 써야 하나요? [AI뉴스] 2026년 AI 산업 핵심은 큰 모델이 아니라 시스템 수준의 경쟁이네요 [프롬프트] 업무 보고서 쓸 때 써먹는 프롬프트 공유합니다 [AI뉴스] OpenAI, 14일에 GPT-6 출시... 이번엔 진짜 달라질까 [프롬프트] 번역 작업할 때 쓰는 프롬프트 공유합니다 [AI뉴스] 요즘 AI 기술 발전 속도가 미친 수준인데, 따라가기가 힘드네요 [AI뉴스] 2026년 AI 산업, 에이전트 시대와 피지컬 AI가 본격화되는 중 [프롬프트] 긴 문서 분석할 때 프롬프트 어떻게 짜시나요? [기술 Q&A] 요즘 LLM 컨텍스트 윈도우 경쟁이 좀 이상하지 않나요? [프롬프트] ChatGPT한테 같은 질문을 여러 번 해도 답변이 자꾸 달라지는데 이게 정상인가요? [AI뉴스] 요즘 LLM 너무 많이 나오는데 뭘 써야 하나요? [AI뉴스] 2026년 AI 산업 핵심은 큰 모델이 아니라 시스템 수준의 경쟁이네요 [프롬프트] 업무 보고서 쓸 때 써먹는 프롬프트 공유합니다 [AI뉴스] OpenAI, 14일에 GPT-6 출시... 이번엔 진짜 달라질까 [프롬프트] 번역 작업할 때 쓰는 프롬프트 공유합니다 [AI뉴스] 요즘 AI 기술 발전 속도가 미친 수준인데, 따라가기가 힘드네요 [AI뉴스] 2026년 AI 산업, 에이전트 시대와 피지컬 AI가 본격화되는 중 [프롬프트] 긴 문서 분석할 때 프롬프트 어떻게 짜시나요? [기술 Q&A] 요즘 LLM 컨텍스트 윈도우 경쟁이 좀 이상하지 않나요? [프롬프트] ChatGPT한테 같은 질문을 여러 번 해도 답변이 자꾸 달라지는데 이게 정상인가요?
활용법

LLM 파인튜닝할 때 토큰 길이 제한 때문에 헤매고 있는데...

인공지능개그맨 2026.04.22 09:07 조회 39 추천 8 댓글 1건
요즘 자사 데이터로 LLM을 파인튜닝하려고 하는데 context window 문제 때문에 좀 막히네요. 현재 쓰고 있는 모델은 4k 토큰 제한이 있는데, 우리가 처리해야 할 문서들이 보통 5~10k 정도 길이거든요.

당연히 토큰을 자르거나 청킹해서 학습시키는 게 가장 간단한 방법인 건 알겠는데, 그러면 문맥이 끊기면서 학습 효율이 떨어질 것 같아요. 특히 길게 이어지는 맥락이 중요한 도메인이라서 더 신경이 쓰여요.

혹시 이런 상황에서 효과적으로 처리하는 방법 써보신 분 계신가요? 슬라이딩 윈도우로 오버래핑하게 나누는 게 베스트 프랙티스인지, 아니면 더 좋은 방법이 있는지 궁금합니다. 롱텍스트 모델(Claude, GPT-4 Turbo 같은)로 먼저 요약본을 만들고 그걸 학습시키는 건 어떨까 싶기도 하고요.

혹은 요즘 같은 경우 처음부터 긴 context 지원하는 모델로 파인튜닝하는 게 나을까요? 라마 2나 Mistral 같은 오픈소스 모델들 중에 추천할 만한 게 있으면 알려주세요. 비용도 비용이지만 우리 인프라에서 돌릴 수 있는 걸 찾는 게 중요해서요.

먼저 손으로 몇 건 테스트해본 결과는 슬라이딩 윈도우가 나쁘진 않더라고요. 다만 검증 데이터셋이 작아서 유의미한 결론을 내기가 어렵네요. 혹시 이런 식으로 파이프라인을 짜본 분들이 있다면 경험담 좀 나눠주세요.
추천 8 비추천 0
댓글 1

댓글목록

profile_image
AI새싹
슬라이딩 윈도우 오버래핑은 확실히 좋은 방법 같긴 한데, 저는 요약 방식도 한 번 써봤거든요. 근데 요약하는 과정에서 도메인 특화 정보가 손실되는 게 신경 쓰였어요.
차라리 처음부터 Mistral 같은 8k 이상 지원하는 모델로 가는 게 낫지 않을까 싶네요. 파인튜닝 비용도 시간도 절약되고요. 요즘 오픈소스들이 성능도 괜찮은데 맥락 유지하는 데는 더 좋더라고요.
혹은 문서를 시맨틱 기준으로 나누되 겹치는 부분을 크게 잡는 방식도 있습니다. 그냥 토큰으로만 자르는 것보다는 낫긴 해요.