2026.06.28 접속자 28
로그인 회원가입
HOT
[프롬프트] 실무에서 써먹을 만한 프롬프트 패턴들 정리해봤어요 [프롬프트] Claude 써서 기획안 뽑는데 자꾸 장황해지네요. 프롬프트 개선 팁 있을까요? [AI뉴스] AI·로보틱스 돈이 다 먹고 가는데 다른 스타트업들은 어떻게 되는 거죠? [AI뉴스] 요즘 AI 스타트업 투자 분위기 어떻게 되세요? [프롬프트] 코드 리뷰할 때 쓰는 프롬프트 공유합니다 [프롬프트] 실무에서 써먹을 만한 프롬프트 패턴 공유합니다 [프롬프트] ChatGPT 프롬프트 500번 돌린 후 깨달은 거 공유합니다 [AI뉴스] 2026년 LLM 판도 바뀌었네요, 오픈소스가 정말 강해진 거 같아요 [AI뉴스] 요즘 AI 써보니 한국에서 가장 빠르게 쓰이고 있다더라 [AI뉴스] ChatGPT 시장 점유율 50% 아래로 떨어졌는데... 요즘 셋 다 쓰시는 분 계신가요? [프롬프트] 실무에서 써먹을 만한 프롬프트 패턴들 정리해봤어요 [프롬프트] Claude 써서 기획안 뽑는데 자꾸 장황해지네요. 프롬프트 개선 팁 있을까요? [AI뉴스] AI·로보틱스 돈이 다 먹고 가는데 다른 스타트업들은 어떻게 되는 거죠? [AI뉴스] 요즘 AI 스타트업 투자 분위기 어떻게 되세요? [프롬프트] 코드 리뷰할 때 쓰는 프롬프트 공유합니다 [프롬프트] 실무에서 써먹을 만한 프롬프트 패턴 공유합니다 [프롬프트] ChatGPT 프롬프트 500번 돌린 후 깨달은 거 공유합니다 [AI뉴스] 2026년 LLM 판도 바뀌었네요, 오픈소스가 정말 강해진 거 같아요 [AI뉴스] 요즘 AI 써보니 한국에서 가장 빠르게 쓰이고 있다더라 [AI뉴스] ChatGPT 시장 점유율 50% 아래로 떨어졌는데... 요즘 셋 다 쓰시는 분 계신가요?
활용법

LLM 파인튜닝할 때 토큰 길이 제한 때문에 자꾸 학습이 안 되는데 해결법 있나요?

요정 2026.05.11 05:04 조회 92 추천 12 댓글 3건
요즘 특정 도메인 데이터로 오픈소스 LLM을 파인튜닝하고 있는데 계속 막히는 부분이 있어서 질문드립니다. 토큰 길이 제한 때문에 학습 데이터가 자꾸 잘려나가는 거거든요.

제 상황을 좀 설명하자면, Llama2 기반으로 의료 관련 긴 문서들을 학습시키려고 했어요. 근데 대부분의 문서가 4096 토큰을 넘어가서 학습 데이터로 사용할 수 없었어요. 일부만 자른 다음에 넣으니까 성능이 별로더라고요. 맥락이 끊겨서 그런 것 같은데 이게 맞나요?

혹시 이런 경우에 보통 어떻게 처리하시나요? 컨텍스트 윈도우를 늘리는 게 최선인지, 아니면 다른 방법이 있는지 궁금해요. 컨텍스트 윈도우 확장하면 학습 비용이 많이 늘어날 것 같긴 한데 효과가 있을까요?

그리고 혹시 문서를 의미 있는 단위로 청킹해서 각각 따로 학습시키는 방법도 있을 것 같은데, 이렇게 하면 성능 손실이 많이 나지 않나요? 아니면 처음부터 더 짧은 입력을 기반으로 한 모델을 선택하는 게 나을까요.

비슷한 문제로 고민하셨던 분들이나, 실제로 긴 문서 학습 시킨 경험 있으신 분들의 의견을 들어보고 싶습니다. 어떤 방식이 가장 실용적이었는지 알려주시면 정말 감사하겠습니다.
추천 12 비추천 0
댓글 3

댓글목록

profile_image
오늘도살자
의료 문서 같은 경우 청킹은 피하는 게 낫습니다. 맥락이 중요한 도메인이거든요. 차라리 RoPE 스케일링으로 컨텍스트 윈도우를 8K나 16K로 확장하는 게 낫더라고요. 학습 비용은 늘지만 성능 향상이 훨씬 크거든요. 아니면 처음부터 Llama2-Long 같은 확장 모델을 쓰는 방법도 있습니다. 문서를 무리해서 자르는 것보다는 낫습니다.
profile_image
딥러너
의료 문서는 정말 길어서 그 문제 많이 겪으시는군요. 저는 문서를 섹션 단위로 나눠서 각각 독립적으로 학습시켰는데 생각보다 괜찮더라고요. 물론 완벽하진 않지만 전체 자르는 것보다는 낫습니다. 요즘엔 Llama2-7B 32k 모델도 있으니 그쪽으로 가는 것도 방법일 것 같습니다.
profile_image
흐름타는개발자
의료 문서는 정말 길어서 그 문제 많더라고요. 저도 RAG로 청킹해서 처리하는 게 차라리 나았어요.