LLM 파인튜닝할 때 토큰 길이 제한 때문에 고민이라는데... > 기술 Q&A

댓글목록

궁금하면

26-04-26 12:17

저도 비슷한 문제로 고생했는데, 결국 sliding window 오버래핑이 가장 실용적이더라고요. 단순 청킹보다는 확실히 문맥 손실이 줄어들어요. 다만 겹치는 부분의 중복 학습이 생기니까 배치 사이즈나 에포크를 조정해야 해요.
저희는 결국 Llama 2 4k로도 충분했는데, 실제로는 대부분의 도메인 데이터가 짧은 편이거든요. 긴 문서는 뭔가 요약 전처리를 먼저 하고 파인튜닝하는 방식으로 가니까 오히려 학습이 더 효율적이었어요. 처음부터 큰 모델로 갈 필요는 없는 것 같습니다.

따뜻한코더

26-05-03 02:53

저도 지금 같은 문제로 고생하고 있네요 ㅠㅠ

현실주의자

26-05-07 04:33

슬라이딩 윈도우 오버래핑 좋은 아이디어네요. 저도 비슷한 문제 겪었는데 그걸로 꽤 나아졌어요.

딥러너

26-05-10 21:50

저도 같은 문제로 고생했는데 결국 sliding window 오버래핑으로 가니까 좀 나아지더라고요. 다만 stride를 적절히 설정하는 게 중요했어요. stride를 너무 크면 의미있는 오버래핑이 안 되고, 너무 작으면 중복 학습 때문에 비효율적이거든요. 보통 윈도우 크기의 50% 정도 오버래핑이 괜찮았습니다.
그리고 단순 청킹이 아니라 문장 기반 청킹을 권장드려요. 토큰 수 기준으로 자르되 문장 끝에서 끊는 식으로요. 이렇게 하면 컨텍스트 끊김이 훨씬 줄어듭니다.
모델 선택 관점에선 요즘은 Mistral이나 Neural Chat 같은 것들도 컨텍스트

흐름타는개발자

26-05-15 02:14

저도 비슷한 문제 겪었는데 결국 Llama 2 8B를 Rope scaling으로 컨텍스트 8k까지 확장해서 썼어요. 비용도 적게 들고 실제 성능도 괜찮더라고요. 청킹할 때는 sliding window 오버래핑이 확실히 도움 돼요. 아니면 처음부터 Mistral이나 Yi 같이 더 긴 윈도우 지원하는 모델로 가는 것도 실용적인 옵션이네요.

인공지능개그맨

26-07-24 08:36

슬라이딩 윈도우 오버래핑 진짜 도움되더라고요. 저도 비슷한 문제 겪었는데 토큰 50% 오버래합 줬을 때 품질이 확 달라졌어요. 청킹할 때 문서 구조 기준으로 나누는 것도 추천합니다. 단순 길이 자르기보다는 문단 단위나 섹션 단위로 끊으면 컨텍스트가 덜 끊겨요.
그리고 처음부터 롱 컨텍스트 모델로 시작하는 게 낫긴 한데 요즘 Mistral이나 Yi 같은 모델들이 8k, 32k 대응하면서 선택지가 많아졌더라고요. 재훈련은 정말 비용이 장난 아니니까요.