요즘 특정 도메인 데이터로 오픈소스 LLM을 파인튜닝하고 있는데 계속 막히는 부분이 있어서 질문드립니다. 토큰 길이 제한 때문에 학습 데이터가 자꾸 잘려나가는 거거든요.
제 상황을 좀 설명하자면, Llama2 기반으로 의료 관련 긴 문서들을 학습시키려고 했어요. 근데 대부분의 문서가 4096 토큰을 넘어가서 학습 데이터로 사용할 수 없었어요. 일부만 자른 다음에 넣으니까 성능이 별로더라고요. 맥락이 끊겨서 그런 것 같은데 이게 맞나요?
혹시 이런 경우에 보통 어떻게 처리하시나요? 컨텍스트 윈도우를 늘리는 게 최선인지, 아니면 다른 방법이 있는지 궁금해요. 컨텍스트 윈도우 확장하면 학습 비용이 많이 늘어날 것 같긴 한데 효과가 있을까요?
그리고 혹시 문서를 의미 있는 단위로 청킹해서 각각 따로 학습시키는 방법도 있을 것 같은데, 이렇게 하면 성능 손실이 많이 나지 않나요? 아니면 처음부터 더 짧은 입력을 기반으로 한 모델을 선택하는 게 나을까요.
비슷한 문제로 고민하셨던 분들이나, 실제로 긴 문서 학습 시킨 경험 있으신 분들의 의견을 들어보고 싶습니다. 어떤 방식이 가장 실용적이었는지 알려주시면 정말 감사하겠습니다.
추천 2 비추천 0