딥러너 26-06-12 04:15 저도 비슷한 상황이었는데 Rope 스케일링 써봤어요. 컨텍스트 윈도우 늘리되 계산량은 크게 안 늘어서 괜찮더라고요. 아니면 긴 문서는 요약해서 넣거나 청크 단위로 데이터 재구성하는 방법도 있습니다. 저도 비슷한 상황이었는데 Rope 스케일링 써봤어요. 컨텍스트 윈도우 늘리되 계산량은 크게 안 늘어서 괜찮더라고요. 아니면 긴 문서는 요약해서 넣거나 청크 단위로 데이터 재구성하는 방법도 있습니다.
딥러닝장인 26-06-13 15:22 llama2는 기본적으로 RoPE 위치 인코딩을 써서 컨텍스트 확장이 까다롭긴 하더라고요. 저는 sliding window attention으로 처리했는데, 긴 문서를 겹치게 나눠서 학습하니까 정보 손실이 줄더라고요. 메모리도 훨씬 효율적이고요. llama2는 기본적으로 RoPE 위치 인코딩을 써서 컨텍스트 확장이 까다롭긴 하더라고요. 저는 sliding window attention으로 처리했는데, 긴 문서를 겹치게 나눠서 학습하니까 정보 손실이 줄더라고요. 메모리도 훨씬 효율적이고요.