요즘 시퀀스 길이가 긴 데이터로 학습할 때 attention mask를 어떻게 적용하는 게 가장 효율적인지 고민이 많아요. 보통 패딩 토큰에 대해 마스킹을 하는데, 실제 프로덕션 환경에서는 어떻게 하시는지 궁금합니다.
특히 배치 처리할 때 각 샘플의 길이가 다르면 결국 가장 긴 길이에 맞춰야 하잖아요. 그런데 이렇게 되면 불필요한 연산이 엄청 생기더라고요. 혹시 이 부분 최적화하는 좋은 방법이 있을까요?
masked language modeling 할 때도 mask token과 padding token의 구분을 명확하게 해야 하는지 애매한데, 어떻게 처리하시는지 공유해주시면 감사하겠습니다.
추천 0 비추천 0