요즘 작은 모델로 특정 도메인 데이터셋으로 파인튜닝을 하고 있는데, 계산 비용 때문에 임베딩 층은 고정하고 트랜스포머 블록만 학습시켜봤거든요. 전체 파라미터를 학습할 때보다 성능이 눈에 띄게 떨어지더라고요.
혹시 이게 일반적인 현상인가요? 아니면 제 설정이나 데이터셋 문제일 가능성이 높나요. 기술적으로 임베딩만 고정해도 충분할 거라고 생각했는데 실제론 그렇지 않은 건가 싶기도 하고요.
혹시 비슷한 경험 있으신 분이나 이론적으로 설명해주실 분 계신가요?
추천 1 비추천 0