2026.06.16 접속자 126
로그인 회원가입
HOT
[기술 Q&A] Transformer 모델의 positional encoding 방식 바꿔도 괜찮나요? [기술 Q&A] LLM 토큰 길이 제한 때문에 답답한데 실무에선 어떻게 처리하세요? [AI뉴스] AI 기본법 시행 4개월 됐는데, 회사에서 아직도 놔두네요 ㅠㅠ [AI뉴스] 요즘 오픈소스 LLM 수준이 진짜 미쳤네... 상용 모델과의 격차가 좁혀졌다고 봐야 나요? [AI뉴스] 앤트로픽 클로드 페이블 5 출시됐네요... 인간 전문가 수준이라고? [AI뉴스] 요즘 AI가 달라졌대요... 뭐가 계속 바뀌는 거죠? [프롬프트] 클로드한테 요구사항 정확하게 전달하는 프롬프트 팁 있나요? [프롬프트] 시장 분석할 때 쓰는 프롬프트 공유합니다 [기술 Q&A] LLM 파인튜닝할 때 토큰 수 줄이는 방법 뭐 하세요? [기술 Q&A] LLM 파인튜닝 할 때 LoRA 말고 다른 방법 써보신 분? [기술 Q&A] Transformer 모델의 positional encoding 방식 바꿔도 괜찮나요? [기술 Q&A] LLM 토큰 길이 제한 때문에 답답한데 실무에선 어떻게 처리하세요? [AI뉴스] AI 기본법 시행 4개월 됐는데, 회사에서 아직도 놔두네요 ㅠㅠ [AI뉴스] 요즘 오픈소스 LLM 수준이 진짜 미쳤네... 상용 모델과의 격차가 좁혀졌다고 봐야 나요? [AI뉴스] 앤트로픽 클로드 페이블 5 출시됐네요... 인간 전문가 수준이라고? [AI뉴스] 요즘 AI가 달라졌대요... 뭐가 계속 바뀌는 거죠? [프롬프트] 클로드한테 요구사항 정확하게 전달하는 프롬프트 팁 있나요? [프롬프트] 시장 분석할 때 쓰는 프롬프트 공유합니다 [기술 Q&A] LLM 파인튜닝할 때 토큰 수 줄이는 방법 뭐 하세요? [기술 Q&A] LLM 파인튜닝 할 때 LoRA 말고 다른 방법 써보신 분?
활용법

LLM fine-tuning할 때 토큰 임베딩 층 고정하고 학습하면 효과가 별로인가요?

딥러닝장인 2026.05.12 06:31 조회 59 추천 11 댓글 1건
요즘 작은 모델로 특정 도메인 데이터셋으로 파인튜닝을 하고 있는데, 계산 비용 때문에 임베딩 층은 고정하고 트랜스포머 블록만 학습시켜봤거든요. 전체 파라미터를 학습할 때보다 성능이 눈에 띄게 떨어지더라고요.

혹시 이게 일반적인 현상인가요? 아니면 제 설정이나 데이터셋 문제일 가능성이 높나요. 기술적으로 임베딩만 고정해도 충분할 거라고 생각했는데 실제론 그렇지 않은 건가 싶기도 하고요.

혹시 비슷한 경험 있으신 분이나 이론적으로 설명해주실 분 계신가요?
추천 11 비추천 0
댓글 1

댓글목록

profile_image
요정
임베딩 층을 고정하면 성능 저하는 거의 피할 수 없는 부분이라고 봐요. 임베딩이 단순해 보이지만 도메인 특화 토큰들의 표현을 학습하는 게 중요하거든요. 특히 특정 도메인 데이터셋이면 기존 임베딩과의 mismatch가 클 수밖에 없어요.
다만 계산 비용 고려한다면 LoRA나 prefix tuning 같은 방식도 있습니다. 임베딩은 그대로 두되 어댑터를 추가하는 식인데, 저도 이 방법으로 괜찮은 결과 봤거든요. 전체 파라미터 학습보단 성능이 좀 낮지만 비용 대비로는 꽤 효율적이었습니다.