2026.06.15 접속자 12
로그인 회원가입
HOT
[프롬프트] AI한테 물어볼 때 이 프롬프트 쓰니까 훨씬 나아졌어요 [AI뉴스] AWS, Google 잇따라 에이전트 AI 플랫폼 발표... 이제 알아두면 좋을 신기술들 [프롬프트] 업무 프롬프트 짜는데 자꾸 장황해져요 [기술 Q&A] Transformer 모델의 positional encoding 방식 바꿔도 괜찮나요? [기술 Q&A] LLM 토큰 길이 제한 때문에 답답한데 실무에선 어떻게 처리하세요? [기술 Q&A] LLM 파인튜닝 해본 사람 있나요? [AI뉴스] 요즘 오픈소스 LLM 수준이 진짜 미쳤네... 상용 모델과의 격차가 좁혀졌다고 봐야 나요? [AI뉴스] AI 기본법 시행 4개월 됐는데, 회사에서 아직도 놔두네요 ㅠㅠ [AI뉴스] 요즘 AI가 달라졌대요... 뭐가 계속 바뀌는 거죠? [AI뉴스] 앤트로픽 클로드 페이블 5 출시됐네요... 인간 전문가 수준이라고? [프롬프트] AI한테 물어볼 때 이 프롬프트 쓰니까 훨씬 나아졌어요 [AI뉴스] AWS, Google 잇따라 에이전트 AI 플랫폼 발표... 이제 알아두면 좋을 신기술들 [프롬프트] 업무 프롬프트 짜는데 자꾸 장황해져요 [기술 Q&A] Transformer 모델의 positional encoding 방식 바꿔도 괜찮나요? [기술 Q&A] LLM 토큰 길이 제한 때문에 답답한데 실무에선 어떻게 처리하세요? [기술 Q&A] LLM 파인튜닝 해본 사람 있나요? [AI뉴스] 요즘 오픈소스 LLM 수준이 진짜 미쳤네... 상용 모델과의 격차가 좁혀졌다고 봐야 나요? [AI뉴스] AI 기본법 시행 4개월 됐는데, 회사에서 아직도 놔두네요 ㅠㅠ [AI뉴스] 요즘 AI가 달라졌대요... 뭐가 계속 바뀌는 거죠? [AI뉴스] 앤트로픽 클로드 페이블 5 출시됐네요... 인간 전문가 수준이라고?
파인튜닝

Transformer 모델의 positional encoding 방식 바꿔도 괜찮나요?

딥러너 2026.06.09 22:01 조회 81 추천 2 댓글 1건
요즘 소규모 프로젝트에서 시퀀스 길이가 최대 512 토큰 정도로 고정되어 있는데, 절대 위치 인코딩 대신 상대 위치 인코딩으로 바꿔서 실험 중입니다. 일반적으로 ALiBi나 RoPE 같은 방식들이 외삽성이 더 좋다고 알고 있는데, 실제로 fine-tuning할 때 성능 차이가 얼마나 나는지 궁금하네요.

혹시 비슷한 실험을 해보신 분 계신가요? 특히 작은 데이터셋에서는 오히려 절대 위치 인코딩이 수렴이 더 빠를 수도 있을 것 같은데, 이게 맞는 예상일까요? 논문에서는 큰 모델 기준으로 설명하다 보니까 작은 스케일에서의 trade-off는 찾기가 어렵더라고요.

혹시 최근에 해본 경험이나 참고할 만한 자료가 있으면 추천 부탁드립니다.
추천 2 비추천 0
댓글 1

댓글목록

profile_image
인공지능개그맨
저도 비슷한 실험 했는데 512 토큰 정도면 솔직히 절대 위치와 상대 위치 성능 차이가 거의 안 나더라고요. 오히려 절대 위치가 수렴이 더 빠른 게 맞는 것 같아요. 작은 데이터셋에서는 더욱 그렇고요.
ALiBi 시도해봤는데 외삽성은 좋지만 이 정도 스케일에선 오버스펙인 느낌이었어요. 차라리 간단한 Fourier encoding 정도가 가성비 좋더라고요.
혹시 fine-tuning 과정에서 learning rate 어떻게 잡으셨어요? 포지션 인코딩 방식보다 그게 더 영향 큰 것 같긴 한데요.