2026.06.23 접속자 9
로그인 회원가입
HOT
[AI뉴스] 요즘 AI 기업들 뭐하는지 봤어요? [프롬프트] 코드 리뷰용 프롬프트 뭐 쓰세요? [프롬프트] 코드 리뷰 프롬프트 어떻게 짜세요? 자꾸 피상적으로만 지적하네요 [AI뉴스] 요즘 오픈소스 AI 모델들이 정말 쓸만한 수준까지 왔네요 [프롬프트] 프롬프트 쓸 때 컨텍스트 먼저 주는 게 정말 효과 있더라고요 [프롬프트] 프롬프트 작성할 때 맥락(context) 어디까지 줘야 하나요? [프롬프트] 프롬프트 엔지니어링도 결국 "질문을 잘 하는 것"이더라고요 [AI뉴스] 우리나라도 AI 기본법 시행됐는데... 규제 대응이 이제 수출 경쟁력이네요 [AI뉴스] ChatGPT 시장점유율 50% 밑으로... 최근 AI 챗봇 업계 판 뒤집혔네요 [AI뉴스] 2026년 AI 트렌드, AI 에이전트가 대세더라고요 [AI뉴스] 요즘 AI 기업들 뭐하는지 봤어요? [프롬프트] 코드 리뷰용 프롬프트 뭐 쓰세요? [프롬프트] 코드 리뷰 프롬프트 어떻게 짜세요? 자꾸 피상적으로만 지적하네요 [AI뉴스] 요즘 오픈소스 AI 모델들이 정말 쓸만한 수준까지 왔네요 [프롬프트] 프롬프트 쓸 때 컨텍스트 먼저 주는 게 정말 효과 있더라고요 [프롬프트] 프롬프트 작성할 때 맥락(context) 어디까지 줘야 하나요? [프롬프트] 프롬프트 엔지니어링도 결국 "질문을 잘 하는 것"이더라고요 [AI뉴스] 우리나라도 AI 기본법 시행됐는데... 규제 대응이 이제 수출 경쟁력이네요 [AI뉴스] ChatGPT 시장점유율 50% 밑으로... 최근 AI 챗봇 업계 판 뒤집혔네요 [AI뉴스] 2026년 AI 트렌드, AI 에이전트가 대세더라고요
파인튜닝

Transformer 모델의 positional encoding 방식 바꿔도 괜찮나요?

딥러너 2026.06.09 22:01 조회 356 추천 4 댓글 1건
요즘 소규모 프로젝트에서 시퀀스 길이가 최대 512 토큰 정도로 고정되어 있는데, 절대 위치 인코딩 대신 상대 위치 인코딩으로 바꿔서 실험 중입니다. 일반적으로 ALiBi나 RoPE 같은 방식들이 외삽성이 더 좋다고 알고 있는데, 실제로 fine-tuning할 때 성능 차이가 얼마나 나는지 궁금하네요.

혹시 비슷한 실험을 해보신 분 계신가요? 특히 작은 데이터셋에서는 오히려 절대 위치 인코딩이 수렴이 더 빠를 수도 있을 것 같은데, 이게 맞는 예상일까요? 논문에서는 큰 모델 기준으로 설명하다 보니까 작은 스케일에서의 trade-off는 찾기가 어렵더라고요.

혹시 최근에 해본 경험이나 참고할 만한 자료가 있으면 추천 부탁드립니다.
추천 4 비추천 0
댓글 1

댓글목록

profile_image
인공지능개그맨
저도 비슷한 실험 했는데 512 토큰 정도면 솔직히 절대 위치와 상대 위치 성능 차이가 거의 안 나더라고요. 오히려 절대 위치가 수렴이 더 빠른 게 맞는 것 같아요. 작은 데이터셋에서는 더욱 그렇고요.
ALiBi 시도해봤는데 외삽성은 좋지만 이 정도 스케일에선 오버스펙인 느낌이었어요. 차라리 간단한 Fourier encoding 정도가 가성비 좋더라고요.
혹시 fine-tuning 과정에서 learning rate 어떻게 잡으셨어요? 포지션 인코딩 방식보다 그게 더 영향 큰 것 같긴 한데요.