2026.06.20 접속자 30명

로그인 | 회원가입 | AI 서비스

HOT

[AI뉴스] 요즘 ChatGPT, Claude, Gemini 중 뭘 쓰세요? [AI뉴스] OpenAI가 IPO 신청했대요... 1조 달러 목표면 진짜 어마하네요 [프롬프트] GPT한테 물어보는 방식 바꿨더니 답변이 완전 달라졌어요 [프롬프트] 실무에서 써먹는 프롬프트 팁 - 맥락 주기가 진짜 중요하더라고요 [AI뉴스] 요즘 AI 업계 움직임이 심심치 않네요... 최신 소식 정리해봤습니다 [AI뉴스] 요즘 오픈소스 AI 모델들이 정말 미쳤더라고요 [AI뉴스] AI 에이전트가 핫한데 보안 문제가 심각하네요 [프롬프트] 실무에서 쓸 만한 프롬프트 공유해주실 분 있나요? [프롬프트] 업무 자동화 프롬프트 만드는데 자꾸 실패하는데 뭐가 문제일까요? [프롬프트] 프롬프트 엔지니어링도 결국 '문맥'이 핵심인 것 같아요 [AI뉴스] 요즘 ChatGPT, Claude, Gemini 중 뭘 쓰세요? [AI뉴스] OpenAI가 IPO 신청했대요... 1조 달러 목표면 진짜 어마하네요 [프롬프트] GPT한테 물어보는 방식 바꿨더니 답변이 완전 달라졌어요 [프롬프트] 실무에서 써먹는 프롬프트 팁 - 맥락 주기가 진짜 중요하더라고요 [AI뉴스] 요즘 AI 업계 움직임이 심심치 않네요... 최신 소식 정리해봤습니다 [AI뉴스] 요즘 오픈소스 AI 모델들이 정말 미쳤더라고요 [AI뉴스] AI 에이전트가 핫한데 보안 문제가 심각하네요 [프롬프트] 실무에서 쓸 만한 프롬프트 공유해주실 분 있나요? [프롬프트] 업무 자동화 프롬프트 만드는데 자꾸 실패하는데 뭐가 문제일까요? [프롬프트] 프롬프트 엔지니어링도 결국 '문맥'이 핵심인 것 같아요

목록

활용법

Transformer 모델에서 attention mask 적용하는 방식이 궁금해요

딥러너 2026.05.06 22:51 조회 93 추천 13 댓글 1건

요즘 시퀀스 길이가 긴 데이터로 학습할 때 attention mask를 어떻게 적용하는 게 가장 효율적인지 고민이 많아요. 보통 패딩 토큰에 대해 마스킹을 하는데, 실제 프로덕션 환경에서는 어떻게 하시는지 궁금합니다.

특히 배치 처리할 때 각 샘플의 길이가 다르면 결국 가장 긴 길이에 맞춰야 하잖아요. 그런데 이렇게 되면 불필요한 연산이 엄청 생기더라고요. 혹시 이 부분 최적화하는 좋은 방법이 있을까요?

masked language modeling 할 때도 mask token과 padding token의 구분을 명확하게 해야 하는지 애매한데, 어떻게 처리하시는지 공유해주시면 감사하겠습니다.

추천 13 비추천 0

이전글요즘 LLM 파인튜닝 어떻게 하시는데요?26.05.07
다음글프롬프트 엔지니어링으로 Claude 성능 차이 확실히 나나요?26.05.05

댓글 1

댓글목록

딥러닝장인

26-06-09 06:47

저도 같은 부분 고민 많았는데, 결국 동적 패딩(dynamic padding)으로 처리하는 게 제일 효율적더라고요. 배치 내에서만 최대 길이에 맞추면 불필요한 연산을 많이 줄일 수 있어요.
MLM할 땐 padding mask와 MLM mask를 분리해서 적용하는 게 중요해요. 패딩 토큰은 애초에 attention에서 제외시키고, MLM mask는 학습 목표 달성을 위해 별도로 처리하는 식으로요. HuggingFace 라이브러리 쓰면 이 부분이 자동으로 처리돼서 편하더라고요.