최근 사내에서 특정 도메인 데이터로 오픈소스 모델을 파인튜닝해보려고 하는데, 학습에 필요한 토큰 수 계산하는 방법을 정확히 모르겠어요. 당연히 데이터셋에 있는 토큰 수를 합치면 되는 줄 알았는데, 에포크(epoch)를 여러 번 돌 때는 어떻게 계산해야 하나요?
예를 들어 제 데이터셋이 약 50만 개의 텍스트인데, 토크나이저로 처리하니 총 1억 개 정도의 토큰이 나왔어요. 그럼 에포크를 3번 돌면 3억 개인가요? 아니면 배치 크기나 시퀀스 길이도 고려해야 하나요?
또 하나 궁금한 게, 일부 파인튜닝 튜토리얼에서는 "충분한 데이터 양"이 중요하다고 해서 같은 데이터로 여러 번 반복 학습하더라고요. 근데 실제로 그렇게 하면 모델이 데이터를 암기하는 건 아닐까 걱정돼요. 실무에서는 보통 어느 정도 규모의 데이터로 진행하시나요?
예산 문제도 있어서 클라우드 비용 예측을 제대로 하고 싶은데, 토큰 수에 따라 정확히 가격이 달라지거든요. 혹시 이거에 대한 경험이 있으신 분들 의견 좀 들어볼 수 있을까요?
추천 0 비추천 0