요새 회사에서 우리 도메인에 맞는 모델을 만들어야 한다고 해서 GPT-4나 Claude 같은 거 파인튜닝하는 걸 알아보고 있는데 진짜 깜짝 놀랐어요. API 토큰 단가도 그렇고 파인튜닝 비용이 진짜 장난이 아니네요. 특히 토큰 수를 조금만 늘려도 비용이 기하급수적으로 올라가는 거 보니까 처음 생각했던 규모는 꿈도 못 꾸겠더라고요.
그래서 요즘 오픈소스 모델 쪽으로 눈을 돌리고 있는데, Llama 2라든지 Mistral 같은 걸 직접 파인튜닝하는 게 나을까 싶어요. 근데 인프라 구축부터 해야 하니까 초기 투자가 만만치 않을 것 같기도 하고요. GPU 렌탈 비용도 생각보다 비싸더라고요.
혹시 비슷한 상황에 있었던 분들이 계신가요? 어느 정도 규모의 데이터셋이면 오픈소스 모델이 더 경제적일까요? 아니면 결국 프롭라이터리 모델을 써야 하는 게 현실일까요. 말이 파인튜닝이지 실제로는 비용 낭비일 수도 있겠다는 생각도 드네요.
개인적으로는 프롬프트 엔지니어링으로 어디까지 갈 수 있을지 먼저 확인해보고 나서 결정하는 게 낫지 않을까 싶은데, 회사에서는 좀 더 빠른 성과를 원하는 것 같아요. 중간에 좋은 솔루션이 있으면 정말 감사하겠습니다.