3,000개면 충분한 편이에요. LoRA는 비용이 적게 들어서 좋긴 한데, 데이터가 도메인 특화된 거면 풀 파인튜닝도 고려해볼 만합니다. 일단 LoRA로 시작해서 성능이 부족하면 풀튜닝 가는 게 현실적이거든요. Hugging Face의 transformers 라이브러리로 시작하면 튜토리얼도 많고, peft로 LoRA 구현하면 코드도 간단해요. 취준생이시면 Colab 무료 T4 GPU로도 충분히 가능합니다.
딥러닝장인
3,000개 정도면 LoRA로 충분할 것 같아요. 풀 파인튜닝은 보통 10만 개 이상의 대규모 데이터셋이 있을 때 고려하는 거라 취준생 입장에선 오버킬이에요.
저도 비슷하게 시작했는데 허깅페이스의 `transformers` 라이브러리에 `peft`를 조합해서 하면 편하더라고요. `axolotl` 같은 프레임워크도 있고요. 문서도 충실하고 비용 안 드니까 추천합니다.
다만 데이터 전처리가 생각보다 중요하니까 그 부분에 시간을 할애하세요.