2026.06.25 접속자 15
로그인 회원가입
HOT
[프롬프트] 프롬프트 작성할 때 맥락(context) 어디까지 줘야 하나요? [프롬프트] 프롬프트 엔지니어링도 결국 "질문을 잘 하는 것"이더라고요 [AI뉴스] ChatGPT 시장점유율 50% 밑으로... 최근 AI 챗봇 업계 판 뒤집혔네요 [프롬프트] 데이터 분석할 때 쓰는 프롬프트 팁 공유합니다 [AI뉴스] 2026년 AI 트렌드, AI 에이전트가 대세더라고요 [프롬프트] ChatGPT에서 뽑아낸 프롬프트 팁 하나 공유합니다 [AI뉴스] 2026년 들어 오픈소스 LLM이 상용 모델 수준으로 따라잡았더라 [프롬프트] AI한테 물어볼 때 이렇게 프롬프트하니까 훨씬 잘 나오더라고요 [AI뉴스] 올해 LLM 경쟁이 미쳤네... 오픈소스까지 상용 모델 따라잡으니 [기술 Q&A] LLM 토크나이저 성능 비교 - GPT vs Claude vs Llama [프롬프트] 프롬프트 작성할 때 맥락(context) 어디까지 줘야 하나요? [프롬프트] 프롬프트 엔지니어링도 결국 "질문을 잘 하는 것"이더라고요 [AI뉴스] ChatGPT 시장점유율 50% 밑으로... 최근 AI 챗봇 업계 판 뒤집혔네요 [프롬프트] 데이터 분석할 때 쓰는 프롬프트 팁 공유합니다 [AI뉴스] 2026년 AI 트렌드, AI 에이전트가 대세더라고요 [프롬프트] ChatGPT에서 뽑아낸 프롬프트 팁 하나 공유합니다 [AI뉴스] 2026년 들어 오픈소스 LLM이 상용 모델 수준으로 따라잡았더라 [프롬프트] AI한테 물어볼 때 이렇게 프롬프트하니까 훨씬 잘 나오더라고요 [AI뉴스] 올해 LLM 경쟁이 미쳤네... 오픈소스까지 상용 모델 따라잡으니 [기술 Q&A] LLM 토크나이저 성능 비교 - GPT vs Claude vs Llama
파인튜닝

요즘 LLM 평가할 때 뭘 기준으로 보세요?

현실주의자 2026.06.24 15:49 조회 3 추천 0 댓글 0건
회사에서 프로젝트마다 다른 모델 써야 하는데 자꾸 "이 모델이 최고다"라고 주장하는 사람들 때문에 헷갈리네요. 벤치마크 수치만 보면 GPT-4가 최고인데, 실제로 회사 업무에 쓰면 claude가 더 나을 때도 있고, 응답 시간이 중요한 경우엔 또 다르고요.

결국 context window, 비용, 응답 속도, 정확도를 다 고려해야 하는데 이걸 어떻게 체계적으로 평가하시는지 궁금해요. 혹시 자체적으로 테스트 셋 만들어서 비교하는 분 있으신가요? 아니면 그냥 필요할 때마다 써보고 판단하시는 건가요?
추천 0 비추천 0
댓글 0

댓글목록

아직 댓글이 없습니다. 첫 댓글을 남겨보세요!