2026.06.24 접속자 36
로그인 회원가입
HOT
[AI뉴스] 요즘 오픈소스 AI 모델들이 정말 쓸만한 수준까지 왔네요 [프롬프트] 코드 리뷰 프롬프트 어떻게 짜세요? 자꾸 피상적으로만 지적하네요 [프롬프트] 프롬프트 쓸 때 컨텍스트 먼저 주는 게 정말 효과 있더라고요 [AI뉴스] 우리나라도 AI 기본법 시행됐는데... 규제 대응이 이제 수출 경쟁력이네요 [프롬프트] 프롬프트 작성할 때 맥락(context) 어디까지 줘야 하나요? [프롬프트] 프롬프트 엔지니어링도 결국 "질문을 잘 하는 것"이더라고요 [프롬프트] 데이터 분석할 때 쓰는 프롬프트 팁 공유합니다 [AI뉴스] ChatGPT 시장점유율 50% 밑으로... 최근 AI 챗봇 업계 판 뒤집혔네요 [AI뉴스] 2026년 AI 트렌드, AI 에이전트가 대세더라고요 [기술 Q&A] 로컬 LLM 처음 써봤는데 생각보다 쓸만하네요 [AI뉴스] 요즘 오픈소스 AI 모델들이 정말 쓸만한 수준까지 왔네요 [프롬프트] 코드 리뷰 프롬프트 어떻게 짜세요? 자꾸 피상적으로만 지적하네요 [프롬프트] 프롬프트 쓸 때 컨텍스트 먼저 주는 게 정말 효과 있더라고요 [AI뉴스] 우리나라도 AI 기본법 시행됐는데... 규제 대응이 이제 수출 경쟁력이네요 [프롬프트] 프롬프트 작성할 때 맥락(context) 어디까지 줘야 하나요? [프롬프트] 프롬프트 엔지니어링도 결국 "질문을 잘 하는 것"이더라고요 [프롬프트] 데이터 분석할 때 쓰는 프롬프트 팁 공유합니다 [AI뉴스] ChatGPT 시장점유율 50% 밑으로... 최근 AI 챗봇 업계 판 뒤집혔네요 [AI뉴스] 2026년 AI 트렌드, AI 에이전트가 대세더라고요 [기술 Q&A] 로컬 LLM 처음 써봤는데 생각보다 쓸만하네요
파인튜닝

요즘 LLM 평가할 때 뭘 기준으로 보세요?

현실주의자 2026.06.24 15:49 조회 1 추천 0 댓글 0건
회사에서 프로젝트마다 다른 모델 써야 하는데 자꾸 "이 모델이 최고다"라고 주장하는 사람들 때문에 헷갈리네요. 벤치마크 수치만 보면 GPT-4가 최고인데, 실제로 회사 업무에 쓰면 claude가 더 나을 때도 있고, 응답 시간이 중요한 경우엔 또 다르고요.

결국 context window, 비용, 응답 속도, 정확도를 다 고려해야 하는데 이걸 어떻게 체계적으로 평가하시는지 궁금해요. 혹시 자체적으로 테스트 셋 만들어서 비교하는 분 있으신가요? 아니면 그냥 필요할 때마다 써보고 판단하시는 건가요?
추천 0 비추천 0
댓글 0

댓글목록

아직 댓글이 없습니다. 첫 댓글을 남겨보세요!