요즘 ChatGPT랑 Claude, Gemini 이것저것 만져보다가 문득 드는 생각이 생겼어요. 같은 모델인데 한국어로 물어보면 답변이 좀 다르더라고요. 특히 문화적인 맥락이 필요한 질문에서 그런 것 같은데, 이게 단순히 학습 데이터 비중 때문인지 아니면 근본적으로 다르게 이해하는 건지 궁금합니다.
예를 들어서 "한국 문화에서 나이 먹는 것의 의미"를 물어보면 GPT는 꽤 괜찮은 답을 주는데, 좀 더 미묘한 뉘앙스를 잡아야 할 때는 아직도 한계가 있는 것 같아요. 반면 영어로는 꽤 정교하게 답하더라고요. 문법도 그런데, 한국어의 존댓말 체계 같은 건 어떻게 처리하는지도 신기하고요.
혹시 이 분야 공부하시는 분이나 관심 있으신 분 계신가요? 이게 데이터 문제인지, 아니면 한국어라는 언어 자체의 특성 때문에 모델이 다르게 작동하는 건지 얘기 나눠보고 싶어요. 특히 요즘 한글 LLM들이 나오고 있는데, 그게 정말 영어 기반 모델보다 한국어를 더 잘 이해할 수 있는 건지도 궁금하네요.
제 생각엔 단순한 번역의 문제라기보다는 좀 더 깊은 레벨에서 언어를 이해하는 방식 자체가 다를 것 같긴 한데, 이런 거 어디서 배우거나 공부할 수 있을까요? NLP 기초부터 시작해야 하나요, 아니면 더 구체적인 분야가 있나요?