한국의 선도적인 국내 자생 AI 모델들이 대학입시 수학 문제와 고급 서술형 문제를 테스트한 새로운 학술 연구에 의해 해외의 선두 경쟁자인 ChatGPT와 DeepSeek 같은 경쟁사들에 비해 크게 뒤처진 것으로 나타났다.
이 연구 결과는 외국 플랫폼에 의존하지 않고 한국어와 국내 데이터를 주로 학습한 채 자립적으로 작동하는 주권형 AI 시스템을 개발하려는 국내의 움직임이 이어지는 가운데 발표됐다.
서강대학교 수학과의 김존락 교수 연구팀은 정부가 주도하는 독점형 AI 모델 이니셔티브에 참여한 다섯 국내 팀의 대표적인 대형 언어 모델(LLM) 다섯 모델과 미국·중국에서 개발된 다섯 모델을 함께 비교 평가했다.
연구팀은 한국사와 문학 등 일반 교과를 포함한 CSAT의 20문항과 확률과 통계, 미적분, 기하를 다루는 고난도 문제를 테스트에 활용했다. 또한 한국의 10개 대학의 기출문제, 인도 대학입시, 일본 도쿄대 대학원 공학 입학시험에서 발췌한 서술형 수학 문제 30문항을 추가로 제시해 총 50문항을 시험에 사용했다.
국내 LLM으로는 Upstage의 Solar Pro-2, LG AI Research의 Exaone 4.0.1, 네이버의 HCX-007, SK텔레콤의 A.X 4.0(72B), NCsoft의 경량화된 Llama Varco 8B Instruct가 포함됐다. 해외 모델은 GPT-5.1, Gemini 3 Pro Preview, Claude Opus 4.5, Grok 4.1 Fast, DeepSeek V3.2였다.
한국어가 아닌 모델의 점수는 76점에서 92점 사이를 기록했다. 한국 모델들 중 Solar Pro-2가 58점을 얻었고, 나머지 국내 모델은 대체로 20점대에 머물렀다. Llama Varco 8B Instruct는 2점으로 최저점을 기록했다.
연구팀은 간단한 추론만으로 문제를 해결하기에 충분하지 않을 때도 국내 모델들이 파이썬 도구를 사용할 수 있도록 허용했음에도 불구하고 성능 격차가 여전히 크게 벌어져 있음을 확인했다고 밝혔다.
연구팀은 EntropyMath라는 독점적인 문제 세트의 100문항 중에서 학부 과정에서 교수급 연구에 이르는 난이도에 해당하는 10문항을 추가로 선정해 평가를 확장했다. 그 평가에서 비한국어 모델은 82.8점에서 90점 사이를 기록한 반면, 국내 모델은 7.1점에서 53.3점 사이에 머물렀다.
또 다른 실험으로 문제당 최대 세 차례의 시도를 허용하고, 각 시도 안에 정답에 도달하면 합격으로 간주하는 방식으로 진행했을 때 Grok는 만점을 기록했고, 다른 비한국어 모델들은 90점을 얻었다. 국내 모델 중 Solar Pro-2는 70점으로 선두를 차지했고, Exaone은 60점, HCX-007은 40점, A.X 4.0은 30점, Llama Varco 8B Instruct는 20점을 얻었다.
“ sovereign AI 모델이 CSAT 수준의 수학 문제까지 평가받았는지에 대해 많은 질문을 받고 이 테스트를 진행하게 됐다”고 김 교수는 말했다. “해외의 최전선 모델들과의 격차는 여전히 상당하다”라고 덧붙였다.
연구팀은 국내 모델의 공개 버전을 사용했고, AI 모델의 새 버전이 발표되면 내부적으로 개발한 문제를 활용해 해당 평가를 재실시할 계획이라고 밝혔다.
김 교수는 팀이 EntropyMath를 기반으로 수학 리더보드를 구축했으며 이를 국제적으로 확장하는 것을 목표로 하고 있다고 말했다.
“과학, 제조, 문화와 같은 영역에서 도메인 특화 데이터셋 개발에 기여하기 위해 문제 생성 알고리즘과 파이프라인을 강화할 계획이다”라고 그는 말했다.
이 연구는 서강대학교 수학 및 데이터 과학 연구소와 AI 스타트업 DeepFountain의 공동 지원으로 수행됐다.
BY JEONG JAE-HONG [email protected]

