이슈

AI, 수능 수학에 도전하다: 대한민국 AI의 현주소와 미래

son1942 2025. 12. 15. 11:10
반응형

AI, 수능 수학에 도전장을 내밀다

국내 AI 기술의 현주소를 가늠하기 위한 흥미로운 실험이 진행되었습니다. 서강대학교 김종락 교수 연구팀은 국내 국가대표 AI 모델들과 해외 AI 모델들을 대상으로 수능 수학 및 논술 문제 풀이 능력을 평가했습니다. 이 실험은 AI 기술의 발전 속도와 한계를 명확히 드러내는 계기가 되었습니다.

 

 

 

 

수능 수학, AI에게는 험난한 시험

실험에는 수능 수학 20문제와 논술 30문제가 사용되었습니다. 수능 문제는 공통과목, 확률과 통계, 미적분, 기하에서 가장 어려운 문항들을 엄선하여 구성되었으며, 논술 문제는 국내 10개 대학 기출문제, 인도 대학입시 문제, 일본 도쿄대 공대 대학원 입시 문제를 포함하여 난이도를 높였습니다. 이처럼 까다로운 문제들을 통해 AI 모델들의 실제 수학적 능력을 평가하고자 했습니다.

 

 

 

 

국내 AI, 해외 모델에 비해 낮은 점수 기록

평가 결과는 다소 충격적이었습니다. 해외 모델들은 76점에서 92점 사이의 높은 점수를 기록한 반면, 국내 모델들은 솔라 프로-2가 58점을 받았을 뿐, 나머지 모델들은 20점대에 머물렀습니다. 특히 라마 바르코 8B 인스트럭트는 2점으로 가장 낮은 점수를 기록했습니다. 이는 국내 AI 모델들이 아직 수학 문제 해결 능력에서 해외 모델에 비해 부족하다는 것을 보여줍니다.

 

 

 

 

파이썬 툴 사용에도 불구하고 낮은 적중률

연구팀은 국내 5개 모델의 문제 해결 능력을 향상시키기 위해 파이썬 툴을 사용하도록 설계했습니다. 하지만, 파이썬 툴의 활용에도 불구하고 낮은 점수를 기록한 것은 국내 AI 모델들이 단순 추론 능력 외에 문제 해결을 위한 심층적인 이해가 부족하다는 것을 시사합니다. 이는 AI 기술 개발에 있어 단순한 툴 사용 외에 근본적인 문제 해결 능력 향상이 필요함을 보여줍니다.

 

 

 

 

난이도별 자체 문제 세트, 해외 모델 압도

연구팀은 대학교 수준부터 교수급 논문 연구 수준까지 난이도를 세분화한 자체 문제 세트 '엔트로피매스(EntropyMath)'를 활용하여 추가 평가를 진행했습니다. 여기서도 해외 모델들은 82.8점에서 90점 사이의 높은 점수를 기록했지만, 국내 모델들은 7.1점에서 53.3점으로 낮은 점수를 기록했습니다. 이 결과는 국내 AI 모델들이 난이도가 높은 문제 해결에 더욱 어려움을 겪고 있음을 보여줍니다.

 

 

 

 

수학 리더보드 개설 및 데이터세트 확장의 중요성

김종락 교수는 엔트로피매스 데이터세트를 기반으로 수학 리더보드를 개설하고, 이를 국제적인 수준으로 키울 계획이라고 밝혔습니다. 또한 자체 개발 문제 생성 알고리즘과 파이프라인을 개선하여 수학뿐 아니라 과학, 제조, 문화 도메인 데이터세트를 생성하여 도메인 특화 모델 성능 개선에 기여할 것이라고 밝혔습니다. 이는 AI 기술 발전을 위한 지속적인 연구와 데이터세트의 중요성을 강조하는 부분입니다.

 

 

 

 

AI, 수능 수학을 풀다: 현재와 미래

이번 실험은 국내 AI 기술이 수능 수학 문제 풀이에서 아직 부족한 점이 많다는 것을 보여주었습니다하지만, 김종락 교수 연구팀의 지속적인 연구와 데이터세트 확장을 통해 AI 기술은 더욱 발전할 것이며, 앞으로 더욱 다양한 분야에서 활용될 수 있을 것입니다.

 

 

 

 

자주 묻는 질문

Q.이번 실험에 사용된 국내 AI 모델은 무엇인가요?

A.솔라 프로-2, 엑사원 4.0.1, HCX-007, A.X 4.0(72B), 라마 바르코 8B 인스트럭트가 사용되었습니다.

 

Q.해외 AI 모델의 점수는 어떠했나요?

A.해외 모델들은 76점에서 92점 사이의 높은 점수를 기록했습니다.

 

Q.이번 연구의 의의는 무엇인가요?

A.국내 AI 기술의 현주소를 파악하고, 앞으로의 발전 방향을 제시하는 데 기여했습니다. 또한, AI 기술 발전을 위한 데이터세트의 중요성을 강조했습니다.

 

 

 

 

 

 

반응형