국립국어원의 자원 활용, 한국어에 최적화된 차세대 언어 모델 개발

1500억개 매개변수 가진 거대 언어 모델, 다양한 산업 분야 활용 가능

SKT는 7일 국립국어원과 업무 협약을 체결하고, 국립국어원의 언어 정보를 활용하여 한국어에 최적화된 차세대 인공지능(AI) 언어 모델을 개발하기로 했다. SKT 데이비스 에릭 하트먼 Language Superintelligence Labs장(왼쪽)과 국립국어원 정희원 어문연구실장이 협약을 체결한 후 기념 촬영을 하고 있다. 사진. SKT.
SKT는 7일 국립국어원과 업무 협약을 체결하고, 국립국어원의 언어 정보를 활용하여 한국어에 최적화된 차세대 인공지능(AI) 언어 모델을 개발하기로 했다. SKT 데이비스 에릭 하트먼 Language Superintelligence Labs장(왼쪽)과 국립국어원 정희원 어문연구실장이 협약을 체결한 후 기념 촬영을 하고 있다. 사진. SKT.

[미디어SR 권혁주 기자] SK텔레콤이 한국어에 최적화된 차세대 인공지능(AI)을 개발한다.

SK텔레콤은 7일 국립국어원(원장 소강춘)과 업무 협약을 체결하고, 국립국어원의 언어 정보를 활용해 차세대 인공지능(AI) 언어 모델을 개발한다고 밝혔다.

차세대 AI 한국어 모델은 사람 수준으로 평가되는 최신 AI 언어 모델 'GPT-3'와 유사한 성능을 발휘하는 한국어 범용 언어 모델(이하 GLM, General-Purpose Language Model)이다.

GLM은 언어 관련 문제풀이, 글짓기, 번역 및 주어진 문장에 따라 간단한 코딩을 수행할 수 있는 GPT-3의 기능을 한국어에서도 구현할 수 있을 전망이다.

GLM은 일상의 감성대화, 다양한 업종의 고객센터 대화 뿐 아니라 시사, 문학, 역사, 게임에 이르기까지 다양한 영역의 언어 활동에 적용될 수 있다. 이를 기반으로 새로운 산업 분야에 추가 활용될 수 있을 것으로 기대된다.

SKT가 개발하는 GLM은 1500억개의 매개변수를 가진 거대 언어 모델로 개발될 예정이다. 최신 언어 모델인 'GPT-3'는 1750억개의 매개변수를 가지고 있어, 이전 GPT-2보다 100배 이상 크고, 보다 높은 정확도와 넓은 활용도를 갖고 있다. 이를 감안하면 1500억개의 매개변수를 가진 GLM은 한국어 AI 언어 모델의 결정판이 될 것으로 예상된다.

SKT는 올해 말까지 GLM을 개발해 모델 성능을 검증한 후 상용화를 진행할 예정이다. 또한 한국어 언어모델 성능 평가 방법 개발 및 한국어 데이터 품질 평가 연구도 추진할 예정이다.

SKT 관계자는 "SKT는 2018년부터 AI 언어모델을 개발해 왔다"면서 "작년 10월에는 뉴스나 문서를 고품질 요약문으로 만들어내는 능력 등 텍스트 처리 역량이 뛰어난 KoBART를 개발해 자연어 이해 및 처리 영역의 기술력을 강화했다"고 설명했다.

국립국어원 정희원 어문연구실장은 “앞으로도 인공지능 개발에 필요한 언어 정보자원을 지속적으로 발굴해 관련 산업계와 학계에서 유용하게 활용될 수 있도록 시스템을 구축해 나가겠다"라고 말했다.

저작권자 © 데일리임팩트 무단전재 및 재배포 금지