메뉴바로가기본문바로가기

동아사이언스

딱딱한 문어체 글만 잘 읽던 AI, 이젠 구어체가 더 편해졌다

통합검색

딱딱한 문어체 글만 잘 읽던 AI, 이젠 구어체가 더 편해졌다

2020.08.06 18:11
ETRI 구어체 엑소브레인 언어분석API 공개
한국전자통신연구원 제공
한국전자통신연구원 제공

 

한글 문어체 문장(글)보다 분석하기 더 어려운 구어체 문장을 분석하는 언어분석 인공지능(AI)기술이 국내에서 개발됐다. 구어체 문장은 사람에겐 문어체보다 덜 딱딱하고 오히려 이해하기 쉽지만 표기상 복잡성이 많아 AI가 이해하기 어려웠다. 구어체 글 분석기술을 좀 더 발전시키면 표준어 문장뿐 아니라 사투리 말까지 이해하는 AI 서비스 개발에 더욱 속도가 붙을 것으로 보인다. 

 

한국전자통신연구원(ETRI)은 6일 위키백과와 법령을 학습하는데 활용하던 문어체 중심의 언어분석 기술을 한층 발전시킨 구어체 언어분석 기술을 개발해 응용프로그래밍인터페이스(API) 형태로 공개한다고 밝혔다. 

 

ETRI가 개발한 언어분석 API는 앞서 2017년 공개한 언어분석AI 한컴2020에도 들어간 문어체 분석 엑소브레인을 한층 발전시킨 것이다. 이 AI는 지금도 하루 2만6000건이 넘는 문서를 분석할만큼 널리 사용되고 있다. 


연구진은 문어체 분석기술을 더 발전시켜 사람의 특성에 따라 달라지는 구어체 글을 정확하게 이해하는 기술을 선보였다. 의미의 최소 단위인 형태소분석과 ‘국민’과 ‘은행’ 같은 일반 명사들이 섞여 있는 문장에서 ‘국민은행’과 같은 고유명사를 분리해 인식하는 개체명 인식 기술이다.  
구어체는 사람마다 표현 방식이 다르고 쓰는 방법도 달라 일정한 정제된 유형을 보이는 문어체보다 분석하기가 더 어렵다. 

 

예를 들어 ‘경상도인데’를 ‘경상돈데’라고 구어체 축약표현으로 문장을 표기할 경우 ‘경상도’와 ‘인데’로 구분하지 못하는 일이 많기 때문이다. 문어체 문장은 우리말 표기법을 따르기 때문에 대규모 학습데이터를 필요로 하지만 구어체 문장 데이터는 구하기 어렵다는 문제도 있었다. ETRI에 따르면 개체명 인식 학습데이터의 경우, 문어체는 약 27만 건에 이르지만 구어체 데이터는 2만5000건에 불과하다. 

 

연구진은 전이학습과 데이터 증강기법에서 해법을 찾았다. 전이학습과 데이터 증강기법은 학습 자료가 부족한 환경에서 다른 분야의 학습 모델과 소량의 학습데이터를 재사용하는 방식으로 학습을 하는 극복 기술이다. 


이번에 공개된 구어체 언어분석AI는 문어체 분석AI보다 형태소 분석 능력은 5%, 개체명 인식 능력은 7.6% 개선된 것으로 나타났다. 오류율도 각각 41.74%와 39.38%가 줄었다. ETRI는 구어체 언어분석 API와 함께 성능을 개선한 문어체 언어분석 API도 추가로 공개했다. 추가로 공개된 API는 형태소 분석과 개체명 인식 정확도가 각각 96.80%, 89.40%로 올라갔다.

 

임준호 ETRI 책임연구원은“기존 기술이 주로 백과사전과 법령을 학습하기 위한 목적으로 개발됐지만 꾸준히 구어체 분야에서도 활용됐다”며 “구어체 언어분석 API 공개로 언어분석의 정확도 및 신뢰도를 높여 국내 AI시장이 더욱 활성화되길 기대한다”고 밝혔다.


 

관련 태그 뉴스

이 기사가 괜찮으셨나요? 메일로 더 많은 기사를 받아보세요!

댓글 0

20 + 2 = 새로고침
###
    과학기술과 관련된 분야에서 소개할 만한 재미있는 이야기, 고발 소재 등이 있으면 주저하지 마시고, 알려주세요. 제보하기