메뉴바로가기본문바로가기

동아사이언스

ETRI, 태국·말레이·인니 언어음성DB 일반에 푼다

통합검색

ETRI, 태국·말레이·인니 언어음성DB 일반에 푼다

2019.02.27 10:49
ETRI 제공

한국전자통신연구원(ETRI)이 태국어와 말레이어, 인도네시아어의 음성 데이터베이스(DB)와 영어대역문장 DB를 일반에 배포한다고 27일 밝혔다. 영어대역문장은 영어 원문의 단어와 구절, 문장 따위를 맞대어 번역해 두 언어가 쌍을 이루는 문장 데이터를 의미한다. 아랍어, 베트남어도 기존보다 데이터양을 대폭 늘렸다.

 

이 DB는 인공지능(AI) 스피커와 내비게이션, 사물인터넷(IoT) 등 음성인식 및 번역 소프트웨어 개발에 활용된다. 품질이 좋은 언어 DB가 많을수록 다양하고 수준 높은 서비스를 제공할 수 있다. 

 

윤승 ETRI 음성지능연구그룹 박사팀은 최대한 많은 사람들의 언어 데이터를 얻기 위해 '크라우드 소싱 기법'을 도입했다. 일반 사용자 2만5000여명의 참여를 유도해 기존보다 최대 8배나 많은 데이터를 수집할 수 있었다. 단순히 데이터 양만 늘린 것이 아니라 정확도까지 99% 이상으로 높였다. 기존보다 더욱 많은 양을 축적한 데이터를 토대로 집단 지성에 의한 검증 시스템을 도입했기 때문이다.

 

연구팀은 음성을 인식하고 번역엔진을 사용하는 데 해외 의존도를 줄이고, 해당 언어를 활용한 다양한 서비스 개발에 큰 도움이 될 것으로 기대하고 있다.

 

국내 관련 업체들이 ETRI가 제공하는 자료를 받으면 DB 구축 비용을 대폭 절감할 수 있다. 해외 업체로부터 DB를 구입하는 경우, 언어 당 1~2억 원 정도의 비용이 소요된다. 하지만 ETRI는 해외 DB 가격 대비 5% 수준에서 제공할 예정이다. 

 

윤 박사는“이번에 배포하는 DB를 활용해 언어음성기술을 개발할 경우, 다양한 외국 신규시장 진출 및 국가 경쟁력 강화에 큰 기여를 할 것으로 예측한다”고 설명했다.

 

ETRI가 배포 중인 DB는 총 45종으로 ETRI 홈페이지(www.etri.re.kr, 검색창에 '언어음성' 입력)에서 볼 수 있다. 현재까지 삼성전자, LG전자, KT, 네이버, 카카오, 엔씨소프트, 보이스웨어, 셀바스AI, 시스트란 인터내셔널, 솔트룩스 등 국내 60개 기관에 367건의 DB를 배포해 총 550억 원에 해당하는 비용을 절감했다. 이번 DB 역시 국내 10개 기관에 배포할 경우, 최소 150억 원의 수입대체 효과를 얻을 수 있다.

 

향후 연구팀은 기존에 배포한 언어들의 정확도 및 데이터 품질 개선에 나서는 한편 영어와 중국어, 일본어 음성 데이터 구축을 위해 노력할 예정이다.

 

 

ETRI 제공
ETRI 제공

 

이 기사가 괜찮으셨나요? 메일로 더 많은 기사를 받아보세요!

댓글 0

16 + 3 = 새로고침
###
    과학기술과 관련된 분야에서 소개할 만한 재미있는 이야기, 고발 소재 등이 있으면 주저하지 마시고, 알려주세요. 제보하기

    관련 태그 뉴스