메뉴바로가기본문바로가기

동아사이언스

목소리만 듣고 제스처 따라하는 AI 개발

통합검색

목소리만 듣고 제스처 따라하는 AI 개발

2019.06.24 07:00
미국과 이스라엘 과학자들이 10인의 제스처를 분석해 각각 패턴을 익힌 다음, 목소리만 듣고도 제스처를 따라하는 AI를 개발했다. UC 버클리 제공

눈을 깜빡이거나 미소를 짓거나 고개를 까딱이며 말하는 로봇이 여전히 '사람답지 않은' 이유는 다른 제스처가 거의 없기 때문이다. 그런데 최근 미국 연구진이 목소리를 듣고 사람의 제스처를 흉내내는 인공지능(AI)을 개발했다. 

 

국제학술지 사이언스는 21일(현지시간) 미국 버클리 캘리포니아공대 전기공학및컴퓨터과학과와 이스라엘의 딥러닝 이미지 분석 전문업체인 제브라메디컬비전 공동 연구팀이 사람들의 제스처를 학습해 목소리만 듣고도 흉내 내는 AI를 개발했다고 소개했다.

 

연구팀은 TV 토크쇼나 온라인 강연을 진행하는 10명의 말하는 모습을 담은 총 144시간 짜리 영상을 분석했다. 실험에 활용한 영상에는 토크쇼인 코난쇼를 진행하고 있는 코난 오브라이언과 토크쇼인 엘렌 쇼를 진행하고 있는 엘런 드제너러스, 학교 홈페이지에서 온라인으로 강의하는 마크 커비넥 버클리 캘리포니아대 화학과 교수 등의 모습이 담겼다. 

 

분석 결과 각자 말할 때 자연스럽게 나오는 고유한 포즈나 움직임이 나타났다. 예를 들어 1980년대 유명 토크쇼 마더 안젤리카 라이브를 진행한 마리 안젤리카 수녀는 두 손을 깍지 끼고 앉아있는 경우가 많았고, 커비넥 교수는 자료를 손가락을 짚으면서 말하는 걸 좋아했다. 셸리 케이건 미국 예일대 철학과 교수는 '죽음이란 무엇인가' 인터넷 강연에서 대부분 앉아서, 토크쇼 진행자인 오브라이언과 드제너러스는 서서 말했으며 이 세 사람은 다른 사람에 비해 팔 제스처가 다양하게 나타났다. 세 사람이 팔을 뻗거나 움직이는 방향과 크기는 제각각이었다. 

 

AI는 각 진행자의 제스처 패턴을 1000개로 분류하고 스스로 익혔다. 그리고 영상에 나왔던 사람의 목소리만 듣고도, 현재 그 사람이 어떤 제스처를 취하면서 이야기를 하고 있는지 예측해 따라했다.

 

연구를 이끈 시리 지노사 버클리 캘리포니아공대 전기공학및컴퓨터과학과 박사과정연구원은 "이 연구는 단순히 AI가 사람의 제스처를 맞히는 데서 끝나지 않는다"며 "대화를 할 때 자연스럽게 움직이는 캐릭터 또는 로봇을 개발하거나, 제스처를 이용한 암호 기술을 만드는 데 활용할 수 있을 것"이라고 기대했다. 

 

연구팀은 이 연구결과를 미국 코넬대가 운영하는 세계 최대 온라인 논문아카이브(arXiv)에 10일 수록했다.

 

연구팀이 개발한 제스처 AI로 코난 오브라이언의 제스처를 예측한 결과. UC 버클리 제공
연구팀이 개발한 제스처 AI로 미국 TV 토크쇼 진행자인 코난 오브라이언의 제스처를 예측한 결과. 상당 부분 코난이 취하는 포즈와 움직임을 AI가 흉내 냈다. UC 버클리 제공

 

이 기사가 괜찮으셨나요? 메일로 더 많은 기사를 받아보세요!

댓글 0

15 + 5 = 새로고침
###
    과학기술과 관련된 분야에서 소개할 만한 재미있는 이야기, 고발 소재 등이 있으면 주저하지 마시고, 알려주세요. 제보하기

    관련 태그 뉴스