메뉴바로가기본문바로가기

동아사이언스

[팟캐스트 ‘과학동아 Live’ ②] 과학자들이 본 알파고의 비장의 무기

통합검색

[팟캐스트 ‘과학동아 Live’ ②] 과학자들이 본 알파고의 비장의 무기

2016.03.06 13:00

※ 편집자 주
바둑을 사랑하는 과학자와 바둑엔 까막눈인 인공지능 연구자들이 만났습니다. 이 기사는 그중 알파고와 이세돌 9단의 대결을 예측한 부분을 모아 정리한 것입니다. 이 내용은 팟캐스트를 통해서도 들을 수 있습니다. ☞아이튠즈☞팟빵에서 ‘과학동아 Live’를 검색해보세요.

 

※ 참여 감동근 아주대 교수, 김기응 KAIST 교수, 한보형 포스텍 교수, 송준섭 기자

 


알파고가 준비한 비장의 무기들


송준섭(이하 준) 역시 아직까지는 이세돌에 미치지 못하는 것 같다. 만약 여러분이 개발자라면 남은 시간 안에 알파고를 어떻게 훈련시키겠는가.


감동근(이하 감) 뛰어난 신경망이 확립되면 한 가지 장점이 있는데, 수준이 떨어지는 자료를 구분할 수 있다는 것이다. 알파고가 직접 자기보다 실력이 아래인 사람의 기보를 제외하고, 새롭게 학습할 수 있다.


한보형(이하 한) 두 가지를 말할 수 있을 것 같다. 우선 인위적으로 기보를 수정해 학습량을 늘리는 것이다. 딥러닝에서 흔히 쓰는 방법이다. 컴퓨터 비전에서는 학습에 필요한 이미지가 부족하면 멀쩡한 사진의 크기를 줄이거나, 색을 바꾸거나, 회전시키는 등으로 원래 이미지를 변형해 학습량을 늘리곤 한다. 알파고가 이미 수준급이기 때문에, 알파고가 두는 바둑 기보 자체가 학습 데이터로 사용될 수도 있다.

또 하나는 ‘미세조정(fine tunning)’이다. 잘 구축된 시스템이 있으면 이를 필요에 따라 새롭게 업데이트할 수 있다. 알파고가 현재는 여러 사람과 바둑을 두기 위한 일반적인 바둑 인공지능이라면, 이세돌의 데이터를 수집해 이세돌 맞춤형 알파고를 만들어낼 수도 있다. 여러 사람이 겨루는 토너먼트에 나가서 알파고가 당장 우승하기는 어렵겠지만 한 명을 목표로 대결하는 것은 훨씬 더 잘할 것이다.

 

김기응(이하 김) 트리 탐색 방법을 개선할 수도 있다. 논문에 나온 알고리듬을 살펴보면, 하드웨어의 한계 때문에 최선이 아닌 차선을 선택한 부분이 보인다. 알파고는 바둑을 학습하면서 배웠던 몇 가지 수칙을 그대로 적용하지 않았다. 배웠던 방법대로 하면 계산이 너무 늘어나 수를 읽는 시간도 기하급수적으로 늘었다. 때문에 알파고는 하드웨어가 감당할 수 있는 적당한 선으
로 규칙을 수정했다. 만약 최첨단 그래픽카드 등 하드웨어를 보완한다면 분명 이전보다 더 나은 모습을 보일 것이다.


구글 딥마인드의 데미스 하사비스나 데이빗 실버 같은 세계 최고의 개발자들이 무턱대고 이세돌에게 덤비지는 않을 것이다. 뭔가 숨기고 있는 게 있을 것 같다.


알파고의 아버지라고 할 수 있는 실버 박사는 나에게는 학자로 더 친숙한 사람이다. 바둑을 오랫동안 연구한 그는 이미 2008년에 ‘MOGO’라는 프로그램을 만들기도 했다. 이 프로그램은 김명완 9단과 9점 바둑을 두기도 했었다. 이 정도로 경험이 많은 사람이라면 프로 기사가 어느 정도 수준인지 알고 있을 것이다.

 

그럼에도 나는 이세돌이 압도적으로 이길 것 같다. 내 수준 정도로 바둑을 두는 것은 조금만 노력을 하면 누구나 할 수 있다. 재능있는 아이라면 1년이면 아마 5단이 될 수 있다. 그러나 그런 아이들이 프로가 되는 데는 몇 년이 걸리고, 갓 프로에 입문한 기사와 이세돌 같은 정상급 기사 사이에는 한 점 정도 차이가 난다. 알파고가 지금 막 프로 수준에 접어들었다고 해도 이세돌과의 차이는 엄청나게 크다.


이세돌이 창의적인 수를 즐긴다고 들었는데, 알파고는 지금까지 전형적인 기보에 따라 학습했기 때문에 이런 수에 당황할 수 있다. 딥러닝으로 학습한 컴퓨터가 어려운 문제는 곧잘 풀어내는데, 사람이 봤을 때 쉬운 문제는 틀리는 경우가 종종 있다. 복잡한 이미지를 잘 구분하는 프로그램이 아무것도 없는 텅 빈 이미지를 보고 엉뚱한 걸 대답하기도 한다. 학습을 시킬 때 워낙 어려운 문제에 집중해 공부를 시켰기 때문에 학습시키지 않은 쉬운 문제는 못 풀 수 있다. 사람은 어려운 걸 배우면 쉬운 문제는 쉽게 푸는데, 컴퓨터는 그렇지 않다.

 

이번 시합에서는 그럴 필요도 없을 것 같지만 프로 바둑에서 한 번도 나오지 않은 수를 이세돌이 초반에 둔다면 알파고가 험한 꼴을 당할 것이다.

 

알파고를 개발한 데이빗 실버 박사는 유명한 PC 게임인 ‘문명’을 즐기는 인공지능을 만들기도 했다. 문명 인공지능은 게임에 동봉된 두꺼운 설명서를 읽고, 스스로 최적의 전략을 세웠다. 이 인공지능은 문명 제작진이 설계한 게임 속 인공지능보다 훨씬 더 게임을 잘 했다. - Anthony Jauneaud(F) 제공
알파고를 개발한 데이빗 실버 박사는 유명한 PC 게임인 ‘문명’을 즐기는 인공지능을 만들기도 했다. 문명 인공지능은 게임에 동봉된 두꺼운 설명서를 읽고, 스스로 최적의 전략을 세웠다. 이 인공지능은 문명 제작진이 설계한 게임 속 인공지능보다 훨씬 더 게임을 잘 했다. - Anthony Jauneaud(F) 제공

알파고가 바둑을 정복하면, 그 다음은?

 

구글이 바둑을 연구하는 이유는 무엇인가. 바둑이 그렇게 인기가 많지도 않은데….


몬테카를로 트리 방식은 ‘밴디트(bandit)’ 알고리듬과 기술적으로 연관돼 있다. 온라인 광고와 상품 추천 등에 많이 사용되는 알고리듬이다. 광고 알고리듬은 사용자를 상대로 게임을 하는 것과 비슷한데, 알파고에 사용된 기술이 구글의 온라인 광고 매출에 도움이 될 수 있을 것 같다.


보드 게임 중에 컴퓨터에 정복되지 않은 유일한 게임이 바둑이다. 바둑을 정복하는 것만으로 인공지능 역사에서 커다란 이정표가 될 것이다.

 

그렇다면 딥러닝의 약점은.

 

왜 잘 되는지, 어떻게 작동하는지를 모르는 것?


경험적으로 만들어진 기술이기 때문에 내부가 어떻게 생겼는지 아직은 이해할 수가 없다. 예외적인 상황이 발생하면 학습된 모델이 무슨 짓을 할지 아무도 모른다. 터미네이터에 나온 ‘스카이넷’이 출연하지 못할 법도 없다.


그래도 터미네이터는 너무 나간 것 같다.(웃음)


과학동아 2015년 11월호에 예술가의 화풍을 따라하는 딥러닝 프로그램을 소개한 적이 있다. 고흐의 그림을 기가 막히게 따라 그리길래, 기자의 사진을 모딜리아니 스타일로 그려달라고 부탁했었다. 그런데 결과는 형편없었다. 엄청나게 성장하고 있는 것은 맞지만 딥러닝이 만사형통은 아닌 것 같다. 보통 사람들은 언제쯤 알파고를 상대할 수 있을까.


1997년에 체스를 정복한 딥블루도 모양에 의존해 체스를 뒀다. 이런 딥블루를 구동하기 위해 특별 제작된 특수 하드웨어가 필요했다. 딥블루는 하드웨어가 급속도로 발전하면서 문제가 해결됐지만, 알파고는 학습 기능을 빼고 바둑을 이기는 데에만 최적화시키면 일반인에게도 보급될 수 있을 것 같다.


알파고는 몬테카를로 트리 방식을 적용했기 때문에 딥블루보다 효율이 좋다. 딥블루가 체스판이 바뀔 때마다 1000가지에 이르는 트리를 매번 끝까지 그려야 했다면, 알파고는 승률이 높은 단 하나의 트리를 끝까지 그린다. 알파고는 훨씬 더 적은 경우의 수를 보면서 딥블루보다 훨씬 더 힘든 문제를 해결하고 있는 것이다.

 

그래픽카드의 발전 속도를 보면 언젠가 가능할 것이다. 그래픽카드(GPU)가 원래는 컴퓨터 게임이나 3D 그래픽에 한정적으로 사용됐는데, 최근에 나오는 ‘일반적인 그래픽카드(General GPU)’는 딥러닝에 주로 활용된다. 그것 때문에 대학에서도 연구 목적으로 그래픽 카드를 많이 구입하고 있다. 연구실에 장비를 납품하는 분이 ‘교수들이 왜 이렇게 게임을 많이 하냐’고 물을 정도다.(웃음)

 

 

※참고※ 알파고는 어떻게 바둑을 둘까


알파고는 두 가지 신경(network)에 의해 의사결정을 내린다. 먼저 바둑 고수들의 착점 3000만 개를 딥러닝으로 학습해 만들어진 ‘정책 신경(policy network)’은 바둑판의 현재 상황을 보고, ‘바둑 고수라면 다음에 어디에 둘지’를 예측한다.

 

알파고의 정책 신경을 기반으로 본 바둑판. ‘인간 고수라면 어디에 둘까’를 예측한 것인데, 오른쪽 아래의 한 점이 79%로 가장 높았다. - 과학동아 제공
알파고의 정책 신경을 기반으로 본 바둑판. ‘인간 고수라면 어디에 둘까’를 예측한 것인데, 오른쪽 아래의 한 점이 79%로 가장 높았다. - 과학동아 제공

개발팀은 여기서 한발 더 나아가 정책신경을 기반으로 한 알파고1과 알파고2를 대결시켜, 인간을 이길 수 있는 ‘가치 신경(value network)’도 만들었다. 가치 신경은 형세를 보고 ‘내가 어디에 두면 얼마나 높은 승률을 기대할 수 있을까’를 계산한다. 알파고는 이 두 가지 신경의 비중을 반반씩 섞어 의사결정을 내린다.

 

가치 신경은 바둑판의 상황을 승률로 바꿔 준다. ‘내가 어디에 두면, 얼마의 승률을 기대할 수 있을까’를 한눈에 볼 수 있다. 색깔이 진할수록 더 높은 승률이 기대되는 착점이다. 정책 신경과 똑같은 점이 54%로 기대 승률이 가장 높았다. 알파고는 바로 그 지점에 흑돌을 두었다. - 과학동아 제공
가치 신경은 바둑판의 상황을 승률로 바꿔 준다. ‘내가 어디에 두면, 얼마의 승률을 기대할 수 있을까’를 한눈에 볼 수 있다. 색깔이 진할수록 더 높은 승률이 기대되는 착점이다. 정책 신경과 똑같은 점이 54%로 기대 승률이 가장 높았다. 알파고는 바로 그 지점에 흑돌을 두었다. - 과학동아 제공

아래 상황은 알파고와 판 후이의 비공식 대결로, 알파고(흑)가 제 32수를 둘 차례(➊)와 둔 직후(➋)다.

 

가치 신경과 정책 신경으로 몬테카를로 트리 탐색 - 과학동아 제공
가치 신경과 정책 신경으로 몬테카를로 트리 탐색 - 과학동아 제공

알파고는 판 후이의 실수를 놓치지 않는다


알파고가 흑32를 두고 나자, 앞으로 어떻게 흘러갈지 알파고가 예측한 상황이다. 자신이 흑32를 공략하면 판 후이가 오른쪽 아래의 백1에 둘 것이라고 예측했는데, 판 후이가 실제로 둔 것은 흑32 바로 위 A였다. 판 후이가 알파고의 허를 찌른 것일까. 아니다. 대국을 마친 뒤 복기에서 판 후이는 자신이 둔 수가 실수였고, 알파고가 예측한 백1이 좋은 수였다고 인정했다. 알파고는 판 후이가 A에 둔 순간, 자신의 승리를 직감했을지도 모른다. 위 기보의 숫자는 판 후이가 알파고의 예측대로 ①을 뒀었다면 이어질 수순을 예상한 것이다.

 

 

 

☞차세대 이세돌은 나! 알파고와 대결하는 그날까지!!>> 과학동아몰 바둑 특별 기획전 보러가기

이 기사가 괜찮으셨나요? 메일로 더 많은 기사를 받아보세요!

댓글 0

7 + 4 = 새로고침
###
    과학기술과 관련된 분야에서 소개할 만한 재미있는 이야기, 고발 소재 등이 있으면 주저하지 마시고, 알려주세요. 제보하기

    관련 태그 뉴스