메뉴바로가기본문바로가기

동아사이언스

AI, 3D 게임서도 인간 꺾었다

통합검색

AI, 3D 게임서도 인간 꺾었다

2019.05.31 03:00

구글 딥마인드가 개발한 '포더윈'

3차원 공간에서 깃발 뺏는 게임

45만 판 훈련하며 막강 실력 갖춰 

 

 

구글 딥마인드가 개발한 새 인공지능(AI)이 여러 명이 3차원 공간을 돌아다니며 총을 들고 싸우는 복잡한 게임에서 다시 한 번 인간 고수를 꺾었다. 앞서 딥마인드가 개발한 바둑전용 AI인 알파고는 2016년 바둑고수 이세돌 9단을 눌렀고 올해 1월에는 게임전용 AI인 알파스타로 인기 게임 ‘스타크래프트' 개인전과 단체전에서 인간을 눌렀다.


딥마인드 연구팀은 29일 국제학술지 사이언스에 포더윈(For the Win)으로 명명된 새 AI가 유명 1인칭 슈팅게임 ‘퀘이크 3 아레나’ 게임에서 인간 고수를 이기는 데 성공했다고 공개했다. 회사 측은 이번에는 그간 개발된 AI에 적용해온 알파라는 이름을 버리고 포더윈이라는 새로운 이름을  택했다.  

 

포더윈은 ‘깃발뺏기’ 게임으로 인간과 대결했다. 깃발뺏기는 매번 새롭게 생성되는 공간에서 아군 한 명과 협력해 두 명으로 구성된 상대 팀의 깃발을 빼앗는 게임이다. 어려운 상대를 이길수록 ‘엘로’라고 부르는 점수가 높아지는데, 포더윈은 인간 고수의 기준인 1300점을 훌쩍 넘겨 1600점으로 인간을 압도했다.


포더윈은 알파고 때와 같은 강화학습으로 이런 실력을 습득했다. 강화학습은 AI로 하여금 현재의 상태를 인식하게 하고, 그 상태에서 선택 가능한 행동 가운데 보상이 가장 큰 행동을 선택하게 하는 학습법이다. 연구팀은 포더윈 둘에게 기본적인 게임의 승리 조건을 입력한 뒤 서로 대결을 시켜 승리하면 보상을 주는 식으로 AI를 가르쳤다. 예를 들어 “깃발을 뺏으면 점수가 오르고 내 깃발을 잃으면 점수가 내려간다”는 조건을 줘 포더윈이 점수를 올리는 요령을 학습하게 하는 식이다. 처음에는 깃발을 갖는다는 게 무엇인지도 모르던 포더윈은 점차 게임의 규칙을 배워, 눈앞에 보이는 전장의 구조물을 기억하고, 게임 속 점수 현황을 확인하며 실력을 늘렸다.


포더윈은 게임 45만 판을 거치며 고수로 재탄생했다. 딥마인드의 분석 결과 포더윈은 학습기간의 상당부분을 ‘기본기’를 익히는 데 쓴 것으로 나타났다. ‘내가 깃발을 갖고 있다’를 인식한 것은 5000판의 게임을 한 뒤였다. 최소한의 기본 원리를 학습한 것은 1만 판 뒤였고, ‘아군의 깃발을 빼앗겼다’를 이해한 것은 5만 판을 한 이후였다. 협동에 필요한 정보는 20만 판을 한 뒤에 이해했다. 이후 35만 판까지는 목표를 설정하고 상대방을 조준하는 기술을 익혔다.


35만 판부터는 다양한 전략을 개발했다. 깃발을 들고 있는 아군을 따라가며 엄호하거나 상대방의 기지를 정찰하고 돌아오는 전략을 선보였다. 불리한 순간에는 자신의 기지를 벗어나지 않고 방어 전략을 취하기도 했다. 전술을 고도화하면서 아군을 무작정 따라가지 않고 다른 유리한 행동을 취하는 모습도 보였다. 45만 판을 끝낸 뒤, 포더윈은 포더윈 둘로 된 팀이 포더윈과 인간으로 구성된 팀을 상대로 95%의 승률을 올릴 정도로 막강한 실력을 갖췄다.


연구팀은 “AI가 실제 세상처럼 여러 행위자가 독립적으로 활동하는 환경에서도 적용될 수 있다는 사실을 확인했다”고 말했다.

이 기사가 괜찮으셨나요? 메일로 더 많은 기사를 받아보세요!

댓글 0

7 + 4 = 새로고침
###
    과학기술과 관련된 분야에서 소개할 만한 재미있는 이야기, 고발 소재 등이 있으면 주저하지 마시고, 알려주세요. 제보하기

    관련 태그 뉴스