메뉴바로가기본문바로가기

동아사이언스

[표지로 읽는 과학] 인간의 뇌에서 또 한 번 AI원리 발견하다

통합검색

[표지로 읽는 과학] 인간의 뇌에서 또 한 번 AI원리 발견하다

2020.02.01 09:09
네이처 제공
네이처 제공

국제학술지 네이처는 30일 물결치는 선들 위에서 고뇌하고 있는 인간의 모습을 표지에 담았다. 인간의 고뇌와 고뇌 후 내리는 행동을 결정짓는 물질은 신경전달 물질인 ‘도파민’이다. 세포를 자극하는 도파민은 인간의 행위에 따른 보상에 따라 다른 양이 흘러나오며 인간이 보상을 배우고 학습할 수 있도록 한다.  지난달 15일 도파민이 뇌를 학습시키는 새로운 원리에 관한 연구결과가 발표됐는데 저자는 놀랍게도 인공지능(AI) ‘알파고’를 개발한 딥마인드 연구팀이었다.

 

AI의 가장 큰 특징은 스스로 배워 성능을 높이는 ‘학습’이다. 학습의 모태가 된 건 조건반사를 설명하는 유명한 실험인 파블로프의 개 실험이다. 개에게 먹이를 줄 때마다 종을 울리면 나중에는 종소리만 울려도 먹이를 기대하고 침을 흘리게 된다. 어떠한 사건이 일어났을 때 무슨 보상이 발생하는지를 뇌가 학습한 것이다. 초기 컴퓨터 과학자들은 이 알고리즘을 토대로 강화학습을 위한 알고리즘을 개발했다.

 

처음엔 AI가 뇌를 배웠지만 시간이 흐르면서 AI가 반대로 뇌의 원리를 알려주기도 했다. 1980년대 컴퓨터 과학자들은 ‘시간차 학습’이라는 알고리즘을 개발했다. 보상을 받은 후 보상에 따라 행했던 모든 작업을 교정하는 대신, 작업할 때마다 보상에 얼마나 가까워지는지를 예측해 작업을 교정하는 방식이다. 작업을 하나 할 때마다 배우면서 알고리즘을 수정하기 때문에 보상에 훨씬 빨리 다가갈 수 있다.

 

당시 신경과학자들은 도파민 뉴런이 보상에 어떻게 반응하고 뇌가 이를 통해 어떻게 학습하는지에 관한 연구를 수행하고 있었다. 그러던 중 시간차 학습을 알고 있던 신경과학자들이 도파민이 보상을 받는 것보다 보상과 기대의 차이에 따라 반응한다는 것을 발견했다. 예상보다 큰 보상을 받으면 도파민이 활발히 생성돼 뇌 전체에 퍼지고, 적은 보상에는 도파민이 줄어드는 것이다. 이를 토대로 뇌 또한 짧은 시간의 보상을 토대로 끊임없이 학습해가며 배운다는 ‘보상예측오류’ 이론을 발견했다.

 

이번에도 뇌가 AI에게서 배우게 됐다. 연구팀은 딥마인드의 AI를 비롯해 최근 AI 학습에 쓰이는 알고리즘 중 하나인 ‘분포강화학습’을 동물의 뇌도 쓴다는 사실을 얼아냈다. 분포강화학습은 실제 세상은 예상할 수 없는 상황이 많아 보상이 다양하다는 것에 착안한 알고리즘이다.

 

예를 들어 한 사람이 구덩이를 뛰어넘는다고 하면 성공할 확률도 있다. 갑자기 바람이 불어 넘지 못하고 떨어질 수도 있다. 분포강화학습은 이런 상황을 고려해 제각기 다른 예상을 하는 알고리즘이 보상을 토대로 학습하게 하고 이후 이를 평균해 AI의 학습 방향을 정한다. 예를 들면 한 알고리즘이 뛰어넘는 것엔 크게 반응하면서도 떨어지는 건 무시하는 비관론자라면, 다른 하나는 반대의 반응을 보이는 낙관론자일 수 있다. 이런 다양한 집합이 모여서 결론을 내리면 외부의 환경변화에 큰 영향을 받지 않고 학습을 할 수 있다는 장점이 있다.

 

딥마인드는 하버드대와 협업해 쥐의 도파민 뉴런 기록을 분석했다. 쥐가 예측할 수 없는 보상을 받게 하고 이에 따른 도파민 뉴런 신호를 기록했다. 그 결과 뉴런들은 각자 다른 보상을 예측하는 것으로 나타났다. 보상에 따라 발산하는 신호가 제각기 달랐던 것이다. 보상을 일정한 비율로 바꿔가며 쥐를 학습시키자 이를 배운 쥐의 뉴런 신호 평균은 보상의 비율과 비슷한 모습을 보였다. 쥐가 분포강화학습을 활용해 보상의 분포를 배운 것이다.

 

딥마인드는 자사의 블로그를 통해 “뇌 속 분포강화학습의 존재는 AI와 신경과학 모두에게 흥미로운 결과”라고 밝혔다. 딥마인드는 “이번 발견은 분포강화학습의 유효성을 검증했다”며 “이 알고리즘이 우리가 아는 가장 지능적인 요소인 두뇌에 쓰이고 있기 때문에 AI 연구가 올바른 궤도에 있다는 확신을 준다”고 밝혔다.

 

신경과학에도 새로운 시각을 줄 것이라는 기대가 나온다. 딥마인드는 “뇌가 비관적 뉴런과 낙관적 뉴런을 선택적으로 받아들이면 충동 또는 우울증을 유발할 수도 있다”며 “이런 질문에 답하는 것이 AI 연구에 도움이 되는 신경과학을 진전시켜 선순환을 완성하기를 바란다”고 밝혔다.

이 기사가 괜찮으셨나요? 메일로 더 많은 기사를 받아보세요!

댓글 0

10 + 1 = 새로고침
###
    과학기술과 관련된 분야에서 소개할 만한 재미있는 이야기, 고발 소재 등이 있으면 주저하지 마시고, 알려주세요. 제보하기

    관련 태그 뉴스