메뉴바로가기본문바로가기

동아사이언스

[Science토크]‘알파폴드’ 쇼크로 치열해지는 단백질 구조 분석 경쟁

통합검색

[Science토크]‘알파폴드’ 쇼크로 치열해지는 단백질 구조 분석 경쟁

2019.07.28 06:00
알파폴드가 지난해 말 열린 CASP에서 제출한 답안. 파란색이 알파폴드의 예측 모델이다. 구글 딥마인드 제공
알파폴드가 지난해 말 열린 CASP에서 제출한 답안. 파란색이 알파폴드의 예측 모델이다. 구글 딥마인드 제공

지난해 12월 초 멕시코 칸쿤에서 열린 ‘단백질 구조 예측 학술대회(CASP)’에서 구글 지주회사 알파벳의 인공지능(AI) 부문 자회사 ‘딥마인드’는 3차원(3D) 단백질 아미노산 결합구조 예측 알고리즘 ‘알파폴드(AlphaFold)’를 공개했다. 이미 3차원 구조가 밝혀진 90종 단백질의 선형 아미노산 시퀀스만 제시하고 어떤 구조로 아미노산이 접혀 새로운 단백질을 생성했는지 예측하는 역량을 겨루는 대회인 CASP(Critical Assessment of protein Structure Prediction)에서 알파폴드는 경쟁자들을 멀찌감치 따돌리고 우승을 차지했다. 

 

생물학자들은 단백질의 기본 단위인 아미노산이 어떻게 입체적으로 배열되고 접혀 3차원 구조의 단백질을 형성하는지 연구한다. 인류의 난제로도 불리는 3차원 단백질 구조 예측이 가능해지면 질병이 생기는 메커니즘을 더 잘 이해할 수 있다. 새로운 개념의 치료제를 설계하는 데도 도움을 준다. 

 

알파폴드가 생물학계에 충격을 준 뒤 3D 단백질 구조 예측 연구는 더욱 활기를 띠고 있다. 국제 학술지 네이처는 최근 알파폴드의 강력한 대항마가 될 수 있는 AI 알고리즘이 등장한 사실을 집중 조명했다. 이 알고리즘을 활용하면 주어진 아미노산 사슬 배열로 만들어질 수 있는 3D 단백질 구조를 밀리초(millisecond, 1000분의 1초)라는 순식간에 예측할 수 있다. 수 시간이나 몇 일이 소요되는 알파폴드에 비교도 안될 정도로 빠른 속도다. 

 

주인공은 미국 하버드대 의대 생물학자인 모하메드 알쿠래시 박사다. 올해 4월 국제학술지 ‘셀 시스템즈(Cell Systems)’에 논문으로 발표한 알쿠래시 박사의 AI 알고리즘은 딥마인드의 알파폴드보다 100만배 가량 빠른 속도로 단백질 구조를 예측할 수 있는 것으로 분석됐다. 

 

CASP에서 압도적으로 두각을 드러낸 알파폴드는 2단계에 걸쳐 작동한다. 먼저 특정 단백질의 아미노산 시퀀스를 기존 아미노산 시퀀스 데이터베이스에 있는 다른 유사한 시퀀스와 비교해 단백질 사슬에서 서로 이웃하지 않지만 나란히 나타나는 것처럼 보이는 아미노산 쌍을 찾아낸다. 쌍으로 이뤄진 이들 아미노산은 3차원으로 접히는 단백질 구조에서 서로 인접한다. 딥마인드는 이 아미노산 쌍을 찾아내는 작업을 AI를 구현하는 기본 메커니즘인 신경망(Neural Network)에 학습시킨다. 그런 뒤 쌍으로 인접한 아미노산 사이의 거리를 예측한다. 

 

딥마인드는 또 단백질이 3차원 구조로 접혀 생성되는 메커니즘을 예측할 수 있도록 신경망을 훈련시킨다. 또다른 신경망은 연속되는 아미노산 쌍들이 3차원으로 접히는 구조에서 나타나는 각도를 예측할 수 있도록 학습한다. 

특정 단백질의 3차원 구조 예시. 선형 아미노산 시퀀스가 여러 방식으로 접히며 3차원 단백질이 생성된다. 어떤 아미노산이 어떤 형태로 단백질 구조를 이루는지 알아내는 것은 생물학계의 오랜 난제였다. 위키미디어 제공.
특정 단백질의 3차원 구조 예시. 선형 아미노산 시퀀스가 여러 방식으로 접히며 3차원 단백질이 생성된다. 어떤 아미노산이 어떤 형태로 단백질 구조를 이루는지 알아내는 것은 생물학계의 오랜 난제였다. 위키미디어 제공.

그러나 이런 과정을 통해 단백질 구조 자체를 예측하긴 불가능하다. 신경망을 통해 학습한 AI 알고리즘이 예측한 정확한 아미노산 쌍 조합과 거리, 결합각도가 실제 물리적으로 가능하지 않을 수 있기 때문이다. 이 때문에 딥마인드는 두 번째 단계로 물리적으로 가능하면서도 무작위적인 단백질 접힘 배열을 만들었다. 이 때 신경망 대신 별도로 개발한 ‘최적화 알고리즘’을 적용, 첫 번째 단계에서 신경망이 예측한 구조를 반복적·무작위적으로 시도해보며 물리적으로 가능한 3차원 단백질 구조에 가장 가까운 구조를 만들어내 예측하는 것이다. 

 

알쿠래시 박사가 고안한 방식은 알파폴드와는 조금 다르다. 첫 번째 단계에서 신경망을 활용하는 게 아니라 단백질 구조를 계산하는 데 수학적 함수를 사용한다. 수학적 함수 기반으로 계산된 단백질 구조를 기반으로 진보된 인공지능 기법인 ‘딥러닝’을 결합하는 방식이다. 

 

알쿠래시 박사의 알고리즘 시스템의 핵심도 물론 신경망이다. 이 신경망은 아미노산 시퀀스가 어떻게 단백질 구조에 매핑되는지 이미 알려진 데이터를 얻은 뒤 이를 신경망에 학습시켜 잘 알려지지 않은 서열로부터 새로운 3차원 단백질 구조를 예측하는 방식을 학습한다. 

 

알쿠래시 박사는 그의 접근법에 ‘반복적 기하학적 네트워크’라는 이름을 붙였다. 아미노산이 배열되는 앞뒤의 정보를 기반으로 단백질의 일부분 구조를 예측하는 방식이다. 사람들이 문장 전체를 이해할 때 해당 문장에서 주변 단어에 영향을 받을 수 있는 단어를 해석하는 것과 유사하다. 알쿠래시 박사는 자신이 개발한 알고리즘 소스코드를 공개해 이 분야 다른 연구자들이 연구를 확장할 수 있도록 했다. 

 

알파폴드가 압도한 단백질 구조 예측 연구에서 많은 연구자들이 AI를 활용한 연구에 나서고 있다. AI 프로그램을 이용한 단백질 구조 예측이 당장 신약 연구에 활용될 수 있는 수준은 아니다. 그러나 이같은 기술의 경쟁 속도를 고려하면 적어도 조만간 단백질 변이가 질병에 어떤 영향을 미치는지, 항체 단백질은 어떻게 만들어지는 등을 알아내는 데 획기적인 도움을 줄 것으로 기대된다. 

 

CASP 대회를 설립한 미국 메릴랜드대학 생물학자인 존 몰트 교수는 네이처와의 인터뷰에서 “3차원 단백질 구조 예측에 인공지능 기술이 결합하면서 이 분야 연구가 어떤 양상으로 전개될지 예측하기 어려울 정도로 흥미진진하다”며 인류의 난제를 해결할 가능성을 보여주고 있다고 설명했다. 

이 기사가 괜찮으셨나요? 메일로 더 많은 기사를 받아보세요!

댓글 0

17 + 6 = 새로고침
###
    과학기술과 관련된 분야에서 소개할 만한 재미있는 이야기, 고발 소재 등이 있으면 주저하지 마시고, 알려주세요. 제보하기

    관련 태그 뉴스