메뉴바로가기본문바로가기

동아사이언스

여기에 담을 DNA 정보 고화질 영화 4000만 편 용량

통합검색

여기에 담을 DNA 정보 고화질 영화 4000만 편 용량

2019.12.16 06:00
6일 오후 변익수 국가생명연구자원정보센터(KOBIC) 전산팀장이 대전 유성구 한국생명공학연구원 내에 새로 구축된 데이터센터 내부를 소개하고 있다. 여러 부처에서 구축한 생명정보와 연구 데이터가 통합 관리되고 있다. 대전=윤신영 기자
6일 오후 변익수 국가생명연구자원정보센터(KOBIC) 전산팀장이 대전 유성구 한국생명공학연구원 내에 새로 구축된 데이터센터 내부를 소개하고 있다. 여러 부처에서 구축한 생명정보와 연구 데이터가 통합 관리되고 있다. 대전=윤신영 기자

전 세계에서 수집한 7만6000여 종, 1600만 개체의 생명이 모여 있는 방이지만 온기를 찾기 어려웠다. 흔히 쓰는 ‘생명의 온기’라는 말이 무색했다. 대신 항온항습계로 철저히 관리되는 선선하고 건조한 공기가 코끝에 서렸다. 생명의 두런거림이 아니라 옆 사람의 말이 잘 들리지 않을 정도로 기계음만이 실내에 가득했다.

 

이달 6일 오후 방문한 대전 유성 한국생명공학연구원 국가생명연구자원정보센터(KOBIC) 데이터센터에서는 1200개에 이르는 컴퓨터 분석장비가 저마다 소리를 내며 분석 작업이 한창 진행되고 있었다. 이 방안에서는 모든 생명이 ‘정보’ 형태로 저장된다.

 

국내 최대의 바이오정보 전문 연구시설인 이곳에는 과학기술정보통신부를 비롯해 해양수산부, 환경부, 농림축산식품부, 보건복지부 등에서 확보한 모든 생물 바이오 정보가 한 데 모인다. 전문적인 분석과 데이터 저장에 사용되는 컴퓨터 장비 규모가 만만치 않게 되자 2015년 데이터센터 건립이 시작됐다. 센터는 그로부터 4년여 만인 지난달 말 완공돼 본격적인 운영에 들어갔다. 

 

데이터센터는 지금까지는 포털을 포함해 주로 정보기술 업계에서 사용된 용어다. 데이터센터가 생명과학 연구기관에 자리하고 있다니 처음에는 의아했다. 오두병 KOBIC센터장(생명연 연구전략본부장)은 “생명정보 데이터의 양이 폭발적으로 늘고 있어 전 세계적으로 필요성이 대두됐다"고 말했다.  

 

실제 2010년대 들어 차세대염기서열해독기술(NGS)이 발전하면서 이제 1주일이면 한 사람의 전체 DNA 염기서열인 유전체(게놈)을 분석하는 시대가 됐다. DNA는 아데닌(A) 구아닌(G) 티민(T) 시토신(C) 등 네 가지 염기가 수없이 늘어서 있다. 사람의 DNA는 이런 염기쌍 30억 개로 구성돼 막대한 양의 데이터가 된다. 미생물처럼 훨씬 짧은 염기서열을 갖는 생물도 있지만, 식물처럼 사람보다 몇 배 이상 큰 염기서열을 갖는 생명도  여럿이다. 이 데이터를 해석, 분석하면 자료 양은 훨씬 많아진다.

 

의료와 제약, 바이오산업이 앞선 나라들은 이런 바이오 정보 데이터센터 건립에 적극적인 편이다. 유럽 최대의 생명정보기관인 유럽생명정보학연구소(EBI)는 지난해 기준으로 3만4000개의 중앙처리장치(CPU) 코어와 160PB(페타바이트·1PB는 약 100만 GB)의 정보를 담는 시설을 갖추고 있다. 1PB는 고화질(풀HD) 영화 20만 편을 저장할 수 있는 용량이다. 미국과 일본도 각각 국립생명기술정보센터(NCBI)와 일본DNA데이터뱅크(DDBJ)가 생명정보를 구축하고 있다.

 

KOBIC도 생명과학 연구 추세에 맞춰 새롭게 데이터센터를 구축했다. 현재는 3368개 코어와 13.4PB의 저장 용량을 갖췄다. EBI보다는 아직 작지만, 데이터량의 증가에 맞춰 향후 비슷한 수준까지 확장할 수 있다. 변익수 KOBIC 전산팀장은 “CPU는 약 9배인 3만 코어까지, 저장 용량은 12배인 200PB까지 늘릴 수 있는 여유 공간을 갖췄다”며 “20년을 내다보고 세심히 설계했다”고 말했다.

 

6일 오후 변익수 국가생명연구자원정보센터(KOBIC) 전산팀장이 대전 유성구 한국생명공학연구원 내에 새로 구축된 데이터센터 내부를 소개하고 있다. 여러 부처에서 구축한 생명정보와 연구 데이터가 통합 관리되고 있다. 대전=윤신영 기자
6일 오후 변익수 국가생명연구자원정보센터(KOBIC) 전산팀장이 대전 유성구 한국생명공학연구원 내에 새로 구축된 데이터센터 내부를 소개하고 있다. 여러 부처에서 구축한 생명정보와 연구 데이터가 통합 관리되고 있다. 대전=윤신영 기자

데이터센터 내부는 쾌적하고 단정했다. 소음은 어쩔 수 없지만, 온도와 습도를 맞춘 공기를 적은 에너지를 들여 순환시키고, 전자장비가 내는 엄청난 열을 친환경적으로 식히는 기술이 곳곳에 적용됐다. 일단 데이터센터 자체가 약 60cm 허공에 떠있는 구조다. 찬 공기가 아래 공간과 천장을 순환하며 열을 식히고, 장비 냉각을 효율적으로 돕기 위한 차폐장비를 곳곳에 설치돼 에너지 소비를 줄였다. 안전과 보안에도 만전을 기했다. 변 팀장은 “무정전전원장치(UPS)와 발전기를 겹겹이 지하에 설치해 만일의 정전 사태에 대비하고 있다”며 “데이터도 센터에 이중으로 저장하고, 충북 오창의 생명연 분원 재해복구센터에도 추가로 실시간 백업한다”고 말했다. 데이터 전송 과정에 양자정보통신 기술을 도입해 해킹 가능성도 차단했다.

 

데이터센터에는 빅데이터 처리를 위한 슈퍼컴퓨터도 설치됐다. 누구나 쉽게 활용하는 클라우드 기반 무료 게놈 분석시스템인 ‘바이오익스프레스’가 대표적이다. 2016년 12월 운영을 시작한 이후 160개 기관에서 2792건의 분석을 수행했다.

 

정부 부처별로 따로 관리되던 생명연구자원을 한 데 모은 국가생명연구자원통합정보시스템(KOBIS)도 있다. 벼만 해도 과기정통부는 DNA나 추출물 연구에 관심이 많다면, 농림부는 품종에, 환경부는 보존이나 생태 정보에 관심이 많다. 이런 정보를 통합적으로 한곳에서 관리할 수 있다.


오 센터장은 “장내미생물과 인체 면역의 관계를 밝히는 연구처럼 서로 다른 생명을 대상으로 한 연구가 한 자리에서 이루어질 수 있다”며 “연구자는 물론 산업계가 대용량 바이오데이터를 편리하게 분석해 활용할 수 있을 것”이라고 말했다.

 

한국생명공학연구원 내에 새로 구축된 국가생명연구자원정보센터(KOBIC) 인프라의 모습. 한국생명공학연구원 제공
한국생명공학연구원 내에 새로 구축된 국가생명연구자원정보센터(KOBIC) 인프라의 모습. 한국생명공학연구원 제공

 

이 기사가 괜찮으셨나요? 메일로 더 많은 기사를 받아보세요!

댓글 0

7 + 3 = 새로고침
###
    * 21대 국회의원 선거운동 기간에는 실명확인 과정을 거쳐야 댓글을 게시하실수 있습니다..
    * 실명 확인 및 실명 등록 서비스는 선거운동기간 (2020. 4. 2 ~ 2020. 4. 14) 동안에만 제공됩니다.
    과학기술과 관련된 분야에서 소개할 만한 재미있는 이야기, 고발 소재 등이 있으면 주저하지 마시고, 알려주세요. 제보하기

    관련 태그 뉴스