주메뉴바로가기.. 본문바로가기

[제온 이야기 ①] 인텔, 클라우드에 맞춰 반도체를 다시 그리다

네이버밴드 구글플러스

2017년 07월 19일 16:00 프린트하기

어느새 x86 기반의 데이터센터 기술은 컴퓨팅 환경을 이끌어가는 핵심 요소가 됐다. 단순히 클라우드나 슈퍼컴퓨터 등을 넘어 네트워크 서비스를 가상화한다거나 머신러닝을 도입하는 데 필요한 기본적인 기능들을 흡수하는 게 데이터센터의 역할이자, 반도체의 진화 방향이다.


인텔은 올해도 어김없이 새로운 데이터센터용 프로세서 ‘제온 스케일러블 프로세서’을 내놓았다. 코드명 ‘펄리’로 부르는 것으로 6세대 코어 프로세서에 쓰인 ‘스카이레이크’ 아키텍처에 기반한 설계 때문에 ‘스카이레이크 제온’이라는 별명으로도 통한다. 하지만 실제 시장에서는 기존에 쓰던 ‘제온E5’ 대신 ‘제온 스케일러블 골드 프로세서’처럼 이름이 바뀐다.

 

최호섭 제공
최호섭 제공

'제온'에서 '제온 스케일러블 프로세서로'


이름 이야기를 먼저 짚고 넘어가자. 인텔은 그 동안 제온 프로세서를 가르는 기준으로 ‘E’라는 브랜드를 썼다. 코어 시리즈처럼 가장 위에 ‘제온 E7’ 프로세서를 두고, 메인스트림으로 ‘제온 E5’, 그리고 그 아래에 ‘제온 E3’가 있었다. 하지만 올해부터 인텔은 여기에 ‘제온 스케일러블 프로세서(Xeon Scalable Processor)’라는 이름을 붙인다.


제품의 구분은 ‘플래티넘’, ‘골드’, ‘실버’, ‘브론즈’ 등 4단계로 나눈다. 플래티넘 프로세서는 절대 작동을 멈추면 안 되는 이른바 ‘미션 크리티컬’ 용도로 쓰이고, 골드와 실버는 일반적인 클라우드 데이터센터용, 그리고 브론즈는 가벼운 웹 서버부터 개인용 서버 등에 쓰인다. 용도 자체로 가르는 것이긴 한데 브랜드 구분은 여전히 어려운 게 사실이다. 어떻게 보면 플래티넘과 골드의 구분보다 기존 ‘제온 프로세서’와 ‘제온 스케일러블 프로세서’의 뚜렷한 구분을 위한 리브랜딩이 아닌가 하는 생각도 든다.

 

제온 스케일러블 프로세서는 기존 E3, 5, 7 대신 플래티넘, 골드, 실버, 브론즈로 나뉜다. - 최호섭 제공
제온 스케일러블 프로세서는 기존 E3, 5, 7 대신 플래티넘, 골드, 실버, 브론즈로 나뉜다. - 최호섭 제공

이름이야 어찌 됐든 제온 프로세서는 기술적으로 크게 발전했다. 제온 프로세서는 애초 ‘더 안정적인 펜티엄’으로 시작해 고성능, 그리고 클라우드로 진화해 왔다. 제온은 지금도 계속해서 클라우드와 고성능을 위해 성장하고 있지만 올해는 그 방향성이 조금 다르다. 인텔은 ‘지난 10년간 가장 큰 변화’라는 다소 강한 표현을 썼는데, 개인적으로는 이 말에 상당 부분 공감한다. 근래 나온 반도체 설계중에 가장 충격적이다. 새 제온은 인텔이 갖고 있는 반도체 기술을 한껏 자랑하는 종합선물세트다.


새 제온 프로세서의 변화는 두 가지로 꼽을 수 있다. 첫째는 반도체의 구조적인 변화, 그리고 특정 명령어를 효과적으로 처리하는 명령어의 추가다. 이 둘은 프로세서 반도체의 가치관을 새로 쓰는 요인이다. 앞으로 프로세서의 발전 방향성이 전혀 달라진다는 이야기다.


이유는 간단하다. 더 이상 작동속도를 끌어올리는 것만으로 성능을 높이기 어렵기 때문이다. 작동 속도는 곧 공정과 소재의 발전으로 같은 단위 시간에 더 여러번 명령어를 처리하는 식으로 성능을 높이는 것이다. 인텔을 비롯한 반도체 업계는 그 동안 더 많은 트랜지스터, 더 높은 작동 속도를 이끌어내는 데에 집중해 왔고, 이는 마치 도깨비 방망이처럼 작동했다. 회로 공정만 미세화하면 더 나은 프로세서가 만들어지는 것이다. 인텔은 이 분야에서 독보적인 존재였고, 18개월마다 반도체 집적도를 두 배로 높이는 ‘무어의 법칙’으로 속도 조절까지 했다.


하지만 이제는 반도체의 공정이 회로를 오가는 전자의 크기와 비슷하졌고, 물리적으로 한계점이 다가오고 있다. 전혀 다른 방식의 컴퓨팅이 필요해지는 시대가 다가온 것이다. 이미 컴퓨팅 환경은 이를 반영해 작동 속도 기반에서 클라우드 컴퓨팅 등으로 확장, 그러니까 ‘스케일(scale)’을 통해 컴퓨팅의 ‘양’을 늘리는 방향으로 움직이고 있다. 제온 스케일러블 프로세서는 딱 그 시대 상황을 반영한다. 이름부터 말이다.

 


그물같은 메시 아키텍처로 손실 줄여


새 제온 프로세서는 6세대 코어 프로세서에 들어간 스카이레이크 아키텍처를 기반으로 설계했다. 이는 반도체 공정에 대한 부분으로 한정된다. 실제 프로세서 코어나 캐시메모리, 콘트롤러 등이 배치되는 구조는 완전히 달라졌기 때문이다. 더 많은 코어들이 서로 쉽게 협업할 수 있는 배치를 고려했다는 이야기다.


인텔이 선택한 방법은 ‘메시 아키텍처(Mesh architecture)’다. 말 그대로 ‘그물’처럼 코어와 코어를 연결하는 구조를 적용하는 것이다. 제온 프로세서는 요즘 데이터센터의 요구에 따라 프로세서 칩 하나에 수많은 코어를 연결한다. PC에서는 4코어가 흔하지만 데이터센터에서는 18코어나 22코어가 흔하고, 새 제온 스케일러블 프로세서는 칩 하나에 코어 28개까지 밀어넣는다. 하지만 이 구조는 결코 쉽지 않다.


첫번째 문제는 많은 코어를 칩 하나에 넣는 반도체 집약에 있지만, 또 다른 문제는 이 많은 코어들을 서로 연결하는 데에 있다. 멀티 코어를 쓰는 이유는 하나의 프로세스를 여러 개로 쪼개서 처리하는 데에 있는데, 코어들끼리 연결이 지연되면 그만큼 처리 시간이 늘어지게 된다. 응답속도가 느려지는 이유 중 하나다.


그럼 기존에는 어떻게 코어를 연결했을까? 이제까지 인텔은 많은 코어를 연결하기 위해 링버스 아키텍처를 활용했다. 말 그대로 둥그런 링을 통해 코어끼리 데이터를 주고 받았다. 그러니까 마치 우리가 서울 2호선 지하철을 타고 빙글빙글 돌듯이 시계방향, 그리고 반시계방향으로 데이터가 움직인다. 이는 꽤 효율적이긴 하지만 때로 물리적으로 바로 옆에 있는 코어끼리 데이터를 주고받는 데에 반바퀴를 돌아야 하는 일이 생긴다. 정해진 길로만 움직여야 하기 때문이다.

 

기존 제온의 링버스 설계(왼쪽)와 새 제온의 메시 설계(오른쪽). 코어와 코어 사이에 데이터가 이동하는 데 손실이 크게 줄어든다. 상황에 따라 응답 속도 차이가 열 배가 넘기도 한다. - 인텔 제공
기존 제온의 링버스 설계(왼쪽)와 새 제온의 메시 설계(오른쪽). 코어와 코어 사이에 데이터가 이동하는 데 손실이 크게 줄어든다. 상황에 따라 응답 속도 차이가 열 배가 넘기도 한다. - 인텔 제공

이게 코어가 4개나 6개, 8개 정도면 큰 문제가 되지 않지만 28개 코어를 이렇게 연결하면 응답 시간 자체가 시스템으로 느껴지게 마련이다. 보통 데이터가 코어 하나를 넘어갈 때마다 1클럭이 필요하기 때문에 징검다리처럼 10개 코어를 넘어가면 10클럭이 소비된다. ‘연산’이 아니라 ‘데이터 이동’에 말이다.


메시 아키텍처는 교차로로 연결된 도시를 떠올리면 된다. 링버스 아키텍처처럼 한 줄로 연결한 것에 각 칸을 잇는 또 하나의 길을 냈다. 서울지하철 2호선을 가로지르는 4호선, 5호선, 9호선 등을 떠올리면 비슷하다. 링버스 외에 인접한 코어를 직접 연결하는 다리를 하나씩 더 두는 셈이다. 2호선 지하철처럼 순차적으로 돌아가는 게 아니라 바둑판 위에서 이동하듯 물리적으로 가장 가까운 경로를 찾아가면 된다.

 


달라진 메모리 구성


인텔은 멀티 코어 처리의 효율성을 높이기 위해서 캐시 메모리 구조도 바꿨다. 이전 세대 제온 E5 v4 프로세서의 경우 L2 캐시메모리가 256kB였고, L3 캐시는 2.5MB였다. L3 캐시메모리를 크게 만든 이유는 L2 캐시 메모리의효율을 높이기 위해서다. 메모리에서 데이터를 불러오면 L2 캐시와 L3 캐시에 함께 기록해 두는 인클루시브(Inclusive) 방식을 써서 L2 캐시에 새로운 데이터가 들어오더라도 L3 캐시 메모리에는 최근 L2 캐시 메모리에 담겼던 데이터들이 고스란히 남아 있다. 메모리를 거치지 않고 언제든 빠르게 다시 불러오겠다는 것이다.


제온 스케일러블 프로세서의 캐시 메모리는 완전히 새로운 구조다. L2 캐시메모리는 코어당 1MB로 4배가 커졌다. L2 캐시메모리는 비싸기 때문에 용량을 많이 넣기 어려운데 프로세서 코어의 효율성을 높이기 위해 크게 늘린 것이다. 대신 L3 메모리는 1.375MB 로 줄었다. L2와 L3 캐시 메모리에 데이터를 동시에 기록하는 인클루시브 방식도 쓰지 않는다. 필요한 데이터는 메모리에서 곧바로 L2 캐시로 복사하고, L3는 다음에 필요할 데이터를 예측하는 식으로 이용한다.


늘어난 새 L2 캐시 메모리와 메시 아키텍처가 맞붙으면서 프로세서 전체는 더 많은 데이터를 빠르게 캐시할 수 있고, 각 코어는 다른 코어가 캐시해 놓은 데이터를 손실없이 빠르게 불러올 수 있다. 그러니까 데이터를 불러오고, 옮기면서 생기는 지연을 없애는 것이다. 당연하게 생각하던 것들을 짜냈다고 보면 된다.

 

메모리 채널도 기존 2채널에서 3채널로 늘었다. - 최호섭 제공
메모리 채널도 기존 2채널에서 3채널로 늘었다. - 최호섭 제공

메모리도 빨라졌다. 소켓당 메모리 6개를 꽂을 수 있는 것은 바뀌지 않았는데, 이전까지 2채널로 3조를 쓰던 것에서 3채널 2조로 바뀌었다. 단순히 생각해도 메모리 속도가 1.5배 빨라지는 것이다. 물론 이 메모리에서 불러온 내용이 메시 아키텍처로 묶인 코어들 사이를 다니는 속도도 빨라지게 마련이다.


내부 효율만 높아진 건 아니다. 데이터센터용 서버는 프로세서가 한 개만 들어가지 않는다. 보통 2개나 4개, 그리고 필요에 따라 8개 CPU를 서버 한 대에 넣기도 한다. 이 프로세서와 프로세서도 묶어야 한다. 인텔은 이를 QPI라는 인터페이스로 연결했다. QPI는 9.6GT/s, 그러니까 1초에 9.6기가, 96억번 데이터를 전송할 수 있고, 보통 이를 2개 이용했다. 제온 스케일러블 프로세서는 10.4GT/s로 속도를 높이고 채널도 3개로 늘렸다. 이름도 UPI로 바꾸었다.


채널이 늘어난 이유 역시 여러개 코어를 연결하기 위한 것이다. 다리가 2개 있으면 직접 연결할 수 있는 프로세서도 2개뿐이다. 다리 하나를 더 놓는 것으로 3개 프로세서를 연결할 수 있게 되는데, 그만큼 손실이 크게 줄어든다. 물론 직접 연결되지 않은 프로세서를 연결하려면 다른 프로세서를 거쳐가야 하지만 3개를 연결하면 다른 프로세서를 거치는 빈도는 당연히 떨어지게 마련이다.

 

프로세서 대 프로세서의 연결 효율성도 높아졌다. UPI는 속도도 빨라졌을 뿐 아니라 채널이 2개에서 3개로 늘어났다. - 인텔 제공
프로세서 대 프로세서의 연결 효율성도 높아졌다. UPI는 속도도 빨라졌을 뿐 아니라 채널이 2개에서 3개로 늘어났다. - 인텔 제공

코어-코어, CPU-CPU, 서버-서버 “어디든 연결한다”


서버 대 서버의 연결도 당연히 개선됐다. 지난해 발표된 제온 파이 프로세서처럼 새 제온 프로세서에는 고속 옴니패스 콘트롤러가 직접 들어간다. 옴니패스 콘트롤러를 갖고 있는 프로세서는 한쪽 면이 툭 튀어 나와있다. 이를 통해 프로세서와 프로세서 사이가 서버의 버스를 거치지 않고 직접 연결된다. 이 역시 수 백, 수 천 대의 서버가 연결되는 데이터센터 안에서 데이터가 다른 서버로 넘어갈 때 생기는 시간적 손실을 줄이는 것이다.


자, 다시 이야기를 처음으로 되돌려보자. 인텔은 새 제온 프로세서의 이름을 ‘제온 스케일러블 프로세서’로 바꾸었다. 이 이름은 왜 붙었을까? 앞서 확장이라고 말한 적 있다. 늘 인텔은 클라우드를 위한 확장과 연결성을 이야기했지만 그 동안은 그저 각 연결 고리의 속도만 높였을 뿐이다.

 

옴니패스 콘트롤러를 품은 프로세서를 옵션으로 내놓는다. - 최호섭 제공
옴니패스 콘트롤러를 품은 프로세서를 옵션으로 내놓는다. - 최호섭 제공

하지만 새 프로세서는 그림 자체를 새로 그려냈다. 그 결과 손실, 그러니까 업계에서 ‘오버헤드(overhead)’라고 부르는 버려지는 시간들을 쓸어담았다. 또한 인텔은 코어와 코어, 프로세서와 프로세서, 서버와 서버를 연결하는 연결 고리도 온전히 새로 그려냈다. 말 그대로 ‘확장’이 쉽게 됐다. 반도체 설계도가 바뀌었고, 그 변화는 세대 교체가 아니라 완전히 다른 제품이라고 해도 좋을 정도다.


인텔은 왜 이런 파격을 선택했을까? 하루 아침에 새로운 기술을 뚝딱 개발해서 넣지는 않았을 것이다. 인텔은 언젠가는 작동 속도나 코어 개수를 늘리는 것만으로 성능을 끌어내는 게 어려워질 것이라는 것을 알고 있었다. 그리고 다음 시대의 진화를 위해 오랫동안 준비해 왔다. 그게 이번 제온 스케일러블 프로세서로 시작되고 있다. 프로세서의 진화를 가르는 1기가헤르츠, 듀얼코어에 이어 반도체에 새로운 패러다임이 열리고 있다.


 

※ 필자소개

최호섭. PC사랑을 시작으로 최근 블로터까지 IT 분야만 팠다. 차에서 보내는 시간이 아까워서 들여다보기 시작한 노트북과 팜 파일럿 PDA는 순간이 아니라 인생을 바꿔 놓았다. 기술 하나에 일희일비하지 않고 역사와 흐름을 읽고자 한다. 세상은 늘 배울 게 많고, 기술은 거짓말하지 않는다고 생각한다.

네이버밴드 구글플러스

2017년 07월 19일 16:00 프린트하기

혼자보기 아까운 기사
친구들에게 공유해 보세요

네이버밴드 구글플러스

이 기사가 괜찮으셨나요? 메일로 더 많은 기사를 받아보세요!

3 + 6 = 새로고침
###
과학기술과 관련된 분야에서 소개할 만한 재미있는 이야기, 고발 소재 등이 있으면 주저하지 마시고, 알려주세요. 제보하기

관련 태그뉴스