주메뉴바로가기.. 본문바로가기

구글 렌즈, 텍스트 너머 세상을 검색한다

카카오스토리 네이버밴드 구글플러스

2018년 06월 29일 17:57 프린트하기

지난해 구글의 개발자 컨퍼런스인 ‘구글I/O 17’에서 가장 주목받은 것은 구글렌즈였다. 구글렌즈는 스마트폰 카메라로 사물을 비추기만 하면 사물을 읽어들이고 필요한 정보를 찾아주는 앱이다. 이 키노트에서는 공연 포스터를 찍으면 공연 정보와 함께 티켓 예매 페이지를 연결해주었고, 무선공유기의 접속 비밀번호를 찍으면 알아서 네트워크에 연결해주었다. 사물 검색은 말할 것도 없다. 카메라만 들이대면 낯선 고양이의 품종까지 알려주었다.
 

이 구글 렌즈는 발표 직후의 기대와 달리 조금은 조용히 1년을 보냈다. 당연히 구글렌즈가 사물을 읽어들이는 것은 머신러닝 기술이 필요했고, 데이터셋을 모으고 학습하는 데에 시간이 필요했다. 그리고 올해 구글I/O 키노트를 기점으로 몇 가지 기능이 더해졌다. 텍스트를 찍으면 관련 정보를 보여주거나 메뉴 속 음식 정보, 요리 레시피를 찾고 무선랜 접속 비밀번호를 클립보드에 복사한다. 또한 비슷한 이미지를 찾을 수 있게 되면서 옷을 찍으면 똑같은, 혹은 닮은 스타일의 옷을 찾는 등 이용자가 카메라를 들이대는 의도를 읽어낸다. 세상을 검색할 수 있게 된 셈이다.

 

구글렌즈로 사물을 찍으면 똑같은 혹은, 닮은 사물을 찾는 등 이용자의 의도를 파악한다 - 구글렌즈 스크린샷
옷을 찍으면 똑같은 혹은, 닮은 스타일의 옷을 찾는 등 이용자의 의도를 파악한다 - 구글렌즈 스크린샷

구글렌즈가 읽어야 하는 사물은 생각보다 훨씬 더 많다. 스마트폰의 카메라는 평면적으로 사물을 볼 수밖에 없는데 한 가지 사물을 사진으로 찍어도 수 십가지의 구도가 나오게 마련이다. 머신러닝이 트레이닝해야 하는 정보는 세상의 사물에 수 십 배를 곱해야 할 수도 있다. 그래서 이 머신러닝이 사물의 모양을 배우는 데이터셋과 학습이 중요하다.

구글 렌즈의 프로덕트 매니저인 루 왕(Lou Wang)은 구글렌즈가 사물을 읽는 방법이 크게 세 가지로 나뉜다고 설명했다. 분류, 인식, 그리고 임베딩이다. 분류는 기본적으로 카메라에 들어오는 영상을 읽는 기능이다. 구글포토처럼 이미지의 맥락을 읽고, 해시태그처럼 화면 속의 주제들을 뽑아낸다. 그리고 얼마나 맞을지 확률도 함께 계산한다. 그 다음에 하나하나씩 세부 요소들을 인식한다. 이미지 속에 어디에 사물이 있는지를 세세하게 따진다. LG전자 G7처럼 구글 렌즈를 카메라에 접목해서 사진 촬영을 돕는 경우에 이 인식 기능이 중요하다.

 

구글렌즈 스크린샷
구글렌즈 스크린샷

마지막 임베딩은 이미지의 정확도를 기반으로 비슷한 사물을 연결해주는 것이다. 비슷한, 혹은 같은 이미지를 학습한 데이터와 대조하는 것으로 컴퓨터 비전에서 중요한 역할을 차지하는 기술로 꼽힌다. 검색 결과를 더 탄탄하게 만드는 것은 물론이고 쇼핑에 활용하면 비슷한 제품을 찾아주는 등 이미지를 기반으로 세상을 검색할 수 있게 해주는 것이다.

당연히 이미지는 텍스트 정보에 비해서 변수가 많고 그 자체로 용량도 크다. 학습량이 엄청나게 많기 떄문에 이제까지의 머신러닝 서비스들과 달리 급하게 검색 결과가 좋아지지는 않는다. 컴퓨터도 많이 필요하다. 루 왕 프로덕트 매니저는 “이전에 GPU를 이용해 모델을 훈련시킬 때는 몇 주 걸리던 것이 TPU(Tensor Processor Unit)를 이용하면서 몇 시간만에 처리할 수 있게 됐다”고 말한다. TPU는 구글이 직접 개발한 머신러닝 전용 프로세서다. 머신러닝은 단순 반복 작업의 무한 반복이 이뤄지기 때문에 CPU보다도 코어 수가 많은 GPU가 유리하고, 이보다 더 머신러닝 데이터 처리에 최적화된 TPU가 머신러닝의 학습을 도우면서 실생활에 적용할 수 있는 범위가 늘어나고 있다.

 

구글렌즈 스크린샷
구글렌즈 스크린샷

요즘 구글이 새로운 서비스를 내놓는 패턴이 흥미롭다. 세상에 없던 새로운 것은 맞는데 어디선가 본 것 같다. 그리고 그 동안 기술적으로 ‘어렵다’는 생각이 머릿속 깊이 뿌리 내린 것들을 아무렇지도 않게 풀어낸다. 그 과정에 분명히 머신러닝이 있다. 텐서플로가 있고, TPU가 있고, 이를 아우르는 구글의 클라우드가 있는 셈이다.

구글 어시스턴트는 놀라운 기술이지만 구글은 이미 비슷한 시도를 오랫동안 해 왔다. 사물을 읽어들이는 것이다. 구글 검색 엔진에 이미지 검색을 더한 것은 물론이고, 스마트폰 도입 초기에 인기를 끌었던 ‘구글 고글(Google goggle)’이라는 앱도 있었다. 가깝게는 사진을 분류하고 검색할 수 있는 구글 포토도 있다. 구글이 목표를 정하고 접근하는 방법의 다양성이 바로 여기에서 드러난다. 기계에 ‘생각할 수 있는 눈’을 달아주는 컴퓨터 비전 기술을 풀어내는 다양한 방법들을 고민하는 것이다. 그리고 그 호흡은 매우 길다.

구글 고글은 구글 렌즈와 가장 닮은 서비스다. 사진을 찍으면 이를 분석해서 비슷한 이미지를 찾아주는 것이다. 이미지 검색의 출발점이라고 해도 무리는 아니다. 구글 렌즈를 루 왕 프로덕트 매니저는 “영향을 받은 것은 사실”이라며 “기기와 카메라의 성능이 좋아지면서 과거 구글 고글을 개발하던 시절에 이루지 못했던 경험을 만들어낼 수 있게 됐다"고 설명한다.

여기에 구글 포토를 통해 쌓은 데이터셋 등이 머신러닝의 정확도를 높이고 검색의 정보를 확장하는 ‘지식 그래프’ 처럼 구조화된 정보로 탄탄하게 다져놓은 기본기를 더해 그야말로 ‘세상을 검색하겠다’는 구글의 포부를 현실화하는 것이 바로 구글 렌즈다. 다만 구글 포토와 데이터셋은 공유하지만 기술적인 차이는 있다고 한다.

“구글 포토는 멈춰진 정지 화면을 분석하지만 구글 렌즈는 움직이는 화면을 검색합니다. 단일이미지와 움직이는 영상의 일부를 분석하는 것은 기술적으로 사진과 영상만큼이나 큰 차이가 있습니다. 학습방법도 달라져야 하고 필요한 데이터셋도 다릅니다.”

구글 렌즈는 구글 고글 뿐 아니라 구글의 가장 뜨거웠던 시도인 스마트 안경 ‘구글 글래스’와도 연결된다. 시선이 가는 곳에 대한 정보를 분석해주는 것이 서로 통하기 떄문이다. 기술 뿐 아니라 기기와 그 처리 방법을 사회가 얼마나 받아들일 수 있느냐도 놓치면 안 되는 중요한 문제다.

보안에 대한 우려가 빠질 수 없다. 구글 렌즈가 항상 사물을, 또 사람을 감시하고 관련 정보를 구글에 전달하는 것에 대한 걱정이다. 현재 구글 렌즈는 카메라에 담기는 모든 영상을 분석하지만 대부분 기기에서 데이터 전처리를 하고, 검색하고 싶은 사물을 누르면 그때 서버로 전송해서 정확한 분석을 한다. 구글렌즈로 사물을 가까이 대면 마치 생각하는 것처럼 점들이 움직이다가 특정 부분에 점이 뜨는데 이 과정이 기기의 프로세서를 이용해서 머신러닝을 처리하는 ‘분류’ 작업이다. 이 때문에 구글 렌즈는 아직 배터리가 많이 소모된다. 개인정보에 대한 처리는 구글 포토를 비롯해 기존의 구글 정책을 그대로 따르고, 무단으로 수집하더나 함부로 이용하지 않는다고 한다.

구글 서비스의 진화는 늘 흥미롭다. 새로운 것도, 또 새롭지 않은 것도 있지만 구글은 상상 속에 있던 기술들을 우리 앞에 현실로 꺼내 놓았다. 구글 렌즈도 우리가 늘 상상으로만 하던 ‘바라보는 것에 대한 검색’을 실제 제품으로 만든 것이다. 세상을 검색하겠다는 구글의 포부는 텍스트를 넘어, 우리 눈의 역할을 돕고 있는 수준까지 올랐다.

카카오스토리 네이버밴드 구글플러스

2018년 06월 29일 17:57 프린트하기

 

혼자보기 아까운 기사
친구들에게 공유해 보세요

네이버밴드 구글플러스

이 기사가 괜찮으셨나요? 메일로 더 많은 기사를 받아보세요!

9 + 7 = 새로고침
###
과학기술과 관련된 분야에서 소개할 만한 재미있는 이야기, 고발 소재 등이 있으면 주저하지 마시고, 알려주세요. 제보하기

관련 태그뉴스