메뉴바로가기본문바로가기

동아사이언스

[테크놀로지와 저널리즘] 컴퓨터가 자동으로 사실(fact)을 확인할 수 있을까?

통합검색

[테크놀로지와 저널리즘] 컴퓨터가 자동으로 사실(fact)을 확인할 수 있을까?

2016.09.21 07:00

우리는 일상적으로 뉴스를 접한다. 뉴스는 우리 주변에서 일어나는 사실(fact)이나 사건을 보도의 틀에 맞도록 재구성한 이야기다. 우리가 접하는 뉴스의 대부분은 기자라는 전문 직업층이 뉴스 가치(news values)에 따라 선택한 사실에 기반한 이야기다.

 

사실에 기반한 이야기이기 때문에 우리 대부분은 뉴스 내용을 믿는다. 뉴스에 사실이 없다면, 뉴스로서 가치를 잃는다. 그런데, 뉴스가 너무 많다. 뭘 봐야 할지 모를 정도로 뉴스가 넘쳐나고 있다. 우리가 알아야 할 사실이 그만큼 많아진 것일까? 또, 사실이 많아지는 만큼 그것이 사실인지 아닌지를 판단하기도 힘들다. ‘기레기’라는 단어의 탄생 배경 중 하나다.

 

GIB 제공
GIB 제공

●도대체 ‘사실(팩트)’이란 무엇일까

 

그렇다면, 사실은 누가 판단할까? 그 전에 사실은 무엇일까? 사실, 사실은 완전히 객관적이기 보다는 상대적인 것이라고 볼 수 있다. 학계가 검증한 과학적 사실, 객관적인 통계 수치 등은 일반적으로 사실로 인정받는다. 그런데, 과학적 사실은 새로운 발견에 의해 무너질 수 있으며, 통계는 전체를 반영하지 못하기에 때에 따라 다르다. 영구적으로 존재하는 사실 자체가 상대적이다.

 

그럼에도 불구하고, 뉴스는 사실을 전달한다. 정확히는 그 당시 사실이라고 믿어지는 것이다. 전달되는 사실의 양이 적을 때에는 그 검증이 비교적 쉬웠다. 여럿이 집중해 검증할 수 있는 양이었기 때문이다.

 

●팩트는 ‘체크’돼야 한다?

 

그런데, 현재 우리나라에서만 하루 생산되는 뉴스의 양이 수만 건을 넘는다. 수만 건이 모두 다른 사실을 전달하는 것은 아니지만, 그만큼 전달되는 사실의 양도 늘어나고 있다. 사실을 검증하기에는 물리적으로 너무나 많은 양이다. 뉴스 기사 작성과는 별도로 사실을 검증하는 ‘팩트체킹(fact checking)’ 모델이 등장한 이유다.


지금까지 ‘팩트체킹(fact checking)’은 정치인 등 유력 인사의 공식적 발언, 기자회견, 보도자료, 강연 등 내용, 신문과 방송의 보도 내용, 페이스북, 트위터, 블로그 등 SNS 발언 내용 등을 대상으로 사실을 검증하는 방식으로 주로 이루어져 왔다.

 

미국의 폴리티팩트(politifact.com), 팩트체크(factcheck.org), 더 팩트체커(The Fact Checker) 등이 대표적이다. 탬파베이타임즈의 워싱턴 지국이 운영하는 사실 검증 서비스인 ‘폴리티팩트’는 기자 4명이 사실을 검증하고 있다.

 

펜실베이니아 대학 ‘애넌버그 공공정책센터(Annenberg Public Policy Center)’가 운영하는 ‘팩트체크’는 전문 검증자 및 경영자 10명과 대학생 펠로우 5명이 사실을 검증하고 있다. ‘더 팩트체커’는 워싱턴포스트의 기자인 글렌 케슬러(Glenn Kessler)가 워싱턴포스트의 블로그를 통해 주요 정치인의 발언을 검증하고 있다. 우리나라 JTBC 뉴스룸의 ‘팩트체크’도 소수 기자들이 사실을 검증하고 있다.

 

그런데, 소수 전문화된 인력만으로는 수없이 많은 사실을 검증할 수 없다. 검증의 대상으로 일부 사실만을 선택할 수밖에 없다. 그렇지만, 이 선택의 과정에 사실과는 어울리지 않는 편견이 개입된다. 사실을 선택하는 것부터가 주관적이기 때문이다. 컴퓨터에 의한 자동 ‘팩트체킹’ 모델이 등장한 배경이다.

 

●클레임버스터와 구글의 지식금고


미국 텍사스 대학과 듀크 대학, 스탠포드 대학 연구진과 구글 리서치팀이 공동으로 진행 중인 ‘클레임버스터(ClaimBuster)’(☞관련내용)는 팩트를 0과 1사이의 수치로 표현한다. 신문 기사, 토론문, 연설문, 인터뷰 등을 문장 단위로 자른 다음 각 문장의 신뢰도를 기계학습 알고리즘에 따라 자동으로 판단한다.

 

‘클레임버스터’는 과거 정치인들의 토론문, 발언, 기사 등으로부터 약 2만 여 개의 문장을 선정한 다음 226명의 전문가들이 이 문장들을 세 가지 범주로 분류했다. 첫째, 사실이 아닌 문장(Non-Factual Sentence)으로 팩트체킹이 필요하지 않은 주관적 주장이 담긴 문장이다. 둘째, 중요하지 않은 사실 문장(Unimportant Factual Sentence)으로 너무 객관적인 내용이라 높은 수준의 팩트체킹이 필요하지 않은 문장을 말한다. 셋째, 검증 가치가 있는 사실 문장(Check-worthy Factual Sentence)으로 진위에 대한 논란의 여지가 있어 팩트체킹이 필요한 문장을 말한다.

 

클레임버스터 메인화면
클레임버스터 메인화면

연구팀은 검증 가치가 있는 사실 문장을 대상으로 전문가로 하여금 0과 1사이의 수로 신뢰도를 매기게 했다. 그리고 그 결과를 기계가 학습하도록 했다. 학습이 완료된 모델에 따라 사실 검증이 필요한 문장의 신뢰도를 평가하게 했다.

 

연구팀이 밝힌 바에 따르면 그 정확도는 약 79% 정도다. 이들은 사람이 사실을 검증하는 폴리티팩트, 팩트체크 등 기존 팩트체킹 서비스들과 연계해 그 데이터를 학습하면 정확도가 더욱 높아질 것이라고 기대하고 있다.

 

또한, 구글 뉴스나 SNS에 올라온 데이터를 모닝터링해 실시간으로 팩트체킹을 구현하고, 텍스트뿐만 아니라 나아가서는 뉴스 동영상에 대한 팩트체킹을 실시하는 것으로 목적으로 하고 있다. 문제는 정확도다. 현재 79%인 정확도는 사실에 대한 판단을 위해서는 부족하며, 신뢰도를 지수로 표기하는 이유다.


사람이 팩트를 체크하면 정확성은 높지만 판단할 수 있는 양에 한계가 있고, 기계 알고리즘에 따라 팩트를 체크하면 처리할 수 있는 정보의 양에 제한은 없지만 정확도에 아직까지는 한계가 있다.

 

그 한계의 극복을 위한 사례가 구글의 ‘지식 금고(knowledge vault)’다. 구글은 팩트체킹봇(fact checking bots)이라고 이름 붙여진 웹 수집기(crawler)를 통해 웹 문서를 자동으로 수집하고 인물, 기관, 장소, 주요 통계 수치 등 개체명을 인식하고 색인 과정을 거쳐 수집한 각 개체들 간의 관계를 구성해 하나의 팩트를 생성한다.

 

생성된 팩트들을 기반으로 해 다른 정보들 간의 관계를 예측하고 이를 통해 또 다른 팩트들을 만들어낸다. 이렇게 만들어낸 팩트들을 모은 것이 구글의 지식 금고다. 구글은 2014년 기준 16억 개의 팩트를 확보하고 있으며, 이 중 2억7000만 여 개의 팩트는 90% 이상의 신뢰도를 보장한다고 알려져 있다.(☞관련 내용)


이렇듯 수집되어 구성되는 팩트의 양은 그간의 사례에 비춰보면 기하급수적으로 늘어날 것이다. 구글 지식금고의 양은 향후 예측이 불가능할 정도로 많아질 것이다.

 

그런데, 문제는 팩트라는 것이 완전히 객관적이기 보다는 상대적인 것이라는 점이다. 우리가 객관적인 것이라고 믿는 사실과 의도적이고 편파적이라고 믿는 사실이 아닌 것의 경계는 모호할 경우가 많다. 상대적으로 중요하지 않은 단편적인 사실을 지나치게 강조함으로써 보다 중요한 사실이 왜곡될 수도 있다. 사회적으로 인정되는 보편적 통념 자체도 편향된 경우가 많다. 기술에 대해 아무런 의심을 하지 않는다면, 우리는 앞으로 구글이 사실이라고 인식한 것을 사실로 받아들여야 하는 상황에 놓일 수도 있다.

 

 

※ 필자소개
오세욱. 학부에서 동양사를 전공하고 언론정보학으로 박사학위를 받았다. 미디어와 관련한 여러 곳의 회사를 다닌 후에 현재는 한국언론진흥재단 미디어연구센터 연구위원으로 재직 중이다. 미디어로서 소프트웨어에 대해 관심을 갖고 연구를 진행 중이다.

이 기사가 괜찮으셨나요? 메일로 더 많은 기사를 받아보세요!

댓글 0

3 + 8 = 새로고침
###
    과학기술과 관련된 분야에서 소개할 만한 재미있는 이야기, 고발 소재 등이 있으면 주저하지 마시고, 알려주세요. 제보하기

    관련 태그 뉴스