메뉴바로가기본문바로가기

동아사이언스

포털이 스팸메일 구분하는 원리를 아시나요?

통합검색

포털이 스팸메일 구분하는 원리를 아시나요?

2016.11.02 15:00

스팸메일을 보내는 사람은 스팸이 아닌 것 같은 메일, 악성 코드가 없는 것처럼 보이는 메일을 보내려 합니다. 반대로 스팸메일을 받는 사람은 처음부터 스팸을 알아보고 휴지통으로 보내고 싶습니다. 그러면 애초에 메일을 열어볼 일이 없기 때문입니다. 그래서 ‘스팸일 확률이 높은 메일’을 찾기 시작했습니다.

 

GIB 제공
GIB 제공

‘적을 알고 나를 알면 백전백승’이라는 말이 있습니다. 스팸과 치르는 전쟁에서는 스팸메일과 문자의 흔한 특징을 먼저 아는 것이 도움이 됩니다.


스팸메일함이나 휴지통 안에 분류된 스팸메일과 문자를 보면 제목에 ‘★’, ‘☞☜’ 같은 특수 기호가 섞여 있거나 ‘모집 중’ 또는 ‘무료 배포’라는 문구가 들어있는 경우가 많습니다. 스팸을 걸러주는 필터 알고리즘에 스팸에 자주 등장하는 기호와 문구를 입력해 두면 스팸을 상당량 거를 수 있습니다. 필터 알고리즘이 스스로 학습해서 여러분의 메일함으로 가지 못하도록 차단하는 스팸의 양은 상상 그 이상입니다.


이렇게 경험을 토대로 어떤 사건의 확률을 추론할 때 유용한 원리가 바로 ‘베이즈의 원리’입니다. 1701년경에 영국에서 태어난 토머스 베이즈가 확률론에 대해 쓴 원고에서 처음 발견돼 그의 이름이 붙었지요. 이 원리는 지금까지도 스팸 필터 알고리즘의 기본 원리로 쓰이고 있습니다.

 

단순한 베이즈의 원리가 기반인 스팸 필터는 스팸을 거르는 속도가 무지 빠르지!
단순한 베이즈의 원리가 기반인 스팸 필터는 스팸을 거르는 속도가 무지 빠르지!

멀고도 험한 스팸 정복


스스로 학습하며 발전하는 필터를 뚫기 위해 스팸메일도 교묘해집니다. 마치 친구가 보낸 메일처럼 제목을 ‘야, 오늘 뭐해?’라고 짓는 식으로요. 메일의 내용으로 스팸 여부를 판단하기 어렵다면, 스팸이 동시다발적으로 뿌려진다는 점을 이용할 수는 없을까요?


신승원 교수는 “누군가 동시에 대규모로 보낸 것인지 아닌지를 알려면 세계 각국의 네트워크 길목을 모두 감시하고 있어야 하는데, 현실적으로 어렵다”고 말했습니다. 각국의 정부와 통신사가 모두 관련된 문제거든요.


최근 ‘시만텍’을 비롯한 보안 소프트웨어 회사들은 스팸 메일을 보낼 확률이 높은 봇넷의 비정상적인 행동 패턴을 발견하는 방법에 집중하고 있습니다. 보안 전문가들은 모바일 메신저로 스팸을 보내려면 일정 금액을 내야 하는 비즈니스 모델을 만들어 빠르게 증가하는 모바일 스팸의 양을 줄이는 방법에도 관심을 갖고 있습니다.


통신망을 개발한 인류는 통신망을 타고 오는 스팸을 차단할 전략을 끊임없이 개발하고 있습니다. 다행히도 이 과정에서 보안 체계도 조금씩 발전하고 있지요. 스팸을 정복하는 날까지 아주 오래 걸릴 것 같지만 싸움을 포기하지 않을 겁니다.

 

GIB 제공
GIB 제공

단어 ‘MONEY’가 들어 있는 메일을 스팸으로 봐야 할까?


기본 전제
1. 메일은 스팸메일이거나 정상메일이다(둘 모두에 속하거나 속하지 않을 수 없다).
2. 단어 ‘MONEY’가 들어 있는 메일이 스팸메일일 확률이 정상메일일 확률보다 크면 스팸으로 보고, 작으면 정상메일로 본다


베이즈의 확률 공식

 

수학동아 제공
수학동아 제공

스팸 필터 알고리즘이 학습으로 이미 아는 것

➊ 메일함에 들어오는 전체 메일 중 스팸메일의 비율(0.8)
➋ 메일함에 들어오는 전체 메일 중 정상메일의 비율(0.2)
➌ 정상메일에 단어 ‘MONEY’가 들어 있을 확률(0.1)
➍ 스팸메일에 단어 ‘MONEY’가 들어 있을 확률(0.6)


베이즈의 확률 공식을 이용해 볼까요?
▶ 만약 ➊×➍ › ➋×➌이면 단어 ‘MONEY’가 들어 있는 메일이 스팸메일일 확률은 정상메일일 확률보다 높다. ➡ ‘MONEY’가 든 메일은 휴지통으로.
▶ 만약 ➊×➍ ‹ ➋×➌이면 단어 ‘MONEY’가 들어 있는 메일이 스팸메일일 확률은 정상메일일 확률보다 낮다. ➡ ‘MONEY’가 든 메일은 정상메일함으로.
이 경우 ➊×➍는 0.48, ➋×➌는 0.02이므로 이 필터는 단어 ‘MONEY’가 들어 있는 메일을 스팸으로 분류할 것이다.


 

도움| 신승원(KAIST 전기전자공학부 교수), 김형식(성균관대 소프트웨어학과 교수)

이 기사가 괜찮으셨나요? 메일로 더 많은 기사를 받아보세요!

댓글 0

12 + 1 = 새로고침
###
    과학기술과 관련된 분야에서 소개할 만한 재미있는 이야기, 고발 소재 등이 있으면 주저하지 마시고, 알려주세요. 제보하기

    관련 태그 뉴스