‘가짜 뉴스’로 불리는 허위 조작정보가 정보기술기업과 각국 정부의 요란한 대응에도 불구하고 수그러들지 않고 있다. 빅데이터와 인공지능 분야의 숨가쁜 기술 발달은 진짜와 식별하기 어려운 가짜 정보를 손쉽게 조작해 낼 수 있는 도구로 활용되고 있다. 컨설팅기업 가트너는 2017년 10월 “2022년이 되면 대부분의 사람들이 진짜보다 가짜 정보를 더 많이 접하게 될 것”이라는 미래 보고서를 발표했다.
인공지능 기술이 허위 정보 조작과 확산에만 쓰이는 것은 아니다. 가짜를 찾아내고 막는 데도 요긴하다. 지난 10월31일 한겨레 사람과디지털연구소가 개최한 휴먼테크놀로지 포럼에서 김범수 연세대 정보대학원 교수(바른ICT연구소 소장)은 이날 ‘가짜 정보 이슈와 식별, 그리고 대응’이라는 주제발표에서 다양한 기술적 시도를 소개했다.
■ 기술적 접근법
가짜 뉴스를 탐지하는 기술적 접근은 주로 메시지의 언어적 신호와 네트워크 분석을 통해 이뤄지고 있다. 가짜 뉴스에 자주 등장하는 단어와 표현을 인공지능에 학습시켜 메시지 내용을 기반으로 가짜 뉴스일 확률을 계산하는 방식이다. 의미론 기반 가짜뉴스 탐지기법은 제목·본문에 있는 단어·어절·맥락을 분석해 사실성을 검증하는 방법이다. 기존 데이터베이스에서 텍스트 분석, 의미 추출 과정을 통해 지식 그래프를 구축한 뒤, 조사대상 메시지 내용을 지식 그래프와 비교해 검증하는 방식이다. 아마존·구글·페이스북 등이 활용중인 기술이다. 국내 가짜 뉴스들은 ‘저명한 지인에게서 전달받은 정보인데’ ‘내가 아는 고위 공직작의 말인데’ ‘누가 그러던데’처럼 취재원을 밝히지 않고 책임회피성 어구를 포함하는 경우가 흔하다. 가짜 뉴스에 ‘발각’ ‘진실’ ‘들통’ ‘충격’ 등의 단어가 자주 등장한다는 점은 의미론적 처리를 가능하게 하는 조건이다.
네트워크 분석은 가짜 뉴스가 주로 소셜미디어를 통해 확산되는 점에 주목해 네트워크에서 정보 확산 패턴을 통해 허위 정도를 판단하는 방법이다. 차미영 한국과학기술원 교수 연구에 따르면, 가짜 뉴스는 정상 뉴스와 비교해 네트워크에서 확연한 차이를 보인다. 정상 뉴스는 소셜미디어에서 조회·공유가 최초 시점에 집중된 뒤 시간이 지나면 거의 확산되지 않는다. 하지만 가짜 뉴스는 최초 시점보다 시간이 지난 뒤에도 계속해 높은 반응이 만들어진다. 또한 정상 뉴스는 다양한 전파 경로를 보이고 언론사 사이트같은 특정 노드를 중심으로 확산된다. 그러나 가짜 뉴스는 다수의 분산되고 균일한 노드를 중심으로 짧은 정보 확산이 관찰되고, 상관성 없는 사용자간에 산발적으로 전파되는 게 특징이다. 가짜 뉴스를 확산시키는 세력이 인위적으로 개입할 때마다 반응이 일어나기 때문이다.
신용카드 업체들이 도난·해킹 때의 패턴을 분석해 사용 시간과 지역 등에서 평소와 다른 패턴을 보일 경우 자동감지하는 방식과 유사하다. 현재 네트워크상 이상 패턴을 통한 가짜 정보 감지는 90% 수준의 탐지 예측력을 보여, 사람의 식별력을 능가한다. 소셜미디어에서 계정 사용자의 실명이 확인되지 않고 별 활동이 없는데 친구 숫자가 급격히 늘어나는 경우에도 가짜 정보 확산용 계정일 가능성이 높다.
■ 한계와 대안
다양한 기술적 방법이 모색, 동원되고 있지만 한계도 명확하다. 기술로는 100% 확률로 완벽한 ‘가짜 뉴스’임을 확인할 수 없다. 기술적으로 가짜 뉴스를 생성·확산 초기 단계에서 탐지하거나 차단하는 게 어렵다. 의미론적 분석이나 네트워크 패턴 감지의 경우, 방대한 지식 그래프를 구축해야 하고 널리 확산된 뒤에야 경로와 패턴 특이성을 분석할 수 있다. 또한 뉴스는 본질적으로 ‘새로운 정보’이기 때문에 과거의 데이터나 관행과 비교해서 일치하지 않는다고 해서 가짜 뉴스라고 판단할 수 없다. 이용자는 뉴스에 대해 “기존에 없던 새로운 정보”라는 인식을 갖고 있기 때문에, 이례적 정보일수록 주의를 기울이는 성향이 있다.
이런 기술적 접근법의 한계로 인해, 정보기술 기업들은 가짜 뉴스 탐지에 사람이 참여하는 비기술적 접근법을 병행하고 있다. 언론사 기자처럼 팩트체크 전문집단과 협업하거나, 논란이 있는 정보를 이용자들의 집단지성 모델로 검증하는 모델이 있다. 구글은 프랑스 대선을 계기로 2017년 2월 세계 37개 언론사들과 함께 크로스체크(CrossCheck) 플랫폼을 만들었다. 국내에서도 서울대 언론정보연구소의 팩트체크센터가 비슷한 방식으로 작동하고 있다.
위키트리뷴(WikiTRIBUNE), 크라우드소싱(Crowdsourcing)은 위키피디아와 유사한 형태의 집단지성 기반 정보검증 모델이다. 전문가와 다중이 참여하는 비기술적 접근법도 한계가 있다. 전문가들의 팩트체크 시스템은 결과가 명료하고 공신력이 높지만 검증할 수 있는 정보가 제한되고 시간과 인력 비용이 크다. 집단지성 기반 개방형 탐지기법은 결과의 신뢰도를 확신할 수 없는 경우가 종종 있다.
기술적·비기술적 접근법 모두 제한적 효과를 지니기 때문에 실제 플랫폼 서비스기업들은 두 방법을 혼용한 형태를 주로 활용한다. 국내에서도 가짜 뉴스를 규제하기 위한 입법 움직임이 있다. 가짜 뉴스는 악의를 가진 세력이 문제를 일으켜 피해를 키우기는 용이하지만 이용자와 정부당국 차원에서 발본색원하기는 거의 불가능하다. 종합적인 문제인 만큼 장기간에 걸쳐 해결해야 한다한다는 접근법이 요구된다.
구본권 사람과디지털연구소장 starry9@hani.co.kr