UPDATED. 2018-10-18 21:55 (목)
[이원섭의 통통마컴]쓰레기가 들어가면 쓰레기가 나온다
[이원섭의 통통마컴]쓰레기가 들어가면 쓰레기가 나온다
  • 이원섭 IMS Korea 대표 컨설턴트
  • 승인 2018.02.05 14:26
  • 댓글 0
이 기사를 공유합니다

빅데이터 시대의 오류…기초 데이터 수집이 핵심

얼마 전 케이블TV에서 뤽 베송 감독의 '루시'라는 영화를 다시 보았다. 뤽 베송 감독이 직접 우리나라 배우 최민식씨를 캐스팅해 마약 조직의 보스, 주연급 악당으로 출연한 것도 화제였지만 최씨의 대사를 모두 우리 말로 해서 화제가 되었던 영화이다.
 

<이미지> 영화 ‘루시’ 포스터<출처 : 나무위키>

 

이 영화의 결말 부분에서 루시(스칼렛 요한슨)는 다음과 같은 명대사를 한다. “1+1은 2였던 적이 없었다.” 이미 생물학자들도 이 사실을 인정하는 부분으로 아무리 똑같은 세포 두 개가 합쳐 활동해도 1+1이 그저 정량적인 차원에서의 2를 결과로 만들어내지 않는다는 것이다. 2라는 데이터의 암묵적 약속으로 그냥 따르는 것일 뿐이다. 그 이상의 결과는 계속 만들어지고 있고 또 현재도 진화하는 현재 진행형이다. 지금 눈 앞에 보이는 데이터는 허구일 수도 있다는 교훈을 루시는 말하고 있는 것이다. 그러면서 루시는 오직 시간만이 존재하는 것이고 진실이라는 것이다.


평소 데이터의 허구라는 생각을 갖고 있던 글쓴이에게는 당연히 가슴에 다가오는 대사가 아닐 수 없었다. 정치, 경제, 사회는 물론이고 저널에서도 데이터 저널리즘이 등장하면서 이제 거의 모든 분야에서 데이터는 기본이 되고 있다. 특히 컴퓨터의 처리 용량과 속도가 비약적으로 발전하면서 데이터를 신봉하는 사람들이 늘고 있다.

데이터에 대한 본질적인 이해를 해보자. 데이터를 사전에서 보면 ‘정량적 또는 정량적 변수의 값 집합’이라고 되어 있다. 이 정의에 따르면 정량적인 것이 아니면 데이터가 아니라고 이해해도 무방하다. 따라서 비정량 데이터라는 말은, 즉 정량의 상대 개념인 ‘정성적’인 데이터는 데이터가 아니라는 생각이다. 애초의 데이터를 정의할 때 측정, 계산이라는 개념을 가지고 만든 것인데 정성적인 것은 기계처럼 측정, 계산이 불가능 하니 데이터일 수 없다. 하나 더 붙이자면 정량적 데이터는 누가 언제 어떻게 하더라도 똑 같은 정확한 일정한 값을 나타내지만 정성적 데이터의 분석은 누가 하느냐에 따라 다르고(전문가, 비전문가), 언제 하느냐에 따라 다르고(시대성), 어떻게 하느냐에 따라 다르다.(감성적 툴)

또 한편으로 생각해 보면 우리가 지금 사용하고 있는 데이터의 개념은 ‘전송 가능하고 저장 가능한 컴퓨터 정보’의 의미이다. 컴퓨터와 연관되어 있으며 ‘데이터 처리’라는 과정과 연결되어야만 비로소 데이터의 가치(information)를 가진다.

 

‘쓰레기’같은 데이터들

데이터 처리는 또 무엇인가? Data processing이라고 표기하는데 데이터를 정보나 지식으로 바꾸는 컴퓨터상의 처리를 말하는 용어이다. 데이터 처리는 일반적으로 컴퓨터에서 자동으로 실행되는데 이런 데이터 처리 시스템은 정보 시스템이라고도 부른다.

정보 시스템은 가공되지 않은 최초의 측정자료, 즉 로 데이터(raw data)를 가공하고 또 분석해서 우리가 원하는 결과나 값을 찾아내는 것이다. 이쯤에서 다시 원론으로 돌아와 데이터를 가지고 말해야 통하는 세상에서 그 설득적 논리로 정성적인 것 보다는 정량적으로 접근하는 것이 합리적이고 과학적이라는 방법론을 우리는 학습해 왔다. 특히 마케팅을 하는 사람들이라면 예외 없이 정량적 분석에 집착한다. 새로운 사업계획서에도 전체 타깃 인구가 얼마인데 그 중에 몇 %만 차지해도 성공이라느니, 전체 시장 중 몇 %를 점유할 것이고 매출액은 얼마냐 등등….

예전 직장생활 할 때의 경험에 의하면 임원회의 등 중요회의 때 보고하는 자료는 얼마나 정확한 수치화를 했느냐에 따라 좋은 보고라는 평을 받았다. 즉 기업에서는 측정이 불가능한 데이터는 데이터가 아니며 수치의 개선, 발전이 곧 경영의 목표가 된다. 기업의 본래 목적이 경제활동을 통한 이윤의 창출인데 이것을 수치화, 즉 정량화한 데이터가 바로 ERP이다.

‘전사적 자원 관리’라 불리는 ERP(Enterprise resource planning)는 경영 정보 시스템(MIS)의 한 종류로 회사의 모든 정보 뿐만 아니라 공급 사슬관리(SCM), 고객의 정보(CRM)까지 포함해 통합적으로 관리하는 시스템이다. ERP의 궁극적인 목적은 이윤 창출을 최대로 하기 위한 원가 관리이다. 즉 투자되는 원가에서 얼마나 많이 팔아 더 많은 이윤을 만들기 위해 투자를 최소화 하고 이윤을 최대화하는 데이터를 관리하는 것이다. 그래서 ERP에는 <그림>에서처럼 매우 복잡하고 다양한 모듈들이 포함된다.

 

‘전사적 자원 관리’라 불리는 ERP 시스템 이미지.<이원섭>

 

이런 데이터를 기반으로 하지 않는 경영관리는 효율성 추구와 이윤 창출에 낭비요소가 많아 기업경쟁력이 떨어지고 결과적으로는 기업이 망할 수도 있으니 데이터 경영을 하라는 말이다. 하지만 이 데이터들이 객관적이고 합리적인 데이터인 정량적 데이터로 충족된다면 글쓴이는 지금 굳이 이런 글을 쓰지 않을 것이다.

앞에서 원시자료, 로 데이터에 대해 말했는데 이 데이터 프로세싱과 데이터베이스 매니지먼트(DBMS, 빅데이터)의 가장 큰 약점이 데이터의 입력이다. 정확하고 올바른 데이터가 입력되지 않으면(오류가 거짓의 데이터) 아무리 좋고 빠르고 정확한 시스템이라도 도출되는 결과값은 거짓이고 틀린 것이다. 시스템이 아무리 좋아도 들어가는 로 데이터가 거짓이라면 백해무익이다. 즉 람보르기니나 마이바흐 같은 최고의 자동차들이라도 들어가는 데이터(연료)가 휘발유라는 정확한 로 데이터가 들어가야 하는데 경유라는 데이터를 넣으면 이 고가의 차가 아무 소용이 없는 것과 같은 이치이다.

이것을 빗댄 IT 격언이 있다. 로 데이터가 정확하지 않으면 정보시스템을 통해 추출된 정보나 지식은 데이터가 아니라는 의미의 ‘GIGO(garbage in, garbage out)’가 그것이다. 잘못된 데이터가 들어가면 데이터도 아닌, 쓸데없는 쓰레기가 나온다는 명언이다. 이런 쓰레기 같은 데이터를 신봉하는 사람들이 의외로 많다.

 

1+1은 2가 아니다

우리 기업들이 중국에 처음 진출할 때 이 로 데이터를 잘못 생각해 낭패를 보고 철수한 경우가 많았는데 이것도 데이터의 오류였다. “중국 총인구 13억 중 경쟁사가 몇 %를 하고 있으니 1%만 우리 제품을 사도 1300만 고객이 생기는데 그동안의 우리 마케팅이나 영업 능력을 보면 그 정도는 아주 쉬운 것이고 잘 하면 2~3%는 충분히 달성할 수 있을거야”라면서 진출했던 기업들이 망한 것이다. 로 데이터를 잘못 산정해 데이터를 추출했으니 망하는 결과로 돌아온 것이다.

이런 데이터 측정의 오류를 우리는 너무 쉽게, 많이 접한다. 민자고속도로 건설의 교통량 예측 데이터가 그랬고, 경전철 공사 시 수익 예상 데이터도 다르지 않았다. 한창 논란이 되고 있는 4대강 개발 데이터(홍수, 가뭄데이터도 포함)도 실제와 보고서에 있는 데이터의 차이는 크다.

데이터 저널리즘에서 자주 등장하는 정치 분야에서의 데이터 활용 기사도 같은 맥락이다. 가장 핫 하다는 빅데이터 분석이라고 말들을 하지만 실제로는 투표자들의 민심인 로 데이터를 어떻게 정확하게 파악해 분석 시스템에 넣을 수 있다는 말인가? 시스템이 아무리 빠르고 정확해도 그 로 데이터 값이 틀렸는데 그 결과가 정확할 수 있나?

민심을 가장 많이 볼 수 있는 SNS 데이터 분석을 기반으로 하는데 이 데이터가 어떻게 정량화 측정, 계산 가능한 데이터로 만들 수 있느냐는 말이다. 빅데이터라고 하는 것들이 사용자들의 이용특성 등을 담은 오픈 API(Application Programming Interface)를 이용하고 있다. 이 데이터들은 사람의 마음을 담은 정성적인 데이터 들이다. 즉 SNS 상의 데이터는 나는 어느 정당을, 어느 후보를 00%, 다른 것은 00% 지지한다고 하는 정량적 데이터들이 아니다. 단지 지지 성향과 그 성향 비율 정도만 파악할 수 있다. 최근 가장 이슈가 되고 있는 가상화폐에 관한 네이버 뉴스 검색 자료를 한 번 보자.

가상화폐 관련 네이버 검색 화면.<이원섭>


위 화면은 최근 한 달간 ‘가상화폐’라는 검색어를 입력한 뉴스의 노출 결과이고 아래는 그 전달인 2017년 11월 한달 간의 똑 같은 검색어 입력 결과이다. 최근 한 달간은 무려 2만2174건의 뉴스가 검색되었고 그 전 한 달간의 노출결과는 4163건으로 데이터 단순 비교 수치상으로 약 5배의 차이를 보인다. 이 결과를 가지고 어떻게 판단할 것인가? 데이터상의 비교로 분명 최근 한 달간 가상화폐에 대한 관심도가 급증했다는 내용은 알 수 있지만 이것은 데이터를 가공한 정보적 수치는 아니다. 측정, 분석, 통계의 과정을 거치지 않은 단순한 로 데이터 수준인 것이다.


그렇다면 이 데이터로는 무엇을 할 수 있을까? 여기서 우리가 데이터를 분석하고 얻으려는 것, 목적을 분명히 알아야 한다. 내가 하는 일과 데이터를 활용하겠다는 단순한 생각으로 데이터에 접근하면 아무 소용이 없다. 예를 들어 글쓴이가 하고 있는 커뮤니케이션 분야에서 데이터 저널리즘 관점에서 본다면 데이터가 보도의 보조 수단으로 생각하고 접근하면 위 그림과 같은 단순 데이터로 나타나지 데이터 자체가 주제나 핵심 콘텐츠로 활용되지 못한다는 사실을 직시해야 한다.


도출된 데이터로 이해하기 쉽게 통계 그래픽으로 보여주고 %를 넣은 통계수치가 좋아 보이기는 하지만 주제나 스토리를 만들겠다는 목적을 가지고 데이터를 도출해야 한다. 예를 들어 가상화폐 투자자들이 누구인지? 왜 하는지? 해서 얻은 결과물들은 무엇인지 등등 처음부터 원하는 로 데이터들을 구하기 위한 목적부터 분명이 하고 데이터를 얻어야 한다.


데이터를 맹신하면 안 된다. 그 데이터에서 내가 얻고자 하는 정보를 맹신해야 한다. 시스템은 루시 말처럼 언제나 1+1=2라는 단순 데이터만을 보여줄 뿐이다. 정보화해서 내가 원하는 데이터를 보려면 현재의 공간이, 시간이 결합되어야만 한다.

 



댓글삭제
삭제한 댓글은 다시 복구할 수 없습니다.
그래도 삭제하시겠습니까?
댓글 0
댓글쓰기
계정을 선택하시면 로그인·계정인증을 통해
댓글을 남기실 수 있습니다.