숫자는 거짓말을 한다
우리가 받는 통계는 작성자의 의도에 따라 진실이 왜곡되어 거짓을 정당화하는 도구가 될 수 도 있다. 이러한 점에서 숫자는 거짓말을 한다 라는 책은 우리에게 바로 하나의 좋은 경고이자 사실을 간파할 수 있는 지혜를 주고 있다.
이 책에서 서술하는 많은 내용은 어떻게 작은 부분을 전체화함으로써 우리의 눈을 속일 수 있는지 보여주고 있다. 예를 들어 트럼프가 인구가 매우 희박한 넓은 지역에서 승리한 것을 두고 미국 전체 몇 %에서 선거에서 이겼다고 왜곡 주장을 하는 것이 그 일부다. 마땅히 선거의 결과를 좌우하는 인구수를 기반으로 통계를 보여줘야 하는데 면적을 기반으로 한 작은 왜곡을 통해 트럼프가 클린턴에게 크게 이긴 것으로 통계를 보여주고 있다.
또 하나는 시계열을 왜곡함으로써도 가능하다. 책은 미국 범죄율에 관한 사실을 보여준다. 미국의 범죄율은 30년이라는 긴 시간을 놓고 보면 점차 하락하고 있는 추세이다. 하지만 최근 2014년 이후를 놓고 보면 범죄율이 최근 4년간 꾸준히 증가하는 것을 볼 수 있다. 그러므로 분석기간을 얼마로 보느냐에 따라 범죄율이 증가했다고 할 수 있거나 감소했다고 할 수 있다. 최근 기간은 시계열적으로는 짧지만 시의성이 있는 자료이므로 기간이 비록 적지만 중요성은 매우 크다.
이처럼 조그만 차이가 전혀 다른 결과를 보여준다.
상관관계와 인과관계는 더 중요하면서도 일반인들이 꿰뚫어 보기 어려운 이슈이다. 나는 예전에 여름철에 아이스크림이 잘 팔리는 것을 상관관계와 인과관계 차이의 좋은 예라고 배웠다. 하지만, 세상에는 이처럼 명확하지 않게 인과관계로 오해하기 쉬운 상관관계가 많다는 것을 배웠고 우리가 편집자의 의도에 휘말리지 않고 사실을 판단하려면 많은 노력이 필요하다는 것을 알게되었다.
흡연과 수명은 좋은 예이다.
흡연과 수명의 상관관계를 보여줄 경우 우리는 우리가 기존에 가지고 있던 인식 즉 흡연이 수명과의 상관관계가 크지 않다는 것을 알게 되고 그리하여 흡연이 수명을 단축시킬 수 있다는 인과관계를 부인하기 쉽다. 그러나 둘과의 상관관계에는 다른 요소들이 존재한다. 수명에 영향을 미치는 다른 요소들이 흡연에도 영향을 미칠 수 있다. 예를 들자면 소득이 높을수록 수명이 긴다. 하지만 소득이 높을수록 담배를 많이 사서 필수 있으므로 이 소득이라는 요수를 감안하지 않고 단순히 흡연과 수명의 상관관계를 분석하면 잘못된 결론을 내리게 될 수 있다.
작가는 데이터를 일부만 이용하거나 취합하는 경우 특정 패턴이나 추세가 종종 사라지거나 역전되는 합병 패러독스를 지적하고 있다. 소득이라는 요소를 감안하고 같은 소득자와 같은 연령을 지닌 사람들 사이에서 흡연과 수명을 보여준다면 우리는 전혀 다른 상관관계를 통해서 흡연이 수명을 단축시킨다는 인과관계를 파악할 수 있는 것이다. 여기서 또하나 작가가 지적하는 사항이 있다. 그것은 우리들이 속한 집단에 대한 선입견이 사실을 왜곡할 수 있다는 것이다.
종교와 행복과의 관계도 이러한 합병 패러독스를 보여준다. 행복한 사람일수록 종교를 많이 믿는 것일까. 아니면 불행한 사람일수록 종교를 많이 믿을 것인가. 정답은 둘 다 이다. 행복한 사람이 종교를 믿을 수 있다. 자신의 행복을 지켜주는 것이 신의 축복이라고 생각할 수 있기 때문이다. 그러나 반대로 불행한 사람이 종교를 더 강하게 믿을 수 있다. 자신이 처한 상황을 벗어나기 위해서 종교에 의지할 수 있기 때문이다. 하지만 종교가 행복을 가져다 줄 수도 있을 것이다. 아이오와대학교의 솔트 교수의 국가별 연구결과 불평등 수준이 변하면 종교적 신실함도 변한다는 사실을 보여주었는데 이는 개인의 경제적 수준과는 무관하게 나타 낫다. 가난한 사람이든 부자든 모두 불평등이 증가하자 종교적으로 더욱 독실해졌다. 솔프 교수는 부유하고 권력을 가진 사람들이 종교적이 되는 이유는 종교를 사회적 지배체제를 정당화 하는데 사용할 수 있기 때문이라고 한다. 반대로 가난한 이들은 종교에서 심리적 안정감과 소속감을 얻는다. 이러한 현상은 종교적 신실함과 행복 또는 웰빙이 음의 관계에 있으면서도 데이터를 개인적 수준으로까지 세분화하여 분석했을 대에는 양의 관계로 변하는 이유를 설명해 준다. 특히 불안정하고 불평등한 사회일수록 이 현상이 두드러지는데 그런 사회에서는 종교적인 행복감이 크다고 작가는 말한다. 이러한 수많은 상관관계속에서 인과관계를 찾기란 쉽지 않아 보인다. 그리고 우리는 우리가 믿고 싶은 것이 사실이기를 바라는 마음도 가지고 있다. 이러한 것을 우선 탈피하지 못한다면 우리는 정확한 사실을 파악하지 못하는 우려를 저지르게 된다. 작가는 독자에게 차트에서 너무 많은 것을 읽어내려 하지 말고 특히 자신이 읽고 싶은 것을 읽고 있을 때는 더더욱 조심하라고 경과한다. 또한 차트를 읽을 때 각각의 추론에는 그에 걸맞는 수준의 데이터 통합이 필요하다고 말하고 있다.
나는 내가 속한 조직에서 각종 통계기반 보고서를 작성하고 있다. 이번 책을 읽고 통계를 생산하는 담당자로서 내가 만든 자료들이 읽는 독자들에게 정확한 정보를 제공하기 위해서 내가 감안해야 할 점들에 대해 깊게 생각해 보게 되었다. 우리가 정보들 제공하기 위해서는 사실을 사실 그대로 전달하려고 하는 노력 이외에 저자가 말한 점들을 깊게 고찰하여 내 업무에 적용하도록 노력해야겠다.