본문 바로가기

Repositorium/Interest

통계 분석의 진실

 

통계 분석의 진실

 

 

우리는 아침에 눈을 뜨면 통계와 함께 하루를 시작한다.

일기예보에서 "오늘의 예상 강수량이 얼마입니다라는 정보를 보고 우산을 가방 속에 넣는다.

 

 

 

 

 

신문이나 각종 미디어 기기에서 접하는 뉴스와 정보들에도 각종 통계숫자가 넘쳐 나고 있다. 범죄, 이혼, 자살 등의 통계수치를 보며 세상이 점점 각박해짐을 느끼고, 주가, 부동산, 금리, 경제 성장율, 가계소득, 가계자금 대출의 각종 통계를 보며 힘들어지는 세상살이에 한숨을 짓게 된다.

 

어제의 TV 시청율은 그나마 우리에게 숨가쁜 일상에서 잠시나마 여유를 주는 고마운 통계 수치이다.

 

이처럼 수치화된 정보에 파묻혀 사는 현대인들은 이제는 숫자로 표현되지 않은 정보는 선뜻 이해하기가 힘들 지경이다.

 

 

<어린왕자>에서는 이러한 어른들의 모습을 재미있게 풍자했다.

 

 

 

어른들은 숫자를 좋아한다. 새로 사귄 친구 이야기를 할 때면 그들은 가장 중요한 것은 도무지 묻지 않는다.

 

"그 애 목소리는 어떻지? 그 앤 어떤 놀이를 좋아하니? 나비를 수집하는지?"라는 말은 절대로 하지 않는다.

 

"그 앤 몇 살이니? 형제는 몇이고? 몸무게는? 아버지 수입은 얼마야?"하고 그들은 묻는다.

 

그러고서야 그 친구가 어떤 사람인지 알게 된 줄 생각하는 것이다.

만약 어른들에게 "창가에 제라늄 화분이 있고 지붕에는 비둘기가 있는 장미 빛 벽돌집을 보았어요."라고 말하면 어른들은 그 집이 어떤 집인지 상상하지 못한다.

 

어른들에게 "10만 프랑짜리 집을 보았어요"라고 말해야만 한다. 그러면 그들은 ", 근사하겠구나!"라고 소리친다.

 

 

그러면 이렇게 숫자로 세상을 보기 시작한 것은 언제부터 일까?

 

유럽에서 흑사병이 널리 퍼지던 시절 만들어진 '사망표'는 체계적인 통계의 기원이라 할 수 있다. 도시는 왕과 일부 귀족들을 위해 사망자 수를 기록한 '사망표'를 정기적으로 발표했다. 사망자 수가 늘어난다는 것은 흑사병이 계속 퍼지고 있음을 뜻하는 것으로 생각했다.

 

이 작업은 1603년부터는 매주 사망표를 발표하였으며, 그라운트라는 사람은 런던의 사망표를 분석해 <사망표에 관한 자연적이고 정치적인 고찰>이라는 책을 1662년에 출간했다. 그는 이 책에서 그 동안 알려지지 않은 새로운 사실을 발표했다.

 

만성질환과 사고, 자살로 인한 사망자가 전체 사망자에서 차지하는 비중은 늘 일정하다는 사실과 매년 출생자 가운데 남자아이가 여자아이보다 조금 더 많다는 것을 처음 발견하였던 것이다.

 

따라서 그라운트의 발표는 통계분석이 새로운 사실을 발견하는 유용한 도구임을 여러 사람에게 인식시키는 계기가 되었다.

 

 

 

통계 숫자의 의미

 

점차 통계분석을 통해 새로운 사실이 발견되자 사람들은 그 동안 철석같이 믿고 있던 고정관념이 잘못된 것임을 깨닫게 되었고, 그에 비례하여 통계분석 연구자들의 위상은 조금씩 올라가게 되었다.

 

그러나 그에 따른 부작용이 서서히 나타나기 시작한 것도 어쩔 수 없는 사실이었다. 이때 통계를 비판적으로 본 사람들은 통계 숫자의 허구에 대하여 비판하기 시작했다.

 

마크 트웨인, 토마스 칼라일, 찰스 디킨스는 통계수치를 이용하는 사람들의 교묘한 사실 왜곡에 대하여 비판한 대표적인 인물들이다. 특히 디킨스는 "통계는 인간의 특징을 비인간적인 숫자의 나열로 환원함으로써 인간성을 말살한다"고 주장했다.

 

하지만 그런 그 조차도 자신의 주장을 강화하는 데 유리할 때는 통계를 쓰는 일을 마다하지 않았다. 그러나 누군가 어떤 통계수치를 근거로 내세우는 주장을 반박하기 위해서는 그것을 무시하기 보다는 다른 통계수치를 근거로 반박해야만 하기에 디킨스의 행동을 위선적이라고 몰아세우기도 힘들다.

 

 

통계 숫자가 주는 가치를 생각하게 하는 사례가 있다.

 

미국의 30~40여 년 전 오랜 전통을 가진 남자대학들은 여자의 입학을 강하게 반대하였다. 볼티모어에 있는 존스 홉킨스 대학에서도 거센 논란 끝에 여성의 입학을 허용했다.

 

그리고 얼마 뒤 놀라운 결과가 발표되었다. 여학생의 33.3 퍼센트가 입학 첫 해에 같은 대학의 교수와 결혼했다는 조사 결과였다. 33.3 퍼센트이면 꽤 높은 비율이라 사회적 관심을 끌기에 충분했다. 그런데 그 내막을 알고 나면 놀랍다.

 

33.3 퍼센트는 조사 당시 여학생 수는 3명이었고, 그 중 한 학생이 지도교수와 결혼했기 때문에 나온 통계 숫자였다. 이런 조사 결과를 두고 "여대생의 33.3 퍼센트가 교수와 결혼했다"고 발표했던 것이다.

 

이 사례는 통계조사에서 표본의 수가 너무 적을 때는 통계의 가치를 인정하기 어렵다는 사실을 보여준다.

 

 

 

통계 숫자의 마법

 

1948 2 10, 백범 김구는 '3000만 동포에게 읍고함'이라는 성명서를 냈다.

 

그 무렵 남북한 인구는 얼마였을까? 1945년에 실시한 인구조사에 따르면 2,530만 명이었다. 그리고 해외 이주 동포가 402만 명 가량으로 추산되었으니 얼추 3,000만에 거의 육박한다.

 

 

 

 

 

대한제국 말기의 우국지사들은 '2000만 동포'라고 했다.

을사늑약이 맺어지자 자결한 민영환은 유서는 "2000만 동포에게 고한다"라는 문장으로 시작한다.

 

1910년 일제 조사에 따르면 조선의 인구는 1,312만 명이었다. 상당수가 조사에서 누락됐을 가능성을 감안해도 학자들의 의견은 1,700만 명 내외였을 거라 한다. 그렇다면 '2000만 동포'는 꽤 과장된 수치임에 틀림없다.

 

1980년대 학생운동 진영은 '100만 학도'라는 학생운동 연합기관지를 펴낸 적이 있다. 시위 현장에서도 "100만 학도 총단결"이라는 구호가 넘쳐 났다.

 

그러면 당시 대학생 숫자는 얼마였을까?

통계청에 따르면 당시 재적 학생 수는 93만 명이었다. 이 가운데 재학생이 71만 명, 휴학생이 93만 명이었다.

 

그러면 왜 이런 숫자를 사용했을까?

그 이유는 똑 떨어지는 숫자는 사람들의 뇌리에 깊은 각인을 남기기 때문이다.

'1700만 동포'보다는 '2000만 동포', '93만 학도'보다는 '100만 학도'가 훨씬 잘 기억되는 것이다.

 

기억하기 쉬운 똑 떨어지는 숫자 그리고 그 숫자를 반복하여 언급하다 보면 사람들은 그 수치가 현실을 제대로 반영하지 않은 것임에도 진실로 믿게 된다.

 

 

 

 

나치 정권에서 선전을 담당했던 요제프 괴벨스가 남긴 말이다.

"사람들의 심리를 잘 이해하고 충분히 반복하면 사각형이 사실은 원이라는 것을 증명하는 것도 불가능한 일은 아닐 것이다."