반응형

조재근의 <통계학, 빅데이터를 잡다> "빅데이터 시대가 온다"

728x90

저자는  17세기 프랑스 학자 파스칼과 페르마가 주고받은 도박에 관한 편지로부터 확률 역사의 시작지점으로 본다. 그 후, 2세기가 지난 19세기 말 20세기 전반까지 본격적인 통계학의 모습을 갖추게 되었다고 한다. 즉, 통계학이란 기껏해야 1~200년 정도된 젊은 학문인 것이다. 짧다면  굉장히 짧은 기간동안 통계학이 발전되고 다듬어진 것이다. 그럼에도 불구하고 작금의 사회는 통계학 없이는 아무것도 할 수 없는 무기력한 시대의  표상이며 통계적 수치에 의해 지배받고 있다.

저자는  의학, 금융, 인구, 여론, 경제, 생물연구까지 광범위한 분야를 넘나들며 활약하는 통계학의 중요성을 강조한다. 통계학은 다양한 분야와 서로  뒤섞이며 영향을 주고받았고 그렇게 발전해온 것이다. 짧은 역사에도 불구하고 4차 산업혁명의 가파른 성장으로 인해 통계학은 빅데이터로 그 영향력이 더욱 확장되고 있다.  책에 소개된 예로, 구글이 빅데이터를 활용하여 미국 질병관리본부보다 2주나 더 빠르게 독감을 예측했다고 한다.  사람들이 인터넷 검색창에 입력하는 단어의 빈도수를 빅데이터화해서 살펴본 것이다. 의학적인 내용이 전혀 의학적이지 않은 영역에서 그 의미가 탄생한 것이다. 더욱이 저자는 우리가 무료로 사용하는 구글이 정말로 무료인가? 라는 질문을 던진다. 이에 대한 답변에는 철학적 시선의 높이가 요구된다.  인문학적 통찰력으로 무장된 통계와 빅데이터의 결합은 전혀 예상하지 못한 영역으로 이동하여 새로운 장르를 개척하려 한다. 무에서 유를 창조하는 셈이다. 
  
통계는  과거의 데이터를 취합하여 목적성있게 의미를 도출한다. 반면, 빅데이터는 엄청난 양의 데이터를 기반으로 새로운 의미를 탐색한다. 때문에 통계는  목적에 따라 기준이 달라지며 정치적 성향이 드러나기도 한다. 입지를 굳건히 하거나 가설의 논리적 뒷받침이 된다. 반면 빅데이터의 경우, 양적 무한성을  토대로 끊임없는 다양한 기준을 요구한다. 통계가 과거지향적이라면 빅데이터는 미래지향적이라고 볼 수 있다. 통계는 질을 우선시 하고 빅데이터는 양을 우선시 한다. 통계와 빅데이터의 관계는 자신의 꼬리를 물기위해 빙글빙글 도는 강아지와 같다. 통계의 결과는 오차를 극복하고 정확성을 향상시키기 위해 더  많은 양의 표본을 요구하지만, 빅데이터는 포착된 의미를 정량화하기 위해 통계의 수치적 작업을 요구한다. 서로가 끊임없이 되풀이되는 순환의 고리가  형성되는 것이다. 
  
또 다른 측면으로는 보편과 개별에 대한 논의다. 영국의  통계학자 센(Stephen Senn)의 저서 <Dicing with Death>에서 그가 이야기한 내용이 소개되는데 다음과  같다."세상 모든 사람들은 두 가지 종류이다. 나누는 사람과 합치는 사람... 대체적으로 볼 때 의사들은 나누는 사람들이고  통계학자들은 합치는 사람들이다." 또한, 프랑스 대통령이었던 사르코지 대통령은 다음과 같이 이야기한 바 있다고  한다. "평균에 대해 이야기하는 것은 불평등에 대한 이야기를 회피하는 방법중 하나이다." 즉, 통계를 내고 평균을  내는 것은 어떤면에선 보편성이 개별성을 침범하고 정당화를 주장함으로써 폭력적인 모습으로 비춰질 수 있다는 것이다.  저자 역시 이러한 면을  경계하는데, 통계는 절대적인 정답이 될 수 없고 반드시 비판적 사고능력이 필요하다고 강조한다. 자칫 평균의 함정에 빠질 수 있는 독자들에게 친절한 안내자가 되어준다. 

조재근 교수의  <통계학, 빅데이터를 잡다>는 빅데이터보다 확률과 통계에 대해 더 많은 지면을 할애하고 있다. 때문에 책 선정 시, 제목만보고 빅데이터에 대한 갈증을 해소하려는 욕구에는 적절하지 않을 수 있겠다.(본인이 그랬다.) 페이지 수로 비교하자면 각각의 내용이 차지하는 비율은 7:3 정도가 된다. 불친절하게 사용되는 전문용어들이 꽤 많고, 심지어 수리능력이 요구되는 파트도 많다. 때문에 일정량의 지식이 필요하다. 누구나 읽기쉬운 책이라기보단 교재로써의 그 역할이 더 부각된다. 잘 다듬어지지않은 문장들은 집중력 또한 요구된다.

책의 구성이나 내용, 문장을 떠나서 중간중간에 삽입된 그림이 많은데, 문제의 그림은 바로 천연두환자의 신체를 적나라하게, 그것도 칼라로 인쇄된 페이지가 너무 소름돋는다는 점이다. 아..너무너무 징그럽다. 내 피부에 뭔가가 올라오는 느낌이 자꾸 든다..트라우마가 생겨버렸다. 서평을 쓰기위해 책을 뒤적거리는데 왜 하필 천연두그림 페이지가 자꾸 눈에 들어오는지... 확 찢어버릴까 하다가 그냥 콱! 접어버렸다. 그래서 고민된다. 이 책을 쓰레기통에 내다 버릴까.. 아니면 책장에 꽂아둘까...

반응형

댓글

Designed by JB FACTORY