통계 모델링 즉, 모형을 작성하고 관측 데이터에 적합하여 현상을 이해하는 일련의 분석 방법에 대해 본 책은 설명하고 있다. 내용은 입문자를 위한 내용이지만, 초보자를 위한 일반적인 교과서와는 상당히 다른 방향으로 구성되어 있다. 이 책은 문과, 이과 등의 계열과 관계없이 수리모형으로 현상을 표현 및 설명하기 위한 기초가 없는 독자를 대상으로 한다. 최근 통계 수리모형, 프로그래밍 등을 수강한 경험이 없지만 복잡한 데이터 분석 처리를 해야만 하는 입장에서 괴리를 어느 정도 좁혀보려고 쓰여졌다.
큰틀에서의 목적은 통계모형의 기본이 되는 사고방식을 설명한다. 구체적으로는 각 장의 도입부에 예제 데이터를 제시하고 예제 데이터를 이용해 가면서 문제를 해결해나가는 방식이다. 내용은 응용범위가 넓은 통계모형의 하나인 일반화선형모형(generalized linear model, GLM)의 기초와 그것의 확장으로 한정했다. 이 책의 전반부는 GLM의 입문적인 내용을, 후반부는 복잡한 현실 데이터에 보다 유연하게 적용할 수 있도록 베이즈 통계모형으로 확장해서 설명한다.
복잡한 구조의 데이터 분석을 하기 위해서는 필수불가결하게 통계 소프트웨어에 의존해야 한다. R의 장점은 누구나 무료로 손쉽게 구할 수가 있을 뿐만 아니라, 소스 코드가 완전히 공개되어있다. 즉, 다양한 통계분석 처리의 과정이 어떤 계산을 하고 있는지 확인하는 것이 가능하기 때문에, 연구자에게는 좋은 통계 소프트웨어라고 할 수 있다.
데이터 분석에 있어서 왜 통계모형(statistical model)이라는 개념이 필요한 것인지 생각해 본다면, 통계모형은 관찰에 의해 데이터로 표현된 현상을 설명하기 위해 만들어지며, 데이터에 보이는 오차를 표현하는 수단으로써 확률분포를 기본 도구로 이용하며, 데이터와 모형을 대응시키는 절차가 마련되어 있고, 모형이 데이터에 얼마나 잘 적합되었는지를 정량적으로 평가할 수 있기 때문이다.
'어떠한 근거로 무엇을 주장하면 좋을까?'를 한정하기 위해서, 데이터와의 대응이 명시되어 있는 통계모형이 필요하다. 또한 분석자의 의도를 명확하게 표현하는 통계모형을 작성하면, 다른 연구자와의 아이디어 공유도 수월해진다. 데이터와 통계모형의 관계에 대해서 조금만 검토해보자. 예를 들어, 자연과학에서는 어떤 현상을 관측하거나 실험으로 수집된 데이터에 인간의 해석을 부여하여 그 데이터의 배후에 있는 '자연의 규칙 또는 구조'를 이해하려고 한다. 이때, 두 단계의 정보 소실이 발생한다고 생각할 수 있다.
제1단계에서는, 관측과 실험이라는 수단을 통해 대상으로부터 정보- 즉, 기호의 집합으로 변환되어 표현된 '관측 데이터'를 추출한다. 이때 많은 정보를 잃게 된다. 관측대상인 자연이 가지고 있는 정보가 너무나도 많기 때문에 그 모든 것을 인간이 관측, 측정하는 것이 거의 불가능하기 때문이다.
제2단계는 현상을 수치와 기호의 나열로 표현된 데이터로 변환함으로써, 여러 학문분야에 공통적인 틀에 해당하는 통계학적 방법을 적용한다. 특히 통계모형을 사용한 데이터 분석에 의해 또다시 정보를 잃게 된다. 이와 같은 정보의 손실을 감수하면서 제2단계 정보 조작을 하는 이유를 단적으로 말하면, '데이터화된 자연'조차도 인간의 머리로는 다루기 어려울 정도로 복잡하기 때문에 몇 개의 형태로 요약과 정리가 필요하다는 것이다.
조금 더 긍정적으로 생각해보면, 통계모형을 적합하면 정보가 정리되어 복잡하게만 보이던 현상을 '어떤 원인으로 인해 어떤 변화가 생긴다'는 식으로 인간이 이해하기 쉬운 부분과 '노이즈'에 해당하는 부분으로 분리할 수 있다고 생각할 수도 있다. 통계모형의 기본도구인 확률분포를 사용하면 여러가지 오차, 결측 등을 잘 표한할 수 이점이 있다.
'데이터화'라는 조작에 있어서 필연적으로 발생하는 여러 종류의 '오차'조차도 모형화하여 나타내려면 확률분포를 사용하여 현상을 표현할 수밖에 없다. 또 동시에 모형의 신뢰성 여부, 예측 정도의 한계 등도 정량적으로 나타낼 수 있다.
* 실혐 환경을 잘 정비하여 정밀하게 측정을 하면 '오차' 등도 사라질 것이다-라고 생각하는 사람이 있을지도 모르겠으나, 관측데이터에 보이는 오차는 인위적인 측정 실수만으로 생기는 것은 아니다.