통계학은 표본으로부터 모집단을 추정하는 학문이다. 전교생의 키 분포를 효과적으로 알아내고자 하는 상황에서 필요한 학문이다.
이러한 통계학에 빅데이터가 접목되면서 몇몇 변화가 이루어졌다. 이에 대해서 알아보기 전에 통계학에서의 오차와 재현성에 대해 알아보도록 하겠다.
오차
수업에서 설명하신 오차의 종류를 도식화했다. 오차는 크게 표본 오차와 비표본 오차로 나뉜다.
표본 오차란 '표본을 대상으로 측정한 값이 모집단의 값을 모두 대신할 수 없다'는 의미에서의 오차다. 이러한 표본 오차는 표본의 수가 충분히 증가하면 줄어든다. 그러나, 실제로는 표본 수의 증가는 비용의 증가로 이어지기 때문에 기본적으로 표본을 최소화하려고 한다.
비표본 오차란 표본 오차를 제외하고 발생하는 오차를 말하는데 설문조사 과정에서 발생하는 응답, 무응답 오차와 모형선택 오차가 있다.
모형선택 오차란, 취득한 데이터가 선형을 띄고 있지 않은데 선형 모델로 선택해버린 경우와 같은 실수로 인해 발생하는 오차다. 이러한 비표본 오차는 표본의 수가 충분히 증가하더라도 줄어들지 않고, 계산도 불가능하다.
Small / Big Data에서의 재현성
재현성이란 이전에 특정 표본으로 추정 및 제작한 의사결정 모델이 다른 표본에서도 같은 양상을 보이는 것을 말한다. 쉽게 말해 다른 표본에서도 우리의 추정이나 의사결정이 재현되는 것이다. 이러한 재현성은 데이터의 크기에 따라 확인하는 방법이 다르다. 이에 대해 Small Data, Big Data에 대한 설명을 덧붙여 작성해보았다.
Small Data는 기존의 통계학에서 주로 사용하던 데이터로, 분석 목적에 따라서 데이터를 수집한다. 그리고 특정 변수들 사이에 실제로는 관계가 없지만 있는 것처럼 보이는 교락 문제를 해결해야 한다는 특징이 있다. 이러한 Small Data에서는 데이터가 부족하기 때문에 모델을 만들 때 모든 데이터를 사용하고, 이후 분포 가정을 통해 재현성을 검정한다.
Big Data는 Small Data와 달리, 분석 목적과 상관없이 자동으로 확보 및 축적되는 데이터다. 때문에 분석 및 해석 단계에서 주의할 필요가 있다. 이러한 Big Data에서는 데이터가 풍부하기 때문에 분포를 통해 재현성을 증명하지 않고, 실증적으로 재현성을 검증한다. 재현성의 의미를 설명한 내용과 같이 방대한 데이터 중에 모델을 제작하는 데에 사용하는 데이터와 검증에 사용할 데이터를 나누고, 제작한 모델을 검증할 데이터에 적용하는 실증적인 과정을 통해 검증한다.
통계의 쓰임 변화
데이터 | 관점 | 모형 | 모수 절약 | |
전통적 통계학 | 최소 데이터를 수집 | 모집단의 구조 파악을 통한 추론 (보수적 관점) | Linear 중심 | 설명변수의 수를 최소화하여 분석의 자유도를 확보 |
빅데이터 접근 | 축적된 자료 통해 분석 | 예측에 초점 (적극적 관점) | Non-Linear로 확장 | 데이터가 많으므로 변수의 수에 구애받지 않음 |
위 표는 빅데이터가 도입되기 전후의 통계의 쓰임 변화(2000년대 전후)를 나타낸 것이다. 과거에는 자신의 연구가설을 증명하기 위한 학문적인 목적으로 통계를 사용했다면, 현재는 예측, 의사결정과 같은 다양한 목적으로 사용한다.
특별히 모형의 관점에서 살펴보면 기존에는 자료가 많지 않으므로 주로 선형 모형을 제작했다. 실제로 통계적 목적은 선형 모형을 사용해도 충족되었다. 굳이 비선형 모형을 만드려면 고차항 모델을 사용하여 만들 수 있었지만, Over Fitting(모델을 만들 때 사용된 데이터에 과하게 적합되어, 다른 데이터에 적용하기 어려워지는 현상. 주로 데이터가 적을 수록, 복잡한 모형일 수록 위험도가 커진다)위험이 컸다. 현대에 와서는 통계적 목적을 넘어 예측하는 것에 중점을 두다 보니 비선형 중심으로 확대되었다.
회기분석 (Regression)
회귀분석의 개념은 다음과 같은 과정으로 착안되었다. 1875년에 Francis Galton이 부모의 키를 통해 아이의 키를 추정하는 방법을 알아내려는 시도를 했고, 부모와 아이의 키 분포를 그래프 위에 점으로 나타냈을 때 기울기를 살펴보면 부모의 키와 비슷한 경향을 띄지만 평균에 가깝게 향하고 있음을 볼 수 있었다.
Regression toward the mean!
"평균으로 회귀한다!"
부모의 키가 작으면 자녀 또한 작지만 평균에 가깝게 커지려는 경향이 있지만, 반대로 부모의 키가 크면 자녀 또한 크지만 평균에 가깝게 작아지려는 경향이 있다.
위 개념에서 착안한 회귀분석의 핵심 개념은 부모의 키를 통해 자녀의 키를 추정할 수 있다는 점이다. 오늘날 회귀분석을 말할 때 돌아가려는 성향을 의미하는 정도는 약해졌으나, 그럼에도 불구하고 이러한 역사적 배경에 의해 계속해서 회귀분석이라고 쓴다.
오늘날 의미하는 회귀분석에 대해 한 마디로 정리하자면 회귀분석이란 관측 값을 가장 잘 지나가는 직선 혹은 곡선의 방정식을 구하는 방법론이다. 이때, 오차가 가장 적은 모형이 좋은 모형이다.
오차를 구할 때 오차 합을 구할 수도 있고 오차 제곱의 합을 구할 수도 있는데 보통 수학적으로 다루기 쉽다는 이유로 오차 제곱의 합을 구하는 경향이 있다.