분산 (문단 편집)

== 모 분산 ==
아래는 [[모 집단]]의 [[모 분산]](population variance) [math(\sigma^2)]이다.

고등학교 수준의 설명을 하자면 다음과 같다. 각각 100명으로 구성된 두 집단의 평균 키를 구하는데, 한 집단은 10살짜리의 100명의 어린이들로만 구성되고, 다른 집단은 5~15세 연령이 골고루 포함된 100명으로 구성된다고 생각해 보자.

전자의 집단에 비해서 후자의 집단의 키는 그 숫자가 훨씬 들쑥날쑥하게 튀게 될 것이다. 평균 자체는 표본에 따라 대략 비슷하겠지만 각각의 관찰값들은 훨씬 더 넓게 퍼져 있게 된다는 것이다. 즉, '''관찰값들이 얼마나 많이 퍼져 있는지''' 역시 평균값이 어디인지만큼이나 중요하다. 그리고 그걸 조사하는 것이 바로 분산이다.

분산을 알기 위해서는 먼저 평균을 알아야 하고, 각각의 관찰값들과 평균 사이의 거리(distance)를 재기 위해 관찰값에서 평균을 빼게 된다. 그런데 여기서 문제가 생긴다. 어떤 관찰값들은 반드시 평균 이하에 존재하고 있고, 이들의 존재로 인해 양수 값들과 음수 값들이 혼재하게 되는 것이다. 그리고 이들을 모두 합칠 경우 결과는 반드시 0이 나온다.

결국 옛날 통계학자들은 이 문제를 해결하기 위해 제곱을 취해서 마이너스 기호를 떼어내 버리자! 라는 결정을 하게 되었다.--절댓값을 구하면 되는데--[* 절대 편차의 평균을 구하게 되면 원자료 자체가 산술평균이 아닌 [[중앙값]]을 기준으로 평균이 정렬되는 효과가 나오기 때문에 절대값으로 편차를 못 구한다. 그래서 제곱하는 것이다. 초중고등학교 수준의 평균-중앙값 차이야 거의 똑같기 때문에 넘어가지만 이제 [[여론조사]]나 대통령 선거 [[출구조사]] 급 자료가 되면 산술평균과 중앙값의 차이는 엄청나게 벌어지기 때문에 절대값을 못 씌우는 것이다.]

위의 설명은 분산의 여러 의의중 관측값의 특징을 나타내는 요약통계량적인 측면에 치우친 설명이다. 학교 시험을 보고나면 [[평균]]과 분산이 주어지는데 이는 위와 같은 과정을 통해 구해지는 것이다. 하지만 분산은 위의 요약통계량으로서의 의의 이외에 다른 의의를 가지고 있다. 이에 대해 설명 하기 위해 다음의 예를 들어보자. 아마 이 문서를 읽고 있는 독자라면 고등학교 수학에서 [[정규분포]]에 대해서 배웠을 것이다.

정규분포에 대한 문제를 풀때 거의 대부분 문제는 어떤 대상은 평균과 분산이 몇인 정규분포를 따른다고 주어지며 N(50, 4) 와 같은 형식이다. 그런데 이 때는 관측치가 주어지지 않았는데 어떻게 분산이란 것을 계산했을까? 위의 정의에 따르면 어떤 관측치가 주어져야만 분산이라는 것이 정의되는데 말이다.

사실 분산이란 관측값에 의존하여 정의되는 양이 아니라 분포함수에 의존하여 정의되는 양이다. 전공자가 아니라면 관찰값을 통해 설명해도 된다. 이에 대해 엄밀히 이야기 하자면 [[확률밀도함수]](pdf), [[누적확률밀도함수]](cdf)에 대한 개념과 적분을 도입해야 하지만 생략하고 이야기하자. 분산이란 분포의 모양을 결정하는 양이다. 정규분포의 예시를 들면, 같은 평균을 가지는 정규분포라고 하더라도, 분산이 큰 정규분포가 그 확률밀도함수의 높이가 낮고 대신 넓게 퍼져있는 것을 볼 수 있다.

이렇게 분산은 확률밀도함수가 평균으로 부터 퍼져있는 정도를 나타내는 양이다. 분산이 크면 확률밀도함수의 모양은 평균으로부터 넓게 퍼지며, 분산이 작으면 확률밀도함수의 모양은 평균에 가깝게 몰리게 된다.

저장 버튼을 클릭하면 당신이 기여한 내용을 CC-BY-NC-SA 2.0 KR으로 배포하고,
기여한 문서에 대한 하이퍼링크나 URL을 이용하여 저작자 표시를 하는 것으로 충분하다는 데 동의하는 것입니다.
이 동의는 철회할 수 없습니다.

분산 (문단 편집)

캡챠