정규분포

덤프버전 :

    통계학

Statistics
[ 펼치기 · 접기 ]




1. 개요
2. 설명
2.1. 정의
2.1.1. 정규 분포 곡선의 성질
2.2. 누적 분포 함수
2.3. 그래프
3. 표준 정규 분포
3.1. 표준화
4. 로그 정규 분포
5. 이용 사례
5.1.1. 내신 전교등수 추정하기
6. 기타
6.1. 통계학에서의 중요성
6.2. 짤방: 세상은 정규 분포
6.2.1. 세상은 정말로 정규분포인가?
7. 관련 문서


1. 개요[편집]


/ normal distribution

가우스(C. F. Gauss; 1777 ~ 1855)가 처음 정립했기 때문에 가우스 분포(Gaussian distribution)라고도 한다.

인간자연 세상에서 일어나는 수많은 일을 설명하는 핵심 개념이며, 통계학에서 사용하는 각종 확률 분포 중에서도 가장 중요하게 다루는 분포이다. 일명 통계학의 꽃.


2. 설명[편집]



2.1. 정의[편집]


물리학 실험용으로 무작위 표본추출을 통해 도출한 '확률 밀도 곡선'에 '극한을 적용해' 만든 것을 형태로 정립한 것. 그 그래프를 함수식으로 풀어쓰면

[math(\displaystyle N(x|\mu,\,\sigma^2)\equiv\frac1{\sigma\sqrt{2\pi}}\exp{\left[-\frac{(x-\mu)^2}{2\sigma^2}\right]})] [1]
[1] 참고로 고등학교 교육과정에서는 지수함수 [math(\rm exp)]와 [math(f(\bullet|\bullet))] 형태의 표기를 사용하지 않고 평균을 [math(m)]로 나타내기 때문에 정규분포 [math({\rm N}(m,\,\sigma^2))]의 확률밀도함수를 [math(f(x))]로 적고 함수식도 [math(\displaystyle f(x)=\frac{1}{\sqrt{2\pi}\sigma}e^{-\frac{(x-m)^2}{2\sigma^2}})]로 표기한다.

이다. 이때, [math(\mu)]와 [math(\sigma^2)]는 각각 평균분산.[2]

또한, [math(N(x|\mu,\,\sigma^2))]는 확률 밀도 함수 중 하나이므로, [math(P(x\in\mathbb{R})=1)]임에 따라

[math(\displaystyle\int_{-\infty}^{\infty}N(x|\mu,\,\sigma^2)\,\mathrm{d}x=1)]
[2] mean(평균)과 standard deviation(표준편차)의 앞글자를 그리스 문자로 음차했다. 분산은 개별 기호가 없고, '표준편차의 제곱'처럼 표기한다.

이 성립한다.
[ 증명 펼치기 · 접기 ]
임의의 실수 [math(\mu)], [math(\sigma\;(\sigma>0))]에 대하여 [math(\mathbb{R})]에서 정의된
함수 [math(\displaystyle N(x|\mu,\,\sigma^{2}) \equiv \frac{1}{\sigma \sqrt{2 \pi}} \exp{\left[ -\frac{(x-\mu)^{2}}{2\sigma^{2}} \right]})]의 구간 [math([-\infty,\;\infty])]에서의 정적분

[math(\displaystyle\int_{-\infty}^{\infty} \frac{1}{\sigma \sqrt{2\pi}}\exp{\left[-\frac{(x-\mu)^2}{2\sigma^2} \right]}\,\mathrm{d}x)]

에서 [math(x\equiv\sqrt2\sigma t)]로 치환하면

[math(\displaystyle\frac{1}{\sqrt{\pi}}\int_{-\infty}^{\infty} \exp{\left[ -\left( t-\frac{\mu}{\sqrt{2}\sigma} \right)^{2} \right]}\,\mathrm{d}t)]

으로 나타낼 수 있다.
실수 전체에 대한 정적분에서의 피적분 변수의 평행이동은 적분값에 영향을 주지 않으므로,
간략화를 위해 [math(u\equiv t-\mu/(\sqrt{2}\sigma))]로 치환하면

[math(\displaystyle\frac{1}{\sqrt{\pi}}\int_{-\infty}^{\infty} \exp (-u^2)\,\mathrm{d}u)]

이는 가우스 적분에 계수가 붙은 형태로, 다음과 같이 계산할 수 있다.

[math(\displaystyle\frac1{\sqrt\pi}\int_{-\infty}^\infty \exp (-u^2)\,\mathrm{d}u=\frac1{\sqrt\pi}\cdot\sqrt\pi=1)]

따라서 정규분포 [math(N(\mu,\,\sigma^2))]를 나타내는 확률 밀도 함수는 [math(\mu)]와 [math(\sigma)]의 값에 관계없이

[math(\displaystyle\int_{-\infty}^\infty N(x|\mu,\,\sigma^2)\,\mathrm{d}x=1 )]

이 성립한다. [math(\blacksquare)]



2.1.1. 정규 분포 곡선의 성질[편집]


  • 기본적으로 [math(N(x|\mu,\,\sigma^{2}))]은 가우스 함수 [math(f(x)=e^{-x^{2}})]를 [math(x)]축 방향으로 평행 이동시킨 함수이므로 가우스 함수와 같이 종모양의 곡선이 나타나며, 좌우 극단으로 갈수록 급격하게 수치가 낮아지는 특징이 있다. 즉, 다음이 성립한다.

[math(\displaystyle \lim_{x \to -\infty} N(x|\mu,\,\sigma^2)= \lim_{x \to \infty} N(x|\mu,\,\sigma^2)=0)]

  • [math(x=\mu)]에 대하여 대칭이다. 즉, [math(\delta)]를 임의의 양수라 할 때, 다음이 성립한다.

[math(\displaystyle N(\mu+\delta |\mu,\,\sigma^{2})=N(\mu-\delta|\mu,\,\sigma^{2}) )]

  • 변곡점은 2개, 곧 [math(x=\mu \pm \sigma)]에 존재하며, [math(\sigma)]의 값이 증가할수록 변곡점 사이의 폭은 증가한다.


2.2. 누적 분포 함수[편집]


정규 분포의 누적 분포 함수는 아래와 같이 정의된다.

[math(\displaystyle \Phi(x|\mu,\,\sigma^{2}) \equiv \int_{-\infty}^{x} N(t|\mu,\,\sigma^{2}) \,\mathrm{d}t )]

우선 이 적분을 하기 전에, 정규 분포 함수 곡선의 성질인 [math(x=\mu)]를 기준으로 곡선이 대칭이라는 점을 상기하면, 위 적분은 아래와 같이 분리할 수 있다.

[math(\displaystyle \Phi(x|\mu,\,\sigma^{2}) = \int_{-\infty}^{\mu} N(t|\mu,\,\sigma^{2}) \,\mathrm{d}t+ \int_{\mu}^{x} N(t|\mu,\,\sigma^{2}) \,\mathrm{d}t )]

적분 변수를 [math(u \equiv t-\mu)]로 바꾸면

[math(\displaystyle \Phi(x|\mu,\,\sigma^{2}) = \int_{-\infty}^{0} N(u|\mu,\,\sigma^{2}) \,\mathrm{d}u+ \int_{0}^{x-\mu} N(u|\mu,\,\sigma^{2}) \,\mathrm{d}u\quad\cdots(1) )]

[math((1))] 식의 우변의 제1항은

[math(\displaystyle \int_{-\infty}^{0} \frac{1}{\sigma \sqrt{2 \pi}} \exp{\left( -\frac{u^{2}}{2 \sigma^{2}} \right)}\,\mathrm{d}u )]

이고, 가우스 적분 문서의 결과를 사용하면, 위 적분의 값은 다음과 같다.

[math(\displaystyle \frac{1}{\sigma \sqrt{2 \pi}} \cdot \frac{1}{2}\sqrt{2 \pi \sigma^{2}}=\frac{1}{2} )]

[math((1))] 식의 우변의 제2항은

[math(\displaystyle \int_{0}^{x-\mu} \frac{1}{\sigma \sqrt{2 \pi}} \exp{\left( -\frac{u^{2}}{2 \sigma^{2}} \right)}\,\mathrm{d}u=\frac{1}{\sigma \sqrt{2 \pi}} \int_{0}^{x-\mu} \exp{\left( -\frac{u^{2}}{2 \sigma^{2}} \right)}\,\mathrm{d}u )]

로 표현되고, [math(u/(\sqrt{2}\sigma) \equiv U)]의 변수를 치환하면

[math(\displaystyle \int_{0}^{x-\mu} \frac{1}{\sigma \sqrt{2 \pi}} \exp{\left( -\frac{u^{2}}{2 \sigma^{2}} \right)}\,\mathrm{d}u=\frac{1}{ \sqrt{ \pi}} \int_{0}^{ {{(x-\mu)}/{\sqrt{2} \sigma}} } e^{-U^{2} } \,\mathrm{d}U )]

오차함수(error function) 문서를 참고하면, 해당 적분 결과는

[math(\displaystyle \int_{0}^{x-\mu} \frac{1}{\sigma \sqrt{2 \pi}} \exp{\left( -\frac{u^{2}}{2 \sigma^{2}} \right)}\,\mathrm{d}u=\frac{1}{2} \mathrm{erf}\left( \frac{x-\mu}{\sqrt{2} \sigma} \right) )]

로 쓸 수 있으므로 다음과 같은 결론이 나온다.

[math(\displaystyle \Phi(x|\mu,\,\sigma^{2})=\frac{1}{2}\left[1+\mathrm{erf}\left( \frac{x-\mu}{\sqrt{2} \sigma} \right) \right] )]



2.3. 그래프[편집]


파일:namu_정규분포_그래프.png

위 그래프는 정규 분포 곡선과 그 누적 분포 함수의 그래프를 나타낸 것이다. 적색은 정규 분포 곡선, 청색은 누적 분포 곡선을 나타낸다.

누적 분포 함수[3][math(\tanh x)]와 닮은 것과 비슷하게, 정규 분포 곡선[4][math(\mathrm{sech} \, x)]와 개형이 비슷하다.


2.4. 중심 극한 정리[편집]


파일:나무위키상세내용.png   자세한 내용은 중심 극한 정리 문서를 참고하십시오.



3. 표준 정규 분포[편집]


[ 표준 정규 분포표 펼치기 · 접기 ]
파일:표준정규분포표_수정.png


표준 정규 분포([math(\boldsymbol{z})]-분포, standard normal distribution)는 [math(\sigma^{2})]을 아는 경우 [math(\mu)]를 구할 때 쓴다.

[math(z)]-분포와 [math(t)]-분포에서 귀무 가설 [math(H_{0})]는 [math(\mu=0)]이나 [math(\mu_{1} = \mu_{2})] 등이고, 대립 가설 [math(H_{1})]은 [math(\mu \neq 0)]나 [math(\mu_{1} \neq \mu_{2})]같은 것이다. [math(\mu_{1})], [math(\mu_{2})]처럼 변수가 2개인 경우 [math(\mu_{1}-\mu_{2}=0)]으로 바꾸고 [math(\mu_{1}-\mu_{2}=d)]로 치환하면 [math(d=0)]과 같은 변수가 하나인 식으로 바꿀 수 있다.

정규 분포 중에서도 평균이 0이고 표준 편차가 1인 것, 즉

[math(N(0,\,1)\sim\dfrac{1}{\sqrt{2 \pi}} \exp{\left[ -\dfrac{z^{2}}{2} \right]})]
[3] 정확히는 오차함수 [math(\mathrm{erf}(x))][4] 정확히는 [math(\dfrac{1}{\sigma\sqrt{2\pi}} \exp{\left[ -\dfrac{1}{2}\left(\dfrac{x - \mu}{\sigma}\right)^2\right]})]

표준 정규 분포(standard normal distribution)라고 하며 따로 분류한다. 특별히 변수를 [math(z)]로 쓰며, [math(z)]-분포라고 줄여 부르기도 한다. 모든 정규 분포는 이 표준정규 분포의 상수배를 평균만큼 이동시킨 형태이므로, 표준정규 분포의 확률만을 알면 모든 정규 분포의 확률을 알기 충분하다는 것. 정확히는 표준정규 분포를 표준편차배 하고 평균을 더해주면 임의의 정규 분포를 만들 수 있다. 나아가 별도로

[math(\begin{aligned}\phi(z)&=\dfrac{1}{\sqrt{2 \pi}} \exp{\left[ -\dfrac{z^{2}}{2}\right]}\\ \Phi(z)&=\displaystyle\int_{-\infty}^z\phi(x)\;{\rm d}x\end{aligned})]

로 표기하여 쓰곤 한다. 즉, [math(\phi(z))]는 표준정규분포의 확률밀도함수, [math(\Phi(z))]는 표준정규분포의 누적분포함수를 말한다.

[math(z)]-분포로 하는 검정(test)을 [math(z)]-검정([math(z)]-test)이라고 한다. [math(z)]-검정은 [math(\sigma^{2})]을 알 때 [math(\mu)]를 구하는 것이고, [math(t)]-검정은 [math(\sigma^{2})]을 모를 때 [math(\mu)]를 구하는 것이다. [math(\chi^{2})]-검정은 [math(\sigma^{2})]을 구하는 것이고, [math(F)]-검정은 [math(\sigma_{1}^{2}/\sigma_{2}^{2})]을 구할 때 사용한다.


3.1. 표준화[편집]


자세한 내용은 표준화 문서를 참고하자.

4. 로그 정규 분포[편집]


금융상품의 수익률이나 임금 등 여러 경제변수의 분포를 히스토그램으로 그려보니 왼쪽으로 쏠린 모양이 많이 나왔다. 이런 변수에 로그를 씌우면 그 변수는 흡사 정규분포와 비슷한 모습이 된다. 이 때문에 로그를 취했을 때 정규분포가 되는 확률변수에 대한 연구가 이뤄지게 됐다. 그 산물이 로그정규분포다.

[math(\ln{X}\sim N(\mu,\,\sigma^2))]일 때 [math(X)]가 로그 정규 분포를 따른다고 한다. 금융 상품의 가격은 일반적으로 이 로그 정규 분포를 따르는 것으로 알려져 있다. 또한 '적률생성함수가 존재하면 모든 적률이 존재한다'라는 명제의 역이 성립하지 않는 대표적인 반례이다. 즉, 이 분포는 모든 적률이 존재하지만 적률생성함수를 갖지 않는다.


5. 이용 사례[편집]


정규 분포는 본래 자연과학의 도구로 출발하였다. 가우스가 정규 분포를 발견한 것은 소행성[5] 세레스를 찾기 위한 문제를 풀면서였다. 그는 세레스의 위치를 측정한 오차가 정규 분포를 따른다고 생각하였고, 이걸 활용해 그가 발명한 추정법이 최소제곱법(least square method)이다.[6]

지금은 정규 분포는 통계학의 어디에서나 튀어나오므로, 통계를 쓰는 어느 누구도 피해갈 수 없다. 자연과학의 실험 뿐만이 아니라 사회학, 심리학의 실험 통계에서도 정규 분포가 사용된다. 이는 특히 사회과학에서 대다수의 수포자문과출신 대학생들을 좌절시키는 데 일조하고 있다. 예로 빈부격차 수준과 같은 거시(巨視)적인 대상을 설명할 때 특히 중요하게 다뤄진다. 또 앞에서 말한 최소제곱법은 지금도 회귀분석(regression)이란 이름으로 통계학도들을 괴롭히고 있다. 분야를 막론하고 '시간에 따른 경향'을 생각하는 사람들은 누구나 이 골칫거리와 씨름해 봤을 것이다.

물론 학문을 하는 사람들이 아니더라도, 정규 분포를 해석할 줄 알면 정규 분포로 나타나는 많은 자료들을 이해하는 데 훨씬 유용하다. 보험사들이 보험료를 설정할 때 참고하는 '경험생명표'는 정규 분포 형태로 나타난다.

정규분포를 따르는 자료를 비율에 맞추어 평균이 0이고 분산이 1인 표준 정규 분포로 나타내는 것을 표준화(standardization)라고 한다. 정확히 말하자면 자료의 백분위 [math(p)]만을 뽑아내서, 그 백분위에 대응되는 정규 분포의 값을 [math(z)]값, 표준화된 값, 혹은 표준점수라 부르는 것이다. 이 표준화는 주로 시험에서 많이 활용된다. IQ등의 지능검사라든지, 대학 학점이라든지, 미국의 SAT, 특히 성적표라든지.

고등학교 생명과학Ⅰ에서 우성 열성 몇 가지 던져주고 나타나는 것들을 확률로 만들라는 수행평가를 내주기도 하는데, 이게 별 것 아닌 것 같지만 형질 4가지가 나오기만 해도 전체 256가지인데 이걸 손으로 구하겠는가? 이때 정규 분포를 고등학교 확률과 통계 수준으로 대충이라도 알고 있고, 계산기까지 있다면 3분 이내에 끝내버릴 수 있다. 물론 계산기가 없으면 좀 큰 수 암산하니 귀찮지만, 손으로 그리는 것보단 훨씬 낫다. 제출 직전 쉬는시간에 끝내버리고 제출할 수 있다.[7][8]


5.1. 성적표[편집]


보통 성적표의 9등급은 표준점수의 범위에 따라 매겨진다. 간단히 말하면
  • 원점수가 전체 중 상위 몇%인지 → 백분위
  • 백분위에 대응되는 평균 100, 표준편차 20의 정규 분포값 → 표준점수
  • 표준점수의 범위(스테나인 점수) → 등급
으로 요약할 수 있다. 세부사항은 훨씬 복잡할 수 있다. 대학수학능력시험의 경우는 수능 등급제 항목에 기술된 것처럼 표준점수를 정수로 반올림하고 여기에서 다시 또 누적 비율을 따지는 과정이 들어간다. 하지만 학생들 석차를 매길 수 있는 내신의 경우는 백분위를 따지는 것이 훨씬 편하므로, 굳이 표준점수를 뽑아내지는 않는다.


5.1.1. 내신 전교등수 추정하기[편집]


중학교의 내신 성적표에는 등급만 표기되어 있을 뿐 석차는 교육정책에 의해 표기되어 있지 않다. 하지만 원점수의 전체평균과 표준편차가 알려져 있고, 원점수의 분포가 정규 분포와 비슷하다면,[9] 자신의 원점수를 이용해 표준점수, 전교등수, 백분위를 대략적으로 구할 수 있다.[10] 단, 성적 분포의 모양을 모르는 상태에서는 아래 서술할 방법으로 등수를 계산하는건 의미가 없다.[11][12]

계산은 간단하다. 만약 원점수의 분포가 정확한 정규 분포를 따른다면, 자신의 원점수를 표준화해 표준점수로 만들 수 있다. 이 표준점수로 전체 백분위를 구하고, 전체 백분위에 해당하는 전교등수를 계산하면 끝.

  • 표준점수: [math( \displaystyle 20\times\frac{\small\textsf{(원점수)}-\small\textsf{(평균)}}{\small\textsf{(표준편차)}}+100 )]

  • 백분위: [math( \displaystyle \frac{\small\textsf{(원점수)}-\small\textsf{(평균)}}{\small\textsf{(표준편차)}} )]의 값이
    • 양수라면 정규 분포표로 그 값에 해당하는 확률을 구한 후 0.5에서 빼고 100을 곱한다.
    • 음수라면 0.5에 그 값을 더하고 100을 곱한다.

  • 전교 등수: [math( \displaystyle \frac{\small\textsf{(이수 전교생 수)}\times\small\textsf{(백분위)}}{100} )]

예를 들어 평균이 60점, 표준편차가 20점인 시험에서 90점을 득점한 학생이 있다고 치자. 이 학생의 표준점수는 [math( 20\times {(90-60)}/{20}+100 )]으로 130점이고, 이를 표준화하면 1.5이다. 1.5의 표준정규 분포의 값은 상단의 표에 따라 0.4332이므로 이 학생의 백분위는 0.5-0.4332니 약 0.067. 따라서 대략 상위 6.7%이므로(백분위는 93.3%) 이 학생의 성적은 2등급일 가능성이 크다.

아래는 백분위에 해당하는 등급을 나타낸 표이다.
백분위(상위)
등급
0% ~ 4%
1
4% ~ 11%
2
11% ~ 23%
3
23% ~ 40%
4
40% ~ 60%
5
60% ~ 77%
6
77% ~ 89%
7
89% ~ 96%
8
96% ~ 100%
9

주의해야 할 것은 이 과정은 엄연히 '추산'이라는 점이다. 연속량을 이산량으로 바꾸고, 숫자를 반올림하고, 정규 분포로 근사하는 과정에서 당연히 오차가 생길 수 있기 때문.


6. 기타[편집]


  • 독일 마르크 10DM 권종에도 그림과 함수식이 들어가있다.
  • 식스 시그마라는 용어도 여기에서 비롯한 것이다. 표준편차 6배 바깥의 범위([math( \mu\pm6\sigma )])는 0.0000002%, 즉 약 5억분의 1 정도의 극히 희귀한 확률이다.[13] 즉 부품 10억 개 중에서 단 2개만 6시그마를 벗어난다는 말로 사실상 불량률 제로를 추구하는 말이다. IQ로 치면 SD 15 기준 10 이하 또는 190 이상에 해당하는 지수가 바로 6시그마이다.
  • 수학에 관심있는 사람들이 좋아하는 분포다. 공학에서도 아주 많이 쓰이고, 수학자들이 사랑하는 무리수인 자연로그의 밑과 원주율 외의 다른 무리수는 들어가지 않기 때문이다. 그리고 통계학을 처음 배울 때 가장 중요하게 배우는 모집단의 평균벡터와 그 다음으로 중요하게 배우는 모집단의 공분산행렬이 정해지면 구체적인 함수가 결정되는 분포다. 수리통계학적으로 볼 때 매력적인 분포일 수 밖에 없는 것.
  • 정수론에서도 간혹 사용되는 경우가 있다. 일정 자리수 이상의 자연수에 대하여 해당 자연수의 서로 다른 소인수의 개수를 분석하면, 그 서로 다른 소인수의 개수는 정규분포를 따른다는 정리인 에르되시-카츠 이론(Erdős–Kac theorem)이 대표적.[14]

6.1. 통계학에서의 중요성[편집]


정규 분포를 빼면 통계학이 존재할 수 없다고 보아도 무방하다. 통계학의 수많은 분포([math(\chi^{2})]-분포, [math(t)]-분포, [math(F)]-분포 등)는 사실상 정규 분포의 수반성질들을 연구하기 위해 만들어진 분포이다.

한편으로는 통계적 분석이나 검정을 할 때 분포에 대한 가정이 필요한 경우, 설령 주어진 데이터가 정규 분포와는 전혀 다른 모양들의 집합이더라도, 정규 분포를 가정하고 계산할 수 있다. 모르는 분포라면 정규 분포로 가정하는 것이 가장 일반적일 정도. 얼핏 보면 엉터리인 듯한 이런 방법은 실제로는 매우 잘 맞아 떨어지는 편.

단순히 통계학의 응용분야라고 하기에는 너무 규모 커지고 연구성향이 달라진 계량경제학의 경우(물론 계량경제학자가 통계학 저널에 논문을 발표하거나 통계학자가 계량경제학 학술지에 논문을 투고하는 경우는 비일비재하다.), 학부 수준에서 쓰는 정규 분포외의 분포들은 대부분 회귀모형이나 시계열모형의 오차항이 정규 분포를 따른다고 가정할 때 도출한 통계량들의 분포로서 쓰인다. 다시 말해 정규 분포를 가정하지 않으면 [math(\chi^{2})]-분포, [math(t)]-분포, [math(F)]-분포를 쓸 수가 없다. 추정한 모수의 단일 가설 검정에서의 [math(t)]-분포나 복합 가설검정의 [math(F)]-분포, Chow-test 등을 떠올려보자.

더불어 통계학에서는 모르겠지만, 계량경제학은 실험을 통한 새로운 데이터의 추출이 불가능하다는 여건 때문에 이미 주어진 데이터가 정규 분포가 아닐 때 이를 정규 분포로 transform하는 방법에 대한 연구도 활발하다. 예컨데 임금분포를 히스토그램으로 그려보면 skewness 때문에 아무리 예쁘게 봐줘도 정규 분포로 볼 수 없는 분포가 나온다. 대신에 임금 값에 로그를 씌우면 놀랍게도 정규 분포에 보다 근사한 형태의 그래프가 나오는데, 이를 바탕으로 모형을 추정한 후 이 추정값을 exponential 하여 원래의 임금값을 추정하는 방법 등이 있다. 이렇게 monotone transform 후 추정, 그 후 다시 inverse transform은 통계학과 학부 수준 회귀분석 1에서도 많이하는 방법이지만 계량경제학자들은 사회과학 데이터의 한계를 극복하기 위해 이러한 정규 분포화 기법의 개발에에 좀 더 집중하는 측면이 있다. 물론 적절한 변형을 통해 추출한 정규 분포에 근사한 데이터에서 추정한 추정량이 일치성, 불편성, 효율성 등을 만족한다고 해서 이것을 역변환하여 도출한 추정량이 이러한 성질을 따른다는 보장은 없으므로 자신이 취한 transform 방법의 가정, 특징, 효과와 한계 등을 제대로 파악해야할 것이다. 물론 직접 이것을 연구하는 사람도 있겠으나 그 정도 되면 최소 통계학이나 계량경제학이나 경영학과 재무의 박사 과정은 가야할 것이다.


6.2. 짤방: 세상은 정규 분포[편집]


파일:attachment/정규분포/jeonggyu.jpg

자기 주변은 온통 x인데, 실상은 그 x가 굉장히 소수일 수 있다는 것을 보여주는 짤방.

트위터의 누군가가 '주변 사람들이 구글만 쓰던데 네이버는 누가 쓰죠?' 라는 트윗(해당 트윗)을 올린 것에서 유래한다.

통계 인원이 적으면 일반적인 통계치가 통계 인원 내에서 적어 보이고 극단적인 통계치가 해당 모집단 내에서 많아 보일 수가 있지만 결국 많으면 많아질수록 통계치에 근접해지는 것을 뜻한다. 결국 '소수자는 소수자일 뿐'이라는 것을 나타내는 것. 굉장히 많은 상황에 이 그래프를 보여줄 수 있다. 대표적으로 선거 투표 개표 결과가 자기 생각과 다르게 나왔을 때 "나랑 내 주변 사람들은 아무도 A후보를 안뽑았는데 어떻게 A후보가 당선될 수가 있죠?"라는 의문을 갖는 사람에게 보여줄 수 있다. 선거 투개표 결과는 출구조사(표본조사)로도 얻을 수 없을 만큼 어마어마한 인원수에 대한 결과(즉, 전수조사)이고, 앞에서 말한 주위 사람들의 표본조사는 모집단에 대한 결과이므로 '모수', 즉 '모평균', '모분산' 등에 해당한다. 이런 결과는 당연히 정규분포 근사가 가능하므로 일반 사람의 생각은 그저 저 중에 하나, 실제 몇명의 가치로는 0에 수렴한다.[15][16]


6.2.1. 세상은 정말로 정규분포인가?[편집]


일반적으로 사람의 키나 학벌, 학력 수준이나 그 외 유전적, 자연적 요소나 체질 등과 달리 토익 점수와 같은 취준생들의 스펙 같이 끊임없이 발전하고 상향 평준화되는 지표들의 분포는 정규분포를 따르지 않는다. 정규분포는 본질적으로 모집단의 균일한 분포도를 보장해주지 않으며 오히려 그렇기 때문에 유용한 것이다.

예를들어 토익점수처럼 평균이 높아지기는 하지만 그래도 그에 맞춰서 수준이 오르지 않고 아예 포기하고 다른 길을 찾는 경우도 있어서 하위권의 편차는 더 커지고 높은 점수로 많은 사람들이 몰리는 부적편포로, 일반적으로 최빈값이 중앙값보다 높고, 평균이 중앙값보다 낮은 형태를 보인다. 반면, 사람의 몸무게와 같은 지표는 정적편포[17]를 따르는데, 이는 평균 체중의 1.5~2배를 넘어가는 고도비만자들은 상당수 있지만 이론적으로 평균 체중의 0.5~0.6배(BMI 12~14 정도)의 극심한 저체중은 사실상 매우 드물고 저체중이더라도 대부분 표준체중의 0.8~0.9배(BMI 16~18 내외)인 경우가 많기 때문에 비만 체중의 편차는 크고 이들이 평균치를 높이며 대부분은 평균 체중 이하(남자 75kg 이하, 여자 55kg 이하)에 몰려있다. 특히 여성들이 정적편포 체중분포를 더 심하게 보이는데, 여성들이 남성들보다 외모관리를 하면서 정상체중임에도 다이어트를 해서 더 날씬해보이려는 경향이 많아서 통계적인 평균 체중이 50kg 중후반이 나오지만 실제 중앙값은 50kg 초반대, 최빈값은 40kg 후반대가 나온다. 그 외에도 경제 활동 인구들의 소득 분포와 기타 민감한 요소들[18]이나 남들이 거의 하지 않는 매니악한 요소들도 정적편포를 따른다.

즉, 모집단(=리얼월드)는 당연히 정규분포 형태로 편성되어있지 않다. 단지 그 모집단에서 표본을 추출했을 경우 모집단이 어떤 모양을 하고있던지 관계없이 결과값이 정규분포를 따른다는 의미이다. 직관적으로 이해하기 쉽게 설명하자면 사회의 평균과는 아득히 멀리 떨어진 사이코 집단에서도 사람 뽑아 나열하면 "평범한 사이코"와 "온건한 사이코" "극단적인 사이코"로 분류된다. 개중에 그 집단의 평균값인 평범한 사이코가 가장 많이 뽑힐수 밖에 없으니[19] 사이코 집단의 정규분포의 형태로 배분된다는 것이 정규분포의 유용성이다. 따라서 이론적으로 통계적으로 편향되지 않은, 신뢰성있고 적절한 표본선출만 한다면 사회전체의 정규분포를 추출할 수 있게된다.[20] 모든 사회실험, 과학에서 모집단에서 특정한 표본을 뽑아 모집단의 성격을 탐구하는 방식이 사용될 수 밖에 없으므로 모든 곳에 정규분포가 쓰이는 것이다.


7. 관련 문서[편집]




파일:크리에이티브 커먼즈 라이선스__CC.png 이 문서의 내용 중 전체 또는 일부는 2023-12-16 06:55:21에 나무위키 정규분포 문서에서 가져왔습니다.

[5] 현재는 왜행성이지만, 당시에는 소행성으로 분류되었다.[6] 최소제곱법에 대해 자세한 것은 네이버캐스트의 이곳을 참고. 아쉽게도 이 글은 정규 분포와의 연관성을 전혀 언급하지 않고 있다.[7] 다만, 고3 때 확통을 배우는 학교에서는 선생님이 채점을 거부할 수도 있으니 주의하자. 그런데 대놓고 조합 식을 써놓아도 그냥 받아주는 것 같다.[8] 플러스로 계산기에 조금 더 투자하면 정규분포곡선은 타자 시간 제외하고 계산만 했을 때 1분 안으로 나온다. 참고로 이런 공학용 계산기로 나오는 결과는 중학교 1~2정도의 지식만 있으면 바로 풀 수 있다. 왜냐하면 어디 어디 찍으라고 좌표 값을 다 알려준다. TABLE 기능. 만원 정도 하는 저렴한 계산기가 아니라면 다 들어가 있다.(한국에서 많이 쓰는 카시오 기준으로 FX-350 정도면 충분하다. 하지만 미적분이 이 그래프식에 들어가니 조용히 국민 공학용 계산기 FX-570을 사자. 만약 당신이 Ti사의 계산기를 들고 있다면 이 괄호는 무시하여도 된다. Ti사의 계산기를 살 정도면 가격대가 보통 TABLE 기능을 넘어 그래프 기능까지 있다. 애초에 40만원짜리 Nspire CAS 아니면 살 이유가 없다. 안 그러면 그냥 카시오 FX-9860 시리즈로 때우지.)[9] 다음과 같은 전제인 경우에만 전교등수를 정확히 추정할 수 있다. 예를 들어 시험이 아주 쉬워서 만점자가 수두룩했다거나, 매우 어려워서 잘하는 몇 명 빼고 다 죽을 쑨 경우라면, 혹은 해당 과목 이수생 수가 매우 적은 경우라면 이 추산은 거의 맞지 않을 것이다.[10] 만일 전체 평균과 등급컷 하나가 알려져 있다면 표준편차를 구할 수 있다. 그 다음 다른 등급컷까지 모두 계산할 수 있다.[11] 실제 성적 분포가 정규 분포와 비슷할 확률이 매우 낮다.[12] 대부분의 성적 분포는 정규분포 보다는 로깃-정규분포를 따른다는 연구 결과가 있다.[13] 참고로 로또 1등 당첨 확률이 1/8,145,060인데 이 확률보다 약 60배 낮은 확률이다.[14] 정확하게는 자연수의 서로 다른 소인수의 개수 [math(\omega(n))]은 [math(\displaystyle \frac{\omega(n)-\log \log n}{\sqrt {\log \log n}})]라는 확률분포를 가지기 때문에 정규분포와는 조금 다른 양상을 보이나, 크게 구분하지는 않는다.[15] 실제로 정규분포에서 특정 지점의 확률은 0이다.[16] 물론 엄밀히 말하면 정규분포 상 특정 사람의 주변인들의 '생각에 대한 표본'이 가장 많이 밀집한 것은 평균값일 것이고 이런 값들이 무작위적으로 충분히 모인다면 이론상 통계적으로 유의미한 가치를 낼 수도 있긴 하다. 물론 이렇게 되면 그냥 표본조사와 다를 바가 없어지긴 하지만.[17] 하위권에 많이 몰려있고 상위권이 적으며 그 편차가 큰 경우로, 일반적으로 평균 > 중앙값 > 최빈값이다.[18] 연애 및 성관계 횟수, 교통사고 및 입원 횟수 등[19] 평균값 자체의 정의를 생각하면 당연한 일인게 거꾸로 가장 많이 뽑힌 정도의 사이코가 평범한 사이코로 명명된다고 보면 된다.[20] 당연히 이론적이므로 다양한 한계가 발생할 수 밖에 없고 이는 신뢰도라는 수치로 정량화된다.