중심극한정리
덤프버전 :
분류
1. 본문[편집]
中心極限定理
Central Limit Theorem (CLT)
무작위로 추출된 표본의 크기가 커질수록 표본 평균의 분포는 모집단의 분포 모양과는 관계없이 정규분포에 가까워진다는 정리. 이때 표본 평균의 평균은 모집단의 모 평균과 같고, 표본 평균의 표준 편차는 모집단의 모 표준 편차를 표본 크기의 제곱근으로 나눈 것과 같다. 이러한 중심극한정리를 직관적으로 이해할 수 있는 설명영상도 있다.
독립항등분포(i.i.d.)를 따르는 확률변수 [math(X_1, X_2, \cdots , X_n)]에 대해, 각각의 평균은 [math(E(X_i) = \mu)]이고 각각의 표준편차는 [math(\sigma)]라 하자. [math(\xi_n = \displaystyle \frac{\sum_{i=1}^{n}X_i - n\mu}{\sqrt{n}\sigma})] 라 둘 때, [math(\xi_n)]은 표준정규분포로 분포수렴한다.
더 복잡한 버전으로는 i.i.d. 가정을 적절히 약화시킨 Lindberg CLT나 Lyapunov CLT가 있으나, 학부 수업 수준에서는 상기한 결과만 알아도 충분하다.[1] 중심극한정리는 큰 수의 법칙과 함께 통계학의 뼈대를 이룬다고 할 수 있으며, 왜 정규분포가 중요하게 다뤄지는지 하나의 근거를 제시한다.
이 정리의 놀라운 점은, i.i.d. 가정이 성립하고 평균, 표준편차만 알고 있다면 [math(X_i)]의 분포 자체에 대한 어떤 정보도 없더라도[2] [math(\xi_n)]의 분포를 점근적으로 알 수 있다는 점이다. 대부분의 점근적인 검정들은 CLT를 기반으로 한다.
큰 수의 법칙과는 상보적인 관계에 가까운데, 확률수렴이 분포수렴보다 더 강력한 개념이기 때문에[3] 큰 수의 법칙이 더 강력한 결과라고 오해할 수도 있으나, 중심극한정리는 점근적인 분포가 정규확률분포라는 추가적인 정보까지 제시해주기 때문에 두 법칙 간에 상하관계가 존재한다고 할 수는 없다. 큰 수의 법칙은 표본평균이 모평균으로 확률수렴한다는 이야기이며, 중심극한정리는 표본평균의 분포가 "어떤 모양"을 가지고 수렴하는지에 관해 이야기하는 것이 그 핵심이다. 표본평균이 모평균에 얼마나 빠르게 수렴하는지, 그 수렴 속도에 관해 이야기하는 법칙은 반복된 로그의 법칙(law of iterated logarithm)이라고 불린다.
기초통계학만 배워도 제시되는 법칙이나, 증명은 상당히 까다롭고 대개 학부 3학년 정도에 수리통계학 수업에서 더 강한 조건[4] 이 주어졌을 때의 증명을 배우게 된다. 일반적인 경우의 완전한 증명은 대학원 수준의 확률론에서 다룬다.
예를 들어 모집단의 분포가 일자형이라고 하자. "주사위를 한 번 던져서 나오는 수" 라는 변수가 있다고 하면 이 변수의 분포는 평평할 것이다. 어떤 특정한 수가 더 자주 나오는 게 아니라 1부터 6까지의 수가 모두 똑같은 확률로 나오니까. 자 이제 표본을 채집해 보자. "주사위 한 번 던져서 나오는 수" 를 50번 (n=50) 채집해서 표본 하나를 구성한다고 하자. 그리고 각 표본에서 평균값을 구한다. 그러면 예를들어 표본1 의 평균값은 3.21, 표본2 의 평균값은 3.56, 표본3 의 평균값은 3.40, 뭐 이런 식으로 나올 것이다. 표본을 한 5000개 정도 뽑아서 표본 평균의 분포를 그래프로 그려보면 n이 너무 작지 않은 한 (보통 30 미만은 너무 작다고 친다) 그 형태가 정규분포와 비슷하다는 거다.[5]
수학적으로 이야기하면 독립인 확률변수들의 평균의 분포가 정규분포에 수렴한다는 이야기로[6] , 이를 중심극한정리라 부른다. 이항분포 B(n,p)가 정규분포 N(np, npq)로 수렴한다는 내용은 이보다 이전에 라플라스(Pierre-Simon Laplace)가 증명하였고, 이 버전을 "라플라스의 정리"라 부르는 경우도 있다. 물론 이를 일반화하여 현재의 중심극한정리를 정립한 것은 가우스이다.
이 중심극한정리가 통계적 유의성 검정을 위한 이론적 토대가 된다. 예를 들어 채집한 표본의 평균값이 어떤 특정한 값에 비해 통계적으로 유의한 정도로 더 큰지 혹은 더 작은지를 검토한다고 할 때, 표본평균의 분포가 대략 정규분포를 이룬다는 전제(=중심극한정리)가 있기 때문에 채집한 표본의 값이 이론적으로 전개된 표본평균 분포상대에 비추어 봤을 때 나올 확률이 5%(통상적으로 상정되는 유의기준) 미만인지를 검토할 수 있는 것이다.
2. 증명[편집]
아래 증명은 적률생성함수가 존재하는 확률변수에 한해서만 유효하다. 그러나 적률생성함수가 존재하지 않는 확률변수라도 여전히 중심극한정리는 성립하는데, 이때의 증명은 적률생성함수 대신 특성함수(characteristic function)를 이용한다.[7] 적률생성함수와는 달리 특성함수는 모든 확률변수에 대하여 존재하기 때문이다. 주로 학부 수준에서는 적률생성함수를 이용하여 부분적인 경우를 증명하고, 대학원 수준에서 특성함수를 이용해서 완전히 증명한다.
[math(\mathbb E(\bar X)=\mathbb E\left(\dfrac1n(X_1+X_2+X_3+\cdots+X_n)\right)\\=\dfrac1n\{\mathbb E(X_1)+\mathbb E(X_2)+\mathbb E(X_3)+\cdots+\mathbb E(X_n)\}\\=\dfrac1n×n\mathbb E(X)=\mu)]
[math(\mathrm {Var}(\bar X)=\mathrm {Var}\left(\dfrac1n(X_1+X_2+X_3+\cdots+X_n)\right)\\=\dfrac1{n^2}\{\mathrm {Var}(X_1)+\mathrm {Var}(X_2)+\mathrm {Var}(X_3)+\cdots+\mathrm {Var}(X_n)\}\\=\dfrac1{n^2}×n\mathrm {Var}(X)=\dfrac{\sigma^2}n)][A]
[math(\therefore\sigma(\bar X)=\dfrac\sigma{\sqrt n})]
[math(M_{\frac{\sqrt n(\bar X-\mu)}\sigma}(t)=\mathbb E\left(\exp\left(\dfrac{(X_1-\mu)+(X_2-\mu)+\cdots+(X_n-\mu)}{\sigma\sqrt n}t\right)\right)=\mathbb E\left(\exp\left(\dfrac{X_1-\mu}{\sigma\sqrt n}t\right)\right)\mathbb E\left(\exp\left(\dfrac{X_2-\mu}{\sigma\sqrt n}t\right)\right)\cdots\mathbb E\left(\exp\left(\dfrac{X_n-\mu}{\sigma\sqrt n}t\right)\right))][A]
[math(=\left\{\mathbb E\left(\exp\left(\dfrac{X-\mu}{\sigma\sqrt n}t\right)\right)\right\}^n\\=\left\{M_{\frac{X-\mu}\sigma}\left(\dfrac t{\sqrt n}\right)\right\}^n)]
[math(\therefore\displaystyle\lim_{n\to\infty}M_{\frac{\sqrt n(\bar X-\mu)}\sigma}(t)\\=\exp\left(\displaystyle\lim_{n\to\infty}n\ln M_{\frac{X-\mu}\sigma}\left(\dfrac t{\sqrt n}\right)\right))]
여기서 [math(h=\dfrac1{\sqrt n})]이라 하면 [math(n\to\infty)]일 때 [math(h\to0)]이므로
[math(=\exp\left(\displaystyle\lim_{h\to0}\dfrac{\ln M_{\frac{X-\mu}\sigma}(th)}{h^2}\right))]
여기서 [math(\displaystyle\lim_{h\to0}M_{\frac{X-\mu}\sigma}(th)=1)]이므로 로피탈의 정리에 의해
[math(=\exp\left(\displaystyle\lim_{h\to0}\dfrac{tM_{\frac{X-\mu}\sigma}'(th)}{2hM_{\frac{X-\mu}\sigma}(th)}\right)\\=\exp\left(\dfrac t2\displaystyle\lim_{h\to0}\dfrac{M_{\frac{X-\mu}\sigma}'(th)-0}{h}\right))]
여기서 [math(\displaystyle\lim_{h\to0}M_{\frac{X-\mu}\sigma}'(th)=0)]이므로 미분계수의 정의에 의해[8]
[math(=\exp\left(\dfrac t2\displaystyle\lim_{h\to0}\dfrac{M_{\frac{X-\mu}\sigma}'(t×h)-M_{\frac{X-\mu}\sigma}'(t×0)}{h}\right)\\=\exp\left(\dfrac t2×tM_{\frac{X-\mu}\sigma}''(t×0)\right))]
여기서 [math(M_{\frac{X-\mu}\sigma}''(0)=\mathbb E\left(\left(\dfrac{X-\mu}\sigma\right)^2\right)
\\
=\mathrm {Var}\left(\dfrac{X-\mu}\sigma\right)+\left\{\mathbb E\left(\dfrac{X-\mu}\sigma\right)\right\}^2
\\
=1+0^2=1)]
[math(\therefore\displaystyle\lim_{n\to\infty}M_{\frac{\sqrt n(\bar X-\mu)}\sigma}(t)=e^{\frac{t^2}2})]로 표준정규분포의 적률생성함수와 같은 형태이다. 즉, [math(n\to\infty)]일 때 [math(\dfrac{\sqrt n(\bar X-\mu)}\sigma\sim\mathrm N(0,1))]이므로 [math(\bar X\sim\mathrm N(\mu,\dfrac{\sigma^2}n))]이다.
[자료출처]
※ 로피탈 정리를 쓰지 않는 방법
[펼치기•접기] - 적률생성함수의 정의에서 [math( \displaystyle M_{\frac{X-\mu}\sigma}\left(\dfrac t{\sqrt n}\right)
= \sum_{k=0}^{\infty} \mathbb{E}\left[ \left( \frac{X-\mu}\sigma \right)^k \right] \frac 1{k!} \left( \frac t{\sqrt n} \right)^k
\\ = 1 + \frac 12 \left( \frac t{\sqrt n} \right)^2
+ \sum_{k=3}^{\infty} \mathbb{E}\left[ \left( \frac{X-\mu}\sigma \right)^k \right] \frac 1{k!} \left( \frac t{\sqrt n} \right)^k )] [1]
[math(\displaystyle = 1 + \frac {t^2}{2n} \left(1 + \frac {2t}{\sqrt n} o\left(n\right) \right) )]
이다. 여기서 [math(\displaystyle o\left(n\right) = \sum_{k=0}^{\infty} \mathbb{E}\left[ \left( \frac{X-\mu}\sigma \right)^{k + 3} \right] \frac 1{\left(k + 3\right)!} \left( \frac t{\sqrt n} \right)^k )]이며 적률생성함수가 존재한다면 이것의 극한은 수렴한다.
[math( \displaystyle \therefore \lim _{n \to \infty} \left\{M_{\frac{X-\mu}\sigma}\left(\frac t{\sqrt n}\right)\right\}^n
= \lim _{n \to \infty} \left\{ 1 + \frac {t^2}{2n} \left(1 + \frac {2t}{\sqrt n} o\left(n\right) \right) \right\}^n
= \lim _{n \to \infty} \left( 1 + \frac {t^2}{2n} \right)^n = \exp \frac {t^2}2 )]
2.1. 특성함수를 쓰는 증명[편집]
기본적인 방법은 앞의 증명과 비슷하며, 따라서 중복되는 부분은 가급적 생략하였다.[9]
[math(\Phi_{\frac{\sqrt n(\bar X-\mu)}\sigma}(\omega)=\mathbb E\left(\exp \left(\dfrac{(X_1-\mu)+(X_2-\mu)+\cdots+(X_n-\mu)}{\sigma\sqrt n}\omega i\right)\right)=\mathbb E\left(\exp\left(\dfrac{X_1-\mu}{\sigma\sqrt n}\omega i\right)\right)\mathbb E\left(\exp\left(\dfrac{X_2-\mu}{\sigma\sqrt n}\omega i\right)\right)\cdots\mathbb E\left(\exp\left(\dfrac{X_n-\mu}{\sigma\sqrt n}\omega i\right)\right))][A]
[math(=\left\{\mathbb E\left(\exp \left(\dfrac{X-\mu}{\sigma\sqrt n}\omega i\right)\right)\right\}^n\\=\left\{\Phi_{\frac{X-\mu}\sigma}\left(\dfrac \omega{\sqrt n}\right)\right\}^n)]
[math(\therefore\displaystyle\lim_{n\to\infty}\Phi_{\frac{\sqrt n(\bar X-\mu)}\sigma}(\omega)\\=\exp\left(\displaystyle\lim_{n\to\infty}n\ln \Phi_{\frac{X-\mu}\sigma}\left(\dfrac \omega{\sqrt n}\right)\right))]
[math(=\exp\left(\displaystyle\lim_{h\to0}\dfrac{\ln \Phi_{\frac{X-\mu}\sigma}(\omega h)}{h^2}\right))]
여기서 [math(\displaystyle\lim_{h\to0}\Phi_{\frac{X-\mu}\sigma}(\omega h)=1)]이므로
[math(=\exp\left(\displaystyle\lim_{h\to0}\dfrac{\omega\Phi_{\frac{X-\mu}\sigma}'(\omega h)}{2hM_{\frac{X-\mu}\sigma}(th)}\right)\\=\exp\left(\dfrac \omega2\displaystyle\lim_{h\to0}\dfrac{\Phi_{\frac{X-\mu}\sigma}'(\omega h)}{h}\right))]
여기서 [math(\displaystyle\lim_{h\to0}\Phi_{\frac{X-\mu}\sigma}'(\omega h)=0)]이므로
[math(=\exp\left(\dfrac \omega2×\omega \Phi_{\frac{X-\mu}\sigma}''(0)\right))]
여기서 [math(\Phi_{\frac{X-\mu}\sigma}''(0)=i^2=-1)]이므로[10] 최종적으로 [math(\displaystyle\lim_{n\to\infty}\Phi_{\frac{\sqrt n(\bar X-\mu)}\sigma}(\omega)=\exp\left(-\dfrac {\omega^2}2\right))]가 얻어지며, 이는 표준정규분포의 특성함수이다.
[참고] 이 특성함수에서 확률밀도함수를 복원하는 방법
[펼치기•접기] - [math(\Phi\left(\omega\right)=)][math(\mathcal{F})][math(\left(p\left(x\right)\right)\left(-\omega\right))]이므로 [math(p\left(x\right)={\mathcal{F}}^{-1}\left(\Phi\left(-\omega\right)\right)=\dfrac 1{2\pi}{\mathcal{F}}\left(\Phi\left(\omega\right)\right))]
그리고 지금 특성함수가 우함수이므로 위 식의 우변을 고쳐 쓰면
[math(p\left(x\right) = \displaystyle \frac 1{\pi} {\mathcal{F}}_c\left(\Phi\left(\omega\right)\right) = \frac 1{\pi} \int_{0}^{\infty} \exp\left(-\dfrac {\omega^2}2\right) \cos \omega x \, {\mathrm d}\omega)]
여기서 [math(p\left(x\right))]의 도함수를 생각하기로 하자. 그러면
[math(p'\left(x\right) = \displaystyle \frac 1{\pi} \int_{0}^{\infty} \exp\left(-\dfrac {\omega^2}2\right) \frac \partial{\partial x} \cos \omega x \, {\mathrm d}\omega
\\
= \frac 1{\pi} \int_{0}^{\infty} \exp\left(-\dfrac {\omega^2}2\right) × \left( -\omega \right) \sin \omega x \, {\mathrm d}\omega
\\
= \frac 1{\pi} \int_{0}^{\infty} \frac {\mathrm d}{{\mathrm d} \omega} \left( \exp\left(-\dfrac {\omega^2}2\right) \right) \sin \omega x \, {\mathrm d}\omega
\\
= \frac 1{\pi} \left( \left[ \exp\left(-\dfrac {\omega^2}2\right) \sin \omega x \right]_{0}^{\infty} - \int_{0}^{\infty} \exp\left(-\dfrac {\omega^2}2\right) × \frac \partial{\partial \omega} \sin \omega x {\mathrm d}\omega \right)
\\
= - \frac 1{\pi} \int_{0}^{\infty} \exp\left(-\dfrac {\omega^2}2\right) × x \cos \omega x {\mathrm d}\omega
\\
= -x × \frac 1{\pi} \int_{0}^{\infty} \exp\left(-\dfrac {\omega^2}2\right) \cos \omega x {\mathrm d}\omega = -x p\left(x\right)
)]
즉 [math(\dfrac {p'\left(x\right)}{p\left(x\right)} = -x)]이므로 [math(p\left(x\right) = A \exp \left(-\dfrac {x^2}2 \right) )]일 수밖에 없고, 이때 상수 A는 [math( p\left(0\right) )]와 같으므로
[math( A = \displaystyle \frac 1{\pi} \int_{0}^{\infty} \exp\left(-\dfrac {\omega^2}2\right) {\mathrm d}\omega = \frac 1{\pi} × \sqrt {\frac {\pi}2} = \frac 1{\sqrt{2\pi}} )] [1]
따라서 확률밀도함수는 [math(p\left(x\right) = \dfrac 1{\sqrt{2\pi}} \exp \left(-\dfrac {x^2}2 \right) )]이다.
3. 표준정규분포 중심극한정리[편집]
따라서 중심극한정리를 정규화[math( (N))]로 정의해 본다면 이를 표준화[math( \left(Z\right) )] 하면"어떤 모집단[math( N(\mu,\sigma^2) )]을 가정하고 이때 표본[math((n))]이 어느 일정량(수준)이상이 될때 표본평균 [math( \left(\overline{X}\right) )] 분포는 [math( N\left(\mu,\dfrac{\sigma^2}{n} \right) )]에 수렴(근사)하는 정규분포가 된다."
[math( N(0,1) \to Z=\dfrac{\overline{X}-\mu}{\sqrt{ \dfrac{\sigma^2}{n} }} )]
표준정규분포를 조사할수있다.
4. 관련 문서[편집]
이 문서의 내용 중 전체 또는 일부는 2023-12-17 17:12:28에 나무위키 중심극한정리 문서에서 가져왔습니다.
[1] 사실 그 이외에도 여러 다양한 조건들하에서 적용할 수 있는 CLT가 찾아보면 굉장히 많다. 그러나 그 모든 것들이 자주 쓰이지는 않으며, 학부나 대학원에서 배우는 정도의 CLT가 가장 많이 쓰이는 메이저한 지식이다.[2] 위를 보면 알 수 있겠지만 [math(X_i)]가 어떠한 분포를 따라야 한다는 제약이 없다.[3] 미분가능하면 연속적이듯이, 확률수렴하면 분포수렴한다.[4] 주로 적률생성함수가 존재함을 가정한다. 그 이유는 아래 증명에서 볼 수 있듯이 증명에 적률생성함수를 사용하기 때문.[5] 만약 30*30일 경우의 p를 구해보라. 구해보면 아마 소름이 돋을 것이다. 30 by 30 라고도 한다. CLT의 기본 정의를 이용한 증명인데, 수학적으로 관심있다면 매우 신기한 방향으로 증명이 이루어지는 것을 볼 수 있다.[6] 엄밀히 말하면: 같은 분포를 따르고 서로 독립인 확률변수 X1 , X2 , ..., Xn 에 대해 이들의 평균 X = (X1 + X2 + ... + Xn)/n 을 평균이 0, 분산이 1이 되게 표준화한 Z=(X-μ)/σ√n의 분포는 n이 무한대로 갈 때 정규분포에 수렴한다.[7] 집합 판별 함수와는 다르다. 확률론에서 말하는 특성함수란 [math(\mathbb E(e^{itX}))]를 뜻한다.[A] A B C 각각의 Xk는 독립(복원추출)이므로 분리할 수 있다.[8] 로피탈의 정리를 또 써도 된다.[자료출처] https://m.blog.naver.com/mykepzzang/220851280035[9] 형식적으로는 앞의 증명에서 t를 iω로 대체한 것뿐이다.[10] 적률생성함수 증명법과 부호가 반대임에 유의