문서의 임의 삭제는 제재 대상으로, 문서를 삭제하려면 삭제 토론을 진행해야 합니다. 문서 보기문서 삭제토론 카이제곱분포 (문서 편집) [include(틀:통계학)] [목차] == 개요 == '''카이제곱분포'''(chi-squared distribution, χ^^2^^ 분포)는 ''k''개의 서로 독립적인 표준 정규 확률 변수를 각각 제곱한 다음 합해서 얻어지는 분포이다. 구식 표현으로 '''카이자승분포'''라고도 한다. 즉 k차원 확률벡터 y ~ N(0, I)에 대해[* 이 때의 0은 영벡터, I는 항등행렬이다.][* 정규분포 확률벡터의 X의 기댓값이 영벡터라는 것은 개별 확률변수의 기댓값이 0이라는 것이다. 그리고 항등행렬은 대각원소가 1이기 때문에 정규분포 확률벡터의 공분산 행렬이 항등행렬이라는 것은 개별 정규분포의 분산이 1이라는 것이다. 즉 개별 정규분포들은 표준정규분포라는 것을 의미한다. 또한 항등행렬의 비대각원소가 0이기 때문에 임의의 두 정규분포의 공분산이 0이라는 것을 의미한다. 그런데 정규분포에서는 공분산이 0이라는 조건과 독립이라는 조건이 동치이다. (일반적으로는 독립이 '공분산 = 0'보다 강한 조건이다.) 이러한 점을 종합하면 y ~ N(0, I)는 '독립적인 표준정규분포들을 모은 벡터'를 의미한다는 것을 알 수 있다.] [math( χ^2 = y^\top y)] 가 카이제곱분포이다. [[χ]]는 [[그리스 문자]] [[카이]](chi)이다. 검정통계량이 카이제곱분포를 따른다면 카이제곱분포를 사용해서 가설검정을 하면 된다. 귀무가설 하에서의 검정통계량이 카이제곱분포를 따를 때 검정통계치가 카이제곱분포 하에서 일어나기 어려운 일이면 귀무가설을 기각하고, 충분히 일어날 수 있는 일이면 귀무가설을 기각하지 않는다. 이 때 일어날 법한 일인지, 희귀한 경우인지를 판단하는 기준은 유의수준과 p-값이다. 입문 수준의 통계학이나 학부 사회조사방법론에서는 카이-제곱 분포를 [[σ]]^^2^^을 구할 때 사용하여 모분산 검정, 적합도 검정, 독립성/동질성 검정 등에 사용한다. [[귀무 가설]] H,,0,,는 σ^^2^^=1같은 것이고, [[대립 가설]] H,,1,,은 σ^^2^^≠1같은 것이다. 또는 H,,0,,는 μ,,1,,=μ,,2,,이고, H,,a,,은 μ,,1,,≠μ,,2,,와 같은 것으로 H,,0,,는 "μ,,1,,과 μ,,2,,의 약효가 비슷하다", H,,a,,은 "μ,,1,,과 μ,,2,,의 약효에 차이가 있다"와 같은 것이다. "남성과 여성, 성별로 보수 성향과 진보 성향의 비율에 유의한 차이가 있는가" 등의 검증을 할 때 쓸 수 있다. p-값이 0.05 [* 5%가 일반적이긴 하지만 이는 개별 세부전공에 따라 다를 수 있다.] 보다 작으면 유의한 차이가 있다고 생각할 수 있다. 요즘은 0.005 이하라는 기준을 쓰는 곳도 많다. [[z-검정]]은 σ^^2^^을 알 때 [[μ]]를 구하는 것이고, [[t-검정]]은 [[σ]]^^2^^을 모를 때 [[μ]]를 구하는 것이다. [[카이-제곱 검정]]은 σ^^2^^을 구하는 것이고, [[F-검정]]은 [[σ]],,1,,^^2^^ / σ,,2,,^^2^^ 을 구할 때 사용한다. [[https://www.youtube.com/watch?v=Iffx42lmQD4|수식 없이 설명하는 카이제곱분포]] [[https://blog.naver.com/stat833/220064862005|엑셀로 카이제곱 검정 (교차분석)]] == 카이제곱확률변수 == [math(Z_1,\,Z_2,\,\cdots ,\,Z_v)]가 서로 독립인 [math(v)]개의 확률변수이면서 [[표준정규분포]] [math(\mathcal{N}(0,1))]을 따른다면 {{{#!wiki style="text-align: center" [math(U=\displaystyle\sum_{i=1}^v Z_i^2)]}}} 을 [[자유도]]가 [math(v)]인 [math(\chi^2)](카이제곱)확률변수라고 한다. 예를 들어 각 [math(X_i)]가 정규분포 [math(\mathcal{N}(\mu, \sigma^2))]을 따르는 [math((X_1,\,X_2,\,\cdots ,\,X_n))]의 확률표본을 표준화하면 {{{#!wiki style="text-align: center" [math(Z_i=\dfrac{X_i-\mu}\sigma)]}}} 가 되고 모든 [math(Z_i)]의 제곱의 합인 다음 확률변수는 자유도가 [math(v)]인 [math(\chi^2)]분포를 따른다. {{{#!wiki style="text-align: center" [math(\displaystyle\sum_{i=1}^v\left(\dfrac{X_i-\mu}{\sigma}\right)^{\!2}\!=\dfrac{\displaystyle\sum_{i=1}^v(X_i-\mu)^2}{\sigma^2})]}}} [math(\chi^2)]확률변수는 연속확률변수인 표준정규변수의 함수이므로 똑같이 연속확률분포를 따른다. 또한, 제곱의 합으로 정의되기 때문에 항상 0 이상의 값만을 갖는다. 또한, 다음이 성립한다. {{{#!wiki style="text-align: center" [math(\operatorname{E}(U)=v,\quad \operatorname{Var}(U)=2v)]}}} 곧, 카이제곱분포는 '''평균이 자유도와 같고, 분산은 자유도의 2배이다.''' {{{#!folding [증명] {{{#!wiki style="text-align: center" [math(\begin{aligned}U&={Z_1}^2+{Z_2}^2+\cdots+{Z_v}^2\\\rightarrow E(U)&=E({Z_1}^2)+E({Z_2}^2)+\cdots+E({Z_v}^2)\end{aligned})] [math(\begin{aligned}{\rm Var}(Z_i)&=E({Z_i}^2)-[E(Z_i) ]^2\\\rightarrow E({Z_i}^2)&={\rm Var}(Z_i)+[E(Z_i) ]^2\end{aligned})]}}} [math(Z_i)]는 표준정규분포를 따르므로 [math(Var(Z_i)=1,\,E(Z_i)=0)]이므로 {{{#!wiki style="text-align: center" [math(\begin{aligned}E({Z_i}^2)&=1+0=1\\\therefore E(U)&=\underbrace{1+1+\cdots+1}_{v\;{\rm times}}=v\end{aligned})] [math({\rm Var}(U)={\rm Var}({Z_1}^2)+{\rm Var}({Z_2}^2)+\cdots+{\rm Var}({Z_v}^2)=v\cdot{\rm Var}({Z_i}^2))]}}} 또한 [math({\rm Var}({Z_i}^2)=E({Z_i}^4)-[E({Z_i}^2) ]^2)]이고 [math(E({Z_i}^2)=1,\,E({Z_i}^4)=3)]임이 알려져 있으므로[* [math(E({Z_i}^4) = \displaystyle \frac{1}{\sqrt{2\pi}}\int_{-\infty}^{\infty} x^4e^{-\frac{x^2}{2}}\,{\rm d}x = -\frac{1}{\sqrt{2\pi}}x^3e^{-\frac{x^2}{2}} \biggr|_{-\infty}^{\infty} + 3 \displaystyle \int_{-\infty}^{\infty} \frac{1}{\sqrt{2\pi}}x^2e^{-\frac{x^2}{2}}\,{\rm d}x = 3(V(Z_i)+[{E(Z_i)}]^2) = 3)] ] {{{#!wiki style="text-align: center" [math({\rm Var}({Z_i}^2)=3-1=2)] [math(\therefore{\rm Var}(U)=2v)]}}}}}} == 공식 == * [math(\bar X)]와 [math(s^2)]이 독립이고 [math(X_u\sim \mathcal{N}(\mu,\,\sigma^2))]일 때, [math(\dfrac{(n-1)s^2}{\sigma^2}\sim\chi^2_{n-1})] 즉, 표본분산에 '''상수''' [math((n-1)/\sigma^2)]을 곱한 확률변수는 자유도가 [math(n-1)]인 카이제곱분포를 따른다. 이를 이용하여 표본분산 [math(s^2)]을 가지고 모분산 [math(\sigma^2)]에 대한 가설검정이나 신뢰구간 도출이 가능하다. 바로 이 기능, 표본분산을 보고 모분산을 추측하는 것이 카이제곱분포의 주요한 용도이다. {{{#!folding [증명] 이하 [math(\displaystyle\sum_{k=1}^n)]를 [math(\displaystyle\sum)]로 생략하여 쓴다. ||<:> [math(\begin{aligned}\displaystyle\sum(X_i-\mu)^2&=\sum[(X_i-\bar X)+({\bar X}-\mu) ]^2\\&=\sum(X_i-{\bar X})^2+\sum({\bar X}-\mu)^2+2(\bar X-\mu)\sum(X_i-\bar X)\\&=(n-1)\dfrac{\displaystyle\sum(X_i-{\bar X})^2}{n-1}+n(\bar X-\mu)^2+2(\bar X-\mu)\sum(X_i-\bar X)\\&=(n-1)s^2+n(\bar X-\mu)^2\\(&\because\sum(X_i-\bar X)=0\textsf{\footnotesize{(편차의 합)}}) \end{aligned})]|| 양변을 [math(\sigma^2)]으로 나누면 {{{#!wiki style="text-align: center" [math(\dfrac{\sum(X_i-\mu)^2}{\sigma^2}=\dfrac{(n-1)s^2}{\sigma^2}+\dfrac{n(\bar X-\mu)^2}{\sigma^2})]}}} 여기에서 '''카이제곱분포의 정의에 의하여''' [math(\dfrac{\sum(X_i-\mu)^2}{\sigma^2})]은 자유도가 [math(n)]인 카이제곱분포를 따르고 [math(\dfrac{n(\bar X-\mu)^2}{\sigma^2})]은 자유도가 1인 카이제곱분포를 따르므로 [math(\dfrac{(n-1)s^2}{\sigma^2})]은 자유도가 [math(n-1)]인 카이제곱분포를 따른다. {{{#!wiki style="text-align: center" [math(\therefore\dfrac{(n-1)s^2}{\sigma^2}\sim\chi^2_{n-1})]}}}}}} == [[적률생성함수]] == 자유도가 [math(v)]인 카이제곱분포의 적률생성함수는 다음과 같다. {{{#!wiki style="text-align: center" [math(M(t)=(1-2t)^{-v/2})]}}} 이를 통해 카이제곱분포의 평균과 분산을 다음과 같이 구할 수 있다. ||<:> [math(\begin{aligned}M'(t)&=-\dfrac{v}2(-2)(1-2t)^{-v/2-1}\quad\rightarrow\quad E(U)=M'(0)=v\\M''(t)&=-\dfrac{v}2(-2)^2\left(-\dfrac{v}{2}-1\right)(1-2t)^{-v/2-2}\quad\rightarrow\quad E(U^2)=M''(0)=v^2+2v\end{aligned})] || {{{#!wiki style="text-align: center" [math(\therefore{\rm Var}(U)=E(U^2)-\{E(U)\}^2=2v)]}}} == 활용 == 정규분포의 확률변수를 '''제곱'''한 값에 대한 확률을 구할 때 요긴하게 쓴다. ||'''[문제]''' [math(X\sim \mathcal{N}(4,\,9))]일 때, [math(P[-11.95<:> [math(\begin{aligned}P[-11.95저장 버튼을 클릭하면 당신이 기여한 내용을 CC-BY-NC-SA 2.0 KR으로 배포하고,기여한 문서에 대한 하이퍼링크나 URL을 이용하여 저작자 표시를 하는 것으로 충분하다는 데 동의하는 것입니다.이 동의는 철회할 수 없습니다.캡챠저장미리보기