[include(틀:통계학)] [목차] == 개요 == {{{+1 [[確]][[率]][[分]][[布]] / probability distribution}}} 시행에서 [[확률변수]](random variable)가 어떤 값을 가질지에 대한 [[확률]]을 나타낸다. [[확률변수]]가 취하는 값들의 집합이 자연수의 부분 집합과 일대일 대응 된다면 이산확률분포, 확률 변수가 취하는 값들의 집합이 [[실수(수학)|실수]]의 구간을 이루면 연속확률분포가 된다. 확률분포와 분포를 사용하는 방법에 대한 입문자용 가이드는 [[통계적 방법/분포]] 문서를 참고하자. == 확률 분포의 종류 == 확률 변수의 종류에 따라 크게 이산확률분포와 연속확률분포로 나뉜다. === 이산 확률 분포 === 이산확률분포(discrete probability distribution) [[확률질량함수]](probability mass function) ==== 이항분포 ==== [[이항분포]](binomial distribution) [math(n)]번의 독립 베르누이 시행(한 번의 시행에서 결과가 성공 또는 실패로 결정되는 시행)에서 성공 확률이 [math(p)]일 때의 확률 분포이다. 이것을 쉽게 설명하면, n번의 독립시행을 하고 각 시행마다 사건이 일어날 확률(= 성공할 확률)이 p로 일정할 때의 확률 분포이다. [math(n)]번의 시행 중 성공 횟수(사건이 일어난 횟수)가 [math(x)]회 일 때, {{{#!wiki style="text-align: center" [br][math(\displaystyle B(x;n,p)={}_nC_x~p^x(1-p)^{n-x})] [br]{{{-2 [math(\displaystyle ※{}_nC_x=\frac{n!}{x!(n-x)!})]}}}}}} 로 표현한다. [math(n)]이 커지면 이항분포는 폭이 점점 좁아지며[* Pagano, R. R. (2012). Understanding statistics in the behavioral sciences. Cengage Learning.p230] 정규분포에 근접해 간다. [math(p)]가 0.5에 근접해 가도 마찬가지이다. 보통 [math(np \geq 10, n(1-p) \geq 10)][* 절대적인 규칙은 아니다. 교과서 및 교수마다 조금 다르게 가르치기도 한다. [math(np \geq 5, n(1-p) \geq 5)] 라고 가르치기도 한다.] 이면 이항분포 대신, 정규분포로 가정하고 확률을 계산 해도 무방하다[* 주의할점은, 연속확률변수인 정규분포를 이용하여 이산확률변수인 이항분포를 근사할경우 연속성 수정을 해줘야 한다.]. 고등학교에서는 이항분포를 이루는 각 값들의 평균, 표준편차를 구하는 법을 알려주는데[* 2015 개정교육과정에서는 증명을 생략한다], 값은 아래와 같다. (q=1-p) * [math(\displaystyle 평균:~μ=np)] * [math(\displaystyle 분산:~σ^2=npq )] * [math(표준편차:σ=\sqrt{npq})][* Pagano, R. R. (2012). Understanding statistics in the behavioral sciences. Cengage Learning.p239] 교과과정 밖 내용이긴 하지만, 분포 형태를 나타내는 아래 값들도 있다. * [math(\displaystyle 왜도:~s=\frac{q-p}σ)] * [math(\displaystyle 첨도:~κ=\frac{1-6pq}{σ^2})] 참고로 n=1 일때의 이항분포를 베르누이 분포라고 한다. {{{#!folding [증명 보기] [math(\displaystyle 기본 증명:)] [math(\displaystyle \sum_{x=0}^n{}_xP_k B(x;n,p))] [math(\displaystyle =\sum_{x=k}^n{}_xP_k\cdot{}_nC_x~p^xq^{n-x})] [math(\displaystyle =\sum_{x=k}^n\frac{\color{red}\cancel{x!}}{(x-k)!}\,\frac{n!}{{\color{red}\cancel{x!}}(n-x)!}p^xq^{n-x})] [math(\displaystyle =\sum_{x=k}^n\frac{n!}{{\color{royalblue}(n-k)!}}\,\frac{\color{royalblue}(n-k)!}{(x-k)!(n-x)!}p^xq^{n-x})] [math(\displaystyle =\sum_{x=k}^n{}_nP_k\cdot{}_{n-k}C_{x-k}~p^xq^{n-x}\quad\quad치환:~x=r+k)] [math(\displaystyle =\sum_{r=0}^{n-k}{}_nP_k\cdot{}_{n-k}C_r~p^{r+k}q^{n-k-r})] [math(\displaystyle ={}_nP_k~p^k(p+q)^{n-k})] [math(\displaystyle ={}_nP_k~p^k)] ---- [math(\displaystyle \rightarrow평균:)] [math(\displaystyle μ=\sum_{x=0}^nxB(x;n,p)\quad\quad\quad\quad\quad(x={}_xP_1))] [math(\displaystyle ~={}_nP_1~p^1)] [math(\displaystyle ~=np)] [math(\displaystyle \rightarrow분산:)] [math(\displaystyle σ^2=\sum_{x=0}^nx^2B(x;n,p)-μ^2\quad\quad(x^2={}_xP_2+x))] [math(\displaystyle \,={}_nP_2~p^2+μ-μ^2)] [math(\displaystyle \,=μ(\cancel μ-p)+μ-\cancel{μ^2})] [math(\displaystyle \,=μ(1-p))] [math(\displaystyle \,=npq)] [math(\displaystyle \rightarrow표준편차:~σ=\sqrt{npq})] [math(\displaystyle \rightarrow왜도:)] [math(\displaystyle s=\frac{\sum_{x=0}^nx^3B(x;n,p)-3μσ^2-μ^3}{σ^3})] }}} ==== [[푸아송 분포]] ==== [include(틀:상세 내용, 문서명=푸아송 분포)] ==== 기하분포 ==== 기하분포(geometric distribution) 성공 확률이 p인 독립 베르누이 시행에서 최초로 성공인 시행이 나오기까지 시도한 횟수를 확률변수로 갖는 확률분포이며, [math( g(x:p) = (1-p)^{x-1}p )] 로 표현한다. 기하분포의 평균은 [math(1 \over p)], 분산은 [math({1-p} \over {p^2})]이다. 즉, 성공 확률이 [math(1 \over n)]인 아이템 뽑기 게임에서 아이템을 하나 획득하기 위해서는 대략 [math(n)]회 정도의 시도가 필요하다고 예상할 수 있다는 것을 의미한다. ==== 초기하분포 ==== 초기하분포(hypergeometric distribution) N개의 모집단에서 추출하려는 것이 k개 존재할 경우, 그 모집단에서 비복원추출한 n개의 표본집단 중 추출하려던 것이 x개 일 확률변수를 나타내는 확률분포이며, [math( h(x;N,n,k) = \frac{\begin{pmatrix}k\\x\end{pmatrix} \begin{pmatrix}N-k\\n-x\end{pmatrix}}{\begin{pmatrix}N\\n\end{pmatrix}} )]로 표현한다. ==== 음이항분포 ==== 음이항분포(negative binomial distribution) 성공 확률이 p인 독립 베르누이 시행에서 x회 동안 k번 성공할 때의 확률변수를 나타내는 확률분포이며, [math( B^{-1}(x;k,p) = \begin{pmatrix}x-1\\k-1\end{pmatrix}p^k(1-p)^{x-k} )]로 표현한다. === 연속확률분포 === 연속확률분포(continuous probability distribution) [[확률밀도함수]](probability density function) * 표본 분포(sampling distribution) * [[정규분포]](normal distribution) * [[표준정규분포]](z-분포, standard normal distribution) * [[스튜던트 t-분포]](t-분포, Student's t-distribution) * [[F-분포]](F-distribution) * [[카이제곱분포]](χ2 분포, chi-squared distribution) * 지수분포: 보통 [[자연로그의 밑|자연로그의 밑 [math(e)]]]을 취하는 함수를 매클로린 급수를 적용해서 사용한다. 그런 경우에는 평균과 표준편차가 x로 같다. * 레일리 분포 * 라이시안 분포 * 감마 분포 * 파레토 분포 == 확률분포가 가지는 성질 == === 기댓값과 분산 === [[기댓값]]이란 실험을 반복시행 했을 때, 평균적으로 기대할 수 있는 값이며, 수식적으로는 [[확률질량함수]]를 가중치로 한 [[가중 평균]]과 동일하다. 확률 변수 X에 대한 기대값은 E(X) 또는 E[X]라고 표기하고 다음과 같이 계산한다. [math(\displaystyle \text{E}\left(X\right)≝\sum_{i}x_i P\left(X=x_i\right))][* 단, 해당 식은 [[확률질량함수]]에 사용하는 계산법이니 [[확률 밀도 함수]] 상대로는 적분을 사용하도록 하자. 그 외에 더 자세한 내용은 [[기댓값]] 문서 참조.] [[분산]]이란 확률 변수가 취하는 값들이 기대치로부터 얼마나 흩어져 있는가를 나타낸다. 일반적으로 V(X)로 표기하며 다음과 같이 계산한다. [math(\displaystyle \text{V}\left(X\right)≝\text{E}\left[(X-μ)^2\right])][* [math(\displaystyle =\sum_{i}{\left(x_i-μ\right)^2P\left(X=x_i\right)})]] [math(\displaystyle =\text{E}\left(X^2-2μX+μ^2\right))] [math(\displaystyle =\text{E}\left(X^2\right)-2μ\text{E}\left(X\right)+μ^2)][* 기댓값 연산자 {{{-2 Expectation Operator}}} [math(E[X])]는 [[선형사상]]이라 이런 식으로 계산을 할 수 있다.] [math(\displaystyle =\text{E}\left(X^2\right)-μ^2)] [math(\displaystyle ※~μ=\text{E}\left(X\right))] [[표준편차]]는 분산에 [[제곱근]]을 하여 계산한다. [math(\sigma \left(X\right)≝\sqrt {\text{V}\left(X\right)})] 왜 절댓값을 안하고 굳이 제곱해서 구하는지에 대한 이유는 [[절대편차#s-2.2]]에 설명되어 있다. 분산과 표준 편차 모두 확률 변수 값들이 [[기대치]]에서 흩어진 정도를 나타내기 때문에 '''[[산포도]]'''라고 총칭하기도 한다. === 왜도와 첨도 === 왜도(skewness) 또는 왜곡도: 그래프가 왼쪽이나 오른쪽으로 치우친 정도이다. [math(\displaystyle \text{E}\left[\left(\frac{X-μ}σ\right)^3\right])] [math(\displaystyle =\text{E}\left(\frac{X^3-3μX^2+3μ^2X-μ^3}{σ^3}\right))] [math(\displaystyle =\frac{\text{E}(X^3)-3μ\text{E}(X^2)+3μ^2\text{E}(X)-μ^3}{σ^3})] [math(\displaystyle =\frac{\text{E}(X^3)-3μσ^2-μ^3}{σ^3})] 첨도(kurtosis): 그래프가 위로 뾰족한 정도이다. [math(\displaystyle \text{E}\left[\left(\frac{X-μ}σ\right)^4\right]-3)] == 누적분포함수 == 누적분포함수(cumulative distribution function, cdf) 어떤 확률 분포에 대하여 [[확률변수]]가 특정 값보다 작거나 같은 [[확률]]을 의미한다. 즉 [math(F(x)=P(X \leq x))]. [[분류:확률론]]