확률분포

덤프버전 :

분류

    통계학

Statistics
[ 펼치기 · 접기 ]




1. 개요
2. 확률 분포의 종류
2.1. 이산 확률 분포
2.1.1. 이항분포
2.1.3. 기하분포
2.1.4. 초기하분포
2.1.5. 음이항분포
2.2. 연속확률분포
3. 확률분포가 가지는 성질
3.1. 기댓값과 분산
3.2. 왜도와 첨도
4. 누적분포함수


1. 개요[편집]


/ probability distribution

시행에서 확률변수(random variable)가 어떤 값을 가질지에 대한 확률을 나타낸다. 확률변수가 취하는 값들의 집합이 자연수의 부분 집합과 일대일 대응 된다면 이산확률분포, 확률 변수가 취하는 값들의 집합이 실수의 구간을 이루면 연속확률분포가 된다.

확률분포와 분포를 사용하는 방법에 대한 입문자용 가이드는 통계적 방법/분포 문서를 참고하자.


2. 확률 분포의 종류[편집]


확률 변수의 종류에 따라 크게 이산확률분포와 연속확률분포로 나뉜다.


2.1. 이산 확률 분포[편집]


이산확률분포(discrete probability distribution)

확률질량함수(probability mass function)


2.1.1. 이항분포[편집]


이항분포(binomial distribution)

[math(n)]번의 독립 베르누이 시행(한 번의 시행에서 결과가 성공 또는 실패로 결정되는 시행)에서 성공 확률이 [math(p)]일 때의 확률 분포이다.
이것을 쉽게 설명하면, n번의 독립시행을 하고 각 시행마다 사건이 일어날 확률(= 성공할 확률)이 p로 일정할 때의 확률 분포이다.

[math(n)]번의 시행 중 성공 횟수(사건이 일어난 횟수)가 [math(x)]회 일 때,

[math(\displaystyle B(x;n,p)={}_nC_x~p^x(1-p)^{n-x})]

[math(\displaystyle ※{}_nC_x=\frac{n!}{x!(n-x)!})]

로 표현한다.

[math(n)]이 커지면 이항분포는 폭이 점점 좁아지며[1] 정규분포에 근접해 간다. [math(p)]가 0.5에 근접해 가도 마찬가지이다. 보통 [math(np \geq 10, n(1-p) \geq 10)][2] 이면 이항분포 대신, 정규분포로 가정하고 확률을 계산 해도 무방하다[3]. 고등학교에서는 이항분포를 이루는 각 값들의 평균, 표준편차를 구하는 법을 알려주는데[4], 값은 아래와 같다. (q=1-p)
  • [math(\displaystyle 평균:~μ=np)]
  • [math(\displaystyle 분산:~σ^2=npq )]
  • [math(표준편차:σ=\sqrt{npq})][5]

교과과정 밖 내용이긴 하지만, 분포 형태를 나타내는 아래 값들도 있다.
  • [math(\displaystyle 왜도:~s=\frac{q-p}σ)]
  • [math(\displaystyle 첨도:~κ=\frac{1-6pq}{σ^2})]

참고로 n=1 일때의 이항분포를 베르누이 분포라고 한다.

[증명 보기]
[math(\displaystyle 기본 증명:)]
[math(\displaystyle \sum_{x=0}^n{}_xP_k B(x;n,p))]
[math(\displaystyle =\sum_{x=k}^n{}_xP_k\cdot{}_nC_x~p^xq^{n-x})]
[math(\displaystyle =\sum_{x=k}^n\frac{\color{red}\cancel{x!}}{(x-k)!}\,\frac{n!}{{\color{red}\cancel{x!}}(n-x)!}p^xq^{n-x})]
[math(\displaystyle =\sum_{x=k}^n\frac{n!}{{\color{royalblue}(n-k)!}}\,\frac{\color{royalblue}(n-k)!}{(x-k)!(n-x)!}p^xq^{n-x})]
[math(\displaystyle =\sum_{x=k}^n{}_nP_k\cdot{}_{n-k}C_{x-k}~p^xq^{n-x}\quad\quad치환:~x=r+k)]
[math(\displaystyle =\sum_{r=0}^{n-k}{}_nP_k\cdot{}_{n-k}C_r~p^{r+k}q^{n-k-r})]
[math(\displaystyle ={}_nP_k~p^k(p+q)^{n-k})]
[math(\displaystyle ={}_nP_k~p^k)]

[math(\displaystyle \rightarrow평균:)]
[math(\displaystyle μ=\sum_{x=0}^nxB(x;n,p)\quad\quad\quad\quad\quad(x={}_xP_1))]
[math(\displaystyle ~={}_nP_1~p^1)]
[math(\displaystyle ~=np)]
[math(\displaystyle \rightarrow분산:)]
[math(\displaystyle σ^2=\sum_{x=0}^nx^2B(x;n,p)-μ^2\quad\quad(x^2={}_xP_2+x))]
[math(\displaystyle \,={}_nP_2~p^2+μ-μ^2)]
[math(\displaystyle \,=μ(\cancel μ-p)+μ-\cancel{μ^2})]
[math(\displaystyle \,=μ(1-p))]
[math(\displaystyle \,=npq)]
[math(\displaystyle \rightarrow표준편차:~σ=\sqrt{npq})]
[math(\displaystyle \rightarrow왜도:)]
[math(\displaystyle s=\frac{\sum_{x=0}^nx^3B(x;n,p)-3μσ^2-μ^3}{σ^3})]


2.1.2. 푸아송 분포[편집]


파일:나무위키상세내용.png   자세한 내용은 푸아송 분포 문서를 참고하십시오.



2.1.3. 기하분포[편집]


기하분포(geometric distribution)

성공 확률이 p인 독립 베르누이 시행에서 최초로 성공인 시행이 나오기까지 시도한 횟수를 확률변수로 갖는 확률분포이며,
[math( g(x:p) = (1-p)^{x-1}p )]
로 표현한다.

기하분포의 평균은 [math(1 \over p)], 분산은 [math({1-p} \over {p^2})]이다. 즉, 성공 확률이 [math(1 \over n)]인 아이템 뽑기 게임에서 아이템을 하나 획득하기 위해서는 대략 [math(n)]회 정도의 시도가 필요하다고 예상할 수 있다는 것을 의미한다.


2.1.4. 초기하분포[편집]


초기하분포(hypergeometric distribution)

N개의 모집단에서 추출하려는 것이 k개 존재할 경우, 그 모집단에서 비복원추출한 n개의 표본집단 중 추출하려던 것이 x개 일 확률변수를 나타내는 확률분포이며,
[math( h(x;N,n,k) = \frac{\begin{pmatrix}k\\x\end{pmatrix} \begin{pmatrix}N-k\\n-x\end{pmatrix}}{\begin{pmatrix}N\\n\end{pmatrix}} )]로 표현한다.


2.1.5. 음이항분포[편집]


음이항분포(negative binomial distribution)

성공 확률이 p인 독립 베르누이 시행에서 x회 동안 k번 성공할 때의 확률변수를 나타내는 확률분포이며,
[math( B^{-1}(x;k,p) = \begin{pmatrix}x-1\\k-1\end{pmatrix}p^k(1-p)^{x-k} )]로 표현한다.


2.2. 연속확률분포[편집]


연속확률분포(continuous probability distribution)
확률밀도함수(probability density function)



3. 확률분포가 가지는 성질[편집]



3.1. 기댓값과 분산[편집]


기댓값이란 실험을 반복시행 했을 때, 평균적으로 기대할 수 있는 값이며, 수식적으로는 확률질량함수를 가중치로 한 가중 평균과 동일하다. 확률 변수 X에 대한 기대값은 E(X) 또는 E[X]라고 표기하고 다음과 같이 계산한다.
[math(\displaystyle \text{E}\left(X\right)≝\sum_{i}x_i P\left(X=x_i\right))][6]

분산이란 확률 변수가 취하는 값들이 기대치로부터 얼마나 흩어져 있는가를 나타낸다. 일반적으로 V(X)로 표기하며 다음과 같이 계산한다.
[math(\displaystyle \text{V}\left(X\right)≝\text{E}\left[(X-μ)^2\right])][7]
[math(\displaystyle =\text{E}\left(X^2-2μX+μ^2\right))]
[math(\displaystyle =\text{E}\left(X^2\right)-2μ\text{E}\left(X\right)+μ^2)][8]
[math(\displaystyle =\text{E}\left(X^2\right)-μ^2)]
[math(\displaystyle ※~μ=\text{E}\left(X\right))]


표준편차는 분산에 제곱근을 하여 계산한다.
[math(\sigma \left(X\right)≝\sqrt {\text{V}\left(X\right)})]

왜 절댓값을 안하고 굳이 제곱해서 구하는지에 대한 이유는 절대편차에 설명되어 있다.

분산과 표준 편차 모두 확률 변수 값들이 기대치에서 흩어진 정도를 나타내기 때문에 산포도라고 총칭하기도 한다.

3.2. 왜도와 첨도[편집]


왜도(skewness) 또는 왜곡도: 그래프가 왼쪽이나 오른쪽으로 치우친 정도이다.
[math(\displaystyle \text{E}\left[\left(\frac{X-μ}σ\right)^3\right])]
[math(\displaystyle =\text{E}\left(\frac{X^3-3μX^2+3μ^2X-μ^3}{σ^3}\right))]
[math(\displaystyle =\frac{\text{E}(X^3)-3μ\text{E}(X^2)+3μ^2\text{E}(X)-μ^3}{σ^3})]
[math(\displaystyle =\frac{\text{E}(X^3)-3μσ^2-μ^3}{σ^3})]

첨도(kurtosis): 그래프가 위로 뾰족한 정도이다.
[math(\displaystyle \text{E}\left[\left(\frac{X-μ}σ\right)^4\right]-3)]

4. 누적분포함수[편집]


누적분포함수(cumulative distribution function, cdf)

어떤 확률 분포에 대하여 확률변수가 특정 값보다 작거나 같은 확률을 의미한다.
즉 [math(F(x)=P(X \leq x))].


파일:크리에이티브 커먼즈 라이선스__CC.png 이 문서의 내용 중 전체 또는 일부는 2023-12-26 23:30:46에 나무위키 확률분포 문서에서 가져왔습니다.

[1] Pagano, R. R. (2012). Understanding statistics in the behavioral sciences. Cengage Learning.p230[2] 절대적인 규칙은 아니다. 교과서 및 교수마다 조금 다르게 가르치기도 한다. [math(np \geq 5, n(1-p) \geq 5)] 라고 가르치기도 한다.[3] 주의할점은, 연속확률변수인 정규분포를 이용하여 이산확률변수인 이항분포를 근사할경우 연속성 수정을 해줘야 한다.[4] 2015 개정교육과정에서는 증명을 생략한다[5] Pagano, R. R. (2012). Understanding statistics in the behavioral sciences. Cengage Learning.p239[6] 단, 해당 식은 확률질량함수에 사용하는 계산법이니 확률 밀도 함수 상대로는 적분을 사용하도록 하자. 그 외에 더 자세한 내용은 기댓값 문서 참조.[7] [math(\displaystyle =\sum_{i}{\left(x_i-μ\right)^2P\left(X=x_i\right)})][8] 기댓값 연산자 Expectation Operator [math(E[X])]는 선형사상이라 이런 식으로 계산을 할 수 있다.