확률변수
덤프버전 :
1. 개요[편집]
確率變數 / random variable, stochastic variable
확률적인 결과에 따라 결과값이 바뀌는 변수를 묘사하는 통계학 및 확률론의 개념. 일정한 확률을 갖고 일어나는 사건에 수치가 부여된 것으로 해석할 수 있으며, 공리적 확률론에서는 확률변수를 사건들의 집합인 확률공간 위에서 실수값을 갖는 함수로 정의한다.
일반적으로 대문자 [math(X,\,Y)] 등으로 나타내며, 확률변수가 특정한 값의 범위 내에 존재할 확률을 [math(P(X=a))], [math(P(a \le X \le b))], 더욱 일반적으로는 부분집합 ([math(S \subset \mathbb{R})])에 대해 [math(P(X \in S))] 등으로 쓸 수 있다. 둘 이상의 확률변수가 있다면 [math(P(X \le Y))] 같은 것도 가능.
확률과 통계에서 빠질 수 없는 주요 개념으로, 기초적인 통계학의 경우 실제 계산을 하는 것보다는 확률변수, 확률분포, 기댓값 등의 개념을 이해하는 것이 중요하다.
보통 확률변수 [math(X)]가 가질 수 있는 값의 범위가 이산적인지/연속적인지(셀 수 있는지/없는지)에 따라 이산확률변수(離散確率變數, discrete random variable)와 연속확률변수(連續確率變數, continuous random variable)로 나뉜다. 다만 모든 확률변수가 이 두 가지의 형태인 것은 아니다. 예를 들어 동전을 던져서 앞면이 나오면 0부터 1 사이의 아무 숫자를, 뒷면이 나오면 숫자 2를 불러주는 확률변수는 어느 둘에도 속하지 않는다.
다변수 확률 변수(multivariate random variable)는 변수가 여러 개의 성분을 가지는 확률변수로, 확률공간 위에서 [math(\mathbb{R})]이 아닌 [math(\mathbb{R}^n)]으로 가는 함수로 나타낼 수 있다. n변수 확률변수는 보통 확률변수의 n개의 순서쌍 [math({\bf X}=(X_1, X_2, \cdots, X_n))]으로 나타낼 수 있지만, 볼드체에서 느낄 수 있듯이 때로는 단일 개체로서 벡터처럼 묘사되어 선형대수학이나 기하학의 관점에서 생각되기도 한다.
2. 통계학에서의 확률 변수[편집]
자세한 내용은 통계적 방법/분포 문서를 참고하십시오.
2.1. 이산확률변수[편집]
이산확률변수(random variable of the discrete type, discrete random variable)는 확률 변수 X가 취할 수 있는 모든 값을 x1, x2, x3, ... 처럼 셀 수 있을 때 X를 이산확률변수라고 한다.
유한개의 값(Finite), 혹은 자연수의 부분집합과 일대일 대응이 가능한(Countable, 혹은 시간이 얼마나 걸리더라도 분명히 셀 수 있는) 값으로 구성되어 있는 확률변수이다. 예를 들어 2013년 11월 한 달 동안 나무위키를 방문한 사람이 n명이고, 이들이 한 달 안에 재방문할 확률이 p라고 했을 때, 2013년 11월에 나무위키를 방문한 사람 중 한 달 안에 재방문할 사람의 수는 이산확률변수이다. '사람의 수'는 0명, 1명, 2명 등과 같이 '셀 수 있다.' 다른 예로서 LOL 랭크 게임 승률이 52%인 사람이 랭크 게임을 다섯 판 했을 때 승리한 게임의 수, 자유투 성공률이 71%인 농구선수가 자유투를 세 번 던졌을 때 실패한 자유투의 수 등도 모두 이산확률변수이다. 랭크 게임 승률, 자유투 성공률을 모르더라도 위의 두 변수는 확률변수이다. 예를 들어 '원빈이 모르는 사람에게 세 번 고백해서 성공하는 횟수' 등과 같이 확률 p가 알려지지 않은 경우에도 위 '횟수'는 이산확률변수이다. 물론 가능한 갯수가 너무 많은 경우는 그냥 연속확률변수처럼 다루는 것이 편리한 수도 있다.
보통 이런 식으로 개수를 나타내는 확률변수가 많지만, 실수값을 지니더라도 가능한 값을 셀 수 있다면(설사 무한한 시간이 걸릴지라도 값 하나하나를 분명히 셀 수 있다면, 즉 Countable 하다면) 그것도 역시 이산확률변수라 한다. 광주리에서 토마토를 아무거나 하나 집었을 때 그 토마토의 무게같은 토마토의 성질도 무게(성질)의 측정의 정확도를 제한한다면(측정값의 유효숫자를 제한한다면) 이산확률변수다.(고려되는 토마토의 개수가 유한하기 때문이다.) 만약 측정의 정확도를 제한하지 않는다면 이산확률변수가 아니라 연속확률변수가 될 수가 있는 데 그 이유는 각 토마토가 가질 수 있는 무게 범위에 속하는 실수의 개수가 무한하기 때문이다.[1]
2.1.1. 확률질량함수[편집]
확률질량함수(probability mass function) 문서 참조.
2.2. 연속확률변수[편집]
연속확률변수(random variable of the continuous type, continuous random variable)는 적절한 구간 내의 모든 값을 취하는 확률 변수이다.
연속적인 범위의 값을 지니는 확률변수. 예를 들어, '핸드폰으로 나무위키를 보는 사람의 수'는 셀 수 있으므로 이산확률변수이나, '핸드폰으로 나무위키를 보는 사람이 일요일에 나무위키를 본 시간'은 셀 수 없으므로 연속확률변수이다. 1초, 2초와 같이 셀 수 있는 것처럼 보이기도 하나, 실제로는 딱 떨어지지 않는다. 5분이라고 했을 때 300.0000001초 인지 300.0000000001초인지 정확하게는 알 수 없기 때문이다.[2]
이산확률변수와 연속확률변수의 가장 큰 차이점은 확률을 P(X=x)로 표기할 수 있느냐 없느냐이다. 예를 들어 물컵에 물을 따랐을 때 99.999999999ml도 아니고 100.0000000001ml도 아니고 정확히 100ml를 따를 확률은 한없이 0에 가깝기 때문에, 분명 물컵에 물을 따라 정확히 100ml를 따르는 사건이 일어날 수 있는데도 그 확률이 별 의미가 없는 일이 벌어진다.
따라서 연속확률변수는 확률밀도함수 f(x)를 도입하며, f(x)를 a에서 b까지 적분함으로써 확률변수의 값이 a와 b 사이에 있을 확률을 구한다. 앞의 예시를 다시 사용한다면 물컵에 물을 따랐을 때 99.5ml~100.5ml 사이로 따를 확률을 구하는 식이다.
가장 유명하면서도 대표적인 연속 확률 변수의 확률 분포는 정규분포이다. 해당 문서 참고.
2.2.1. 확률 밀도 함수[편집]
확률 밀도 함수(probability density function) 문서 참조.
3. 확률론에서의 엄밀한 정의[편집]
공리적 확률론에서 확률 변수의 정확한 정의는 다음과 같다. 확률공간 [math((\Omega, \mathcal{F}, P))][3] 위의 확률 변수는 함수 [math(X : \Omega \rightarrow \mathbb{R})] 중 보렐 가측인(Borel measurable) 함수로 정의된다. 보렐 시그마 대수 [math(\mathcal{B}(\mathbb{R}))]는 [math(\mathbb{R})]의 열린 집합 및 닫힌 집합을 모두 포함하는[4] 최소의 시그마 대수로 정의되고, 보렐 가측은 이 보렐 가측 공간 [math((\mathbb{R}, \mathcal{B}(\mathbb{R})))]에 대해 가측인(measurable) 조건을 의미한다. 즉 보렐 가측일 필요충분조건은 임의의 열린 집합의 역상이 [math(\mathcal{F})]에 있는 것이고, 나아가서는 임의의 실수 [math(a)]에 대해 [math(X^{-1}([-\infty,a]) \in \mathcal{F})]가 성립하는지만 확인해도 된다. 이 관점에서 통상적인 확률의 표기 [math(P(X \in S))]는 [math(S)]의 역상 [math(X^{-1}(S))]의 확률, 즉
물론 측도론이고 뭐고 다 몰라도 상관없다면, '함수 [math(X : \Omega \rightarrow \mathbb{R})] 중 확률 [math(P(a \le X \le b))]을 항상 정할 수 있는 것' 정도로만 생각해도 무방하다. 따지고 보면 상단의 정의란 것도 결국에는 이 상식적인 조건을 측도론의 언어로 옮긴 것으로 볼 수 있다.
이 정의에서 이산확률변수와 연속확률변수는 오로지 누적 분포 함수 [math(F_X(a) = P(X \le a))]의 개형으로만 구분할 수 있는데, 누적분포함수가 계단함수의 합으로 나타나면 이산확률변수로, 미분가능한 함수로 나타나면 연속확률변수로 생각할 수 있다. 0에서 1 사이의 값을 갖는 단조증가함수가 이것만 있는 건 아니므로, 실제 확률변수의 공간은 이산도 연속도 아닌 확률변수로 가득 차 있다. 이는 통계학과는 다르게 이산/연속확률변수의 구분이 비교적 본질적이지 않은 이유로, 나중 가서 스틸체스 적분까지 익히면 누적분포함수 하나로 질량함수나 분포함수가 하는 역할을 모두 수행할 수 있기 때문에 실제 계산에서도 둘을 구분하지 않는 경우가 많다. 물론 그렇다고 이산/연속의 구분이 아예 의미가 없는 건 아닌 게, 실수 위에서의 모든 확률측도는 이산적인 부분과 연속적인 부분으로 나눌 수 있다는 것을 르베그 분해(Lebesgue decomposition)와 라돈-니코딤 정리(Radon-Nikodym theorem) 등을 이용해 증명할 수 있기도 하다. 이산도 연속도 아닌 확률 변수를 혼합 확률 변수(mixed random variable)라 부를 수 있는 것이 이 때문.
복소수 값을 갖는 복소 확률변수나 다변수 확률변수의 경우에도 위의 정의에서 확률변수의 치역만 단순히 [math(\mathbb{C})]나 [math(\mathbb{R}^n)]으로 바꾸어 주고, 보렐 가측 조건을 똑같이 적용하면 된다.
3.1. 확률 변수의 성질[편집]
- 연산
- 기댓값
- 확률 변수의 독립
3.2. 확률 변수의 수렴[편집]
영어 위키피디아에 엄밀한 정의가 나와 있지만 여기선 왜 확률 변수의 수렴 종류가 여러개인지, 그리고 이 수렴들의 정의가 무슨 의미를 가지고 있는지 그 직관(intuition)을 설명할 것이다.[5]
우리가 고등학교 시간에 배웠던 수열의 극한(limit)처럼 확률 변수도 (만약 수렴한다면) 그 극한을 정의할 수 있다. 한번 가장 쉬운 예를 들어 보자.
하지만 우리가 사용하는 수열 [math(a_n = 1 + \frac 1n X_n)]은 그냥 숫자가 아니라 확률변수라서 위 정의를 그대로 사용할 수 없다. 왜냐하면 [math(\left|a_{n}-a\right|<\varepsilon)] 요게 확률적으로 맞을 수도 있고 틀릴수도 있기 때문이다. 따라서 이 녀석을 확실하게 맞는 조건으로 고쳐 수렴을 정의해야하는데 이것이 바로 확률 변수의 수렴이다.임의의 양수 [math(\varepsilon)]에 대하여, "[math(n\geq N)] 이면 항상 [math(\left|a_{n}-a\right|<\varepsilon)]"이 성립하게 되는 자연수 [math(N)] 이 존재한다.
조건 [math(\left|a_{n}-a\right|<\varepsilon)]을 확실하게 맞는 것으로 바꾸는 방식에 따라 수렴 타입이 나뉘는데, 크게 보면 다음 4가지 종류가 있다.[7]
3.2.1. 확률 수렴 (convergence in probability)[편집]
위 예에서 느낌상 수열 [math(a_n)]이 극한 [math(a)]에 가까워 진다면 그 차이가 작을 확률이 굉장히 높을 것이다. 즉,
이 말이다. 이를 수학적으로 엄밀하게 쓴 것이 바로 가장 많이 쓰이는 확률 수렴(convergence in probability)이 된다.확률 [math(\mathbb{P} \left\{ \left|a_{n}-a\right|<\varepsilon \right\})]은 1로 간다.
이를 간단하게[math(\displaystyle \lim_{n \to \infty} \mathbb{P} \left\{ \left|a_{n}-a\right|<\varepsilon \right\} = 1)]
라고 표현한다. 이 확률 수렴은 통계에서 가장 자주 쓰이는 수렴 타입이다.[math(\displaystyle a_n \xrightarrow{\mathbb{P}} a)][8]
하지만 이 수렴의 경우 현실적인 문제가 발생할 수도 있는데 예를 들어 [math(a_n=a)]일 확률이 [math(1-1/n)]이고 [math(a_n=a+n)]일 확률이 [math(1/n)]이라고 해보자.
a + n &\text{with probability }\frac{1}{n}.
3.2.2. 거의 확실한 수렴 (almost sure convergence)[편집]
확률 수렴 외에도 굉장히 헷갈리는 또다른 수렴 타입이 존재한다. 바로 거의 확실한 수렴(almost sure convergence)으로, 확률 수렴과 현실적으론 미미하지만(subtle) 수학적으론 중요한 차이가 있다.
확률 수렴을 정의한 느낌과 달리 어떤 (확률론을 엄밀하게 잘 아는) 사람은 다음과 같이 생각할 수도 있을 것이다.
"확률 변수는 어떤 사건 [math(\omega)]가 주어지면 그냥 숫자잖아? 그럼 [math(\left|a_{n}(\omega)-a(\omega)\right|<\varepsilon)] 체크하는데 문제 없고 [math(a_n(\omega) \rightarrow a(\omega))]도 그냥 기존 정의대로 쓰면 되잖아?"
요 생각을 바탕으로 수렴을 정의하면 "거의 확실한 수렴"이다. [9] 이를 말로 풀어 쓰면
이와 같다. 여기서 "거의 모든"은 측도론에서 almost everywhere개념으로 확률론에서는 "100% 확률로(거의 확실하게, 즉, almost sure)"라는 뜻으로 바꿀 수 있는데[10] , 이를 토대로 거의 확실한 수렴을 엄밀하게 정의하면 다음과 같다.거의 모든(almost) 사건 [math(\omega)]에 대해 [math(a_n(\omega) \rightarrow a(\omega))]이다.
이를 간단하게확률 [math(\mathbb{P} \left\{\omega: a_n(\omega) \rightarrow a(\omega)\right\})]은 1이다.
라고 표현한다. 중요한 점은 거의 확실한 수렴이면 확률 수렴이라는 것이다.[math(\displaystyle a_n \xrightarrow{\mathrm{a.s.}} a)]
확률 수렴과 거의 확실한 수렴 차이
위 확률 수렴에서 제시한 예는 경우에 따라 거의 확실한 수렴일수도, 아닐수도 있다.
거의 확실한 수렴이려면 거의 대부분의 사건 [math(\omega)]에 대해
물론 어떤 한 사건 [math(\omega)]에 대해 위 특성을 가지면 확률 수렴하지 않는데 [math(a_n)]이 독립이거나 독립이 아니더라도 적절한 수학적 트릭을 쓴다면[11] 튀는 애의 확률을 0으로 만들어 확률 수렴하지만 거의 확실한 수렴이 아닌 예를 만들 수 있다.
3.2.3. 평균 수렴 (convergence in mean)[편집]
조건 [math(\left|a_{n}-a\right|<\varepsilon)]에 평균을 씌워 문제를 해결할 수도 있다. 이를 평균 수렴 (convergence in mean)이라고 하는데 위 조건에서 문제가 되는 부분 [math(\left|a_{n}-a\right|)]에 평균을 씌우면 그냥 숫자가 된다는 것을 이용하면 다음과 같이 정의할 수 있다.
이를 간단하게평균 [math(\mathbb{E} \left[ \left|a_{n}-a\right| \right])]은 0으로 간다.
라고 표현한다.[math(\displaystyle a_n \xrightarrow{L^1} a)]
사실 단순 평균만 취해도 되지만 제곱, 세제곱, [math(r)]제곱에 대해 평균을 취해도 되는데 이를 [math(L^r)]-노름 수렴이라고 한다. 이를 표현하면
혹은평균 [math(\mathbb{E} \left[ \left|a_{n}-a\right|^r \right])]은 0으로 간다.
과 같다. 평균 수렴은 확률 수렴보다 훨씬 강하지만 거의 확실한 수렴보다 꼭 강한 것은 아니다.[math(\displaystyle a_n \xrightarrow{L^r} a)]
3.2.4. 분포 수렴(convergence in distribution) / 약한 수렴(weak convergence)[편집]
확률 분포만 체크하여 다음과 같이 확률 변수의 수렴을 정의할 수도 있다.
이를 분포 수렴(convergence in distribution or convergence in law)라고 하는데 이는 수학적으론 다음과 같이 엄밀히 쓸 수 있다.[math(a_n)]의 확률 분포는 [math(a)]의 확률 분포로 간다.
이를 간단하게확률 변수 [math(a_n)]와 [math(a)]의 누적 확률 분포를 각각 [math(F_n, F)]라고 한다면 모든 [math(x)]에 대해 [math(\displaystyle F_n(x) \rightarrow F(x))]이다.
라고 표현한다. 이 분포 수렴은 확률 분포 모양만 똑같으면 되기 때문에 확률 수렴이나 거의 확실한 수렴, 평균 수렴보다 훨씬 조건이 약하다.[math(\displaystyle a_n \xrightarrow{\mathrm{d}} a)] 혹은 [math(\displaystyle a_n \xrightarrow{\mathcal{L}} a)]
3.2.5. 관련 성질[편집]
여러 확률변수의 수렴 사이에는 다음의 관계가 성립한다.
- [math(X_n\xrightarrow{\rm a.s.}X)]이면 [math(X_n\xrightarrow{\rm p}X)]
- [math(X_n\xrightarrow{L^p}X)]이면 [math(X_n\xrightarrow{\rm p}X)]
- [math(X_n\xrightarrow{\rm p}X)]이면 [math(X_n\xrightarrow{\rm d}X)]
따라서 다음 역시 성립한다.
- [math(X_n\xrightarrow{\rm a.s.}X)]이면 [math(X_n\xrightarrow{\rm d}X)]
- [math(X_n\xrightarrow{L^p}X)]이면 [math(X_n\xrightarrow{\rm d}X)]
단, 역은 일반적으로 성립하지 않는다. 그러나 다음과 같이 특수한 경우에는 역이 성립한다.
- [math(X_n\xrightarrow{\rm d}c)]이면 [math(X_n\xrightarrow{\rm p}c)]
[math(c)]는 상수이다. 일반적으로 분포수렴은 확률수렴을 내포하지 못하지만, 수렴값이 상수라는 조건이 붙으면 분포수렴과 확률수렴은 서로 필요충분조건 관계가 된다는 것이다.
다음은 [math(L^p)] 수렴에 대한 성질이다.
- [math(X_n\xrightarrow{L^p}X)]이면 [math(r\leq p)]에 대하여 [math(\displaystyle\lim_{n\to\infty}{\rm E}[X_n^r]\rightarrow{\rm E}[X^r])]
균등연속함수(uniformly continuous function) [math(g:\,\mathbb{R}\rightarrow\mathbb{R})]에 대하여 다음이 성립한다. 이를 연속 사상 정리(連續 寫像 定理, continuous mapping theorem)라고 한다.
- [math(X_n\xrightarrow{\rm a.s.}X)]이면 [math(g(X_n)\xrightarrow{\rm a.s}g(X))]
- [math(X_n\xrightarrow{\rm p}X)]이면 [math(g(X_n)\xrightarrow{\rm p}g(X))]
- [math(X_n\xrightarrow{\rm d}X)]이면 [math(g(X_n)\xrightarrow{\rm d}g(X))]
상수 [math(c)]에 대하여 [math(X_n\xrightarrow{\rm p}c)]이고 [math(Y_n\xrightarrow{\rm d}Y)]이면 다음이 성립한다. 이를 슬루츠키 정리(Slutsky theorem)라고 한다.
- [math(X_n+Y_n\xrightarrow{\rm d}c+Y)]
- [math(X_nY_n\xrightarrow{\rm d}cY)]
- [math(\dfrac{Y_n}{X_n}\xrightarrow{\rm d}\dfrac{Y}c)](단, [math(c\neq 0)])
- [math(X_n-Y_n\xrightarrow{\rm p}0)]이고 [math(X_n\xrightarrow{\rm d}X)]이면 [math(Y_n\xrightarrow{\rm d}X)]이다.
3.2.6. 용도[편집]
그렇다면 왜 확률 변수의 수렴까지 우리가 이렇게 힘들게 고려해야하는가? 가장 중요한 이유는 응용할 수 있는 곳이 많고 이 4가지 타입 수렴에 따라 수렴 성질이 크게 달라지기 때문이다. 많이 사용되는 곳은 다음과 같다.
- 통계에서 새로운 통계 방법론을 만들 때 반드시 필요하다. 통계 변수는 특성상 확률 변수일 수 밖에 없고 데이터 샘플이 많아지게 되면 많아지게 될 수록 이 통계방법론이 제대로 working하는지 체크하려면 그 극한을 살펴보아야 한다.
- 물리에서, 특히 통계역학이나 양자역학에서 분자나 원자의 개수가 많아질 수록 이 시스템이 어떠한 거시적 특성을 가지는지 알아야 할 때 확률 변수의 극한이 필요하다. 왜냐하면 분자나 원자는 양자역학적인 그 고유의 특성상 확률적인 특성을 가질 수 밖에 없고 아보가드로 수에 준하는 엄청난 개수의 원자의 집합은 사실상 이러한 확률 변수의 극한으로 볼 수 있기 때문이다.
- 컴퓨터공학에서 알고리즘의 성능을 논할 때 인풋 데이터의 크기가 커짐에 따라 알고리즘이 돌아가는 데 걸리는 시간 (시간 복잡도)이 얼마나 걸리는지 반드시 알아야 한다. 이 때 알고리즘이 결정적(deterministic) 알고리즘이 아니라 확률적(stochastic or probabilistic)인 알고리즘이라면 알고리즘이 돌아가는데 걸리는 시간은 확률 변수일 수 밖에 없고, 이 알고리즘의 효율성, 즉 시간 복잡도 or 공간 복잡도는 곧 확률 변수의 극한이 된다 (물론 엄밀히 말하면 "수렴"이 아니라 "발산"이겠지만).
- 사회과학에서 계량경제학 방법론을 많이 사용하는데 이는 곧 통계 방법론이므로 위와 같은 이유로 확률 변수의 극한은 계량경제학 방법론이 제대로 작동하는지 이론적으로 확인하기 위해 반드시 필요하다.
- 금융공학에서 많이 사용되는 확률 과정과 이토 적분은 사실상 확률 변수의 극한을 통해 정의된다. 그 유명한 블랙 숄즈 역시 이 확률 과정과 이토 적분을 응용하여 특정 수익 구조(payoff structure)를 갖는 상품의 적절한 가격이 얼마여야 시장에 무차익거래(arbitrage opportunity)가 가능하지 않은지 방정식으로 표현한 것이다. 이 방정식의 해가 깔끔하게 열 방정식의 해 형태로 나오는 것은 이 확률 과정이 markovian property를 따르기 때문.