[include(틀:통계학)] [include(틀:해석학·미적분학)] [목차] == 개요 == {{{+1 [[確]][[率]][[變]][[數]] / random variable, stochastic variable}}} 확률적인 결과에 따라 결과값이 바뀌는 [[변수]]를 묘사하는 [[통계학]] 및 [[확률론]]의 개념. 일정한 확률을 갖고 일어나는 [[사건]]에 수치가 부여된 것으로 해석할 수 있으며, 공리적 확률론에서는 확률변수를 사건들의 집합인 확률공간 위에서 실수값을 갖는 [[함수]]로 정의한다. 일반적으로 대문자 [math(X,\,Y)] 등으로 나타내며, 확률변수가 특정한 값의 범위 내에 존재할 확률을 [math(P(X=a))], [math(P(a \le X \le b))], 더욱 일반적으로는 부분집합 ([math(S \subset \mathbb{R})])에 대해 [math(P(X \in S))] 등으로 쓸 수 있다. 둘 이상의 확률변수가 있다면 [math(P(X \le Y))] 같은 것도 가능. 확률과 통계에서 빠질 수 없는 주요 개념으로, 기초적인 통계학의 경우 실제 계산을 하는 것보다는 확률변수, 확률분포, 기댓값 등의 개념을 이해하는 것이 중요하다. 보통 확률변수 [math(X)]가 가질 수 있는 값의 범위가 이산적인지/연속적인지(셀 수 있는지/없는지)에 따라 이산확률변수(離散確率變數, discrete random variable)와 연속확률변수(連續確率變數, continuous random variable)로 나뉜다. 다만 모든 확률변수가 이 두 가지의 형태인 것은 아니다. 예를 들어 동전을 던져서 앞면이 나오면 0부터 1 사이의 아무 숫자를, 뒷면이 나오면 숫자 2를 불러주는 확률변수는 어느 둘에도 속하지 않는다. '''다변수 확률 변수'''(multivariate random variable)는 변수가 여러 개의 성분을 가지는 확률변수로, 확률공간 위에서 [math(\mathbb{R})]이 아닌 [math(\mathbb{R}^n)]으로 가는 함수로 나타낼 수 있다. n변수 확률변수는 보통 확률변수의 n개의 순서쌍 [math({\bf X}=(X_1, X_2, \cdots, X_n))]으로 나타낼 수 있지만, 볼드체에서 느낄 수 있듯이 때로는 단일 개체로서 [[벡터]]처럼 묘사되어 [[선형대수학]]이나 [[기하학]]의 관점에서 생각되기도 한다. == 통계학에서의 확률 변수 == [include(틀:상세 내용, 문서명=통계적 방법/분포)] === 이산확률변수 === [[이산확률변수]](random variable of the discrete type, discrete random variable)는 확률 변수 X가 취할 수 있는 모든 값을 x1, x2, x3, ... 처럼 셀 수 있을 때 X를 이산확률변수라고 한다. 유한개의 값(Finite), 혹은 자연수의 부분집합과 일대일 대응이 가능한(Countable, 혹은 시간이 얼마나 걸리더라도 분명히 셀 수 있는) 값으로 구성되어 있는 확률변수이다. 예를 들어 2013년 11월 한 달 동안 나무위키를 방문한 사람이 n명이고, 이들이 한 달 안에 재방문할 확률이 p라고 했을 때, 2013년 11월에 나무위키를 방문한 사람 중 한 달 안에 재방문할 사람의 수는 이산확률변수이다. '사람의 수'는 0명, 1명, 2명 등과 같이 '셀 수 있다.' 다른 예로서 LOL 랭크 게임 승률이 52%인 사람이 랭크 게임을 다섯 판 했을 때 승리한 게임의 수, 자유투 성공률이 71%인 농구선수가 자유투를 세 번 던졌을 때 실패한 자유투의 수 등도 모두 이산확률변수이다. 랭크 게임 승률, 자유투 성공률을 모르더라도 위의 두 변수는 확률변수이다. 예를 들어 '원빈이 모르는 사람에게 세 번 고백해서 성공하는 횟수' 등과 같이 확률 p가 알려지지 않은 경우에도 위 '횟수'는 이산확률변수이다. 물론 가능한 갯수가 너무 많은 경우는 그냥 연속확률변수처럼 다루는 것이 편리한 수도 있다. 보통 이런 식으로 개수를 나타내는 확률변수가 많지만, 실수값을 지니더라도 가능한 값을 셀 수 있다면(설사 무한한 시간이 걸릴지라도 값 하나하나를 분명히 셀 수 있다면, 즉 Countable 하다면) 그것도 역시 이산확률변수라 한다. 광주리에서 토마토를 아무거나 하나 집었을 때 그 토마토의 무게같은 토마토의 성질도 무게(성질)의 측정의 정확도를 제한한다면(측정값의 유효숫자를 제한한다면) 이산확률변수다.(고려되는 토마토의 개수가 유한하기 때문이다.) 만약 측정의 정확도를 제한하지 않는다면 이산확률변수가 아니라 연속확률변수가 될 수가 있는 데 그 이유는 각 토마토가 가질 수 있는 무게 범위에 속하는 실수의 개수가 무한하기 때문이다.[* 예를 들면, 집은 토마토의 무게는 175.15 g부터 175.2 g까지의 실수 범위에 속하는 걸로 추측되는 데 그 범위에 속하는 실수의 개수는 무한하기 때문이 이 토마토의 무게는 무한개의 값을 가질 수 있고 각 값을 정확하게 나타낼 수도 없기 때문에 하나하나 가능한 무게값을 세는 것을 시작할 수도 없다. 정리하면, 이 실수범위를 원소로 가지는 집합은 Countable 이 아니기에 (셀 수 없기에) 이 실수범위를 값으로 가지는 토마토의 무게는 이산확률변수가 아니다.] ==== 확률질량함수 ==== [[확률질량함수]](probability mass function) 문서 참조. === 연속확률변수 === [[연속확률변수]](random variable of the continuous type, continuous random variable)는 적절한 구간 내의 모든 값을 취하는 확률 변수이다. 연속적인 범위의 값을 지니는 확률변수. 예를 들어, '핸드폰으로 나무위키를 보는 사람의 수'는 셀 수 있으므로 이산확률변수이나, '핸드폰으로 나무위키를 보는 사람이 일요일에 나무위키를 본 시간'은 셀 수 없으므로 연속확률변수이다. 1초, 2초와 같이 셀 수 있는 것처럼 보이기도 하나, 실제로는 딱 떨어지지 않는다. 5분이라고 했을 때 300.0000001초 인지 300.0000000001초인지 정확하게는 알 수 없기 때문이다.[* 물론 위에서 언급한 이산확률변수에서의 토마토 무게 예와 같이, 시간의 정확도를 제한한다면 (측정의 유효숫자를 제한한다면) 이산확률변수가 된다.] 이산확률변수와 연속확률변수의 가장 큰 차이점은 확률을 P(X=x)로 표기할 수 있느냐 없느냐이다. 예를 들어 물컵에 물을 따랐을 때 99.999999999ml도 아니고 100.0000000001ml도 아니고 정확히 100ml를 따를 확률은 한없이 0에 가깝기 때문에, 분명 물컵에 물을 따라 정확히 100ml를 따르는 사건이 일어날 수 있는데도 그 확률이 별 의미가 없는 일이 벌어진다. 따라서 연속확률변수는 확률밀도함수 f(x)를 도입하며, f(x)를 a에서 b까지 적분함으로써 확률변수의 값이 a와 b 사이에 있을 확률을 구한다. 앞의 예시를 다시 사용한다면 물컵에 물을 따랐을 때 99.5ml~100.5ml 사이로 따를 확률을 구하는 식이다. 가장 유명하면서도 대표적인 [[연속 확률 변수]]의 [[확률 분포]]는 [[정규분포]]이다. 해당 문서 참고. ==== 확률 밀도 함수 ==== [[확률 밀도 함수]](probability density function) 문서 참조. == [[확률론]]에서의 엄밀한 정의 == 공리적 확률론에서 확률 변수의 정확한 정의는 다음과 같다. 확률공간 [math((\Omega, \mathcal{F}, P))][* 확률론에서 확률공간을 나타낼 때 쓰는 표준적인 표기로, (표본공간, 사건공간, 확률[[측도]])의 세 쌍이다.] 위의 확률 변수는 함수 [math(X : \Omega \rightarrow \mathbb{R})] 중 보렐 가측인(Borel measurable) 함수로 정의된다. 보렐 시그마 대수 [math(\mathcal{B}(\mathbb{R}))]는 [math(\mathbb{R})]의 열린 집합 및 닫힌 집합을 모두 포함하는[* 실수집합의 경우에는 이 조건을 '개구간을 모두 포함하는' 혹은 '반직선 구간 [math([-\infty, a])]을 모두 포함하는' 등의 다양한 형태의 약한 조건으로 바꾸어 쓸 수 있다. 시그마 대수가 반직선 구간들만 포함해도 모든 열린 집합과 닫힌 집합을 포함해야 하기 때문.] 최소의 시그마 대수로 정의되고, 보렐 가측은 이 보렐 가측 공간 [math((\mathbb{R}, \mathcal{B}(\mathbb{R})))]에 대해 가측인(measurable) 조건을 의미한다. 즉 보렐 가측일 필요충분조건은 임의의 열린 집합의 역상이 [math(\mathcal{F})]에 있는 것이고, 나아가서는 임의의 실수 [math(a)]에 대해 [math(X^{-1}([-\infty,a]) \in \mathcal{F})]가 성립하는지만 확인해도 된다. 이 관점에서 통상적인 확률의 표기 [math(P(X \in S))]는 [math(S)]의 역상 [math(X^{-1}(S))]의 확률, 즉 [math( \displaystyle P(X \in S) = P( \{ \omega : X(\omega) \in S \} )] 로 해석되고, 확률변수 [math(X)]에 대한 [[확률 분포]](probability distribution)는 확률측도 [math(P)]의 pushforward measure로, 즉 [math( \displaystyle \mu_X(S) = P(X \in S))] 로 정의되는 [math((\mathbb{R}, \mathcal{B}(\mathbb{R})))] 위의 확률[[측도]] [\math(\mu_X)]로 정의된다. 물론 [[측도론]]이고 뭐고 다 몰라도 상관없다면, '함수 [math(X : \Omega \rightarrow \mathbb{R})] 중 확률 [math(P(a \le X \le b))]을 항상 정할 수 있는 것' 정도로만 생각해도 무방하다. 따지고 보면 상단의 정의란 것도 결국에는 이 상식적인 조건을 측도론의 언어로 옮긴 것으로 볼 수 있다. 이 정의에서 이산확률변수와 연속확률변수는 오로지 [[누적 분포 함수]] [math(F_X(a) = P(X \le a))]의 개형으로만 구분할 수 있는데, 누적분포함수가 계단함수의 합으로 나타나면 이산확률변수로, 미분가능한 함수로 나타나면 연속확률변수로 생각할 수 있다. 0에서 1 사이의 값을 갖는 단조증가함수가 이것만 있는 건 아니므로, 실제 확률변수의 공간은 이산도 연속도 아닌 확률변수로 가득 차 있다. 이는 통계학과는 다르게 이산/연속확률변수의 구분이 비교적 본질적이지 않은 이유로, 나중 가서 [[스틸체스 적분]]까지 익히면 누적분포함수 하나로 질량함수나 분포함수가 하는 역할을 모두 수행할 수 있기 때문에 실제 계산에서도 둘을 구분하지 않는 경우가 많다. 물론 그렇다고 이산/연속의 구분이 아예 의미가 없는 건 아닌 게, 실수 위에서의 모든 확률측도는 이산적인 부분과 연속적인 부분으로 나눌 수 있다는 것을 르베그 분해(Lebesgue decomposition)와 라돈-니코딤 정리(Radon-Nikodym theorem) 등을 이용해 증명할 수 있기도 하다. 이산도 연속도 아닌 확률 변수를 '''혼합 확률 변수'''(mixed random variable)라 부를 수 있는 것이 이 때문. 복소수 값을 갖는 복소 확률변수나 다변수 확률변수의 경우에도 위의 정의에서 확률변수의 치역만 단순히 [math(\mathbb{C})]나 [math(\mathbb{R}^n)]으로 바꾸어 주고, 보렐 가측 조건을 똑같이 적용하면 된다. === 확률 변수의 성질 === * 연산 확률변수의 사칙연산 및 상수배는 실함수로서의 점별연산으로, 즉 [math( (X+Y)(\omega) = X(\omega)+Y(\omega))] 처럼 정의한다. 가측함수는 사칙연산에 의해 닫혀 있기 때문에 가능. 비슷하게 보렐 가측 함수 [math(f)]에 대해서 합성함수 [math(f(X) = f \circ X)]도 확률변수가 된다. 측도론을 모른다면 조각적 연속함수까지만 생각해도 된다. * 기댓값 확률변수의 [[기댓값]]은 실수 위의 르베그 측도에 대해 함수 [math(X)]가 적분가능(integrable)할 때, [math(X)]의 적분으로 정의한다. * 확률 변수의 독립 임의의 보렐 가측 집합 [math(U,V)]에 대해, 사건 [math(\{\omega : X(\omega) \in U\})]와 [math(\{\omega : Y(\omega) \in V\})]가 독립사건일 때 확률변수 [math(X,Y)]가 독립이라고 한다. 이는 임의의 실수 [math(a,b)]에 대해 다음을 만족하면 충분하다. [math(\displaystyle P(X \le a, Y \le b) = P(X \le a) P (Y \le b) )] 일반적인 n개의 확률변수 [math(X_1, \ldots, X_n)]의 독립은 다음 조건으로 정의할 수 있다. [math(\displaystyle P(X_1 \le a_1, X_2 \le a_2, \ldots, X_n \le a_n) = \prod_{i=1}^{n} P(X_i \le a_i) )] === 확률 변수의 수렴 === [[https://en.wikipedia.org/wiki/Convergence_of_random_variables|영어 위키피디아]]에 엄밀한 정의가 나와 있지만 여기선 왜 확률 변수의 수렴 종류가 여러개인지, 그리고 이 수렴들의 정의가 무슨 의미를 가지고 있는지 그 직관(intuition)을 설명할 것이다.[* 어차피 나무위키에 왔다는 거 자체가 직관을 이해하기 위해서 온거일테니, 수학적으로 엄밀한 정의나 특성을 알길 원한다면 해당 영어 위키피디아 참고.] 우리가 고등학교 시간에 배웠던 [[수열의 극한]](limit)처럼 확률 변수도 (만약 수렴한다면) 그 극한을 정의할 수 있다. 한번 가장 쉬운 예를 들어 보자. [math(\displaystyle \lim_{n \to \infty} \left( 1+ \frac 1n \right) = 1)] 인 것은 고등학교를 나왔다면 누구나 쉽게 알 수 있다. 그럼 예를 들어, 어떤 [[독립항등분포]] i.i.d.인 확률 변수 [math(X_n)] [* 표준정규분포를 따를수도 있고 균등분포를 따를 수도 있지만 일단 그건 나중에 생각하자.]이 있다면 [math(\displaystyle \lim_{n \to \infty} \left( 1+ \frac 1n X_n \right) = ?)] 는 어디로 가겠는가? 직관적으로 생각해보면 [math(\frac 1n X_n)]이 점점 0에 가까워지므로 위 극한은 1로 간다는 것을 알 수 있다. 하지만 이를 엄밀하게 정의하려면 어떻게 해야하는가? 우리가 아는 [[수열의 극한]] 정의를 다시 되짚어보면 어떤 수열 [math(a_n)]이 [math(a)]로 수렴한다는 것의 정의는 다음과 같다. > 임의의 양수 [math(\varepsilon)]에 대하여, "[math(n\geq N)] 이면 항상 [math(\left|a_{n}-a\right|<\varepsilon)]"이 성립하게 되는 자연수 [math(N)] 이 존재한다. 하지만 우리가 사용하는 수열 [math(a_n = 1 + \frac 1n X_n)]은 그냥 숫자가 아니라 확률변수라서 위 정의를 그대로 사용할 수 없다. 왜냐하면 [math(\left|a_{n}-a\right|<\varepsilon)] 요게 확률적으로 맞을 수도 있고 틀릴수도 있기 때문이다. 따라서 이 녀석을 확실하게 맞는 조건으로 고쳐 수렴을 정의해야하는데 이것이 바로 확률 변수의 수렴이다. 조건 [math(\left|a_{n}-a\right|<\varepsilon)]을 확실하게 맞는 것으로 바꾸는 방식에 따라 수렴 타입이 나뉘는데, 크게 보면 다음 4가지 종류가 있다.[* 물론 stable cconvergence, functional convergence (convergence in measure), sure convergence 등 다른 종류도 많지만 많이 쓰이는 건 이 4가지이다.] ==== 확률 수렴 (convergence in probability) ==== 위 예에서 느낌상 수열 [math(a_n)]이 극한 [math(a)]에 가까워 진다면 그 차이가 작을 확률이 굉장히 높을 것이다. 즉, > 확률 [math(\mathbb{P} \left\{ \left|a_{n}-a\right|<\varepsilon \right\})]은 1로 간다. 이 말이다. 이를 수학적으로 엄밀하게 쓴 것이 바로 가장 많이 쓰이는 확률 수렴(convergence in probability)이 된다. > [math(\displaystyle \lim_{n \to \infty} \mathbb{P} \left\{ \left|a_{n}-a\right|<\varepsilon \right\} = 1)] 이를 간단하게 > [math(\displaystyle a_n \xrightarrow{\mathbb{P}} a)][* [math(\xrightarrow{\mathbb{P}})]에서 [math(\mathbb{P})]는 [[확률]] [[측도]]의 표현으로 확률을 [math(P)]로 쓰고 싶다면 [math(\displaystyle a_n \xrightarrow{P} a)]라고 쓰면 된다. 이는 확률 수렴이 확률 측도에 따라 다르기 때문. 확률 변수임을 강조하고 싶다면 대문자로 [math(\displaystyle A_n \xrightarrow{P} A)]라고 쓰면 된다.] 라고 표현한다. 이 확률 수렴은 통계에서 가장 자주 쓰이는 수렴 타입이다. 하지만 이 수렴의 경우 현실적인 문제가 발생할 수도 있는데 예를 들어 [math(a_n=a)]일 확률이 [math(1-1/n)]이고 [math(a_n=a+n)]일 확률이 [math(1/n)]이라고 해보자. [math(\displaystyle a_n = \begin{cases} a &\text{with probability } 1 - \frac{1}{n} \\ a + n &\text{with probability }\frac{1}{n}. \end{cases})] 즉, [math(a_n)]은 대부분의 경우 [math(a)]와 같지만 작은 확률로 [math(a)]와 어마어마한 차이를 가질 수 있다. 이 경우 [math(a_n)]은 [math(a)]로 확률 수렴하지만 막상 에러 [math(a_n-a)]를 계산해 평균을 구해보면 [math(\displaystyle \mathbb{E}[a_n - a] = \frac{1}{n}n = 1)] 로 0으로 안가고 계속 1인 것을 알 수 있다. 이러면 통계 방법론을 개발할 때 가끔 문제가 될 수 있기 때문에 더 강한 수렴을 정의할 필요가 있다. 방법에 따라서 다음 두가지 수렴 (거의 확실한 수렴과 평균 수렴)을 정의할 수 있다. ==== 거의 확실한 수렴 (almost sure convergence) ==== 확률 수렴 외에도 굉장히 헷갈리는 또다른 수렴 타입이 존재한다. 바로 거의 확실한 수렴(almost sure convergence)으로, 확률 수렴과 현실적으론 미미하지만(subtle) 수학적으론 중요한 차이가 있다. 확률 수렴을 정의한 느낌과 달리 어떤 (확률론을 엄밀하게 잘 아는) 사람은 다음과 같이 생각할 수도 있을 것이다. "확률 변수는 어떤 사건 [math(\omega)]가 주어지면 그냥 숫자잖아? 그럼 [math(\left|a_{n}(\omega)-a(\omega)\right|<\varepsilon)] 체크하는데 문제 없고 [math(a_n(\omega) \rightarrow a(\omega))]도 그냥 기존 정의대로 쓰면 되잖아?" 요 생각을 바탕으로 수렴을 정의하면 "거의 확실한 수렴"이다. [* 물론 이것이 거의 확실한 수렴을 정의했던 사람의 의도인지는 알 수 없다. 참고로 확실한 수렴 (sure convergence)도 있지만 얘는 수학적으로도 크게 중요하진 않다.] 이를 말로 풀어 쓰면 > 거의 모든(almost) 사건 [math(\omega)]에 대해 [math(a_n(\omega) \rightarrow a(\omega))]이다. 이와 같다. 여기서 "거의 모든"은 [[측도]]론에서 almost everywhere개념으로 확률론에서는 "100% 확률로(거의 확실하게, 즉, almost sure)"라는 뜻으로 바꿀 수 있는데[* "모든"(sure)과 "거의 모든"(or 100% 확률)은 엄밀하게 따지면 다르긴 한데 사실 현실에선 큰 차이 없다.], 이를 토대로 거의 확실한 수렴을 엄밀하게 정의하면 다음과 같다. > 확률 [math(\mathbb{P} \left\{\omega: a_n(\omega) \rightarrow a(\omega)\right\})]은 1이다. 이를 간단하게 > [math(\displaystyle a_n \xrightarrow{\mathrm{a.s.}} a)] 라고 표현한다. 중요한 점은 거의 확실한 수렴이면 확률 수렴이라는 것이다. '''확률 수렴과 거의 확실한 수렴 차이''' 위 확률 수렴에서 제시한 예는 경우에 따라 거의 확실한 수렴일수도, 아닐수도 있다. 거의 확실한 수렴이려면 거의 대부분의 사건 [math(\omega)]에 대해 [math(\lim_{n\rightarrow \infty} a_n(\omega) = a(\omega))] 로 가야하는데 만약 [math(a_n - a)]가 다음과 같이 빈도는 점차 줄어들지만 계속해서 튀는게 존재하는 경우 얘는 수렴을 안하기 때문에 거의 확실한 수렴이 아니다. || [math(n)] || 1 || 2 || 3 || 4 || 5 || 6 || 7 || 8 || 9 || 10 || || [math(a_n - a)] || 1 || 0 || 3 || 0 || 0 || 6 || 0 || 0 || 0 || 10 || 물론 어떤 한 사건 [math(\omega)]에 대해 위 특성을 가지면 확률 수렴하지 않는데 [math(a_n)]이 [[https://math.stackexchange.com/a/149786/498394|독립]]이거나 독립이 아니더라도 적절한 수학적 트릭을 쓴다면[* 확률 공간 [math(\Omega)]를 [math([0,1])]로 잡고 매번 길이 [math(1/n)]가 되는 부분만 튀게 하는데 이걸 계속 최대한 다르게 교차시키면 된다. 자세한 것은 [[https://math.stackexchange.com/a/149777/498394|여기 참고]].] 튀는 애의 확률을 0으로 만들어 확률 수렴하지만 거의 확실한 수렴이 아닌 예를 만들 수 있다. ==== 평균 수렴 (convergence in mean) ==== 조건 [math(\left|a_{n}-a\right|<\varepsilon)]에 평균을 씌워 문제를 해결할 수도 있다. 이를 평균 수렴 (convergence in mean)이라고 하는데 위 조건에서 문제가 되는 부분 [math(\left|a_{n}-a\right|)]에 평균을 씌우면 그냥 숫자가 된다는 것을 이용하면 다음과 같이 정의할 수 있다. > 평균 [math(\mathbb{E} \left[ \left|a_{n}-a\right| \right])]은 0으로 간다. 이를 간단하게 > [math(\displaystyle a_n \xrightarrow{L^1} a)] 라고 표현한다. 사실 단순 평균만 취해도 되지만 제곱, 세제곱, [math(r)]제곱에 대해 평균을 취해도 되는데 이를 [math(L^r)]-노름 수렴이라고 한다. 이를 표현하면 > 평균 [math(\mathbb{E} \left[ \left|a_{n}-a\right|^r \right])]은 0으로 간다. 혹은 > [math(\displaystyle a_n \xrightarrow{L^r} a)] 과 같다. 평균 수렴은 확률 수렴보다 훨씬 강하지만 거의 확실한 수렴보다 꼭 강한 것은 아니다. ==== 분포 수렴(convergence in distribution) / 약한 수렴(weak convergence) ==== [[확률 분포]]만 체크하여 다음과 같이 확률 변수의 수렴을 정의할 수도 있다. > [math(a_n)]의 확률 분포는 [math(a)]의 확률 분포로 간다. 이를 분포 수렴(convergence in distribution or convergence in law)라고 하는데 이는 수학적으론 다음과 같이 엄밀히 쓸 수 있다. > 확률 변수 [math(a_n)]와 [math(a)]의 누적 확률 분포를 각각 [math(F_n, F)]라고 한다면 모든 [math(x)]에 대해 [math(\displaystyle F_n(x) \rightarrow F(x))]이다. 이를 간단하게 > [math(\displaystyle a_n \xrightarrow{\mathrm{d}} a)] 혹은 [math(\displaystyle a_n \xrightarrow{\mathcal{L}} a)] 라고 표현한다. 이 분포 수렴은 확률 분포 모양만 똑같으면 되기 때문에 확률 수렴이나 거의 확실한 수렴, 평균 수렴보다 훨씬 조건이 약하다. ==== 관련 성질 ==== 여러 확률변수의 수렴 사이에는 다음의 관계가 성립한다. * [math(X_n\xrightarrow{\rm a.s.}X)]이면 [math(X_n\xrightarrow{\rm p}X)] * [math(X_n\xrightarrow{L^p}X)]이면 [math(X_n\xrightarrow{\rm p}X)] * [math(X_n\xrightarrow{\rm p}X)]이면 [math(X_n\xrightarrow{\rm d}X)] 따라서 다음 역시 성립한다. * [math(X_n\xrightarrow{\rm a.s.}X)]이면 [math(X_n\xrightarrow{\rm d}X)] * [math(X_n\xrightarrow{L^p}X)]이면 [math(X_n\xrightarrow{\rm d}X)] 단, 역은 일반적으로 성립하지 않는다. 그러나 다음과 같이 특수한 경우에는 역이 성립한다. * [math(X_n\xrightarrow{\rm d}c)]이면 [math(X_n\xrightarrow{\rm p}c)] [math(c)]는 상수이다. 일반적으로 분포수렴은 확률수렴을 내포하지 못하지만, 수렴값이 상수라는 조건이 붙으면 분포수렴과 확률수렴은 서로 필요충분조건 관계가 된다는 것이다. ---- 다음은 [math(L^p)] 수렴에 대한 성질이다. * [math(X_n\xrightarrow{L^p}X)]이면 [math(r\leq p)]에 대하여 [math(\displaystyle\lim_{n\to\infty}{\rm E}[X_n^r]\rightarrow{\rm E}[X^r])] ---- 균등연속함수(uniformly continuous function) [math(g:\,\mathbb{R}\rightarrow\mathbb{R})]에 대하여 다음이 성립한다. 이를 '''연속 사상 정리'''([[連]][[續]] [[寫]][[像]] [[定]][[理]], continuous mapping theorem)라고 한다. * [math(X_n\xrightarrow{\rm a.s.}X)]이면 [math(g(X_n)\xrightarrow{\rm a.s}g(X))] * [math(X_n\xrightarrow{\rm p}X)]이면 [math(g(X_n)\xrightarrow{\rm p}g(X))] * [math(X_n\xrightarrow{\rm d}X)]이면 [math(g(X_n)\xrightarrow{\rm d}g(X))] ---- 상수 [math(c)]에 대하여 [math(X_n\xrightarrow{\rm p}c)]이고 [math(Y_n\xrightarrow{\rm d}Y)]이면 다음이 성립한다. 이를 '''슬루츠키 정리'''(Slutsky theorem)라고 한다. * [math(X_n+Y_n\xrightarrow{\rm d}c+Y)] * [math(X_nY_n\xrightarrow{\rm d}cY)] * [math(\dfrac{Y_n}{X_n}\xrightarrow{\rm d}\dfrac{Y}c)](단, [math(c\neq 0)]) ---- * [math(X_n-Y_n\xrightarrow{\rm p}0)]이고 [math(X_n\xrightarrow{\rm d}X)]이면 [math(Y_n\xrightarrow{\rm d}X)]이다. ==== 용도 ==== 그렇다면 왜 확률 변수의 수렴까지 우리가 이렇게 힘들게 고려해야하는가? 가장 중요한 이유는 응용할 수 있는 곳이 많고 이 4가지 타입 수렴에 따라 수렴 성질이 크게 달라지기 때문이다. 많이 사용되는 곳은 다음과 같다. * [[통계]]에서 새로운 통계 방법론을 만들 때 반드시 필요하다. 통계 변수는 특성상 확률 변수일 수 밖에 없고 데이터 샘플이 많아지게 되면 많아지게 될 수록 이 통계방법론이 제대로 working하는지 체크하려면 그 극한을 살펴보아야 한다. * [[물리]]에서, 특히 [[통계역학]]이나 [[양자역학]]에서 분자나 원자의 개수가 많아질 수록 이 시스템이 어떠한 거시적 특성을 가지는지 알아야 할 때 확률 변수의 극한이 필요하다. 왜냐하면 분자나 원자는 양자역학적인 그 고유의 특성상 확률적인 특성을 가질 수 밖에 없고 아보가드로 수에 준하는 엄청난 개수의 원자의 집합은 사실상 이러한 확률 변수의 극한으로 볼 수 있기 때문이다. * [[컴퓨터공학]]에서 알고리즘의 성능을 논할 때 인풋 데이터의 크기가 커짐에 따라 알고리즘이 돌아가는 데 걸리는 시간 (시간 복잡도)이 얼마나 걸리는지 반드시 알아야 한다. 이 때 알고리즘이 결정적(deterministic) 알고리즘이 아니라 확률적(stochastic or probabilistic)인 알고리즘이라면 알고리즘이 돌아가는데 걸리는 시간은 확률 변수일 수 밖에 없고, 이 알고리즘의 효율성, 즉 [[시간 복잡도]] or [[공간 복잡도]]는 곧 확률 변수의 극한이 된다 (물론 엄밀히 말하면 "수렴"이 아니라 "발산"이겠지만). * [[사회과학]]에서 계량경제학 방법론을 많이 사용하는데 이는 곧 통계 방법론이므로 위와 같은 이유로 확률 변수의 극한은 계량경제학 방법론이 제대로 작동하는지 이론적으로 확인하기 위해 반드시 필요하다. * [[금융공학]]에서 많이 사용되는 확률 과정과 이토 적분은 사실상 확률 변수의 극한을 통해 정의된다. 그 유명한 블랙 숄즈 역시 이 확률 과정과 이토 적분을 응용하여 특정 수익 구조(payoff structure)를 갖는 상품의 적절한 가격이 얼마여야 시장에 무차익거래(arbitrage opportunity)가 가능하지 않은지 방정식으로 표현한 것이다. 이 방정식의 해가 깔끔하게 열 방정식의 해 형태로 나오는 것은 이 확률 과정이 markovian property를 따르기 때문. == 관련 문서 == * [[통계학]] * [[확률 분포]] [include(틀:문서 가져옴, title=통계적 방법, version=158)] [[분류:통계학 용어]] [[분류:확률론]]