체비쇼프 부등식
덤프버전 :
1. 개요[편집]
Chebyshev inequality
러시아의 수학자 파프누티 체비쇼프(Pafnuty Chebyshev[1] )가 발견한 절대부등식으로, 그의 이름을 땄다. 확률 분포를 정확히 모를 때 해당 확률 분포의 평균과 표준편차의 값만으로 특정한 확률의 최솟값만큼은 알아낼 수 있는 부등식이다.
확률 분포의 평균을 [math(\mu)], 표준편차를 [math(\sigma)]라 하면 다음이 성립한다. 이를 체비쇼프 부등식이라고 한다. 단, [math(k)]는 양의 상수이다.
[math(\begin{aligned}P[|X-\mu|<k\sigma]&=P[\mu-k\sigma<X<\mu+k\sigma]\\&\geq1-\dfrac1{k^2}\end{aligned})]
[1] 영어권에서 표기법이 중구난방인 이름 중 하나로 꼽힌다. 과거 표기법 중에 Cheyshev, Tchebychef, Tschebyscheff 등등 다 있다. 한국어로 옮길 때 체비셰프, 체비쉐프 등으로 잘못 전사되는 일도 많은 편.
예를 들어 [math(k=2)]이면, 확률변수 [math(X)]가 [math(\mu\pm 2\sigma)] 내에 있을 확률은 확률 분포에 관계없이 [math(1-1/{2^2}=3/4)] 이상이다.
마르코프 부등식을 기본으로 한다고 할 수 있다.
2. 증명[편집]
집합 판별 함수의 활용으로 다음처럼 증명할 수 있다.
[math(\begin{aligned} P[|X-\mu|\ge k\sigma] &= \mathbb{E} [ 1_{|X-\mu|\ge k \sigma} ] \\&\le \mathbb{E} \left[ \mathbf{1}_{|X-\mu| \ge k \sigma} \cdot \frac{|X-\mu|^2}{k^2 \sigma^2} \right] \\ &\le \frac{1}{k^2 \sigma^2} \mathbb{E} [ |X-\mu|^2 ] \\&= \frac{1}{k^2} \end{aligned})]
연속확률변수에 대해서 비슷한 아이디어의 증명을 다음과 같이 풀어쓸 수 있다. 확률 분포의 평균을 [math(\mu)], 표준편차를 [math(\sigma)], 함수를 [math(f(x))]라 하면
한편 [math((x-\mu)^2\geq k^2\sigma^2\,(\leftrightarrow\,x\leq\mu-k\sigma\,\textsf{or}\,x\geq\mu+k\sigma))]일 때는 다음이 성립한다.
양 끝 식을 [math(k^2\sigma^2)]으로 나누면
[math(f(x))]는 확률 밀도 함수이기 때문에 [math(\int_{-\infty}^{\infty}f(x)\,{\rm d}x=1)]이므로
3. 기타[편집]
- 확률변수가 [math(1/(2k^2))]의 확률로 값 [math(\mu \pm k\sigma)]를 가지고, 나머지 확률로 값 [math(\mu)]를 가지면 등호가 성립한다.
- 체비쇼프 부등식은 다양한 확률부등식의 기초이긴 하지만 실전에선 최약체(...)로 평가받는데, 확률론을 조금만 배우면 Hoeffding's inequality, Chernoff bound 등 훨씬 강한 유계를 주는 확률부등식들을 배우기 때문이다. 물론 모든 확률분포에 대해 성립하는 범용적인 부등식이 강력한 유계를 줄 수 있을 리도 없고, 실전에선 주로 등장하는 모종의 확률변수에 한정적으로 적용되는 특별한 부등식을 개발해 쓰는 것이니 이는 당연하다. 오히려 이런 대부분의 확률부등식들을 증명하기 위해서 이 체비쇼프 부등식과 젠센 부등식이 기본으로 사용되고, 이 둘의 역할을 서로 다른 것으로 대체할 수 없다는 점 때문에[3] 중요성이 꽤나 큰 부등식이다.
- [math(L^p)]-공간 버전으로 다음과 같은 일반화를 생각할 수 있다. 이때 체비쇼프 부등식은 [math(p=2)], [math(z=k\sigma)]인 경우이다.
[math(\begin{aligned}P[|X-\mu| \ge z] \le \frac{\|X-\mu\|_p}{z^p} \end{aligned})]
[2] [math(\displaystyle\int_{\mu-k\sigma}^{\mu+k\sigma}f(x)\,{\rm d}x)]는 확률의 값이므로 0 이상이고 [math((x-\mu)^2\geq 0)]이므로 [math(\displaystyle\int_{\mu-k\sigma}^{\mu+k\sigma}(x-\mu)^2f(x)\,{\rm d}x\geq 0)]이다.[3] 확률변수 [math(X)]에 대한 정보로 [math(f(X))]에 대한 부등식을 이끌어낸다고 생각할 때, 체비쇼프 부등식은 [math(f(x) = \mathbf{1}_{|x-\mu|>k \sigma})]의 경우로 간주할 수 있지만, 저 계단 함수는 볼록이 아니다. 즉, 체비쇼프 부등식은 이런 유형의 문제에서 젠센 부등식과는 본질적으로 다른 접근을 취한다고 볼 수도 있다.
- 경시대회 등에 주로 등장하는 체비쇼프 합 부등식과는 다르다.
- 프란체스코 파올로 칸텔리가 이 부등식을 이용해 한 쪽만 알고 싶을때 사용할 수 있는 부등식을 정리했다.
이 문서의 내용 중 전체 또는 일부는 2023-12-18 22:59:44에 나무위키 체비쇼프 부등식 문서에서 가져왔습니다.