체비쇼프 부등식

덤프버전 :


절대부등식
Inequalities


[ 펼치기 · 접기 ]
코시-슈바르츠 부등식
산술·기하 평균 부등식
[math(\left({a_n})({b_n}\right)\ge\left({a_n}{b_n}\right))]
[math(\frac{a_n+b_n}{n}\ge\sqrt[n]{{a_n}{b_n}})]
젠센 부등식
영 부등식
[math(\lambda_n f\left(x_n\right)\ge f\left({\lambda_n}{x_n}\right))]
[math(ab \leq \frac{a^p}{p}+\frac{b^q}{q})]
횔더 부등식
민코프스키 부등식
[math(\|fg\|_1\le\|f\|_p\|g\|_q)]
[math(\|f+g\|_p\le\|f\|_p+\|g\|_p)]
마르코프 부등식
체비쇼프 부등식
[math(\frac{E(X)}k\ge{\rm P}(X\ge k))]
[math(P(|X-\mu|<k\sigma)\geq1-\frac1{k^2})]
슈르 부등식
[math(a\left(x-y\right)\left(x-z\right)+b\left(y-z\right)\left(y-x\right)+c\left(z-x\right)\left(z-y\right)\geq0)]
합 기호는 아인슈타인 합 규약을 일부 사용해 단축하였다.



    통계학

Statistics
[ 펼치기 · 접기 ]




1. 개요
2. 증명
3. 기타


1. 개요[편집]


Chebyshev inequality

러시아의 수학자 파프누티 체비쇼프(Pafnuty Chebyshev[1])가 발견한 절대부등식으로, 그의 이름을 땄다. 확률 분포를 정확히 모를 때 해당 확률 분포의 평균표준편차의 값만으로 특정한 확률의 최솟값만큼은 알아낼 수 있는 부등식이다.

확률 분포의 평균을 [math(\mu)], 표준편차를 [math(\sigma)]라 하면 다음이 성립한다. 이를 체비쇼프 부등식이라고 한다. 단, [math(k)]는 양의 상수이다.

[math(\begin{aligned}P[|X-\mu|<k\sigma]&=P[\mu-k\sigma<X<\mu+k\sigma]\\&\geq1-\dfrac1{k^2}\end{aligned})]
[1] 영어권에서 표기법이 중구난방인 이름 중 하나로 꼽힌다. 과거 표기법 중에 Cheyshev, Tchebychef, Tschebyscheff 등등 다 있다. 한국어로 옮길 때 체비프, 체비프 등으로 잘못 전사되는 일도 많은 편.

예를 들어 [math(k=2)]이면, 확률변수 [math(X)]가 [math(\mu\pm 2\sigma)] 내에 있을 확률은 확률 분포에 관계없이 [math(1-1/{2^2}=3/4)] 이상이다.

마르코프 부등식을 기본으로 한다고 할 수 있다.


2. 증명[편집]


집합 판별 함수의 활용으로 다음처럼 증명할 수 있다.

[math(\begin{aligned} P[|X-\mu|\ge k\sigma] &= \mathbb{E} [ 1_{|X-\mu|\ge k \sigma} ] \\&\le \mathbb{E} \left[ \mathbf{1}_{|X-\mu| \ge k \sigma} \cdot \frac{|X-\mu|^2}{k^2 \sigma^2} \right] \\ &\le \frac{1}{k^2 \sigma^2} \mathbb{E} [ |X-\mu|^2 ] \\&= \frac{1}{k^2} \end{aligned})]

연속확률변수에 대해서 비슷한 아이디어의 증명을 다음과 같이 풀어쓸 수 있다. 확률 분포의 평균을 [math(\mu)], 표준편차를 [math(\sigma)], 함수를 [math(f(x))]라 하면
[math(\begin{aligned}\sigma^2&=E[(X-\mu)^2]=\displaystyle\int_{-\infty}^{\infty}(x-\mu)^2f(x)\,{\rm d}x\\&=\int_{-\infty}^{\mu-k\sigma}(x-\mu)^2f(x)\,{\rm d}x+\int_{\mu-k\sigma}^{\mu+k\sigma}(x-\mu)^2f(x)\,{\rm d}x+\int_{\mu+k\sigma}^{\infty}(x-\mu)^2f(x)\,{\rm d}x\\&\geq\int_{-\infty}^{\mu-k\sigma}(x-\mu)^2f(x)\,{\rm d}x+\int_{\mu+k\sigma}^{\infty}(x-\mu)^2f(x)\,{\rm d}x \quad \biggl(\because\int_{\mu-k\sigma}^{\mu+k\sigma}(x-\mu)^2f(x)\,{\rm d}x\geq 0\biggr) \end{aligned})][2]
한편 [math((x-\mu)^2\geq k^2\sigma^2\,(\leftrightarrow\,x\leq\mu-k\sigma\,\textsf{or}\,x\geq\mu+k\sigma))]일 때는 다음이 성립한다.
[math(\begin{aligned}\sigma^2&\geq\displaystyle\int_{-\infty}^{\mu-k\sigma}(x-\mu)^2f(x)\,{\rm d}x+\int_{\mu+k\sigma}^{\infty}(x-\mu)^2f(x)\,{\rm d}x\\&\geq\int_{-\infty}^{\mu-k\sigma}k^2\sigma^2f(x)\,{\rm d}x+\int_{\mu+k\sigma}^{\infty}k^2\sigma^2f(x)\,{\rm d}x\end{aligned})]
양 끝 식을 [math(k^2\sigma^2)]으로 나누면
[math(\begin{aligned}\dfrac1{k^2}\geq\displaystyle\int_{-\infty}^{\mu-k\sigma}f(x)\,{\rm d}x&+\int_{\mu+k\sigma}^{\infty}f(x)\,{\rm d}x \quad (\because k^2\sigma^2\geq 0)\end{aligned})]
[math(f(x))]는 확률 밀도 함수이기 때문에 [math(\int_{-\infty}^{\infty}f(x)\,{\rm d}x=1)]이므로
[math(\begin{aligned}1-\dfrac1{k^2}\leq\displaystyle\int_{\mu-k\sigma}^{\mu+k\sigma}f(x)\,{\rm d}x&=P[\mu-k\sigma\leq X\leq\mu+k\sigma]\\&=P[|X-\mu|<k\sigma]\end{aligned})]


3. 기타[편집]


  • 확률변수가 [math(1/(2k^2))]의 확률로 값 [math(\mu \pm k\sigma)]를 가지고, 나머지 확률로 값 [math(\mu)]를 가지면 등호가 성립한다.

  • 체비쇼프 부등식은 다양한 확률부등식의 기초이긴 하지만 실전에선 최약체(...)로 평가받는데, 확률론을 조금만 배우면 Hoeffding's inequality, Chernoff bound 등 훨씬 강한 유계를 주는 확률부등식들을 배우기 때문이다. 물론 모든 확률분포에 대해 성립하는 범용적인 부등식이 강력한 유계를 줄 수 있을 리도 없고, 실전에선 주로 등장하는 모종의 확률변수에 한정적으로 적용되는 특별한 부등식을 개발해 쓰는 것이니 이는 당연하다. 오히려 이런 대부분의 확률부등식들을 증명하기 위해서 이 체비쇼프 부등식과 젠센 부등식이 기본으로 사용되고, 이 둘의 역할을 서로 다른 것으로 대체할 수 없다는 점 때문에[3] 중요성이 꽤나 큰 부등식이다.

  • [math(L^p)]-공간 버전으로 다음과 같은 일반화를 생각할 수 있다. 이때 체비쇼프 부등식은 [math(p=2)], [math(z=k\sigma)]인 경우이다.

[math(\begin{aligned}P[|X-\mu| \ge z] \le \frac{\|X-\mu\|_p}{z^p} \end{aligned})]
[2] [math(\displaystyle\int_{\mu-k\sigma}^{\mu+k\sigma}f(x)\,{\rm d}x)]는 확률의 값이므로 0 이상이고 [math((x-\mu)^2\geq 0)]이므로 [math(\displaystyle\int_{\mu-k\sigma}^{\mu+k\sigma}(x-\mu)^2f(x)\,{\rm d}x\geq 0)]이다.[3] 확률변수 [math(X)]에 대한 정보로 [math(f(X))]에 대한 부등식을 이끌어낸다고 생각할 때, 체비쇼프 부등식은 [math(f(x) = \mathbf{1}_{|x-\mu|>k \sigma})]의 경우로 간주할 수 있지만, 저 계단 함수는 볼록이 아니다. 즉, 체비쇼프 부등식은 이런 유형의 문제에서 젠센 부등식과는 본질적으로 다른 접근을 취한다고 볼 수도 있다.

  • 경시대회 등에 주로 등장하는 체비쇼프 부등식과는 다르다.
  • 프란체스코 파올로 칸텔리가 이 부등식을 이용해 한 쪽만 알고 싶을때 사용할 수 있는 부등식을 정리했다.
파일:크리에이티브 커먼즈 라이선스__CC.png 이 문서의 내용 중 전체 또는 일부는 2023-12-18 22:59:44에 나무위키 체비쇼프 부등식 문서에서 가져왔습니다.