조건부확률

덤프버전 :

    통계학

Statistics
[ 펼치기 · 접기 ]




1. 개요
2. 상세
3. 조건부확률의 함정
4. 베이즈 정리의 유도


1. 개요[편집]


/ conditional probability

조건부확률은 어떤 사건이 일어나는 경우에 다른 사건이 일어날 확률을 말한다. 사건 [math(\rm B)]가 일어나는 경우에 사건 [math(\rm A)]가 일어날 확률을 '사건 [math(B)]에 대한 [math(A)]의 조건부확률'이라 하고, [math(\rm P(A \vert B))]로 표기하며 'P A given B' 또는 'P A bar B'로 읽는다. [math(\rm P(A|B))]는 사건 [math(\rm B)]의 영향을 받아 변할 수 있으며, 일반적으로 [math(\rm P(A \vert B))]와 [math(\rm P(B \vert A))]는 같지 않다.


2. 상세[편집]


조건부확률은 다음과 같이 구한다. 단, 집합 [math(\rm S)]는 표본공간이다.

[math(\begin{aligned}\rm P(A|B)&=\dfrac{\rm P(A\cap B)}{\rm P(B)}=\cfrac{\dfrac{n(\rm A\cap B)}{n(\rm S)}}{\dfrac{n(\rm B)}{n(\rm S)}}\\&=\dfrac{n(\rm A\cap B)}{n(\rm B)}\end{aligned})]

곧, 사건 [math(\rm B)]가 일어날 경우에 사건 [math(\rm A)]가 일어날 확률은, 사건 [math(\rm B)]가 일어날 확률에서 사건 [math(\rm A)]와 [math(\rm B)]가 동시에 일어날 확률이 차지하는 비중이며, 집합 [math(\rm B)]의 원소들이 얼마나 많이 집합 [math(\rm A)]에도 해당하는지를 나타낸다고 할 수 있다. 이 말을 다음 그림으로 조금 더 쉽게 이해해 보자.

파일:조건부확률 개념 설명 수정.png
위 그림은 100개의 종이를 모아놓은 것이다. 집합 [math(\rm A)], [math(\rm B)]에 대하여 백색 부분은 양면이 백색인 종이를, 적색 부분 [math(\rm A)]는 앞면이 적색인 종이를, 녹색 부분 [math(\rm B)]는 뒷면이 녹색인 종이를, 적록색 부분 [math(\rm A\cap B)]는 앞면이 적색이고 뒷면이 녹색인 종이(이하 적록색 종이)를 나타낸다고 하자. 그러면 종이들의 개수는 다음과 같다.

[math(n({\rm S})=100,\,n({\rm A})=42,\,n({\rm B})=32,\,n(\rm A\cap B)=16)]

그러면 적색, 녹색, 적록색 종이를 뽑을 확률은 다음과 같다.

[math(\begin{aligned}\rm P(A)&=\dfrac{n(\rm A)}{n(\rm S)}=0.42\\\rm P(B)&=\dfrac{n(\rm B)}{n(\rm S)}=0.32\\\rm P(A\cap B)&=\dfrac{n(\rm A\cap B)}{n(\rm S)}=0.16\end{aligned})]

이때 두 조건부확률 [math(\rm P(A|B))]와 [math(\rm P(B|A))]를 구해 보자. 조건부확률의 정의에 따르면, 전자는 뒷면이 녹색인 종이가 앞면이 적색일 확률, 후자는 앞면이 적색인 종이가 뒷면이 녹색일 확률이라고 할 수 있다. 따라서 조건부확률을 다음과 같은 공식으로 구할 수 있는 것이다.

[math(\begin{aligned}\rm P(A|B)&=\dfrac{\rm P(A\cap B)}{\rm P(B)}=\dfrac{\textsf{\footnotesize(적록색 종이를 뽑을 확률)}}{\textsf{\footnotesize(녹색 종이를 뽑을 확률)}}\\&=\dfrac{0.16}{0.32}=\dfrac12\\&=\dfrac{n(\rm A\cap B)}{n(\rm B)}=\dfrac{\textsf{\footnotesize(적록색 종이의 개수)}}{\textsf{\footnotesize(녹색 종이의 개수)}}\\&=\dfrac{16}{32}=\dfrac12\\\\\rm P(B|A)&=\dfrac{\rm P(A\cap B)}{\rm P(A)}=\dfrac{\textsf{\footnotesize(적록색 종이를 뽑을 확률)}}{\textsf{\footnotesize(적색 종이를 뽑을 확률)}}\\&=\dfrac{0.16}{0.42}=\dfrac8{21}\\&=\dfrac{n(\rm A\cap B)}{n(\rm A)}=\dfrac{\textsf{\footnotesize(적록색 종이의 개수)}}{\textsf{\footnotesize(적색 종이의 개수)}}\\&=\dfrac{16}{42}=\dfrac8{21}\end{aligned})]

이를 다시 설명하면 이렇다. 앞면이 적색인 종이 중 [math(8/21)]은 뒷면이 녹색이며, 뒷면이 녹색인 종이 중 [math(1/2)]은 앞면이 적색인 것이다.
예제 [펼치기·접기]

조건부확률 문제는 내신과 수능을 가리지 않고 빈번하게 출제되는 유형으로, 쉬운 유형으로는 네 가지의 그룹을 나타내는 표가 제시되는 경우가 많다. 그중에서 2018학년도 7월 나형 10번을 소개한다.

파일:2018 7월 나형 10번.png
표에서 값을 찾은 뒤 다음과 같이 조건부확률 공식에 대입하기만 하면 끝이다.

[math(\begin{aligned}\rm P(1\textsf{\footnotesize학년}|\textsf{\footnotesize박물관}\;A)&=\dfrac{\rm P(1\textsf{\footnotesize학년}\cap\textsf{\footnotesize박물관}\;A)}{\rm P(\textsf{\footnotesize박물관}\;A)}\\&=\cfrac{\;\dfrac9{32}\;}{\;\dfrac{24}{32}\;}=\dfrac38\\&=\dfrac{n(1\textsf{\footnotesize학년}\cap\textsf{\footnotesize박물관}\;\rm A)}{n(\textsf{\footnotesize박물관}\;\rm A)}\\&=\dfrac9{24}=\dfrac38\end{aligned})]

위 식에서 금방 짐작할 수 있듯이 이런 유형의 문제는 두 확률의 비보다는 두 집합의 원소의 개수의 비로 계산하는 것이 효율적이며, 굳이 전체 학생 수를 신경써야 할 필요가 없다. 그러나 두 확률의 비로 풀어야만 하는 경우도 있다.



3. 조건부확률의 함정[편집]


조건부확률은 그 특성상 의미를 오해하기 쉽기 때문에[1] 통계로 드러나는 수치는 사실인데 독자가 잘못 받아들여서 의도치 않게 통계의 함정에 걸리기도 한다. 유명한 예시 중의 하나가 몬티 홀 문제.

이 함정을 이해하기 위해 다음 예시를 보자.

자동차 사고로 사망한 사람의 40%는 안전띠를 매지 않았다고 한다. 그런데 뒤집어서 말하면 자동차 사고로 사망한 사람의 60%는 안전띠를 매고도 죽었다는 뜻인데, 그렇다면 안전띠가 더 위험한 것 아닌가?


이 예시에서 말하는 조건부확률의 함정은 해당 통계가 자동차 사고로 사망한 사람 중에서 안전띠를 맨 사람의 비율이 60%라는 것을 말하고 있는 것을 안전띠를 맸을 때 자동차 사고로 사망할 확률이 더 높다는 식으로 오해하는 것이다. 두 조건부확률 P(A|B)와 P(B|A)가 서로 다르기 때문에 이런 오류가 발생하는 것.

이제 이 오류를 반박해 보자. 이 오류를 반박하기 위해서는 '전체 운전자 중에서 안전띠를 맨 사람의 비율'이 필요하다. 예컨대 전체 운전자 중에서 95%가 안전띠를 매고 나머지 5%는 안전띠를 매지 않았다고 하자. 또한 전체 운전자 1만 명 중 1명 꼴로 자동차 사고로 사망한다고 가정하자. 운전자가 안전띠를 매는 사건을 A라 하고 운전자가 자동차 사고로 사망하는 사건을 B라고 하면, 위 인용문은 [math(P(A|B)=0.6)]임을 말하고 있는 것이다. 또한 가정으로부터 [math(P(A)=0.95)], [math(P(B)=0.0001)]이다.

그렇다면 안전띠를 맸을 때 자동차 사고로 사망할 확률은 다음과 같이 계산된다.
[math(P(B|A)=\frac{P(A\cap B)}{P(A)}=\frac{P(A|B)P(B)}{P(A)}=\frac{0.6\times 0.0001}{0.95}=0.000063)](약 16,000명당 1명꼴)

안전띠를 매지 않았을 때 자동차 사고로 사망할 확률은 다음과 같이 계산된다.
[math(P(B|A^C)=\frac{P(A^C\cap B)}{P(A^C)}=\frac{P(A^C|B)P(B)}{P(A^C)}=\frac{0.4\times 0.0001}{0.05}=0.0008)](1,250명당 1명꼴)

즉, 예상했듯이 안전띠를 매지 않은 경우에 자동차 사고로 사망할 확률이 안전띠를 맸을 때보다 10배 이상 큰 것을 알 수 있다.

교과서나 참고서에도 나오는 '어떤 질병을 진단하는 기술의 정확도가 99%인데 실제 병을 앓고 있는 사람은 10만 명에 한 명꼴이라고 한다면, 이 기술로 병을 진단받은 사람 중 실제 병을 앓고 있는 사람의 비율은 몇 %인가?' 같은 문제도 조건부확률의 함정을 잘 보여 준다. 단순히 보면 해당 기술의 정확도가 99%이니 진단을 받은 사람의 99%도 실제로 병을 앓고 있으리라고 생각할 수 있지만 실제로는 진단받은 사람의 극소수만이 진짜로 병을 앓고 있다는 결과가 나온다. 정확도가 99%로 높기는 하지만 병에 걸리지 않은 집단의 크기가 넘사벽급으로 크기에 그 집단에서 1%만이 오진을 받았어도 오진을 받은 사람의 수는 실제 병을 앓고 있는 사람 수의 1000배나 되기 때문. 유사 사례

이와 비슷한 것으로 '검사의 오류(prosecutor's fallacy)'가 있다. 그것의 단적인 사례가 다름 아닌 O. J. 심슨 사건이다. 당시 검사는 "가정폭력을 당한 전체 여성 중 1/2500만이 남편에 의해 죽었다"고 주장했으나, 실제로는 "살해당한 여성 중 가정폭력의 전력이 있는 남편에 의해 살해되었을 확률은 약 90%이다"였다. 여기서 검사의 오류가 드러나는데, 피해자인 심슨의 아내는 가정폭력 뿐만 아니라 심슨에 의해 가정폭력을 당한 상황에서 다른 누군가에 의해 살해되었을 확률을 고려해야한다. 즉 절대다수의 가정폭력 사례는 살인까지 발생하지 않지만, 그 살인사건이 가정폭력의 전력이 있다는 전제 하에 그 범인은 그의 배우자이다. 즉, 주객전도가 된 것.


4. 베이즈 정리의 유도[편집]


베이즈 정리조건부 확률의 정의로부터 유도할 수 있다.

자세한 내용은 베이즈 정리의 유도에 대한 문단 참조.


파일:크리에이티브 커먼즈 라이선스__CC.png 이 문서의 내용 중 전체 또는 일부는 2023-12-17 00:10:15에 나무위키 조건부확률 문서에서 가져왔습니다.

[1] 특히 후술할 예시와 같이 [math(P(A|B)=P(B|A))]로 착각하는 경우가 많다.