문서의 임의 삭제는 제재 대상으로, 문서를 삭제하려면 삭제 토론을 진행해야 합니다. 문서 보기문서 삭제토론 심슨의 역설 (문서 편집) [목차] == 개요 == '''Simpson's paradox''' '[math(a_1/A_1 > b_1/B_1)] 이고 [math(a_2/A_2 > b_2/B_2)]' 이라고 반드시 '[math((a_1+a_2)/(A_1+A_2) > (b_1+b_2)/(B_1+B_2))]' 인 것은 아니다. 즉, '''각 부분에 대한 평균이 크다고 해서 전체에 대한 평균까지 크지는 않다'''는 의미이다. 영국의 통계학자 에드워드 심슨이 정리한 역설로(심프슨의 역설이라고도 한다) 각각의 변수에 신경 쓰지 않고 전체 통계 결과를 유추하다 일어나는 오류이다. == 예시 == 예를 들어 공학부에서 900명의 학생을, 식품영양학과에서 100명의 학생을 모집하는 어느 대학교에 남학생 1,000명과 여학생 1,000명이 지원했을 때, 지원자 수와 합격자 수가 다음과 같다고 하자. *공학부에서 합격자 비율 || ||지원자||합격자||합격률|| ||남학생||900명||720명||80%|| ||여학생||200명||180명||90%|| 여학생 합격률이 남학생 합격률보다 높다. *식품영양학과에서 합격자 비율 || ||지원자||합격자||합격률|| ||남학생||100명||10명||10%|| ||여학생||800명||90명||11.25%|| 역시 여학생 합격률이 남학생 합격률보다 높다. 이렇게 두 과 모두 여학생 합격률이 남학생 합격률보다 높다. 이제 전체 합격률을 알아보자. || ||지원자||합격자||합격률|| ||남학생||1,000명||730명||73%|| ||여학생||1,000명||270명||27%|| 전체적으로 보면 '''남학생 합격률'''이 '''여학생 합격률'''보다 '''훨씬 높음을 알 수 있다.''' 각 모집단위에서 여학생이 남학생보다 높은 합격률을 보였으므로 전체에서도 여학생이 남학생보다 높은 합격률을 보일 것으로 기대하기 쉬운데, 확률에서는 이러한 논리가 적용되지 않는다. == 원리 == 전체 통계를 낼 때 심슨의 역설이 발생한다면 중요한 변수가 무시되었기 때문이거나, 각 부분의 샘플 크기나 비율이 다른데도 가중치를 주지 않았기 때문일 수 있다. 예시에서 숫자를 잘 보면 공학부보다 식품영양학과의 합격률이 낮았으며, 남녀의 성비가 달랐다. 즉 공학부와 식품영양학과 모두 여학생의 합격률이 높았지만, 여학생의 경우 합격이 쉬운 공학부(200명)보다 합격이 어려운 식품영양학과(800명)에 지원자들이 집중되었기 때문에 전체 합격률이 낮았던 것이다. [[http://youtu.be/7qekbQ8Ra1E|EBS 지식프라임에서 이 소재에 대해 다룬 적이 있다.]] == 주의사항 == 왜곡이라는 말을 썼지만, 숫자를 조작한 것은 아니다. 예시에서 두 과의 지원자와 합격자를 합해보면 알 것이다. 단지 고려해야만 하는 변수를 무시했을 뿐이다. 즉 [[통계의 함정]]의 일종이라 할 수 있다. 이는 통계를 정반대로 해석해 잘못된 의사결정을 할 위험도 있을 뿐더러, 어떤 목적을 위해 '''의도적'''으로 무시하는 경우에는 더 심각하다 하겠다. == 관련문서 == *--가비의 리[* [math(a/x=b/y=c/z)]일 때 [math(a/x=b/y=c/z=(a+b+c)/(x+y+z))]]-- *[[경제학]] *[[수학]] *[[통계학]] *[[평균]] [[분류:통계]][[분류:역설]]저장 버튼을 클릭하면 당신이 기여한 내용을 CC-BY-NC-SA 2.0 KR으로 배포하고,기여한 문서에 대한 하이퍼링크나 URL을 이용하여 저작자 표시를 하는 것으로 충분하다는 데 동의하는 것입니다.이 동의는 철회할 수 없습니다.캡챠저장미리보기