추론통계학 (문단 편집)

=== 표본분포 ===
만일 우리가 대한민국 직장인들의 평균[* 본 문서에서 이 이후로 설명되는 모든 추론은 [[평균]]을 주제로 하며, 분산이나 비율에 대한 추론이나, 다수의 모집단이나 반복측정(repeated measures) 결과에 대한 추론은 최대한 생략한다. 그 부분은 다른 교과서나 전문자료를 참고하면서 평균을 추론하는 논리와 어떻게 달라지는지 비교하는 것도 좋은 공부가 된다.] 연봉에 대해 알고 싶다면, 모든 직장인들의 자료를 일일이 다 조사하는 것은 불가능하거나 혹은 매우 어려울 수 있다. 이 경우, [[표본조사|200명 정도의 직장인들만 무작위로 따로 뽑아내서]] 그들의 평균 연봉을 구한 다음, 그 통계량을 바탕으로 해서 당초 관심이 있었던 모평균을 추론하고자 시도할 수 있다. 그런데 이런 식의 논리는 금세 문제에 봉착한다. 그 표본을 어떻게 추출할 수 있는가? 자기 주변의 지인들 위주로 알음알음 추출하는 것은 너무 주관적이고 [[편향]]이 심하다. 그렇다면 난수표의 도움을 받아서 컴퓨터로 완전 무작위 추출을 한다면 해결될 것인가? 때로는 그조차도 문제가 될 수 있다. '''정말 재수없게 극단적인 사람들만 [[랜덤]]신의 간택을 받아서 표본으로 뽑힐 위험이 있기 때문이다.''' 기껏 최대한 무작위로 추출하고 나서 봤더니 죄다 [[김앤장]] 같은 로펌 법조인만 모여있으면 연봉의 표본평균은 1억을 넘어갈 것이다.

흔히 표본평균과 모평균의 차이(m－μ)로 정의되는 '''표본오차'''(sampling error)는 이처럼 이상하게 튀는 표본에서 유독 극심해진다. 그런데 학자들이 표본오차를 줄이려고 봤더니, 표본오차는 표본의 크기가 모집단 크기에 대해 증가할수록 감소하는 경향을 보였다. 이렇게 되면 추론이라는 활동의 가치가 떨어진다. 작은 표본으로도 커다란 모집단에 대해 믿을 만한 통찰을 주자는 게 추론의 목적이기에, 표본을 무작정 키우라고 충고하는 건 "추론 따위 [[포기하면 편해]]"(…)에 가까운 항복 선언이기 때문이다. 결국 학자들은 개별 표본 내부에서 자체적으로 해결책을 찾으려는 시도를 단념하고, '''다수의 표본을 추출하는 상황'''으로 관심을 돌렸다.

모집단에서 표본을 추출하는 것은 꼭 하나의 상황만 가능한 것은 아니다. 모집단이 100명이고 그 중에서 10명만 표본으로 뽑는다 해도 이미 [[조합|[math(_{100}{\rm C}_{10})]]]만큼의 가짓수가 가능하다. 표본을 무선적으로 추출하는 활동이 영 믿을 수 없는 활동이라면, 그 수많은 가짓수들은 완전히 제멋대로인 표본평균을 가질 것이다. 하지만, 만일 표본추출이 나름대로 믿을 수 있다면, 수많은 표본평균들을 분포로 늘어놓았을 때 어떤 중심화 경향(central tendency)이 드러날 것이고, 그렇게 중심에 모인 다수의 표본평균들이 소수의 이상한 표본평균을 압도할 것이다. 여기에 한 가닥 희망을 품은 학자들은 표본을 미친 듯이 반복추출해서 그 표본평균들만 모아다가 새로 분포를 만들었는데... 그렇게 만들어진 표본평균의 분포, 즉 '''평균의 표본분포'''(sampling distribution of the mean)'''가 뚜렷한 [[정규분포]]를 드러낸다는 것이 밝혀졌다.'''[* 평균의 표본분포가 존재한다면, 당연히 분산의 표본분포도 존재한다. 이 분포를 '''[[카이 제곱 분포|χ^^2^^-분포]]'''(Chi-square distribution)라고 부른다. 이에 대해서는 교차표(crosstab; cross tabulation)를 활용한 통계분석을 소개할 때 간략히 언급하도록 하겠다.]

분포에 대한 지식이 있다면 정규분포는 매우 익숙한 분포이겠지만, 정규분포의 핵심적 메시지가 있다면 그것은 바로 '''평범할수록 흔해지고 극단적일수록 드물어진다'''는 점이다. 그렇다면, 평균의 표본분포가 정규분포의 모양을 갖는다는 얘기도, '''표본을 뽑아 보면 평범한 표본일수록 많이 만들어지는 반면 이상한 표본일수록 적게 만들어진다'''는 의미라고 해석할 수 있다. 표본으로 모집단을 추론한다는 논리에서 '''수학적인 정당화의 첫 주춧돌이 놓이는 순간'''이다. 누군가가 "네가 들고 있는 그 표본이 평범하다는 증거 있어?" 라고 물을 때 --[[동작그만 밑장빼기냐|괜히 후달려서 혓바닥을 길게 놀릴 필요 없이]]-- 평균의 표본분포는 정규분포에 근사한다는 간단한 사실만 상기시키면 되기 때문. 다시 말해 자신이 뽑은 표본은, 적어도 단순무선추출(simple random sampling)이 지켜졌다는 전제 하에서는, 뽑힐 수도 있었던 수많은 다른 표본들과 비교할 때 크게 이상하지 않을 거라는 자신감이다.

이 논리는 '''평균의 표준오차'''(σ,,m,,; SEM; standard error of the mean)와도 관계가 있으며, 추론통계학에서는 위에서 소개했던 표본오차와 엄연히 구분되면서도 훨씬 더 주목을 많이 받는다. SEM은 '''평균의 표본분포가 갖는 [[표준편차]]'''이며, 이는 즉 숱하게 많은 표본평균들을 쭉 늘어놓은 분포에서 그 표본평균들이 사방으로 산포되어 있는 정도를 의미한다. 따라서 평균의 표본분포를 정규분포처럼 표현한다면 N(μ,σ,,m,,^^2^^)이 된다.[* 표본분포에서는 기존의 표준편차가 갖던 단위로서의 의미를 표준오차가 대체하므로, 이 분포에서의 z-값은 Z＝(m－μ)/σ,,m,,이다.] 당연히 SEM이 클수록 평균의 표본분포는 가운데가 내리눌려져 꼬리가 두꺼워진지라 추론하기 힘든 정규분포가 되고, SEM이 작다면 평균의 표본분포도 그만큼 홀쭉하고 높아서 추론하기 편한 정규분포가 된다. 위의 표본오차 개념은 특정한 하나의 표본에서 나온 하나의 표본평균이 모평균과 얼마나 유사한지를 견주어 보지만, SEM이라는 개념은 숱하게 많은 표본평균들이 사방으로 튀는 경향성이 어느 정도만큼 심할지를 보여준다.[* 이렇게 접근하지 않으면 나중에 "표준편차와 표본오차, 표준오차에 대해 각각 설명하시오" 같은 서술형 문제를 접했을 때 백 퍼센트 헷갈린다.]

SEM의 크기는 '''표본의 크기'''(n)와 '''모표준편차'''(σ)의 두 가지에 의해 좌우된다. SEM을 커지게 만드는 원인은, 표본의 크기(n)가 작아지거나, 모집단 자체가 원래 산포가 심해서 모표준편차(σ)가 커지거나, 혹은 둘 다인 경우이다(σ,,m,,＝σ/√n).[* 시험삼아 아무 숫자나 대입해 보면 금방 알 수 있다. ① σ＝10이고 n＝400인 경우에는 0.5, ② σ＝10이고 n＝900인 경우에는 0.33..., ③ σ＝15이고 n＝400인 경우에는 0.75가 나온다. σ,,m,,＝σ/√n 공식은 하술될 구간추정 파트에서도 추정할 구간의 넓이를 결정하는 키 플레이어로서 인상 깊게 재등장한다. 표본평균들이 심하게 튀어다니면 구간추정을 할 때에도 그것에 대응하기 위해 구간을 그만큼 넓혀야 한다.] 표준오차는 표본분포의 표준편차이므로, 표본분포의 분산은 표준오차의 제곱이기도 하며(σ,,m,,^^2^^＝σ^^2^^/n), 모분산(σ^^2^^)을 그 표본의 크기(n)로 나누어 준 값이기 때문에 '''표본분포의 분산은 모분산보다 훨씬 더 작게 나타나는 경향이 있다.'''

그렇다면 평균의 표본분포는 어떻게 정규분포에 근사하는 것일까? 어쩌면 그 모집단 자체가 정규성을 띠고 있어서일지도 모른다.[* 모집단의 정규성은 Shapiro-Wilk 검정이나 Q-Q도표 등을 이용하여 확인한다. 이에 대한 자세한 설명은 하술될 검정에 대한 이해가 먼저 필요하긴 한데, 어차피 컴퓨터가 대신 다 해 준다. 누가 정규성 검정 해 봤냐고 묻는다면 그때 컴퓨터에게 일을 시키는 방법만 알고 있으면 된다(…).] 그게 사실이라면, 만일 모집단이 정규분포를 따르지 않는 경우에는 표본을 함부로 뽑아서는 안 될 일이며, 모집단이 정규성을 갖는다고 어떻게 확신했길래 표본을 뽑았냐는 비판에 끝없이 시달리게 된다. 하지만 평균의 표본분포가 드러내는 정규분포 모양은 '''모집단이 무엇이더라도 상관이 없다.''' 모집단이 [[푸아송 분포|푸아송분포]]를 따르든, 이항분포를 따르든, 아니 심지어 정규성이나 중심화 경향 자체가 없는 균등분포든 간에, 표본을 뽑으면 평범한 표본평균이 많이 뽑히고 이상한 표본평균은 적게 뽑힌다는 점은 차이가 없다. 즉 '''모집단의 분포 모양을 전혀 몰라도 표본으로 모집단을 추론하는 데는 아무 문제가 없다.''' 어차피 표본들을 잔뜩 추출해 보면 표본평균은 그것이 극단적인 만큼 드물게 나타나기 때문이다. 이것이 바로 '''[[중심극한정리]]'''(CLT; central limit theorem)이며, 이 정리가 밝혀지고 나서부터 학자들은 마음 놓고 표본을 추출할 수 있게 되었다.[* 중심극한정리는 [[통계적 방법/분포|분포의 세계]]에서 정규분포를 [[최고존엄]]의 자리에 올려놓은 정리이기도 하다. 연속형 확률분포 중에서는 하단에 소개할 t분포 및 사회통계 커리큘럼을 벗어나는 감마분포(γ-distribution), 이산형 확률분포 중에서는 [[푸아송 분포|푸아송분포]](Poisson Distribution)가 중심극한정리에 의해 표본의 크기가 충분히 크다면 '''전부 정규분포로 근사한다.''' 그런데 푸아송분포는 이항분포(binomial distribution)의 상위호환이고, 이항분포는 다시 초기하분포(hypergeometric distribution)의 상위호환이다. 또한 감마분포는 기하분포(geometric distribution)의 상위호환이다. 정규분포의 위상을 알 수 있는 부분.]

'''[[https://onlinestatbook.com/stat_sim/sampling_dist/index.html|이 링크]]에서 직접 [[시뮬레이션]]을 돌려 볼 수 있다.''' 먼저 왼쪽 위의 'begin' 버튼을 클릭하고, 4개의 좌표평면 오른쪽에 있는 버튼들을 보자. 맨 아래쪽 좌표평면까지 사용할 필요는 없고, 셋째 좌표평면의 오른쪽에서 'Mean' & 'N＝25' 를 설정하고 둘째 좌표평면에서 'Animated' 를 눌러 보자. 그럼 둘째 좌표평면은 '''개별 표본 내에서의 관찰값들의 산포'''를 보여주고, 셋째 좌표평면은 '''표본추출 결과로 얻어진 표본평균들의 산포'''를 보여준다는 걸 확인할 수 있다. 이번에는 셋째 좌표평면 오른쪽의 'Fit normal' 에 체크한 후, 둘째 좌표평면 오른쪽의 '5' 를 계속 누르면서, 셋째 좌표평면 왼쪽에서 Reps＝100이 될 때까지 반복해 보자. 이것은 모집단에서 표본을 100개 추출했다는 얘기다. 마지막으로는 '10,000' 숫자를 눌러서 예쁘장한 정규분포를 감상할 수 있다.

이번에는 맨 위쪽의 'Clear lower 3' 을 클릭해서 전부 지우고, 그 아래에서 균등분포를 의미하는 'Uniform' 을 클릭하자. '''모집단이 정규성을 갖지 않는다 해도 평균의 표본분포는 여전히 정규분포의 형태로 나타난다.''' 단지 모표준편차(σ)가 커서인지 아까보다는 조금 더 SEM이 커져서, 좌우로 좀 더 뚱뚱해진 곡선을 그리게 될 뿐이다. 마찬가지로 좌우 비대칭인 모집단인 'Skewed' 를 선택해서 불러온다 해도, 평균의 표본분포는 '''그 위치만 수평이동할 뿐 정규성을 잃지는 않는다.''' 맨 위 좌표평면을 마우스로 조작해서 아무리 괴상망측한 분포를 만들어도, 평균의 표본분포는 끈질기게 정규분포 모양을 유지한다.

||<colbgcolor=#EEEEEE><:>'''{{{+2 Step 1}}}'''||<colbgcolor=#FFFFFF><)>[[파일:sampdist_step1.png]]||<colbgcolor=#EEEEEE><(>n=25인 표본 1개를 추출한 히스토그램.[BR]세로축은 관찰값 25개의 구간별 빈도이다.||
||<:>'''{{{+2 Step 2}}}'''||<)>[[파일:sampdist_step2.png]]||<(>n=25인 표본 1개로부터 얻어진 표본평균의 표본분포.[BR]세로축은 표본평균 1개의 구간별 빈도이다.||
||<:>'''{{{+2 Step 3}}}'''||<)>[[파일:sampdist_step3.png]]||<(>n=25인 표본 10,000개로부터 얻어진 표본평균의 표본분포.[BR]세로축은 표본평균 10,000개의 구간별 빈도이다.||

여기서 표본의 크기를 N＝5로 할 때와 N＝25로 할 때에 가장 두드러진 차이는 역시 산포의 정도일 것이다. 위에서 SEM이 표본의 크기(n)가 작아질수록 커지게 된다는 내용을 이미 설명했다. 실제로 표본이 커질수록 시뮬레이터 상의 분포는 보기 좋게 모여드는 모습을 보인다. 그런데 사실 '''중심극한정리가 성립하기 위해서는 그 표본분포를 구성하는 표본들의 크기'''(n)'''가 충분히 커야 한다.''' 이에 대한 딱 떨어지는 수학적인 기준은 없지만, 통계학자들의 관행적인 합의는 30개 이상의 크기를 지닌 표본(n≥30)일 때 표본분포가 정규분포에 근사하게 된다는 것이다. 이 시뮬레이터에서 지원되는 표본크기는 그를 충족하지 못하지만, 이런 소표본일 때는 아쉬운 대로 정규분포가 아니라 그와 비슷한 '''t-분포'''(student t-distribution)라는 정규분포 비슷한 놈을 대신 잡아다 쓰게 된다. 이 경우 표본이 작아질수록 t-분포의 [[자유도]](df; degree of freedom)가 함께 작아지고 산포의 정도도 커지긴 하는데, 그렇다고 종 모양 자체가 사라지지는 않으니 방법론으로서 치명적인 한계는 아니다.

t-분포 자체는 아래의 구간추정 파트에서 자세히 설명하겠지만, 그 외에도 t-분포가 표본분포에서 시사하는 점이 있다면 '''현실적으로 모집단의 산포에 대한 정보를 알 수 있기는 한가'''의 질문을 던진다는 것이다. 지금까지 설명한 표본분포의 각종 내용들은 암묵적으로 '''모표준편차'''(σ)'''를 알고 있을 때'''라는 전제를 깔고서 소개되었다. σ 값을 알면서 심지어 모집단이 정규분포를 따른다는 것까지도 안다면? 평균의 표본분포는 [[정규분포|평범할수록 많이, 이상할수록 적게]] 나타날 것이다. σ 값을 알면서 모집단의 정규성은 모르지만, 어쨌든 표본의 크기(n)가 충분히 크다면? [[중심극한정리]]에 따라서, 평균의 표본분포는 여전히 [[정규분포]]를 따른다고 확신할 수 있다. 그런데 '''막상 σ 값을 모르는 상황이라면?''' 평범한 사람들이야 표본표준편차(s)를 꿩 대신 닭으로 쓰자고 말해도 되겠지만, 수학적으로는 좀 더 엄밀한 주장이 요구된다. 표본표준편차(s)는 정말로 모표준편차(σ)를 제대로 가리킬 수 있는 믿을 만한 수치인가? 이 의문은 다음에 소개할 점추정의 문제의식과 연결된다.

저장 버튼을 클릭하면 당신이 기여한 내용을 CC-BY-NC-SA 2.0 KR으로 배포하고,
기여한 문서에 대한 하이퍼링크나 URL을 이용하여 저작자 표시를 하는 것으로 충분하다는 데 동의하는 것입니다.
이 동의는 철회할 수 없습니다.

추론통계학 (문단 편집)

캡챠