표본조사 (문단 편집)

=== 표본크기의 결정 ===
> [math(N= (\dfrac {Z_{α/2} \times s}{r})^2)] 
>표준편차 [math(s)], 오차 [math(r)], 유의수준 [math(Z_{α/2})]를 갖는 표본의 크기 [math(N)]

> [math(N= \dfrac {Z_{α/2}^2 \times p(1-p)}{r^2})]
> 응답률 [math(p)], 오차 [math(r)], 유의수준 [math(Z_{α/2})]를 갖는 표본의 크기 [math(N)]

신뢰도 90%일 때 z-값은 1.645, 신뢰도 95%일 때 z-값은 1.96, 신뢰도 99%일 때 z-값은 2.58로 신뢰수준이 높을수록 필요한 표본크기가 커지게 된다.

표본추출에서 일반적으로 중요한 것은 그 표본이 얼마나 모집단을 잘 대표할 수 있는가('''대표성'''), 그리고 그 표본을 수집하는 데 있어서 경제성과 정확성 사이에서의 줄타기를 얼마나 잘 하는가('''적절성''')의 두 가지다. 후자를 부연하자면 즉 가능한 적은 비용으로 가능한 높은 정확성을 담보해야 한다는 것인데, 표본의 크기가 커질수록 조사자의 부담도 커진다는 점을 생각해 보면, 결국 '''조사자는 조사결과를 위협하지 않는 선에서 가장 작은 표본을 선호하게 된다'''고 할 수 있다. 이때 조사자는 자신의 조사에 필요한 표본의 크기를 키우게 되는 요인들을 찾으려 하게 된다.

표본의 크기가 커지게 만드는 요인들은 다음의 몇 종류가 있다.

* '''조사목적''': 탐색적이고 예비적인 목적으로 시행되는 표본조사라면 굳이 크게 표집할 필요가 없다. 거꾸로 말하면, 그렇지 않은 '본 게임' 의 표본조사일 경우에는 표본의 크기를 키워야 한다.
 * '''모집단 규모''': 추론통계량에 대해서 흔히 "대한민국 국민이 5천만인데 그 정도 숫자로 되겠느냐" 는 불평이 나오곤 한다. 그런데 [[통계학]]적으로 보더라도, 모집단의 크기가 크면 클수록 같은 신뢰수준을 보장하기 위한 표본의 크기도 함께 증가한다. 단지, 표본이 작을수록 조사가 효율적이게 되기 때문에 통계학자들이 그만큼 갈려나가면서 주어진 신뢰수준 하에서의 최소한의 표본크기를 찾아놓은 것뿐. 그 덕분에 모집단이 5천만이라 할지라도 '그 정도 숫자로 충분한' 것이다.
 * '''모집단 동질성''': 모집단의 구성원들이 각양각색이라면 그 모든 다양성을 포괄하기 위해서 더 많은 표본이 필요할 것이다. 하지만 각 구성원들이 다 거기서 거기라면 굳이 많이 추출할 필요가 없다. 바로 이 논리에 입각하는 추출법이 층화 추출법이며, 상기되었듯 층화 추출법은 SRS에 비해 표본의 크기를 더 작게 할 수 있다.
 * '''분석변인의 수''': 성별, 민족성, 연령, 종교, 소득수준, 교육년수, 거주지 등 변인을 많이 넣으면 넣을수록 그만큼 더 큰 표본을 필요로 하게 된다.
 * '''분석범주의 수''': 똑같은 변인일지라도 종교를 [[기불릭]]으로 나누는 것과 개신교, 가톨릭, 불교, 이슬람교, 힌두교, 무속종교, 무교, 무신론 등으로 세분화하는 것은 다르다. 범주를 세분화할수록 당연히 각각의 셀(cell)들을 채워야 할 부담도 증가하게 된다.
 * '''통계적 기준''': 조사 이전에 이미 특정 신뢰수준과 허용되는 표본오차의 크기가 정해져 있다면 그것에 맞춰서 표본의 크기가 결정되어야 한다. 통계적인 허들이 높을수록 조사자도 그 빡빡한 기준에 맞추려면 더 큰 표본을 동원할 수밖에 없다.
 * '''분석 구체성''': 후속 통계적 분석에서 각 세부집단별로 개별적인 분석결과를 보여주어야 할 것이 예상된다면 표본의 크기를 추가로 늘려야 한다. 괜히 표본을 조금 모았다가 일부 세부집단이 열 명 남짓으로 표집된다면 분석결과를 제시하기도 난감해지게 된다.

이런 요인들로 인해 요구되는 표본의 크기가 대충 정해진다면, 돈이 남아돌지 않는 한(…) 그때부터는 '''최대한 저비용으로''' 조사를 수행하는 데 초점이 맞춰진다. 예컨대 최소한 800명은 모아야 좋은 표본추출이 성립되는 상황에서 1,000명이나 2,000명을 모을 수 있다면 물론 두 손 들어 반길 일이지만, 그만큼의 응답자들이 하늘에서 뚝 떨어지는 것이 아니며 그들을 모으는 데 시간과 비용이 또 들어가게 되므로 딱 800명만 간신히 맞춰서 표본을 만들게 되는 것이다.

게다가 (학술적인 의의는 대개 크지 않지만) 조사의 규모가 커지면 커질수록 대규모 조사를 시행함으로 인해 발생하는 '''비표집오차'''(non-sampling error)의 가능성도 있다. 비표집오차는 표본추출 이외의 조사과정에서 발생하는 오차를 말한다. 쉬운 예를 들자면 조사원의 훈련 부족으로 인한 조사자 태도변인의 개입, 대규모 데이터를 [[코딩]]하는 과정에서 발생하는 실수 등의 소소한 오차 가능성이 여기에 포함된다. 모집단 대비 표본의 크기가 커질수록 표집오차는 감소하겠지만, 오차의 감소량 중 일부는 비표집오차로 인해 상쇄된다고 볼 수 있다.

저장 버튼을 클릭하면 당신이 기여한 내용을 CC-BY-NC-SA 2.0 KR으로 배포하고,
기여한 문서에 대한 하이퍼링크나 URL을 이용하여 저작자 표시를 하는 것으로 충분하다는 데 동의하는 것입니다.
이 동의는 철회할 수 없습니다.

표본조사 (문단 편집)

캡챠