추론통계학 (문단 편집)

=== 영가설과 대립가설 ===
추정의 논리를 본격적으로 도입하기 전에, 검정이라는 것은 '''모집단에 대한 어떤 썰을 지지해야 할지 말아야 할지 판단하는 과정'''임에 주목해야 한다. 이것은 곧 "먼저 썰이 있었고, 그 다음에 검정이 있다" 의 의미라고도 할 수 있으며, 위의 추정과는 달리 모집단에 대해 무언가를 주장할 수 있는 최소한의 정보가 이미 주어져 있는 상황을 전제한다. 또한 그 썰들이 참이냐 거짓이냐를 객관적으로 확인해 볼 수 있는 검정 가능한(testable) 속성을 가짐도 암시한다. 덮어놓고 다짜고짜 "[[한국인]]은 똑똑하다" 같은 주장을 한다고 해도, 그것은 검정할 수 없는 자의적인 주장이다. 이 주장을 검정할 수 있도록 만들려면, "한국인의 평균 [[IQ]]는 105 이상이다" 처럼 '''비교 가능한 기준점'''을 세우거나(단일집단 검정), "한국인의 평균 IQ는 [[미국인]]의 평균 IQ보다 높다" 처럼 '''비교 가능한 집단을 설정'''해야 한다(두 집단 검정). 그래야만 통계적으로 평균을 계산해 보고 추정의 논리에 비추어 보아 그 주장을 지지할지 말지 결정할 수 있는 것이다.

이처럼 우리의 관심이 되는 대상에 대한 어떤 정보를 진술하면서도 통계적인 비교가 가능한 주장을 '''[[가설]]'''(hypothesis)이라고 한다. 문제는, 모든 가설이 다 같지는 않아서, '''어떤 가설은 그것을 믿어도 됨을 주장하는 부담이 큰 반면, 어떤 가설은 그런 부담이 적다'''는 것이다. 예컨대 어떤 사람이 "모든 [[고니(조류)|백조]]는 희다" 를 주장한다면, 그 가설이 옳은지 보려면 세상에 존재하는 모든 백조들을 전부 뒤져봐야 한다. 하지만 "모든 백조가 다 흰 것은 아니다" 를 주장한다면, 그 가설은 [[블랙 스완|단 하나의 검은 백조만 들이대면]] 곧바로 믿을 수 있게 된다. 그렇다면, 어느 종류의 가설을 디폴트로 놓고 검정을 시행하는 것이 속 편할까? '''학자들은 증명의 부담이 큰 쪽을 디폴트로 놓음으로써 증명의 부담이 작은 주장들에게 공격당할 수 있도록 했다.''' 그래서 공격이 성공하면 이를 영가설을 대신하는 새로운 정보로 삼고, 실패하면 기존의 디폴트 가설을 버리지 않았다. 이렇게 한다면 세상에 대한 인류의 지식이 축적되고 정교화될 수 있는 것이다.

위에서 '디폴트 가설' 이라고 표현했던, 증명의 부담이 큰 가설을 '''귀무 가설''' 혹은 '''영가설'''(H,,0,,; null hypothesis)이라고 한다. 디폴트의 위치에 있기 때문에 영가설은 관습적이고 보수적이며, 그것을 채택한다고 해서 이상한 사람 취급을 받지는 않는다. 쉽게 말해, '''잘 모르겠다면 영가설 쪽을 지지하는 것이 안전하다.''' 영가설은 그 주장에 '동일하다(＝)', '차이가 없다', '존재하지 않는다', '효과가 없다', '새롭지 않다', '변화가 없다' 등의 내용이 포함되는 모든 가설이다. 영가설은 참일 수도 있고 거짓일 수도 있으나, 관행적으로 참이라고 받아들여져 왔다(accepted as true). 이는 영가설을 직접적으로 검정하기가 쉽지 않기 때문이며, 대립가설이 나타나게 되면 그때 비로소 '''간접적으로 검정의 대상이 된다.'''

반대로 위에서 증명의 부담이 작다고 설명한 가설을 '''연구 가설''' 혹은 '''대립가설'''(H,,1,,; H,,a,,; alternative hypothesis)이라고 한다. 영가설과는 달리, 대립가설은 지금까지 알려지지 않았던 새로운 주장에 속하고, 따라서 그 존재 자체로 새로운 검정을 촉발시킨다. 그 모집단에 대해 잘 알고 있는 연구자가 아니라면, '''잘 모르는 상황에서 대립가설을 지지하는 것은 위험하다.''' 대립가설은 그 주장에 '동일하지 않다(≠)', '차이가 있다(＜,＞)', '존재한다', '효과가 있다', '새로운 무엇이다', '변화했다' 등의 내용이 포함되는 모든 가설이다. 대립가설도 마찬가지로 참일 수도 있고 거짓일 수도 있으나, 일단은 참일 수도 있다(might be true)고 간주된다. 대립가설은 주장의 부담이 작지만 그만큼 쉽게 무너지기도 하며, 대립가설이 힘을 잃으면 우리는 "영가설을 기각할 이유가 없다" 고 판단하여 다시 영가설로 되돌아간다.[* 여기서 '''"영가설을 채택한다"'''(accept the H,,0,,?)'''는 표현은 쓰지 않는다.''' 아직 세상 어딘가에 발견되지 않은 흑조가 있을지도 모르기 때문이다. 그래서 그 대신 "영가설을 기각하지 못했다"(failed to reject the H,,0,,)는 표현을 쓴다. 또한 이번 대립가설이 패배했다고 해서 '''영가설을 지지할 수 있음이 검정된 것은 아니다.''' 다음에도 언제든지 또 도전자가 나타날 수 있기 때문이다. 확실한 것은, 그 대립가설만큼은 믿을 만하지 못했다는 것뿐이다. 물론 용어 자체가 비직관적인 것은 사실이며, 이를 헷갈리지 않으려면 별 수 없이 검정의 논리 전체를 확고하게 이해해야만 한다.]

'''영가설과 대립가설은 논리적으로 상호배타적이며 포괄적인 관계에 있다.''' 즉 영가설을 기각한다는 것은 곧 대립가설을 자동으로 채택한다는 말이 되며(상호배타성), 영가설과 대립가설 양쪽 모두가 포함시키지 못하는 경우는 존재하지 않는다(포괄성). 그래서 만약 영가설이 (＝)를 '참이라고 간주' 한다면 대립가설은 (≠)가 '참일 수도 있다고 주장' 해야만 한다. 그렇게 해야 상호배타적이고 포괄적인 관계가 형성되기 때문이다. 만일 영가설이 (≤)를 포함할 경우에는 대립가설은 (＞)를 포함하게 되고, 반대로 영가설이 (≥)를 포함할 경우에는 대립가설은 (＜)를 포함하게 된다.

현실에서도 영가설과 대립가설의 개념은 굉장히 유용할 때가 많다. [[무안단물]]이나 [[무한동력]]처럼 딱 봐도 사이비 티가 나는 주장이라면 모르겠으나, 대부분의 우리는 모든 분야에서 완벽한 지식을 갖고 있는 것이 아니고, 때때로 낯선 분야에서 긴가민가하고 수상쩍인 주장을 접하기도 한다. 이럴 때 취할 수 있는 포지션은, 위에서도 언급했지만 '''잘 모르겠으면 영가설의 편에 서라'''는 것이다. 그것이 '''참이어서가 아니라,''' 그것을 '''지지하기에 더 속 편하고 부담이 없기 때문이다.''' 저 소위 '존재 증명' 류의 떡밥들도 마찬가지다. [[러셀의 찻주전자]]나 [[내 차고 안의 용]] 같은 것들이 시사하는 것은, 무엇의 존재를 주장하는 쪽에(대립가설) 존재의 '''증명의 부담''', 즉 거증책임이 지워지기 때문에 그 증명이 완료되기 전까지는 존재하지 않는다는 쪽(영가설)에 서라는 것이다. 거증책임의 무게를 감당할 자신이 없다면 말이다.

이상의 논리에서 참과 거짓은 상대적으로 중요하지 않다. 사실 '''통계라는 것이 감히 참과 거짓을 논할 만한 물건은 아니다.''' 그저 데이터에 의해 지지받는 주장이 있고, 그렇지 못한 주장이 있을 뿐이다. 어쩌면 데이터는 참 혹은 거짓 중의 하나를 암시하고 있을지도 모른다. 하지만 결국 데이터가 틀렸다더라 하는 경우도 결코 드물지 않다. 그래서 가설 검정은 뭔가 굉장히 그럴 듯하고 논리적이고 지적인 활동처럼 보일지도 모르지만, 그보다는 '''훨씬 더 겸손하고 소박한 활동이다.''' 통계를 근거로 참과 거짓을 가를 수는 없다. 통계는 무엇을 '증명' 할 수도 없고, 무엇의 '확실함' 을 보장하지도 못한다. 검정이 이렇게 조심스러운 이유는, '자신이 틀렸을 가능성을 인정하고 그것을 최소화하는 선에서 관리한다' 는 추정의 덕목을 본받았기 때문이다. 검정은 대립가설을 채택하거나 기각하면서도 한편으로는 "그래도 내가 틀렸을 가능성이 조금은 있지만..." 이라며 여지를 남겨두는 활동이다.

저장 버튼을 클릭하면 당신이 기여한 내용을 CC-BY-NC-SA 2.0 KR으로 배포하고,
기여한 문서에 대한 하이퍼링크나 URL을 이용하여 저작자 표시를 하는 것으로 충분하다는 데 동의하는 것입니다.
이 동의는 철회할 수 없습니다.

추론통계학 (문단 편집)

캡챠