문서 보기문서 편집수정 내역 통계적 방법/분석/분산분석 (r0 버전으로 되돌리기) [include(틀:상위 문서, top1=통계적 방법/분석)] [include(틀:관련 문서, top1=통계적 방법/분석/회귀분석)] [목차] == [[분산분석]]의 기법 == '[[통계적 방법|방법으로서의 통계]]' 라는 관점에서 분산분석(ANOVA; Analysis of Variance)은 [[실험|실험법]]과 아주 잘 어울리며, [[사회과학]] 및 보건학, 복지학 등 각종 응용분야에서도 폭넓게 사용되고 있는 대중적인 분석기법이다. 특히 [[실험설계]]에 엄격하게 입각할수록 분산분석에 깊이 의지하게 되고, 실험을 계획하는 석사과정 [[대학원생]]들도 하술될 공분산분석과 혼합설계 분산분석 중의 하나로 학위논문을 쓰게 된다. 게다가 분석논리 역시 직관성이 높으니, [[사회통계]] 커리큘럼을 담당하는 강사나 교수들 역시 통계분석을 소개할 때 분산분석부터 소개하는 경우가 적지 않다. 분산분석은 원칙적으로 말하자면 기존의 독립표본 t-검정만으로는 대응이 어려운 상황에서 설득력 있는 분석논리를 제공하기 위해 사용된다. 독립표본 t-검정이 2개 집단의 평균 비교를 위해 실시된다는 것을 상기해 보자. 만일 비교할 대상 집단이 3개가 된다면, 이들을 한번에 t-검정할 수는 없고 둘씩 짝지어서 세 번 검정하는 것만이 가능하다. 그런데 만일, 예컨대 집단이 50개로 늘어났다면 어떨까? 물론 이 많은 집단들을 일일이 다 t-검정을 반복하면서 비교하는 것은 굉장한 시간낭비다. '''집단이 3개, 4개뿐만 아니라 몇 개가 되든지간에''' 무조건 싹 모아서 한번에 분석할 수 있는 도구가 필요하다. 그런데 문제는 단순히 분석의 효율성에만 그치는 것이 아니다. 더 큰 문제는, 이런 식으로 자꾸 비슷비슷한 검정을 반복하다 보면 '''어느 순간 1종 오류가 과소추정될 가능성이 높아진다'''는 데 있다. 이것을 '''다중비교 문제'''(multiple comparisons problem) 혹은 '''어디서든 효과'''(look-elsewhere effect)라고 부른다. [[xkcd]]가 [[https://xkcd.com/882/|만화]]로 들었던 예를 다시 가져와 보자. [[젤리빈]]이 여드름을 유발한다는 가설이 있고, 젤리빈을 통째로 분석했을 때는 아무런 관계가 없는 것으로 나타났다. 그런데 젤리빈들을 색깔별로 나누어서 일일이 다 따로따로 분석하기 시작하자, [[녹색|어떤 하나의 색]]에서 갑자기 p-값이 0.05 밑으로 내려가는 유의한 결과가 얻어졌다. 그렇다면 녹색 젤리빈만 조심하면 되는 것일까? 그렇지 않다. 같은 분석을 죽치고 반복하다 보니 우연히 녹색 표본에서 하나 얻어걸렸을 뿐이다. 해당 만화에서 마우스를 올렸을 때 자동으로 띄워지는 텍스트에서도 지적하듯, [[재현성]] 같은 건 기대할 수 없다. 잘못된 대립가설을 채택하고 참인 영가설을 기각할 확률이 바로 p-값의 의미인데, 그 p-값이 제 일을 하지 못한 것이다. p-값이 분석가를 배신(?)할 확률을 가리켜 '''가족별 오류율'''(family-wise error rate)이라고도 한다. 결국 둘씩 묶어서 분석할 집단이 많아질수록 대응표본 t-검정은 힘을 잃는다. 단순히 분석가 편하라고 나온 것이 분산분석이 아니라, 수많은 집단 간의 평균을 한번에 비교하는 것이 통계적으로 그만큼 필요했기에 분산분석을 쓰게 된 것이다. 이 부분을 알아야 분산분석에 늘 감초처럼 따라오는 '''사후분석'''(post-hoc analysis)에 대해서도 함께 이해할 수 있다. 분산분석만 가지고는 모든 집단들이 다 통계적으로 차이가 없다는 결론이 나오면 문제 해결이지만, 어딘가에서 통계적으로 차이가 존재한다는 결론이 나오면 분석이 완료되지 않는다. 그때 실시할 사후분석이 어떤 의미인지 이해하려면, 기존의 검정법만으로 믿을 만한 분석결과가 나오지 않는 이유를 유념하고 있어야 한다. 아래에는 가능할 경우 간단한 보고례를 함께 첨부하였으나, 구체적인 보고의 양식은 학문분야마다 다를 수 있음에 유의. 실제로 《Essentials of Statistics for the Behavioral Sciences》 등의 국내·외 통계 교과서들은 분석 결과를 어떻게 보고할지에 대해서 간략한 사례를 함께 첨부하는 경우가 많다. 또한 [[사회통계]] 커리큘럼에 흔히 포함되는 기초 분석기법들은 ★ 표시로 구분하였다. === 일원분산분석 ★ === ||<-2><:><#FFFFFF>{{{+1 일원분산분석}}}[BR]{{{-2 One-way Analysis of Variance}}}|| ||<:>'''사용목적'''||<:>평균 비교|| ||<:>'''집단의 수'''||<:>2개 (흔히 3개) 이상|| ||<:>'''자료의 성질'''||<:>범주형 IV 1개[BR]연속형 DV 1개|| ||<:>'''측정회차'''||<:>1회|| ||<:>'''주요전제'''||<:>집단별 모집단 정규성[BR]집단별 모집단 독립성[BR]집단별 모집단 등분산성|| > ...나무위키 이용자 집단 200명을 대상으로, 나무위키·위키백과·디시위키 3조건으로 세분화하여 각각을 열람하는 경험이 얼마나 재미있게 느껴지는지 인식을 조사하였다. 분석에 사용된 웹 문서는 각 위키위키 서비스별로 10개가 선정되었으며, 전체 문서 분량의 합계는 세 조건 공히 10,000±1,000자가 되도록 통일하였고, 각각을 대표하는 문서의 선정에는 3명의 서로 다른 심사자가 관여하였다. 이후에는 자신의 위키위키 서비스 열람 경험이 얼마나 재미있었는지를 묻는 단일문항 10점 척도를 활용하였다(1="매우 재미없었다", 10="매우 재미있었다"). > > 집단별 재미 인식의 평균 및 표준편차는, 나무위키 조건(n=66)은 평균 #.##점(#.##)^^a^^, 위키백과 조건(n=67)은 평균 #.##점(#.##)^^b^^, 디시위키 조건(n=67)은 평균 #.##점(#.##)^^c^^으로, 모든 평균이 중간값 5.5점에 미치지 못했다. 일원분산분석 결과, 위키위키 서비스별로 세 집단의 평균 사이에는 통계적으로 유의한 차이가 확인되었다(F,,(2,197),,=#.##, p<.05). Scheffe의 사후분석 결과는 세 집단의 평균 사이에 a=c>b 관계가 성립하는 것으로 나타났다(ps<.05). 이상의 결과는 나무위키 자체를 포함한 세 위키위키 서비스가 큰 재미를 주지는 못했으나, 나무위키와 디시위키에 비해서 상대적으로 위키백과의 열람 경험에는 더욱 재미가 부족했음을 보여준다... 일원분산분석을 포함한 모든 분산분석의 논리는, '''세상에는 편차가 존재한다'''[* 여기서의 '편차' 는 variance, 즉 [[분산]]에 해당한다. 이 단어는 통계학 교재들에서는 분산 외에도 '변량', '변동' 등으로 번역되기도 한다. 학계 현장의 은어로는 '노이즈'(noise)라고 부르기도 하며, 이때는 특히 분석할 가치가 없는 편차를 가리킨다.]는 점에서 출발한다는 것이다. 1반 학생들의 수학 점수 평균이 70점이라 해서 그 반 학생들 전원이 70점을 받은 게 아니며, 2반 학생들은 72점이라고 그 반의 모두가 72점인 게 아니다. 그리고 분산분석은 '''이 편차는 집단 간의 편차와 집단 내의 편차로 구분된다'''고 인식한다. 당장 앞의 두 반 사이에도 이미 평균 점수에서 차이가 있다. 1반에 속한 출석번호 15번짜리의 학생이 받은 수학 점수 68점을 그 학년 전체의 수학 점수의 평균과 비교해 보자. 만일 전체 평균이 69점이라면, 해당 학생의 점수는 전체 평균과 -1점의 편차가 존재하지만, 이것은 전체 평균과 1반 평균의 편차(+1점), 그리고 1반 평균과 15번 학생의 편차(-2점)가 합쳐진 결과이다. 질박한데다 추론(inference)조차 제외한 사례이긴 해도, 분산분석은 개별 관측값의 편차에는 집단 간의 편차와 집단 내의 편차가 모두 반영되었다고 본다. 그런데 위의 사례에서 보듯, 편차라는 것은 기본적으로 개별 관측값과 특정 평균값 사이의 차이가 중요한 것이지, 둘 중에서 어느 쪽이 더 큰지를 따지는 것은 큰 의미가 없다. 이런 정보를 제공하는 것이 바로 (+) 및 (-) 부호인데, 특히 (-) 부호의 경우 편차들을 합산하는 과정에서 (+) 부호를 상쇄시키면서 편차합을 0으로 만들어 버린다. [[평균]]이 그렇게 정의되어 있기 때문이다. 이 단계까지 진도를 뽑은 대부분의 수험자들이 짐작하듯이, 통계학자들은 이런 상황에서 각 편차들을 일괄적으로 제곱하여 (-) 부호를 떨궈 버리기로 했다. 그렇게 계산된 것이 바로 '''제곱합'''(SS; sum of squares)이며, 분산분석은 편차합이 아니라 제곱합을 활용한다. 그리고 집단 간의 편차를 제곱합한 것을 '''집단 간 제곱합'''(SS,,B,,; sum of squares between groups), 집단 내의 편차를 제곱합한 것을 '''집단 내 제곱합'''(SS,,W,,; sum of squares within groups)이라고 명명했다.[* 두 용어는 급간(級間)제곱합 및 급내(級內)제곱합으로 번역되기도 한다. 한편 이 논리는 [[통계적 방법/분석/회귀분석|회귀분석]]에서 종속변인 Y값의 평균으로부터의 편차(SS,,T,,)를 회귀선으로 설명해낸 편차(SS,,R,,)와 설명되지 못하고 남겨진 편차(SS,,E,,)로 구분하는 것과도 매우 유사하다. 물론 분산분석에서도 똑같이 총제곱합(SS,,T,,) 개념이 있긴 한데, 이쪽에선 분석에 쓰일 가치가 별로 없어서 기억하지 않아도 무방하다. 완전에타제곱(complete η^^2^^) 계산 때에나 쓰지만 이 계산을 하는 자체가 특수한 상황이다.] 만일 두 수치를 비교했을 때 집단 간 제곱합이 집단 내 제곱합에 비해 충분히 크다면, 집단 내 편차와 비교해 보아 집단 간에도 확실히 차이가 존재한다고 추정하는 게 가능해진다. 하지만 이런 논리는 곧 벽에 부딪힌다. 집단 간 제곱합은 단순히 분산분석에 포함시킬 집단들을 한도끝도 없이 늘리면 그에 따라 괜히 증가하게 마련이고, 집단 내 제곱합도 집단별 관측값의 수(n)를 한도끝도 없이 늘리면 그에 따라 괜히 증가하기 때문이다. 따라서 이런 제곱합 개념을 고스란히 쓸 수는 없고, 주어진 '''집단의 수'''(k)와 '''관측값의 수'''(n)를 '''함께 고려하면서 제곱합의 크기를 비교'''할 수 있는 도구가 필요하다. 유의할 것은, 이때 '함께 고려' 한다는 의미로서 나눗셈을 하는 것은 맞지만, 집단이나 관측값의 수를 고스란히 써서 나누는 것이 아니라 그 [[자유도]]를 대신 사용하여 나눈다는 것이다. 이때 집단 간 제곱합의 자유도는 평범하게 '''k-1'''이며,[* 자유도는 보통 χ^^2^^-분포, t-분포를 설명하면서 처음 접하게 된다. 이들 분포가 자유도를 쓰는 이유는 표본분산(s^^2^^)을 바탕으로 하기 때문이다. 표본분산(s^^2^^)을 계산하기 위해서는 먼저 표본평균(m)이 확정되어야 하므로, 여기서 표본평균(m)에 해당하는 1만큼의 자유도가 희생되는 것이다. 마찬가지로 분산분석에서 제곱합(SS)을 계산할 때에도 표본평균(m)이 쓰이니, 자유도가 그만큼 감소하게 되는 것이다.] 집단 내 제곱합의 자유도는 어떤 하나의 집단 내 편차만이 아니라 분석에 포함되는 '모든 집단들' 에 속한 관측값들의 편차를 제곱합하는 것이므로 k개 집단들로부터 얻어진 다수의 표본평균(m)들이 필요하기에 '''n-k'''가 된다. 아무튼 집단 간 제곱합은 k-1 자유도로 나누어지게 되며, 이제 분산분석 결과는 집단의 수(k)로부터 영향을 받지 않게 되었다. 이것을 '''집단 간 평균제곱'''(MS,,B,,; mean squares between groups)이라고 부른다. 마찬가지로, 집단 내 제곱합은 n-k 자유도로 나누어지게 되며, 이제 분산분석 결과는 관측값의 수(n)에도 영향을 받지 않게 되었다. 이것을 '''집단 내 평균제곱'''(MS,,W,,; mean squares within groups)이라고 부른다. 최종적으로 MS,,B,,의 크기가 MS,,W,,의 크기에 비해 얼마나 클지를 비교함으로써, 분석가는 ① 표본 전체의 평균으로부터 각 집단의 표본평균(m,,i,,)들이 산포한 크기가 ② 각 집단의 표본평균(m,,i,,)들로부터 각 집단의 관측값들이 산포한 크기에 비추어 얼마나 큰지 짐작할 수 있다. 이 비율 데이터가 크면 클수록 집단 간의 표본평균들의 편차가 크다고 볼 수 있는 것이다. 이것을 '''F-통계량'''이라고 한다(F=MS,,B,,/MS,,W,,={SS,,B,,/(k-1)}/{SS,,W,,/(n-k)}). 만일 각 집단들의 편차가 집단들 내부의 편차와 하등 다를 바가 없다면, F-통계량은 분모와 분자가 같기 때문에 자연스럽게 1로 산출될 것이다. 이 경우에는 처음부터 이들을 서로 다른 집단으로 묶는 것이 인간의 착각에 불과했던 셈이다. 바꿔 말하면, '''영가설이 참일 때의 F-통계량은 1 이하로 나타나야 한다.''' 그런데 분석가가 실제로 획득한 F-통계량이 1은 아니더라도, 이것이 1과 다를 바 없는 숫자라고 봐야 하는지 아니면 1과는 확실히 다르다고 봐야 하는지 판단할 근거가 필요하다. 이때 활용되는 것이 바로 '''F-분포'''(F-distribution)이다. 이 분포의 구체적인 형태는 대부분의 사회통계 커리큘럼을 벗어나지만, 앞서 소개한 두 개의 자유도인 k-1 및 n-k를 통해서 형태를 특정할 수 있다. 유의수준(α)이 주어져 있을 때, 이제 분석가는 각각의 자유도에서 설정되는 F-분포 속의 임계값(critical value)을 '''F-분포표'''(F-table) 속에서 구한 뒤, 자신이 얻은 F-통계량이 그 임계값의 표지판보다 큰지(H,,0,, 기각) 혹은 작은지(H,,0,, 기각하지 않음) 판단하면 된다. 따라서 F-통계량은 '''우측검정'''이라고 할 수 있다. 이상의 기나긴 절차를 테이블 찾아가며 손으로 굳이 계산하고 있을 필요는 없다. [[SPSS]]가 다 해 준다(…). 중요한 것은 집단 간과 집단 내에서 각각 도출되는 제곱합(SS), 자유도(df), 평균제곱(MS), 그리고 이를 통해서 도출되는 최종적인 F-통계량과 그에 해당되는 유의확률(p)까지 모든 중간 계산과정을 SPSS가 '''분산분석표'''(ANOVA table)로 깔끔하게 보여준다는 것이다. 그래서 분산분석표 속에서 왼쪽 칸에서 오른쪽 칸으로 읽어나가면 그것이 바로 각각의 계산이 진행되는 과정이라고도 할 수 있다. 만일 자신이 직접 얻은 원천자료에서 출력된 분산분석표가 있다면, 그 표와 대조하면서 위의 설명을 다시 읽어보는 것도 도움이 된다. 심지어 이 표는 SPSS에서 회귀분석을 돌려도 똑같이 포함되어서 나오므로, 회귀분석을 실시해야 할 때에도 분산분석의 논리는 최소한 알고 있어야 한다. * '''H,,0,,''': 분석에 포함된 모든 집단들에서 얻어진 평균들은 서로 차이가 '''없을''' 것이다. * '''H,,1,,''': 분석에 포함된 모든 집단들 중 적어도 하나 이상의 평균은 다른 평균과 차이가 '''있을''' 것이다. ==== 사후분석 ==== 위에 소개된 분산분석의 대립가설(H,,1,,)을 보면 분석가가 당초 알고자 하는 것과는 차이가 있다. 분석가는 단순히 차이가 있는지 없는지만 궁금한 게 아니다. 차이가 있다면 구체적으로 '''어떤 집단과 어떤 집단이 차이가 있는지,''' 그 차이에 따라서 이들 '''여러 집단들이 어떤 부분집합으로 묶이게 될지'''까지 알고 싶은 것이다. 하지만 분산분석은 그 자체로는 거기까지 말하지 않는다. 그냥 전체 집단들을 한꺼번에 싸잡아서 분석하고는, "이 중에 서로 차이를 보이는 집단들이 있기는 한데 [[안알랴줌|그 이상은 말 못 함]]" 수준의 결론만을 도출할 뿐이다. 따라서 만일 분산분석 결과가 통계적으로 유의하게 얻어졌다면, 분산분석만으로 끝낼 것이 아니라 사후분석을 추가로 수행해야 한다. 물론 여기서의 사후분석을 한다는 얘기는 처음에 대조했던 대응표본 t-검정을 반복 수행한다는 식의 내용이 아니다. SPSS를 살펴보면 사후분석 대화 창에 알 듯 모를 듯한 외국인 이름들이 잔뜩 튀어나오는 것을 볼 수 있는데(…) [[통계적 방법]]의 기초 커리큘럼에서 외국인 이름들을 기억하는 게 거의 유일하게 중요한 순간이다. 왜냐하면 이 양반들이 '''어디서든 효과를 회피하면서도 신뢰할 만한 다중비교 방법'''을 고안해냈기 때문이다. 그런데 해당 대화 창을 자세히 보면, 외국인 이름들이 두 묶음으로 분류되어 있다. 이는 분산분석의 주요 전제인 '''등분산성'''(homoskedasticity)이 성립하느냐 어겨지느냐에 따라 사후분석의 방법이 달라지기 때문이다. 분산분석은 분석에 포함되는 여러 집단들의 모집단 분산이 동일할 것이라고 가정하고 수행되는 것으로, 표본 속 여러 집단들의 표본분산(s^^2^^) 정보를 통해 모분산(σ^^2^^)을 추정함으로써 해당 가정을 정당화한다. 이게 성립되지 않으면 위에서 길게 소개했던 F-통계량의 계산 논리가 흔들린다. 따라서 SPSS에서도 '분산 동질성 검정' 이라고 하여 이를 검정하는 기능을 제공하고 있으며, 비록 논문이나 보고서에서 잘 보고하지도 않는데다 디폴트로 체크박스가 찍혀있지도 않아서 놓치고 넘어가는 초심자들도 많기는 하지만, 사실 '''등분산성은 분산분석으로 출력되는 결과표에서 제일 먼저 확인해야 하는 부분이다.''' 여기서 영가설은 '각 분산들이 차이가 없다' 이기 때문에 '''유의확률이 p>.05일 때에만 F-통계량이 의미가 있다.''' 만일 유의확률이 p<.05로 작게 나온다면 등분산성이 깨지는 골치아픈 상황이므로, 멋모르고 p-값이 작다며 좋아할 게 아니라(…) 이분산성 문제에 대응할 방법을 찾아야 한다. 등분산성이 성립하지 않을 때 F-통계량에 대응하는 대안적 통계량으로 '''Welch 통계량'''이 있으며, 이때는 등분산성이 성립하지 않음을 보고하고 F-통계량 대신에 해당 통계량을 취하여 유의확률과 함께 보고하면 된다. 또한 일반적으로 쓰이는 사후분석 방법들도 대부분 쓰일 수 없으며, 그 대신에 등분산성이 가정되지 않는 상황에서 사용되는 사후분석을 취하여 보고해야 한다. 그런데 많은 사람들이 '1차 분석 → 이분산성 발견 → Welch 및 사후분석 방법 변경하여 2차 분석' 같은 식으로 괜히 분석을 두 번 진행하는데, 그럴 필요 없이 '''처음부터 전부 출력시켜 놓고 등분산성 검정 결과에 따라 양쪽 중 하나를 보고해도 된다.''' 즉, 처음부터 F-통계량과 Welch 통계량을 전부 명령하고, 사후분석도 등분산성 가정 때의 방법 중에 하나와 가정하지 않을 때의 방법 중 하나를 둘 다 찍어놓은 후, 출력표에서 등분산성 검정 결과를 확인한 뒤 자기가 필요한 것만 골라서 보고하는 것이다. SPSS에서 지원하는 사후분석 방법들을 나열하면 다음과 같다. 흔히 사용되는 사후분석 방법들에는 약간의 설명을 추가하였다. * '''등분산을 가정함''' * '''LSD''': F-분포를 제안한 그 통계학자 로널드 피셔 경(Sir R.A.Fisher)이 만든 최소유의차법(least significant difference). 웬만하면 다 차이가 있다고 판정해 주는 통에, 한때 많이 썼었지만 분석의 엄격성이 강조되는 현대에는 점점 인기가 식고 있다. 원론적으로 보아 다중비교 문제를 '극복' 한 방법은 아니라는 평. 일반인 수준에서 분석할 때에는[* 예컨대 복지관장이 자기 시설에서 운영하는 프로그램들의 효과를 분산분석하는 경우 등. 의외로 학계 외부에서도 이런 식으로 시설 단위에서 자체적으로 통계분석을 하면서 성과평가를 하는 경우가 꽤 있다.] 아래의 Bonferroni 방법과 함께 충분히 용인될 수 있다. * '''Bonferroni''': 유의수준을 집단 수만큼 깎아서 다중비교 문제에 대응한다. 현대에는 다중비교 문제에 대한 대응법으로 가장 먼저 소개되는 기초적인 방법의 위상. 비모수적 검정에서도 적용이 가능한 범용성을 자랑하며, 판정의 엄격성은 중간 정도라고 알려져 있다. * '''Sidak''': 위의 Bonferroni 방법보다 좀 더 엄격한 방법. SPSS에서 광범위한 분산분석들의 주변평균을 위해 LSD와 함께 제공하나, 상대적으로 잘 쓰이지 않는다. * '''Scheffe''': 닥치고 엄격하다(…). 집단 간에 유의한 차이가 있는지 F-분포에 의거하여 매우 깐깐하게 따지는 방법으로, 오히려 너무 깐깐해서 2종 오류의 가능성이 높아진다는 불만도 있다. 자연과학 분야에서는 괜찮지만 사회과학 분야에서는 다소 가혹할 수도 있다. * '''Tukey 방법''', '''Tukey의 b''': 스튜던트화 범위 분포(studentized range distribution)를 활용한 방법으로, 분석에 포함되는 각 집단들의 관측값 수(n)가 전부 동일해야 한다는 한계가 있었다. 그러다가 최초 발표 3년 후에 조화평균으로 이 문제를 보완한 '''Tukey-Kramer 방법'''이 나왔으며, SPSS에서는 Tukey의 b를 선택하면 된다. 집단 간 관측값 수(n)는 이제 달라도 상관없지만, 소표본에 취약하다는 문제는 있다.[* 참고로 통계학자 존 투키(J.Tukey)는 작명센스가 좀 특이했는지, 'honestly significant difference(HSD)', 'wholly significant difference(WSD)' 같은 이름을 붙여놓았다.] * '''Duncan''': 엄격성이 낮은 사후분석의 대명사. LSD만큼은 아니지만 사회과학 응용분야 이외에는 더 엄격한 방법을 취하라는 지적이 나올 수도 있다. 그러나 단순한 [[설문조사]] 결과를 분석하는 정도라면 충분히 쓰일 수 있다. * '''Dunnett''': 여러 집단들 중에서 하나를 기준집단으로 두고 그것과 다른 집단들의 차이를 중점적으로 본다. 따라서 [[통제집단과 실험집단|통제집단 하나에 여러 비교집단을 두는 실험설계]]에 적합하다. 그러나 비교집단끼리 차이가 있는지 비교하기에는 부적절하다. * 기타: R-E-G-W의 F, R-E-G-W-의 Q, S-N-K, Hochberg의 GT2, Gabriel, Waller-Duncan * '''등분산을 가정하지 않음''' * '''Tamhane의 T2''': 엄격한 편에 속하는 사후분석으로, 대체로 양호하지만 대표본일수록 엄격성이 낮아진다. * '''Dunnett의 T3''': 소표본에서 강력한 사후분석. 절댓값의 분포를 토대로 개발된 방법이다. 아래의 Games-Howell과 함께 쌍두마차 격으로 자주 쓰이며 서로 비교도 많이 되는 방법이다. * '''Games-Howell''': 대중적으로 잘 알려진 사후분석이며 Welch 통계량을 활용하여 계산하지만, 상대적으로 엄격성이 떨어지는 편이고 소표본에 취약하다는 비판이 있다. 정규성이 깨졌을 때에도 쓰일 수 있다는 것은 장점. * '''Dunnett의 C''': 스튜던트화 범위 분포를 활용한 방법이며, 소표본 문제나 집단이 과다한 상황에도 전반적으로 대응이 가능하고, 정규성이 깨졌을 때에도 사용 가능하다. 그럼에도 각 집단 간 표본 크기가 같을 때에만 쓰일 수 있어서 큰 인기를 끌지는 못하고 있다. 사후분석 결과는 일단 출력표가 눈에 익숙해진다면 '''자주 쓰이는 것 여러 종류를 함께 골라서 비교'''하는 것도 좋다. 각 방법들이 저마다 근거 논리가 다르기 때문에 분석결과도 조금씩 다를 수 있기 때문이다. 심지어 어떤 방법은 분산분석 결과와 대비되는 상황, 예컨대 분산분석에서는 유의하게 나왔는데 막상 사후분석에서는 아무 집단 간에도 유의하지 않다고 나오는 상황이 발생할 수 있다. 그럴 때는 다른 사후분석 방법들을 선택해 보면 유의한 것이 확인될 수 있으므로, 아무데서도 유의성이 나타나지 않았다고 해서 좌절할 필요는 없다. 구태여 여러 번 사후분석을 반복하는 것보다는, 차라리 이런 상황을 예상하고 처음부터 인기있는 분석들 2~3종류 정도는 전부 체크박스에 찍어놓으라는 것. 사후분석의 또 다른 난관은 '''때로 해석하기 어려운 결과가 도출될 수 있다'''는 데 있다. 특히 이것은 '동질적 부분집합' 기능을 중심으로 결과를 해석하려 할 때 불거질 수 있다. 예컨대 수학 성적의 평균이 1반은 70점, 2반은 72점, 3반은 80점이라고 가정해 보자. 이런 경우 1반과 2반을 같은 부분집합(subset)으로 묶고, 3반은 이들보다 평균이 높은 다른 부분집합이라고 구분하여, g,,1,,=g,,2,,<g,,3,, 관계로 깔끔하게 해석하면 된다. 그런데 만일, 1반은 72점, 2반은 75점, 3반은 79점이 나왔다고 가정해 보자. 이 경우 사후분석 결과는 1반과 2반 사이에 유의하지 않고, 2반과 3반 사이에도 유의하지 않으면서, 1반과 3반 사이에서만 유의하다고 도출될 수 있다. 즉 g,,1,,=g,,2,,\, g,,2,,=g,,3,,인데 g,,1,,<g,,3,,도 되는 것이다. 이게 수학 점수가 아니라 각각 [[플라시보]] 집단, 기존약 집단, 신약 집단이라고 생각해 보면 이 신약의 약효를 홍보하기에 상당히 골치아파질 수 있고(…), 실제로 분산분석을 쓰다 보면 의외로 이런 상황이 자주 생긴다. {{{#!folding [일원분산분석의 명령과 결과] 구체적인 출력내용은 사용목적 및 버전에 따라 다를 수 있다. 이하의 사례는 독립변인의 범주별 평균이 '값1=값2<값3' 이 성립하는 가상의 결과를 보여준다. ||분석 ▶ 평균 비교 ▶ 일원배치 분산분석 ▶ [요인-독립변수 입력] ▶ [종속변수 입력][BR]▶ 사후분석 ▶ [사후 검정변수 입력] ▶ Scheffeⓥ / Dunnett T3ⓥ ▶ 계속[BR]▶ 옵션 ▶ 기술통계ⓥ / 분산 동질성 검정ⓥ / Welchⓥ ▶ 계속[BR]▶ 확인|| 위의 방식대로 명령을 내리면 아래와 같은 결과가 나온다. {{{#B7F0B1 ■}}} 색상으로 칠해진 셀의 경우 결과보고의 대상이 되므로 주의를 기울여야 한다. ||<:><#FFFFFF><-9>{{{+1 기술통계}}}|| ||<#FFFFFF><-9><(>{{{-1 종속변수}}}|| ||<:> ||<:>{{{-1 N}}}||<:>{{{-1 평균}}}||<:>{{{-1 표준편차}}}||<:>{{{-1 표준오차}}}||<-2><:>{{{-1 평균에 대한 95% 신뢰구간}}}||<:>{{{-1 최소값}}}||<:>{{{-1 최대값}}}|| ||<:>{{{-1 하한}}}||<:>{{{-1 상한}}}|| ||<(>{{{-1 값1}}}||<)>{{{-1 #}}}||<)>{{{-1 #}}}||<)>{{{-1 #}}}||<)>{{{-1 #}}}||<)>{{{-1 #}}}||<)>{{{-1 #}}}||<)>{{{-1 #}}}||<)>{{{-1 #}}}|| ||<(>{{{-1 값2}}}||<)>{{{-1 #}}}||<)>{{{-1 #}}}||<)>{{{-1 #}}}||<)>{{{-1 #}}}||<)>{{{-1 #}}}||<)>{{{-1 #}}}||<)>{{{-1 #}}}||<)>{{{-1 #}}}|| ||<(>{{{-1 값3}}}||<)>{{{-1 #}}}||<)>{{{-1 #}}}||<)>{{{-1 #}}}||<)>{{{-1 #}}}||<)>{{{-1 #}}}||<)>{{{-1 #}}}||<)>{{{-1 #}}}||<)>{{{-1 #}}}|| ||<(>{{{-1 전체}}}||<#FFFFFF><)>{{{-1 #}}}||<#FFFFFF><)>{{{-1 #}}}||<#FFFFFF><)>{{{-1 #}}}||<)>{{{-1 #}}}||<)>{{{-1 #}}}||<)>{{{-1 #}}}||<)>{{{-1 #}}}||<)>{{{-1 #}}}|| ||<:><#FFFFFF><-4>{{{+1 분산의 동질성 검정}}}|| ||<#FFFFFF><-4><(>{{{-1 종속변수}}}|| ||<:>{{{-1 Levene 통계량}}}||<:>{{{-1 자유도1}}}||<:>{{{-1 자유도2}}}||<:>{{{-1 유의확률}}}|| ||<)>{{{-1 #}}}||<)>{{{-1 #}}}||<)>{{{-1 #}}}||<)>{{{-1 #}}}|| ||<:><#FFFFFF><-5>{{{+1 평균의 동질성 검정}}}|| ||<#FFFFFF><-5><(>{{{-1 종속변수}}}|| ||<:> ||<:>{{{-1 통계량}}}^^a^^||<:>{{{-1 자유도1}}}||<:>{{{-1 자유도2}}}||<:>{{{-1 유의확률}}}|| ||<#EEEEEE><(>{{{-1 Welch}}}||<)>{{{-1 #}}}||<)>{{{-1 #}}}||<)>{{{-1 #}}}||<)>{{{-1 #}}}|| ||<#FFFFFF><-5>,,a. 자동으로 F 분배합니다.,,|| ||<:><#FFFFFF><-6>{{{+1 ANOVA}}}|| ||<#FFFFFF><-6><(>{{{-1 종속변수}}}|| ||<:> ||<:>{{{-1 제곱합}}}||<:>{{{-1 자유도}}}||<:>{{{-1 평균제곱}}}||<:>{{{-1 F}}}||<:>{{{-1 유의확률}}}|| ||<(>{{{-1 집단-간}}}||<)>{{{-1 SS,,B,,=ⓐ}}}||<#B7F0B1><)>{{{-1 k-1=ⓑ}}}||<)>{{{-1 MS,,B,,=ⓐ÷ⓑ=ⓒ}}}||<#B7F0B1><)>{{{-1 ⓒ÷ⓕ}}}||<#B7F0B1><)>{{{-1 #}}}|| ||<(>{{{-1 집단-내}}}||<)>{{{-1 SS,,W,,=ⓓ}}}||<#B7F0B1><)>{{{-1 n-k=ⓔ}}}||<)>{{{-1 MS,,W,,=ⓓ÷ⓔ=ⓕ}}}|| || || ||<(>{{{-1 전체}}}||<)>{{{-1 ⓐ+ⓓ}}}||<)>{{{-1 ⓑ+ⓔ}}}|| || || || ||<:><#FFFFFF><-8>{{{+1 대응별 비교}}}|| ||<#FFFFFF><-8><(>{{{-1 종속변수}}}|| || ||<:>{{{-1 (I) 독립변수}}}||<:>{{{-1 (J) 독립변수}}}||<:>{{{-1 평균차이(I-J)}}}||<:>{{{-1 표준오차}}}||<:>{{{-1 유의확률}}}||<-2><:>{{{-1 95% 신뢰구간}}}|| ||<:>{{{-1 하한}}}||<:>{{{-1 상한}}}|| ||<^|6><(>{{{-1 Scheffe}}}||<^|2><(>{{{-1 값1}}}||<(>{{{-1 값2}}}||<)>{{{-1 ⓐ}}}||<)>{{{-1 ⓓ}}}||<)>{{{-1 ⓖ}}}||<)>{{{-1 #}}}||<)>{{{-1 #}}}|| ||<(>{{{-1 값3}}}||<)>{{{-1 ⓑ}}}'''*'''||<)>{{{-1 ⓔ}}}||<#B7F0B1><)>{{{-1 ⓗ}}}||<)>{{{-1 #}}}||<)>{{{-1 #}}}|| ||<^|2><(>{{{-1 값2}}}||<(>{{{-1 값1}}}||<)>{{{-1 ⓐ}}}||<)>{{{-1 ⓓ}}}||<)>{{{-1 ⓖ}}}||<)>{{{-1 #}}}||<)>{{{-1 #}}}|| ||<(>{{{-1 값3}}}||<)>{{{-1 ⓒ}}}'''*'''||<)>{{{-1 ⓕ}}}||<#B7F0B1><)>{{{-1 ⓘ}}}||<)>{{{-1 #}}}||<)>{{{-1 #}}}|| ||<^|2><(>{{{-1 값3}}}||<(>{{{-1 값1}}}||<)>{{{-1 ⓑ}}}'''*'''||<)>{{{-1 ⓔ}}}||<)>{{{-1 ⓗ}}}||<)>{{{-1 #}}}||<)>{{{-1 #}}}|| ||<(>{{{-1 값2}}}||<)>{{{-1 ⓒ}}}'''*'''||<)>{{{-1 ⓕ}}}||<)>{{{-1 ⓘ}}}||<)>{{{-1 #}}}||<)>{{{-1 #}}}|| ||<^|6><(>{{{-1 Dunnett T3}}}||<^|2><(>{{{-1 값1}}}||<(>{{{-1 값2}}}||<)>{{{-1 ⓐ}}}||<)>{{{-1 ⓓ}}}||<)>{{{-1 ⓖ}}}||<)>{{{-1 #}}}||<)>{{{-1 #}}}|| ||<(>{{{-1 값3}}}||<)>{{{-1 ⓑ}}}'''*'''||<)>{{{-1 ⓔ}}}||<)>{{{-1 ⓗ}}}||<)>{{{-1 #}}}||<)>{{{-1 #}}}|| ||<^|2><(>{{{-1 값2}}}||<(>{{{-1 값1}}}||<)>{{{-1 ⓐ}}}||<)>{{{-1 ⓓ}}}||<)>{{{-1 ⓖ}}}||<)>{{{-1 #}}}||<)>{{{-1 #}}}|| ||<(>{{{-1 값3}}}||<)>{{{-1 ⓒ}}}'''*'''||<)>{{{-1 ⓕ}}}||<)>{{{-1 ⓘ}}}||<)>{{{-1 #}}}||<)>{{{-1 #}}}|| ||<^|2><(>{{{-1 값3}}}||<(>{{{-1 값1}}}||<)>{{{-1 ⓑ}}}'''*'''||<)>{{{-1 ⓔ}}}||<)>{{{-1 ⓗ}}}||<)>{{{-1 #}}}||<)>{{{-1 #}}}|| ||<(>{{{-1 값2}}}||<)>{{{-1 ⓒ}}}'''*'''||<)>{{{-1 ⓕ}}}||<)>{{{-1 ⓘ}}}||<)>{{{-1 #}}}||<)>{{{-1 #}}}|| ||<#FFFFFF><-8><(>,,'''*'''. 평균차이는 0.05 수준에서 유의합니다.,,|| ||<(><#FFFFFF><-4>'''{{{+1 동질적 부분집합}}}'''|| ||<#FFFFFF><-4><:>{{{+1 종속변수}}}|| ||<#FFFFFF><-4><(>{{{-1 Scheffe}}}^^a,b^^|| ||<(>{{{-1 독립변수}}}||<:>{{{-1 N}}}||<-2><:>{{{-1 유의수준=0.05에 대한 부분집합}}}|| ||<:>{{{-1 1}}}||<:>{{{-1 2}}}|| ||<(>{{{-1 값1}}}||<)>{{{-1 #}}}||<)>{{{-1 #}}}||<)> || ||<(>{{{-1 값2}}}||<)>{{{-1 #}}}||<)>{{{-1 #}}}||<)> || ||<(>{{{-1 값3}}}||<)>{{{-1 #}}}||<)> ||<)>{{{-1 #}}} || ||<(>{{{-1 유의확률}}}||<)> ||<)>{{{-1 #}}}||<)>{{{-1 #}}}|| ||<#FFFFFF><-4><(>,,동질적 부분집합에 있는 집단에 대한 평균이 표시됩니다.,,[BR],,a. 조화평균 표본크기 ###.###을(를) 사용합니다.,,[BR],,b. 집단 크기가 동일하지 않습니다. 집단 크기의 조화평균이,,[BR],,사용됩니다. I 유형 오차 수준은 보장되지 않습니다.,,|| }}} === 이원분산분석 === ||<-2><:><#FFFFFF>{{{+1 이원분산분석}}}[BR]{{{-2 Two-way Analysis of Variance}}}|| ||<:>'''사용목적'''||<:>평균 비교[BR]상호작용 확인|| ||<:>'''집단의 수'''||<:>2개 이상×2개 이상|| ||<:>'''자료의 성질'''||<:>범주형 IV 2개[BR]연속형 DV 1개|| ||<:>'''측정회차'''||<:>1회|| ||<:>'''주요전제'''||<:>변인 간 관계 선형성[BR]집단별 모집단 정규성[BR]집단별 모집단 독립성[BR]집단별 모집단 등분산성|| > ...나무위키를 이용하지 않는 일반인 200명을 대상으로, 나무위키·위키백과·디시위키 3개 위키위키 서비스의 정보성에 대한 인식을 조사하였다. 그런데 탐색적 조사에서, 응답자의 전공이 문·이과에 따라서 나무위키에 대한 인식이 달라질 수 있다는 가능성이 확인되었다. 이에 종속변인을 정보성 인식 단일문항 10점 척도로 삼고(1="정보가 전혀 없다", 10="정보가 매우 많다"), 응답자 전공(문과·이과) 및 위키위키 서비스(나무위키·위키백과·디시위키)를 구분하여 2×3 이원분산분석을 실시하였다. > > 응답 결과 6가지 셀에 해당하는 정보성 인식의 각각의 평균 및 표준편차는 표 #에 정리되어 있다. 이원분산분석 결과, 응답자 전공별로 두 집단의 평균과 위키위키 서비스별로 세 집단의 평균 사이에는 통계적으로 유의한 상호작용이 확인되었다(F,,(3,196),,=#.##, η^^2^^=.###, p<.05). Bonferroni 사후분석 결과는 문과생들의 경우 위키백과에 대한 정보성 인식이 다른 두 서비스보다 통계적으로 유의하게 높게 나타나(ps<.05) a=c<b 관계가 성립하였으며, 이과생들의 경우 위키백과와 나무위키에 비해 디시위키의 정보성 인식이 통계적으로 유의하게 낮게 나타나(ps<.05) d=e>f 관계가 성립하였다. 위키위키 서비스별로 보면 위키백과는 문과생들이 더 정보성을 높게 인식하였고(p<.05), 나무위키는 이과생들이 더 높게 인식하였으며(p<.05), 디시위키에 대해서는 전공별로 유의한 차이가 없었다(p=n.s.). > > 이상의 분석 결과는 응답자의 전공과 위키위키 서비스의 차별성이 응답자들의 정보성 인식에 복합적으로 영향을 끼치고 있음을 보여준다. 문과생들은 위키백과의 정보적 가치를 이과생들보다 의미 있게 높게 평가했으며, 나무위키나 디시위키에 대해서는 정보성이 거의 없다고 인식했다. 반면 이과생들은 위키백과와 나무위키가 중간 정도의 유사한 정보적 가치를 갖고 있다고 보았고, 디시위키는 문과생들과 마찬가지로 정보성이 거의 없다고 인식했다. 그러나 위키백과에 대한 문과생들의 정보성 인식을 제외한 모든 셀의 평균들이 중간값인 5.5점에 미치지 못하여, 위키위키 서비스 자체가 정보의 출처로서 큰 신뢰를 받지 못하고 있음도 보여준다... 이원분산분석이 갖는 특징은 범주형 독립변인이 2개라는 것으로,[* 만일 3개까지 늘어날 경우에는 삼원분산분석이 되지만, 분석의 규모가 그만큼 무지막지하게 커지는데다 해석의 부담도 많아지므로 여기까지 가는 경우는 별로 없다. 보통은 그 중에서 이론을 따라 2개만 추리고 나머지 하나는 공변인(CV; covariate)으로 통제해 버린다.] 각각의 수준이 몇 개인지에 따라서 '''n×n 분산분석'''이라고도 한다. [[실험설계]]의 관점에서는 '''요인설계'''(factorial design)를 통계적으로 분석하는 기법이며, 그 외에도 블록화설계(block design)도 자주 언급되는 실험설계이지만 이 경우에는 이원분산분석이 아니라 일원분산분석으로 치는 경우가 많다. 아무튼 이때부터는 숫자로 가득한 표만 던져주면 동료 연구자들조차 한눈에 알아보기 쉽지 않으므로 '''평균 도표'''를 그리게 되는데, SPSS에서 출력 가능한 도표는 '''그냥 참고만 하고''' 보통 연구자들이 처음부터 다시 그린다(…). 이유는 [[디자이너를 괴롭히는 방법|일단 못생겼기도 하거니와]] 오차막대(error bar) 같은 중요한 표식들의 추가가 제공되지 않기 때문.[* 단, 반복측정 분산분석의 경우 오차막대를 추가하는 방법이 있으며 이는 하술되어 있다.] 일단 이원분산분석 대화 창을 열자마자 제일 먼저 당황하게 되는 것은 '''고정요인'''(F)과 '''변량요인'''(A)의 구분이다. 본격적으로 심도 있는 분산분석을 시작하려는 SPSS는 사용자가 투입하려는 독립변인이 고정요인과 변량요인 중 어느 쪽인지부터 묻는다. 고정요인이란 '''고정효과모형'''(fixed effect model)과도 관련이 있으며, 범주형 변인의 각 값들이 그 자체로 의미를 가지며 그 이외의 값이 없어서 [[일반화]]가 불가능한 경우를 말한다. 대표적인 사례로 [[성별]]이 있고, 특별시·광역시·소도시 형태의 구분 또한 고정요인에 속한다. 한편 변량요인이란 '''무선효과모형'''(random effect model)과도 관련이 있으며, 범주형 변인의 각 값들이 단순히 [[표본조사|무선추출]]의 결과일 뿐이며 추출되지 않은 다른 것들로까지 [[일반화]]를 예상하고 있는 경우를 말한다. 예컨대 [[구리시]]·[[구미시]]·[[양산시]]를 각 값으로 삼았다면 이 분석의 결과는 [[광명시]]·[[경산시]]·[[김해시]] 등의 다른 지자체들까지 일반화를 할 수 있어야 하므로 변량요인이 된다. 이원분산분석에서는 대화 창의 '옵션' 으로 들어가서 아래쪽의 '효과크기 추정값' 체크박스를 찍어주는 것이 권장된다. 이것은 결과표에 '''부분에타제곱'''(partial η^^2^^)을 함께 계산해서 출력해 놓으라는 명령이다. SPSS는 이원분산분석을 효과모형으로 이해하여 사용자가 투입한 두 독립변인으로 설명 가능한 편차의 양을 계산, [[회귀분석]]과 마찬가지로 결정계수(coefficient of determination)인 R^^2^^ 및 수정된 R^^2^^ 값을 출력해 보여준다.[* SPSS에서 이원분산분석을 선형모형 메뉴로 들어가야 찾을 수 있는 것도, 컴퓨터가 그 메뉴의 모든 분석기능을 회귀모형의 관점에서 이해하기 때문이다. 아울러 회귀분석이 그렇듯 여기서도 절편(intercept)이 함께 계산되는데, 십중팔구 어마어마하게 유의한 것으로 나타나곤 한다. 어느 정도냐면 F-값이 수천을 찍다 못해 때로는 만 단위를 돌파하기도 할 정도. 그러나 이원분산분석에서 절편은 따로 큰 가치가 없기 때문에 보고할 때에는 제외된다.] 만일 R^^2^^ 값이 R^^2^^=.150으로 출력되었다면 두 독립변인이 전체 분산의 15%를 설명하고 있다는 의미다. 이때 이것을 그대로 보고할 수도 있지만 이원분산분석에서는 '''각각의 독립변인이 개별적으로 갖는 설명력'''을 살펴볼 수 있는데 이것이 바로 부분에타제곱이다. 이 값은 집단 간 제곱합을 집단 간에다[* 정확히는 모든 독립변인들의 주효과와 상호작용이 갖는 제곱합. 주효과와 상호작용의 의미는 하술되어 있다.] 집단 내 제곱합까지 전부 더한 값과의 비율로 나타난다(partial η^^2^^=SS,,Bi,,/(SS,,B,,+SS,,W,,)). 부분에타제곱은 η^^2^^≥.060 정도일 때부터 웬만큼 크다고 이해되지만, 소표본에서는 η^^2^^이 크다 해도 F-값이나 p-값이 여전히 유의하지 않을 수도 있다. 중요한 것은, 독립변인이 2개일 때는 두 독립변인이 서로의 데이터에 영향을 주고받게 되는데 이걸로 설명되는 편차의 비율도 부분에타제곱으로 확인 가능하다는 것. 이처럼 하나의 독립변인의 값 혹은 수준의 변화가 다른 독립변인의 값 혹은 수준에 변화를 일으키는 현상을 '''상호작용'''(interaction) 혹은 어려운 용어로 교호작용(交互作用)이라고 한다. 현실적으로 '''이원분산분석의 중요한 분석목표가 바로 이 상호작용을 사냥하는 것이다.''' 회귀분석으로 치자면 범주형 회귀분석과도 비슷한 위상. 상호작용이 존재하는 데이터는 출력되는 평균 도표 역시 <, >, × 형태로 기울기가 크게 달라진다. 상호작용은 [[케이스 바이 케이스]]를 설명함으로써 해석에 굉장한 통찰을 제공하기에 [[사회과학]]의 설명적 모형에서 무척 환영받는다. 결과적으로, 이원분산분석의 '개체 간 효과 검정' 결과표에서는 3개의 가로행을 주목할 필요가 있다. 우선 첫째 독립변인이 배타적으로 종속변인에 대해 갖는 설명력, 다음으로 둘째 독립변인이 배타적으로 갖는 설명력, 마지막으로 두 독립변인이 서로 주고받는 영향이 갖는 설명력이다. 앞의 두 개를 '''주효과'''(main effect)라고 하며, '''해석상의 가치는 상호작용에 비해 떨어지는 편이다.''' 이는 상호작용의 존재가 이론 및 선행문헌에 의해 추론되기 때문이다. 만일 상호작용이 없을 때에는 주효과를 논의하는 것만으로 끝이 아니라, 어째서 상호작용이 나타나지 않았는지까지 논의해야 분석이 완료된다. 반대로 상호작용이 유의하게 나타났다면, 특히 그 F-값이 확실히 크다면 아예 주효과에 대한 논의를 생략하는 것도 가능하다. 두 독립변인 중 어느 하나를 제외한 채 다른 하나가 배타적으로 갖는 의미를 논의할 필요가 없어지기 때문이다.[* 흔한 예로, 소위 '[[20대]] [[남성]]' 현상 역시 어떻게 보면 '[[세대]]' 독립변인과 '[[성별]]' 독립변인 사이에 나타나는 상호작용이라고 할 수 있다. 그래서 20대 남성 이슈를 젠더갈등 시각에서 설명하는 것은 '성별' 독립변인의 주효과를 논의하는 것이고, 세대갈등 시각에서 설명하는 것은 '세대' 독립변인의 주효과를 논의하는 것이 된다. 물론 양쪽 모두 현실을 완전하게 담아내지 못하는 부족한 설명이 될 수밖에 없다. '상호작용이 강할 경우 주효과 위주의 논의가 큰 의미가 없다' 는 설명은 이런 식으로도 이해될 수 있겠다.] 그래서 '''상호작용은 분석에 있어서 엄청난 주목을 받는 '오늘의 주인공' 이라고도 할 수 있다.''' 상호작용 떴다고 동료 연구자들 사이에서 축하를 받는 경우도 있을 정도(…). 이원분산분석부터는 이제 사후분석이 매우 골치아파지기 시작한다(…). 예컨대 성별과 거주지역의 2×3 이원분산분석을 한다고 가정해 보자. 거주지역은 '특별시', '광역시', '소도시' 의 3수준이므로 분석을 완료하려면 이들 사이의 다중비교가 동원되어야 한다. 단순히 그 정도만을 알고 싶다면, SPSS 대화 창에서 '옵션' 버튼을 누르고 거주지역 독립변인을 '평균 표시 기준' 으로 옮긴 뒤, 아래쪽 '주효과 비교' 체크박스를 클릭하고 신뢰구간 수정은 Bonferroni 방법으로 설정하면 된다. 하지만 '''상호작용이 나타났다면 '주효과 비교' 기능만으로는 부족하다.''' 분석가는 남성일 경우의 다중비교와 여성일 경우의 다중비교가 어떻게 나타나는지, 거주지역 변인이 두 성별 중 어느 쪽에서 유의한지를 뜯어보아야 한다. 이것을 '''단순주효과'''(simple main effect)라고 하는데 이에 대해서는 '''명령문을 편집해야 하며, 일반적인 대화 창으로는 해결할 수 없는 기능이다.'''[* 물론 '주효과 비교' 기능을 전부 지정한 상태에서 명령문을 편집해도 된다.] * 분석을 위한 다른 모든 입력 작업을 완료한다. * 대화 창에서 '옵션' 버튼을 클릭하고, '평균 표시 기준' 칸에다 '독립변수1*독립변수2' 상호작용 요인을 옮겨놓는다. * 대화 창에서 '붙여넣기' 버튼을 클릭하여 명령문을 띄운 뒤, 중간쯤에 있는 코드 뒤에 아래와 같은 코드를 추가로 입력한다. 사용자가 직접 추가할 부분은 굵은 글씨로 표기하였으며, 입력 시 대소문자는 구분하지 않아도 된다. || /EMMEANS=TABLES(독립변수1*독립변수2) '''COMPARE (독립변수1) ADJ(BONFERRONI)'''|| * 전체 명령문을 블록으로 끌어 잡은 후 {{{#47C83E ▶}}} 버튼을 눌러서 명령문을 실행한다. 위의 사례는 첫째 독립변인이 3수준이어서 다중비교가 필요한 상황을 예시화한 것이고, 어떤 변인이든지 다중비교가 필요하다면 compare 뒤쪽에다 소괄호를 치고 변수명을 입력하면 된다. 아무튼 분산분석의 사후분석은 범주형 회귀분석의 상호작용 계산을 비롯하여 SPSS 인터페이스의 맹한 면모를 발견하게 되는 순간들 중 하나다. * '''H,,0,,''': 분석에 투입된 두 독립변인이 종속변인의 평균에 끼치는 주효과 및 상호작용은 '''존재하지 않을''' 것이다. * '''H,,1-1,,''': 분석에 투입된 독립변인들 중 적어도 하나 이상은 주효과가 '''존재할''' 것이다. * '''H,,1-2,,''': 분석에 투입된 독립변인들 간에는 적어도 하나 이상의 관계에서 상호작용이 '''존재할''' 것이다. {{{#!folding [이원분산분석의 명령과 결과] 이하의 사례는 집단별 모집단 등분산성이 깨졌을 때를 대비한 부차적 분석결과나, 사후분석에서 집단 간 차이가 구체적으로 어떠한지는 생략한다. ||분석 ▶ 일반선형모형 ▶ 일변량 ▶ [고정요인/변량요인-독립변수 입력] ▶ [종속변수 입력][BR]▶ 도표 ▶ [수평축 변수입력] ▶ [선구분 변수입력] ▶ 추가 ▶ 계속[BR]▶ 옵션 ▶ [평균 표시 기준-독립변인 입력] ▶ 주효과 비교ⓥ ▶ [신뢰구간 수정-Bonferroni] ▶ 기술통계량ⓥ / 분산 동질성 검정ⓥ / 효과크기 추정값ⓥ ▶ 계속[BR]▶ 붙여넣기 ▶ [명령문 수정] ▶ 블록 지정 ▶ 명령문 실행|| 위의 방식대로 명령을 내리면 아래와 같은 결과가 나온다. {{{#B7F0B1 ■}}} 색상으로 칠해진 셀의 경우 결과보고의 대상이 되므로 주의를 기울여야 한다. ||<:><#FFFFFF><-4>{{{+1 개체-간 요인}}}|| ||<-2><:> ||<:>{{{-1 값 레이블}}}||<:>{{{-1 N}}}|| ||<^|2><(>{{{-1 독립변수1}}}||<(>{{{-1 값1}}}||<(>{{{-1 @}}}||<)>{{{-1 #}}}|| ||<(>{{{-1 값2}}}||<(>{{{-1 @}}}||<)>{{{-1 #}}}|| ||<^|3><(>{{{-1 독립변수2}}}||<(>{{{-1 값1}}}||<(>{{{-1 @}}}||<)>{{{-1 #}}}|| ||<(>{{{-1 값2}}}||<(>{{{-1 @}}}||<)>{{{-1 #}}}|| ||<(>{{{-1 값3}}}||<(>{{{-1 @}}}||<)>{{{-1 #}}}|| ||<:><#FFFFFF><-5>{{{+1 기술통계량}}}|| ||<#FFFFFF><-5><(>{{{-1 종속변수: 종속변수}}}|| ||<(>{{{-1 독립변수1}}}||<(>{{{-1 독립변수2}}}||<:>{{{-1 평균}}}||<:>{{{-1 표준편차}}}||<:>{{{-1 N}}}|| ||<^|4><(>{{{-1 값1}}}||<(>{{{-1 값1}}}||<)>{{{-1 #}}}||<)>{{{-1 #}}}||<)>{{{-1 #}}}|| ||<(>{{{-1 값2}}}||<)>{{{-1 #}}}||<)>{{{-1 #}}}||<)>{{{-1 #}}}|| ||<(>{{{-1 값3}}}||<)>{{{-1 #}}}||<)>{{{-1 #}}}||<)>{{{-1 #}}}|| ||<(>{{{-1 전체}}}||<#FFFFFF><)>{{{-1 #}}}||<#FFFFFF><)>{{{-1 #}}}||<)>{{{-1 #}}}|| ||<^|4><(>{{{-1 값2}}}||<(>{{{-1 값1}}}||<)>{{{-1 #}}}||<)>{{{-1 #}}}||<)>{{{-1 #}}}|| ||<(>{{{-1 값2}}}||<)>{{{-1 #}}}||<)>{{{-1 #}}}||<)>{{{-1 #}}}|| ||<(>{{{-1 값3}}}||<)>{{{-1 #}}}||<)>{{{-1 #}}}||<)>{{{-1 #}}}|| ||<(>{{{-1 전체}}}||<#FFFFFF><)>{{{-1 #}}}||<#FFFFFF><)>{{{-1 #}}}||<)>{{{-1 #}}}|| ||<^|4><(>{{{-1 전체}}}||<(>{{{-1 값1}}}||<#FFFFFF><)>{{{-1 #}}}||<#FFFFFF><)>{{{-1 #}}}||<)>{{{-1 #}}}|| ||<(>{{{-1 값2}}}||<#FFFFFF><)>{{{-1 #}}}||<#FFFFFF><)>{{{-1 #}}}||<)>{{{-1 #}}}|| ||<(>{{{-1 값3}}}||<#FFFFFF><)>{{{-1 #}}}||<#FFFFFF><)>{{{-1 #}}}||<)>{{{-1 #}}}|| ||<(>{{{-1 전체}}}||<#FFFFFF><)>{{{-1 #}}}||<#FFFFFF><)>{{{-1 #}}}||<)>{{{-1 #}}}|| ||<:><#FFFFFF><-4>{{{+1 오차 분산의 동일성에 대한 Levene의 검정}}}^^a^^|| ||<#FFFFFF><-4><(>{{{-1 종속변수: 종속변수}}}|| ||<:>{{{-1 F}}}||<:>{{{-1 자유도1}}}||<:>{{{-1 자유도2}}}||<:>{{{-1 유의확률}}}|| ||<)>{{{-1 #}}}||<)>{{{-1 #}}}||<)>{{{-1 #}}}||<)>{{{-1 #}}}|| ||<#FFFFFF><-4><(>,,여러 집단에서 종속변수의 오차 분산이 동일한 영가설을 검정합니다.,,[BR],,a. Design: 절편+독립변수1+독립변수2+독립변수1*독립변수2,,|| ||<:><#FFFFFF><-7>{{{+1 개체-간 효과 검정}}}|| ||<#FFFFFF><-7><(>{{{-1 종속변수: 종속변수}}}|| ||<(>{{{-1 소스}}}||<:>{{{-1 제 III 유형 제곱합}}}||<:>{{{-1 자유도}}}||<:>{{{-1 평균제곱}}}||<:>{{{-1 F}}}||<:>{{{-1 유의확률}}}||<:>{{{-1 부분 에타 제곱}}}|| ||<(>{{{-1 수정된 모형}}}||<)>{{{-1 #}}}^^a^^||<)>{{{-1 #}}}||<)>{{{-1 #}}}||<)>{{{-1 #}}}||<)>{{{-1 #}}}||<)>{{{-1 #}}}|| ||<(>{{{-1 절편}}}||<)>{{{-1 #}}}||<)>{{{-1 #}}}||<)>{{{-1 #}}}||<)>{{{-1 #}}}||<)>{{{-1 #}}}||<)>{{{-1 #}}}|| ||<(>{{{-1 독립변수1}}}||<)>{{{-1 ⓐ}}}||<#B7F0B1><)>{{{-1 #}}}||<)>{{{-1 #}}}||<#B7F0B1><)>{{{-1 #}}}||<#B7F0B1><)>{{{-1 #}}}||<#B7F0B1><)>{{{-1 ⓐ÷(ⓐ+ⓓ)}}}|| ||<(>{{{-1 독립변수2}}}||<)>{{{-1 ⓑ}}}||<#B7F0B1><)>{{{-1 #}}}||<)>{{{-1 #}}}||<#B7F0B1><)>{{{-1 #}}}||<#B7F0B1><)>{{{-1 #}}}||<#B7F0B1><)>{{{-1 ⓑ÷(ⓑ+ⓓ)}}}|| ||<(>{{{-1 독립변수1*독립변수2}}}||<)>{{{-1 ⓒ}}}||<#B7F0B1><)>{{{-1 #}}}||<)>{{{-1 #}}}||<#B7F0B1><)>{{{-1 #}}}||<#B7F0B1><)>{{{-1 #}}}||<#B7F0B1><)>{{{-1 ⓒ÷(ⓒ+ⓓ)}}}|| ||<(>{{{-1 오차}}}||<)>{{{-1 ⓓ}}}||<#B7F0B1><)>{{{-1 #}}}||<)>{{{-1 #}}}|| || || || ||<(>{{{-1 전체}}}||<)>{{{-1 #}}}||<)>{{{-1 #}}}|| || || || || ||<(>{{{-1 수정된 합계}}}||<)>{{{-1 #}}}||<)>{{{-1 #}}}|| || || || || ||<#FFFFFF><-7><(>,,a. R 제곱=.### (수정된 R 제곱=.###),,|| ||<:><#FFFFFF><-8>{{{+1 대응별 비교}}}|| ||<#FFFFFF><-8><(>{{{-1 종속변수: 종속변수}}}|| ||<(>{{{-1 독립변수1}}}||<(>{{{-1 (I) 독립변수2}}}||<(>{{{-1 (J) 독립변수2}}}||<:>{{{-1 평균차이(I-J)}}}||<:>{{{-1 표준오차}}}||<:>{{{-1 유의확률}}}^^b^^||<-2><:>{{{-1 95% 신뢰구간}}}^^b^^|| ||<:>{{{-1 하한}}}||<:>{{{-1 상한}}}|| ||<^|6><(>{{{-1 값1}}}||<^|2><(>{{{-1 값1}}}||<(>{{{-1 값2}}}||<)>{{{-1 #}}}||<)>{{{-1 #}}}||<)>{{{-1 #}}}||<)>{{{-1 #}}}||<)>{{{-1 #}}}|| ||<(>{{{-1 값3}}}||<)>{{{-1 #}}}||<)>{{{-1 #}}}||<)>{{{-1 #}}}||<)>{{{-1 #}}}||<)>{{{-1 #}}}|| ||<^|2><(>{{{-1 값2}}}||<(>{{{-1 값1}}}||<)>{{{-1 #}}}||<)>{{{-1 #}}}||<)>{{{-1 #}}}||<)>{{{-1 #}}}||<)>{{{-1 #}}}|| ||<(>{{{-1 값3}}}||<)>{{{-1 #}}}||<)>{{{-1 #}}}||<)>{{{-1 #}}}||<)>{{{-1 #}}}||<)>{{{-1 #}}}|| ||<^|2><(>{{{-1 값3}}}||<(>{{{-1 값1}}}||<)>{{{-1 #}}}||<)>{{{-1 #}}}||<)>{{{-1 #}}}||<)>{{{-1 #}}}||<)>{{{-1 #}}}|| ||<(>{{{-1 값2}}}||<)>{{{-1 #}}}||<)>{{{-1 #}}}||<)>{{{-1 #}}}||<)>{{{-1 #}}}||<)>{{{-1 #}}}|| ||<^|6><(>{{{-1 값2}}}||<^|2><(>{{{-1 값1}}}||<(>{{{-1 값2}}}||<)>{{{-1 #}}}||<)>{{{-1 #}}}||<)>{{{-1 #}}}||<)>{{{-1 #}}}||<)>{{{-1 #}}}|| ||<(>{{{-1 값3}}}||<)>{{{-1 #}}}||<)>{{{-1 #}}}||<)>{{{-1 #}}}||<)>{{{-1 #}}}||<)>{{{-1 #}}}|| ||<^|2><(>{{{-1 값2}}}||<(>{{{-1 값1}}}||<)>{{{-1 #}}}||<)>{{{-1 #}}}||<)>{{{-1 #}}}||<)>{{{-1 #}}}||<)>{{{-1 #}}}|| ||<(>{{{-1 값3}}}||<)>{{{-1 #}}}||<)>{{{-1 #}}}||<)>{{{-1 #}}}||<)>{{{-1 #}}}||<)>{{{-1 #}}}|| ||<^|2><(>{{{-1 값3}}}||<(>{{{-1 값1}}}||<)>{{{-1 #}}}||<)>{{{-1 #}}}||<)>{{{-1 #}}}||<)>{{{-1 #}}}||<)>{{{-1 #}}}|| ||<(>{{{-1 값2}}}||<)>{{{-1 #}}}||<)>{{{-1 #}}}||<)>{{{-1 #}}}||<)>{{{-1 #}}}||<)>{{{-1 #}}}|| ||<#FFFFFF><-8><(>,,추정 주변 평균을 기준으로,,[BR],,'''*'''. 평균차이는 0.05 수준에서 유의합니다.,,[BR],,b. 다중비교를 위한 수정: Bonferroni.,,|| ||<:><#FFFFFF>{{{+1 종속변수의 추정 주변 평균}}}|| }}} === 공분산분석 === ||<-2><:><#FFFFFF>{{{+1 공분산분석}}}[BR]{{{-2 Analysis of Covariance}}}|| ||<:>'''사용목적'''||<:>평균 비교[BR]변인 통제|| ||<:>'''집단의 수'''||<:>2개 (흔히 3개) 이상|| ||<:>'''자료의 성질'''||<:>범주형 IV 1개[BR]연속형 DV 1개[BR]연속형 CV 1개 이상|| ||<:>'''측정회차'''||<:>1회|| ||<:>'''주요전제'''||<:>변인 간 관계 선형성[BR]집단별 모집단 정규성[BR]집단별 모집단 독립성[BR]집단별 모집단 등분산성[BR]집단 간 회귀계수 동등성|| > ...나무위키를 이용하지 않는 일반인 200명을 대상으로, 나무위키·위키백과·디시위키 3개 위키위키 서비스 열람 시의 재미에 대한 인식을 조사하였다. 그런데 탐색적 조사에서, 고학력자일수록 지적인 호기심이나 학구열까지도 재미의 일종으로 느낄 수 있다는 가능성이 제기되었다. 분석의 얼개는 나무위키 이용자 집단을 대상으로 한 것과 동일하게 하되, 이번에는 교육년수를 공변인으로 삼아 통제한 상태에서 일반인들의 재미 인식을 측정하고(1="매우 재미없었다", 10="매우 재미있었다") 공분산분석을 실시하였다. > > 집단별 재미 인식의 평균 및 표준편차는, 나무위키 조건(n=66)은 평균 #.##점(#.##)a, 위키백과 조건(n=67)은 평균 #.##점(#.##)b, 디시위키 조건(n=67)은 평균 #.##점(#.##)c으로, 모든 평균이 중간값 5.5점에 미치지 못했다. 공분산분석 결과, 교육년수는 재미 인식에 통계적으로 유의한 영향을 끼치고 있었으며(F,,(2,197),,=#.##, η2=.###, p<.05), 위키위키 서비스별로 세 집단의 평균 사이에는 교육년수를 통제했을 때에도 통계적으로 유의한 차이가 확인되었다(F,,(2,197),,=#.##, η2=.###, p<.05). Scheffe 사후분석 결과는 세 집단의 평균 사이에 a>b=c 관계가 성립하는 것으로 나타났다(ps<.05). 이상의 결과는, 나무위키 이용자들의 교육년수를 고려하더라도 나무위키 열람 경험이 위키백과나 디시위키보다 의미 있는 수준으로 더 즐거웠음을 의미하나, 확실한 재미를 보장하지는 못했음도 보여준다... 여러분이 [[피자]] 한 판을 사 왔다고 상상해 보자. 몇 조각이나 먹을까 궁리하고 있는데 피자 냄새를 맡은 동생이 나타나서는 부모님 몫으로 피자를 접시에 담아가겠다고 한다. 그런데 어째서인지 동생은 피자를 절반 이상 가져가려고 들고, 부모님이 구체적으로 몇 조각씩 드시는 거냐고 따져도 대답은커녕 [[불효|부모님 생각도 안 드냐]]며 다그칠 뿐이다. 그런데 그 순간, 어머니가 현장에 나타나서 피자 한 조각을 직접 가져가신다. 이제 동생은 피자를 절반 이상 가져갈 명분을 잃었다. 동생은 부모님 핑계를 대면서 자기 몫을 몰래 더 챙기려던 계획이 틀어져 버린 것이다. 그리고 여러분은 이 모든 사건을 눈 앞에서 목격한 덕택에, 각자가 가져갈 피자의 지분을 더 잘 설명할 수 있게 되었다. 사실 위의 가상의 이야기는 공분산분석의 논리와 통하는 점이 많다. 피자 한 판은 분석가가 갖고 있는 데이터로부터 얻어진 전체 편차제곱합이다(SS,,T,,). 그리고 여러분이 먹게 되는 피자조각의 비율은 독립변인을 통해 집단 간에 처리되는 집단 간 제곱합이다(SS,,B,,). 남겨지는 피자를 노리는 동생은, 집단 간으로는 설명되지 않은 채 남겨진 집단 내의 편차의 제곱합이라고 할 수 있다(SS,,W,,). 여기서 불쑥 등장한 어머니는 공변인(CV)으로, 공변인의 편차제곱합은 일반적인 분산분석에서는 집단 내 제곱합의 일부로 취급되지만, 어느 정도 비율이 될지는 모른다. 그러다 일단 통계적으로 분석되면 집단 내 제곱합에서 '분리되어 나와서' 분석에서 제외된다. 결과적으로 그 모형의 F-값은 증가하게 되고, 모형을 통한 데이터 설명력도 증가하게 된다. 만일 공변인이 없었더라면 공변인의 몫에 속할 편차제곱합은 비체계적 오차로 부당하게 싸잡아 취급되었을 것이다. 이처럼 공분산분석은 집단 간의 편차와 집단 내의 편차의 합이 전체 편차라는 논리를 확장하여, 공변인의 편차가 따로 존재한다고 규정하고 해당 편차의 크기를 '뜯어내' 버린다. 공변인에 의한 편차가 체계적으로 제외되면, 이제 그 모형에서 남겨진 편차는 우리가 알고자 하는 집단 간 제곱합, 그리고 분석에 의미 없는 공변인들과 비체계적 오차로 간주될 수 있다. 이런 논리 덕에 '''공분산분석은 불필요하게 혼입되는 변인을 [[통제]]하는 [[실험설계]]에 아주 잘 어울린다.''' [[회귀분석]]으로 치자면 위계적 다중회귀분석(hierarchical multiple regression)과도 같은 용도인데, 실제로 공분산분석은 분산분석의 논리에 회귀분석의 논리가 결합된 분석이라고 알려져 있으며, '''제곱합의 수학적 분해 역시 위계적으로 이루어진다'''는 공통점이 있다. 그러나 어지간한 통계 교과서들이나 웹상의 자료들을 찾아봐도 공분산분석을 수식으로 풀어 설명하는 경우는 흔치 않은데, 이는 수학적 논리가 달라서가 아니라 회귀모형의 관점을 끌어왔기 때문으로 보인다. 그래서 n원분산분석을 쓸 때에도 공변인만 추가하면 그게 공분산분석이 된다. 단, 제곱합을 위계적으로 분해하려면 SPSS에서 '''제 I 유형 제곱합'''으로 설정을 변경해 주어야 한다는 점은 유의할 것.[* 비교하자면, '''제 II 유형 제곱합'''은 주효과 위주의 모형을 만들 때 선택하게 되고, '''제 III 유형 제곱합'''은 디폴트로 설정되어 있으며 제곱합이 교정되고 직교(orthogonal)의 관계를 갖는다. 마지막으로 '''제 IV 유형 제곱합'''은 결측값이 많을 때 사용된다. 공분산분석을 하려면 '''제 I 유형 제곱합'''을 선택해야 한다.] 은근히 잊고 넘어가기 쉽다. 제대로 된 공분산분석이 성립하려면 독립변인은 범주형이고 '''공변인은 연속형'''이어야 한다. 그런데 바로 이 점에서, "그럼 공변인으로 들어가는 연속형 변인을 그냥 제2의 독립변인으로 취급하면 범주형 회귀분석(categorical regression)도 되지 않나?" 하는 생각이 들 수도 있다. 우선, 분석은 이런 식으로 편의에 따라 하면 안 된다. 어떤 변인을 독립변인, 즉 관심의 대상이 되는 변인으로 선정하는 것은 '''엄격한 문헌 검토'''를 바탕으로 이루어져야 하는 것이고, 어떤 변인을 공변인으로 취급한다는 것 역시 그것을 독립변인으로 대우해야 할 문헌적이고 이론적인 이유가 없기 때문이다. 공변인은 분석가의 관심의 대상이 아님에도 불구하고 종속변인에 너무 큰 영향을 끼치고 있을 때[* 이때 공변인이 독립변인에는 상관을 보이지 않아야 한다. 독립변인과의 상관이 존재할 경우 공변인이 뜯겨나갈 때 독립변인이 원래 설명해야 할 종속변인의 편차를 죄다 갖고 나가 버려서 분석 자체를 무의미하게 만들어 버린다.] 그것을 [[통제]]해야만 설득력 있는 분석이 가능하기 때문에 공변인이 되는 것이다. 다음으로, 공분산분석과 범주형 회귀분석은 '''상호작용의 해석적 중요성'''에 있어서 가장 결정적인 차이를 보인다. 범주형 회귀분석은 각 수준에 따라 나타나는 회귀선의 변동을 잡아내기 위한, 말 그대로 '상호작용을 [[저격]]하려고 실시하는 분석' 에 속한다. 그런데 공분산분석은 독립변인과 공변인 사이의 상호작용이 없을 것이 기대되고, 없어야 하며, 찾아내는 것도 SPSS가 직접적으로 도와주지 않는다. 그래서 만일 두 변인의 상호작용이 궁금한데 하나가 범주형이고 하나가 연속형이라는 이유만으로 공분산분석을 뒤적이고 있다면 번지수 잘못 찾은 것이다. '''범주형×연속형 변인 간의 상호작용을 포착하려면 공분산분석이 아니라 범주형 회귀분석을 써야 한다.''' 공분산분석의 회귀모형에서 공변인은 각 집단들 간의 회귀선의 Y-절편을 변동시키지만 기울기는 건드리지 않는다. 그러니까 사실은, 공분산분석을 쓰고 싶다면 먼저 범주형 회귀분석으로 상호작용이 없음을 확인한 뒤에 분석을 시작하는 편이 분석의 정당화가 쉽다. 공분산분석의 사후분석은 상기한 '주효과 비교' 기능으로 대신하게 된다. [[SPSS]]에서 '일변량' 대화 창을 열고 공변인을 지정하는 순간 뜻밖에도 오른쪽의 '사후분석' 버튼이 비활성화되는 것을 볼 수 있다. 즉 공변인이 모형에 투입되는 순간 '사후분석' 기능은 사용 불가능하다. 그래서 그 대신 '옵션' 버튼을 누르고 독립변인을 '평균 표시 기준' 에 옮긴 뒤 '주효과 비교' 체크박스를 클릭하는 것이 최선이다. 이후 신뢰구간 수정 드롭다운 메뉴에서 '''Bonferroni 방법'''이 지원되는데 원체 대중적이기도 하고 무난해서 이걸 대부분 골라 쓰게 된다. 하지만 이원분산분석이면서 공변인까지 넣고 사후분석을 돌릴 때는 명령문으로 가는 것밖에 방법이 없다. * '''H,,0,,''': 공변인을 통제했을 때, 분석에 포함된 모든 집단들에서 얻어진 평균들은 서로 차이가 '''없을''' 것이다. * '''H,,1,,''': 공변인을 통제했을 때, 분석에 포함된 모든 집단들 중 적어도 하나 이상의 평균은 다른 평균과 차이가 '''있을''' 것이다. {{{#!folding [공분산분석의 명령과 결과] ||분석 ▶ 일반선형모형 ▶ 일변량 ▶ [고정요인/변량요인-독립변수 입력] ▶ [종속변수 입력] ▶ [공변량 입력][BR]▶ 모형 ▶ 완전요인모형ⓥ ▶ [제곱합-제 I 유형] ▶ 모형에 절편 포함ⓥ ▶ 계속[BR]▶ 옵션 ▶ [평균 표시 기준-독립변인 입력] ▶ 주효과 비교ⓥ ▶ [신뢰구간 수정-Bonferroni] ▶ 기술통계량ⓥ / 분산 동질성 검정ⓥ / 효과크기 추정값ⓥ ▶ 계속[BR]▶ 확인|| 위의 방식대로 명령을 내리면 아래와 같은 결과가 나온다. {{{#B7F0B1 ■}}} 색상으로 칠해진 셀의 경우 결과보고의 대상이 되므로 주의를 기울여야 한다. ||<:><#FFFFFF><-4>{{{+1 개체-간 요인}}}|| ||<-2><:> ||<:>{{{-1 값 레이블}}}||<:>{{{-1 N}}}|| ||<^|3><(>{{{-1 독립변수1}}}||<(>{{{-1 값1}}}||<(>{{{-1 @}}}||<)>{{{-1 #}}}|| ||<(>{{{-1 값2}}}||<(>{{{-1 @}}}||<)>{{{-1 #}}}|| ||<(>{{{-1 값3}}}||<(>{{{-1 @}}}||<)>{{{-1 #}}}|| ||<:><#FFFFFF><-4>{{{+1 기술통계량}}}|| ||<#FFFFFF><-4><(>{{{-1 종속변수: 종속변수}}}|| ||<(>{{{-1 독립변수}}}||<:>{{{-1 평균}}}||<:>{{{-1 표준편차}}}||<:>{{{-1 N}}}|| ||<(>{{{-1 값1}}}||<)>{{{-1 #}}}||<)>{{{-1 #}}}||<)>{{{-1 #}}}|| ||<(>{{{-1 값2}}}||<)>{{{-1 #}}}||<)>{{{-1 #}}}||<)>{{{-1 #}}}|| ||<(>{{{-1 값3}}}||<)>{{{-1 #}}}||<)>{{{-1 #}}}||<)>{{{-1 #}}}|| ||<(>{{{-1 전체}}}||<#FFFFFF><)>{{{-1 #}}}||<#FFFFFF><)>{{{-1 #}}}||<)>{{{-1 #}}}|| ||<:><#FFFFFF><-4>{{{+1 오차 분산의 동일성에 대한 Levene의 검정}}}^^a^^|| ||<#FFFFFF><-4><(>{{{-1 종속변수: 종속변수}}}|| ||<:>{{{-1 F}}}||<:>{{{-1 자유도1}}}||<:>{{{-1 자유도2}}}||<:>{{{-1 유의확률}}}|| ||<)>{{{-1 #}}}||<)>{{{-1 #}}}||<)>{{{-1 #}}}||<)>{{{-1 #}}}|| ||<#FFFFFF><-4><(>,,여러 집단에서 종속변수의 오차 분산이 동일한 영가설을 검정합니다.,,[BR],,a. Design: 절편+공변인+독립변수,,|| ||<:><#FFFFFF><-7>{{{+1 개체-간 효과 검정}}}|| ||<#FFFFFF><-7><(>{{{-1 종속변수: 종속변수}}}|| ||<(>{{{-1 소스}}}||<:>{{{-1 제 I 유형 제곱합}}}||<:>{{{-1 자유도}}}||<:>{{{-1 평균제곱}}}||<:>{{{-1 F}}}||<:>{{{-1 유의확률}}}||<:>{{{-1 부분 에타 제곱}}}|| ||<(>{{{-1 수정된 모형}}}||<)>{{{-1 #}}}^^a^^||<)>{{{-1 #}}}||<)>{{{-1 #}}}||<)>{{{-1 #}}}||<)>{{{-1 #}}}||<)>{{{-1 #}}}|| ||<(>{{{-1 절편}}}||<)>{{{-1 #}}}||<)>{{{-1 #}}}||<)>{{{-1 #}}}||<)>{{{-1 #}}}||<)>{{{-1 #}}}||<)>{{{-1 #}}}|| ||<(>{{{-1 공변인}}}||<)>{{{-1 ⓐ}}}||<#B7F0B1><)>{{{-1 #}}}||<)>{{{-1 #}}}||<#B7F0B1><)>{{{-1 #}}}||<#B7F0B1><)>{{{-1 #}}}||<#B7F0B1><)>{{{-1 ⓐ÷(ⓐ+ⓒ)}}}|| ||<(>{{{-1 독립변수}}}||<)>{{{-1 ⓑ}}}||<#B7F0B1><)>{{{-1 #}}}||<)>{{{-1 #}}}||<#B7F0B1><)>{{{-1 #}}}||<#B7F0B1><)>{{{-1 #}}}||<#B7F0B1><)>{{{-1 ⓑ÷(ⓑ+ⓒ)}}}|| ||<(>{{{-1 오차}}}||<)>{{{-1 ⓒ}}}||<#B7F0B1><)>{{{-1 #}}}||<)>{{{-1 #}}}|| || || || ||<(>{{{-1 전체}}}||<)>{{{-1 #}}}||<)>{{{-1 #}}}|| || || || || ||<(>{{{-1 수정된 합계}}}||<)>{{{-1 #}}}||<)>{{{-1 #}}}|| || || || || ||<#FFFFFF><-7><(>,,a. R 제곱=.### (수정된 R 제곱=.###),,|| ||<:><#FFFFFF><-7>{{{+1 대응별 비교}}}|| ||<#FFFFFF><-7><(>{{{-1 종속변수: 종속변수}}}|| ||<(>{{{-1 (I) 독립변수}}}||<(>{{{-1 (J) 독립변수}}}||<:>{{{-1 평균차이(I-J)}}}||<:>{{{-1 표준오차}}}||<:>{{{-1 유의확률}}}^^b^^||<-2><:>{{{-1 95% 신뢰구간}}}^^b^^|| ||<:>{{{-1 하한}}}||<:>{{{-1 상한}}}|| ||<^|2><(>{{{-1 값1}}}||<(>{{{-1 값2}}}||<)>{{{-1 #}}}||<)>{{{-1 #}}}||<)>{{{-1 #}}}||<)>{{{-1 #}}}||<)>{{{-1 #}}}|| ||<(>{{{-1 값3}}}||<)>{{{-1 #}}}||<)>{{{-1 #}}}||<)>{{{-1 #}}}||<)>{{{-1 #}}}||<)>{{{-1 #}}}|| ||<^|2><(>{{{-1 값2}}}||<(>{{{-1 값1}}}||<)>{{{-1 #}}}||<)>{{{-1 #}}}||<)>{{{-1 #}}}||<)>{{{-1 #}}}||<)>{{{-1 #}}}|| ||<(>{{{-1 값3}}}||<)>{{{-1 #}}}||<)>{{{-1 #}}}||<)>{{{-1 #}}}||<)>{{{-1 #}}}||<)>{{{-1 #}}}|| ||<^|2><(>{{{-1 값3}}}||<(>{{{-1 값1}}}||<)>{{{-1 #}}}||<)>{{{-1 #}}}||<)>{{{-1 #}}}||<)>{{{-1 #}}}||<)>{{{-1 #}}}|| ||<(>{{{-1 값2}}}||<)>{{{-1 #}}}||<)>{{{-1 #}}}||<)>{{{-1 #}}}||<)>{{{-1 #}}}||<)>{{{-1 #}}}|| ||<#FFFFFF><-8><(>,,추정 주변 평균을 기준으로,,[BR],,'''*'''. 평균차이는 0.05 수준에서 유의합니다.,,[BR],,b. 다중비교를 위한 수정: Bonferroni.,,|| }}} === 다변량 (공)분산분석 === ||<-2><:><#FFFFFF>{{{+1 다변량 (공)분산분석}}}[BR]{{{-2 Multivariate Analysis of (Co)variance}}}|| ||<:>'''사용목적'''||<:>평균벡터 비교[BR](변인 통제)|| ||<:>'''집단의 수'''||<:>2개 (흔히 3개) 이상|| ||<:>'''자료의 성질'''||<:>범주형 IV 1개[BR]연속형 DV 2개 이상[BR](연속형 CV 1개 이상)|| ||<:>'''측정회차'''||<:>1회|| ||<:>'''주요전제'''||<:>변인 간 관계 선형성[BR]집단별 모집단 정규성[BR]집단별 모집단 독립성[BR]집단별 모집단 등공분산성|| > ...나무위키를 이용하지 않는 일반인 200명을 대상으로 향후의 나무위키·위키백과·디시위키 이용 의향을 열람의향·편집의향·토론의향으로 나누어 조사하였다. 그런데 탐색적 조사에서 위키위키의 열람·편집·토론 사이에는 밀접한 관련성이 존재한다는 데이터가 산출되었다. 이에 각 위키위키 서비스별로 각각의 이용 의향을 3개의 종속변인으로 선정하고 단일문항 10점 척도로 측정한 후(1="절대 ○○하지 않겠다", 10="반드시 ○○하겠다") 다변량 분산분석을 실시하였다. > > 응답 결과 9가지 셀에 해당하는 이용 의향의 각각의 평균 및 표준편차는 표 #에 정리되어 있다. 다변량 분산분석 결과, 위키위키 서비스 간에 열람·편집·토론이 결합된 이용 의향에는 통계적으로 유의한 차이가 확인되었으며(F,,(2,197),,=#.##, η2=.###, p<.05), 이는 Wilks의 λ-값, Pillai의 궤적값, Hotelling-Lawley 궤적값, Roy의 최대근을 포함한 모든 검정에서 동일하였다(ps<.05). Scheffe 사후분석의 경우, 열람의향은 나무위키·위키백과가 디시위키보다 통계적으로 유의하게 더 높아(ps<.05) a=b>c 관계가 성립했으나, 편집의향 및 토론의향은 세 위키위키 서비스들에서 평균이 모두 3점 미만이었으며 통계적으로 서로 유의한 차이도 나타나지 않았다(ps=n.s.). 이상의 결과는 단순히 열람하는 정도라면 일반인들도 향후 나무위키와 위키백과에만 접속할 의향이 있으나, 편집이나 토론과 같은 더 적극적인 이용 경험은 어떤 위키위키 서비스에서도 의향을 드러내지 않았음을 보여준다... 다변량 분산분석을 이해하려면 먼저 '''다변량분석'''(multivariate analysis)이라는 분석군에 대해서 이해할 필요가 있다. 좁은 의미에서 다변량분석은 '''다수의 변인들을 한번에 투입하여 변인들을 분류 및 정리하는 분석'''으로, [[주성분 분석]](principal component analysis) 및 탐색적 [[요인 분석]](exploratory factor analysis), 판별분석(discriminant analysis) 등이 대표적인 사례이다. 가장 넓은 의미에서의 다변량분석은 '''다수의 변인들을 한번에 투입하는 분석'''으로 의미가 넓어지며, 그 대표적인 사례로 다중회귀분석(multiple regression) 및 여기서 소개되는 다변량 분산분석이 있다. 즉 숱한 변인들이 어지럽게 널려 있을 때 이것들을 깔끔하게 교통정리하기 위해서 탐색적 단계에서 동원하게 되는 분석이 좁은 의미의 다변량분석이라면, 더 넓은 의미에서의 다변량분석은 단순히 여러 변인들을 동시에 취급한다는 의미만을 남겨놓았다고 할 수 있다. 다변량 분산분석의 가장 큰 차이점은 '''종속변인이 2개 이상'''이라는 데 있다.[* 독립표본 t-검정에서도 종속변인을 2개 이상 포함시켜서 분석하는 기법이 없지는 않으나, 자주 보기는 힘들다. 이 경우에는 Hotelling의 t^^2^^ 통계량을 이용하게 되며, 그 값은 t-값의 제곱과 같다. 이 기법은 일반적인 [[사회통계]] 커리큘럼에서는 벗어난다.] 기초통계 수준에서 논의되는 그 어떤 회귀분석도, 그리고 지금까지 살펴보았던 분산분석 기법들도, 독립변인이 여럿일 때를 다루는 상황들이었지 종속변인만큼은 언제나 1개뿐이었다. 하지만 종속변인이 여럿이라면 일일이 분산분석을 반복적으로 돌리기보다는 다변량 분산분석으로 한큐에 끝낼 수 있다. 언뜻 편의성을 위해서 개발된 방법인가 할 수 있지만, 분산분석의 필요성을 잘 이해했다면 이번에도 역시 '''다중비교 문제'''를 떠올릴 수 있을 것이다. 대동소이한 분석을 기계적으로 반복하다 보면 1종 오류를 저지를 가능성이 높아지기 때문에, 독립표본 t-검정을 반복하지 않고 분산분석을 채택하는 것처럼, 분산분석을 반복하지 않고 다변량 분산분석을 채택하는 것이다. 그런데 다변량 분산분석은 단순히 종속변인만 여럿으로 늘린 분산분석이 아니다. 다시 말해, 종속변인이 2개인 다변량 분산분석의 결과는 그 두 종속변인을 따로따로 분산분석한 결과와 같지 않다. SPSS에서도 종속변인이 1개짜리인 분산분석은 '일변량' 대화 창에서 취급하지만, 2개 이상일 때는 '다변량' 대화 창으로 따로 안내한다. 그 이유는 종속변인이 1개인가 2개 이상인가에 따라서 '''수학적인 기초 논리가 판이하게 달라지기 때문이다.''' 통계 교과서들이나 웹 자료들을 뒤져보면 다변량 분산분석은 유독 그 수학적 논리에 대한 설명이 별로 없는 것을 볼 수 있는데, 사실 다변량 분산분석을 제대로 이해하려면 [[스칼라]]와 [[벡터]]에 대한 명확한 지식이 있어야 하며, [[통계학]]과 학부생들에게도 다변량분석은 전공 3학점짜리로, 전공자로서 제대로 입문하려면 한 학기를 꼬박 투자해야 한다. 다변량 분산분석의 관점에서 비교의 대상은 여러 집단들 사이의 평균이 아니며, 그보다는 '''여러 집단들이 갖는 평균의 [[벡터]]'''(mean vector)를 비교하게 된다. 쉽게 말해 다변량 분산분석은 종속변인별로 "이 변인에는 차이가 있고, 이 변인들에는 차이가 없습니다" 식으로 말하는 게 아니라, "이 변인들을 아울러 보았을 때 차이가 있습니다" 가 된다. 독립변인이 3수준이고 종속변인이 2개라고 할 때 다변량 분산분석은 2차원 좌표계를 펼쳐 놓고 각 수준별 집단들이 갖는 평균을 좌표 위에 3개의 점으로 찍는다. 그리고 이 점들이 서로 '충분히 멀다' 고 볼 수 있을지를 전체적인 편차를 고려하여 판단하게 된다. 단, 이것을 차원의 관점에서 이해할 때는 자칫 종속변인 간의 독립성을 생각할 수 있는데, 오히려 다변량 분산분석은 '''종속변인 간의 상관이 강할 때 그 가치가 크다.''' 이는 다변량 분산분석이 '''종속변인 간의 공분산을 고려'''하기 때문으로, 단순한 일변량(uni-variate) 분산분석을 하는 것과는 다소 다른 수치를 산출하는 것도 이 때문이다. 따라서 분석의 정당화를 하려면 먼저 종속변인들의 상관행렬을 제시하는 것이 좋다. * '''Pillai의 트레이스''': 항상 양수의 값을 가지며, 통계량이 클수록 독립변인이 모형에서 큰 영향을 가진다는 뜻이다. 기본 가정이 제대로 충족되지 못하면서 집단 간 크기 차이도 심하고 소표본인 총체적 난국(…)에서는 이것 외에 다른 것을 쓰기 어렵다. * '''Wilks의 람다''': 0에서 1 사이의 값을 가지며, 이쪽은 통계량이 작을수록 영향이 크다. 기본 가정이 완전히 충족되지는 않지만 집단 간 크기가 적당히 유사하고 적당히 대표본일 경우에 이쪽을 쓸 수 있다. 대부분의 대학원생들은 그냥저냥한 품질의 데이터를 획득하므로 이쪽을 선호한다. * '''Hotelling의 트레이스''': 항상 양수의 값을 가지며, Pillai의 궤적값과 유사하지만 항상 그보다 크게 나타난다. 두 통계량이 비슷할수록 모형에 독립변인이 끼치는 영향력을 더 엄격하게 판단하는 것이 좋다. * '''Roy의 최대근''': 항상 양수의 값을 가지며, Hotelling의 궤적값보다 작거나 같은 값으로 나타난다. 데이터의 품질이 이상적일 때 가장 선호되는 통계량이다. 다변량 분산분석의 통계량은 위와 같이 출력되며, 통계량별로 소소한 차이가 있는 경우에는 자신의 분석에 가장 어울리는 통계량을 선택해서 보고한다. 가장 무난한 데이터라면 '''Wilks의 람다'''를 택하여 보고하는 경향이 있다. 그러나 영가설과 대립가설이 평균의 벡터를 놓고 세워지는 것인 만큼, 다변량 분산분석은 위의 통계량 자체만으로는 해석에 매우 큰 어려움이 따른다. 사회적 현상으로서의 직관에서 벗어나 수학적 추상성이 커지게 되는 것이다. 그렇기에 다변량 분산분석에서 사후분석의 중요성이 증가하는 것은 필연적이다. SPSS는 사후분석 결과를 각각의 종속변인에서 수준별로 따로따로 쌍대 비교를 해서 보여주는데, 이렇게 한다면 어느 변인에서 어느 집단 간에 유의한 차이가 존재하는지를 해석하기가 용이해진다. 또한 SPSS에서 부분에타제곱을 지원하며, '개체-간 효과 검정' 분석표도 각각의 종속변인에 따라 개별적으로 보여주기 때문에 이들로써 보완하면 어렵지 않은 해석이 가능하다. * '''H,,0,,''': 분석에 포함된 모든 집단들에서 얻어진 평균들의 벡터는 서로 차이가 '''없을''' 것이다. * '''H,,1,,''': 분석에 포함된 모든 집단들에서 얻어진 평균들의 벡터는 적어도 하나 이상은 차이가 '''있을''' 것이다. {{{#!folding [다변량 분산분석의 명령과 결과] 이하의 사례는 공변인을 포함하는 형태인 다변량 공분산분석은 생략한다. ||분석 ▶ 일반선형모형 ▶ 일변량 ▶ [고정요인-독립변수 입력] ▶ [종속변수 입력][BR]▶ 사후분석 ▶ [사후 검정변수 입력] ▶ Scheffeⓥ ▶ 계속[BR]▶ 옵션 ▶ 기술통계ⓥ / 분산 동질성 검정ⓥ / 효과크기 추정값ⓥ ▶ 계속[BR]▶ 확인|| 위의 방식대로 명령을 내리면 아래와 같은 결과가 나온다. {{{#B7F0B1 ■}}} 색상으로 칠해진 셀의 경우 결과보고의 대상이 되므로 주의를 기울여야 한다. ||<:><#FFFFFF><-3>{{{+1 개체-간 요인}}}|| ||<-2><:> ||<:>{{{-1 N}}}|| ||<#EEEEEE><^|3><(>{{{-1 독립변수}}}||<(>{{{-1 값1}}}||<)>{{{-1 #}}}|| ||<(>{{{-1 값2}}}||<)>{{{-1 #}}}|| ||<(>{{{-1 값2}}}||<)>{{{-1 #}}}|| ||<:><#FFFFFF><-5>{{{+1 기술통계}}}|| ||<:> ||<:>{{{-1 독립변수}}}||<:>{{{-1 평균}}}||<:>{{{-1 표준편차}}}||<:>{{{-1 N}}}|| ||<^|4><:>{{{-1 종속변수1}}}||<(>{{{-1 값1}}}||<)>{{{-1 #}}}||<)>{{{-1 #}}}||