통계적 방법/분석/회귀분석

덤프버전 :

파일:나무위키+상위문서.png   상위 문서: 통계적 방법/분석

파일:나무위키+넘겨주기.png   관련 문서: 통계적 방법/분석/분산분석

1. 회귀분석의 기법
1.1. 단순회귀분석 ★
1.1.1. 모형진단
1.2. 다중회귀분석 ★
1.2.1. 단계적 다중회귀분석 ★
1.2.2. 위계적 다중회귀분석 ★
1.2.3. (다)범주형 회귀분석
2. 같이 보기
3. 둘러보기



1. 회귀분석의 기법[편집]


'방법으로서의 통계' 라는 면에서 볼 때 회귀분석은 사회과학자들의 도구상자 속에 있는 가장 강력한 도구라고 해도 무방하다. 특히나 사회과학 중에서도 경제학이나 경영학과 같은 상경계열이나 심리학 전공자들은 회귀분석에 대해서만큼은 어지간한 순수 통계학 전공자들 못지않은 지식수준을 자랑하는 경우가 많다. 실제로 회귀분석 자체가 수학적인 연구도 많이 되었고, 파면 팔수록 정말 한도끝도 없이 깊어지는 주제인 데다, 심지어 나중에는 딥러닝 같은 첨단과학기술의 최전선을 만나게 된다. 실제로 빅데이터니 딥러닝이니 하는 것도 어떤 측면에서 보면 결국 아주 큰 회귀모형이다. 본 문서에서는 사회과학분야 학부~석사 수준에서 가볍게 논리만 이해하고 넘어갈 수 있는 수준으로만 소개한다. 더 자세한 내용은 회귀분석 및 각종 통계학 문서들을 참고하기 바란다.

본 문서에서는 선형적 모형(linear model)을 중심으로 회귀분석의 몇몇 기법들을 소개하며, 기초적인 방법론을 다루는 만큼 선형화(linearization)가 불가능한 비선형적 모형(non-linear model)은 직접적인 소개를 피했다. 비선형적 모형으로 알려졌지만 선형화가 가능한 회귀모형인 로지스틱(logistic)·프로빗(probit) 회귀분석은 간략하게 이런 것이 있다고만 설명하였다. 또한 사회통계 커리큘럼에 흔히 포함되는 기초 분석기법들은 ★ 표시로 구분하였다.

가능할 경우 간단한 보고례를 함께 첨부하였으나, 구체적인 보고의 양식은 학문분야마다 다를 수 있음에 유의. 실제로 《Essentials of Statistics for the Behavioral Sciences》 등의 국내·외 통계 교과서들은 분석 결과를 어떻게 보고할지에 대해서 간략한 사례를 함께 첨부하는 경우가 많다.


1.1. 단순회귀분석 ★[편집]


단순회귀분석
Simple Regression Analysis
사용목적
변인 간 영향 예측
집단의 수
1개
자료의 성질
연속형 IV 1개
연속형 DV 1개
측정회차
1회 이상
주요전제
데이터 선형성
모집단 오차항 정규성
모집단 오차항 독립성
모집단 오차항 등분산성

...탐색적 전문가 자문을 통해, 나무위키 이용과 디지털 문해력 사이에 상반되는 예측이 얻어졌다. 하나는 낮은 디지털 문해력이 나무위키 이용을 증가시킨다는 것이다. 다른 하나는 높은 디지털 문해력이 나무위키 이용을 증가시킨다는 것이다. 이에 나무위키 이용자 집단 200명을 대상으로 두 변인 간의 선형관계를 확인하였다. 단순선형회귀분석 결과, 가정된 회귀모형은 통계적으로 유의한 것으로 확인되었다(F=#.##, p<.05). 독립변인으로서 측정된 디지털 문해력은 나무위키 이용시간의 응답자 간 편차를 ##.#%만큼 설명할 수 있었고(R2=.###), 문해력이 척도 상에서 1점 증가할 때 나무위키 이용시간은 #.##분만큼 증가하는 양의 선형관계가 예측되었다(β=#.##, t=#.##, p<.05). 이상의 결과는 디지털 문해력이 증가할수록 나무위키 이용시간도 그에 따라 증가함을 보여준다...


회귀분석 중에서 가장 기본이 되는 형태인 단순(선형)회귀분석의 경우, 변인 간의 관계를 파악한다는 목적에 있어 상관분석과도 밀접한 관련이 있다. 그러나 상관분석이 변인 간의 선형관계의 정도(degree)를 이해하는 데 만족하는 반면, 회귀분석은 한 변인의 변화가 다른 변인을 어떻게 변화시키는지에 대한 (인과적) 영향관계에 초점을 맞춘다. 즉 회귀모형에 속한 두 변인은 서로 종속적 관계에 있으며, X의 값을 통해 Y의 값을 예측(predict)할 수 있다. 회귀분석을 한다는 것은 곧 이러한 예측의 논리를 가지고 변인 간의 관계를 설명하겠다는 것이다. 단순히 두 변인이 연속형이라는 이유만으로 기계적으로 회귀분석을 들이대면 안 된다.

독립변인(이하 X)이 1단위만큼 변화했을 때 종속변인(이하 Y)이 어느 정도만큼 변화하게 되는지를 설명할 수 있는 가장 좋은 방법은 두 변인 간의 관계를 일차함수 형태의 회귀식으로 표현하는 것이다. 그리고 이렇게 만들어진 일차함수를 따르는 직선을 회귀선(regression line)이라고 부른다. 이를 바탕으로 했을 때, 산포된 데이터의 모든 종속변인 관측값들은 다음의 식으로 완벽하게 설명될 수 있다.

모집단
Y=β0β1X+ε
표본집단
Y=b0b1X+e

여기서 회귀상수(파란색)는 X에 0을 집어넣었을 때 Y가 뱉어내는 숫자가 몇인지, 즉 Y절편(Y-intercept)이 얼마인지를 보여준다. 사회과학에서는 대개 회귀상수가 큰 의미를 갖지 않는데, 그 이유는 독립변인으로 삼을 만한 개념치고 그 숫자가 아주 0이 되는 경우는 흔치 않기 때문이다. 물론 평균중심화(mean centering)를 거쳐서 회귀상수까지 해석할 것을 요구하는 분야도 있다. 한편 회귀계수(초록색)는 X의 변화량과 Y의 변화량 간의 크기 비율을 보여주며, 회귀선의 기울기(구배; 勾配)로 이해될 수 있다. 회귀분석을 활용하는 분석가들은 회귀계수가 얼마나 큰지를 바탕으로 해당 독립변인의 영향력을 판단한다. 계숫값이 크다는 건 곧 X가 조금만 변해도 Y가 크게 변화한다는 것이기 때문이다.

마지막이지만 중요한 것으로 차이항(빨간색)이 있다.[1] 이것은 이 식이 평범한 일차함수식이 아니라 산포된 데이터와 회귀식 사이의 괴리를 암시하는데, 사회통계를 배우는 학생들이 깜박하기 쉽지만 굉장히 의미심장한 항이라고 할 수 있다. 회귀식은 오차의 존재를 인정하며, 단지 그것의 크기를 최소화하는 데 최선을 다할 뿐이다. 오차의 크기는 특정한 X값의 지점에서 '회귀식이 예측하는 Y의 값'[2]과 '실제로 관측된 Y의 값' 사이의 차이와 같다. 태생이 선형적 모형인 단순회귀분석은 파리 날아다니는 듯한 회귀선을 그어 가며 오차를 없애버리려고 하지 않는다. 그것은 늘 비현실적이고, 나쁘게 말하면 불가능하며, 좋게 말해도 비효율적이다. 모든 분석은 해석을 대비하여 실시되어야 하기에, 회귀선이 직관적이지 못할수록 해석의 부담도 커진다. 해석이 용이한 모형일수록, 현실은 그 모형의 예측으로부터 어긋나게 마련이다.

그렇다면 온 사방에 흩어진 관측값들만 가지고 두 변인 사이의 영향관계를 가장 '정확하게' 추정하는 회귀선은 어떻게 도출해야 할까? 추정의 정확성에 대해 통계학자들은 불편성(unbiasedness)과 효율성(efficiency) 등 여러 기준들을 갖고 있다. 그런데 이들이 연구해 보니, 선형적 회귀모형에서 오차항이 상호 독립적이고 평균은 0이며 등분산성을 만족하는 정규분포일 때에 한해서는 최소제곱법(OLS; ordinary least squares)이 가장 편의가 없고 효율적인 추정방식이 된다는 게 밝혀졌다.[3] 즉, 모든 관측값에 존재하는 오차의 크기의 합계가 가장 작아지도록 회귀선을 그어야 한다는 것이다. 이상의 논리를 가우스-마르코프 정리(Gauss-Markov theorem)라고 한다.

회귀선이 그어져 있을 때, 그 회귀선과 동떨어진 관측값이 있다고 생각해 보자. 그 관측값과 회귀선과의 거리를 알고 싶다면 관측값을 지나는 수직선 위에서 오차를 잴 수 있다.[4] 만약 관측값이 500개가 있다면 재야 할 오차도 500개가 될 것이다. 그런데 이걸 무작정 전부 합할 수는 없다. 어떤 관측값들은 분명 회귀선 아래에 위치해 있어서, 오차를 재면 음수(-) 기호가 붙어서 오히려 오차의 합계를 상쇄시킬 것이기 때문이다. 물론 분산의 논리를 알고 있다면, 이에 대한 해답은 분명하다. 모든 오차를 전부 제곱해서 음수(-) 기호를 떨궈버린 후에 합산하는 것이다. 이렇게 한다면 오차의 총합이 과소계산되는 위험을 피할 수 있다.

이제 편미분을 사용한다면 오차들의 제곱합을 최소화할 수 있는 회귀상수와 회귀계수를 데이터로부터 유도할 수 있다. 일반적인 사회과학 전공분야와는 달리, 상경계열에서는 이 계산을 손으로 직접 시켜보는 통계 강의가 많다. 기타 분야에서는 구체적인 회귀식의 도출은 컴퓨터가 알아서 해 줄 거라고 생각하고 넘긴다. 또한 일부 분야에서는 OLS 이외에도 최대우도법(ML; maximum likelihood)을 회귀식 추정방법으로 소개하기도 한다. 대부분의 사회통계 커리큘럼에서는 잘 다루지 않는 심화 통계이나, 최대한 간략히 설명하면 표본에 대한 정보가 확률함수인 OLS과는 달리 모집단에 대한 정보가 확률함수(우도함수)가 되는 것이 ML이다. 하술될 로지스틱 회귀분석에서는 회귀선을 추정할 때 이쪽을 쓴다.

그런데 상관분석에 대해 들어보았다면 상관계수와 회귀계수에 어떤 관련성이 있는지 궁금할 수 있다. 그러나 사실 이 둘은 의미의 차원에서 판이하게 다른 정보를 제공한다. 회귀계수는 X가 Y에게 끼치는 인과적 영향이 얼마나 강한지를 회귀선의 기울기 정보로 보여준다면, 상관계수는 그 기울어진 회귀선 주변으로 관측값들이 얼마나 모여들어 있는지를 보여준다. 언뜻 그게 그거 같지만, 두 변인의 표준편차가 서로 다르면 다를수록 회귀계수와 상관계수의 차이는 커진다. 수학적으로 말하자면 X의 회귀계수는 X와 Y의 상관계수에다 X와 Y 각각의 표본표준편차의 비를 곱한 값과 같다(b=rXY(sY/sX)). 따라서 두 변인의 표준편차가 서로 동일하다면(sY=sX), 이때에 한하여 회귀계수와 상관계수는 서로 같아지게 된다(b=rXY).[5] 그리고 이 값을 다시 정리하면, X의 회귀계수는 X와 Y의 공분산을 X의 분산으로 나눈 값과 같다(b=cov(X,Y)/var(X))는 점에서 공분산과 회귀계수의 관계도 확인할 수 있다.

오히려 상관계수와 비슷한 '설명력' 정보를 제공하는 것은 바로 결정계수(R2; coefficient of determination)이다. 결정계수는 수립된 회귀모형이 주어진 데이터의 Y값의 산포를 어느 정도만큼 잘 설명할 수 있는지를 보여준다. 결정계수의 최솟값은 0, 가능한 최댓값은 +1이고, 0.xxx 형태로 도출되는 결정계수에서 소숫점을 아래로 두 자리만큼 내리면 그대로 퍼센트(%)가 되어서 모형의 설명력을 보고할 수 있게 한다. 예를 들어 어떤 회귀모형의 결정계수가 R2=.336으로 도출되었다면, 그 회귀모형이 데이터 산포의 전체를 33.6%만큼 설명해내고 있으며 나머지 66.4%의 산포는 이 모형으로 설명하는 데 실패하여 남겨졌다는 의미가 된다. 즉 결정계수를 통하여 분석가는 자신의 모형으로 Y값에서 얼마나 많은 산포가 설명되었는지 판단할 수 있으며, 가급적 결정계수가 높은 모형을 수립하고자 애쓰게 된다.

그런데 계량경제학계의 권위자인 제프리 울드리지(J.Wooldridge)를 포함하여 많은 연구자들은 모형의 결정계수 값이 낮더라도 크게 염려할 필요가 없다고 조언한다. 정말 엄격하고 체계적으로 수립된 모형에서조차 결정계수 값은 R2<.100 수준에 지나지 않을 수도 있으며, 반대로 완전히 바보같은 모형에서도 결정계수 값이 극도로 높게 나오는 경우는 얼마든지 가능하다. 즉 학계 현장에서는 결정계수가 그 모형의 품질이나 가치를 요약하는 좋은 지표가 되지 못함에도 불구하고, 통계 강의 시간에는 결정계수의 의미를 지나치게 강조하는 관행이 존재한다는 것이다. 그래서 국내와 해외를 막론하고 자기 지도교수가 결정계수에 예상 이상으로 '쿨한' 모습을 보여서 놀랐다는 대학원생들의 경험담도 많이 보인다.

파일:regression_equals_total_minus_error.png

결정계수는 Y값의 평균으로부터의 전체 산포 중에서 얼마나 많은 부분을 그 회귀선이 예측해내고 있는지를 보여준다. 위 그림에서처럼, 하나의 관측값은 Y값의 평균으로부터의 전체(total) 편차(파란색), 회귀선(regression)을 통한 예측(회색), 그리고 예측을 통해 설명되지 못하고 남겨진 편차인 오차(error; 빨간색)의 세 가지 값을 갖는다. 모든 관측값들에서 이 세 가지 값들을 전부 제곱합할 경우, 전체 편차의 제곱합을 총제곱합(SST; sum of squares for total), 전체 예측의 제곱합을 회귀제곱합(SSR; sum of squares for regression), 전체 오차의 제곱합을 오차제곱합(SSE; sum of squares for error)이라고 할 수 있다. 여기서 각각의 관계는 SSR=SST-SSE\, SSE=SST-SSR\, 그리고 SST=SSE+SSR이 성립하며, 결정계수는 R2=SSR/SST=1-SSE/SST가 된다. 즉 결정계수가 큰 모형은 회귀제곱합이 총제곱합에 거의 근접하게 크며, 남겨지는 오차가 별로 없다고 볼 수 있다.

이렇게 정의되는 결정계수임에도, 상관계수와 함께 놓고 보면 뜻밖에도 독립변인과 종속변인의 상관계수 제곱과 같아진다. 더 엄밀히 말하자면, 상관계수의 제곱이 결정계수와 같아지는 것은 단순회귀분석이면서 최소제곱법을 따른 회귀식일 때로 제한된다. 다중회귀분석의 경우에는 이야기가 좀 복잡해지는데, 다중회귀분석의 결정계수는 독립변인들과 종속변인들의 다중상관계수의 최댓값을 제곱한 값과 같아진다. 결정계수라는 개념 자체가 선형회귀모형을 최소제곱법으로 추정하는 과정에서 나온 개념이다. 따라서 결정계수라는 개념은 최소제곱법을 활용한 선형회귀모형 추정의 영역 밖에서까지 통용되는 것은 아니다. 너무 깊이 들어가자니 사회통계 커리큘럼 상 공부의 가성비가 맞지 않아 그냥 생략하고 넘길 뿐이다.

최소제곱법을 사용할 때에도 모형 자체에 강력한 제약을 걸면 결정계수가 성립하지 않는 경우가 나온다. 예컨대, 절편항을 0이라고 제약을 가하면(regress through the origin) 결정계수가 음수가 될 수도 있다. 이 때문에 몇몇 통계패키지는 절편이 없는 최소제곱법의 경우에는 변형된 공식의 결정계수를 보고하게 설정되어 있는 경우가 많다. 그러나 이 경우에는 Y의 전체 변동에서 모형이 설명할 수 있는 부분의 비율이라는, 결정계수의 해석 자체가 성립하지 않는다. 요약하자면 결정계수가 '언제나', '항상' 상관계수의 제곱인 것은 아니며, 그렇게 정의되는 것은 더더욱 아니다.[6]

  • H0: 두 변인 사이에는 선형적 영향 관계가 존재하지 않을 것이다.
  • H1: 두 변인 사이에는 선형적 영향 관계가 존재할 것이다.

통계적으로 선형적 영향관계가 있다고 하더라도 그것이 현실적으로 의미가 있는지 따져보는 것은 다른 문제다. 예컨대, 담배 가격을 100% 인상했는데 성인의 흡연량이 연간 3개비 정도 줄었고, 이 관계가 유의하게 나왔다고 해보자. 통계적으로 유의하다고 해서 담배 가격 인상의 효과가 말하기는 힘들다. 두 변수 사이에서 통계적으로 유의한 관계가 발생했다는 것과 이 관계가 현실에서 의미가 있는지, 쓸모가 있는지는 다른 문제다.


[단순회귀분석의 명령과 결과]

그래프 ▶ 레거시 대화 상자 ▶ 산점도/점도표
▶ 단순 산점도ⓥ ▶ 정의
▶ [행렬변수 입력] ▶ 확인
▶ 더블클릭-도표편집기 ▶ 요소 ▶ 전체 회귀선 적합
분석 ▶ 회귀분석 ▶ 선형 ▶ [종속변수입력] ▶ [독립변수입력] ▶ 방법-입력ⓥ
▶ 통계량 ▶ 추정값ⓥ / 모형 적합ⓥ ▶ 계속
▶ 옵션 ▶ 방정식에 상수항 포함ⓥ ▶ 계속
▶ 확인
위의 방식대로 명령을 내리면 아래와 같은 결과가 나온다. 색상으로 칠해진 셀의 경우 결과보고의 대상이 되므로 주의를 기울여야 한다.

입력/제거된 변수a
모형
입력된 변수
제거된 변수
방법
1
독립변수b
.
입력
a. 종속변수: 종속변수
b. 요청된 모든 변수가 입력되었습니다.

모형 요약
모형
R
R 제곱
수정된 R 제곱
추정값의
표준오차
1
a



a. 예측자: (상수), 독립변수

ANOVAa
모형
제곱합
자유도
평균제곱
F
유의확률
1
회귀
SSR=ⓐ

ⓐ÷ⓑ=ⓒ
ⓒ÷ⓕ
b
잔차
SSE=ⓓ

ⓓ÷ⓔ=ⓕ


전체
SST=ⓐ+ⓓ
ⓑ+ⓔ



a. 종속변수: 종속변수
b. 예측자: (상수), 독립변수

계수a
모형
비표준화 계수
표준화 계수
t
유의확률
B
표준오차
베타
1
(상수)
β0




독립변수
β1




a. 종속변수: 종속변수



1.1.1. 모형진단[편집]


회귀분석은 대중적이고 기초적이면서도 강력하고 중요한 분석이지만, 그 분석기법의 정당화에 대해서는 현실적으로 잘 강조되지 않고 있다. 물론 분석기법을 정당화하는 내용이 논문이나 보고서에 없다고 해서 그 분석 결과가 무시당하는 것은 아니기에 필수 보고사항은 아니지만, 기본 가정(basic assumption)이 어겨질 거라고 예상되는 상황에서는[7] 분석에 앞서서 이 전제들이 자기 데이터에서 성립함을 보여주어야 한다. 이걸 모형진단(model diagnostics)이라고 한다. 모형진단을 익히지 않는다면 나중에 누군가가 태클을 걸었을 때 어떻게 대응해야 할지 막막해지게 된다.

  • 선형성(linearity): 두 변인 간의 영향관계는 선형적이다. 선형회귀분석이라면 당연히 성립해야 한다. 이것이 깨지는 상황을 비선형성(non-linearity)이라고 한다.
  • 정규성(normality): 설령 개별 오차의 크기까지 회귀모형이 예측하진 못하지만, 적어도 모집단 오차항은 회귀선을 중심으로 N(0,σ2)의 정규분포를 따라서 산포되어 있다.[8] 쉽게 말하면, 회귀선 근처일수록 모집단 관측값이 많고 멀어질수록 적어진다.
    • 고정오차(fixed error)의 부재: 모집단 오차항의 평균은 0이다. 즉, 회귀모형이 변인 간 영향관계를 오차 없이 반영한다.
    • 등분산성(homoskedasticity): 모형의 X값에 무관하게 모집단 오차항의 분산은 σ2으로 동일하다. 쉽게 말하면, X값이 증가·감소하더라도 관측값들이 회귀선에서 점점 퍼지거나 근처로 모이지 않는다. 이것이 깨지는 상황을 이분산성(heteroskedasticity)이라고 한다.
  • 독립성(independence): 한 오차의 크기가 다른 오차의 크기에 종속되어 있지 않다. 엄밀히 말하면, 한 오차가 다른 오차의 함수로서 존재하면 안 된다. 쉽게 말하면, 산점도로 그림 그리면 안 된다(…). 이것이 깨지는 상황을 자기상관(auto-correlation)이라고 한다.

SPSS에서는 선형회귀분석을 위한 대화 창에서 모형진단에 활용할 수 있는 별도의 대화 창을 마련해놓고 있다. '도표' 대화 창으로 들어가 보면 웬 이상한 변수명들이 늘어놓아져 있고 이 중에서 하나를 X축에, 하나를 Y축에 집어넣을 수 있는데, 초심자들은 이를 단순산점도와 착각하여 자기가 지정한 독립변인이 목록에 어디 있냐고 눈이 빠지도록 찾기도 한다. 하지만 여기서는 X축은 독립변인이 맞되 Y축은 자신의 데이터를 통계적으로 가공한 산점도만을 볼 수 있다. 이런 산점도를 잔차도(residual plot)라고도 한다.

SPSS에서 나열된 순서대로 소개하면 다음과 같다.

  • DEPENDENT: 종속변인
  • *ZPRED: 표준화 회귀식 예측값(Y-hat)
  • *ZRESID: 내적 스튜던트화 잔차
  • *DRESID: 삭제된 내적 스튜던트화 잔차
  • *ADJPRED: 수정된 회귀식 예측값
  • *SRESID: 외적 스튜던트화 잔차
  • *SDRESID: 삭제된 외적 스튜던트화 잔차

위에서 스튜던트화 잔차(studentized residual)란 잔차를 전체 데이터의 표준편차로 나누어 표준화한 것으로, 내적 스튜던트화(internal studentization)와 외적 스튜던트화(external studentization)로 나누어진다. 내·외적 여부는 표준편차가 전체 데이터로부터 얻어진다는 데 기인한다. 특정한 관측 케이스별로 스튜던트화된 잔차를 계산해야 하는데, 표준편차를 계산할 데이터에서 그 관측 케이스를 포함시키면 내적인 쪽이 되고, 빼 버리면 외적인 쪽이 된다. SPSS에서 내적인 쪽은 *ZRESID에, 외적인 쪽은 *SRESID에 대응된다. 이상점(outlier) 탐색을 할 때에는 외적 스튜던트화 잔차를 써야 하는데, 그 이유는 내가 지금 붙들고 있는 이 놈이 이상점인지 판단하려면 일단 이 놈으로부터 얻어진 편차치는 제외시켜 놓고 표준편차를 구해서 비교하는 게 바람직하기 때문이다.

데이터 선형성 가정이나 모집단 오차항 등분산성 가정은 X축에 *ZPRED(표준화 회귀식 예측값), Y축에 *SRESID(외적 스튜던트화 잔차)를 집어넣으면 시각적으로 확인이 가능하다. 이때 결과도표는 양수(+) 값을 갖는 X축과 양수(+) 및 음수(-) 값을 모두 갖는 Y축으로 이루어지며, Y값이 0일 때의 가로선이 중앙에 놓이고 그 위아래로 점들이 산포되어 있는 모습으로 나타난다. 이때 산포의 전체 형태가 어떻게 되어 있는지 확인한다.

  • 특별한 패턴 없이 왼쪽부터 오른쪽까지 고르게 산포된 경우
정상. 이대로 선형회귀분석을 실시하면 된다.
  • 전체적인 산포가 ∪ 또는 ∩ 형태를 이루는 경우
➜ 선형성 가정의 위배가 의심된다. 독립변인이 제곱된 항을 회귀식에 추가하고 선형화하거나, 비선형적 모형의 수립을 검토할 수 있다.
  • 전체적인 산포가 < 또는 > 형태를 이루는 경우
➜ 등분산성 가정의 위배가 의심된다. 종속변인의 데이터를 Box-Cox 변환, 즉 모든 데이터에 동일하게 로그 혹은 루트를 취한 뒤 다시 분석하는 과정을 검토할 수 있다.

모집단 오차항 독립성 가정은 시각화하기가 어렵다. 일반적인 시계열 자료의 경우 이전 시점의 오차항 잔차와 이후 시점의 오차항 잔차를 함께 도표로 만들어서 상관관계를 시각화하는 것이 가능하나, 측정회차가 1회일 경우에는 독립성 여부를 수치적으로 제시하는 것이 좋다. SPSS 선형회귀분석 시 '통계량' 대화 창을 열면 아래쪽 '잔차' 부분에 이상점 탐색을 위한 '케이스별 진단' 체크박스 바로 위쪽으로 Durbin-Watson 체크박스가 있다. 흔히는 D-W 검정이라고 불리며, 이때의 검정통계량 d는 대략 0에서 +4 정도의 값을 산출하게 된다. 가장 이상적인 경우는 검정통계량 d가 +2에 유사한 값으로 나타나는 경우이다.

  • 0≤d<+2: 오차항 간 양(+)의 선형관계 존재
  • d≒+2: 오차항 간 독립성 존재
  • +2<d≤+4: 오차항 간 음(-)의 선형관계 존재

모집단 오차항 정규성 가정은 시각화만을 원할 경우 '도표' 대화 창에서 잔차도를 명령할 때 아래쪽 '정규확률도표' 체크박스를 체크해 주기만 하면 된다. 이때 SPSS는 회귀식의 내적 스튜던트화 잔차를 표시하는 별도의 도표를 만들고, X축에는 실제로 관측된 누적확률을, Y축에는 기대된 누적확률을 나타내 보여준다. 이것을 P-P 도표(P-P plot)라고 부른다.[9] 결과적으로 이 도표에서 우상향 대각선에 실제 산점도가 최대한 유사하게 나타날수록 정규성이 성립한다고 가정하고, 만일 크게 벗어나는 점들이 일부 찍혀 있다면 정규성 가정의 위배를 의심하게 된다. 이때는 이상점을 탐색하여 절삭하고 분석할 수 있다.

검정통계량으로 모집단 오차항 정규성 가정을 확인할 경우에는 조금 복잡하지만 체계적인 방식을 동원하게 된다.[10] '저장' 대화 창에 들어가면 계산 가능한 각종 통계량들의 목록이 띄워지고, 그 중에서 찍어준 체크박스에 해당하는 통계량들만 별도로 변수화할 수 있다. 여기서 오른쪽 위의 '스튜던트화' 체크박스를 찍고 아래쪽의 '계속' 버튼을 누르면 '📏SRE_1' 이라는 이름의 외적 스튜던트화 잔차값이 변수로 등록된다. 이후 분석 탭의 '기술통계량' 메뉴로 들어가서 '데이터 탐색' 대화 창을 열고, SRE_1 변수를 집어넣은 다음 '도표' 대화 창에서 '검정과 함께 정규성도표' 체크박스를 클릭하여 정규성 검정을 명령한다. 이후 출력 창에 Kolmogorov-Smirnov 검정(K-S 검정) 혹은 Shapiro-Wilk 검정(S-W 검정) 결과 유의확률이 p>.05인지 확인하면 된다. 유의확률이 0.05 이상 크다면, 모집단 오차항과 정규모형은 서로 같다고 보아 정규성 가정이 성립한다.


1.2. 다중회귀분석 ★[편집]


모집단
Y=β0β1X1β2X2+…+βkXkε
표본집단
Y=b0b1X1b2X2+…+bkXke

위의 단순회귀분석이 독립변인과 종속변인을 각각 하나씩 투입하는 회귀분석이라면, 다중회귀분석은 종속변인은 똑같이 하나이지만 독립변인을 2개 이상 투입하는 회귀분석이라고 할 수 있다. 이에 따라 회귀식 역시 위에 적힌 것처럼 각각의 독립변인마다 그에 대응되는 회귀계수를 갖게 되며, 이에 따라 최종적인 Y값은 (설령 시각적으로 보여주기가 힘들 뿐) 수학적으로 모든 독립변인들이 갖는 값의 변화량을 반영한다. 이걸 굳이 따로 배워야 하는가, 단순히 좀 더 편의성 높은 상위호환 분석이 아닌가, 그냥 처음부터 무조건 다중회귀분석만 쓰면 되는 것 아닌가 하는 의문이 들 수 있는데, 막상 분석을 돌려 보면 분석가가 감당해야 할 뜻밖의 통계적 난관이 적어도 두 가지는 튀어나온다.

우선, 독립변인 X1과 X2를 동시에 투입해서 다중회귀분석을 했더니, 둘 다 유의하지 않은 결과를 얻었다고 가정하자. 하지만 이 두 변인들은 이론과 선행문헌으로 충실히 뒷받침되고 있다고 가정하자. 뜻밖의 분석결과에 놀란 분석가가 X1과 X2를 따로따로 단순회귀분석을 했더니, 이번에는 둘 다 유의한 결과를 얻었다. 유의하지 않은 결과는 두 독립변인을 '동시에' 투입한 회귀분석에서만 나타났다. 이 사태(…)의 원인으로 의심할 만한 것은, X1과 X2서로간에 강한 상관관계를 갖고 있을 가능성이다. 상관이 없으면 두 변인이 Y의 편차를 보완적으로 설명하는데, 상관이 있다 보니 Y의 편차를 경쟁적으로 설명하려 하게 되고, 마침내 서로 '박치기' 해서 나자빠지는 바람에 둘 다 유의하지 않게 되어버린 것이다. 이런 경우를 다중공선성(multicollinearity)이라고 한다.

SPSS는 '공선성 진단' 기능을 통해서 회귀분석 시 다중공선성의 가능성을 통계량으로 보여준다. 이때 사용되는 것은 분산 팽창 요인(VIF; variation inflation factor)이며, k개의 독립변인마다 제각기 하나씩 계산된다. 그 논리를 살펴보면 다음과 같다.

  • i번째 독립변인의 VIF를 VIFi라고 할 때, VIFi는 IVi를 종속변인으로 삼는 다중회귀분석의 결정계수 R2를 통해 얻어진다.
  • 이 다중회귀분석에서 투입되는 독립변인은 IVi를 제외한 모든 다른 독립변인이며, 본래 분석의 종속변인은 이 분석에서 제외된다. 예를 들어, 독립변인이 3개일 때 VIF2는 IV2를 종속변인으로, IV1과 IV3을 독립변인으로 하는 다중회귀분석의 결정계수를 활용한다.
  • 얻어진 Ri2는 1에서 차감한 후 역수를 취하게 되며, 이 결과가 VIFi가 된다(VIFi=1/(1-Ri2)). 이 값이 높으면 높을수록, 이 독립변인과 다른 어떤 독립변인 사이에 강한 상관이 존재한다고 판단한다. VIF는 1 이상의 모든 양수 값을 가질 수 있으며, 학계의 암묵적인 합의는 VIF≥10일 때 다중공선성이 발생했다고 간주하자는 것이다.
  • 다수의 VIF 값들 사이에서 하나의 VIF만 높아지는 경우는 없으며, VIF가 함께 높게 나타나는 독립변인들이 있다면 그들 사이에 상관이 높다고 판단한다.

그런데 만일 다중공선성이 높다는 결론을 얻었다 해도, 그 다음에 대응하기가 마땅치 않다는 것이 문제다. 가장 손쉬운 방법은 문제를 일으킨 독립변인을 퇴출(?)시키는 것이다. 특히 그 중에서 가장 R2 값에 기여하지 못하는 놈을 찾아다 모형에서 내쫓아 버리는 것이 자주 권고된다. 하지만 이런 방식은 이론과 선행문헌에서 어긋나기 십상이며, 그저 분석데이터가 '예쁘게' 나오도록 숫자들을 주무르는 것에 불과할 수도 있다. 예컨대 분석가의 문제의식에서 가장 중요한 위상을 차지하는 독립변인을 무작정 버리라고 한다면, 그걸 버리기보다는 어떻게든 살리는 게 나을지도 모른다. 하지만 그 독립변인을 붙들고 있기에는 또 너무 험난한 길이 펼쳐진다(…). 새로 시간과 돈을 들여서 자료수집을 하든지, 아니면 능형회귀분석(ridge regression analysis) 같은 희귀하고 고급진 분석에 손을 대야 하는데, 어느 쪽이든 쉽게 엄두를 낼 만한 길은 아니다.[11] 일이 이러하니 VIF에 대해서 엄격하게 보면 볼수록 분석가만 손해다.

그리고 통계이론적으로 따져볼 때에도, 다중공선성을 크게 일으킨다고 독립변수를 누락하는 것이 썩 좋은 선택은 아니다. 가장 단적인 예가 누락된 변수에 의한 편의(Omitted Variable Bias)다. 특정 독립변수를 누락하면 누락된 변수와 상관계수가 높은 변수가 과대추정되거나 과소추정될 수 있다. 그런데 누락된 변수에 의한 편의가 발생할 조건과 VIF가 클 조건은 겹치기 때문에 VIF 큰 변수를 누락하는 행위는 모형 전체의 신뢰성을 떨어뜨리는 행위가 된다.

다중회귀분석에서 나타나는 뜻밖의 또 다른 상황은 더 있다. 여러 독립변인을 투입한다는 것은 곧 유의한 것과 유의하지 않은 것, Y의 편차를 더 잘 설명하는 것과 그렇지 못한 것의 차이를 보겠다는 것이다. 그렇다면 전체 다중회귀모형의 R2는 소위 '찌끄레기' 독립변인을 모형에 추가할 때 크게 진전을 보이지 못해야 할 것이다. 문제는 R2가 '찌끄레기' 들을 이것저것 집어넣을 때에도 무작정 한도끝도 없이 올라간다는 것이다. 즉, R2는 모형에 기여하지 못하는 독립변인들의 설명력을 과도하게 반영한다. 이 문제를 해결하기 위해서 통계학자들은 R2 값에 일정한 보정을 할 필요를 느꼈고, 수정된 R2(adjusted R2)라는 결정계수를 대신 제안했다. SPSS에서 이 값은 단순회귀분석이든 다중회귀분석이든 늘 제공되긴 하지만, 다중회귀분석에서는 이쪽을 택하여 보고하는 것이 관행이 되었다.

통계적인 어려움을 해결하고 나면, 다중회귀분석에 투입되는 독립변인들을 어떤 식으로 투입해야 하는지에 대한 의문이 나타날 수 있다. 이에 대한 대답은, 분석기법의 사용목적에 따라서 독립변인의 투입 방식이 달라진다는 것이다. 대표적인 두 가지 사례로 단계적(stepwise)인 분석과 위계적(hierarchical)인 분석이 있다. 한편 또 다른 의문으로, 다중회귀분석 자체가 독립변인과 종속변인 모두 연속형 자료여야 한다는 건 알겠는데, 여기에 혹시 범주형 자료를 제2의 독립변인으로 추가할 수는 없을까 하는 것이 있다. 이에 대해서는 범주형(categorical) 혹은 다범주형(multi-categorical)인 분석으로 대응할 수 있다. 이하에서는 이들 각각의 경우를 소개한다.


1.2.1. 단계적 다중회귀분석 ★[편집]


단계적 다중회귀분석
Stepwise Multiple Regression Analysis
사용목적
변인 간 영향 예측
최적 회귀모형 수립
집단의 수
1개
자료의 성질
연속형 IV 2개 이상
연속형 DV 1개
측정회차
1회 이상
주요전제
데이터 선형성
모집단 오차항 정규성
모집단 오차항 독립성
모집단 오차항 등분산성

...나무위키 사용시간에 영향을 주는 원인을 탐색하기 위하여 3가지 분석수준에서 요인을 정리하였다. 이를 위해, '코르티솔' 외 3가지의 생리학적 변인을 종합한 생리수준 요인, '외로움' 외 7가지의 심리학적 변인을 종합한 심리수준 요인, '소득수준' 외 8가지의 인구학적 변인을 종합한 사회수준 요인을 체계적으로 계산하였다. 이후 3가지 요인들이 나무위키 사용시간에 끼치는 영향을 확인하기 위해 단계적 다중회귀분석을 실시하였다.

분석 결과, 독립변인의 단계적 투입과 제거를 통해, 심리수준 요인과 사회수준 요인은 포함하되 생리수준 요인은 제외시키는 결과가 도출되었다. 가정된 최적의 회귀모형은 통계적으로 유의한 것으로 확인되었다(F=#.##, p<.05). 두 독립변인은 나무위키 이용시간의 응답자 간 편차를 ##.#%만큼 설명할 수 있었다(R2=.###). 구체적으로, 심리수준 요인과(β=#.##, t=#.##, p<.05) 사회수준 요인이(β=#.##, t=#.##, p<.05) 나무위키 이용시간의 편차를 설명하는 데 기여하였다. 그러나 생리수준 요인은 통계적으로 유의한 기여를 하지 못하여 모형에서 제외되었다(β=.##, t=.##, p=n.s.). 이상의 결과는 심리적이고 사회적인 다양한 원인들이 복합적으로 작용하여 나무위키 이용시간에 의미 있는 영향을 끼치지만, 호르몬 수준을 비롯한 생리적 상태는 그렇지 못함을 보여준다...


종속변인에 인과적 영향관계를 가지리라 예상되는 다수의 독립변인들을 이론 및 선행문헌에 의거하여 투입하나, 최종적으로는 모형에 크게 기여하는 독립변인만 남기고 그렇지 못한 독립변인은 제거하여 최적의 회귀모형을 수립하는 것을 목적으로 하는 분석기법이다. 다중회귀분석이 독립변인 여럿을 한번에 분석하는 것이긴 하지만, 사실 그 어떤 분석가도 자신이 집어넣는 모든 독립변인들이 하나같이 유의한 결과를 산출하리라고는 기대하지 않으므로(…) 모형에서 불필요한 것은 빼야 할 거라고 자연히 기대하게 된다. 이런 목적성 탓에, 일부 학문분야들이나 통계 교과서 저자들은 다중회귀분석을 소개하면서 아주 자연스럽게 단계적 다중회귀분석의 개념으로 가르치기도 하며, 경제학계를 비롯한 상경계열에서 매우 중요하다.

다중회귀분석의 어려운 점은, 독립변인들 무엇무엇이 투입되어 있느냐에 따라 그 짝짓기에 반응하여 각각의 모형 기여도가 갑자기 오르락내리락할 수 있다는 것이다. 어떤 독립변인이 이미 제거되었다 하더라도, 다른 독립변인을 제거했을 때 먼저 제거된 독립변인의 기여도가 높아진다면 그때 다시 투입을 결정할 수 있다. 예를 들어 X1부터 X5까지 5개의 독립변인 중에서 X2와 X4를 순서대로 먼저 제거했는데, X4가 제거되었을 때 X2의 기여도가 높아진다고 의심될 경우, 우리는 X2를 모형에 과감히 다시 가져다 넣어야 한다. 반대로 먼저 투입이 확정된 독립변인이더라도 나중에 다른 것이 투입되었을 때 갑자기 모형 기여도가 낮아지는 경우도 있으며, 이때는 그 낮아진 독립변인을 제거하고 모형을 재검토할 필요가 있다.

SPSS에서 단계적 다중회귀분석은 선형회귀 대화 창에서 '방법' 드롭다운 메뉴에 위치한 '단계 선택' 을 지정함으로써 가능해진다. 출력 창에서 SPSS는 자신이 투입해야 할 여러 독립변인들을 하나하나 넣어보기도 하고 아니다 싶으면 제거하기도 하며, 각각의 단계마다 모형을 산출하여 이용자가 모형의 개선을 직접 비교할 수 있게 한다. 따라서 가장 마지막으로 수립된 모형이 가장 적합한 모형이라고 생각할 수 있다. 한편으로 SPSS는 자신이 제거한 독립변인에 대한 회귀계수, 검정통계량과 유의확률 또한 별도의 표로 보여준다.

여기서 '방법' 드롭다운 메뉴에 존재하는 각각의 투입방법을 설명하면 다음과 같다.

  • 입력(Enter)
사용자가 지정한 독립변인들을 전부 똑같이 투입한다. 하술되는 위계적 다중회귀분석을 채택한 분석가들은 대개 이쪽으로 지정한다. 각 독립변인의 모형 기여 여부는 SPSS가 아니라 사용자가 직접 판단하게 된다.
  • 단계 선택(Stepwise)
사용자가 지정한 독립변인들을 SPSS가 검토하여, 투입과 제거를 반복하면서 모형에 가장 잘 기여하는 최적의 독립변인들의 조합을 찾아낸다. 최종적으로 선별된 독립변인들은 모형 기여도 순서로 정렬된다. 단계적 다중회귀분석을 채택한 분석가들이 지정하는 방법이다.
  • 제거(Remove)
제거로 지정된 블록에서는 사용자가 블록 내에 포함된 모든 독립변인들을 전부 제거한다.
  • 후진(Backward elimination)
모든 독립변인들을 한번에 전부 투입한 후, 모형 기여도가 낮은 독립변인부터 SPSS가 검토 후 제거한다. 모형에 더 이상 제거해도 무방한 독립변인이 없다면, 그때 제거를 종료하고 최종적인 회귀모형을 출력한다. 그러나 한번 제거한 독립변인을 이후 다시 투입하지는 않으며, 이런 작동을 원할 경우 '단계 선택' 을 지정해야 한다.
  • 전진(Forward Selection)
모든 독립변인들을 한번에 전부 투입한 후, 모형 기여도가 높은 독립변인부터 SPSS가 검토 후 투입을 최종 확정한다. 모형에 더 이상 투입할 만한 독립변인이 없다면, 그때 투입을 종료하고 최종적인 회귀모형을 출력한다. 그러나 한번 투입을 확정한 독립변인을 이후 도로 제거하지는 않으며, 이런 작동을 원할 경우 '단계 선택' 을 지정해야 한다.

'단계 선택' 으로 지정할 경우, 사용자는 SPSS에게 독립변인 투입·제거의 판단을 이임하는 대신, 그 판단을 하기 위한 기준을 제시할 수 있다. 대화 창에서 '옵션' 을 클릭하면 F-값 혹은 F-확률을 기준으로 일정한 범위를 충족했을 때 모형에 투입하거나 제거하게 할 수 있다. 디폴트값은 F-확률이 0.05 이하일 때 투입, 0.1 이상일 때 제거하도록 설정되어 있다. 여기서 어떤 기준을 세웠는지는 출력 창에서 '입력/제거된 변수' 표에 함께 출력된다. 이 기준에 대한 정답은 없으나 대부분의 분석가들은 SPSS 디폴트값을 바꾸지 않고 관행적으로 그대로 쓰고 있다(…).

  • H0: 분석에 투입된 독립변인들은 종속변인과 선형적 영향 관계가 존재하지 않을 것이다.
  • H1: 분석에 투입된 독립변인들 중 적어도 하나 이상은 종속변인과 선형적 영향 관계가 존재할 것이다.

[단계적 다중회귀분석의 명령과 결과]

분석 ▶ 회귀분석 ▶ 선형 ▶ [종속변수입력] ▶ [독립변수입력] ▶ 방법-단계 선택ⓥ
▶ 통계량 ▶ 추정값ⓥ / 모형 적합ⓥ / R 제곱 변화량ⓥ / 공선성 진단ⓥ ▶ 계속
▶ 옵션 ▶ F-확률 사용ⓥ ▶ 진입(.05) / 제거(.10) ▶ 방정식에 상수항 포함ⓥ ▶ 계속
▶ 확인
위의 방식대로 명령을 내리면 아래와 같은 결과가 나온다. 색상으로 칠해진 셀의 경우 결과보고의 대상이 되므로 주의를 기울여야 한다.

입력/제거된 변수a
모형
입력된 변수
제거된 변수
방법
1
독립변수1
.
단계선택(기준: 입력에 대한 F의 확률<=.050, 제거에 대한 F의 확률>=.100).
2
독립변수2
.
단계선택(기준: 입력에 대한 F의 확률<=.050, 제거에 대한 F의 확률>=.100).
a. 종속변수: 종속변수

모형 요약
모형
R
R 제곱
수정된 R 제곱
추정값의
표준오차
통계량 변화량
R 제곱 변화량
F 변화량
자유도1
자유도2
유의확률 F
변화량
1
a








2
b
ⓐ+ⓑ







a. 예측자: (상수), 독립변수1
b. 예측자: (상수), 독립변수1, 독립변수2

ANOVAa
모형
제곱합
자유도
평균제곱
F
유의확률
1
회귀
SSR=ⓐ

ⓐ÷ⓑ=ⓒ
ⓒ÷ⓕ
b
잔차
SSE=ⓓ

ⓓ÷ⓔ=ⓕ


전체
SST=ⓐ+ⓓ
ⓑ+ⓔ



2
회귀
SSR=ⓐ

ⓐ÷ⓑ=ⓒ
ⓒ÷ⓕ
c
잔차
SSE=ⓓ

ⓓ÷ⓔ=ⓕ


전체
SST=ⓐ+ⓓ
ⓑ+ⓔ



a. 종속변수: 종속변수
b. 예측자: (상수), 독립변수1
c. 예측자: (상수), 독립변수1, 독립변수2

계수a
모형
비표준화 계수
표준화 계수
t
유의확률
공선성 통계량
B
표준오차
베타
공차
VIF
1
(상수)
β0






독립변수1
β1






2
(상수)
β0






독립변수1
β1






독립변수2
β2






a. 종속변수: 종속변수

제외된 변수a
모형
베타 입력
t
유의확률
편상관계수
공선성 통계량
공차
1
독립변수2
b




독립변수3
b




2
독립변수3
c




a. 종속변수: 종속변수
b. 모형내의 예측자: (상수), 독립변수1
c. 모형내의 예측자: (상수), 독립변수1, 독립변수2



1.2.2. 위계적 다중회귀분석 ★[편집]


위계적 다중회귀분석
Hierarchical Multiple Regression Analysis
사용목적
변인 간 영향 예측
회귀모형 간 위계적 비교
집단의 수
1개
자료의 성질
연속형 IV 2개 이상
연속형 DV 1개
측정회차
1회 이상
주요전제
데이터 선형성
모집단 오차항 정규성
모집단 오차항 독립성
모집단 오차항 등분산성

...이전 분석에서 유의한 것으로 확인된 독립변인인 심리수준 요인과 사회수준 요인을 다시 활용하되, 이번에는 해석의 편의를 위하여 디지털 문해력을 공변인으로 포함하여 다시 분석하기로 하였다. 이에 따라 디지털 문해력이 통제된 상태에서 심리수준 요인과 사회수준 요인이 나무위키 이용시간에 끼치는 영향을 확인하기 위해 위계적 다중회귀분석을 실시하였다.

분석 결과, 디지털 문해력만이 포함된 첫 회귀모형은 이전 분석의 결과와 같다. 이후 심리수준 요인과 사회수준 요인을 새롭게 포함시킨 둘째 회귀모형의 경우, 가정된 회귀모형은 통계적으로 유의하였다(F=#.##, p<.05). 새롭게 포함된 두 독립변인은 나무위키 이용시간의 응답자 간 편차를 ##.#%만큼 설명할 수 있었고(R2=.###) 이는 첫째 모형과 비교할 때 .###만큼의 설명력이 개선된 것이다. 또한 공변인인 디지털 문해력(β=#.##, t=#.##, p<.05), 독립변인인 심리수준 요인(β=#.##, t=#.##, p<.05) 및 사회수준 요인이(β=#.##, t=#.##, p<.05) 나무위키 이용시간의 차이를 설명하는 데 공히 기여하였다. 이상의 결과는 디지털 문해력의 영향을 통제했을 때에도 심리적 수준과 사회적 수준의 다양한 원인들이 여전히 나무위키 이용시간을 복합적으로 증가시킨다는 것을 보여준다...


여러 독립변인들을 체계적으로 추가하면서, 독립변인 추가의 전후를 '위계적 관계의 모형' 으로 함께 수립하여 다수의 모형들의 설명력을 비교하는 분석기법이다. 예컨대 독립변인의 후보들이 A, B, C, D, E가 있다면 먼저 A, B, C를 집어넣은 모형을 하나 만들고, 이후 D를 새로 추가한 모형을 또 만들고, 마지막으로 E를 더 추가한 모형을 만들어서, 최종적으로 3개의 모형들의 설명력과 각 독립변인들의 회귀계수를 비교하여 5개 독립변인들과 종속변인 사이의 영향관계를 파악하는 것이다. 따라서 독립변인을 모형에 추가하는 것이 의미가 있을지 없을지를 분석가가 직접 검토하게 된다.

현장에서 쓰이는 실상은 회귀분석 버전의 공분산분석. 실험법을 활용해서 얻은 데이터를 가지고 회귀분석을 실시하려는 사회과학분야 석사과정 대학원생들이 학위논문에서 사용할 가능성이 높은 분석기법이다. 실험은 외생변인을 통제해야 하기 때문에 통제의 대상이 되는 변인들을 별도로 측정하게 되는데, 회귀분석을 할 때 이들을 공변인으로 취급하여 모형을 분리시킬 수 있게 된다. 공변인들만 투입한 회귀모형을 수립하고 여기에 진짜 독립변인까지 추가한 회귀모형을 다시 수립해서 비교할 수도 있고, 독립변인만 투입한 회귀모형이 유의한지를 먼저 살펴본 다음 공변인들을 모형에 쏟아넣어서 독립변인이 아직도 여전히 유의한지를 살펴볼 수도 있다. 이 정도 통계까지 감을 잡고 나면 대충 사회과학분야 석사학위가 나온다.

물론 여러 독립변인들을 어떤 순서로 투입할지도 중요하지만, 위계적 다중회귀분석을 할 때 그보다 중요한 것은 모형 수립에 있어 그 변인들이 정말로 중요할 것 같은지를 논증하는 것이다. 초심자들이 다중회귀분석을 접하고 착각하는 것이 있다면, 다중회귀분석에 가능한 한 모든 독립변인들을 있는 대로 들이부어야 좋은 모형이 된다고 짐작하는 것이다. 하지만 다중회귀분석에 포함시키고 싶은 독립변인의 후보들을 정할 때에는 직관으로만 하면 안 되고, 하나하나가 전부 이론적 배경과 선행문헌의 검토로 지지되어야 한다. 예컨대 '그냥 연령이 중요할 것 같으니까 한번 통제해 봤다' 는 식이 아니라, 실제로 연령이 중요한 외생변인이라고 판단할 이유가 있음을 보여주어야 하는 것이다.

SPSS에서는 위계적 다중회귀분석을 하려면 선형회귀 대화 창에서 '블록' 기능을 활용하게 된다. 첫 블록이 첫 모형이 되고, 이후 블록들은 첫 모형에다 변인을 추가 투입하는 모형이 된다. 여기에 변인 투입방법은 대개 '입력' 으로 설정한다. 첫 블록에서 투입된 독립변인들은 첫 모형이 되며, 둘째 블록에서 다른 독립변인을 추가하고 싶다면 '다음' 버튼을 누른다. 독립변인의 추가가 끝난 후 셋째 블록까지 만들면 모형을 3개 만들어서 비교하겠다는 얘기다. 물론 필요하다면야 그 이상으로 블록을 더 만들 수도 있다. 한편 '이전' 버튼을 누르면 앞의 블록에서 자신이 입력했던 독립변인들이 무엇이었는지 다시 확인할 수 있다. 모든 독립변인들의 입력이 종료되어 SPSS가 분석을 시행하면, 결과 창에 띄워지는 표에서 사용자가 만든 블록의 수만큼 모형들이 줄줄이 띄워지는 것을 볼 수 있다. 분석가는 그 모형들의 정보를 전부 보고하고, 결과적으로 어느 쪽의 모형을 채택할지는 자신의 재량으로 결정해야 한다.

  • H0: 공변인(들)만 투입된 회귀모형은 독립변인(들)이 추가로 투입된 회귀모형과 통계적 차이가 없을 것이다.
  • H1: 공변인(들)만 투입된 회귀모형은 독립변인(들)이 추가로 투입된 회귀모형과 통계적 차이가 있을 것이다.

[위계적 다중회귀분석의 명령과 결과]

분석 ▶ 회귀분석 ▶ 선형 ▶ [종속변수입력] ▶ [독립변수입력] ▶ 방법-입력ⓥ
▶ 다음 ▶ [독립변수입력] ▶ 방법-입력ⓥ

▶ 통계량 ▶ 추정값ⓥ / 모형 적합ⓥ / R 제곱 변화량ⓥ / 공선성 진단ⓥ ▶ 계속
▶ 옵션 ▶ 방정식에 상수항 포함ⓥ ▶ 계속
▶ 확인
위의 방식대로 명령을 내리면 아래와 같은 결과가 나온다. 색상으로 칠해진 셀의 경우 결과보고의 대상이 되므로 주의를 기울여야 한다.

입력/제거된 변수a
모형
입력된 변수
제거된 변수
방법
1
독립변수1, 독립변수2b
.
입력
2
독립변수3, 독립변수4b
.
입력
a. 종속변수: 종속변수
b. 요청된 모든 변수가 입력되었습니다.

모형 요약
모형
R
R 제곱
수정된 R 제곱
추정값의
표준오차
통계량 변화량
R 제곱 변화량
F 변화량
자유도1
자유도2
유의확률 F
변화량
1
a








2
b
ⓐ+ⓑ







a. 예측자: (상수), 독립변수1, 독립변수2
b. 예측자: (상수), 독립변수1, 독립변수2, 독립변수3, 독립변수4

ANOVAa
모형
제곱합
자유도
평균제곱
F
유의확률
1
회귀
SSR=ⓐ

ⓐ÷ⓑ=ⓒ
ⓒ÷ⓕ
b
잔차
SSE=ⓓ

ⓓ÷ⓔ=ⓕ


전체
SST=ⓐ+ⓓ
ⓑ+ⓔ



2
회귀
SSR=ⓐ

ⓐ÷ⓑ=ⓒ
ⓒ÷ⓕ
c
잔차
SSE=ⓓ

ⓓ÷ⓔ=ⓕ


전체
SST=ⓐ+ⓓ
ⓑ+ⓔ



a. 종속변수: 종속변수
b. 예측자: (상수), 독립변수1, 독립변수2
c. 예측자: (상수), 독립변수1, 독립변수2, 독립변수3, 독립변수4

계수a
모형
비표준화 계수
표준화 계수
t
유의확률
공선성 통계량
B
표준오차
베타
공차
VIF
1
(상수)
β0






독립변수1
β1






독립변수2
β2






2
(상수)
β0






독립변수1
β1






독립변수2
β2






독립변수3
β3






독립변수4
β4






a. 종속변수: 종속변수



1.2.3. (다)범주형 회귀분석[편집]


(다)범주형 회귀분석
(Multi-)Categorical Regression Analysis
사용목적
변인 간 영향 예측
집단의 수
1개 이상
자료의 성질
연속형 IV 1개 이상
범주형 IV 1개 이상[12]
연속형 DV 1개
측정회차
1회 이상
주요전제
데이터 선형성
모집단 오차항 정규성
모집단 오차항 독립성
모집단 오차항 등분산성

...나무위키를 이용하지 않는 일반인 200명을 대상으로, 이전 분석에서 활용한 심리수준 요인과 사회수준 요인이 나무위키에 대한 호감도에 끼치는 영향을 확인하기로 하였다. 탐색적 조사에서 남성과 여성이 나무위키에 대해 갖고 있는 인식에 차이가 있다는 가능성이 확인되었으므로, 성별을 범주형 독립변인으로 선정하여 회귀모형에 함께 투입하였다.

분석 결과, 성별과 심리수준 요인, 사회수준 요인이 포함된 회귀모형은 통계적으로 유의하였으며(F=#.##, p<.05), 나무위키 호감도에 대한 응답자 간 편차를 ##.#%만큼 설명하였다(R2=.###). 구체적으로, 심리수준 요인(β=#.##, t=#.##, p<.05) 및 사회수준 요인(β=#.##, t=#.##, p<.05)의 주효과가 모형에 통계적으로 유의하게 기여하였으나, 성별의 경우 유의한 주효과가 나타나지 않았다(β=.##, t=.##, p=n.s.). 그러나 성별과 사회수준 요인 간의 상호작용이 유의하게 나타났으며(β=#.##, t=#.##, p<.05), 남성은 사회적 여건과 나무위키 호감도가 서로 무관했던 반면, 여성은 사회적 여건이 우호적일수록 나무위키 호감도가 감소하였다. 이상의 결과는 남녀 모두 심리적 여건이 우호적일수록 나무위키 호감도가 감소하지만, 사회적 여건의 경우 여성에게만 호감도 감소의 경향이 드러난다는 것을 보여준다...


회귀분석을 쓰려면 기본적으로 독립변인이 연속형 자료여야 한다. 반대로 독립변인이 범주형 자료라면, 2수준일 때에는 독립표본 t-검정을, 3수준 이상일 때에는 일원분산분석(1-way ANOVA)을 하면 된다. 그런데 이 경우, 뜻밖의 문제가 발생한다. 독립변인이 2개인데, 하나는 연속형 자료이고 다른 하나는 범주형 자료라면 어떤 분석을 써야 하는가? 언뜻 연속형 자료를 콜랩스(collapse)해서 범주형으로 바꾼 다음 이원분산분석(2-way ANOVA)을 하는 방법을 생각할 수 있다. 혹은 연속형 자료를 공변인으로 취급해서 공분산분석(ANCOVA)을 하는 것도 가능하다. 하지만 분산분석은 평균 비교를 위한 분석기법이지, 변인 간 영향관계를 탐지하기엔 부적합하다. 게다가 ANCOVA는 둘 사이의 상호작용을 확인할 수도 없고, 엄연히 중요한 독립변인을 공변인으로 취급하는 것도 이론에서 어긋나므로 함부로 손댈 수 없는 기법이다.

범주형 회귀분석은 이런 애매한 상황에 처한 분석가들에게 도움이 될 수 있다. 실제로 독립변인이 하나는 연속형, 하나는 범주형인 경우는 드물지 않다. 두 연속형 변인 사이의 영향관계가 남녀 성별에 따라 달라질 수도 있고, 평범한 지역주민과 통·반·이장 같은 지역리더 사이에서 달라질 수도 있다. 실험법을 따르는 과학적 연구는 통제집단과 실험집단을 구분하는데, 두 집단에서 영향관계가 서로 어떻게 달라지는지 비교할 때에도 범주형 회귀분석을 사용해야 한다. 미국인 집단에서는 뚜렷한 영향관계가 나타나는데 한국인 집단에서는 나타나지 않는 경우도 예상 가능하다.

이처럼 한 독립변인의 변화가 다른 독립변인에 변화를 초래하는 현상을 상호작용(interaction) 혹은 더 어려운 말로 교호작용(交互作用)이라고 하는데, 다중회귀분석의 회귀식에서 상호작용은 두 변인의 곱연산으로 간단히 처리가 가능하다.[13] 그런데 범주형 회귀분석은 다중회귀분석 중에서도 거의 대놓고 상호작용을 사냥하겠다고 선언하는 수준의 분석이다. 한국인과 미국인, 남성과 여성 사이에서 영향관계에 별반 차이가 없다면 해당 범주형 변인을 독립변인으로 취급할 이유가 없다. 그런 경우는 그 범주형 변인이 모형의 설명력에 거의 기여하지 못한다고 봐야 하며, 연속형 독립변인이 아무리 종속변인을 잘 설명하더라도 이미 실패한 분석이 된다. 배경 이론이 완전히 틀려먹지 않았고 표본추출도 적절했다면, 왜 이 분석을 선택했는지에 대한 심각한 재검토가 필요하다.

독립변인이 2개인 다중회귀분석의 상호작용항(보라색)
모집단
Y=β0β1X1β2X2+(β1X1 × β2X2)+ε
표본집단
Y=b0b1X1b2X2+(b1X1 × b2X2)+e

그런데 SPSS는 범주형 회귀분석을 어떻게 알아들을 수 있을까? 메뉴에서 아무리 찾아봐도 범주형 회귀분석은 그 비슷한 것도 나오지 않는다. 회귀분석 쪽에서 찾아봐도 없고, 교차분석 쪽에서 찾아봐도 나오지 않는다. 위에서 단계적 혹은 위계적 다중회귀분석은 대화 창에서 지정했지만, 사실 범주형 회귀분석은 대화 창이 아니라 분석을 위한 전처리 코딩을 따로 해야 한다. 코딩만 따로 되었다면 SPSS에서 범주형 회귀분석을 명령하는 것은 일반적인 다중회귀분석과 완전히 동일하다. 단계적으로 분석할 수도 있고, 위계적으로 분석할 수도 있다. 단지 범주형 회귀분석은 거기 투입되는 독립변인들 중에 특별하게 코딩된 범주형 변인이 섞여있다는 것밖에 없다. 그래서 엄밀히는 위의 단계적·회귀적 다중회귀분석과 분리될 수 없으나, 분석가의 코딩 작업이 상당히 골때리고(…) 회귀식의 논리도 다르기에 별도로 나누어 소개할 가치가 있다.

범주형 회귀분석을 실시하려면 먼저 가변인(dummy variable) 혹은 음역하여 더미변인을 만드는 코딩 과정이 필요하다. 가변인에 대해서는 오직 0과 1의 두 값만 생각하면 된다. 이것은 남성여성처럼 이진적(binary)인 범주형 변인이든, 아니면 '높음', '보통', '낮음' 같은 서열 수준의 범주형 변인이라서 아래의 다범주형 회귀분석을 사용할 때에든 마찬가지다. 가변인은 스위치처럼 이해하는 것이 필요하다. 범주 내의 특정 값이 나오면 '예'(Y)로 판단하여 자기 회귀계수를 '켜 주고', 기타 다른 값이 나오면 '아니오'(N)로 판단하여 자기 회귀계수를 '꺼 주는' 스위치인 것이다. 이 코딩에 정답은 없어서, 어떤 분석가는 남성일 때 회귀식 속의 가변인 회귀계수가 '켜지게' 만들 수도 있고, 어떤 분석가는 여성일 때 회귀계수가 '켜지게' 만들 수도 있다.

이걸 제대로 이해하지 못한 채로 분석을 하려다간, "뭐야, 어차피 나는 남성은 1, 여성은 2로 코딩했는데 굳이 또 0이랑 1로 바꿀 필요가 있나? 그냥 이대로 모형에 집어넣어도 상관없잖아?" 하는 학문적 참사가 벌어진다(…). 하지만 다시 강조하자면, 가변인은 정말로 0과 1밖에는 모른다. 0이 0이라서, 1이 1이라서 중요하기 때문이다.[14] 0 대신에 1을 집어넣으면 범주형 독립변인이 갖는 회귀계수가 '꺼지는' 게 아니라 '켜져' 있게 되고, 1 대신에 2를 집어넣으면 '켜지는' 게 아니라 도리어 회귀계수가 2배로 뻥튀기된다. 남성을 1로, 여성을 0으로 올바르게 코딩할 경우 남성의 데이터에서 나온 회귀식은 여성의 데이터에서 나온 회귀식에 비해 Y-절편의 위치가 회귀계수만큼 변동하고, 가변인과 연속형 독립변인의 상호작용이 발생할 경우에는 남자냐 여자냐에 따라 회귀선의 기울기까지 바뀌어 버린다. 따라서 범주형 회귀분석은 직관에 의지하지 말고 회귀식의 관점에서 정석대로 배우는 게 중요하다.

그런데 만약 범주형 변인이 갖는 값들이 이진적이지 않고 3수준 이상이라면, 그때는 0과 1 이외의 다른 숫자를 넣어도 괜찮을까? 그때는 가변인의 수를 늘려야 한다. 3수준 이상의 범주형 변인이 포함될 경우에는 다범주형 회귀분석을 활용하며, 이때 필요한 가변인의 수는 범주형 변인이 k수준일 때 k-1개만큼 필요하다. 그렇다면 각각의 가변인들은 여전히 0과 1밖에는 모르는 상태이고, 결국 어떤 경우를 0으로, 어떤 경우를 1로 코딩하는 것이 좋을지가 문제가 된다. 하지만 이에 대해서 속시원하게 알려진 정답은 없으며, 여러 종류의 가능한 코딩 방법들이 있다.

모든 가변인 코딩 방법들에서 공통적으로 가장 중요한 첫 관문은, 이 범주에서 어떤 값에 0을 부여할 것인가를 정하는 것이다. 3수준 이상의 여러 값들이 있을 때, 0이 부여되는 값은 참조 범주(reference category) 혹은 기저 범주(base category)라고 불리며, 다른 값들과의 비교 대상이 되는 가장 기초적이고 기본적인 상태를 의미하게 된다. 때때로 참조 범주를 정하는 것은 쉽기도 하고 어렵기도 하다. 예컨대 신약 집단과 플라시보(혹은 기존의 약) 집단, 그리고 통제 집단이 있다면 여기서 참조 범주는 당연히 통제 집단이어야 한다. 하지만 2030세대, 4050세대, 60대 이상의 세 범주 중에서 무엇을 참조 범주로 삼을지는 상당히 난감할 수 있으며, 늘 언급되지만 이론과 선행문헌의 조명 속에서 엄격하게 결정할 필요가 있다.

심리통계학자 앤드루 헤이스(A.Hayes)의 저서 《Regression Analysis and Linear Models》 를 참고로 할 경우, 다음과 같은 코딩이 가능하다.


가변인1
(D1)
가변인2
(D2)
가변인3
(D3)
값1
1
0
0
값2
0
1
0
값3
0
0
1
값4
0
0
0

  • 지시 코딩(indicator coding)
가장 보편적으로 활용되는 코딩이며, 위의 범주형 회귀분석에서 사용했던 방식의 확장이다. 위 사례에서 가변인마다 참조 범주인 '값4' 를 제외한 특정한 값에 대응되고 있으며, 숫자 1은 자신이 가리키는 값을, 숫자 0은 종류 불문하고 그 값이 아닌 값을 의미한다. 다범주형 회귀분석이 늘 그렇지만 지시 코딩도 해석이 쉽지 않은 경우가 있어 주의가 필요하다. 예를 들어 위에서 언급했던 2030/4050/60~ 형태의 세대 값을 생각해 보자. D2가 1로 코딩하는 세대는 4050세대인 것은 확실하나, 0으로 코딩하는 세대는 2030 및 60대 이상을 모두 싸잡아 의미한다. 하지만 과연 이 두 세대가 함께 묶일 정도로 동질적인 세대인가? 이 경우 D2가 갖는 회귀계수의 크기는 설득력이 약해진다.[15]


가변인1
(D1)
가변인2
(D2)
가변인3
(D3)
값1
0
0
0
값2
1
0
0
값3
1
1
0
값4
1
1
1

  • 순서 코딩(sequential coding)
서열 수준(ordinal level)에서 측정된 범주형 변인을 코딩할 때 쓰는 방법. 직관적으로 보더라도 위에서 소개했던 세대 변인을 코딩하기에 제격이다. 일반적으로 가장 낮은 순서의 값이 참조 범주가 되고, 그 위로 순서에 따라 가변인들이 0과 1의 경계를 끊어 준다. 예컨대 위의 세대 변인의 경우, D1은 40세를 기준으로 위아래를 끊으며, D2는 60세를 기준으로 끊을 수 있다. 그래서 이렇게 만들어진 다수의 가변인들을 모형에 넣고 회귀분석을 실행한 뒤, 어디서 끊느냐에 따라서 모형에 대한 기여도가 달라지게 된다고 판단할 수 있다.


가변인1
(D1)
가변인2
(D2)
가변인3
(D3)

가변인k-1
(Dk-1)
값1
-(k-1)/k
0
0

0
값2
1/k
-(k-2)/(k-1)
0

0
값3
1/k
1/(k-1)
-(k-3)/(k-2)

0






값k
1/k
1/(k-1)
1/(k-2)

1/2

  • Helmert 코딩(Helmert coding)
일반적으로, 통계적 방법에서 외국인 이름이 붙은 통계 용어는 어지간한 석사과정 수준까지는 쓸 일이 없다(…). 이 코딩 방법도 마찬가지다. 이것은 위의 순서 코딩처럼 서열 수준의 범주형 변인일 때, 혹은 명목 수준이라 하더라도 5수준 이상으로 값이 매우 많을 때 사용할 수 있다. 순서 코딩의 결과와 비교했을 때 모형의 R2 등에 영향을 끼치지는 않지만, 순서 코딩과 지시 코딩의 각각의 논리의 장점들을 가져와서 가변인들의 회귀계수를 보정하였다. 여기서도 순서 코딩처럼 각 가변인들이 위아래를 끊는 기능이 있지만, 가변인마다 새롭게 포함시키는 값이 인접한 다른 값들과 차별화되게 함으로써 가변인과 값 사이의 대응관계도 살리고 있다. 코딩이 매우 어렵고, 값이 적을 때는 별 의미도 없는 데다, 한눈에 보기에 헷갈리기도 쉬워서 구태여 상위호환이라 할 위상은 아니다.


가변인1
(D1)
가변인2
(D2)
가변인3
(D3)
값1
1
0
0
값2
0
1
0
값3
0
0
1
값4
-1
-1
-1

  • 효과 코딩(Effect coding)
위의 지시 코딩의 한 변종인데, 여기서는 참조 범주의 값에서 0이 아니라 무조건 -1로 코딩되게 해 놓았다. 분석결과 데이터는 지시 코딩과 같지만, 참조 범주의 회귀식에서는 각 가변인들의 회귀계수가 일괄적으로 부호가 뒤집혀 계산되면서 상수항에 추가 조정이 이루어진다. 사실 이 코딩은 3개의 값(+1, 0, -1)을 갖는다는 점에서 이걸 가변인 코딩이라고 취급하기도 힘들 정도로 이색적인 기법이며, 해석에도 어려움이 있다. 저자 헤이스 또한 "더 이상 가변인이 아니다"(no longer dummy variables)라고 설명하고 있다(p.287). 또한 그 논리의 특성 상, 참조 범주에만 초점을 맞추어서 해석하는 것이 불가능하다. 이 역시 위의 Helmert 코딩처럼 매우 특수한 경우에 속하므로 이런 게 있다고만 알아두어도 무방하다.

아무튼 이 중에서 하나의 방법을 골라서 2개 이상의 가변인들을 코딩했다면, 그 이후부터는 평범한 범주형 회귀분석을 하듯이 회귀모형에다 이 가변인들을 투입하면 된다. 다범주형 회귀분석의 난점은 어떻게 코딩할 것인가에서 한 고비, 그리고 어떻게 결과를 해석할 것인가에서 또 한 고비라고 할 수 있다. 어떤 가변인에서 모형에 대한 높은 기여도가 확인되었을 때, 그 가변인이 갖는 의미를 정확히 파악하여 변인 간 선형관계의 관점에서 Y값의 편차를 얼마나 예측할 수 있는지 논의해야 한다. 이것만으로도 정신줄 놓치기 쉬운데, 여러 가변인들이 한꺼번에 유의한 결과로 나왔다면 그 해석은 절대 만만치 않다.

  • H0: 분석에 투입된 독립변인들과 종속변인과의 선형적 영향 관계 및 독립변인들 간의 상호작용은 존재하지 않을 것이다.
  • H1-1: 분석에 투입된 독립변인들 중 적어도 하나 이상은 종속변인과 선형적 영향 관계가 존재할 것이다.
  • H1-2: 분석에 투입된 독립변인들 간에는 적어도 하나 이상의 관계에서 상호작용이 존재할 것이다.

[(다)범주형 회귀분석의 명령과 결과]

명령의 내용 및 출력결과는 상기된 단계적·위계적 다중회귀분석과 정확히 일치한다.



1.3. 비선형 회귀분석(로지스틱·프로빗)[편집]


특이하게도 어떤 분석주제들은 독립변인이 연속형인데 종속변인이 이진 범주형인 경우가 있다. 예를 들자면 남성성이 강하게 측정된 남성 응답자일수록 여친이 없기보다는 있는 경우가 많을 것인가 같은 경우(…). 이런 주제에서는 로지스틱 모형 혹은 프로빗 모형을 세우게 되며, 분석의 난이도가 확 치솟는다.[16] 학문적으로는 상경계열에서는 다층모형(multi-level model)을 공부하며 자주 접할 수 있으나, 어떤 사회과학 분야들에서는 대학원 내내 한 번도 못 접해보고 학위받아 나가는 경우까지 있을 정도로 희귀하다. 대체로는 박사과정생들을 대상으로 하는 방법론 특강이 열리는 주제이고, 사회통계 커리큘럼에는 포함시키지 않으며, 사회조사분석사 2급 시험범위에서도 벗어난다.

흔히 로짓분석을 비선형이라고 이해하는 경우가 있고 여기서도 묶어서 소개되지만, 이는 좀 엄밀하지 못한 감이 있다. 로짓분석은 상기한 것처럼 연속형 독립변인과 이진 범주형 종속변인인 연구주제를 해결하기 위해서 쓰이는 회귀분석일 뿐이다. 그래서 데이터과학에서는 로짓분석을 분류모형을 수립할 때 쓰는 경우도 많다. 로짓분석의 다른 특징적인 점으로는 확률론에 입각해서 해석이 이루어지며, 로짓분석을 이해하려면 이에 더하여 상기했던 ML, 그리고 승산비(odd ratio)와 같은 다른 개념들에 익숙해야 한다는 것이다. 로짓분석은 이런 개념들을 활용하여, 독립변인이 1단위 증가할 때 종속변인에서 y=1일 확률이 y=0일 확률보다 얼마나 더 증가하는지를 보여준다.

이 단계까지 무난히 분석이 가능하다면 스스로가 통계분석에 전문성이 있다고 자부해도 좋으며, 통계학적 지식을 활용해서 돈을 벌 기회도 굉장히 많아진다. 상기한 것처럼 로짓분석이나 프로빗분석의 수학적 논리를 정말 깊이 파기 시작하면 딥러닝 같은 큰돈 굴러다니는 시장을 만나게 된다. 엄밀히 말하면 이런 시장에서는 비선형 모형을 가지고 인공신경망을 만드는데, 로짓·프로빗분석의 기초가 되는 시그모이드(Sigmoid) 함수 혹은 ReLU(rectified linear unit) 함수[17]를 중첩시킨 다층 퍼셉트론(multilayer perceptron)의 학습이 이 기술의 핵심이 된다. 아예 '딥러닝은 그저 조금 복잡한 회귀분석일 뿐' 이라며 겸손하고도 냉정하게 자평하는 데이터 분석가들도 있다. 이런 '비선형' 어쩌고 하는 지식에다 베이지안까지 다룰 줄 안다면 당장 빅데이터분석기사 같은 자격증도 웃으면서 딸 수 있다.

산업구조가 변화함에 따라 이쪽으로 사람들이 몰리면서, 예전에 비해 이런 분석기법에 대한 강의나 질의응답, 교보재, 분석팁 등의 정보들이 대중적으로 크게 확산되는 긍정적 효과도 생겼다. 그래서 2020년대 들어 이 분야 분석기법들이 예전처럼 '극소수 이과생들의 비기(秘技)' 처럼 받아들여지는 상황은 다소 줄어들었다. 하지만 대학 전공여부와 무관하게 누구나 공부만 하면 쉽게 익힐 수 있다거나 하는 것도 분명 아니어서, 앞으로도 한동안 통계학데이터과학 분야 전공자들의 소중한 먹거리(?)로 쏠쏠하게 활용될 듯하다.


2. 같이 보기[편집]




3. 둘러보기[편집]


🏬 사회과학 조사·연구 방법론 둘러보기

[ 펼치기 · 접기 ]
📝 서론
사회과학 · 과학적 방법 · 사회조사 · 연구 · 가설 · 이론(이론적 조망) · 연구윤리
🔍 조사방법론 I
변인 · 정의 · 상관관계와 인과관계 · 실험(실험설계 · 통제 · 통제집단과 실험집단) · 사례연구
자료 · 자료수집(면접법 · 초점집단면접법 · 질문지법 · 관찰법) · 코딩
📈 조사방법론 II
표본조사 · 지표 · 측정 · 신뢰도와 타당도 · 지수 · 척도
📊 사회통계
통계적 방법 · 기술통계학 · 확률 및 분포 · 추론통계학 · SPSS · 분석기법(분산분석 · 회귀분석)
👔 공인 자격증
사회조사분석사 · 빅데이터분석기사 · 국가공인 데이터분석 전문가
📂 메타 문서
연구방법론 관련 정보
상기 문서들은 한국통계진흥원 및 한국산업인력공단의 출제범위에 의거하여 엄격히 망라되어 있으며, 동 기관의 과목별 구분·명명에 의거하여 조사방법론은 2파트로 구분됨





파일:크리에이티브 커먼즈 라이선스__CC.png 이 문서의 내용 중 전체 또는 일부는 2023-12-22 22:03:01에 나무위키 통계적 방법/분석/회귀분석 문서에서 가져왔습니다.

[1] 모집단을 대상으로 하는 회귀분석의 경우 오차(error)라는 용어를 사용하지만, 표본집단을 대상으로 할 때에는 잔차(residual)라고 한다. 여기서는 오차로 통일한다.[2] 이것을 흔히 Y-hat이라고 하여 Y 위에 모자를 씌운 형태로 표시한다.[3] 오차항 등분산성이 깨지더라도 오차항 독립성이 만족된다면, 여전히 일치성(consistency)이 높은 추정량이 됨으로써 대표본에 한하여 편의가 감소한다.[4] 초심자들이 간혹 헷갈릴 수 있는 부분이 있는데, 회귀선과 수직이 되는 방향으로 비스듬한 선을 긋고 그 거리를 재는 게 아니다.[5] 이때의 회귀계수를 표준화 회귀계수(standardized regression coefficient)라고도 하며, 심리학 등의 일부 분야에서 매개모형이나 조절모형을 제시할 때 각 화살표마다 회귀계수를 이걸로 붙여서 보고한다. 그러나 회귀계수를 표준화한다는 게 무조건 더 바람직하다는 건 아니어서, 리뷰어에 따라서는 비표준화 회귀계수로 고쳐서 보고하라는 경우도 있다.[6] 역사적으로 따져보면 R2는 최소제곱법과 선형모형을 연구하는 과정에서 나온 부산물이었다. 그런데 이것의 성질을 따져보니 SST=SSE+SSR이 성립해서 Y의 전체 변동에서 모형이 설명할 수 있는 부분의 비율이라는 의미를 부여하고, 결정계수라는 추가적인 이름을 붙인 것이다.[7] 다중회귀분석에서는 기본 가정 성립여부가 중요해지는 상황이 종종 발생한다. 특히 시계열(time-series) 자료를 회귀분석할 때에는 오차항 독립성 가정이 깨질 위험이 크다는 우려가 나오기 쉽다.[8] 교과서들에서도 많이 나오는 그림이지만, 산점도의 임의의 여러 X값들에다 수직선을 그어 놓았을 때, 우측으로 90˚ 회전되어 눕혀진 정규분포들을 수직선 옆으로 그릴 수 있다는 얘기다.[9] 정규성 검정에서는 Q-Q 도표(Q-Q plot)도 쓰이는데, 이쪽은 확률이 아니라 백분위수(quantile)를 기준으로 보여주기에 이름이 Q-Q 도표가 되었다.[10] 과정이야 복잡하지만, 사실 외적 스튜던트화 잔차를 변수로 뽑아낸 후 평범하게 정규성 검정을 하는 것에 불과하다.[11] 경제학과는 예외다. 이쪽에서는 능형회귀뿐만 아니라 랏소회귀분석(Lasso regression analysis)까지도 알아야 한다. 특히 대학원 과정에서는 회귀분석에 대해 이 정도 깊이쯤은 기본으로 따라와야 비로소 경제현상에 대해 모형다운 모형을 수립할 수 있다. 일반적으로 이 둘은 모형의 과적합(overfitting) 문제를 방지하기 위해 쓰이는데, 과적합된 모형은 그것을 수립하는 데 쓰인 표본만을 (지나치게) 잘 설명할 뿐 그 이상으로는 일반화가 안 된다. 표본 자체가 갖는 노이즈에 대해서까지 의미가 있을 거라고 '과몰입' 하기 때문에 현실 세계에 맞지 않는 것이다. 능형회귀와 랏소회귀는 이에 대해 회귀식 내부에 벌점항(penalty term)을 두어 해결하며, 양자는 대체로 대동소이하나 랏소회귀 쪽은 벌점항에 절댓값을 씌워서 관리한다. 기계학습에서도 굉장히 주목받는 이슈다.[12] 2수준 범주일 경우 범주형 회귀분석, 3수준 이상 범주일 경우 다범주형 회귀분석[13] SPSS는 다중회귀분석에서 상호작용을 직접 포함시켜서 출력해 주지 않으므로, 별도의 변수 계산 명령을 거쳐야 한다. 만일 이것이 싫거나 더 체계적인 상호작용 분석을 원한다면 여기서 SPSS용 매크로인 RLM을 다운로드할 수 있다. 받은 파일에는 SPSS용 명령문이 있는데, 이것을 SPSS에서 전문 블록으로 잡고 실행시킨 뒤 명령문 창을 켜고 mod=1(범주형) 또는 mcmod=1(다범주형) 표시를 넣어주면 된다. 명령문의 구체적인 문법은 《Regression Analysis and Linear Models》 도서의 부록을 참고할 수 있다.[14] 하술되듯 1과 0 이외의 다른 숫자를 넣어도 되는 경우가 있긴 하지만, 통계적으로 특수한 목적을 지닌 고급의 분석일 경우에나 해당된다. 논문이나 보고서에서 공개되는 수치(회귀계수)들을 직접적으로 건드리는 숫자다.[15] 특히 문제가 심각해지는 경우가, 세대에 따라서 Y값의 평균이 증가하고 상호작용은 없는 경우이다. 이때는 2030세대의 회귀선 위에 4050세대의 회귀선, 그 위에는 60대 이상의 회귀선이 평행하게 나란히 놓이게 되는데, 맨 아래의 회귀선과 맨 위의 회귀선을 함께 합쳐버리면 중간에 끼인 회귀선과 큰 차이가 없어지게 되고, 결과적으로 D2가 갖는 회귀계수 숫자 자체가 줄어들게 된다. 분명히 세대 변인이 끼치는 영향이 존재함에도 불구하고 그 효과가 과소추정되는 것이다.[16] 그럼 여기서 독립변인과 종속변인을 뒤집어서 거꾸로 '이성교제 중인 남성은 그렇지 못한 남성에 비해 남성성이 높다' 식으로 독립표본 t-검정이 가능하게 문제의식을 바꿀 수 있지 않느냐고 생각할 수 있으나, 이론적 배경과 선행문헌 검토에서 어긋나기 십상이므로 그런 편의주의적인 접근은 지양하는 것이 좋다.[17] 전통적으로는 시그모이드 쪽을 기초로 삼아 연구가 이루어졌으나 곧 기울기 소실(vanishing gradient)이라는 방법론적 한계가 드러났고, 현대에는 거의 대부분이 ReLU 쪽을 쓰고 있다.