SPSS (문단 편집)

=== 데이터 가공 ===
상기한 초급 수준의 이용자가 자주 쓰게 되는 가공 방식들에 대해서 설명한다.

* '''데이터 결합''': '데이터' → '파일 합치기' → '케이스 추가' or '변수 추가'
 케이스 추가는 케이스를 말 그대로 아래로 결합해 붙이는 기능이라면, 변수 추가는 변수를 오른쪽으로 결합해 붙이는 기능이라고 할 수 있다. 이때 변수가 서로 일치한다면 다행이지만 일치하지 않을 수도 있는데, SPSS는 두 데이터에 존재하는 모든 변수들을 전부 띄워놓고 이 중에서 포함시킬 데이터와 제외시킬 데이터를 분류하라고 안내한다. 여기서 기준변수는 양쪽의 케이스가 동일하다는 기준으로 삼기 위해 양쪽 데이터에 공히 존재하는 변수를 잡아주면 된다. A데이터를 기준으로 B데이터에서 필요한 부분만 선택적으로 가져와야 한다면 대화 창에서 '(비)활성 데이터 세트가 기준표임' 표시를 클릭하면 된다.

* '''케이스 선택''': '데이터' → '케이스 선택'
 이번에는 전체 케이스를 다 쓰지 않고 그 중 일부만 분석에 활용한다. 무선추출도 가능하지만 가장 흔히 쓰는 기능은 '조건을 만족하는 케이스' 로서, 변수 목록과 함께 작은 계산기 자판이 띄워진다. 예를 들어 남성만 뽑아서 분석하고 싶다면 성별 변수를 클릭하고 오른쪽에 ＝1 이라고 수동으로 입력해 주면 된다. 이렇게 하면 흔히 1로 코딩된 남성의 케이스만 남게 되고, 흔히 2로 코딩된 여성의 케이스에는 모두 맨 왼쪽 세로열에 ／ 사선이 그어져서 제외된 케이스임을 알린다.[* 단, 결과가 이렇게 나오려면 '선택하지 않은 케이스 필터' 에 체크가 되어 있어야 하며, 그 외의 기능으로 선택한 케이스만 새 데이터 파일로 뽑아내거나 혹은 선택하지 않은 케이스를 전부 삭제하는 것도 가능하다.] 이 기능을 활용할 경우 자동으로 filter_$ 변수가 생성된다.
 
 2개 이상의 조건을 활용할 경우 계산기에서 & 버튼과 | 버튼을 숙지해야 한다. SPSS도 엑셀과 같은 논리를 갖고 있어서, '남성이면서 서울 거주자' 조건과 '남성이거나 서울 거주자' 조건을 서로 다르게 이해한다. 전자(AND 논리)를 원한다면 & 버튼을 활용하면 되며, 두 조건을 모두 만족하는 케이스만 선택된다. 만일 후자(OR 논리)를 원한다면 | 버튼을 활용하면 되고, 두 조건 중 하나 이상을 만족하는 모든 케이스가 선택된다.

* '''변수 계산''': '변환' → '변수 계산'
 위에서 보았던 그 계산기가 변수 목록과 함께 또 띄워진다. 이후부터 할 일은 분야마다 조금씩 달라지는데, [[지수]](index)를 자주 쓰는 학문분야들에서는 각 변수들을 숫자표현식 창에다 집어넣고 사칙연산 식을 수작업으로 그려주어야 하며, [[척도]](scale)를 자주 쓰는 학문분야들에서는 거의 반드시 [[평균]]을 구하는 계산을 하게 된다. 그 외에 조절모델이 중요한 [[약학]]이나 [[의학]], [[심리학]], [[생리학]] 등의 일부 분야들에서 센터링(centering)을 하면서 쓰게 되기도 한다.
 
 목적이 지수의 산출이든 평균의 계산이든 그 외의 것이든, 제일 먼저 할 일은 왼쪽 위의 '목표변수' 창에다 새로 정의할 변수의 이름을 정해주는 것이다. 이후 숫자표현식에서 목표변수가 케이스별로 가질 값을 어떻게 계산할지를 정해주면 된다. 평균 계산의 경우 오른쪽 '함수 집단' 메뉴에서 통계를 찾은 후, 하단의 '함수 및 특수변수' 메뉴에서 Mean을 고르면 된다. 이때 숫자표현식에 MEAN(?,?)라고 띄워지는데, 참으로 엑셀스럽게도 소괄호 속에다 모든 변수들을 집어넣고 쉼표로 구분해 주라는 의미다.[* 엑셀에서의 =AVERAGE(G1,G3,G5) 같은 수식입력과 매우 유사하다.] 단지 SPSS에서는 셀을 집어넣는 게 아니라 정의된 변수를 집어넣을 뿐이다. 문항 5개의 평균을 내야 한다면 MEAN(문항1,문항2,문항3,문항4,문항5) 이렇게 적어주면 끝. 대화 창 아래쪽에 케이스 선택을 위한 '조건' 버튼이 있는데, 사회조사분석사 실기시험에서는 거의 반드시 이걸 함께 활용하게 된다.

* '''코딩 변경''': '변환' → '같은 변수로 코딩변경' or '다른 변수로 코딩변경'
 두 메뉴의 차이점이라면 코딩을 변경해 준 결과를 기존의 데이터에 덮어씌울 것인지(같은 변수로 코딩변경) 아니면 새 변수로 추가할 것인지(다른 변수로 코딩변경)밖에 없다. 학술적인 목적의 이용자들은 거의 대부분 아래의 두 가지 중 하나를 위해 이 대화 창에 들어오게 된다.
 
 첫째로 '''역코딩'''(reverse coding)을 하려는 경우가 있다. 리커트 척도로 측정된 데이터에서 각 값들을 거꾸로 뒤집어 줄 때 역코딩을 하게 된다. 5점 척도를 역코딩한다고 가정하자. 이 경우 뒤집을 변수를 목록에서 선택한 뒤 새로 만들 출력변수의 이름을 정의하고,[* 이때의 이름은 '문항3_R' 같은 식으로 역코딩 변수임을 알아보기 쉽도록 정의하는 것이 좋다.] '기존값 및 새로운 값' 버튼으로 들어가서 왼쪽 기존값 맨 위의 '값' 을 클릭하고 1, 오른쪽 새로운 값 맨 위의 '값' 을 클릭하고 5를 입력한 뒤 아래쪽 '추가' 버튼을 누른다. 그러면 빈 공간에 1→5 글자가 띄워지며, 동일한 방식으로 2→4, 3→3, 4→2, 5→1까지 반복해 주면 된다. 유의할 점으로, 1을 5로 바꾸었다고 해서 기존의 5가 자동으로 1로 역코딩되지는 않는다. 기존의 5는 그대로 5로 뒤섞일 뿐이다. 3 또한 굳이 코딩해 주지 않으면 그대로 결측값이 되어 버린다. 마지막으로 '계속' 을 클릭해 나가고, 대화 창에서 '변경' 을 누른 뒤 '확인' 을 눌러서 역코딩을 완료할 수 있다.
 
 역코딩에는 또 다른 방법도 있다. 특히 7점 이상으로 값이 많을 경우, 위에 적힌 방식으로는 상당히 시간도 오래 걸리고 실수하기도 쉽다. 이럴 때는 '변수 계산' 으로 들어가서, n점 척도를 역코딩하기 위해 '(n＋1)－변수명' 입력을 해 주면 되는 것이다. 예를 들어 8점 척도의 변수명이 V4라면 '9－V4' 를 입력하면 끝난다는 것. 이 경우 8점 만점 코딩은 9－8＝1로 역코딩되고, 1점 코딩은 9－1＝8로 역코딩된다. 척도의 값이 많으면 많을수록 빛을 발하는 방법이며 실수할 가능성도 적으니 잘 기억해두자.
 
 둘째로 '''콜랩스'''(collapse)가 간혹 필요한 경우가 있다. 이는 정보량의 손실을 무릅쓰면서 데이터의 [[측정]] 수준을 낮추는 것으로, 예를 들면 cm 단위로 측정된 키 변수의 데이터를 '큰 키', '중간 키', '작은 키' 같은 식으로 뭉개 버리는 것이다. 실무에서도 인사고과 점수에 따라 '우수', '보통' 같은 식으로 랭킹을 매겨야 할 때에도 쓰인다. 이때는 '기존값 및 새로운 값' 에서 왼쪽의 기존값 중간부터 나오는 '범위' 를 활용해서 지정해 주면 된다. 많은 경우 새로운 값이 문자열로 나오게 되는데, 이때는 오른쪽 아래에 '출력변수가 문자열임' 체크박스를 클릭해 줘야 한다. [[사회조사분석사]] 실기 시험에서 이 기법이 단골로 출제되는데, 이유는 이렇게 해서 연령 변수를 '연령대' 라는 서열 변수로 뭉개줘야만 이걸 가지고 분산분석도 하고 교차분석도 하기 때문이다.

* '''순위 생성''': '변환' → '순위변수 생성'
 자주 쓰이지는 않지만, 엑셀의 RANK.EQ 함수와 똑같은 기능으로 매우 쉽다. 줄 세울 기준 변수를 뽑아서 '변수' 칸으로 옮겨놓고, 필요하다면 '등순위' 버튼을 눌러서 동점자가 나올 경우 평균값으로 순위를 매길 것인지, 큰 순위를 매길 것인지, 작은 순위를 매길 것인지 정해준다.

저장 버튼을 클릭하면 당신이 기여한 내용을 CC-BY-NC-SA 2.0 KR으로 배포하고,
기여한 문서에 대한 하이퍼링크나 URL을 이용하여 저작자 표시를 하는 것으로 충분하다는 데 동의하는 것입니다.
이 동의는 철회할 수 없습니다.

SPSS (문단 편집)

캡챠