실험설계 (문단 편집)

=== 통제집단 사전사후 설계 ===
pretest-posttest control design

가장 고전적인 형태의 실험으로, 다음의 순서를 따른다.

1. [[통제집단과 실험집단]]을 각각 구성하고, 실험대상 또는 참가자를 양쪽 집단에 '''무선할당법'''(random assignment)으로 배치한다.
2. 실험집단에 처치를 가하기 전에 종속변인의 '''사전검사'''(pretest)를 양쪽 모두 실시하고, 검사 결과 두 집단의 평균 데이터에서 통계적으로 유의한 차이가 없음을 (즉 사실상의 동질적 집단임을) 보인다.
3. 이후 실험집단에만 독립변인에 해당하는 '''처치'''(treatment)[* [[사회과학]] 몇몇 분야들에서는 조작(manipulation)이라고도 한다.]를 가한다.
4. 처치 후 종속변인의 '''사후검사'''(posttest)를 양쪽 모두 실시하고, 검사 결과 두 집단의 평균 데이터에서 통계적으로 유의한 차이가 나타나는지 (즉 처치로 인해 두 집단이 이질화되었는지) 확인한다.

여기서 [[심리학]] 등의 일부 분야에서는 처치가 정상적으로 적용되었는지도 확신하지 못한다는 특수한 학문적 요구에 직면해 있다. 그래서 이런 분야들에서는 처치 직후에 그 처치가 의도한 대로 타당하고도 성공적으로 이루어졌음을 계량화 및 수치화해 엄밀히 입증하는 과정이 추가된다. 이런 추가적인 절차를 '''[[조작 점검]]'''(M-check; manipulation check)이라고 부른다.

[[파일:experiment-design-1.png|width=600px]]
||EG→||R||O,,e1,,||X||O,,e2,,||
||CG→||R||O,,c1,,|| ||O,,c2,,||

실험자가 바라는 가장 이상적인 결과는, 처치 이전의 차이(difference before treatment)는 통계적으로 유의하지 않게 나타나면서, 처치 이후의 차이(difference after treatment)는 통계적으로 유의하게 나타나되, 그 차이가 연구목적에 부합하는 방향일 때이다. --대중매체에서 [[매드 사이언티스트]]가 막 출력된 데이터를 읽고서 음흉하게 웃는다면 바로 이 상황이다.-- 연구분야에 따라서는 처치 이전의 차이가 이질적이라 하더라도 동료 학자들이 크게 문제삼지 않는 경우가 있는데, 이때는 아래와 같이 '''처치의 효과'''(treatment effect)를 정확히 명시할 필요가 있다.

이 설계는 그 내적인 논리 상 '''차이들의 차이'''(DID; difference in differences)를 도출함으로써 처치의 효과를 계산하는 데 적합하다. 처치의 효과를 알고자 한다면 먼저 차이들(differences)에 대한 정보가 필요하다. 첫째 차이는 실험집단에서 사후검사와 사전검사 사이에 발생한 차이(O,,e2,,－O,,e1,,)이다. 둘째 차이는 통제집단에서 사후검사와 사전검사 사이에 발생한 차이(O,,c2,,－O,,c1,,)이다. 이후, 두 개의 차이 수치 사이에서 나타나는 차이를 확인한다면((O,,e2,,－O,,e1,,)－(O,,c2,,－O,,c1,,)) 그것이 처치의 효과가 된다.

[[파일:experiment-design-2.png|width=600px]]

그래프 상에서 처치의 효과는 다른 방식으로 도해될 수도 있다. 위 그래프에서 점선과 회색선은 서로 평행하다고 가정하자. 회색선은 실제 데이터는 아니지만, 실험집단에 처치가 가해지지 않았을 경우를 상정했을 때 원론적으로 기대되는 수치이다. 중요한 것은 위 그래프의 회색선 자체가 이미 통제집단의 변화를 반영하여 기울어져 있다는 것이다. 그래서 처치의 효과도 실험집단의 처치 전후 차이를 다 포함하지 않고, 회색선 오른쪽 끝 아랫부분에 해당하는 일부 상승분이 자동으로 빠져 있다. 통제집단과의 평행선을 그음으로써 (O,,e2,,－O,,e1,,)－(O,,c2,,－O,,c1,,) 값의 크기가 확인된 것이다. 이와 같은 방식을 '''평행 추세 추정법'''(parallel trend assumption)이라고도 한다.

본질적으로 여러 평균 간의 차이를 비교하는 논리를 따르기 때문에, 결과 데이터 분석에도 그에 적합한 통계적 분석방법이 필요하다. 대개는 [[분산 분석]](ANOVA; analysis of variance), 특히 반복측정법(repeated measures)을 활용하게 된다. 실험에 필요한 집단이 3개 이상이라면[* 신약과 종래의 약을 비교하거나, 무처치 집단과는 별개로 편성하는 [[플라시보|위약집단]]의 활용, 다수의 신약 후보들의 효과를 비교하거나 등등의 목적으로 실험집단을 여럿 편성할 수 있다.] 별도의 사후분석을 통해서 구체적으로 어떤 집단이 어떤 집단과 유의하게 차이가 발생한다는 것인지 명시할 필요가 있다. ANOVA는 그저 여러 집단들 사이 어딘가에서 유의한 차이가 발생하느냐 여부만을 분석하기 때문이다.

통제집단 사전사후 설계가 항상 좋은 것만은 아니다. 정교하고도 엄격한 절차로 인해, 이 실험을 진행하는 실험실의 환경은 외부 세상과 단절되고 만다. 가능한 많은 외생변인들을 '[[통제]]' 한다는 것은, 뒤집어 말하면 세상의 다채롭고 복잡한 측면들을 최대한 '소독' 해 버린다는 말이 된다. 결국 특정한 처치의 효과를 알아보는 데에는 성공했지만, 현실에서 그 효과가 과연 어디까지 똑같이 발휘될 수 있을지는 아무도 장담하지 못한다. 이런 문제를 가리켜 '''[[생태학적 타당도]]'''(ecological validity)가 낮다고 표현하기도 한다.

또 다른 문제로서, 분야에 따라 '''상호작용 검사효과'''(interaction testing effect)가 발생하는 종류의 실험에서는 사용할 수 없다. 사후검사 데이터는 사실 사전검사의 실시로 인해 발생하는 왜곡까지도 포함하기 때문이다. 사전검사를 거치는 과정에서 참가자는 실험목적이나 그 주제에 대해서 의식적으로 인식하게 되고, 연구자가 원하는 날것 그대로의 반응은 그만큼 탐지하기가 어렵게 된다. 이 문제는 사람들의 태도나 의견, 인식 등이 어떻게 변화하는지 파악해야 하는 [[심리학]](특히 [[사회심리학]]) 분야에서 두드러진다.

저장 버튼을 클릭하면 당신이 기여한 내용을 CC-BY-NC-SA 2.0 KR으로 배포하고,
기여한 문서에 대한 하이퍼링크나 URL을 이용하여 저작자 표시를 하는 것으로 충분하다는 데 동의하는 것입니다.
이 동의는 철회할 수 없습니다.

실험설계 (문단 편집)

캡챠