표준편차

덤프버전 :

    통계학

Statistics
[ 펼치기 · 접기 ]





1. 개요
2. 모표준편차
2.1. N으로 나눔
3. 표본 표준 편차
3.1. n-1로 나눔
4. 표준 오차
5. 평균 절대 편차
6. 표준 편차의 용도
6.1. 68-95-99.7 규칙
7. 엑셀에서 표준 편차 구하기
8. 같이 보기



1. 개요[편집]


/ standard deviation(σ)

자료의 관찰값들이 얼마나 흩어져 있는지 그 정도를 하나의 수치로 나타내는 방법은 여러 가지가 있는데 그중 가장 많이 사용하는 것이 표준편차이다.[1]

약어로는 SD 또는 StDev(또는 stdev)라고 쓰는데 Microsoft Excel의 함수 명칭과 동일하다.[2]

관찰값들이 얼마나 흩어져 있는지를 살피기 위해 각 관찰값과 ‘관찰값들의 평균’[3]과의 차이인 편차를 생각해 볼 수 있다. 편차(deviation)는 관측값에서 평균[4]을 뺀 것이다. '이렇게 구한 편차들의 평균을 구하면 자료 관찰값들이 얼마나 흩어져 있는지를 하나의 수치로 나타낼 수 있겠구나'하는 생각으로 직접 이들 편차들의 평균을 구해보면 필연적으로 항상 0이 되는 것을 확인할 수 있다. 이런 상황을 회피하기 위해 어쩔 수 없이 편차들의 '제곱'을 구한 뒤 그 편차들의 제곱의 평균을 구해서 나온 값(분산)에 다시 제곱근을 구하는 우회적인 방법을 써서 산포도 값을 구한 것이 바로 표준편차다.

분산(variance)은 관측값에서 평균을 뺀 값을 제곱하고, 그것을 모두 더한 후 전체 수로 나눠서 구한다. 즉, 차이값의 제곱의 평균이다. 관측값에서 평균을 뺀 값인 편차를 모두 더하면 0이 나오므로 편차의 부호를 없애기 위해 제곱해서 더한다. 또한 분산은 표준편차의 제곱이다.

표준 편차(standard deviation)는 분산을 제곱근한 것이다. 제곱해서 값이 뻥튀기 된 분산을 제곱근해서 다시 원래 크기로 만들어준다. 표준편차의 경우 후술될 표준오차(stand error)와 함께 통계학 공부에서 제일 먼저 접하게 되는 개념이다. 특히, 표준편차는 서술되는 방식에 따라 그 함의가 다양해서 이후 연구방법론의 핵심인 추론통계의 기초가 되는 모 표준 편차, 표본 표준 편차, 표준오차를 이해하는 데 의외(?)로 중요한 역할을 하게 된다. 이처럼 표준편차가 중요한 역할을 하는 데는 사실 표준편차는 어떤 수의 크고 작음을 직관적으로 이야기해 줄 수 있기 때문이다. [5]

모 표준 편차(population standard deviation) σ는 모 집단의 표준 편차이다. 모 분산 σ2에 루트를 씌워서 구한다.

표본 표준 편차(sample standard deviation) s는 표본의 표준 편차이다. 표본 분산 s2에 루트를 씌워서 구한다.[6]


2. 모표준편차[편집]


모집단을 대상으로 한 표준 편차인 모표준편차(population standard deviation) σ는 짧게 말해서 모분산(population variance) σ2루트를 씌운 것이다.

분산에서 왜 제곱을 하는지 알고 있다면, 표준편차에서 왜 루트를 씌우는지도 알 수 있다. 분산을 구하는 과정에서 음의 부호를 없애기 위해 임의로 뻥튀기를 해 놓았으니, 이제 그 값을 도로 원상복구시켜야 하는 것이다. 즉 제곱해서 커져 버린 값에 루트를 씌워서 도로 쪼그라들게 만들면 비로소 우리가 본래 알고 싶어하던 편차의 평균이 얻어지게 되는 것이다. 통계학자들은 시그마 소문자 기호로 표준편차를 표시하는데, 위에 서술한 바에 의해서 분산의 경우는 시그마 제곱으로 표현된다. 또한 단위를 맞춰주기 위해서 루트를 씌우기도 한다.

표준편차의 경우, 모든 관찰값에 동일한 상수를 똑같이 더하거나 빼는 것은 영향을 받지 않지만, 똑같이 곱하거나 나누게 되면 표준편차도 동일하게 영향을 받는다. 모든 수에 2를 곱한다면 표준편차도 2가 곱해진 새로운 값으로 구해지게 된다.


2.1. N으로 나눔[편집]


모 분산에서 유도된 값이므로 모 분산과 마찬가지로 모집단(population)의 데이터 개수 N으로 나눈다.

우선 N개의 자료값 [math( x_1 , x_2, \cdot\cdot\cdot , x_N )]이 있다고 가정할 때 이 자료값의 평균(mean) [math(m)]부터 구하면
[math( m= \frac{x_1 + x_2 + \cdot \cdot \cdot + x_N } {N} )]
로 표현된다. 다음에 각 자료값 [math(x_i, i=1, 2, \cdot \cdot \cdot N )]에 대해 [math( x_i -m )]을 평균 m에 대한 [math( x_i )]의 편차(deviation)라고 부른다. 이 편차들의 제곱의 평균인
[math( V= \frac{{(x_1 -m)}^{2} + {(x_2 -m)}^{2} + \cdot \cdot \cdot + {(x_N -m)}^{2} }{N} = \sigma^2)]
를 [math( x_1 , x_2, \cdot\cdot\cdot , x_N )]에 대한 분산(Variance,[math( \sigma^2)])이라 부른다. 이 분산의 제곱근
[math( \sigma= \sqrt{ \frac{{(x_1 -m)}^{2} + {(x_2 -m)}^{2} + \cdot \cdot \cdot + {(x_N -m)}^{2} }{N} } )]
을 표준 편차라고 부른다.

확률 변수의 X에 대한 방식으로 묘사될 때에는 다음과 같이 정의된다.

[math( (X) )][math( = \sqrt{ { E((X-E(X))}^{2}) } = \sqrt { E({X}^{2}) -{(E(X))}^{2}} )]


3. 표본 표준 편차[편집]


표본 표준 편차(sample standard deviation) s표본 분산(sample variance) s2제곱근이다.

모집단모평균, 모표준편차를 알고싶지만 많은 경우에 그것은 불가능하거나 너무많은 노력이 필요하므로 표본조사를 통하여 모집단의 정보를 추정한다.
[math(표본크기 n, 표본평균\overline{x} , 표본x_n)]
표본 분산[math(s^2 = \dfrac{\sum(x_n - \overline{x})^2}{n-1} )]
표본 표준편차[math(s = \sqrt{s^2} = \sqrt{\dfrac{\sum(x_n - \overline{x})^2}{n-1} } )]

3.1. n-1로 나눔[편집]


표본 분산에서 유도된 값이므로 표본 분산과 마찬가지로 표본(sample)의 데이터 개수 n에서 1을 뺀 n-1로 나눈다.

우리는 모집단의 표준편차는 알 수 없지만 표본을 뽑아 분산을 구하고 그 과정을 많이 반복하여(무한히) 모집단의 표준 편차와 같도록 하기위해, 표본을 이용하여 모집단의 분산을 추정할때는 표본크기 n이 아니라 n-1로 나눠준다. 이때 구한 표본표준편차가 모표준편차의 불편 추정량(unbiased estimator)이다.표본분산이 모분산의 불편 추정량(unbiased estimator)이 된다. 표본분산의 양의 제곱근인 표본표준편차는 모표준편차의 편향추정량이다(복잡하지만, 기댓값을 계산해보면 모표준편차와 다른 값이 나온다).분산 및 표준편차에서 분모를 n-1로 계산하는 이유 그러나 통계 전공자가 아니고서야 이러한 논리를 직관적으로 이해하는 데는 한계가 있다. 사회과학도에게는 수식 없이 직관적으로 설명한 영상을 추천한다.

표본 표준편차에서는 분모를 n이 아니라 n-1을 사용한다. 간단히 말해서 편차의 제곱평균.


4. 표준 오차[편집]


표준 오차(standard error)는 표준 편차와는 다르다. 표준오차추론 통계학에서 수많은 표본 평균들의 편차를 구함으로써 모평균 "[math(\mu)]"를 추정할 때 쓰인다. 이 경우 [math(\Sigma)]의 소문자 [math(\sigma)]에 아래 첨자로 m을 붙여서 표기하며([math(\sigma_{m})]), 루트 씌운 표본 관측값의 수로 표본 표준 편차를 나누면 된다.

[math(\sigma_{\bar{x}} = \displaystyle{\sigma \over \sqrt{n}})]
모 평균에 대한 표준 오차(standard error of the mean, SEM)
[math(\sigma)]는 모 분산, [math(n)]은 표본의 크기

[math(\sigma_{\bar{x}} \approx \displaystyle{\frac{s}{\sqrt{n}}})]
표본 표준 편차 [math(s)]를 이용하여 근사값으로 구하기

[math(s_{\bar{x}} = \displaystyle{\frac{s}{\sqrt{n}}})]
표본 평균에 대한 표준 편차표본 평균오차에 대한 표준 편차와 동일하다.


관련 영상:수식없이 설명하는 표준오차


5. 평균 절대 편차[편집]


제곱 후 제곱근 하는 대신 편차에 절댓값을 취해서 그걸로 평균을 내는 절대 편차를 쓸 수도 있지 않나 할 수 있지만, 나중에 통계분석을 할 때 쓰기가 까다로워서 잘 안 쓴다고 한다. 최근에는 강력한 관측값을 얻기 위해 사용되는 분야가 꽤나 있다. 절댓값을 취하는 방법은 따로 "평균편차"(MAD) 라고 부른다.

단순히 편차들의 절대값의 평균(평균절대편차)을 구하지 않고 제곱의 평균을 구한 뒤 제곱근을 취하는 이유는(표준편차) 평균으로 부터 분산된 정도를 구하기 위해서이다. 절대값을 이용하면 평균이 아닌 중앙값에서 분산된 정도를 나타내게 된다.

거꾸로 생각하여 우리가 '데이터가 흩어진 정도'를 표현하는 척도를 (표준편차, 평균절대편차 등) 정했다고 가정하자. 이때 데이터의 대표값은 '데이터가 흩어진 정도'가 가장 작게되는 값일 것이다. 이때 '데이터가 흩어진 정도'를 표준편차로 선택하면 대표값(흩어진 정도가 최소이게 만드는 수)은 평균이 되고, 그 척도를 평균 절대 편차로 선택하면 대표값은 중앙값으로 선택된다. 대표값을 미지수로 넣고 미분을 통해 최소값을 구해보면 나온다.

이렇게 제곱의 평균의 제곱근을 RMS(root mean square, 우리말로는 근평균제곱)이라고 하는데 기체분자의 속도 분포를 기반으로 운동에너지의 평균을 구할 때에도 유용하다. 왜냐하면 운동에너지가 속도의 제곱에 비례하기 때문이다.

절대 편차 문서의 평균 절대 편차 항목 참조.


6. 표준 편차의 용도[편집]


대표적으로 수험생들의 시험 점수 평가에 사용된다. 표준편차가 크면 수험생들 간의 점수 차이가 크다는 이야기이며 반대로 표준편차가 작으면 수험생들 간의 점수 차이가 별로 없다는 이야기다. 만약 A,B학교 출신 수험생들이 동일한 시험을 보았더니 A학교 출신 수험생 집단의 표준편차가 B학교 출신 수험생 집단의 표준편차 보다 작다는 것은 A학교는 B학교보다 수험생들 간의 점수 차이가 작다는 것을 말해준다. 표준편차만으로는 이 정도 정보만 얻을 수 있다. 이제 여기에 평균 점수를 보태면 좀 더 정확한 정보를 얻을 수 있는데, 예를 들어 A학교, B학교를 비교했을 때 A학교는 작은 표준편차와 높은 평균 점수를 보이고, B학교는 큰 표준편차와 낮은 평균 점수를 보인다면, A학교 수험생들은 대부분 상위권에 밀집해 모여있고, B학교 수험생들은 대체로 하위권을 중심으로 많이 흩어져 있다고 볼 수 있다.

가장 대표적으로 표준점수가 이 평균과 표준편차를 사용하여 표준화를 통해 결정된다. 수능 점수를 정규분포라고 가정하고 평균을 100으로, 표준편차를 20으로 가정하고 상대적으로 얼마나 높은 점수를 받았는지로 표현한다.

실제로 수험생들의 성적분포는 웬만큼 난이도가 어렵지 않은 이상 의외로 정규분포와는 큰 차이를 보인다. 특히 국어[7], 영어, 통합 이전 수학 가형은 상위권은 오밀조밀 모여있고 중하위권은 점수 편차가 심하다.(부적편포) 특이하게도 수학 나형이나 일부 탐구과목은 이봉분포나 더 심하면 모래시계형 분포를 보인다.[8]

예를 들어, 올해 수능의 평균이 60점이고 올해 수능의 표준편차가 24점이라 가정하면 92점을 받은 학생은 표준점수가 127점[9]이 된다.

이 밖에도 통계조사에서 표본평균을 기반으로 모집단의 평균을 추정할 때에도 이 표준편차가 모평균의 범위를 결정하는데 중요한 역할을 한다. 지능 지수 테스트에서도 표준편차SD15, SD24 값에 따라 결과값이 달라진다.

6.1. 68-95-99.7 규칙[편집]


표준 편차의 신뢰구간에 따라 정규분포의 특정 값을 m+n*σ 로 나타낼 수 있고, n=1, 2, 3일 때 각각 정규분포의 약 68.27%, 95.45%, 99.73% 범위를 포함하는데, 각각의 백분율을 기억하기 위해 사용되는 약칭이다. 경험적 규칙이나 3시그마 규칙이라고도 부른다.

교육과정에서는 95%의 신뢰구간인 1.96σ, 99% 신뢰구간인 2.58σ를 다루며 이 두 값은 단골로 나온다.

실생활에서는 몇 시그마라고 주로 표현하며, 1시그마, 2시그마가 가장 대중적으로 사용된다.
  • 1시그마: 상위 약 15.87%를 산출할 때 필요하며 평균이 m, 표준편차가 σ인 표본에선 m+σ보다 높은 값이 상위 약 15.87%이다. 고등학생의 경우 2등급 컷에 가깝고(정확히는 3등급 상위), 대학생의 경우 A+ 컷트라인(15%)[10]에 근접한다.
  • 2시그마: 대중매체에 종종 나오는 설문조사가 주로 2시그마를 기준으로 쓰인다. 상위 약 2.28%를 산출할 수 있어서 수능 1등급 중반(백분위 98)으로, 원점수가 m+2σ정도라면 웬만해서는 1등급을 받는다.[11]
  • 6시그마: 초정밀 공정에서 오차율을 줄인다는 의미로서 표현된다. 천문학적인 수치로[12], 공정 오차가 거의 존재하지 않음을 표현한다. 평균이 1.5시그마 범위까지 벗어나도 약 100만분의 3 정도의 오차를 내므로 이는 경영학의 식스 시그마 이론에서 주로 사용하는 표준편차이다.

7. 엑셀에서 표준 편차 구하기[편집]


엑셀 2010 버전부터는 표본 표준 편차(sample standard deviation)는 STDEV.S 함수로, 모 표준 편차(population standard deviation)는 STDEV.P 함수로 구한다.

이전 버전 엑셀까지는 표본 표준 편차는 STDEV 함수를, 모 표준 편차는 STDEVP 함수를 썼다. 아직까지는 STDEV 함수와 STDEVP 함수도 지원되지만 이후 버전의 엑셀에서는 지원이 중단될 수 있다.

Microsoft Excel/함수 목록 문서 참조.


8. 같이 보기[편집]


  • 평균
  • 분산
  • 어케이겼노 시발련ㄴ아 [13]

파일:CC-white.svg 이 문서의 내용 중 전체 또는 일부는 평균 문서의 r50에서 가져왔습니다. 이전 역사 보러 가기
파일:CC-white.svg 이 문서의 내용 중 전체 또는 일부는 다른 문서에서 가져왔습니다.
[ 펼치기 · 접기 ]
평균 문서의 r50 (이전 역사)
문서의 r (이전 역사)
문서의 r (이전 역사)
문서의 r (이전 역사)
문서의 r (이전 역사)
문서의 r (이전 역사)
문서의 r (이전 역사)
문서의 r (이전 역사)
문서의 r (이전 역사)





파일:크리에이티브 커먼즈 라이선스__CC.png 이 문서의 내용 중 전체 또는 일부는 2023-12-24 06:05:36에 나무위키 표준편차 문서에서 가져왔습니다.

[1] 이러한 의미(흩어져 있는 정도를 하나의 수로 나타낸 값)를 가진 단어를 산포도(scatterplot)라고 한다.[2] 참고로 MATLAB에서는 더 간단하게 std라고 쓴다.[3] 혹은 중앙값[4] 또는 중앙값[5] 통계량이 정규분포를 따를시 전체 값의 약 68%가 ±1표준편차, 약 95%가 ±2표준편차, 약 99.7%가 ±3표준편차 범위 내에 속한다. (이를 68-95-99.7 법칙or규칙 이라고 한다)[6] 당연히 양수인 근으로 구해야 한다.[7] 다만 최근에 불국어로 출제되는 경향이 강해서 부적편포가 아닌 정규분포에 가까운 경향이 강하다.[8] 즉, 중간 점수에 사람들이 적게 분포하고 양극화가 심한 형태.[9] 100 + 20 * (92 - 60) / 24 = 126.66666... 이지만 소숫점은 반올림하여 계산한다.[10] 물론 A 비율 30% 제한이 있는 학교에 A+과 A0를 반반씩 줄 때의 이야기다.[11] 정확히는 점수 분포가 완전히 정규분포를 이룬다고 가정하면 m+1.75σ에 해당하는 점수가 상위 4%가 되며, 이 때의 표준점수는 135점이다.[12] 약 5억분의 1.[13] 표준편차가 고려되지 않고, 단순 평균만으로만 매칭이 결정되어서 잘하면 잘할수록 못하는사람을 끌고가야 하는 블리자드 불공정 매칭을 상징한다. 표준편차의 중요성을 게임에서 알려주는 가장 적절한 예시 중 하나.