절대편차

덤프버전 :

    통계학

Statistics
[ 펼치기 · 접기 ]





1. 개요
2. 평균 절대 편차
2.1. 산식
2.2. 표준 편차와 평균 편차의 용도차이
2.3. 다른 의견
3. 중앙값 절대 편차
4. 최소 절대 편차



1. 개요[편집]


절대편차(absolute deviation)는 관측값에서 평균 또는 중앙값을 빼고, 그 차이에 절댓값을 취하고 그 값들의 대푯값을 구한 것이다.

즉, 각 데이터에서 평균을 빼고 제곱한 후 제곱근을 씌운 표준 편차와는 다르게, 제곱을 하지 않고 절댓값을 씌운 것이다.

평균 절대 편차(average absolute deviation, AAD 또는 mean absolute deviation, MAD)는 관측값에서 평균을 빼고, 그 차이값에 절댓값을 취하고, 그 값들을 모두 더하여 전체 데이터 개수개수로 나눠준 것이다. 절댓값 편차의 평균이라고 생각하면 된다.

중앙값 절대 편차(median absolute deviation, MAD)는 관측값에서 중앙값을 빼고, 그 차이에 절댓값을 취한 값들의 중앙값을 구한다.

최소 절대 편차(least absolute deviation, LAD)는 회귀 분석(regression analysis)에 사용된다.


2. 평균 절대 편차[편집]


평균 절대 편차(average absolute deviation, AAD 또는 mean absolute deviation, MAD)는 관측값에서 평균을 빼고, 그 차이값에 절대값을 취하고, 그 값들을 모두 더하여 전체 데이터 개수로 나눠준 것이다. 절대값 편차의 평균이라고 생각하면 된다.

자료값들이 대푯값으로부터 어느정도 떨어져 있는지를 나타내는 수치 중의 하나.

줄여서 평균 편차라고 부르는 경우가 많다.


2.1. 산식[편집]


[math( \frac{{|x_1 -m|} + {|x_2 -m|} + \cdot \cdot \cdot + {|x_n -m|} }{n} )]


2.2. 표준 편차와 평균 편차의 용도차이[편집]


중, 고교 수학시간에 표준 편차에 대해서 배우지만 평균 편차에 대해서는 배우지 않는다.

이 때 수학적 센스가 있는 학생이라면 '왜 편차를 구할 때,[math( \frac{{|x_1 -m|} + {|x_2 -m|} + \cdot \cdot \cdot + {|x_n -m|} }{n} )] 으로 구하지 않고, 굳이 [math( \sqrt{ \frac{{(x_1 -m)}^{2} + {(x_2 -m)}^{2} + \cdot \cdot \cdot + {(x_n -m)}^{2} }{n} } )] 처럼 번거로운 식을 사용할까?'라는 의문을 가져본 경우가 있을 것이다. 사실 이러한 의문에 대해서 중고교에서 제대로 된 설명을 해주는 경우는 드물다. 이하에서는 이에 대한 설명을 하고자 한다.

우선 편차의 뜻을 알아야 한다. 편차란 자료값들이 특정값[1]으로부터 떨어진 정도를 나타내는 수치이다. 이를 구하는 방법에는 대표적으로 두가지가 있다. 각각의 자료값에서 특정값을 뺀 값의 절대값을 모두 더한 뒤 이의 평균을 구하는 방법[2]과, 각각의 자료값에서 특정값을 뺀 값의 제곱을 모두 더한 뒤 이의 평균을 구하는 방법[3]이다. 전자의 방법은 [math( \frac{{|x_1 -X|} + {|x_2 -X|} + \cdot \cdot \cdot + {|x_n -X|} }{n} )] 으로 나타낼 수 있고, 후자의 방법은[math( \sqrt{ \frac{{(x_1 -X)}^{2} + {(x_2 -X)}^{2} + \cdot \cdot \cdot + {(x_n -X)}^{2} }{n} } )] 로 나타낼 수 있다. 여기서 X는 특정값을 의미한다.

편차의 뜻을 알았다면 이젠 대푯값의 개념을 이해해야 한다. 대푯값은 편차를 최소로 만드는 값을 말한다. 한편 편차를 전자의 방식으로 구한다면, 대푯값은 중앙값이 된다. 반면 편차를 후자의 방식으로 구한다면, 이 때의 대푯값은 평균(m), 즉 [math( \frac{x_1 + x_2 + \cdot \cdot \cdot + x_n } {n} )]이 된다. (증명은 생략)

마지막으로 산포도의 개념을 이해해야 한다. 산포도란 자료값들이 대푯값으로부터 떨어진 정도를 말한다. 즉 편차의 정의인 '자료값들이 특정값으로부터 떨어진 정도'에서 특정값 대신 대푯값을 넣으면 그것이 산포도이다. 따라서 편차를 전자의 방식으로 구하고자 한다면, 그 때의 대푯값은 중앙값(c)이 되고, 이 때의 산포도는 [math( \frac{{|x_1 -c|} + {|x_2 -c|} + \cdot \cdot \cdot + {|x_n -c|} }{n} )] 이 된다. 이것이 바로 평균편차이다. 반면 편차를 후자의 방식으로 구하고자 한다면, 그 때의 대푯값은 평균(m)이 되고, 이 때의 산포도는 [math( \sqrt{ \frac{{(x_1 -m)}^{2} + {(x_2 -m)}^{2} + \cdot \cdot \cdot + {(x_n -m)}^{2} }{n} } )] 이 된다. 이것이 바로 표준편차이다. 또 하나의 대푯값인 최빈값은 이산거리(같으면 0 다르면 1)가 산포도가 된다.

내용을 요약하자면 평균편차는 자료값들이 중앙값으로부터 떨어진 정도를 알아볼 때 이용하는 것이고, 표준편차는 자료값들이 평균으로부터 떨어진 정도를 알아볼 때 이용하는 것이다. 중고교 수학 시간에 복잡하게 표준편차를 계산한 것 역시 평균에서 떨어진 정도를 구하기 위함이고, 중앙값에서 떨어진 정도는 구하지 않았기 때문이다.

2.3. 다른 의견[편집]


평균편차 대신에 표준편차를 사용하는 이유


3. 중앙값 절대 편차[편집]


중앙값 절대 편차(median absolute deviation, MAD)는 관측값에서 중앙값을 빼고, 그 차이에 절대값을 취한 값들의 중앙값을 구한다.


4. 최소 절대 편차[편집]


최소 절대 편차(least absolute deviation, LAD)는 회귀 분석(regression analysis)에 사용된다.

이름만 들으면 어려워보이지만 분위회귀분석의 특이한 경우다. 가설검정에 사용되는 통계량들이 점근적 성질을 갖고 있으므로 관측치가 충분히 많은 경우에만 사용해야한다.


파일:크리에이티브 커먼즈 라이선스__CC.png 이 문서의 내용 중 전체 또는 일부는 2023-12-16 05:39:53에 나무위키 절대편차 문서에서 가져왔습니다.

[1] 특정값은 아무 값이나 임의로 정하면 된다. 반드시 특정 자료값이어야 하는 것도 아니다.[2] 이하 전자의 방법으로 칭함[3] 이하 후자의 방법으로 칭함