[include(틀:통계학)] [목차] == 개요 == 절대편차(absolute deviation)는 [[관측값]]에서 [[평균]] 또는 [[중앙값]]을 빼고, 그 차이에 [[절댓값]]을 취하고 그 값들의 [[대푯값]]을 구한 것이다. 즉, 각 데이터에서 평균을 빼고 제곱한 후 [[제곱근]]을 씌운 [[표준 편차]]와는 다르게, 제곱을 하지 않고 절댓값을 씌운 것이다. [[평균 절대 편차]](average absolute deviation, AAD 또는 mean absolute deviation, MAD)는 관측값에서 평균을 빼고, 그 차이값에 절댓값을 취하고, 그 값들을 모두 더하여 전체 데이터 개수--개수--로 나눠준 것이다. 절댓값 편차의 평균이라고 생각하면 된다. [[중앙값 절대 편차]](median absolute deviation, MAD)는 관측값에서 중앙값을 빼고, 그 차이에 절댓값을 취한 값들의 중앙값을 구한다. [[최소 절대 편차]](least absolute deviation, LAD)는 [[회귀 분석]](regression analysis)에 사용된다. == 평균 절대 편차 == [[평균 절대 편차]](average absolute deviation, AAD 또는 mean absolute deviation, MAD)는 관측값에서 평균을 빼고, 그 차이값에 절대값을 취하고, 그 값들을 모두 더하여 전체 데이터 개수로 나눠준 것이다. 절대값 편차의 평균이라고 생각하면 된다. [[자료값]]들이 [[대푯값]]으로부터 어느정도 떨어져 있는지를 나타내는 수치 중의 하나. 줄여서 [[평균 편차]]라고 부르는 경우가 많다. === 산식 === {{{+2 [math( \frac{{|x_1 -m|} + {|x_2 -m|} + \cdot \cdot \cdot + {|x_n -m|} }{n} )] }}} === 표준 편차와 평균 편차의 용도차이 === 중, 고교 수학시간에 [[표준 편차]]에 대해서 배우지만 [[평균 편차]]에 대해서는 배우지 않는다. 이 때 수학적 센스가 있는 학생이라면 '왜 [[편차]]를 구할 때,{{{+1 [math( \frac{{|x_1 -m|} + {|x_2 -m|} + \cdot \cdot \cdot + {|x_n -m|} }{n} )] }}}으로 구하지 않고, 굳이 {{{+1 [math( \sqrt{ \frac{{(x_1 -m)}^{2} + {(x_2 -m)}^{2} + \cdot \cdot \cdot + {(x_n -m)}^{2} }{n} } )] }}}처럼 번거로운 식을 사용할까?'라는 의문을 가져본 경우가 있을 것이다. 사실 이러한 의문에 대해서 중고교에서 제대로 된 설명을 해주는 경우는 드물다. 이하에서는 이에 대한 설명을 하고자 한다. 우선 [[편차]]의 뜻을 알아야 한다. 편차란 자료값들이 특정값[* 특정값은 아무 값이나 임의로 정하면 된다. 반드시 특정 자료값이어야 하는 것도 아니다.]으로부터 떨어진 정도를 나타내는 수치이다. 이를 구하는 방법에는 대표적으로 두가지가 있다. 각각의 자료값에서 특정값을 뺀 값의 절대값을 모두 더한 뒤 이의 평균을 구하는 방법[* 이하 전자의 방법으로 칭함]과, 각각의 자료값에서 특정값을 뺀 값의 제곱을 모두 더한 뒤 이의 평균을 구하는 방법[* 이하 후자의 방법으로 칭함]이다. 전자의 방법은 {{{+1 [math( \frac{{|x_1 -X|} + {|x_2 -X|} + \cdot \cdot \cdot + {|x_n -X|} }{n} )] }}}으로 나타낼 수 있고, 후자의 방법은{{{+1 [math( \sqrt{ \frac{{(x_1 -X)}^{2} + {(x_2 -X)}^{2} + \cdot \cdot \cdot + {(x_n -X)}^{2} }{n} } )] }}} 로 나타낼 수 있다. 여기서 X는 특정값을 의미한다. 편차의 뜻을 알았다면 이젠 [[대푯값]]의 개념을 이해해야 한다. 대푯값은 편차를 최소로 만드는 값을 말한다. 한편 편차를 전자의 방식으로 구한다면, 대푯값은 [[중앙값]]이 된다. 반면 편차를 후자의 방식으로 구한다면, 이 때의 대푯값은 평균(m), 즉 {{{+1 [math( \frac{x_1 + x_2 + \cdot \cdot \cdot + x_n } {n} )]}}}이 된다. (증명은 생략) 마지막으로 [[산포도]]의 개념을 이해해야 한다. 산포도란 자료값들이 대푯값으로부터 떨어진 정도를 말한다. 즉 편차의 정의인 '자료값들이 특정값으로부터 떨어진 정도'에서 특정값 대신 대푯값을 넣으면 그것이 산포도이다. 따라서 편차를 전자의 방식으로 구하고자 한다면, 그 때의 대푯값은 중앙값(c)이 되고, 이 때의 산포도는 {{{+1 [math( \frac{{|x_1 -c|} + {|x_2 -c|} + \cdot \cdot \cdot + {|x_n -c|} }{n} )] }}}이 된다. 이것이 바로 평균편차이다. 반면 편차를 후자의 방식으로 구하고자 한다면, 그 때의 대푯값은 평균(m)이 되고, 이 때의 산포도는 {{{+1 [math( \sqrt{ \frac{{(x_1 -m)}^{2} + {(x_2 -m)}^{2} + \cdot \cdot \cdot + {(x_n -m)}^{2} }{n} } )] }}}이 된다. 이것이 바로 표준편차이다. 또 하나의 대푯값인 최빈값은 이산거리(같으면 0 다르면 1)가 산포도가 된다. 내용을 요약하자면 '''평균편차'''는 자료값들이 '''중앙값'''으로부터 떨어진 정도를 알아볼 때 이용하는 것이고, '''표준편차'''는 자료값들이 '''평균'''으로부터 떨어진 정도를 알아볼 때 이용하는 것이다. 중고교 수학 시간에 복잡하게 표준편차를 계산한 것 역시 '''평균에서 떨어진 정도'''를 구하기 위함이고, 중앙값에서 떨어진 정도는 구하지 않았기 때문이다. === 다른 의견 === [[https://blog.naver.com/physicopianist/221079618326|평균편차 대신에 표준편차를 사용하는 이유]] == 중앙값 절대 편차 == [[중앙값 절대 편차]](median absolute deviation, MAD)는 관측값에서 중앙값을 빼고, 그 차이에 절대값을 취한 값들의 중앙값을 구한다. == 최소 절대 편차 == [[최소 절대 편차]](least absolute deviation, LAD)는 [[회귀 분석]](regression analysis)에 사용된다. 이름만 들으면 어려워보이지만 분위회귀분석의 특이한 경우다. 가설검정에 사용되는 통계량들이 점근적 성질을 갖고 있으므로 관측치가 충분히 많은 경우에만 사용해야한다. [[분류:통계학 용어]]