대푯값

덤프버전 :

분류

    통계학

Statistics
[ 펼치기 · 접기 ]




1. 개요
2. 종류
2.1. 평균(산술평균)
2.2. 중앙값
2.3. 최빈값
2.4. 사분위수
2.5. 백분위수
3. 그래프 모양
4. 분산도 최소
5. 관련 문서



1. 개요[편집]


/ representative value[1]

대푯값(또는 중심경향값, measure of central tendency)은 어떤 데이터를 대표하는 값이다. 평균, 중앙값, 최빈값, 백분위수, 사분위수, 절사평균 등이 있다. 일반적으로 자료의 특징을 수 하나로 표현한 값이다.[2] 한편 평균(mean)과 중앙값[3](median) 그리고 최빈값[4](mode)들의 집중도를 조사하여 중심경향값인 중심값을 표현하고 이를 다루어볼수도 있다. 대푯값 표기는 한글 맞춤법에 따르면 사이시옷을 넣어서 '대푯값'이라고 쓰나 대표값으로도 곧잘 쓰인다.
대한민국 수학 교육과정에서는 중학교 3학년 2학기 과정에 통계 단원에서 산포도와 함께 배우게 된다.


2. 종류[편집]


  • 평균(mean)은 변량을 모두 더한 후 변량의 개수로 나눈 값이다.
  • 중앙값(median)은 전체 변량을 순서대로 정렬했을 때, 정중앙에 위치한 수이다. 데이터의 갯수가 짝수인 경우는 가장 가운데에 있는 두 수의 평균이 중앙값이다. 직원이 100명인 회사에서 직원들 연봉 평균은 5천만원인데 사장의 연봉이 100억인 경우, 회사 전체의 연봉 평균은 1억 4851만 원이 된다. 이같은 이상치가 있는 경우 중앙값이 평균값보다 유용하다.
  • 최빈값(mode)은 가장 자주 나오는 값이다. 최빈값은 두 개 이상일 수도 있다. 또한 자료가 수가 아니어도 구할 수 있으나, 자료의 상황에 따라서 없을 수도 있어서 다른 대푯값(평균, 중앙값)에 비해 오히려 중심적인 경향을 잘 나타내지 못하거나, 권위가 없을 수도 있다.[5]
  • 사분위수(quartile): 자료를 크기순으로 나열했을 때 4등분하는 관측값이다.
  • 백분위수(percentile): 자료를 크기순으로 나열했을 때 x%인 관측값을 말한다.
  • 절사 평균(trimmed mean): 관측값의 양쪽에서 일정 비율 α의 이상점을 버리고, 나머지 관측값들만으로 낸 평균을 100α% 절사 평균이라고 함.
  • 기댓값(expected value)은 통계에서는 평균과 같다고 생각하면 된다. 가능한 값마다 확률을 곱해서 모두 더한 것이다.

아래의 평균값, 중앙값, 최빈값을 설명하기 위해 다음과 같은 15개 데이터가 주어져 있다고 가정해보자.

1, 1, 2, 3, 4, 5, 5, 5, 5, 7, 8, 9, 10, 11, 24


2.1. 평균(산술평균)[편집]




산술평균(mean)은 n개의 변량을 모두 더하여 그 개수로 나누어 놓은 숫자이다. 평균 중에서 가장 익히 알려지고 사용되기 때문에, 일반적으로 평균이라고 하면 이것을 일컫는다.

위 데이터에서는 <math>\displaystyle \frac{1 + 1 + 2 + 3 + 4 + 5 + 5 + 5 + 5 + 7 + 8 + 9 + 10 + 11 + 24}{15} = \frac{100}{15} = 6.666...</math>

대수적으로 건드리기가 쉬워서 사실상 가장 대중적이고 유명한 대푯값. 통계와 관계된 자료라면 항상 빠지지 않고 등장하는 수치이다. 그러나 극단값의 영향을 가장 많이 받는 것이 단점이다. 이상할 정도로 다른 변량들과 차이나는 변량이 들어차면 대표로서의 의미를 잃어버리게 된다. 그런 상황에선 아래의 값들을 사용한다.

2.2. 중앙값[편집]


중앙값(median) 또는 중위수는 n개의 값을 크기 순으로 늘어놓았을 때 가장 가운데에 있는 값이다. n이 홀수일 때 중앙값은 (n+1)/2번째에 있는 값을, n이 짝수일 때는 n/2번째 값과 (n/2)+1번째 값의 평균을 중앙값으로 한다.

예컨대, 위 데이터에서는 (n+1)/2 번째 값인 8번째 있는 데이터 세 번째 <math>5</math>가 중앙값이다. n이 짝수일 경우 10,20,30,80의 중앙값은 20도 30도 아니고 <math>25</math>이다.

중앙값 개념은 각 표본들의 격차가 워낙 커서 평균값이 의미가 없고 그 순위(백분위)가 더 중요할 때 주로 쓴다. 예를 들어 국민소득을 대표할 수 있는 값을 구할 때 산술평균(평균소득)을 쓰게 되면 부유한 쪽으로 극단적인 값이 나타날 수 밖에 없다. 때문에 국민들이 생각하는 일반적인 소득보다 높은 값이 나타나게 된다. 따라서 모든 국민을 소득순으로 줄세우기하여 가운데에 있는 사람의 소득인 중위소득이 보다 합리적인 대푯값이 될 것이다.

더 쉬운 예시를 들어, 임직원이 100명인 A사에서 사장을 제외한 99명의 연봉이 일괄 5천만 원인데 사장의 연봉만 100억이라면, A사의 '평균' 연봉은 1억 4851만 원이 된다. 'A사 평균 연봉이 1억 4851만이래요.'라고 직원들에게 전한다면 직원들은 모두 '말도 안 된다'라는 반응을 보일 것이다. 즉, 이런 이상치가 존재하는 상황에서 평균은 대표성을 잃게 되고, 이것이 바로 평균의 함정이다.

이처럼 극단적인 값이 있는 경우에는 중앙값이 평균값보다 유용하다. 평균은 쉽게 변하지만 중앙값은 확률변수의 총 개수만 알면 거의 변하지 않는데, 이를 강고/강건하다(Robust)라고 하며, 중앙값이 가진 대표적인 성질이다. 통계 관련 문제에 Robust라는 단어가 보이면 무조건 중앙값에 해당하는 설명이니까 참고하자.

중앙값은 극단의 관찰값이 확정되지 않았을 때, 또는 자료가 극단성을 포함할 여지가 있도록 개방된(open-ended) 경우에도 유용하게 사용할 수 있다. 예를 들어, 10명이 퍼즐을 푸는 평균 시간을 측정하는데, 9명은 12분 언저리에서 풀었지만 1명은 측정 한계시간 1시간을 훌쩍 넘기도록 여전히 끙끙거리는 바람에 측정이 중단된 경우. 이런 경우에는 애초에 평균을 낼 수도 없기 때문에 중앙값을 이용해야 한다.[6]


2.3. 최빈값[편집]


최빈값(mode)은 가장 빈번하게 등장하는 값을 의미한다. 최빈수라고도 한다. 위 데이터에서는 5가 네 번 나타나므로 최빈값은 <math>5</math>이다.

최빈값는 각 값의 수치적 평균값이 의미 없고 대소 관계가 없을 때 사용한다. 그래서 질적 자료의 대표값을 선정할 때 많이 쓴다. 질적 자료는 수치의 우열이 없으므로 평균이나 중앙값을 사용할 수 없기 때문이다.

최빈값은 여러 개가 될 수도 있다. 예를 들어 사람들의 출생한 달이나 요일 따위.

그런데 모든 관찰값이 동일하게 나타날 경우 모든 값이 최빈값에 해당하므로, '최빈값은 의미가 없다'고 하며 '최빈값이 없다'라고도 줄여 부른다.[7]



2.4. 사분위수[편집]


자료를 같은 갯수를 가진 4개의 그룹으로 나누는 각각의 기준값을 사분위수(quartile)라고 한다.

데이터의 인덱스를 [math(i)], 총 갯수를 [math(n)]이라고 한 뒤, 데이터마다 각각 [math(f_i=\dfrac{(i-1)}{(n-1)})]을 부여한다. [math(f_i)]가 각각 0.25, 0.5, 0.75일 때의 값이 [math(Q_1)], [math(Q_2)], [math(Q_3)]가 된다. (이때 [math(Q_2)]는 중앙값이다)

만약 [math(f_i)]가 정확히 0.25 따위로 떨어지지 않는다면, 원하는 사분률 바로 위 아래의 값 두 개를 통해 보간한다.

위 데이터를 기준으로 사분위수를 찾아보자. 먼저 [math(f_i \fallingdotseq 0.25)]일 때.
[math(f_4=\dfrac{(4-1)}{(15-1)}\fallingdotseq 0.2143)], [math(f_5=\dfrac{(5-1)}{(15-1)}\fallingdotseq 0.2857)]이므로, 이 인덱스에 해당하는 두 데이터(3과 4)를 보간하면 [math(Q_1=3.5)]가 나온다.
[math(Q_2)]는 [math(f_i=0.5)]일 때의 값인데, [math(f_8=\dfrac{(8-1)}{(15-1)})]이 정확히 [math(0.5)]이므로 이 인덱스(8)에 해당하는 데이터 5가 [math(Q_2)]가 된다.
마지막으로 [math(Q_3)]인데, [math(f_{11}=\dfrac{(10-1)}{(15-1)}\fallingdotseq 0.7143)], [math(f_{12}=\dfrac{(12-1)}{(15-1)}\fallingdotseq 0.7857)]이므로, 해당 인덱스에 해당하는 두 데이터(8과 9)를 가지고 [math(f_i=0.75)]가 되도록 보간하면 [math(Q_3=8.5)]가 나온다.

사분위간 범위(interquartile range)는 Q3에서 Q1을 뺀 값으로, 전체 자료의 중간에 있는 절반의 자료들이 지니는 값의 범위를 말한다. 위의 예에서는 8.5 - 3.5 = 5이다.


2.5. 백분위수[편집]


산포도사분위간 범위와 달리 사분위수와 백분위수(percentile)는 대푯값이다. Q1은 제 25백분위수, Q2는 제 50백분위수 = 중앙값(median), Q3는 제 75백분위수이다.


3. 그래프 모양[편집]


300px
정규분포(normal distribution)에서 평균(mean), 최빈값(mode), 중앙값(median)은 전부 동일한 위치에 놓이는 높은 집중도를 보이지만, 분포(도)의 모양이 달라질 경우 세 값은 서로 달라질 수 있다. 예를 들어 기울어진(skewed) 분포에서는 두 가지 경우가 있는데, 왼쪽으로 기울어진 경우(정적편포, positive skewed distribution) 값이 작은 순으로 정렬하면 최빈값, 중앙값, 평균이 나오고, 오른쪽으로 기울어진 경우(부적편포, negative skewed distribution) 값이 작은 순으로 정렬하면 평균, 중앙값, 최빈값이 나온다. 평균은 긴 꼬리 쪽으로 이끌려가는데, 이는 평균이 극단값에 크게 영향을 받기 때문이다. 중앙값은 움직이지 않는다. 반면 최빈값은 평균과 반대방향으로 움직이며, 그 정의상 곡선의 최고점에서 벗어나지 않는다. 중앙값을 그래서 강고(robust)하다라고 표현한다. 이는 중앙값은 이상값들의 영향을 적게 받기 때문이다. 각각의 값들의 차이는 기울어진 정도가 클수록 커지며, 기울어진 정도를 따로 왜도(skewness)라고 부르기도 한다.

첨도(kurtosis)는 그래프가 세로로 뾰족한 정도이다.


4. 분산도 최소[편집]


위의 대푯값 모두 각 값들과의 거리가 최소가 되는 값, 즉 분산도가 최소가 되는 값들이다. 단지 각 값들의 거리를 어떻게 측정하느냐에 따라 다를 뿐이다. 거리를 (x-y)2으로 정의하면 평균, lx-yl로 정의하면 중앙값, 차이가 있을때 1로 정의하면 최빈값이 된다.(김태수, '통계학 입문', 자유아카데미, 2010, pp.11-13)


5. 관련 문서[편집]




파일:크리에이티브 커먼즈 라이선스__CC.png 이 문서의 내용 중 전체 또는 일부는 2023-11-22 08:58:56에 나무위키 대푯값 문서에서 가져왔습니다.

[1] 위치 측도(measure of location)라고도 한다.[2] 예외적으로 최빈값은 경우에 따라 두 개 이상의 값을 대표값으로 한다.[3] 중위수라고도 한다.[4] 최빈수라고도 한다.[5] 예: 각 자료의 변량이 모두 서로 다르거나(2, 4, 5, 8, 11, 13, 14 등), 서로 다른 종류별 변량의 개수가 모두 같은 경우(2, 2, 2, 3, 3, 3, 5, 5, 5 등)가 있다.[6] 마지막 한 사람의 기록을 60분으로 보고 평균을 내도 17분 정도가 나오기 때문에 평균값은 실제로 구하고자 하는 값과 많이 달라진다.[7] 최빈값의 정의 때문에, 최빈값이 반드시 존재한다.