이상점

덤프버전 :

    통계학

Statistics
[ 펼치기 · 접기 ]




파일:xkcd1701ko.png
xkcd 1701화 [1]
1. 개요
2. 사용
3. 관련 문서


1. 개요[편집]


/ outlier

이상점은 다른 자료와는 극단적으로 다른 값, 즉 유달리 높거나 낮은 값을 보이는 것을 일컫는다. 더 정확히는, 상자도표(boxplot)에서 상(하)사분위수로부터 1.5×IQR[2]만큼 떨어진 거리보다 더 먼 곳에서 발견되는 관측값으로 정의된다.

국내 번역명으로는 이상점(異常點). 한자를 풀어보면 '일반적이지 않은 위치에 있는 점'이란 뜻인데, 이는 아웃라이어가 대체로 산점도(scatterplot)나 상자도표 같은 통계 데이터 시각자료에서 나타나기 때문이다. 통계학 외에서는 특이점(特異點/singularity)이라는 다른 말을 쓴다.

예를 들어 산점도를 그린다고 가정해 보자. 좌표평면을 펼쳐 놓고 점을 마구 찍게 되면, 대체로 점들이 일정한 범위에 걸쳐서 모이게 되는 모습이 나타날 것이다. 그런데 그 중에는 여러분이 상당히 먼 바깥에 외따로 찍어놓은 점도 몇 개 있을 것이다. 이런 값은 전체 평균값을 크게 왜곡시킨다. 그러나 이렇게 뜬금없는 자리에 찍힌 점은 큰 통계적 의미는 없는 경우가 많지만 간혹 통계적으로 굉장히 중요하게 취급되는 경우도 있기는 있다. 특히 반례 사례를 찾는 경우 등. 따라서 아주 무시하고 넘길 수만도 없다.

그래서 데이터를 취급하는 과학자들은 이런 점들을 아웃라이어 혹은 이상점이라고 하여 별도로 관리한다. 이들만 데이터에서 체계적으로 배제하는 과정을 '절사(trim[3])한다.'고 표현한다.

이상점을 판단하기 위해 수많은 계산이 필요한데, 종속변수의 분포를 그려보면 판단하기가 아주 쉽다. 즉 히스토그램정규분포 곡선을 이용해서 종속변수의 정규성에 대한 개괄적인 판단이 가능하다. 여기서 주의할점은 잔차의 분포가 정규분포라고 가정해야 하기 때문에 진짜 판단을 잘하려면 잔차의 분포를 살펴야할지도 모른다.


2. 사용[편집]


통계, 수학 등에서 사용한다.

통계의 사용이 늘고 있는 스포츠에서도 이 용어를 가져와서 쓰기도 한다. 대부분 특정 선수가 일반적인 수준을 한참 뛰어넘을 때 쓴다. 한참 뒤떨어지는 선수를 뜻하지는 않는 게 보통이다.

e스포츠 대회인 2022 롤드컵을 앞두고 한 네티즌이 조사한 아웃라이어 지표가 주목을 받기도 했다.

이 극단값을 고려하지 않고 능력을 평균으로 해달라고 하고 환생했다가 고생하는 저, 능력은 평균치로 해달라고 말했잖아요! 라는 제목의 라노벨도 있다.


3. 관련 문서[편집]




파일:CC-white.svg 이 문서의 내용 중 전체 또는 일부는 아웃라이어 문서의 r61에서 가져왔습니다. 이전 역사 보러 가기
파일:CC-white.svg 이 문서의 내용 중 전체 또는 일부는 다른 문서에서 가져왔습니다.
[ 펼치기 · 접기 ]
아웃라이어 문서의 r61 (이전 역사)
문서의 r (이전 역사)
문서의 r (이전 역사)
문서의 r (이전 역사)
문서의 r (이전 역사)
문서의 r (이전 역사)
문서의 r (이전 역사)
문서의 r (이전 역사)
문서의 r (이전 역사)




파일:크리에이티브 커먼즈 라이선스__CC.png 이 문서의 내용 중 전체 또는 일부는 2023-12-13 22:36:48에 나무위키 이상점 문서에서 가져왔습니다.

[1] NASCAR 나 포뮬러 원은 일반적으로 아주 빠르고, 아주 위험한 스포츠로 인식되지만 '로켓 발사'라는 특이값을 추가하면 아주 느리고, 위험하지 않은 스포츠로 착각할 수 있다.[2] 사분위간 범위(interquartile range)의 약자로, 자료의 중앙부 50%에 해당하는 범위를 의미한다. 통계적으로는 하사분위수에서 상사분위수를 뺀 값으로 정의된다.[3] 그래서 엑셀에서 관련 함수가 trimtrimmean인 것이다.