[include(틀:통계학)] || [[파일:xkcd1701ko.png|width=100%]] || || [[xkcd]] [[https://xkcd.com/1701/|1701화]] [* NASCAR 나 포뮬러 원은 일반적으로 아주 빠르고, 아주 위험한 스포츠로 인식되지만 '로켓 발사'라는 특이값을 추가하면 아주 느리고, 위험하지 않은 스포츠로 착각할 수 있다.] || [목차] == 개요 == {{{+1 [[異]][[常]][[點]] / outlier}}} 이상점은 다른 자료와는 극단적으로 다른 값, 즉 유달리 높거나 낮은 값을 보이는 것을 일컫는다. 더 정확히는, [[상자 수염 그림|상자도표]](boxplot)에서 상(하)사분위수로부터 1.5×IQR[* [[사분위간 범위]](interquartile range)의 약자로, 자료의 중앙부 50%에 해당하는 범위를 의미한다. 통계적으로는 하사분위수에서 상사분위수를 뺀 값으로 정의된다.]만큼 떨어진 거리보다 더 먼 곳에서 발견되는 관측값으로 정의된다. 국내 번역명으로는 이상점(異常點). 한자를 풀어보면 '일반적이지 않은 위치에 있는 점'이란 뜻인데, 이는 아웃라이어가 대체로 [[산점도]](scatterplot)나 상자도표 같은 통계 데이터 시각자료에서 나타나기 때문이다. 통계학 외에서는 [[특이점]](特異點/singularity)이라는 다른 말을 쓴다. 예를 들어 산점도를 그린다고 가정해 보자. 좌표평면을 펼쳐 놓고 점을 마구 찍게 되면, 대체로 점들이 일정한 범위에 걸쳐서 모이게 되는 모습이 나타날 것이다. 그런데 그 중에는 여러분이 상당히 먼 바깥에 외따로 찍어놓은 점도 몇 개 있을 것이다. 이런 값은 전체 [[평균]]값을 크게 왜곡시킨다. 그러나 이렇게 뜬금없는 자리에 찍힌 점은 큰 통계적 의미는 없는 경우가 많지만 간혹 통계적으로 굉장히 중요하게 취급되는 경우도 있기는 있다. 특히 반례 사례를 찾는 경우 등. 따라서 아주 무시하고 넘길 수만도 없다. 그래서 [[데이터]]를 취급하는 [[과학자]]들은 이런 점들을 아웃라이어 혹은 이상점이라고 하여 별도로 관리한다. 이들만 데이터에서 체계적으로 배제하는 과정을 '절사(trim[* 그래서 [[Microsoft Excel|엑셀]]에서 관련 함수가 '''trim'''과 '''trim'''mean인 것이다.])한다.'고 표현한다. 이상점을 판단하기 위해 수많은 계산이 필요한데, 종속변수의 분포를 그려보면 판단하기가 아주 쉽다. 즉 [[히스토그램]]과 [[정규분포]] 곡선을 이용해서 종속변수의 정규성에 대한 개괄적인 판단이 가능하다. 여기서 주의할점은 잔차의 분포가 정규분포라고 가정해야 하기 때문에 진짜 판단을 잘하려면 잔차의 분포를 살펴야할지도 모른다. == 사용 == 통계, 수학 등에서 사용한다. 통계의 사용이 늘고 있는 [[스포츠]]에서도 이 용어를 가져와서 쓰기도 한다. 대부분 특정 선수가 일반적인 수준을 한참 뛰어넘을 때 쓴다. 한참 뒤떨어지는 선수를 뜻하지는 않는 게 보통이다. e스포츠 대회인 [[2022 롤드컵]]을 앞두고 한 네티즌이 조사한 [[https://cboard.net/hit2/1253670|아웃라이어 지표]]가 주목을 받기도 했다. 이 극단값을 고려하지 않고 능력을 평균으로 해달라고 하고 환생했다가 고생하는 [[저, 능력은 평균치로 해달라고 말했잖아요!]] 라는 제목의 [[라노벨]]도 있다. == 관련 문서 == * [[아웃라이어]] * [[특이점]] [include(틀:문서 가져옴, title=아웃라이어, version=61)] [[분류:통계학 용어]]