벤포드의 법칙

덤프버전 :


    통계학

Statistics
[ 펼치기 · 접기 ]




1. 개요
2. 설명


1. 개요[편집]


Benford's Law

파일:벤포드의_법칙.jpg

벤포드의 법칙이란, 광범위한 분포를 보이는 수치 데이터들의 가장 큰 자리의 숫자는 작은 숫자인 경향을 보인다는 것이다.


2. 설명[편집]


가장 큰 자리의 숫자라고 하면 숫자를 썼을 때 0을 제외하고 가장 왼쪽 자리의 숫자를 의미한다. 가령 532.23의 가장 큰 자리의 숫자는 5고, 23의 가장 큰 자리의 숫자는 2이다. 또한 0.00452의 가장 큰 자리의 숫자는 4이다. 벤포드의 법칙은, 데이터들을 추출했을 때 가장 큰 자리의 숫자가 1일 확률이 가장 높다는 것이다.

얼핏 생각했을 때는 모든 숫자가 골고루 나타나야 맞을 것 같은데 왜 이런 경향이 나타나는가를 간단하게 설명하자면 각 앞자리 숫자에 머무르는 시간이 얼마나 길고 짧은가의 차이로 생각하면 된다. 예를 들어 어떤 물건 가격이 100원인데 점점 올라 200원으로 앞자리 숫자가 바뀐다는 것은 두배의 인상이 된다는 것이므로 그만큼 어려운 일이고 저항도 크며 오래 걸려 앞자리 1은 한참 동안 유지된다. 하지만 200원에서 300원으로 오를 때는 1.5배 상승하는 것이기에 100원에서 200원으로 갈 때보다는 당연히 저항도 덜하고 시간도 덜 걸린다. 300원에서 400원으로 갈 때는 거기서 더 줄어들며 마지막 900원에서 1000원으로 가는 건 이전에 비하면 일도 아니기 때문에 금방 바뀔 수 있어서 앞자리 9는 가장 짧은 생명을 지니게 된다. 이렇게 1000원으로 오른 다음에는 앞자리가 바뀌려면 2000원이 될 때까지 다시 기나긴 시간을 기다려야 하기에 한참 앞자리는 1에 머물러 있게 되고 9000원에서 1만 원이 될 때 역시 위와 같다.

벤포드의 법칙이 항상 성립하는 것은 아니다. 인간의 지능지수, 인간의 키 등은 분포한 범위가 아주 좁기 때문에 벤포드의 법칙이 성립하지 않을 가능성이 높다.

벤포드의 법칙이 성립하는 "매우 넓은 범위의 데이터"는 보통의 경우 덧셈에 의한 증가가 아니라 곱셈에 의한 증가를 보이는 경우가 많다. 상식적으로 서로 크기가 다른 무작위의 두 데이터를 비교했을 때 한쪽이 다른 쪽의 두 배, 세 배 이런 식으로 곱셈으로 설명되는 데이터 셋이 범위가 넓을 수밖에 없다. 반대로 'cm 단위로 나타낸 성인 남성의 키'처럼 좁은 범위를 지닌 데이터는 한 데이터가 다른 데이터보다 10 크다, 20 크다 이 정도로 덧셈으로 나타내질 가능성이 높다. 만약 이 데이터를 곱셈으로 나타내려면 한 데이터가 다른 데이터의 1.05 배, 1.12 배 이런 식이 될 건데, 이런 건 로그 스케일로 나타내면 별로 의미가 없다.

즉, 벤포드의 법칙이 성립하는 "매우 넓은 범위의 데이터"를 정말 대충 이해하자면 '선형 스케일로 나타내는 것보다 로그 스케일로 나타내는 게 더 이해하기 편한 데이터'를 의미한다고 보면 된다.

아래는 위키피디아 "Benford's Law" 문서에서 제한적 이용으로 가져온 이미지다. 세로축은 확률. 보다시피 이런 지수 스케일이 적용되는 분포에서는, 첫 숫자가 1일 확률이 첫 숫자가 8일 확률보다 높다는 것을 알 수 있다.
파일:BenfordBroad.png

조금 응용하자면, 벤포드의 법칙 자체는 굳이 10진법을 사용하는 데이터가 아니더라도 적용될 거라는 추론을 할 수 있다. 실제로도 2진법을 제외한[1] 20진법, 16진법 등 다른 진법으로 데이터를 나타내더라도 똑같은 현상을 관찰할 수 있다.

세계 여러 나라의 회계를 감시하는 기관들은 거의 다 밴포드의 법칙을 어느 정도 활용한다. 자연적으로 만들어진 숫자의 집합이라면 법칙대로 1이 가장 많고 9가 가장 적어야 하지만 인위적으로 조작한 숫자에선 그러한 분포가 나오지 않는다. 실제로 분식회계로 유명한 엔론의 장부를 분석한 결과 1이 심각하게 많고, 2~7의 숫자가 거의 없었으며 8, 9가 유난히 많이 있는 이상한 분포를 보였다. 다른 회사의 장부의 숫자 분포도와 엔론, 확연한 차이가 있다.
파일:크리에이티브 커먼즈 라이선스__CC.png 이 문서의 내용 중 전체 또는 일부는 2023-11-30 14:12:40에 나무위키 벤포드의 법칙 문서에서 가져왔습니다.

[1] 2진법은 어차피 0과 1밖에 없으므로 0을 제외한 모든 숫자의 가장 큰 자리의 숫자가 1이다.