통계학 Statistics |
|||
{{{#!wiki style="margin:0 -10px -5px; min-height:calc(1.5em + 5px); word-break: keep-all" {{{#!folding [ 펼치기 · 접기 ] {{{#!wiki style="margin:-5px -1px -11px" |
<colbgcolor=#4d4d4d><colcolor=#fff> 수리통계학 | 기반 | 실해석학 ( 측도론) · 선형대수학 · 이산수학 |
확률론 | 사건 · 가능성 · 확률 변수 · 확률 분포 ( 표본 분포 · 정규 분포 · 이항 분포 · 푸아송 분포 · 카이제곱분포 · t분포 · Z분포 · F-분포 · 결합확률분포) · 확률밀도함수 · 확률질량함수 · 조건부확률 · 조건부기댓값 · 조건부분산 · 전체 확률의 법칙 · 베이즈 정리 · 도박사의 오류 · 도박꾼의 파산 · 몬티 홀 문제 · 뷔퐁의 바늘 · 마르코프 부등식 · 체비쇼프 부등식 · 큰 수의 법칙 ( 무한 원숭이 정리) · 중심극한정리 · 벤포드의 법칙 | ||
통계량 | 평균 ( 제곱평균제곱근 · 산술 평균 · 기하 평균 · 조화 평균 · 멱평균 · 대수 평균) · 기댓값 · 편차 ( 절대 편차 · 표준 편차) · 분산 ( 공분산) · 결정계수 · 변동계수 · 상관계수 · 대푯값 · 자유도 | ||
추론통계학 | 가설 · 변인 · 추정량 · 점추정 · 신뢰 구간 · 상관관계와 인과관계 · 실험통계학 · p-해킹 · 통계의 함정 · 그레인저 인과관계 · 신뢰도와 타당도 | ||
통계적 방법 | 회귀 분석 · 최소제곱법 · 분산 분석 · 주성분 분석 ( 요인 분석) · 시계열 분석 · 패널 분석 · 2SLS · 생존 분석 · GARCH · 비모수통계학 · 준모수통계학 · 기계학습 ( 군집 분석 · 분류 분석) · 위상 데이터분석 · 외삽법 · 메타 분석 · 모델링 ( 구조방정식) | ||
기술통계학 · 자료 시각화 |
도표 ( 그림그래프 · 막대그래프 · 선 그래프 · 원 그래프 · 상자 수염 그림 · 줄기와 잎 그림 · 산포도 · 산점도 · 히스토그램 · 도수분포표) · 그래프 왜곡 · 이상점 | }}}}}}}}} |
1. 개요
Benford's Law벤포드의 법칙이란, 광범위한 분포를 보이는 수치 데이터들의 가장 큰 자리의 숫자는 작은 숫자인 경향을 보인다는 것이다.
2. 설명
가장 큰 자리의 숫자라고 하면 숫자를 썼을 때 0을 제외하고 가장 왼쪽 자리의 숫자를 의미한다. 가령 532.23의 가장 큰 자리의 숫자는 5고, 23의 가장 큰 자리의 숫자는 2이다. 또한 0.00452의 가장 큰 자리의 숫자는 4이다. 벤포드의 법칙은, 데이터들을 추출했을 때 가장 큰 자리의 숫자가 1일 확률이 가장 높다는 것이다.얼핏 생각했을 때는 모든 숫자가 골고루 나타나야 맞을 것 같은데 왜 이런 경향이 나타나는가를 간단하게 설명하자면 각 앞자리 숫자에 머무르는 시간이 얼마나 길고 짧은가의 차이로 생각하면 된다. 예를 들어 어떤 물건 가격이 100원인데 점점 올라 200원으로 앞자리 숫자가 바뀐다는 것은 두배의 인상이 된다는 것이므로 그만큼 어려운 일이고 저항도 크며 오래 걸려 앞자리 1은 한참 동안 유지된다. 하지만 200원에서 300원으로 오를 때는 1.5배 상승하는 것이기에 100원에서 200원으로 갈 때보다는 당연히 저항도 덜하고 시간도 덜 걸린다. 300원에서 400원으로 갈 때는 거기서 더 줄어들며 마지막 900원에서 1000원으로 가는 건 이전에 비하면 일도 아니기 때문에 금방 바뀔 수 있어서 앞자리 9는 가장 짧은 생명을 지니게 된다. 이렇게 1000원으로 오른 다음에는 앞자리가 바뀌려면 2000원이 될 때까지 다시 기나긴 시간을 기다려야 하기에 한참 앞자리는 1에 머물러 있게 되고 9000원에서 1만 원이 될 때 역시 위와 같다.
벤포드의 법칙이 항상 성립하는 것은 아니다. 인간의 지능지수, 인간의 키 등은 분포한 범위가 아주 좁기 때문에 벤포드의 법칙이 성립하지 않을 가능성이 높다.
벤포드의 법칙이 성립하는 "매우 넓은 범위의 데이터"는 보통의 경우 덧셈에 의한 증가가 아니라 곱셈에 의한 증가를 보이는 경우가 많다. 상식적으로 서로 크기가 다른 무작위의 두 데이터를 비교했을 때 한쪽이 다른 쪽의 두 배, 세 배 이런 식으로 곱셈으로 설명되는 데이터 셋이 범위가 넓을 수밖에 없다. 반대로 'cm 단위로 나타낸 성인 남성의 키'처럼 좁은 범위를 지닌 데이터는 한 데이터가 다른 데이터보다 10 크다, 20 크다 이 정도로 덧셈으로 나타내질 가능성이 높다. 만약 이 데이터를 곱셈으로 나타내려면 한 데이터가 다른 데이터의 1.05 배, 1.12 배 이런 식이 될 건데, 이런 건 로그 스케일로 나타내면 별로 의미가 없다.
즉, 벤포드의 법칙이 성립하는 "매우 넓은 범위의 데이터"를 정말 대충 이해하자면 '선형 스케일로 나타내는 것보다 로그 스케일로 나타내는 게 더 이해하기 편한 데이터'를 의미한다고 보면 된다.
아래는 위키피디아 "Benford's Law" 문서에서 제한적 이용으로 가져온 이미지다. 세로축은 확률. 보다시피 이런 지수 스케일이 적용되는 분포에서는, 첫 숫자가 1일 확률이 첫 숫자가 8일 확률보다 높다는 것을 알 수 있다.
조금 응용하자면, 벤포드의 법칙 자체는 굳이 10진법을 사용하는 데이터가 아니더라도 적용될 거라는 추론을 할 수 있다. 실제로도 2진법을 제외한[1] 20진법, 16진법 등 다른 진법으로 데이터를 나타내더라도 똑같은 현상을 관찰할 수 있다.
세계 여러 나라의 회계를 감시하는 기관들은 거의 다 밴포드의 법칙을 어느 정도 활용한다. 자연적으로 만들어진 숫자의 집합이라면 법칙대로 1이 가장 많고 9가 가장 적어야 하지만 인위적으로 조작한 숫자에선 그러한 분포가 나오지 않는다. 실제로 분식회계로 유명한 엔론의 장부를 분석한 결과 1이 심각하게 많고, 2~7의 숫자가 거의 없었으며 8, 9가 유난히 많이 있는 이상한 분포를 보였다. 다른 회사의 장부의 숫자 분포도와 엔론, 확연한 차이가 있다.
[1]
2진법은 어차피 0과 1밖에 없으므로 0을 제외한 모든 숫자의 가장 큰 자리의 숫자가 1이다.