푸아송 분포

통계학 Statistics
{{{#!wiki style="margin:0 -10px -5px; min-height:calc(1.5em + 5px); word-break: keep-all" {{{#!folding [ 펼치기 · 접기 ] {{{#!wiki style="margin:-5px -1px -11px"	<colbgcolor=#4d4d4d><colcolor=#fff> 수리통계학	기반	실해석학 ( 측도론) · 선형대수학 · 이산수학
확률론		사건 · 가능성 · 확률 변수 · 확률 분포 ( 표본 분포 · 정규 분포 · 이항 분포 · 푸아송 분포 · 카이제곱분포 · t분포 · Z분포 · F-분포 · 결합확률분포) · 확률밀도함수 · 확률질량함수 · 조건부확률 · 조건부기댓값 · 조건부분산 · 전체 확률의 법칙 · 베이즈 정리 · 도박사의 오류 · 도박꾼의 파산 · 몬티 홀 문제 · 뷔퐁의 바늘 · 마르코프 부등식 · 체비쇼프 부등식 · 큰 수의 법칙 ( 무한 원숭이 정리) · 중심극한정리 · 벤포드의 법칙
통계량		평균 ( 제곱평균제곱근 · 산술 평균 · 기하 평균 · 조화 평균 · 멱평균 · 대수 평균) · 기댓값 · 편차 ( 절대 편차 · 표준 편차) · 분산 ( 공분산) · 결정계수 · 변동계수 · 상관계수 · 대푯값 · 자유도
추론통계학	가설 · 변인 · 추정량 · 점추정 · 신뢰 구간 · 상관관계와 인과관계 · 실험통계학 · p-해킹 · 통계의 함정 · 그레인저 인과관계 · 신뢰도와 타당도
추론통계학	통계적 방법	회귀 분석 · 최소제곱법 · 분산 분석 · 주성분 분석 ( 요인 분석) · 시계열 분석 · 패널 분석 · 2SLS · 생존 분석 · GARCH · 비모수통계학 · 준모수통계학 · 기계학습 ( 군집 분석 · 분류 분석) · 위상 데이터분석 · 외삽법 · 메타 분석 · 모델링 ( 구조방정식)
기술통계학 · 자료 시각화		도표 ( 그림그래프 · 막대그래프 · 선 그래프 · 원 그래프 · 상자 수염 그림 · 줄기와 잎 그림 · 산포도 · 산점도 · 히스토그램 · 도수분포표) · 그래프 왜곡 · 이상점	}}}}}}}}}

1. 개요2. 조건3. 유도 과정(푸아송 극한 정리)4. 의미

4.1. 예제

5. 평균과 분산6. 누적분포함수7. 적률생성함수8. 관련 문서

1. 개요

프랑스의 수학자 시메옹 드니 푸아송(Siméon Denis Poisson)이 1837년에 자신의 저서 『민사 사건과 형사 사건 재판에서의 확률에 관한 연구 및 일반적인 확률 계산 법칙에 관한 서문』[1]에서 처음 소개한 확률 분포. 그의 이름을 따서 푸아송 분포(Poisson distribution)라고 한다. 표기에 따라서는 포아송 분포라고도 한다.

단위시간 동안 혹은 단위공간에서 어떤 사건이 발생하는 횟수를 나타내는 확률분포이며, [math(n)]이 충분히 크고 [math(p)]가 충분히 작아서 [math(np)]의 값이 적당할 때의 이항 분포의 값을 근사적으로 구할 수 있다. 이항 분포에서 [math(np=\lambda)]를 유지하면서 [math(n\to\infty)]일 때, 그 분포는 포아송 분포에 수렴한다. 이에 따라 [math(n)]과 [math(p)]의 각각의 값은 모르지만 [math(np=\lambda)]의 값은 알 때 푸아송 분포를 사용하여 이항 분포의 근사치를 알 수 있다.

후술되어 있듯 [math(\lambda)]는 곧 푸아송 분포의 평균과 분산이 되며, ' 람다'로 읽는 그리스 문자이다.

2. 조건

푸아송 분포로 유의미한 근삿값을 얻으려면 다음 세 가지 조건을 만족시켜야 한다.

주어진 시간 동안 일어나는 사건의 횟수는 다른 시간에서 일어나는 사건의 횟수와 독립이어야 한다.
주어진 시간을 더 짧은 단위로 나눴을 때, 그 짧은 시간 내에서 사건이 두 번 이상 발생할 확률은 무시할 만큼 매우 작아야 한다.
주어진 시간을 더 짧은 단위로 나눴을 때, 시간의 길이와 사건이 한 번 발생할 확률은 비례한다.

일반적으로, [math(n\geq 20)]이고 [math(p\leq 0.05)]이면 어느 정도 충분하고, [math(n\geq 100)]이고 [math(np\leq 10)]이면 매우 훌륭하다고 여겨진다.

3. 유도 과정(푸아송 극한 정리)

이항 분포에서 [math(X\sim B(n,p))] 이고 [math(n\to\infty)], [math(p\to 0)], [math(np \to \lambda)]이면

[math(
\begin{aligned}
f(x;n,p) &= Pr(X=x)\\
&= \binom{n}{x} p^x (1-p)^{n-x}\\
&= \frac{n!}{(n-x)!x!}\left(\frac{\lambda}{n}\right)^x\left(1-\frac{\lambda}{n}\right)^{n-x}\\
&= \frac{\lambda^x}{x!}\frac{n(n-1) \cdot \cdot \cdot (n-x+1)}{n^x}\left(1-\frac{\lambda}{n}\right)^{n}\left(1-\frac{\lambda}{n}\right)^{-x}\\
\end{aligned}
)]

[math(n(n-1)\cdots(n-x+1))]에서 곱해진 항의 개수는 [math(x)]개이므로 [math(\displaystyle\lim_{n\to\infty}\dfrac{n(n-1)\cdots(n-x+1)}{n^x}=1)]
[math(-\displaystyle\frac{\lambda}{n}= \frac{1}{t})]로 치환하면 [math(\left(1-\displaystyle\frac{\lambda}{n}\right)^{n}
= \left(1+\displaystyle\frac{1}{t}\right)^{-\lambda t}
= \left[\left(1+\displaystyle\frac{1}{t}\right)^{t}\right]^{-\lambda})] 이고, [math(\displaystyle\lim_{t\to\infty}\left(1+\dfrac1t\right)^t= )] [math(e)] 이므로 [math(\displaystyle\lim_{t\to\infty}\left[\left(1+\displaystyle\frac{1}{t}\right)^{t}\right]^{-\lambda} = e^{-\lambda} )]
[math(\displaystyle\lim_{n\to\infty}\left(1-\dfrac\lambda{n}\right)^{-x}=1)]

따라서 [math(n\to\infty)], [math(p\to 0)], [math(np \to \lambda)]이면 다음이 성립한다. 이를 푸아송 극한 정리(Poisson limit theorem)라고 한다.

[math(f(x;n,p)\approx\dfrac{\lambda^x e^{-\lambda}}{x!})]

이렇게 유도되는 푸아송 분포를 다음과 같이 표기한다.

[math(f(x;\lambda)=\dfrac{\lambda^x e^{-\lambda}}{x!})]

이 [math(\lambda)]가 바로 푸아송 분포의 모수(parameter)이며, 확률변수 [math(X)]가 모수 [math(\lambda)]인 푸아송 분포를 따르면

[math(X\sim{\rm Pois}(\lambda))]

로 나타내고 [math(X)]를 모수가 [math(\lambda)]인 푸아송 확률변수(Poisson random variable)라고 한다.

4. 의미

[math(f(x;\lambda)=\dfrac{\lambda^x e^{-\lambda}}{x!})]

이렇게 유도된 푸아송 분포의 확률변수 [math(X)]는 단위시간 혹은 단위공간 내의 발생 횟수이며, 이를 [math(x)]에 대입한다. 그리고 해당 단위시간 혹은 단위공간 내에서 평균적으로 발생하는 사건의 횟수를 [math(\lambda)]에 대입하면 해당 확률을 구할 수 있다.

4.1. 예제

[문제] 어느 지하철역에는 5분마다 3명꼴로 승객이 온다. 지하철역에 오는 승객의 수가 푸아송 분포를 따를 때, 4분간 한 사람도 지하철역에 오지 않을 확률을 구하시오.

풀이 [펼치기·접기]: ----
5분마다 3명꼴로 승객이 오므로, 4분마다 2.4명꼴로 오는 셈이다. 여기에서 '4분'이 '단위시간'이 된다. 구하고자 하는 확률에서의 사건의 발생 횟수는 0이므로 [math(x=0)], 단위시간(4분) 내에 발생하는 사건의 평균 횟수는 [math(\lambda=2.4)]이므로 이를 푸아송 분포에 적용하면 확률은 다음과 같이 약 9%이다.

[math(\dfrac{2.4^0e^{-2.4}}{0!}=e^{-2.4}\approx 0.0907)]

5. 평균과 분산

우선 [math(p(x:\lambda)=\dfrac{\lambda^x e^{-\lambda}}{x!})]의 평균은 애초에 정한 바 그대로 [math(np=\lambda)]이다.

[math(p(x:\lambda)=\dfrac{\lambda^x e^{-\lambda}}{x!})]의 분산은 다음과 같이 구한다. 본디 이항 분포의 분산은 [math(np(1-p))]이므로

[math(np(1-p)=np=\lambda\;(\because p\to 0))]

따라서 푸아송 분포의 평균과 분산은 [math(\boldsymbol\lambda)]로 같다.

6. 누적분포함수

[math(e^{-\lambda}\displaystyle\sum_{i=0}^{\lfloor k\rfloor} \frac{\lambda^i}{i!}=\frac{\Gamma(\lfloor k+1\rfloor, \lambda)}{\lfloor k\rfloor !})]

[math(\Gamma(x,y))]는 불완전 감마 함수, [math(\lfloor x \rfloor)]는 최대 정수 함수이다.

7. 적률생성함수

[math(\begin{aligned}M_X(t)&=E(e^{tX})\\&=\displaystyle\sum_{x=0}^\infty e^{tx}\dfrac{\lambda^x e^{-\lambda}}{x!}=\sum_{x=0}^\infty\dfrac{(e^t\lambda)^x e^{-\lambda}}{x!}\\&=\sum_{x=0}^\infty\dfrac{(e^t\lambda)^x e^{-e^t \lambda}e^{e^t \lambda}e^{-\lambda}}{x!}\\&=e^{e^t \lambda}e^{-\lambda}\sum_{x=0}^\infty\dfrac{(e^t \lambda)^x e^{-e^t \lambda}}{x!}\\&=e^{\lambda(e^t-1)}\end{aligned})]

따라서 푸아송 분포의 적률생성함수는 [math(e^{\lambda\left(e^t-1\right)})]이며, 이 함수를 통해 평균과 분산을 계산하면 다음과 같다.

[math(\begin{aligned}M'_X(t)&=e^{\lambda\left(e^t-1\right)}\lambda e^t\\M''_X(t)&=e^{\lambda\left(e^t-1\right)}\lambda e^t+e^{\lambda\left(e^t-1\right)}\left(\lambda e^t\right)^2\end{aligned})]

[math(\begin{aligned}\therefore E(X)&=M'_X(0)=\lambda\\E(X^2)&=M''_X(0)=\lambda+\lambda^2\\{\rm Var}(X)&=E(X^2)-\{E(X)\}^2=\lambda\end{aligned})]

8. 관련 문서

이항 분포

[1] Recherches sur la probabilité des jugements en matière criminelle et en matière civile; précédées des règles générales du calcul des probabilités

푸아송 분포

1. 개요

2. 조건

3. 유도 과정(푸아송 극한 정리)

4. 의미

4.1. 예제

5. 평균과 분산

6. 누적분포함수

7. 적률생성함수

8. 관련 문서

분류