통계학 Statistics |
|||
{{{#!wiki style="margin:0 -10px -5px; min-height:calc(1.5em + 5px); word-break: keep-all" {{{#!folding [ 펼치기 · 접기 ] {{{#!wiki style="margin:-5px -1px -11px" |
<colbgcolor=#4d4d4d><colcolor=#fff> 수리통계학 | 기반 | 실해석학 ( 측도론) · 선형대수학 · 이산수학 |
확률론 | 사건 · 가능성 · 확률 변수 · 확률 분포 ( 표본 분포 · 정규 분포 · 이항 분포 · 푸아송 분포 · 카이제곱분포 · t분포 · Z분포 · F-분포 · 결합확률분포) · 확률밀도함수 · 확률질량함수 · 조건부확률 · 조건부기댓값 · 조건부분산 · 전체 확률의 법칙 · 베이즈 정리 · 도박사의 오류 · 도박꾼의 파산 · 몬티 홀 문제 · 뷔퐁의 바늘 · 마르코프 부등식 · 체비쇼프 부등식 · 큰 수의 법칙 ( 무한 원숭이 정리) · 중심극한정리 · 벤포드의 법칙 | ||
통계량 | 평균 ( 제곱평균제곱근 · 산술 평균 · 기하 평균 · 조화 평균 · 멱평균 · 대수 평균) · 기댓값 · 편차 ( 절대 편차 · 표준 편차) · 분산 ( 공분산) · 결정계수 · 변동계수 · 상관계수 · 대푯값 · 자유도 | ||
추론통계학 | 가설 · 변인 · 추정량 · 점추정 · 신뢰 구간 · 상관관계와 인과관계 · 실험통계학 · p-해킹 · 통계의 함정 · 그레인저 인과관계 · 신뢰도와 타당도 | ||
통계적 방법 | 회귀 분석 · 최소제곱법 · 분산 분석 · 주성분 분석 ( 요인 분석) · 시계열 분석 · 패널 분석 · 2SLS · 생존 분석 · GARCH · 비모수통계학 · 준모수통계학 · 기계학습 ( 군집 분석 · 분류 분석) · 위상 데이터분석 · 외삽법 · 메타 분석 · 모델링 ( 구조방정식) | ||
기술통계학 · 자료 시각화 |
도표 ( 그림그래프 · 막대그래프 · 선 그래프 · 원 그래프 · 상자 수염 그림 · 줄기와 잎 그림 · 산포도 · 산점도 · 히스토그램 · 도수분포표) · 그래프 왜곡 · 이상점 | }}}}}}}}} |
1. 개요
標 本 分 布 / sampling distribution표본분포란, '표본통계량(sample statistic)'의 확률 분포이다. 표본통계량이란 표본평균이나 표본분산처럼 표본의 특성을 나타내는 대푯값을 말한다.
모집단의 특성을 나타내는 대푯값인 모수(parameter)는 일정한 값을 갖지만 제대로 알려져 있지 않아서, 표본통계량을 통해 모수를 추측하는 것이다. 다만 어디까지나 표본통계량은 표본을 추출할 때마다 얼마든지 다른 값이 나올 수 있는 불확실한 확률 변수이기 때문에 모수를 정확히 알아낼 수는 없다.
2. 표본평균
[math(X_1,\,X_2,\,\cdots\,X_n)]이 평균이 [math(\mu)]이고 분산이 [math(\sigma^2)]인 모집단에서 추출하는 표본이라고 하면 표본평균 [math(\bar X)]의 분포는 다음과 같이 구한다.
[math(E(\bar X)=E\!\left(\displaystyle\frac{\sum X_i}{N}\right)=\dfrac{E(X_1)+E(X_2)+\cdots+E(X_n)}n=\mu)] [math({\rm Var}(\bar X)={\rm Var}\!\left(\displaystyle\frac{\sum X_i}{N}\right)=\dfrac{{\rm Var}(X_1)+{\rm Var}(X_2)+\cdots+{\rm Var}(X_n)}{n^2}=\dfrac{\sigma^2}n)] |
따라서 표본평균의 평균은 모평균이며, 표본평균의 분산은 모분산을 표본의 개수로 나눈 값이다. 이에 따라 [math(\bar X)]는 기댓값이 [math(\mu)]이고 분산이 [math(\sigma^2/n)]인 분포를 따른다.
나아가, 표본분산은 [math(\sigma^2/n)]이므로 표본의 개수 [math(n)]이 커질수록 0에 접근한다.
2.1. 성질
중심 극한 정리에 의하여, 평균이 [math(\mu)]이고 분산이 [math(\sigma^2)]인 모집단이 어떤 분포를 따르든, 이 모집단에서 추출한 표본평균의 분포는 표본의 크기 [math(n)]이 커질수록 [math(\bar X)]가 정규분포로 접근한다. 따라서 다음이 성립한다.[math(n\to\infty\quad\rightarrow\quad\bar X\sim N\left(\mu,\,\dfrac{\sigma^2}{n}\right), \;\dfrac{\bar X-\mu}{\dfrac{\sigma}{\sqrt n}}\sim N(0,\,1))]
3. 표본분산
[math(X_1,\,X_2,\,\cdots\,X_n)]이 평균이 [math(\mu)]이고 분산이 [math(\sigma^2)]인 모집단에서 추출하는 표본이라고 하면 다음이 성립한다. 카이 제곱 분포에 관한 배경지식이 필요하다.[math(\begin{aligned}E(s^2)&=E\left(\dfrac{\sigma^2}{n-1}\chi^2\right)\,\left(\because\dfrac{(n-1)s^2}{\sigma^2}\sim\chi^2_{n-1}\right)\\&=\dfrac{\sigma^2}{n-1}E(\chi^2)=\sigma^2\,(\because E(\chi^2_{n-1})=v=n-1)\end{aligned})]
[math(\begin{aligned}{\rm Var}(s^2)&={\rm Var}\left(\dfrac{\sigma^2}{n-1}\chi^2\right)=\dfrac{\sigma^4}{(n-1)^2}{\rm Var}(\chi^2)\\&=\dfrac{2\sigma^4}{n-1}\,(\because {\rm Var}(\chi^2)=2v=2(n-1))\end{aligned})]
[math(\begin{aligned}{\rm Var}(s^2)&={\rm Var}\left(\dfrac{\sigma^2}{n-1}\chi^2\right)=\dfrac{\sigma^4}{(n-1)^2}{\rm Var}(\chi^2)\\&=\dfrac{2\sigma^4}{n-1}\,(\because {\rm Var}(\chi^2)=2v=2(n-1))\end{aligned})]
여기에서 표본분산을 구할 때 표본의 개수 [math(n)]이 아니라 [math(n-1)]로 나누는 이유가 나온다. [math(n-1)]로 나눈 값을 표본분산으로 정의하면 표본분산의 평균이 정확히 모분산이 된다. 표본평균의 평균이 모평균이 된다면, 표본분산의 평균 역시 모분산이 되도록 함이 타당하므로, [math(n)]이 아닌 [math(n-1)]로 나누는 것이다. 혹은 다음과 같이 볼 수도 있다.
[math(E(s^2)=E\left[\dfrac{\sum(X_i-\bar X)^2}{n-1}\right]=\dfrac{E[\sum(X_i-\bar X)^2]}{n-1})]이고, 마지막 식의 분자는 다음과 같이 계산된다.
[math(\begin{aligned}E\left[\sum(X_i-\bar X)^2\right]&=E\left[\sum\{(X_i-\mu)-(\bar X-\mu)\}^2\right]\\&=E\left[\sum(X_i-\mu)^2\right]+E\left[\sum(\bar X-\mu)^2\right]-2E\left[\sum(X_i-\mu)(\bar X-\mu)\right]\end{aligned})]
여기에서 [math(E\left[\sum(\bar X-\mu)^2\right]=nE\left[(\bar X-\mu)^2\right])]이고
[math(\begin{aligned}-2E\left[\sum(X_i-\mu)(\bar X-\mu)\right]&=-2E\left[(\bar X-\mu)\sum(X_i-\mu)\right]\\&=-2E\left[(\bar X-\mu)(n\bar X-n\mu)\right]\\&=-2nE\left[(\bar X-\mu)^2\right]\end{aligned})]
[math(\begin{aligned}&\therefore E\left[\sum(X_i-\mu)^2\right]+E\left[\sum(\bar X-\mu)^2\right]-2E\left[\sum(X_i-\mu)(\bar X-\mu)\right]\\&=E\left[\sum(X_i-\mu)^2\right]+nE\left[(\bar X-\mu)^2\right]-2nE\left[(\bar X-\mu)^2\right]\\&=E\left[\sum(X_i-\mu)^2\right]-nE\left[(\bar X-\mu)^2\right]\\&=E[(X_1-\mu)^2]+E[(X_2-\mu)^2]+\cdots+E[(X_n-\mu)^2]-n{\rm Var}(X)\\&={\rm Var}(X_1)+{\rm Var}(X_2)+\cdots+{\rm Var}(X_n)-\sigma^2\\&=(n-1)\sigma^2\end{aligned}\\\therefore E(s^2)=\dfrac{E[\sum(X_i-\bar X)^2]}{n-1}=\dfrac{(n-1)\sigma^2}{n-1}=\sigma^2)]
4. 표본비율
표본비율은 어떤 모집단에서 추출한 표본 중에서 특정 범주에 속하는 표본의 비율을 말한다. 예를 들어 모집단 학생 100명 중에서 10명을 표본으로 추출하였을 때, 남학생이 3명이라면 남학생의 표본비율은 [math(0.3)]이다. 모집단의 비율인 모비율을 [math(p)]로 표기하는데, 이에 대응하여 표본비율은 [math(\hat p)]으로 표기하고 '피 햇'으로 읽는다.4.1. 이항 모집단
모집단이 이항 분포를 따를 경우, 표본비율의 분포는 다음과 같이 구한다.먼저 어떤 이항분포에서 이루어지는 시행의 성공 확률(비율)을 [math(p)], 실패 확률(비율)을 [math(1-p)]라 하자. 그러면 이 이항분포는 평균이 [math(np)]이고 분산이 [math(np(1-p))]이다. 또한, 표본 [math(n)]개를 추출하여 실시한 시행의 성공 횟수를 [math(X)]라 하면 [math(\hat p=\dfrac Xn)]이다. 그러면 다음이 성립한다.
[math(E(\hat p)=E\left(\dfrac Xn\right)=\dfrac{np}n=p)]
[math({\rm Var}(\hat p)={\rm Var}\left(\dfrac Xn\right)=\dfrac{np(1-p)}{n^2}=\dfrac{p(1-p)}n)]
[math({\rm Var}(\hat p)={\rm Var}\left(\dfrac Xn\right)=\dfrac{np(1-p)}{n^2}=\dfrac{p(1-p)}n)]
또한 표본비율의 분포는 정규분포에 근사한다.
[math(\hat p\sim N\biggr[p,\,\dfrac{p(1-p)}n)][math(\biggr])]
따라서 이어서 표준화[math((Z))]를 해보면
[math(Z=\dfrac{\hat p-p}{\sqrt{\dfrac{p(1-p)}n}}\sim(0,\,1))]
따라서 이어서 표준화[math((Z))]를 해보면
[math(Z=\dfrac{\hat p-p}{\sqrt{\dfrac{p(1-p)}n}}\sim(0,\,1))]
4.2. 정규화 및 표준화 예시
학생 100명 중 남학생과 여학생이 각각 50%일것으로 예상되는 모집단에서 충분한 표본 크기인 10명을 표본으로 추출하였을 때, 남학생의 표본비율[math((\hat{p}))]이 40%와60% 사이일 확률을 조사하시오.4.2.1. 계산
정규화[math((N) =(평균,분산)=\left( p, \left(\sqrt{\dfrac{p(1-p)}{n}}\right)^2 \right) )]하고 이어서 표준화[math((Z)= \dfrac{표본-평균}{표준편차}= \dfrac{\overline{X}-\mu}{\sqrt{\dfrac{p(1-p)}{n}}} )]하면[math(N=\left( 0.5 , \dfrac{0.5(1-0.5)}{10} \right) )]
[math(Z= \dfrac{\hat{p}-0.5}{\sqrt{\dfrac{0.5\cdot 0.5}{10}}} )]
[math(Z= \dfrac{\hat{p}-0.5}{0.158} )]
[math( P (0.4<\hat{p}<0.6)= P\left(\dfrac{0.4-0.5}{0.158} < \dfrac{\hat{p}-0.5}{0.158} < \dfrac{0.6-0.5}{0.158} \right) = P(-0.63 < Z < 0.63) )]
[math( = P(-0.63 < Z < 0.63) )]
[math( = P(Z < 0.63) -P(Z < -0.63) )]
[math( = P(Z < 0.63) - (1-P(Z < 0.63)) )]
표준정규분포표를 조사해보면
[math( = 0.7357 - (1-0.7357) = 0.4714 )]
확률(값)은 0.4714이다.