통계학 Statistics |
|||
{{{#!wiki style="margin:0 -10px -5px; min-height:calc(1.5em + 5px); word-break: keep-all" {{{#!folding [ 펼치기 · 접기 ] {{{#!wiki style="margin:-5px -1px -11px" |
<colbgcolor=#4d4d4d><colcolor=#fff> 수리통계학 | 기반 | 실해석학 ( 측도론) · 선형대수학 · 이산수학 |
확률론 | 사건 · 가능성 · 확률 변수 · 확률 분포 ( 표본 분포 · 정규 분포 · 이항 분포 · 푸아송 분포 · 카이제곱분포 · t분포 · Z분포 · F-분포 · 결합확률분포) · 확률밀도함수 · 확률질량함수 · 조건부확률 · 조건부기댓값 · 조건부분산 · 전체 확률의 법칙 · 베이즈 정리 · 도박사의 오류 · 도박꾼의 파산 · 몬티 홀 문제 · 뷔퐁의 바늘 · 마르코프 부등식 · 체비쇼프 부등식 · 큰 수의 법칙 ( 무한 원숭이 정리) · 중심극한정리 · 벤포드의 법칙 | ||
통계량 | 평균 ( 제곱평균제곱근 · 산술 평균 · 기하 평균 · 조화 평균 · 멱평균 · 대수 평균) · 기댓값 · 편차 ( 절대 편차 · 표준 편차) · 분산 ( 공분산) · 결정계수 · 변동계수 · 상관계수 · 대푯값 · 자유도 | ||
추론통계학 | 가설 · 변인 · 추정량 · 점추정 · 신뢰 구간 · 상관관계와 인과관계 · 실험통계학 · p-해킹 · 통계의 함정 · 그레인저 인과관계 · 신뢰도와 타당도 | ||
통계적 방법 | 회귀 분석 · 최소제곱법 · 분산 분석 · 주성분 분석 ( 요인 분석) · 시계열 분석 · 패널 분석 · 2SLS · 생존 분석 · GARCH · 비모수통계학 · 준모수통계학 · 기계학습 ( 군집 분석 · 분류 분석) · 위상 데이터분석 · 외삽법 · 메타 분석 · 모델링 ( 구조방정식) | ||
기술통계학 · 자료 시각화 |
도표 ( 그림그래프 · 막대그래프 · 선 그래프 · 원 그래프 · 상자 수염 그림 · 줄기와 잎 그림 · 산포도 · 산점도 · 히스토그램 · 도수분포표) · 그래프 왜곡 · 이상점 | }}}}}}}}} |
1. 개요
期 待 値 / Expected value어떤 확률 과정을 무한히 반복했을 때, 얻을 수 있는 값의 평균으로서 기대할 수 있는 값. 보다 엄밀하게 정의하면 기댓값은 확률 과정에서 얻을 수 있는 모든 값의 가중 평균이다.
확률 변수 [math(X)]가 어떤 모집단 분포를 따를 때 [math(X)]의 기댓값을 (모)평균(population mean)이라고도 부른다. 예컨대 다음과 같은 표현을 많이 접할 것이다.
[math(X)]가 평균 [math(\mu)], 표준편차 [math(\sigma)]인 정규분포를 따른다고 하자.
2. 정의
2.1. 이산 확률 변수
이산 확률 변수 [math(X)]의 확률분포표가 다음과 같다고 하자. ([math(p\left(x\right))]는 확률 질량 함수)[math(X)] | [math(x_1)] | [math(x_2)] | [math(\cdots)] | [math(x_n)] | |
[math(p\left(x\right))] | [math(p_1)] | [math(p_2)] | [math(\cdots)] | [math(p_n)] |
[math(\displaystyle \mathbb{E}\left(X\right)=\sum_{i=1}^{n}{x_ip_i})]
이산 확률 변수 [math(X)]가 취하는 값의 개수가 무한한 경우, 즉 자연수 집합과 일대일 대응 되는 경우에도 비슷하게 정의된다.
[math(\displaystyle \mathbb{E}\left(X\right)=\sum_{i=1}^{\infty}{x_ip_i})]
단, 이
급수가 절대수렴해야 한다. 다시 말해서 각 항에 절댓값을 씌운 급수[math(\displaystyle\sum_{i= 1}^\infty\lvert x_ip_i \rvert )]
가 무한대로 발산하는 경우는 기댓값이 정의되지 않는다. 이는 리만 재배열 정리 때문이다.
2.2. 연속 확률 변수
연속 확률 변수 [math(X)]의 확률 밀도 함수가 [math(f(x))]라고 할 때 [math(X)]의 기댓값은 다음과 같이 정의한다.
[math(\displaystyle \mathbb{E}\left(X\right)=\int_{-\infty}^{\infty} x\, f(x)\, \mathrm{d}x = \int_{\mathbb{R}} x\, f(x)\, \mathrm{d}x)]
이산 확률 변수의 경우와 마찬가지로[math(\displaystyle\int_{\mathbb{R}}\lvert xf(x) \rvert\mathrm{d}x)]
의 값이 무한대라면 기댓값이 정의되지 않는다.
이렇게 '정의되지 않음'은 기댓값의 고유한 특성이 아니라, 르베그 적분(Lebesgue integral)의 정의에서 오는 것이다. 위 이산 확률 변수의 경우도 이산 측도에서의 르베그 적분이므로[2] 마찬가지인 것이며 이상적분(improper integral)과는 다르다
예컨대 코시 분포(Cauchy distribution)[3]는 다음과 같은 확률밀도함수를 가진다.
[math(\displaystyle f(x)= \frac{1}{\pi\cdot(1+ x^2)})][4]
이 확률밀도함수는 표준정규분포와 유사하게 종 모양을 가지고 0을 중심으로 대칭이지만, 직관과는 달리 기댓값은 0이 아니고, 정의되지 않는다. 즉, 평균이 없는 분포다.[5] 이와 관련해서는 이상적분 항목 참조.
2.3. 응용
어떤 함수 [math(g)]에 대해 [math(g\left(X\right))]의 기댓값, 즉 [math(\text{E}\left(g\left(X\right)\right))]는 다음과 같이 정의된다.- 이산 확률 변수 : [math(\displaystyle \text{E}\left(g\left(X\right)\right)=\sum_{i=1}^{n}{g\left(x_i\right)p_i})]
- 연속 확률 변수 : [math(\displaystyle \text{E}\left(g\left(X\right)\right)=\int_{-\infty}^{\infty}g\left(x\right)f\left(x\right)dx)]
예를 들어 [math(X)]의 분산 [math(\text{V}\left(X\right))]는 다음과 같이 나타낼 수 있다.
[math(\text{V}\left(X\right)=\text{E}\left(\left(X-\text{E}\left(X\right)\right)^2\right)=\text{E}\left(X^2\right)-\left\{\text{E}\left(X\right)\right\}^2)]
3. 성질
상수 [math(a)]의 기댓값은 [math(a)]이다.- [math(\text{E}\left(a\right)=a)]
기댓값은 선형성을 가진다. 즉, 다음이 성립한다. ([math(X, Y)]는 확률변수, [math(a)]는 상수)
- [math(\text{E}\left(X+Y\right)=\text{E}\left(X\right)+\text{E}\left(Y\right))]
- [math(\text{E}\left(aX+b\right)=a \text{E}\left(X\right)+b)]
확률변수 [math(X,\ Y)]가 서로 독립일 경우에는 다음의 성질도 성립한다.
- [math(\text{E}\left(XY\right)=\text{E}\left(X\right)\text{E}\left(Y\right))]
4. 기타
동의어인 '기대치'라는 단어는 일상적으로 생각보다 많이 쓰이는데, "기대치가 너무 높다"라던가 "기대치에 못 미쳤다"와 같이 '바라는 정도'의 맥락으로 쓰이는 경우가 많다.도박과 관련한 업계에서는 환수율이라는 말로 많이 쓰인다. 의미는 수학에서의 기댓값하고 동일하다. 카지노 회사가 돈을 벌려면 게임에서 환수율은 수학적으로 1을 넘길 수 없다.
5. 참고 문서
[1]
물리학에서는 전자, 수학에서는 후자를 많이 쓴다.
[2]
이산 확률 변수에서 저게 왜 적분이지? 할 수 있겠지만, 사실
[math(displaystyle sum_{x=a}^b f(x) Leftrightarrow int_{a}^{b} f(x) , mathrm{d} lfloor x rfloor)]이 성립한다는 것을 염두에 두면 적분 맞다.
[3]
자유도가 1인
t-분포와 같다.
[4]
[math(\pi)] 뒤에 점을 찍은 이유는 [math(\pi(1+ x^2))]라고 쓰면
원주율과 다항식의 곱인지,
소수 계량 함수인지 혼동할 수 있기 때문이다.
[5]
물론 중앙값은 0이다.