이산형 확률 분포에 대해서 정리해 보았습니다. 본 내용은 하버드 확률론 기초 강의(Statistics 110)를 참고하여 정리했음을 밝힙니다.
연속형 확률 분포에 대한 글은 이곳을 참고해주세요.
0 확률 변수(Random Variable)와 확률 분포(Distribution)
확률 변수란 표본 공간(
확률 분포는 확률 변수와 깊은 관련성으로 인해 헷갈리기 쉬운 개념입니다. 확률 변수와 확률 분포의 공통점은 함수라는 점입니다. 그러나 함수의 역할이 다르다는 점에서 차이가 있는데, 확률 분포란 확률 변수가 특정한 값을 가질 확률을 나타내는 함수를 의미합니다.1 확률 분포는 확률 변수가 어떤 종류의 값을 가지느냐에 따라서 크게 이산 확률 분포와 연속 확률 분포로 구분됩니다. 이산 확률 분포는 확률 질량 함수(PMF, Probability Mass Function)로 표현 가능 하며, 연속 확률 분포는 확률 밀도 함수(PDF, Probability Density Function)으로 표현 가능 합니다.
1 이산 확률 변수(Discrete Random Variable) 분포
1.1 이항 분포(Binomial Distribution)
1.1.1 정의
독립적인 베르누이 시행을
1.1.2 PMF
이항 분포의 PDF는 아래와 같습니다.
이항분포에 왜 조합(combination)이 있을까요? 독립적인 동전 던지기 시행을 5번 했을 때, 2번 성공(=앞면이 나옴) 했을 때를 가정해봅시다. 첫번째, 세번째에서 동전의 앞면이 나왔을 때와 두번째 다섯번째에서 동전이 앞면이 나오는 경우는 모두 같은 확률
입니다. 그러나 두 경우 모두 사건이므로 이러한 경우를 모두 고려하여 확률 분포를 고안해야 합니다. 다시말해, 5개 중 2개를 순서와 상관없이 뽑는 경우를 모두 고려해야하며, 각각의 사건은 서로 배반사건(disjoint, 동시에 발생할 수 없음)입니다.
1.1.3 PMF 검증
먼저 이항 정리(binomial theorem)에 대해서 간단하게 알아보겠습니다. 이항 정리란
이항 정리를 알아본 이유는 이항 정리를 활용하면 PMF를 검증할 수 있기 때문입니다. 아래 식을 살펴 보시면 이항 분포를 따르는 확률 변수
1.1.4 기댓값
향후 추가
1.1.5 분산
이항 분포의 분산은 지시 확률 변수(indicator random variable)을 활용하여 구할 수 있습니다. 먼저, 지시 확률 변수란 어떤 사건(event)가 발생 했을 때는 1, 발생하지 않았을 때는 0을 출력하는 함수입니다.
이항 분포는 독립적인 베르누이 시행에서의 성공 횟수에 대한 분포임을 언급 했습니다. 다시 말해서 이항 분포의 확률 변수는 베르누이 시행의 지시 확률 변수의 합으로 표현할 수 있습니다.
먼저 베르누이 분포의 분산
이항 분포의 확률 변수는 베르누이 지시 확률 변수의 합이므로 이항 분포의 분산은 다음과 같이 도출됩니다.
1.2 기하 분포(Geometric Distribution)
1.2.1 정의
독립적인 베르누이 시행에서 첫 성공까지의 실패 횟수에 대한 분포입니다. 참고로 기하 분포와 비슷한 의미를 지니는 연속형 확률 분포로 지수 분포(exponential distribution)이 있습니다.
1.2.2 PMF
1.2.3 PMF 검증
1.2.4 기댓값
향후 추가
1.2.5분산
향후 추가
1.3 음이항 분포(Negative Binomial Distribution)
1.3.1 정의
독립적인 베르누이 시행에서
1.3.2 PMF
향후 추가
1.3.3 PMF 검증
향후 추가
1.3.4 기댓값
향후 추가
1.3.5 분산
향후 추가
1.4 초기하 분포(Hypergeometric Distribution)
1.4.1 정의
크기가
1.4.2 PMF
1.4.3 PMF 검증
참고로 3번째 term에서 4번째 term으로의 변화는 Vandermonde 항등식에 의해서 가능합니다.
1.4.4 기댓값
향후 정리
1.4.5 분산
향후 정리
1.5 포아송 분포(Poisson Distribution)
1.5.1 정의
단위 시간/공간 동안의 사건 발생 횟수에 대한 이산 확률 분포를 말합니다. 모수인
1.5.2 PMF
1.5.3 PMF 검증
먼저 우리는
이와 같은 사실을 활용해 PMF를 검증해보겠습니다.
1.5.4 기댓값
1.5.5 분산
향후 추가
1.5.6 이항 분포와의 관계
먼저 이항 분포를 ‘시간’의 맥락에서 생각해 보겠습니다. 음식점에 방문하는 손님의 수를 이항 분포로 모델링 하는데, 하루동안 음식점에 한명의 고객이 방문할 확률을 0.3이라고 해보죠. 그렇다면 10일간 4명의 고객이 방문할 확률은
위의 예시를 이항 분포로 모델링할 경우에는 하루동안 음식점에 방문하는 손님이 1명이라는 가정이 내재되어있습니다. 그런데 이러한 가정은 너무 비현실적이죠. 하루동안 여러명이 손님이 방문할 수 있다는 정보를 반영하여 모델링을 할 수 없을까요? 시간을 더욱 작은 단위로 쪼개면 가능할 것 같습니다. 예를들어 24시간이라는 1시간 단위로 잘게 쪼개서 한 시간 단위로 방문자 수를 모델링하면 결국 하루 동안의 방문자가 여러명이 될 수도 있다는 정보를 반영할 수 있게 됩니다.
이항 분포의 시행을 최대한 잘게 쪼갠댜는 말은 결국 시행을 무한번하게 되는 것과 동치가 됩니다. 이러한 맥락에서 포아송 분포가 등장하게 됩니다. 포아송 분포는 단위 시간당 평균 사건 발생 횟수를 나타내는
참고로 지수 함수에 대한 다음의 식이 활용 되었습니다.
1.6 다항 분포(Multinomial Distribution)
정의
PMF
PMF 검증
향후 추가
기댓값
향후 추가
분산
향후 추가