정규분포는 bell-shape의 PDF를 가진 유명한 연속 분포이다. 많은 숫자의 i.i.d. 확률변수를 합하면 그 개별 확률변수의 분포가 무엇인지에 상관없이 정규분포로 근사한다는 특성(central limit theorem) 때문에 통계에서 광범위하게 사용되는 분포이다.
Standard Normal Distribution
일단 가장 간단한 정규분포인 표준정규분포에서 locatoin-scale transformation을 사용하면 어떤 정규분포도 만들어낼 수 있다.
표준정규분포를 가지는 확률변수 Z의 PDF는 다음과 같다. (왜인지 f가 아닌 phi를 사용한다.)
이때, Z~N(0,1)이라 표기하고 Z는 평균 0, 분산 1을 갖는다. 앞에 상수 (1/루트2파이)는 PDF의 특성인 '전부 합치면 1이 된다.'을 만족하기 위해 존재하는 정규화 상수라고 보면 된다.
표준정규분포의 CDF는 다음과 같다.
이 식은 다른 CDF와 다르게 딱 떨어지는 닫힌 형태가 아니고 적분 기호를 그대로 유지하고 있는데 수학적으로 딱 떨어지는 값을 찾지 못한다고 한다. 하지만 계산하는 데에는 문제가 없다.
Symmetry properties of standard normal
표준정규분포의 PDF와 CDF에는 몇 가지 중요한 대칭에 관한 특성이 있다.
1. Symmetry of PDF : PDF φ 는 φ(z) = φ(-z)를 만족한다.
2. Symmetry of tail areas : PDF 곡선의 아랫부분의 면적 중 -2보다 작은 부분(P(Z<-2) = Φ(-2))은 2보다 큰 부분(P(Z>2) = 1-Φ(2)) 와 같다. 일반화 하자면 Φ(z) = 1 - Φ(-z)
3. Symmetry of Z and -Z : 만약 Z ~ N(0,1 )이라면 -Z ~ N(0,1) 역시 만족한다. -Z의 CDF P(-Z<z) = P(Z>-z) = 1-Φ(-z) 이고 2번 특성에 의해 Φ(z)가 되면서 -Z 역시 똑같은 CDF Φ를 가진다.
이제 표준정규분포의 PDF φ가 유효한지 증명해보겠다. 먼저 e^(-z^2)/2 를 적분하면 루트2π 가 됨을 증명해야하는데, 아까 언급했듯, e^(-z^2)/2의 깔끔한 적분 폼을 찾을 수 없는 것이 문제이다. 그렇다고 해서 적분을 하지 못한다는 것은 아니다. 같은 적분을 곱하는 것에서 시작해 극좌표계로 변환 후 적분을 진행하는 다소 좆같은 방법을 사용할 것이다.
첫 번째로 두 개의 z를 각각 다른 변수로 치환해준다. 그다음은 Jacobian을 통해 극좌표계로 변환시켜준다.
계속 진행하면 2π 가 나오고 같은 적분덩어리 두 개가 2π 니까 당연히
우리가 원했던 위 식이 유도된다.
표준정규분포의 평균과 분산의 유도는 다음에 다뤄보겠다.
Normal distribution
이제 표준정규분포를 가지고 원하는 평균과 분산을 가진 정규분포를 만들어낼 수 있다. Z~N(0,1)이 있을 때,
σ와 μ를 이용한 location-scale transformation을 통해 X~N(μ,σ^2)인 정규분포가 탄생한다.
여기서 X를 다시 Z로 표현하면 (X-μ)/σ ~ N(0,1) 이 된다. 이 확률변수의 CDF와 PDF는 다음과 같다.
PDF를 한 번 더 풀어쓰면,
68-95-99.7% rule
정규분포 X는 다음과 같은 특성을 갖는다.
표준정규분포 Z의 경우에는 다음과 같다.
평균을 중심으로해서 좌우로 각각 표준편차*3만큼 거리 사이에 99.7%가 포함된다는 뜻.
'수학 > 확률' 카테고리의 다른 글
Multivariate Normal (0) | 2019.11.17 |
---|---|
Covariance & Correlation (0) | 2019.11.17 |
Exponential distribution(망각성질 / 기하분포와의 관계) (0) | 2019.11.13 |
Moments & MGF (0) | 2019.11.10 |
Uniform Distribution (1) | 2019.11.09 |
댓글