본문 바로가기
수학/확률

Uniform Distribution

by Jason J 2019. 11. 9.

연속확률 변수 U가 (a,b)사이에서 균등분포를 가진다면 이를 U~Unif(a,b)라고 표기하고, 다음과 같은 PDF와 CDF를 가진다.

 

 

 

 

평균과 분산은 다음과 같다.

 

 

 

 

Location-scale transformation

X~Unif(a,b)인 확률변수를 Y=cX+d (c>0) 라는 새로운 확률변수로 변환시킬 수 있는데, 이는 단순히 일차함수(선형변환)이므로 X의 균등분포의 성질이 유지된다. c에 의해 scale이, d에 의해 location이 바뀌게 된다.

따라서 Y~Unif(ca+d,cb+d) 이다. 여기서 Y가 비선형함수로 정의된다면 일반적으로 균등분포가 유지되지 않는다.

예를 들어 Y=X^2라면 Y는 (a^2, b^2)으로 가지만 그 구간에서 Uniform하지는 않다.

Uniform distribution을 다룰 때 있어서, 이 방식은 확률변수를 보다 간단한 확률변수로 바꿔놓고 다루는데에 유용하게 사용할 수 있다.

다시 말해, Unif(0,1)로 맞춰놓고 문제를 해결할 수 있다는 말이다.

 

Universality of the Uniform

이제 균등분포의 재미있는 특성인 균등분포의 보편성(Universality of Uniform)에 대해서 알아보도록 하자.

1. Unif(0,1)인 확률 변수가 있을 때, 자신이 원하는 아무 연속분포를 가진 확률변수를 만들어 낼 수 있다.

2. 반대로, 임의의 연속분포를 가진 확률변수를 가지고 Unif(0,1)을 만족하는 확률변수를 만들어 낼 수도 있다.

Uniform이 다른 분포를 가진 확률변수를 만들어내는데 시작점이 될 수 있다는 것이다.

이 특성은 probability integral transform, inverse transform sampling, quantile transformation 등의 다양한 이름으로 불리기도 한다.

설명. F를 어떤 CDF라고 설정하면, 이는 F가 실수에서 (0,1)로 가는 연속증가함수임을 뜻한다. 따라서 역함수 F^-1이 존재하며, 이 역함수는 (0,1)에서 실수로 가는 함수이다. 그러면 다음을 만족한다. 

 

 

굉장히 헷갈리는데 천천히 살펴보자.

첫번째 항목은 U~Unif(0,1)와 CDF F (이 F는 U의 CDF가 아니다.)를 가지고 F를 CDF로 가지는 확률변수 X를 만들어낸다는 뜻이다. (F의 역함수에 U를 대입함으로써) U는 확률변수이고 확률변수의 함수도 확률변수이기 때문에 F^-1(U)도 확률변수이다. 그리고 그 확률변수의 CDF가 F라는 것. 증명은 다음과 같다.

 

 

 

두번째는 반대상황인데, F를 CDF로 갖는 X를 가지고 Unif(0,1)인 확률 변수를 만들어 낼 수 있다는 것이다. 여기서 자신의 CDF에 자신을 대입한다는 것이 이상하게 들리지만 CDF F는 단지 함수일 뿐이고 거기에 X를 대입하는 것이므로 문제될 것이 없다.

 

 

 

예시를 통해 좀 더 이해해보자. 

많은 학생들이 어떤 시험을 치뤘고 0점부터 100점까지 점수가 매겨진다. X를 임의의 학생의 점수라고 하면, 이는 사실 이산확률변수이지만 연속이라고 가정하자. 

평균이 60점이라고 가정하면, 학생 중 반은 60점 밑이고 반은 60점 위이다. (이때 X를 연속확률변수로 둠으로써 몇명의 학생이 정확히 60점을 받았는지 고려하지 않아도 된다.) 다시 말해서 X의 CDF, F(60)은 1/2이다. 반대로 역함수 F^-1(1/2)=60이다. 

철수가 시험에서 72점을 받았다고 하면, 그 점수의 백분율(percentile) F(72)는 구간(1/2,1) 사이에 존재한다. 일반적으로 말하면 x점을 받은 학생의 백분율은 F(x)이고, 반대로 하면 0.95의 백분율을 가진 학생의 점수는 F^-1(0.95)이다. F는 점수를 백분율로, F^-1은 백분율을 점수로 바꾸는 함수인 것이다.

X를 자신의 CDF 인 F에 대입한다는 것이 이상하게 들렸겠지만 이제는 좀 말이 된다. F(X)는 임의의 학생이 가진 백분율(점수에서 환산된)을 뜻한다. 여기서 당연히 F(X)는 균등분포이다. 백분율(percentile) 자체가 순서대로 줄을 새운 것이기 때문에 당연하게도 백분율 0과 0.1사이에 10% 학생이 있고 0.7과 0.8사이에 10% 학생이 있다. 머리아프게 70점과 80점 사이에 몇 명의 학생이 있는지(확률변수 X) 고민할 필요가 없는 것이다.

 

'수학 > 확률' 카테고리의 다른 글

Multivariate Normal  (0) 2019.11.17
Covariance & Correlation  (0) 2019.11.17
Exponential distribution(망각성질 / 기하분포와의 관계)  (0) 2019.11.13
Moments & MGF  (0) 2019.11.10
Normal Distribution  (0) 2019.11.10

댓글