확률 변수란 표본공간 S 위의 확률을 실수 위의 확률로 대응시켜주는 함수를 의미한다.
표본공간은 X의 가능한 모든 값들의 집합을 의미한다.
수학적 정의만 접했을 때는 이해가 잘 가지 않을 수 있으므로, 파란색 글씨로 쓴 예를 함께 보는 것이 좋다.

확률변수의 종류는 이산확률변수, 연속확률변수 두 가지로 나뉜다.
이산확률변수는 확률 변수가 가질 수 있는 값이 이산값인 확률변수를 의미한다.
주의!) 이산확률변수와 연속확률변수를 구분하는 방법은 "확률변수값이 유한한가?"를 따지는 것이 아니라 아니라 "확률변수값을 셀 수 있는가?"를 따지는 것이다. (유한성을 따지는 것이 아니라 가산 여부를 따지는 것)
이산확률변수의 예시로는 직원 100명 중 결근하는 직원의 수, 가정의 자녀 중 딸인 자녀의 수, 동전을 던질 때 앞면이 나오는 평균 횟수 등이 있다.

X가 이산확률변수이면 X가 갖는 값들을 하나씩 나열해 놓을 수 있고 이들을 x1,x2,x3,...와 같이 나타낼 수 있다.
이때, x1,x2,x3,... 각각에 대하여 P(X=x1), P(X=x2), ...를 대응시킬 수 있다.
이처럼 xi에 P(X=xi) 값을 대응시키고 그 밖의 점에는 0을 대응시키는 함수를 X의 확률질량함수 (probability mass function, or pmf)이라고 부른다.
주의!) 이산확률변수의 질량함수를 확률질량함수 (probability mass function, or pmf)라고 부르고, 연속확률변수의 질량함수를 확률밀도함수 (probability density function, or pdf)라고 부른다.
즉 일어날 수 있는 모든 사건의 개수를 셀 수 있다면 확률함수 이름에 "질량"이라는 단어를 넣고, 일어날 수 있는 모든 사건의 개수를 셀 수 없다면 확률함수 이름에 "밀도"라는 단어를 넣어 칭하는 것이다.

확률질량함수의 성질을 이용해 문제를 풀어보자.

이산확률분포의 누적분포함수(cmf)는 확률질량함수(cdf)를 이용해 구할 수 있다.
누적분포함수 -> 확률질량함수, 확률질량함수 -> 누적분포함수로 변환하는 방법을 알아야 한다.

확률질량함수를 이용해 확률변수 X의 기댓값, 분산을 구하는 방법은 다음과 같다.
공식만 외워둔다면 모든 이산확률변수에 적용할 수 있다.

확률질량함수를 이용해 기댓값, 분산, 표준편차를 구해보자.

통계에서의 적률(moment)의 정의는 다음과 같다.

'기초통계학 > 기초확률론' 카테고리의 다른 글
6. 여러가지 연속확률분포 (Families of Continuous Distribution) (0) | 2022.11.27 |
---|---|
5. 연속확률변수 (Continuous Random Variables) (0) | 2022.11.26 |
4. 여러가지 이산확률분포 (Families of Discrete Random Distribution) (0) | 2022.11.24 |
2. 시행과 확률(Experiments, Models, and Probabilities) - 2 (0) | 2022.11.12 |
1. 시행과 확률(Experiments, Models, and Probabilities) - 1 (1) | 2022.09.28 |
댓글