본문 바로가기
기초통계학/기초통계학

5. 표본추출과 확률분포 - 2

by -옌 2022. 12. 15.

 

<용어 정리>

  • 모집단 (population): 통계적 관찰의 대상이 되는 전체 집단
  • 표본 (sample): 통계 조사를 위해 선택된 모집단의 일부.  표본의 크기는  비용, 시간 등을 고려한 표본추출계획에 따라 결정된다.
  • 랜덤 표본 (random sample): 분포 f(x)를 갖는 모집단으로부터 추출된 표본으로, 각각의 확률 변수는 분포 f(x)를 따르고 서로 독립이다.
  • 모수 (parameter): 모집단의 특성 값으로 미지의 상수(unknown constant)이며,  확률분포의 형태를 결정하는 값으로서 통계적 추론의 대상이다.
  • 통계량 (statistic): 랜덤 표본에 속한 관측값들의 함수를 통계량이라 한다. 확률 변수이며, 각각의 관측이  분포를 가지고 있으므로 관측들의 함수인 통계량도 자신의 분포를 갖는다. (대부분의 경우 모집단의 분포와 일치하지 않는다.)
  • 추정량 (estimator): 모수를 추정하는 데 사용되는 통계량
  모집단 표본
정의 관심대상이 되는 단위들의 전체 집합 연구를 위하여 선택된 모집단의 일부
특징 모수 통계량
부호 모평균
모표준편차
모분산
모비율
모집단크기
표본평균
표본표준편차
표본분산
표본비율
표본크기

 

 

 

<표본평균의 분포와 평균, 분산>

모집단의 분포가 정규분포 일 때 정규모집단으로부터의 표본평균은 정규분포를 따른다. 

표본분포의 기댓값은 모평균과 일치하고, 표본평균의 표준편차는 모표준편차를 표본크기의 제곱근으로 나눈 식으로 정의된다. (단, 표본평균은 모평균을 근사할 뿐 모평균과 동일하지는 않다.)

 

(참고) 무한모집단에서의 추출과 유한모집단에서의 추출
기초통계학에서는 표본을 무한 모집단에서 추출하거나(inifinite population case) 유한 모집단에서 복원추출한다(sampling from finite population with replacement)고 가정한다. 이 가정 덕분에 항상 i.i.d.(independent and identically distributed)를 만족하게 된다. i.i.d.란, 두 조건을 만족시키는 것이다. 
1) 모집단에서 추출한 표본 확률변수 X1, X2, ... , Xn은 모집단의 분포를 동일하게 따른다.
2) 확률변수 X1, X2, ... , Xn는 독립이다. 
즉, 표본집단의 분포가 모집단과 동일한 분포를 따르고, 앞서 조사해 얻은 값이 다음으로 조사한 값에 영향을 미치지 않는 다고 가정한다. i.i.d.가 만족되면 모집단과 표본집단 모두 정규분포를 따르기 때문에 점 추정과 구간 추정을 사용할 수 있다. 하지만 실제 상황에서는 무집단이 무한할 수 없고, 복원 추출을 통해 표본을 조사하지 않는다. 확률변수 값들 간 독립성이 깨지고 독립성 조건(2번 조건)이 위배된다. 이처럼 실제 조사에서는 i.i.d.를 만족하지 못하고 표본의 성질에 차이가 생기므로, 다른 모수 추정 방법을 사용하거나 표본의 크기를 늘려 확률변수가 서로 독립이 되도록 만들어야 한다. 

 

 

 

<중심극한정리(Central Limit Theorem - CLT)>

중심극한정리의 핵심은 모집단의 분포에 상관없이 표본크기 n이 충분히 크면 표본평균의 분포는 근사적으로 정규분포를 따르게 된다는 것이다. 통계학에서 가장 중요한 정리(theorem) 중 하나이다. 

 

(참고) 대표본의 기준
중심극한정리에 의하면 표본크기 n이 커질수록 표본평균의 표본분포는 점점 더 정규분포로 근사한다고 서술하였는데, n을 어느 정도로 잡아야 만족할 만한 근사가 이루어질까?
경험적으로 밝혀진 정규근사가 되는 n의 값은 30 이상이다. 즉, 표본크기가 30 이상이면 큰 오차 없이 정규분포로 근사된다고 간주한다. 

 

 

 

 

 

728x90

댓글