4. 표본추출과 확률분포 - 1
1. 표본조사(Sampling)
- 전수조사(census): 모집단(조사하고자 하는 대상이 되는 집단 전체) 전체를 표본으로 추출해 조사하는 경우
- 표본조사(sampling): 표본(관심의 대상이 되는 전체 모집단 중 일부)를 선택하고 그 선택된 일부만을 대상으로 조사를 실시하여 이로부터 전체 모집단의 특성을 추정해 내는 것
집단 내 모든 개체를 다 조사한다는 것은 현실적인 어려움이 따르고 너무 많은 조사비용이 필요하기 때문에 모든 조사를 다 전수조사로 진행할 수 없다. 따라서 전수조사에 비해 시간과 비용이 절감되는 표본조사를 실행한다. 표본으로부터의 결과를 이용하여 모집단의 특성을 유추하려고 하기 때문에 가능한 한 모집단의 성질을 가장 잘 보여주는 표본을 선택하고자 한다. 현명한 판단을 내리기 위해 가급적 표본크기를 줄이면서 정확한 판단을 내리고자 할 것이다.
2. 표본오차(Sampling Error)
- 표본오차(sampling error): 모집단을 대표할 수 있는 전형적인 구성 요소를 선택하지 못함으로써 발생하는 오차를 말한다. 이러한 표본오차는 편의(bias)와 우연(chance)에 의해 발생한다. 우연에 의한 표본오차는 표본의 크기를 증가시킴으로써 감소시킬 수 있으며, 편의(偏倚)에 의한 오차는 표본 선택 방법을 엄격히 함으로써 줄일 수 있다.
- 비표본오차(non-sampling error): 통계조사의 오차로는 그 밖에 조사 개념의 구성 및 조사표 설계 등의 잘못에 기인하는 오차, 기입 등 실사 단계의 오차, 집계·정리 단계의 오차 등 비표본오차가 있다.
※표본편의: 표본추출 과정에서 특정 대상이 다른 대상에 비해 우선적으로 추출될 때 생기는 오차를 의미한다.
3. 표본 추출 방법
표본 추출 방법에 따라 분석결과가 달라질 수 있다.
1) 단순랜덤 추출법(simple random sampling)
임의로 n개의 표본을 추출하는 방법으로 각 샘플마다 선택될 확률이 동일하다.
2) 계통추출법(systematic sampling)
번호를 부여한 샘플을 나열하여 일정한 개수의 구간으로 나눈 후 일정한 간격으로 추출하는 방법이다. 모집단에 규칙성이 있는 경우에는 비효과적이고, 이미 각 샘플에 번호가 부여된 모집단인 경우 가장 효과적이다.
예시: 백화점 고객 명부 등에서 매 페이지마다 10번째에 있는 고객을 표본으로 선택해 상품 만족도를 조사한다.
선거 출구 조사 시 매 5번째 투표자를 표본으로 선택한다.
3) 집락추출법(cluster random sampling)
여러 개의 집락으로 구성되어 있는 모집단에서 몇 개의 집락을 랜덤하게 뽑는다. 뽑힌 집락만을 조사하므로 뽑히지 않은 집락의 정보는 얻을 수 없고, 집락 간 동질적이고 집락 내 이질적일수록 효과적이다.
예시: 25개의 구(집락)로 이루어진 서울시에서 몇 개의 구를 랜덤추출하고 각 가구들을 조사한다.
4) 층화추출법(stratified random sampling)
모집단을 특성에 따라 층(stratum)으로 분류한 다음 각 계층에서 랜덤하게 표본을 추출하는 방법이다. 빠지는 층이 없이 모든 층에서 추출해야 하고, 각 층에서 뽑는 표본의 크기는 각 층의 크기에 비례하여 뽑는다. 층 간 이질적이고 층 내 동질적일수록 효과적이다.
예시: A 대학교 학부생을 학년별로 층화하여 각 학년별로 250명씩 랜덤하게 뽑아 전체 1000명의 표본을 뽑는다.
4-1. 범주형 변수 측정 척도
1) 명목 척도(normal scale)
변수의 값에 단순히 명목상으로 부여되는 척도이다. (이름, 숫자, 기호…) 변수의 값들 사이에 특별한 대소 관계가 없으며, 수준을 표시하는 기호와 숫자를 임의로 바꾸어도 정보의 손실이 없다.
예시: 성별을 구분하기 위해 여성을 0, 남성을 1로 표시한다.
2) 순서 척도(ordinal scale)
변수 간 수준들 사이에 명확한 서열관계가 있을 때 부여되는 척도이다.
예시: 언어 구사 능력을 상, 중, 하로 표시한다.
서비스 만족도를 매우 불만족(1), 불만족(2), 보통(3), 만족(4), 매우 만족(5)으로 표시한다.
4-2. 연속형 변수 측정 척도
1) 구간 척도(interval scale)
변수 간의 차이를 비교 측정할 수 있고, 구간 사이의 간격이 의미가 있는 자료이다. 구간 척도에서 0은 절대적인 의미를 가지지 않는다.
예시: 섭씨 온도, 화씨 온도, 주가 지수, IQ
2) 비척도(ratio scale)
변수 값 간의 비가 의미를 가지고(사칙연산 가능), 0이 절대적인 의미(전혀 없음)를 가진다.
예시: 절대 온도, 길이, 무게, 부피, 가격, 나이, 시간