통계분석 분야는 두 가지로 나눠진다.
하나는 자료의 특징을 기술(descript)하는 기술통계(descriptive statistic)이고, 또 다른 하나는 표본 집단의 자료로부터 모집단의 특성을 추정 및 검정하는 통계추론(statistical inferences)이다.
자료기술을 하는 방법은 크게 두가지로 나뉘는데, 그래프를 이용하는 기법과 수치화된 기술통계량을 사용하는 기법이다. 이번 시간에는 수치화된 기술통계량에 대해 알아보자.
가장 먼저, 자료의 중심에 관한 측도에는 평균, 최빈값, 중앙값이 있다.
평균과 중앙값은 자주 쓰는 통계량이다.
절단 평균, 윈저화 평균같은 로버스트 통계량은 극단적인 값들의 영향을 줄인 평균이다.
평균값, 최빈값, 중앙값의 활용 예시
"최빈값은 흔히 인기도의 측도로서 사용된다. 예를 들어 소비자가 가장 많이 찾는 세탁기, 가장 지지도가 높은 정치 지도자 등은 전부 최빈값을 찾는 것이다. 하나의 자료에 최빈값은 둘 이상 있을 수 있다. 그리고 평균이나 중앙값과는 달리 최빈값은 질적자료에도 적용할 수 있다.
중앙값은 보통 관측의 개수가 상당히 많을 때, 이러한 관측값들의 중심점을 찾을 때 사용한다. 평균은 대부분의 관측값들보다 아주 크거나, 또는 아주 작은 한두 개의 관측값의 영향을 많이 받는다. 이런 악영향을 배제하려 할 때 주로 중앙값이 사용되며, 임금, 소득에 관한 자료의 측도로서 널리 사용한다."
로버스트 통계량
"평균은 극단적인 관측값들에 아주 예민하게 영향을 받아 그 값이 쉽게 변화하는 단점이 있다. 이러한 예민성을 감소시키기 위하여 제안된 두 가지의 새로운 평균 계산법으로 절단평균과 윈저화평균이 있다. 절단평균은 최소 및 최대 관측값들을 자료에서 제거한 후 구하는 평균이기 때문에 극단적인 관측값들의 영향을 줄일 수 있다. 그러나 절단화의 단점은 원래 수집된 자료의 총수가 줄어든다는 데 있다. 윈저화평균은 극단적인 관측값들의 영향을 줄이는 면에서는 절단평균과 같으나, 총관측수를 그대로 유지시킬 수 있다는 장점이 있다."
다음으로, 자료의 퍼짐에 대한 측도에 대해 알아보자.
자료의 중심뿐만 아니라 자료의 퍼짐 또한 알아야 정확히 파악할 수 있다.
자료의 퍼짐을 나타내는 방법에는 범위, 사분위 범위, 표준편차, 변동계수가 있다.
보통 가장 많이 사용하는 측도는 표준편차이고, 백분위값이나 사분위값도 자주 사용한다. (실제로 백분위값이나 사분위값을 크게 구분하지 않는다.)
가장 많이 사용하는 측도인 표준편차(standard deviation)은 편차를 제곱해 모두 더하고, n-1 (자유도)로 나눠 제곱근을 취한 값이다. 왜 편차를 퍼짐성의 측도로 사용하지 않고 편차 제곱의 총합에 제곱근을 적용한 표준편차를 사용할까?
"편차의 합은 항상 0이기 때문이다. 이런 문제점을 피하는 한 가지 방법은 음수의 편차값을 양수로 만드는 것이다. 간단히 음수를 양수로 바꾸는 연산으로는 절댓값을 취하는 것과 제곱을 취하는 방법이 있다. 그러나 절댓값을 취한 편차들의 연산은 몇 가지 불편한 점이 있기 때문에 일반적으로 편차제곱을 취하고, 편자제곱들의 평균값을 퍼짐성의 측도로 사용한다. 제곱편차합을 (n-1)로 나눈 값을 분산(variance)이라 한다. 분산은 관측값을 제곱하여 얻게 되므로, 분산의 단위는 관측 단위의 제곱이 된다. 서로 단위가 다르면 상호 비교가 곤란하므로 언제나 분산에 제곱근을 취하여 통계분석을 하는데, 이 분산의 제곱근을 특히 표준편차(standard deviation)라 한다. 예를 들어, 키를 잴 때 평균은 172㎝, 분산은 16㎠이라고 기술하는 것은 의미가 없고, 평균은 172㎝, 표준편차는 4㎝라 기술하는 것이 합당하다는 뜻이다."
마지막으로, 자료의 비대창에 관한 측도는 피어슨비대칭계수가 있다.
평균과 중앙값이 비슷한 자료를 대칭적(symmetric)이라고 하고, 평균값과 중앙값이 다른 자료를 치우쳐(skewed)졌다고 한다.
자료가 얼마나 치우쳐져(비대칭)인지 나타내는 값을 비대칭 계수(skewness)라고 한다.
비대칭계수의 종류는 다양하지만 기초통계학에서는 이 정도만 소개된다.
평균이 중앙값보다 클 때 자료가 right skewed(positively skewed)되었다고 하고,
중앙값이 평균보다 클 때 자료가 left skewed(negatively skewed)되었다고 한다.
<예제>
절단평균과 윈저화평균
최빈값과 중앙값
사분위값
분산과 표준편차
정리하면 아래와 같다.
기술통계량의 종류
1. 중심에 대한 측도 - 평균, 중앙값 ...
2. 퍼짐에 대한 측도 - 표준편차, 사분위값 ...
3. 치우침에 대한 측도 - 피어슨비대칭계수
'기초통계학 > 기초통계학' 카테고리의 다른 글
6. 가설 검정의 개념 (Concept of Hypothesis Test) (0) | 2022.12.15 |
---|---|
5. 표본추출과 확률분포 - 2 (0) | 2022.12.15 |
4. 표본추출과 확률분포 - 1 (0) | 2022.12.15 |
3. 확률 (Probability) (0) | 2022.12.15 |
2. 도표와 그래프 (Chart and Graph) (0) | 2022.12.15 |
댓글