1단원에서는 회귀 분석의 정의와 회귀 식의 수학적 특징에 대해 알아보았다.
특히 다양한 회귀 모형 중 선형 단순 회귀 모형에 대해 자세히 알아보았었는데, 2단원에서는 자료를 잘 표현할 수 있는 선형 단순 회귀식을 세우는 방법에 대해 알아보도록 하자.
최소제곱법 (최소자승법)이란,
우리가 구하고자 하는 식 y=β0+β1x+ε 에서 회귀 계수인 β0 β1을 구하는 방법 중 하나이다.
모든 자료들을 좌표 위 점으로 생각하자. (산점도)
두 점을 이으면 직선이 되기 때문에, 랜덤하게 점 두 개를 선택한 후 두 점을 이어서 그릴 수 있는 직선의 개수는 매우 많을 것이다.
이 점들을 이은 직선 중 실제 값과 직선 위에서 예측한 값과의 오차가 가장 적은 직선을 찾는 방법이 최소제곱법이다.
실제로 최소제곱법을 이용해 가장 적합한 직선을 찾는 방법을 아래와 같다. (증명이 길게 느껴진다면 밑줄 친 공식만 보고 넘어가도 된다.)
최소제곱법을 이용해 회귀 직선을 추정하는 예제를 살펴보자.
가우스 마르코프 정리 (Gauss Markov Theorem)는 최소제곱법이 회귀 계수를 찾기에 효과적인 방법이라는 것을 증명한 정리이다.
이때, 최소제곱법을 이용해 추정한 회귀 계수값, 즉 최소 제곱 추정량을 BLUE라고 한다.
회귀 분석에서 사용하는 중요한 용어들이 등장하는데, 적합된 회귀선 (fitted regression line), 적합된 값 (fitted value), 잔차 (residual)은 매우 자주 쓰는 용어이므로 꼭 암기해둬야 한다.
우리가 추정한 회귀직선(식)을 적합된 회귀선, 추정한 회귀직선(식)을 바탕으로 우리가 계산해 새로 추정한 y값을 적합된 값, 우리가 추정한 값과 실제 y의 값의 차를 잔차라고 한다.
적합된 회귀선의 특성은 다음과 같다.
점추정(point estimation)을 통해 Yi값의 분산 (=랜덤 에러의 분산)을 추정하자.
단일 표본일 때와 유사한 방식으로 구하면 된다.
주의: Yi 값의 분산이 왜 랜덤 에러의 분산과 같은 값을 가지는지에 대한 이유는 1강 단순 선형 회귀 모형의 앞부분에 나타나 있다.
점추정을 통해 Y의 분산값을 추정하는 예제를 살펴보자.
'기초통계학 > 회귀 분석' 카테고리의 다른 글
6. 단순선형회귀에서의 추론 (Inference for Simple Linear Regression) (0) | 2023.04.02 |
---|---|
5. 단순선형회귀의 변환 (Transformation of Simple Linear Regression) (2) | 2023.02.20 |
4. 단순선형회귀식의 진단 - 검정 (Diagnostics for a Simple Linear Model Using Test) (0) | 2023.02.16 |
3. 단순선형회귀식의 진단 - 그래프 (Diagnostics for a Simple Linear Model Using Graphs) (0) | 2023.02.01 |
1. 선형 단순 회귀 모형 (Linear Simple Regression Model) (0) | 2022.10.02 |
댓글