728x90 기초통계학/회귀 분석6 6. 단순선형회귀에서의 추론 (Inference for Simple Linear Regression) 데이터를 이용한 예제를 통해 단순선형회귀에서의 추론을 진행해보자. 먼저 데이터를 불러오자. #데이터 불러오기 install.packages("Stat2Data") library(Stat2Data) data("Sparrows") Sparrows 참새에 관한 데이터인 "Sparrows"에는 범주형 변수 Treatment와 연속형 변수 Weight, Winglength가 있음을 알 수 있다. 참새의 몸무게인 Weight와 참새의 날개 길이인 Wing Length 사이에 존재하는 관계를 찾아내기 위해 회귀 모형을 만들자. model 2023. 4. 2. 5. 단순선형회귀의 변환 (Transformation of Simple Linear Regression) 3, 4단원에서는 직접 적합시킨 회귀모형이 자료를 설명하기에 적절한지 검토하는 방법에 대해 알아보았다. 이때 검토한 회귀모형이 적합하다면 그대로 사용하는 것이 좋지만, 적합시킨 단순선형회귀모형이 자료에 적합하지 않다면 두 가지의 접근 중 한 가지를 선택해야 한다. 1. 단순형회귀모형을 포기하고 더 적절한 모형을 만들어서 사용한다. 2. 회귀모형 자료에 몇 가지 변환을 사용한다. 두 접근법은 각각 장점과 단점이 있다. 첫 번째 접근법은 더 복잡한 모형을 사용해 직관적으로 이해가 잘 되는 모형을 사용하지만, 모수들을 추정하는 데 더 복잡한 과정을 거쳐야 한다. 반면에 두 번째 접근법은 상대적으로 단순한 추정 과정을 거치고, 복잡한 모형보다 모수의 개수도 적다. 하지만 경우에 따라 변수들 간의 핵심적인 연결 .. 2023. 2. 20. 4. 단순선형회귀식의 진단 - 검정 (Diagnostics for a Simple Linear Model Using Test) 단순선형회귀식의 정의와 기본적인 가정에 따르면, 회귀 모형은 몇가지 조건을 만족해야 한다. 이번 단원에서는 통계적 검정을 이용한 단순선형회귀식을 진단에 대해 다룰 예정이다. 1. Brown-Forsythe 검정 Brown-Forsythe 검정은 오차항이 상수분산(등분산)을 갖는지 알아볼 수 있는 검정이다. X 값이 작은 그룹과 큰 그룹으로 나누어 둘의 분산을 구하고, 두 분산을 비교해 분산값이 크게 다르지 않은지 검정하는 과정을 거친다. 데이터를 이용해 직접 R에서 검정을 이용한 진단을 해보자. Toluca Company의 데이터에 대하여 Brown-Forsythe 검정을 사용해 오차분산이 X의 수준에 따라 달라지는지를 판단하고 싶을 때, 아래와 같은 코드를 사용할 수 있다. #데이터 불러오기 Toluca 2023. 2. 16. 3. 단순선형회귀식의 진단 - 그래프 (Diagnostics for a Simple Linear Model Using Graphs) 단순선형회귀식의 정의와 기본적인 가정에 따르면, 회귀 모형은 몇가지 조건을 만족해야 한다. 정규오차를 가정한 단순선형회귀모형으로부터의 이탈에 관한 7개의 중요한 유형들을 검토하기 위해 잔차들을 활용하는 것을 고려해야 한다. 1. 회귀함수가 선형이 아니다. 2. 오차항의 평균이 0이 아니다. 3. 오차항이 상수분산을 갖지 않는다. 4. 오차항이 독립이 아니다. 5. 오차항은 정규분포를 따르지 않는다. 6. 모형이 하나 혹은 몇몇의 특이 관측값에 대해서는 적합하지 않다. 이번 챕터에서는 그래프를 이용해 최소제곱법으로 구한 회귀 모형이 조건들을 만족하는지 알아보자. 1. 선형성 (Linearity) 변수들 간의 관계가 전반적으로 선형 형태를 띄어야 한다. 만약 선형적 관계를 가지지 않는다면, 곡률을 줄이기 위.. 2023. 2. 1. 2. 최소제곱법 (Least Square Method) 1단원에서는 회귀 분석의 정의와 회귀 식의 수학적 특징에 대해 알아보았다. 특히 다양한 회귀 모형 중 선형 단순 회귀 모형에 대해 자세히 알아보았었는데, 2단원에서는 자료를 잘 표현할 수 있는 선형 단순 회귀식을 세우는 방법에 대해 알아보도록 하자. 최소제곱법 (최소자승법)이란, 우리가 구하고자 하는 식 y=β0+β1x+ε 에서 회귀 계수인 β0 β1을 구하는 방법 중 하나이다. 모든 자료들을 좌표 위 점으로 생각하자. (산점도) 두 점을 이으면 직선이 되기 때문에, 랜덤하게 점 두 개를 선택한 후 두 점을 이어서 그릴 수 있는 직선의 개수는 매우 많을 것이다. 이 점들을 이은 직선 중 실제 값과 직선 위에서 예측한 값과의 오차가 가장 적은 직선을 찾는 방법이 최소제곱법이다. 실제로 최소제곱법을 이용해 .. 2022. 10. 4. 1. 선형 단순 회귀 모형 (Linear Simple Regression Model) 회귀 분석이란, 여러가지 변수 간의 관계성을 알아보는 통계학의 방법론이다. 즉, 변수 간 관계가 있는가? 음의 상관관계와 양의 상관관계 중 어떤 상관관계를 갖는가? 만을 분석할 수 있는 상관 분석 (Correlation analysis)과 달리 변수 간의 관계를 나타낼 수 있는 식을 세우고, 이를 바탕으로 값을 예측까지 할 수 있는 통계 분석, 추론 방법이다. 우리가 관심이 있는 변수를 Y로 두고, 변수 Y를 예측하는데 도움을 주는 변수를 x라 하자. Y를 반응 변수 (response variable) 혹은 종속 변수 (dependent variable)로 부르고, x를 예측 변수 (predictor variable), 혹은 독립 변수 (independent variable) 혹은 설명 변수 (expla.. 2022. 10. 2. 이전 1 다음 728x90