728x90 통계5 3. 단순선형회귀식의 진단 - 그래프 (Diagnostics for a Simple Linear Model Using Graphs) 단순선형회귀식의 정의와 기본적인 가정에 따르면, 회귀 모형은 몇가지 조건을 만족해야 한다. 정규오차를 가정한 단순선형회귀모형으로부터의 이탈에 관한 7개의 중요한 유형들을 검토하기 위해 잔차들을 활용하는 것을 고려해야 한다. 1. 회귀함수가 선형이 아니다. 2. 오차항의 평균이 0이 아니다. 3. 오차항이 상수분산을 갖지 않는다. 4. 오차항이 독립이 아니다. 5. 오차항은 정규분포를 따르지 않는다. 6. 모형이 하나 혹은 몇몇의 특이 관측값에 대해서는 적합하지 않다. 이번 챕터에서는 그래프를 이용해 최소제곱법으로 구한 회귀 모형이 조건들을 만족하는지 알아보자. 1. 선형성 (Linearity) 변수들 간의 관계가 전반적으로 선형 형태를 띄어야 한다. 만약 선형적 관계를 가지지 않는다면, 곡률을 줄이기 위.. 2023. 2. 1. 6. 여러가지 연속확률분포 (Families of Continuous Distribution) 지난 글에서는 연속확률변수의 정의와 성질에 대해 알아보았다. 이번에는 다양한 연속확률분포의 종류에 대해 알아보자. 1. 균일 분포 (Uniform Random Distribution) 이산확률분포에서도 균일분포가 등장했었지만, 둘은 변수의 형태가 다르기 때문에 확률함수, 평균, 분산이 조금씩 다르다. 균일 분포의 평균과 분산에 대한 증명은 다음과 같다. 2. 지수 분포 (Exponential Distribution) 지수 분포는 사건이 지속되는 시간(다음 사건이 일어날 때까지의 시간 간격)에 관한 분포이다. 모수는 단이 시간당 사건의 평균 발생 횟수이고, 확률함수를 쓸 때는 역수를 취해주면 된다. (문제 자체에 역수가 취해져서 나오는 경우도 있다.) 지수 분포의 평균과 분산에 대한 증명은 다음과 같다. .. 2022. 11. 27. 5. 연속확률변수 (Continuous Random Variables) 확률변수의 종류는 "확률변수값을 셀 수 있는가?"에 따라 이산확률변수, 연속확률변수 두 가지로 나뉜다. 이번 포스팅에서는 연속확률변수에 대해 설명할 예정이다. 연속확률변수에 대해서는 누적분포함수(CDF)를 먼저 배우는 것이 편하다. 왜냐하면 연속확률변수에서는 한 점에서의 확률 P(X=x)을 구할 수 없어 확률함수보다는 누적함수를 사용하는 것이 편리하기 때문이다. 즉, 이산확률변수에서는 확률질량함수(PMF) -> 누적분포함수(CDF) 순으로, 연속확률변수에서는 누적분포함수(CDF) 미분 -> 확률밀도함수(PMF) 순으로 구하는 것이 편하다. 전공책에도 위와 같은 문제들이 많다. 연속확률변수의 확률함수는 확률밀도함수(PDF)라고 부른다. cf.) 이산확률변수의 확률함수는 확률질량함수(PMF)라고 부른다. 주.. 2022. 11. 26. 4. 여러가지 이산확률분포 (Families of Discrete Random Distribution) 지난 글에서는 이산확률변수의 정의와 성질에 대해 알아보았다. 이번에는 다양한 이산확률분포의 종류에 대해 알아보자. 1. 베르누이 분포 (Bernoulli Random Distribution) 베르누이 분포의 평균과 분산에 대한 증명은 다음과 같다. 2. 이항분포 (Binomial Random Distribution) 이항분포의 평균과 분산에 대한 증명은 다음과 같다. 3. 기하분포 (Geometric Distribution) 기하분포의 평균과 분산에 대한 증명은 다음과 같다. 기하분포는 무기억 성질을 가지고 있는 이산확률변수이다. 무기억 성질에 대한 이야기는 사전에서 자세히 읽는 것을 추천한다. https://terms.naver.com/entry.naver?docId=4125283&cid=60207&c.. 2022. 11. 24. 3. 이산확률변수 (Discrete Random Variables) 확률 변수란 표본공간 S 위의 확률을 실수 위의 확률로 대응시켜주는 함수를 의미한다. 표본공간은 X의 가능한 모든 값들의 집합을 의미한다. 수학적 정의만 접했을 때는 이해가 잘 가지 않을 수 있으므로, 파란색 글씨로 쓴 예를 함께 보는 것이 좋다. 확률변수의 종류는 이산확률변수, 연속확률변수 두 가지로 나뉜다. 이산확률변수는 확률 변수가 가질 수 있는 값이 이산값인 확률변수를 의미한다. 주의!) 이산확률변수와 연속확률변수를 구분하는 방법은 "확률변수값이 유한한가?"를 따지는 것이 아니라 아니라 "확률변수값을 셀 수 있는가?"를 따지는 것이다. (유한성을 따지는 것이 아니라 가산 여부를 따지는 것) 이산확률변수의 예시로는 직원 100명 중 결근하는 직원의 수, 가정의 자녀 중 딸인 자녀의 수, 동전을 던질.. 2022. 11. 18. 이전 1 다음 728x90