본문 바로가기
728x90

기초통계학43

10. 다항시행과 다항분포(Multinomial Trials and Multinomial Distribution) 연속형 변수를 다룰 때는 주로 정규분포를 사용했지만 범주형 변수에서는 많은 경우에 (베르누이 시행이 독립적으로 반복될 때) 이항분포나 다항분포를 사용한다. 다항분포는 다항시행에서의 확률분포이다. 다항시행의 정의와 다항분포의 정의는 다음과 같다. 다항분포는 이항분포를 확장한 것이라고 생각하면 이해하기 쉽다. (수학적으로 정확한지는 모르겠지만..) 예를 들어서, 동전을 던지는 상황에서는 결과가 두 가지밖에 없기 때문에 확률을 구하고 싶을 때 이항분포를 사용하면 된다. 하지만 주사위를 던질 때는 결과가 여섯 가지이기 때문에 확률을 구하고 싶을 때 다항분포를 사용해야 한다. 이산확률분포와 이항분포에 관한 내용은 아래 글 참고! https://portrait-of-youngblood.tistory.com/41 4.. 2024. 4. 7.
12. 우도와 최대우도추정 (Likelihood and Maximum Likelihood Estimation) 오늘은 통계학에서 자주 등장하는 개념인 가능도(likelihood)에 대해 알아보자. 가능도는 우도라고 부르기도 하는데 개인적으로는 가능도라는 말이 더 와닿는 것 같다. 가능도의 정의는 책마다 다르고, 네이버 사전에서는 다음과 같이 정의한다. 우도는 나타난 결과에 따라 여러 가능한 가설들을 평가할 수 있는 측도이며, 각 가설을 지지하는 정도로 볼 수 있다. 우도의 개념은 확률(probability)과 구분할 필요가 있다. 확률은 관측값 또는 관측 구간이 주어진 확률분포 안에서 얼마만큼 나타날 수 있는가에 대한 값이다. 그런데 우도는 이와 달리 어떤 특정한 값을 관측할 때, 이 관측치가 어떠한 확률분포에서 나왔는가에 관한 값이다. 다시 말하면, 모수로부터 특정 현상이 관찰되는 것을 확률의 문제라고 한다면,.. 2023. 9. 26.
9. 확률생성함수(PGF, Probability Generating Functions) 적률생성함수 mgf에 이어 확률생성함수 pgf를 살펴보자. mgf는 e^tx의 평균값이라면, pgf는 t^x의 평균값이다. pgf를 이용해 X가 특정한 값을 가질 확률도 구할 수 있다. 주의할 점은, 확률생성함수는 확률변수 X가 이산확률변수일 때만 계산할 수 있다는 것이다. (적률생성함수는 이산, 연속확률변수일 때 모두 계산 가능하고, 각각 시그마와 인테그랄을 이용해 구하면 된다.) Q. 확률생성함수는 어떨 때 쓰일까? 확률 변수들의 합은 확률과정론 연구에서 특히 중요하다. 왜냐하면 gambler's problem처럼 많은 확률 과정들이 반복되는 단계들의 합으로 표현되기 때문이다. 또한, PGF는 분포의 모든 확률을 생성하는 데 사용될 수 있다. 일반적으로 효율적인 확률 계산 방법은 아니지만, 이것이 가.. 2023. 9. 25.
8. 적률생성함수 (MGF, Moment Generating Function) 적률생성함수(moment generating function, mgf)는 다음과 같이 정의한다. 적률생성함수는 "모멘트생성함수"라고 불리기도 하고, 적률생성함수를 이용해 n번째 모멘트(적률)를 구할 수 있다. (mgf를 n번 미분해 t=0을 대입하면 n번째 모멘트(적률)를 구할 수 있다.) 각 분포마다 고유한 적률생성함수를 가지고 있다. 대표적인 분포들의 적률생성함수는 다음과 같다. mgf를 이용해 모멘트(적률)를 구하는 두 예제를 풀어보자. 2023. 9. 11.
11. 단순선형회귀와 최소제곱법 (Simple Linear Regression and Least Square Method) https://portrait-of-youngblood.tistory.com/36 1. 선형 단순 회귀 모형 (Linear Simple Regression Model) 회귀 분석이란, 여러가지 변수 간의 관계성을 알아보는 통계학의 방법론이다. 즉, 변수 간 관계가 있는가? 음의 상관관계와 양의 상관관계 중 어떤 상관관계를 갖는가? 만을 분석할 수 있는 상관 portrait-of-youngblood.tistory.com https://portrait-of-youngblood.tistory.com/37 2. 최소제곱법 (Least Square Method) 1단원에서는 회귀 분석의 정의와 회귀 식의 수학적 특징에 대해 알아보았다. 특히 다양한 회귀 모형 중 선형 단순 회귀 모형에 대해 자세히 알아보았었는데,.. 2023. 6. 12.
6. 단순선형회귀에서의 추론 (Inference for Simple Linear Regression) 데이터를 이용한 예제를 통해 단순선형회귀에서의 추론을 진행해보자. 먼저 데이터를 불러오자. #데이터 불러오기 install.packages("Stat2Data") library(Stat2Data) data("Sparrows") Sparrows 참새에 관한 데이터인 "Sparrows"에는 범주형 변수 Treatment와 연속형 변수 Weight, Winglength가 있음을 알 수 있다. 참새의 몸무게인 Weight와 참새의 날개 길이인 Wing Length 사이에 존재하는 관계를 찾아내기 위해 회귀 모형을 만들자. model 2023. 4. 2.
5. 단순선형회귀의 변환 (Transformation of Simple Linear Regression) 3, 4단원에서는 직접 적합시킨 회귀모형이 자료를 설명하기에 적절한지 검토하는 방법에 대해 알아보았다. 이때 검토한 회귀모형이 적합하다면 그대로 사용하는 것이 좋지만, 적합시킨 단순선형회귀모형이 자료에 적합하지 않다면 두 가지의 접근 중 한 가지를 선택해야 한다. 1. 단순형회귀모형을 포기하고 더 적절한 모형을 만들어서 사용한다. 2. 회귀모형 자료에 몇 가지 변환을 사용한다. 두 접근법은 각각 장점과 단점이 있다. 첫 번째 접근법은 더 복잡한 모형을 사용해 직관적으로 이해가 잘 되는 모형을 사용하지만, 모수들을 추정하는 데 더 복잡한 과정을 거쳐야 한다. 반면에 두 번째 접근법은 상대적으로 단순한 추정 과정을 거치고, 복잡한 모형보다 모수의 개수도 적다. 하지만 경우에 따라 변수들 간의 핵심적인 연결 .. 2023. 2. 20.
4. 단순선형회귀식의 진단 - 검정 (Diagnostics for a Simple Linear Model Using Test) 단순선형회귀식의 정의와 기본적인 가정에 따르면, 회귀 모형은 몇가지 조건을 만족해야 한다. 이번 단원에서는 통계적 검정을 이용한 단순선형회귀식을 진단에 대해 다룰 예정이다. 1. Brown-Forsythe 검정 Brown-Forsythe 검정은 오차항이 상수분산(등분산)을 갖는지 알아볼 수 있는 검정이다. X 값이 작은 그룹과 큰 그룹으로 나누어 둘의 분산을 구하고, 두 분산을 비교해 분산값이 크게 다르지 않은지 검정하는 과정을 거친다. 데이터를 이용해 직접 R에서 검정을 이용한 진단을 해보자. Toluca Company의 데이터에 대하여 Brown-Forsythe 검정을 사용해 오차분산이 X의 수준에 따라 달라지는지를 판단하고 싶을 때, 아래와 같은 코드를 사용할 수 있다. #데이터 불러오기 Toluca 2023. 2. 16.
728x90