카테고리 통계데이터

[회귀모형] 10강. 일반화선형모형(GLM) 해석과 진단법 쉽게 정리

로지스틱 회귀모형 복습 반응변수가 성공/실패(1/0) 이항형 자료일 때 사용하는 GLM의 대표적인 모형이 로지스틱 회귀입니다.   log⁡(π(x)1−π(x))=β0+β1x\log \left( \frac{\pi(x)}{1-\pi(x)} \right) = \beta_0 + \beta_1 x   여기서 π(x) : 성공확률 β1\beta_1 : X가 1 증가할 때 로그-승산의 변화량 eβ1e^{\beta_1} : 승산비(odds ratio) 로지스틱 함수와 해석 π(x)=eβ0+β1×1+eβ0+β1x\pi(x) = \frac{e^{\beta_0 + \beta_1 x}}{1+e^{\beta_0…

[회귀모형] 9강. 일반화선형모형(GLM) 쉽게 정리

일반화선형모형(GLM)란? 기존 선형회귀모형의 한계를 극복하기 위해,반응변수의 분포가 정규분포 외에도 이항분포, 포아송분포, 감마분포 등을 따르는 상황에서 쓸 수 있도록 확장한 회귀모형입니다. Nelder & Wedderburn (1972) 이론에 기반. GLM 구성요소 3가지 1️⃣ 반응변수의 분포 정규, 이항, 포아송, 감마 등 지수족 분포 2️⃣ 선형예측자 (η) 설명변수의 선형결합   η=β0+β1×1+⋯+βpxp\eta = \beta_0 + \beta_1…

[회귀모형] 8강. 오차의 등분산성, 선형성, 정규성, 변수변환

회귀모형 진단이란? 회귀분석을 하면 결과만 보는 게 아니라,모형이 제대로 설정되었는지, 가정이 충족됐는지 확인하는 과정이 필요합니다.이를 모형진단(Regression Diagnostics)이라고 합니다. 회귀모형의 기본 가정 1️⃣ 오차의 등분산성 : X 값과 관계없이 Y의 분산은 일정2️⃣ 선형성 : Y와 X 사이 선형 관계3️⃣ 오차의 정규성 : 오차항이 정규분포를 따른다 이 세 가지가 지켜지지 않으면, 분석…

[회귀분석] 7강. 회귀분석 진단법과 특이값, 영향관측값 완전 정리

회귀진단이란? 회귀분석에서는 모형과 가정이 잘 설정되었는지 확인하는 과정이 필요합니다.이걸 회귀진단(Regression Diagnostics)이라고 합니다. 모형진단 : 회귀모형이나 가정에 문제점이 있는지 확인 자료진단 : 개별 데이터가 회귀모형에 어떤 영향을 주는지 점검 총괄분석을 하고 끝내는 게 아니라, 반드시 회귀진단을 통해모형의 적합성을 검토해야 신뢰성 있는 결과를 얻을 수 있습니다. 구분 총괄분석 회귀진단 목적 회귀모형 전체…

[회귀모형] 6강. 다항회귀와 가변수 회귀모형 완전 정리

다항회귀모형(Polynomial Regression)이란? 일반적인 회귀분석은 독립변수와 종속변수 간 직선 관계를 가정하지만현실에서는 곡선 형태로 관계를 나타내는 경우도 많습니다. 이때 사용하는 것이 다항회귀모형입니다. 다항회귀 공식 설명변수가 1개인 2차 다항회귀식:   Y=β0+β1X+β2X2+ϵY = \beta_0 + \beta_1 X + \beta_2 X^2 + \epsilon   설명변수가 2개인 2차 다항회귀식:   Y=β0+β1X1+β2X2+β3X12+β4X22+β5X1X2+ϵY = \beta_0 + \beta_1 X_1…

[회귀모형] 5강. 회귀분석에서 변수선택과 다중공선성 쉽게 정리

변수선택이란 무엇인가? 회귀분석에서는 여러 개의 설명변수 중 어떤 변수를 회귀모형에 포함시킬지 결정해야 합니다.이 과정을 변수선택(Variable Selection)이라고 부릅니다. 복잡한 모형보다는 간결한 모형이 해석이 쉬우며,쓸데없는 변수가 많으면 분석 결과의 신뢰성과 안정성이 떨어질 수 있습니다. 다중공선성(Multicollinearity) 문제 다중공선성이란 설명변수들 사이에 높은 상관관계가 있어회귀계수의 해석이 불안정해지는 현상입니다. 다중공선성 확인 방법 설명변수들 간 상관계수 확인…

[회귀분석] 4강. 표준화된 중회귀분석과 변수선택법 완전 정리

표준화된 중회귀분석이란? 일반 중회귀모형에서는 독립변수마다 단위가 다르기 때문에기울기(회귀계수)를 단순 비교하는 것이 어렵습니다. 이를 해결하기 위해 각 변수의 단위를 제거하고 표준화하는 방법이 표준화 회귀분석입니다. 표준화 회귀계수 표준화된 회귀계수는 독립변수의 영향력을 상대적으로 비교할 때 유용하게 활용됩니다.값이 클수록 반응변수에 미치는 영향이 크다는 뜻입니다. R 코드 예시 결과 :X1의 영향력이 X2보다 크다는 것을 확인할…

[회귀모형] 3강. 2개 이상의 변수를 사용하는 회귀분석

중회귀모형이란? 중회귀모형(Multiple Linear Regression Model)은반응변수(종속변수)의 변화를 설명하기 위해 **2개 이상의 설명변수(독립변수)**를 사용하는 선형회귀모형입니다. 예를 들어, 상점의 총 판매액을 예측하려 할 때 인테리어비 상점 크기 두 개의 독립변수를 함께 고려하여 매출을 예측하는 것이 중회귀모형입니다. 중회귀모형 수식 표현   Y=β0+β1X1+β2X2+ϵY = \beta_0 + \beta_1 X_1 + \beta_2 X_2 + \epsilon YY :…

[회귀모형] 2강. 추정, 검정, 가중회귀

단순회귀모형의 기본 가정 회귀분석을 제대로 하기 위해서는 몇 가지 기본적인 가정을 충족해야 합니다.이는 분석 결과의 신뢰성을 확보하기 위해 꼭 필요한 과정입니다. 선형성(Linearity) : 설명변수 X와 반응변수 Y는 선형 관계를 가져야 한다 등분산성(Equal Variance) : 오차의 분산이 일정해야 한다 독립성(Independence) : 오차끼리는 서로 독립이어야 한다 정규성(Normality) : 오차항은 정규분포를 따라야 한다…

[회귀모형] 1강. 초보자도 이해하는 단순회귀모형 기초 정리

회귀분석이란 무엇인가요? 우리 주변에서는 어떤 현상이 다른 현상에 영향을 주는 경우가 많습니다.예를 들어 국민소득이 증가하면 자동차 보유 대수도 증가하거나, 광고비를 많이 지출할수록 매출이 증가하는 현상처럼 말입니다. 이렇게 두 변수 간의 관계를 알아보고, 그 관계를 수학적인 식으로 표현하는 통계 분석 기법을 회귀분석(Regression Analysis)이라고 합니다.   용어 정리 설명변수 (X) : 다른…