카테고리 통계데이터

[회귀모형] 10강. 일반화선형모형(GLM) 해석과 진단법 쉽게 정리

로지스틱 회귀모형 복습 반응변수가 성공/실패(1/0) 이항형 자료일 때 사용하는 GLM의 대표적인 모형이 로지스틱 회귀입니다.   log⁡(π(x)1−π(x))=β0+β1x\log \left( \frac{\pi(x)}{1-\pi(x)} \right) = \beta_0 + \beta_1 x   여기서 π(x) : 성공확률 β1\beta_1 : X가 1 증가할 때 로그-승산의 변화량 eβ1e^{\beta_1} : 승산비(odds ratio) 로지스틱 함수와 해석 π(x)=eβ0+β1×1+eβ0+β1x\pi(x) = \frac{e^{\beta_0 + \beta_1 x}}{1+e^{\beta_0…

[회귀모형] 9강. 일반화선형모형(GLM) 쉽게 정리

일반화선형모형(GLM)란? 기존 선형회귀모형의 한계를 극복하기 위해,반응변수의 분포가 정규분포 외에도 이항분포, 포아송분포, 감마분포 등을 따르는 상황에서 쓸 수 있도록 확장한 회귀모형입니다. Nelder & Wedderburn (1972) 이론에 기반. GLM 구성요소 3가지 1️⃣ 반응변수의 분포 정규, 이항, 포아송, 감마 등 지수족 분포 2️⃣ 선형예측자 (η) 설명변수의 선형결합   η=β0+β1×1+⋯+βpxp\eta = \beta_0 + \beta_1…

[회귀모형] 8강. 오차의 등분산성, 선형성, 정규성, 변수변환

회귀모형 진단이란? 회귀분석을 하면 결과만 보는 게 아니라,모형이 제대로 설정되었는지, 가정이 충족됐는지 확인하는 과정이 필요합니다.이를 모형진단(Regression Diagnostics)이라고 합니다. 회귀모형의 기본 가정 1️⃣ 오차의 등분산성 : X 값과 관계없이 Y의 분산은 일정2️⃣ 선형성 : Y와 X 사이 선형 관계3️⃣ 오차의 정규성 : 오차항이 정규분포를 따른다 이 세 가지가 지켜지지 않으면, 분석…

[회귀분석] 7강. 회귀분석 진단법과 특이값, 영향관측값 완전 정리

회귀진단이란? 회귀분석에서는 모형과 가정이 잘 설정되었는지 확인하는 과정이 필요합니다.이걸 회귀진단(Regression Diagnostics)이라고 합니다. 모형진단 : 회귀모형이나 가정에 문제점이 있는지 확인 자료진단 : 개별 데이터가 회귀모형에 어떤 영향을 주는지 점검 총괄분석을 하고 끝내는 게 아니라, 반드시 회귀진단을 통해모형의 적합성을 검토해야 신뢰성 있는 결과를 얻을 수 있습니다. 구분 총괄분석 회귀진단 목적 회귀모형 전체…

[회귀모형] 6강. 다항회귀와 가변수 회귀모형 완전 정리

다항회귀모형(Polynomial Regression)이란? 일반적인 회귀분석은 독립변수와 종속변수 간 직선 관계를 가정하지만현실에서는 곡선 형태로 관계를 나타내는 경우도 많습니다. 이때 사용하는 것이 다항회귀모형입니다. 다항회귀 공식 설명변수가 1개인 2차 다항회귀식:   Y=β0+β1X+β2X2+ϵY = \beta_0 + \beta_1 X + \beta_2 X^2 + \epsilon   설명변수가 2개인 2차 다항회귀식:   Y=β0+β1X1+β2X2+β3X12+β4X22+β5X1X2+ϵY = \beta_0 + \beta_1 X_1…

[회귀모형] 5강. 회귀분석에서 변수선택과 다중공선성 쉽게 정리

왜 변수선택이 필요할까요? 회귀분석을 할 때 데이터에 변수가 10개, 20개, 심지어 100개 이상 있다면 어떻게 해야 할까요? 모든 변수를 다 넣어서 분석하면 될까요? 정답은 “아니오”입니다. 변수가 너무 많으면 모형이 복잡해져서 해석이 어려워지고, 쓸데없는 변수 때문에 분석 결과의 신뢰성과 안정성이 떨어질 수 있습니다. 마치 요리할 때 모든 재료를 다 넣는다고 맛있는…

[회귀분석] 4강. 표준화된 중회귀분석과 변수선택법 완전 정리

표준화된 중회귀분석이란? 일반 중회귀모형에서는 독립변수마다 단위가 다르기 때문에기울기(회귀계수)를 단순 비교하는 것이 어렵습니다. 이를 해결하기 위해 각 변수의 단위를 제거하고 표준화하는 방법이 표준화 회귀분석입니다. 표준화 회귀계수 표준화된 회귀계수는 독립변수의 영향력을 상대적으로 비교할 때 유용하게 활용됩니다.값이 클수록 반응변수에 미치는 영향이 크다는 뜻입니다. R 코드 예시 결과 :X1의 영향력이 X2보다 크다는 것을 확인할…

[회귀모형] 3강. 2개 이상의 변수를 사용하는 회귀분석

중회귀모형이란? 중회귀모형(Multiple Linear Regression Model)은반응변수(종속변수)의 변화를 설명하기 위해 **2개 이상의 설명변수(독립변수)**를 사용하는 선형회귀모형입니다. 예를 들어, 상점의 총 판매액을 예측하려 할 때 인테리어비 상점 크기 두 개의 독립변수를 함께 고려하여 매출을 예측하는 것이 중회귀모형입니다. 중회귀모형 수식 표현   Y=β0+β1X1+β2X2+ϵY = \beta_0 + \beta_1 X_1 + \beta_2 X_2 + \epsilon YY :…

[회귀모형] 2강. 추정, 검정, 가중회귀

단순회귀모형의 기본 가정 회귀분석을 제대로 하기 위해서는 몇 가지 기본적인 가정을 충족해야 합니다.이는 분석 결과의 신뢰성을 확보하기 위해 꼭 필요한 과정입니다. 선형성(Linearity) : 설명변수 X와 반응변수 Y는 선형 관계를 가져야 한다 등분산성(Equal Variance) : 오차의 분산이 일정해야 한다 독립성(Independence) : 오차끼리는 서로 독립이어야 한다 정규성(Normality) : 오차항은 정규분포를 따라야 한다…

[회귀모형] 1강. 초보자도 이해하는 단순회귀모형 기초 정리

회귀분석이란 무엇인가요? 우리 주변에서는 어떤 현상이 다른 현상에 영향을 주는 경우가 많습니다.예를 들어 국민소득이 증가하면 자동차 보유 대수도 증가하거나, 광고비를 많이 지출할수록 매출이 증가하는 현상처럼 말입니다. 이렇게 두 변수 간의 관계를 알아보고, 그 관계를 수학적인 식으로 표현하는 통계 분석 기법을 회귀분석(Regression Analysis)이라고 합니다.   용어 정리 설명변수 (X) : 다른…

[대학수학의이해] maxima는 또 뭐죠?

방송대 교양으로 대학수학의 이해를 신청했더니만 2강만에 프로그램을 배우게 되었다.   Maxima! 맥시마!   wxmaxima를 검색하면 무료로 다운로드 가능하다.   대학에서는 직접 계산 안하고 프로그램으로 돌린다고 하던데 그게 바로 이건가 보다.   설치하는 것까지는 어려움이 없었는데 죄다 영어다.   교수님도 사용법은 교안으로 제공 안해주시고 빠르게 실습하시고 넘어가 버리셨다.   유튜브 선생님…

[파이썬과 R] VS Code를 사용하려면 왜 이렇게 귀찮을까

 파이썬을 처음 접하고서 IDE에 대한 고민이 이만저만이 아니다. 파이참이 좋다고는 하는데! 나는 파이썬만 배울 것이 아니기 때문에 범용성 측면에서 VS Code를 놓을 수가 없다. 그리고 무엇보다도 테마가 이뻐… 그렇게 VS Code를 고집하다 발생한 문제점 numpy, pandas 오류뜸… <numpy나 pandas 등을 VS Code와 연동하는 법>   1. python312의 파일 위치를 찾는다.…