sott

sott

[예측방법론] 11강. 예측데이터의 시계열분해(1)

예측데이터의 시계열분해(1) — 기초부터 정리 1. 시계열분해란? 시계열분해(time series decomposition)란,시간에 따라 변하는 데이터를 여러 요인으로 나누어 분석하는 기법입니다. 데이터를 그냥 한 덩어리로 보는 게 아니라,시간의 흐름에 따라 나타나는 패턴을 ‘추세’, ‘계절성’, ‘불규칙성’으로 나누어 살펴보는 것이죠. 1-1. 시계열 데이터의 변동 요인 1️⃣ 추세(Trend) TtT_t : 장기적인 상승이나 하락 경향.→ 예: GDP의…

[예측방법론] 10강. 회귀모형 진단과 예측, 연립방정식모형

1. 회귀모형 진단 방법 회귀분석을 하고 나면, 그 결과가 믿을만한지 반드시 확인해야 합니다.이걸 모형 진단이라고 부릅니다. 1-1. 잔차란 무엇인가? 잔차(residual)란 실제 값과 예측 값의 차이를 의미합니다. rt=yt−y^tr_t = y_t – \hat{y}_t​ 여기서 yty_t : 실제 값 y^t\hat{y}_t : 회귀모형으로 계산한 예측 값 잔차가 랜덤하게 분포해야 좋은 모형이에요.특정한 패턴이 있으면 잘못된…

[예측방법론] 9강. 상관관계와 회귀분석 기본

1. 상관관계 분석 시계열 간 관계 시간 흐름에 따라 변하는 두 변수 간의 관계를 측정하는 방법→ 상관계수로 두 변수 간 선형적 강도를 측정 표본상관계수 두 변수 X, Y의 상관계수 계산 공식 r=∑(Xi−Xˉ)(Yi−Yˉ)∑(Xi−Xˉ)2∑(Yi−Yˉ)2r = \frac{\sum (X_i – \bar{X})(Y_i – \bar{Y})}{\sqrt{\sum (X_i – \bar{X})^2 \sum (Y_i – \bar{Y})^2}}​ 1에 가까울수록 강한 양의…

[예측방법론] 8강. ARIMA 추정, 진단, 예측, 변동성 모형

1. ARIMA 모형의 추정 추정 방법 최대우도법 (MLE: Maximum Likelihood Estimation) 개념 : 주어진 데이터가 관측될 확률(우도, likelihood)을 가장 크게 만드는 파라미터 값을 찾는 방법. 주로 확률모형에 사용 (ex. 정규분포 평균, 분산 추정) 우도의 로그값(log-likelihood) 을 최대화해서 계산하는 게 일반적. “이 데이터가 이렇게 나올 확률을 가장 높게 만드는 파라미터가 뭐냐?”…

[예측방법론] 7강. 시계열 모형 검정과 ARIMA 식별 완전 정리

1. 시계열 모형 관련 검정 단위근 검정 (Unit Root Test) 시계열 데이터가 불안정한지 확인하는 검정으로, 가장 많이 쓰이는 방법이 ADF(Augmented Dickey-Fuller) 검정입니다. 단위근 (Unit Root) 이란? 시계열 데이터에서 자기상관 계수 ϕ=1\phi = 1인 경우를 단위근이 있다고 합니다. 단위근이 있는 시계열은 비정상 시계열이라서 평균이 시간에 따라 변하고 분산도 무한대로 커지고 충격이…

[예측방법론] 6강. 불안정, 비선형 시계열모형 완전정리

1. 불안정 시계열 모형 확률보행 모형 (Random Walk) 확률보행 모형은 가장 기본적인 불안정 시계열 모형으로, 현재 값이 이전 값에 오차항이 더해진 형태입니다. Yt=Yt−1+ϵtY_t = Y_{t-1} + \epsilon_t​ 여기서 ϵt\epsilon_t 는 평균 0, 분산 σ2\sigma^2 인 백색잡음. 특징 : 평균이 일정하지 않고, 시간이 지날수록 분산이 커짐 안정성 없음 차분 (Differencing) 불안정…

[예측방법론] 5강. 시계열 모형 AR, MA, ARMA

1. 시계열 모형 개요 시계열 모형(time series model)이란, 과거 데이터의 시간적 구조와 규칙을 이용해 미래를 예측하는 모델입니다.시계열 모형은 크게 선형 모형과 비선형 모형으로 나뉩니다. 선형 시계열 모형 과거 값과 오차항의 선형 결합으로 현재 값을 설명 대표적으로 AR, MA, ARMA, ARIMA 비선형 시계열 모형 비선형 함수로 구성 대표적으로 TAR, Bilinear, GARCH…

[예측방법론] 4강. 시계열 분석 자기상관 완전 정리

1. 자기상관의 개념 자기상관(autocorrelation)이란, 동일한 시계열 데이터 내에서 시간 차이를 두고 관측한 값들 간의 상관관계를 의미합니다. 쉽게 말해, 오늘의 값과 내일의 값, 또는 이번 달의 값과 다음 달의 값이 얼마나 비슷하게 움직이는지를 나타내는 지표입니다. 양의 자기상관 : 이전 값이 크면 이후 값도 클 가능성이 높음 음의 자기상관 : 이전 값이…

[예측방법론] 3강. 시계열의 주파수 분석과 확률과정

1. 시계열의 주파수 분석 시계열 데이터는 시간에 따라 변화하는 자료를 의미합니다. 예를 들어, 월별 온도 변화, 연도별 GDP, 분기별 매출액 등이 시계열 데이터에 해당합니다. 이 시계열 데이터를 분석하는 방법 중 하나가 주파수 분석입니다. 주파수 분석은 자료에 내재된 주기성(반복되는 패턴)을 찾아내는 방법으로, 데이터가 특정 주기(월, 분기, 연도 등)를 기준으로 어떻게 변동하는지…

[예측방법론] 2강. 시계열 데이터 분석 기초 정리

예측방법론 2강 — 시계열 데이터 분석 기초 정리 안녕하세요! 이번 포스팅에서는 시계열 데이터의 개념과 처리 방법을 초보자분들도 이해하기 쉽게 정리해보겠습니다.특히 시간에 따라 변화하는 데이터를 분석하고 예측하는 데 필수적인 개념과 기법들을 정리했으니, 데이터마이닝, 통계분석, 경제예측을 공부하시는 분들께 추천드립니다. 1. 시계열 데이터란? 시간의 흐름에 따라 수집된 연속적인 데이터를 의미합니다. 예 국내총생산(GDP), 주가,…

[예측방법론] 1강. 예측의 개념과 방법 쉽게 정리

예측방법론 1강 — 예측의 개념과 방법 쉽게 정리 안녕하세요! 이번 포스팅에서는 예측방법론 1강 강의 내용을 초보자분들도 쉽게 이해할 수 있도록 정리해보겠습니다.미래를 어떻게 예측하고, 어떤 방법으로 분석하는지 데이터마이닝, 경영전략, 경제전망에서 아주 중요한 기본 개념을 이번 글에서 깔끔하게 정리해볼게요. 1. 예측의 개념과 필요성 예측이란? 미래에 발생할 사건이나 현상을 추정하는 것입니다.불확실성을 줄이고, 합리적인…

[데이터마이닝] 15강. 연관성 분석 R 코드 정리

데이터마이닝 15강 — 연관성 분석 R 코드 정리 안녕하세요! 이번 포스팅에서는 연관성 분석 R 함수와 시각화 함수를 정리해보겠습니다.데이터마이닝에서 장바구니 분석(Market Basket Analysis)을 수행할 때 많이 사용하는 R 함수들과 그 활용법, 예제를 쉽게 정리해드릴게요. 1. 연관성 분석 관련 R 함수 str() 함수 R 객체의 내부 구조를 출력 1 str(x) cs x…

[데이터마이닝] 14강. 연관성 분석 쉽게 정리

데이터마이닝 14강 — 연관성 분석 쉽게 정리 안녕하세요! 이번 포스팅에서는 연관성 분석(Association Analysis) 내용을 초보자분도 이해할 수 있도록 풀어 정리해보겠습니다.특히 장바구니 분석(Market Basket Analysis)에서 많이 활용되는 분석기법으로, 품목 간의 구매 패턴을 찾고 마케팅 전략을 세울 때 아주 유용합니다. 1. 연관성 분석이란? 연관성 분석이란 하나의 사건 또는 품목이 발생했을 때, 다른…

[데이터마이닝] 13강. 군집분석 R 함수 총정리

데이터마이닝 13강 — 군집분석 R 함수 총정리 안녕하세요! 이번 포스팅에서는 데이터마이닝 13강: 군집분석 R 함수와 사용 예제를 초보자분들도 쉽게 이해할 수 있도록 정리해보겠습니다.군집분석을 R로 수행할 때 꼭 알아야 하는 함수들과 그 사용법을 자세히 설명드릴게요. 1. 군집분석 관련 R 함수 dist() 함수 행 사이의 거리(비유사성)를 계산하는 함수입니다. 함수 구조 1 dist(x, method = “euclidean”)…

[데이터마이닝] 12강. 군집분석 기초부터 완벽 정리

데이터마이닝 12강 — 군집분석 기초부터 완벽 정리 안녕하세요! 오늘은 데이터마이닝 12강: 군집분석 내용을 초보자분들도 쉽게 이해할 수 있도록 정리해보겠습니다. 군집분석(Cluster Analysis)은 데이터마이닝의 대표적인 비지도학습(Unsupervised Learning) 기법입니다. 사전 정보 없이 관측값이나 데이터를 서로 비슷한 성격끼리 묶는 기법으로, 타겟 마케팅이나 고객 세분화 등에 많이 활용됩니다. 1. 군집분석이란? 군집분석은 데이터 간의 유사성을 기준으로…

[데이터마이닝] 11강. R로 모형 성능 평가하는 법 쉽게 정리

데이터마이닝 11강 — R로 모형 성능 평가하는 법 쉽게 정리 안녕하세요! 오늘은 데이터마이닝 모형 비교 평가 내용을 정리해보겠습니다. 데이터 분석과 머신러닝을 할 때 모형의 예측 성능을 정확하게 평가하는 방법을 배우는 건 아주 중요합니다. 이번 강의에서는 R에서 사용하는 주요 함수와 실제 예제를 통해 데이터 분할과 예측력 측정 방법을 다룹니다. 초보자분들도 걱정 마세요!…

[데이터마이닝] 10강. 데이터마이닝 모형 비교 평가

데이터마이닝 모형 비교 평가 — 기초부터 쉽게 정리하기 안녕하세요. 오늘은 모형 비교 평가 내용을 기초부터 꼼꼼하게 정리해보겠습니다. 데이터 분석이나 인공지능을 공부하신다면, 모델의 성능을 객관적으로 평가하는 방법을 아는 것이 무척 중요합니다. 이 글에서는 초보자분들도 이해할 수 있도록 모형 평가의 개념, 지표, 데이터 분할 방법까지 자세히 설명해드릴게요. 1. 평가 모형이란? 데이터마이닝에서는 다양한…

[데이터마이닝] 9강. 신경망모형 R 함수 정리 및 사용법

데이터마이닝 09강 | 신경망모형 R 함수 정리 및 사용법 이번 강의에서는 신경망모형을 R로 분석할 때 사용하는 주요 함수를 정리합니다.특히 neuralnet 패키지를 활용하여 신경망모형을 작성하고, 결과 확인 및 예측하는 방법을 설명합니다. neuralnet 함수 구조 신경망모형을 작성할 때 사용하는 함수입니다. 1 2 3 neuralnet(formula, data, hidden=c(a,b), threshold=0.01, stepmax=1e+05, rep=1, startweights=NULL, act.fct=”logistic”, linear.output=TRUE, constant.weights=NULL) cs formula : 목표변수와 입력변수 관계예)…

[데이터마이닝] 8강. 신경망모형 개념, 원리, 딥러닝까지 총정리

데이터마이닝 08강 | 신경망모형 개념, 원리, 학습방법, 딥러닝까지 총정리 이번 강의에서는 데이터마이닝의 주요 기법 중 하나인 신경망모형(Neural Network Model)에 대해 정리합니다.특히 신경망의 등장배경, 구조, 학습법, 장단점, 딥러닝 개념까지 자세히 알아보겠습니다. 신경망모형이란? 인간의 뇌에서 뉴런이 연결되어 정보를 처리하는 구조를 수학적으로 모형화 각 뉴런(노드)이 서로 연결돼 병렬적, 분산형 정보처리 일부 오류에도 견디는…

[데이터마이닝] 7강. 배깅, 부스팅, 랜덤포레스트 R 함수 총정리

데이터마이닝 07강 | 배깅, 부스팅, 랜덤포레스트 R 함수 총정리 이번 강의에서는 앙상블 모형 분석을 위한 R 함수 사용법을 정리합니다.특히 배깅, 부스팅, 랜덤포레스트 각각의 R 함수와 옵션을 상세하게 설명합니다. 배깅과 부스팅 R 함수 bagging() 함수 배깅 앙상블을 생성하는 함수 1 bagging(formula, data, mfinal=100, control) cs formula : 분석공식 data : 훈련 데이터 mfinal :…

[데이터마이닝] 6강. 배깅, 부스팅, 랜덤포레스트 개념 완전 정리

데이터마이닝 06강 | 앙상블 모형 (배깅, 부스팅, 랜덤포레스트) 개념 완전 정리 이번 시간에는 머신러닝 모델의 예측력을 높이는 방법으로 많이 활용되는 앙상블(Ensemble) 모형을 정리해보겠습니다.앙상블 기법은 여러 개의 모형을 결합하여 하나의 최종 예측값을 도출하는 방법으로, 데이터 분석 실무에서 가장 많이 쓰입니다. 앙상블 모형이란? 앙상블 모형은 여러 개의 서로 다른 분류기나 예측모형을 생성해그…

[데이터마이닝] 5강. R로 의사결정나무 분석하는 법

데이터마이닝 05강 | R로 의사결정나무 분석하는 법 (rpart, plot, prune, predict 함수 정리) 이번 시간에는 R을 활용해 의사결정나무를 분석하는 함수와 그 사용법을 정리해보겠습니다.특히 rpart 패키지로 나무모형을 생성하고, 예측하고, 시각화하는 법까지 자세히 알아보겠습니다. R의사결정나무 주요 함수 정리 rpart() 함수 — 나무모형 생성 1 rpart(formula, data, method, control, …) cs formula : Y ~ X1 +…

[데이터마이닝] 4강. 의사결정나무 개념부터 분할방법까지 완전정리

데이터마이닝 04강 | 의사결정나무 개념부터 분할방법까지 완전정리 이번 시간에는 데이터마이닝의 대표적인 분석기법인 의사결정나무(Decision Tree)에 대해 정리합니다.이 기법은 복잡한 데이터 속에서 간결한 의사결정 규칙을 도출해 분류 또는 예측 문제를 해결하는 방법입니다. 의사결정나무란? 데이터를 나무(tree) 형태로 분할해가며 분석하는 기법으로, 결과변수가 범주형 → 분류나무(Classification Tree) 결과변수가 수치형 → 회귀나무(Regression Tree) 로 나눌 수…

[데이터마이닝] 3강. R에서 회귀모형 함수 정리

데이터마이닝 03강 | 회귀모형 R 함수와 실습 완전 정리 이번 시간에는 데이터마이닝 분석을 R로 수행할 때 꼭 알아야 할 주요 함수를 정리합니다.선형회귀, 로지스틱회귀, 모형 선택, 예측까지 실전에서 바로 활용 가능한 R 함수 문법과 옵션을 자세히 알려드리겠습니다. R에서 회귀모형 함수 정리 선형회귀모형 함수 lm() 데이터에서 선형회귀모형을 적합할 때 사용하는 함수입니다. 1…

[데이터마이닝] 2강. 선형회귀, 로지스틱회귀

데이터마이닝 회귀모형 기초와 실습 — 선형회귀, 로지스틱회귀 회귀모형이란? 회귀모형은 입력변수(X)와 결과값(Y) 사이의 관계를 수학적으로 표현해주는 모형입니다.데이터 분석에서 결과를 예측하거나 변수 간 관계를 설명할 때 활용됩니다. 선형회귀모형 (Linear Regression) 공식과 개념   Yi=β0+β1Xi1+β2Xi2+⋯+βpXip+ϵiY_i = \beta_0 + \beta_1 X_{i1} + \beta_2 X_{i2} + \cdots + \beta_p X_{ip} + \epsilon_i ​ β0\beta_0 :…

[데이터마이닝] 1강. 데이터마이닝 기초 개념

데이터마이닝이란? 데이터마이닝이란 무엇인가요? 데이터마이닝(data mining)은 대량의 데이터 속에서 의미 있는 패턴이나 규칙을 찾아내어 유용한 지식을 얻는 과정을 말합니다.최근 데이터가 급격히 많아지면서, 단순히 데이터를 저장하는 것에 그치지 않고, 데이터를 분석하여 가치를 창출하는 일이 매우 중요해졌습니다. 예를 들어, 수천 명 고객의 구매 기록 속에서 ‘이 고객은 신제품을 좋아하는구나’라는 사실을 찾아내는 것도 데이터마이닝입니다.…

[데이터처리와활용] 12강. 엑셀 VBA 활용 총정리

엑셀 VBA 활용 총정리 — 매크로, 제어문, 배열, 함수, 통계분석까지 완벽정리 안녕하세요! 이번 글에서는 엑셀 VBA 강의의 마지막 강의인 엑셀 VBA 활용 총정리 내용을 기초부터 꼼꼼하게 정리해보겠습니다.매크로 작성법, 제어문, 배열, 프로시저, 함수 작성법, 그리고 통계분석 프로그램 제작까지 한 번에 정리하는 시간이니 꼭 끝까지 따라와 주세요! 1. 매크로(Macro)란? 매크로는 여러 명령을…

[데이터처리와활용] 11강. 엑셀 사용자 정의 폼으로 데이터 자동화

엑셀 사용자 정의 폼으로 데이터 자동화 — 폼 제작과 목록 검색 VBA 실습 안녕하세요! 이번 글에서는 엑셀 사용자 정의 폼(UserForm)을 활용해 사용자가 쉽게 데이터를 입력하고 검색할 수 있도록 만드는 방법을 기초부터 정리하겠습니다.폼을 이용하면 복잡한 작업도 직관적인 창으로 처리 가능하며, VBA 코드와 이벤트 프로시저로 데이터 제어가 가능합니다. 1. 사용자 정의 폼이란?…

[데이터처리와활용] 10강. 엑셀 VBA 반복문, 배열, 함수 완전 정복

엑셀 VBA 반복문, 배열, 함수 완전 정복 — 프로그래밍 자동화 기초편 안녕하세요! 이번 포스팅에서는 엑셀 VBA 언어구조 II 강의 내용을 기초부터 차근차근 정리해보겠습니다.엑셀 자동화를 위해 꼭 알아야 할 반복문, 배열, 대화형 상자, 프로시저/함수 작성법을 실습 예제와 함께 쉽고 친절하게 설명드릴 테니 끝까지 읽어보세요! 1. 반복문(Loop) 반복문은 특정 조건에서 명령을 반복…

[데이터처리와활용] 9강. 엑셀 자동화를 위한 VBA 문법 완전 정복

[VBA 강의 기초편] 엑셀 자동화를 위한 VBA 문법 완전 정복 – 변수, 연산자, 조건문 안녕하세요! 이번 포스팅에서는 VBA 언어구조의 기초 개념을 정리합니다.엑셀에서 반복 작업을 자동화하고 싶다면 VBA는 꼭 알아야 할 필수 스킬입니다. 1. VBA 모듈과 프로시저란? 모듈과 프로시저 개념 모듈: 여러 프로시저로 구성된 코드 단위 프로시저(Procedure): 실행할 작업(명령어 집합) 1…

[데이터처리와활용] 8강. 엑셀 고급필터 & 콤보박스 활용법

엑셀 고급필터 & 콤보박스 활용법 — 조건 검색 매크로 만들기 안녕하세요! 오늘은 엑셀에서 고급 필터 기능과 콤보박스, 매크로를 활용하여 원하는 조건으로 데이터를 검색하는 방법을 기초부터 정리해보겠습니다.처음 배우는 분도 따라 하기 쉽게 설명하고, 실제 VBA 매크로 코드도 제공해드릴 테니 차근차근 따라오세요! 콤보박스 만들기 콤보박스란? 여러 값 중 하나를 선택할 수 있는…

[데이터처리와활용] 7강. 엑셀 매크로 완전 정복

엑셀 매크로 완전 정복 — 절대참조, 상대참조, 정렬/부분합, 조건검색 매크로 쉽게 배우기 안녕하세요! 이번 글에서는 엑셀 매크로의 개념부터 VBA 코드 실습까지 기초부터 하나씩 쉽게 정리해보겠습니다.처음 엑셀 매크로를 접하는 분도 따라 하기만 하면 바로 적용할 수 있도록 설명드리겠습니다. 매크로(Macro)란 무엇인가? 매크로(Macro)란 여러 명령을 묶어서 한번에 실행할 수 있도록 만든 명령 집합입니다.…

[데이터처리와활용] 6강. 관계형 데이터베이스 기초와 SQL

관계형 데이터베이스 기초와 SQL — 쉽게 배우는 DB 설계부터 쿼리까지 안녕하세요! 오늘은 데이터베이스(Database)를 처음 배우는 분들도 쉽게 이해할 수 있도록, 기초 개념부터 SQL 예제 코드까지 정리해드리겠습니다.이번 글에서는 관계형 데이터 모델, E-R 모델, 데이터 정규화, 그리고 SQL 문법까지 차근차근 설명해보겠습니다. 1장. 관계형 데이터 모델이란? 데이터베이스 시스템의 가장 큰 목적은 데이터를 효율적으로…

[데이터처리와활용] 5강. 조인과 고급 검색, inline view, NVL 함수 정리

SQL 실습 — 조인과 고급 검색, inline view, NVL 함수 정리 이번 글에서는 SQL 실습을 통해조인(JOIN), 별칭(alias), 집계 정렬, 결과 개수 제한, inline view, NVL 함수 사용법을 익혀보겠습니다.데이터베이스 초보자분도 쉽게 이해할 수 있도록 개념부터 예제까지 차근차근 설명합니다. 테이블 별칭과 테이블 정식 이름 사용 SQL에서 테이블을 긴 이름 대신 짧게 별칭(alias)으로…

[데이터처리와활용] 4강. 관계형 데이터베이스 SQL 완전 기초 정복

SQL이란? SQL(Structured Query Language)관계형 데이터베이스에서 데이터를 조회하고 조작하고 정의할 때 사용하는 표준 질의어입니다.ANSI/ISO 국제 표준으로, 대부분의 데이터베이스에서 이 문법을 사용합니다. SQL 문장 종류 종류 설명 예 DDL 데이터 정의 테이블 생성, 삭제, 뷰, 트리거 DML 데이터 조작 데이터 조회, 삽입, 수정, 삭제 DDL (Data Definition Language) 데이터베이스의 테이블 구조를 정의하는…

[데이터처리와활용] 3강. 데이터베이스 정규화 완전정복

정규화(Normalization)란? 데이터베이스를 설계할 때 데이터 중복과 이상현상(삭제, 삽입, 갱신 문제)을 방지하기 위해 테이블을 체계적으로 분해하는 과정입니다.정규화를 통해 데이터의 일관성과 무결성을 유지할 수 있죠. 정규화가 필요한 이유 1️⃣ 삭제 이상(Deletion Anomaly) 데이터 삭제 시, 의도치 않게 다른 정보도 함께 삭제되는 문제예) 학생의 수강 정보를 삭제했더니 학생 이름까지 함께 사라짐 2️⃣ 삽입…

[데이터처리와활용] 2강. RDB 설계 기초 정규화 개념 총정리

데이터베이스 설계 기초 — E-R 모델과 정규화 개념 총정리 데이터베이스 설계란? 데이터베이스를 처음 만들 때 가장 중요한 건 어떻게 데이터를 체계적으로 정리할 것인가입니다.잘못 설계하면 데이터 중복, 오류, 관리 어려움이 생깁니다.그래서 설계단계에서 현실세계를 데이터로 바꾸는 과정을 꼼꼼하게 하는 게 핵심입니다. 이번 글에서는 E-R 모델 개념부터 정규화 과정까지 한 번에 정리해볼게요! E-R…

[데이터처리와활용] 1강. 관계형 데이터베이스 기초

관계형 데이터베이스 기초 — 완전 쉬운 데이터베이스 입문 데이터베이스란 무엇인가? 우리 주변에는 수많은 정보가 있습니다. 쇼핑몰에선 상품정보, 학교에선 학생정보, 은행에선 계좌정보가 있죠.이처럼 서로 연관된 대량의 데이터를 체계적으로 모아두고, 필요할 때 쉽게 꺼내 쓸 수 있게 정리해둔 저장소를 바로 데이터베이스(Database)라고 부릅니다. 데이터베이스 관리 시스템(DBMS) 단순히 정보를 모아두는 것만으론 부족합니다. 빠르게 찾고,…

[회귀모형] 12강. 로그선형모형과 과대산포, 준가능도 쉽게 정리

로그선형모형(Log-linear Model)이란? 반응변수가 개수(count) 자료일 때 주로 사용하는 일반화선형모형(GLM)의 일종입니다. 포아송 분포를 가정하고, 로그연결함수(log link function)를 사용하여 모형을 구성합니다. GLM 구성요소 반응변수 : Y∼Poisson(μ)Y \sim \text{Poisson}(\mu) 선형예측자 : η=β0+β1×1+⋯+βpxp 연결함수 : η=log⁡μ \eta = \log \mu 로그선형모형의 해석 승법모형 (Multiplicative Model) μ=exp⁡(β0+β1×1+⋯ )\mu = \exp(\beta_0 + \beta_1 x_1 + \cdots) eβie^{\beta_i}…

[회귀모형] 11강. 승산비, 상대위험도, 다항로짓모형 쉽게 정리

승산(Odds)과 승산비(Odds Ratio)란? 2×2 분할표의 확률 구조 질병 발생 질병 미발생 위험인자 노출 π1 1−π1 비노출 π0 1−π0 승산(Odds)   Oddsi=πi1−πi\text{Odds}_i = \frac{\pi_i}{1 – \pi_i} ​​ 승산비(Odds Ratio)   OR=Odds1Odds0=π1(1−π0)π0(1−π1)OR = \frac{\text{Odds}_1}{\text{Odds}_0} = \frac{\pi_1(1-\pi_0)}{\pi_0(1-\pi_1)} ​ 해석 OR = 2 → 노출군의 질병발생 승산이 비노출군의 2배   상대위험도(Relative Risk)   RR=π1π0RR…

[회귀모형] 10강. 일반화선형모형(GLM) 해석과 진단법 쉽게 정리

로지스틱 회귀모형 복습 반응변수가 성공/실패(1/0) 이항형 자료일 때 사용하는 GLM의 대표적인 모형이 로지스틱 회귀입니다.   log⁡(π(x)1−π(x))=β0+β1x\log \left( \frac{\pi(x)}{1-\pi(x)} \right) = \beta_0 + \beta_1 x   여기서 π(x) : 성공확률 β1\beta_1 : X가 1 증가할 때 로그-승산의 변화량 eβ1e^{\beta_1} : 승산비(odds ratio) 로지스틱 함수와 해석 π(x)=eβ0+β1×1+eβ0+β1x\pi(x) = \frac{e^{\beta_0 + \beta_1 x}}{1+e^{\beta_0…

[회귀모형] 9강. 일반화선형모형(GLM) 쉽게 정리

일반화선형모형(GLM)란? 기존 선형회귀모형의 한계를 극복하기 위해,반응변수의 분포가 정규분포 외에도 이항분포, 포아송분포, 감마분포 등을 따르는 상황에서 쓸 수 있도록 확장한 회귀모형입니다. Nelder & Wedderburn (1972) 이론에 기반. GLM 구성요소 3가지 1️⃣ 반응변수의 분포 정규, 이항, 포아송, 감마 등 지수족 분포 2️⃣ 선형예측자 (η) 설명변수의 선형결합   η=β0+β1×1+⋯+βpxp\eta = \beta_0 + \beta_1…

[회귀모형] 8강. 오차의 등분산성, 선형성, 정규성, 변수변환

회귀모형 진단이란? 회귀분석을 하면 결과만 보는 게 아니라,모형이 제대로 설정되었는지, 가정이 충족됐는지 확인하는 과정이 필요합니다.이를 모형진단(Regression Diagnostics)이라고 합니다. 회귀모형의 기본 가정 1️⃣ 오차의 등분산성 : X 값과 관계없이 Y의 분산은 일정2️⃣ 선형성 : Y와 X 사이 선형 관계3️⃣ 오차의 정규성 : 오차항이 정규분포를 따른다 이 세 가지가 지켜지지 않으면, 분석…

[회귀분석] 7강. 회귀분석 진단법과 특이값, 영향관측값 완전 정리

회귀진단이란? 회귀분석에서는 모형과 가정이 잘 설정되었는지 확인하는 과정이 필요합니다.이걸 회귀진단(Regression Diagnostics)이라고 합니다. 모형진단 : 회귀모형이나 가정에 문제점이 있는지 확인 자료진단 : 개별 데이터가 회귀모형에 어떤 영향을 주는지 점검 총괄분석을 하고 끝내는 게 아니라, 반드시 회귀진단을 통해모형의 적합성을 검토해야 신뢰성 있는 결과를 얻을 수 있습니다. 구분 총괄분석 회귀진단 목적 회귀모형 전체…

[회귀모형] 6강. 다항회귀와 가변수 회귀모형 완전 정리

다항회귀모형(Polynomial Regression)이란? 일반적인 회귀분석은 독립변수와 종속변수 간 직선 관계를 가정하지만현실에서는 곡선 형태로 관계를 나타내는 경우도 많습니다. 이때 사용하는 것이 다항회귀모형입니다. 다항회귀 공식 설명변수가 1개인 2차 다항회귀식:   Y=β0+β1X+β2X2+ϵY = \beta_0 + \beta_1 X + \beta_2 X^2 + \epsilon   설명변수가 2개인 2차 다항회귀식:   Y=β0+β1X1+β2X2+β3X12+β4X22+β5X1X2+ϵY = \beta_0 + \beta_1 X_1…

[회귀모형] 5강. 회귀분석에서 변수선택과 다중공선성 쉽게 정리

왜 변수선택이 필요할까요? 회귀분석을 할 때 데이터에 변수가 10개, 20개, 심지어 100개 이상 있다면 어떻게 해야 할까요? 모든 변수를 다 넣어서 분석하면 될까요? 정답은 “아니오”입니다. 변수가 너무 많으면 모형이 복잡해져서 해석이 어려워지고, 쓸데없는 변수 때문에 분석 결과의 신뢰성과 안정성이 떨어질 수 있습니다. 마치 요리할 때 모든 재료를 다 넣는다고 맛있는…

[회귀분석] 4강. 표준화된 중회귀분석과 변수선택법 완전 정리

표준화된 중회귀분석이란? 일반 중회귀모형에서는 독립변수마다 단위가 다르기 때문에기울기(회귀계수)를 단순 비교하는 것이 어렵습니다. 이를 해결하기 위해 각 변수의 단위를 제거하고 표준화하는 방법이 표준화 회귀분석입니다. 표준화 회귀계수 표준화된 회귀계수는 독립변수의 영향력을 상대적으로 비교할 때 유용하게 활용됩니다.값이 클수록 반응변수에 미치는 영향이 크다는 뜻입니다. R 코드 예시 결과 :X1의 영향력이 X2보다 크다는 것을 확인할…

[회귀모형] 3강. 2개 이상의 변수를 사용하는 회귀분석

중회귀모형이란? 중회귀모형(Multiple Linear Regression Model)은반응변수(종속변수)의 변화를 설명하기 위해 **2개 이상의 설명변수(독립변수)**를 사용하는 선형회귀모형입니다. 예를 들어, 상점의 총 판매액을 예측하려 할 때 인테리어비 상점 크기 두 개의 독립변수를 함께 고려하여 매출을 예측하는 것이 중회귀모형입니다. 중회귀모형 수식 표현   Y=β0+β1X1+β2X2+ϵY = \beta_0 + \beta_1 X_1 + \beta_2 X_2 + \epsilon YY :…

[회귀모형] 2강. 추정, 검정, 가중회귀

단순회귀모형의 기본 가정 회귀분석을 제대로 하기 위해서는 몇 가지 기본적인 가정을 충족해야 합니다.이는 분석 결과의 신뢰성을 확보하기 위해 꼭 필요한 과정입니다. 선형성(Linearity) : 설명변수 X와 반응변수 Y는 선형 관계를 가져야 한다 등분산성(Equal Variance) : 오차의 분산이 일정해야 한다 독립성(Independence) : 오차끼리는 서로 독립이어야 한다 정규성(Normality) : 오차항은 정규분포를 따라야 한다…

[회귀모형] 1강. 초보자도 이해하는 단순회귀모형 기초 정리

회귀분석이란 무엇인가요? 우리 주변에서는 어떤 현상이 다른 현상에 영향을 주는 경우가 많습니다.예를 들어 국민소득이 증가하면 자동차 보유 대수도 증가하거나, 광고비를 많이 지출할수록 매출이 증가하는 현상처럼 말입니다. 이렇게 두 변수 간의 관계를 알아보고, 그 관계를 수학적인 식으로 표현하는 통계 분석 기법을 회귀분석(Regression Analysis)이라고 합니다.   용어 정리 설명변수 (X) : 다른…

금융기초이론 총정리 : 필수 금융지식과 최근 금융이슈 한눈에

금융기초이론 정리 마지막으로, 지금까지 배운 내용을 깔끔하게 정리하고 금융을 이해하는 데 꼭 필요한 기초 이론을 짚어봅시다. 1️⃣ 금리 이론금리란 돈을 빌리거나 맡겼을 때 발생하는 이자율입니다.금리가 오르면 대출이 줄고 저축이 늘고, 금리가 내리면 소비와 대출이 증가합니다.금리 변동은 경기와 물가, 투자, 환율에도 직간접적인 영향을 미칩니다. 2️⃣ 환율 이론환율은 자국 통화와 외국 통화의…

핀테크와 AI금융서비스 총정리 : 신기술이 바꾸는 금융생활

금융, 이제 기술과 한몸이 되다 예전엔 은행에 가서 통장을 만들고 창구에서 현금을 찾던 시절이 있었습니다.하지만 이제는 스마트폰으로 계좌를 개설하고, 투자도 앱으로, 보험 가입도 온라인으로 가능합니다. 이처럼 금융과 IT 기술이 융합된 것을 핀테크(FinTech)라고 부릅니다.기술의 발달이 금융환경을 완전히 바꿔버렸고, 이제 금융거래는 빠르고 간편하게 변했습니다. 핀테크(FinTech)란 무엇인가? 핀테크(FinTech)는 금융(Finance)과 기술(Technology)의 합성어입니다.즉, 기존의 금융서비스에…

금융소비자 보호법 총정리 : 사기 예방과 피해 대처법

금융소비자란 누구인가? 금융소비자라 하면 거창하게 들릴 수 있지만 사실은 금융상품이나 서비스를 이용하는 우리 모두를 말합니다.은행에 예금 통장을 만들거나, 카드로 결제하고, 보험을 가입하고, 대출을 받거나, 주식을 매매하는 사람 모두가 금융소비자입니다. 금융은 눈에 보이지 않는 상품이 많고, 내용이 복잡하며, 전문지식이 필요합니다. 그래서 일반 소비자는 상품에 대한 정보를 충분히 알지 못하고, 불리한 거래를…

사회초년생, 대학생을 위한 재무설계 완전정리

재무설계란 무엇인가? 재무설계, 말만 들어도 뭔가 전문적인 느낌이죠?간단히 말하면 자신의 인생 목표와 재정 상황을 분석해, 돈을 언제 얼마씩, 어떻게 관리하고 운용할지 설계하는 과정입니다. 우리가 인생에서 경험하는 크고 작은 일 — 대학 졸업, 취업, 결혼, 내 집 마련, 자녀 교육, 노후 생활 — 이런 것들을 실현하려면 돈이 필요합니다. 그런데 소득과 지출은…

20대부터 시작하는 연금설계와 노후 대비 재테크

노후 준비, 왜 중요한가? 지금은 젊고 건강해서 잘 실감이 안 날지 몰라도, 인생은 깁니다.평균 수명이 85세를 넘어선 요즘, 대학을 졸업하고 사회생활을 시작해도 은퇴 이후 30~40년을 살아야 하는 시대입니다. 문제는 그 긴 시간을 소득 없이 생활비와 의료비를 감당하며 살아야 한다는 것입니다. 가장 큰 위험은 노후 빈곤입니다. 소득이 끊기고, 의료비 부담은 커지는데…

리스크관리와 보험 필수 가이드 : 보험상품과 가입 요령

리스크란 무엇인가? 우리가 살아가다 보면 항상 예상치 못한 사건이 발생하기 마련입니다. 교통사고를 당하거나, 병원비가 갑자기 필요하거나, 실직을 당하거나, 화재나 자연재해 같은 일도 일어날 수 있습니다. 이렇게 미래에 발생할 수 있는 불확실한 위험을 경제용어로 리스크(Risk)라고 합니다. 리스크는 피할 수 없는 인생의 변수입니다. 누구도 미래를 예측할 수 없기 때문이죠. 중요한 건 이…

부채관리 전략 : 고금리 대출부터 신용불량 피하는 법

부채란 무엇인가? 부채란 쉽게 말해 지금 내가 갚아야 하는 빚입니다. 돈을 빌린 만큼 미래에 갚아야 할 의무가 있는 걸 의미합니다. 보통 우리는 은행 대출, 카드 할부금, 카드론, 학자금 대출, 캐피탈 할부금, 핸드폰 할부금 같은 형태로 부채를 지게 됩니다. 부채는 한편으론 꼭 나쁜 것만은 아닙니다. 적절하게 활용하면 필요한 자금을 미리 마련해…

신용관리의 모든 것 : 신용점수 올리는 법과 신용불량 피하기

신용이란 무엇인가? 금융거래에서 가장 중요한 요소 중 하나가 바로 신용입니다. 신용이란 쉽게 말해, ‘돈을 갚을 능력과 의지가 있는지에 대한 사회적 평가’를 말합니다. 우리가 은행에서 대출을 받을 때, 신용카드를 발급받을 때, 심지어 핸드폰 할부로 구매할 때도 이 ‘신용’을 기준으로 심사가 이루어집니다. 신용이 높으면 대출도 잘 되고, 금리도 더 유리하며, 각종 금융서비스를…

다양한 투자 상품과 투자 유의사항

투자상품이 이렇게 많다고? 사람들이 투자라고 하면 대부분 주식이나 부동산, 요즘은 코인 정도만 떠올리는 경우가 많은데, 사실 금융투자 상품은 정말 다양한 종류가 존재합니다. 각각의 상품은 수익률, 리스크, 투자 방식, 거래 구조가 다 달라서 자신의 투자성향과 목적에 따라 적절히 선택하는 게 중요합니다. 특히 금융시장엔 예금보다 높은 수익을 기대할 수 있는 상품도 많지만,…

금융투자 기초 : 투자 수익률과 리스크 총정리

투자란 무엇인가? 흔히 ‘투자’라고 하면 주식이나 부동산, 코인 같은 걸 떠올리기 쉽습니다. 물론 이것도 맞는 말이지요. 하지만 금융에서는 이보다 더 폭넓은 의미로 현재의 자금을 어떤 자산에 투입해서 미래에 더 많은 돈을 얻으려는 행위를 투자라고 합니다. 쉽게 말해, 지금 돈을 쓰지 않고 주식이나 채권, 펀드, 예금 등에 넣어두면 시간이 지나면서 이자나…

저축 완전 정복: 돈의 시간가치와 복리 이해하기

저축, 왜 중요할까? 우리 인생은 예상치 못한 일투성입니다. 갑자기 휴대폰이 고장날 수도 있고, 병원비가 필요할 수도 있고, 여행을 떠나고 싶을 수도 있습니다. 그런데 이런 상황을 모두 월급날 받는 돈으로 해결하기란 쉽지 않죠. 그래서 바로 저축이 필요한 겁니다. 저축은 단순히 돈을 안 쓰고 모아두는 게 아닙니다. 현재 소비를 줄이고, 미래를 위해…

금융상품, 금융시장, 금융회사의 모든 것

금융상품이란 무엇인가? 금융상품이라는 건 쉽게 말하면, 돈을 예치하거나 빌리거나 굴릴 수 있는 상품을 의미합니다. 우리가 은행이나 증권사, 보험사에서 가입하는 예금, 적금, 펀드, 주식, 보험 같은 것들이 모두 금융상품이죠. 금융상품의 가장 큰 특징은 자산을 불리거나 위험을 대비하거나 소비를 지연시킬 수 있다는 점입니다. 예를 들어, 일정 금액을 은행에 저축해서 이자를 받거나, 주식을…

금융의 기본 개념과 주요 금융지표 완벽 이해

금융은 왜 중요한가? 우리가 살아오면서 돈과 전혀 관련이 없는 일은 거의 없다고 해도 과언이 아닐겁니다. 친구와 밥을 먹고 각자 송금하는 일부터, 아르바이트 급여를 통장으로 받는 일, 투자 앱으로 주식을 사거나 예금을 가입하는 일까지 모두 금융과 연결되어 있습니다. 특히 요즘은 디지털 금융이 발달해서 핸드폰으로 결제하고, 주식을 사고, 해외송금까지 몇 번의 터치로…

3사분위수란? 개념부터 공식, 예제까지 쉽게 정리!

데이터 분석이나 통계 공부를 하다 보면 사분위수(Quartile)라는 개념을 자주 접하게 됩니다. 오늘은 그중에서도 3사분위수(3rd Quartile)가 무엇인지, 어떻게 계산하는지 예제를 통해 쉽고 자세하게 정리해보겠습니다. 3사분위수란? 3사분위수는 데이터를 오름차순으로 정렬했을 때, 75%의 데이터가 그 값 이하에 위치하는 점입니다. 쉽게 말해, 데이터를 네 등분했을 때 상위 25%를 제외한 값의 경계점이라고 할 수 있어요.…

비즈니스 엑셀 차트 시각화 챌린지 챕터1

사업계획서 주간을 앞두고 두려움에 떨다 못해서 오빠두엑셀의 챌린지에 참여했다. 대체 뭔 상관인가 싶겠지만은, 내용에 자신이 없으면 비주얼에 집착하는 법! 그렇다. 내년에 할 게 없다. 그래서 비즈니스 엑셀 차트 시각화 챌린지 도전! 엑셀 차트 시각화 규칙 2가지 1) 색감 (맥킨지 보고서 만들기 -> MacKinsey chart of the day) 2) 간소화 차트…

[대학수학의이해] maxima는 또 뭐죠?

방송대 교양으로 대학수학의 이해를 신청했더니만 2강만에 프로그램을 배우게 되었다.   Maxima! 맥시마!   wxmaxima를 검색하면 무료로 다운로드 가능하다.   대학에서는 직접 계산 안하고 프로그램으로 돌린다고 하던데 그게 바로 이건가 보다.   설치하는 것까지는 어려움이 없었는데 죄다 영어다.   교수님도 사용법은 교안으로 제공 안해주시고 빠르게 실습하시고 넘어가 버리셨다.   유튜브 선생님…

[파이썬과 R] VS Code를 사용하려면 왜 이렇게 귀찮을까

 파이썬을 처음 접하고서 IDE에 대한 고민이 이만저만이 아니다. 파이참이 좋다고는 하는데! 나는 파이썬만 배울 것이 아니기 때문에 범용성 측면에서 VS Code를 놓을 수가 없다. 그리고 무엇보다도 테마가 이뻐… 그렇게 VS Code를 고집하다 발생한 문제점 numpy, pandas 오류뜸… <numpy나 pandas 등을 VS Code와 연동하는 법>   1. python312의 파일 위치를 찾는다.…

개강전 파이썬 벼락치기 입문기 4

VS Code에서 주피터 노트북을 사용하던 중 input().split()을 실행하니 안 된다! input()조차 안 된다! 이럴 때에는 역시 나의 구세주 챗GPT! 으음… 챗GPT는 실패했고 블로그 현자의 도움을 받기로 했다. 원인도 모르겠고 해결 방법의 이유도 모르겠지만 일단 하란 대로 따라 해본다. 1번의 코드를 실행해 보니 잘 실행이 되었다. 아래 코드 삽입은 Color Scripter…

개강전 파이썬 벼락치기 입문기 3

VS Code 작업환경은 나같은 왕초보가 문법 찌끄레기 배울때는 너무 번거로워… 아나콘다의 스파이더가 R Studio랑 비슷해서 그런지 손이 더 잘 가서 다른 방법이 없나 여기저기 뒤져봤다. Jupyter Notebook 은 테마 설정이 안되서 손이 안갔었는데 VS Code에서 실행이 가능하다고 하길래 바로 진행했다. Jupyter Notebook은 파이썬을 기반으로 한 웹 기반의 대화형 플랫폼이다. 별도의…

개강전 파이썬 벼락치기 입문기 2

네? 파이썬에는 가장 중요한 파이썬 Run 단축키가 설정되어 있지 않다구요? F5인줄 알았는데 알고보니 이 단축키는 Run Python이 아니고 Start debugging 단축키였다. 어쩐지 보고 있는 유튜브 동영상과는 다르게 F5를 눌러서 실행하면 뭐가 많이 길더라니… 이 둘의 차이점이 뭘까 궁금해서 챗 gpt님께 여쭈어 보았다. 겉멋이 잔뜩 든 나는 기능 습득 전에 단축키…

개강전 파이썬 벼락치기 입문기 1

방송대 2학기 개강이 일주일 남았다. 지난 학기에 직대딩의 생활을 만만하게 보다가 피똥쌌기 때문에 방학동안 예습을 해야지 생각을 했었다. 생각만 했었다… 일주일 남은 지금 이 순간 벼락치기를 결심하고 한큐에 끝낼 수 있는 유튜브 인강을 찾기 시작했다. 추천이 많은 나도코딩님의 6시간 파이썬 입문 강의로 결정. 파이썬 설치까지는 꿀인데 IDLE 결정을 아직도 못했다.…

RStudio 설정과 유용한 단축키

R사용시 알아두면 좋은 내용 1) 윈도우 사용자 이름은 “영어”로 설정한다. 2) 설치 경로에 한글이 있으면 안된다. 3) R설치 파일 실행 시 관리자 모드로 실행해야 한다. 4) One drive, drop box 는 사용 권장하지 않는다. 5) Github R program, Rstudio, rtools 설치 R 버전이 4.0.0 이상이 되면서 rtools40이 필요하게 되었다. R…