카테고리 All posts

[예측방법론] 11강. 예측데이터의 시계열분해(1)

예측데이터의 시계열분해(1) — 기초부터 정리 1. 시계열분해란? 시계열분해(time series decomposition)란,시간에 따라 변하는 데이터를 여러 요인으로 나누어 분석하는 기법입니다. 데이터를 그냥 한 덩어리로 보는 게 아니라,시간의 흐름에 따라 나타나는 패턴을 ‘추세’, ‘계절성’, ‘불규칙성’으로 나누어 살펴보는 것이죠. 1-1. 시계열 데이터의 변동 요인 1️⃣ 추세(Trend) TtT_t : 장기적인 상승이나 하락 경향.→ 예: GDP의…

[예측방법론] 10강. 회귀모형 진단과 예측, 연립방정식모형

1. 회귀모형 진단 방법 회귀분석을 하고 나면, 그 결과가 믿을만한지 반드시 확인해야 합니다.이걸 모형 진단이라고 부릅니다. 1-1. 잔차란 무엇인가? 잔차(residual)란 실제 값과 예측 값의 차이를 의미합니다. rt=yt−y^tr_t = y_t – \hat{y}_t​ 여기서 yty_t : 실제 값 y^t\hat{y}_t : 회귀모형으로 계산한 예측 값 잔차가 랜덤하게 분포해야 좋은 모형이에요.특정한 패턴이 있으면 잘못된…

[예측방법론] 9강. 상관관계와 회귀분석 기본

1. 상관관계 분석 시계열 간 관계 시간 흐름에 따라 변하는 두 변수 간의 관계를 측정하는 방법→ 상관계수로 두 변수 간 선형적 강도를 측정 표본상관계수 두 변수 X, Y의 상관계수 계산 공식 r=∑(Xi−Xˉ)(Yi−Yˉ)∑(Xi−Xˉ)2∑(Yi−Yˉ)2r = \frac{\sum (X_i – \bar{X})(Y_i – \bar{Y})}{\sqrt{\sum (X_i – \bar{X})^2 \sum (Y_i – \bar{Y})^2}}​ 1에 가까울수록 강한 양의…

[예측방법론] 8강. ARIMA 추정, 진단, 예측, 변동성 모형

1. ARIMA 모형의 추정 추정 방법 최대우도법 (MLE: Maximum Likelihood Estimation) 개념 : 주어진 데이터가 관측될 확률(우도, likelihood)을 가장 크게 만드는 파라미터 값을 찾는 방법. 주로 확률모형에 사용 (ex. 정규분포 평균, 분산 추정) 우도의 로그값(log-likelihood) 을 최대화해서 계산하는 게 일반적. “이 데이터가 이렇게 나올 확률을 가장 높게 만드는 파라미터가 뭐냐?”…

[예측방법론] 7강. 시계열 모형 검정과 ARIMA 식별 완전 정리

1. 시계열 모형 관련 검정 단위근 검정 (Unit Root Test) 시계열 데이터가 불안정한지 확인하는 검정으로, 가장 많이 쓰이는 방법이 ADF(Augmented Dickey-Fuller) 검정입니다. 단위근 (Unit Root) 이란? 시계열 데이터에서 자기상관 계수 ϕ=1\phi = 1인 경우를 단위근이 있다고 합니다. 단위근이 있는 시계열은 비정상 시계열이라서 평균이 시간에 따라 변하고 분산도 무한대로 커지고 충격이…

[예측방법론] 6강. 불안정, 비선형 시계열모형 완전정리

1. 불안정 시계열 모형 확률보행 모형 (Random Walk) 확률보행 모형은 가장 기본적인 불안정 시계열 모형으로, 현재 값이 이전 값에 오차항이 더해진 형태입니다. Yt=Yt−1+ϵtY_t = Y_{t-1} + \epsilon_t​ 여기서 ϵt\epsilon_t 는 평균 0, 분산 σ2\sigma^2 인 백색잡음. 특징 : 평균이 일정하지 않고, 시간이 지날수록 분산이 커짐 안정성 없음 차분 (Differencing) 불안정…

[예측방법론] 5강. 시계열 모형 AR, MA, ARMA

1. 시계열 모형 개요 시계열 모형(time series model)이란, 과거 데이터의 시간적 구조와 규칙을 이용해 미래를 예측하는 모델입니다.시계열 모형은 크게 선형 모형과 비선형 모형으로 나뉩니다. 선형 시계열 모형 과거 값과 오차항의 선형 결합으로 현재 값을 설명 대표적으로 AR, MA, ARMA, ARIMA 비선형 시계열 모형 비선형 함수로 구성 대표적으로 TAR, Bilinear, GARCH…

[예측방법론] 4강. 시계열 분석 자기상관 완전 정리

1. 자기상관의 개념 자기상관(autocorrelation)이란, 동일한 시계열 데이터 내에서 시간 차이를 두고 관측한 값들 간의 상관관계를 의미합니다. 쉽게 말해, 오늘의 값과 내일의 값, 또는 이번 달의 값과 다음 달의 값이 얼마나 비슷하게 움직이는지를 나타내는 지표입니다. 양의 자기상관 : 이전 값이 크면 이후 값도 클 가능성이 높음 음의 자기상관 : 이전 값이…

[예측방법론] 3강. 시계열의 주파수 분석과 확률과정

1. 시계열의 주파수 분석 시계열 데이터는 시간에 따라 변화하는 자료를 의미합니다. 예를 들어, 월별 온도 변화, 연도별 GDP, 분기별 매출액 등이 시계열 데이터에 해당합니다. 이 시계열 데이터를 분석하는 방법 중 하나가 주파수 분석입니다. 주파수 분석은 자료에 내재된 주기성(반복되는 패턴)을 찾아내는 방법으로, 데이터가 특정 주기(월, 분기, 연도 등)를 기준으로 어떻게 변동하는지…

[예측방법론] 2강. 시계열 데이터 분석 기초 정리

예측방법론 2강 — 시계열 데이터 분석 기초 정리 안녕하세요! 이번 포스팅에서는 시계열 데이터의 개념과 처리 방법을 초보자분들도 이해하기 쉽게 정리해보겠습니다.특히 시간에 따라 변화하는 데이터를 분석하고 예측하는 데 필수적인 개념과 기법들을 정리했으니, 데이터마이닝, 통계분석, 경제예측을 공부하시는 분들께 추천드립니다. 1. 시계열 데이터란? 시간의 흐름에 따라 수집된 연속적인 데이터를 의미합니다. 예 국내총생산(GDP), 주가,…

[예측방법론] 1강. 예측의 개념과 방법 쉽게 정리

예측방법론 1강 — 예측의 개념과 방법 쉽게 정리 안녕하세요! 이번 포스팅에서는 예측방법론 1강 강의 내용을 초보자분들도 쉽게 이해할 수 있도록 정리해보겠습니다.미래를 어떻게 예측하고, 어떤 방법으로 분석하는지 데이터마이닝, 경영전략, 경제전망에서 아주 중요한 기본 개념을 이번 글에서 깔끔하게 정리해볼게요. 1. 예측의 개념과 필요성 예측이란? 미래에 발생할 사건이나 현상을 추정하는 것입니다.불확실성을 줄이고, 합리적인…

[데이터마이닝] 15강. 연관성 분석 R 코드 정리

데이터마이닝 15강 — 연관성 분석 R 코드 정리 안녕하세요! 이번 포스팅에서는 연관성 분석 R 함수와 시각화 함수를 정리해보겠습니다.데이터마이닝에서 장바구니 분석(Market Basket Analysis)을 수행할 때 많이 사용하는 R 함수들과 그 활용법, 예제를 쉽게 정리해드릴게요. 1. 연관성 분석 관련 R 함수 str() 함수 R 객체의 내부 구조를 출력 1 str(x) cs x…

[데이터마이닝] 14강. 연관성 분석 쉽게 정리

데이터마이닝 14강 — 연관성 분석 쉽게 정리 안녕하세요! 이번 포스팅에서는 연관성 분석(Association Analysis) 내용을 초보자분도 이해할 수 있도록 풀어 정리해보겠습니다.특히 장바구니 분석(Market Basket Analysis)에서 많이 활용되는 분석기법으로, 품목 간의 구매 패턴을 찾고 마케팅 전략을 세울 때 아주 유용합니다. 1. 연관성 분석이란? 연관성 분석이란 하나의 사건 또는 품목이 발생했을 때, 다른…

[데이터마이닝] 13강. 군집분석 R 함수 총정리

데이터마이닝 13강 — 군집분석 R 함수 총정리 안녕하세요! 이번 포스팅에서는 데이터마이닝 13강: 군집분석 R 함수와 사용 예제를 초보자분들도 쉽게 이해할 수 있도록 정리해보겠습니다.군집분석을 R로 수행할 때 꼭 알아야 하는 함수들과 그 사용법을 자세히 설명드릴게요. 1. 군집분석 관련 R 함수 dist() 함수 행 사이의 거리(비유사성)를 계산하는 함수입니다. 함수 구조 1 dist(x, method = “euclidean”)…

[데이터마이닝] 12강. 군집분석 기초부터 완벽 정리

데이터마이닝 12강 — 군집분석 기초부터 완벽 정리 안녕하세요! 오늘은 데이터마이닝 12강: 군집분석 내용을 초보자분들도 쉽게 이해할 수 있도록 정리해보겠습니다. 군집분석(Cluster Analysis)은 데이터마이닝의 대표적인 비지도학습(Unsupervised Learning) 기법입니다. 사전 정보 없이 관측값이나 데이터를 서로 비슷한 성격끼리 묶는 기법으로, 타겟 마케팅이나 고객 세분화 등에 많이 활용됩니다. 1. 군집분석이란? 군집분석은 데이터 간의 유사성을 기준으로…