카테고리 통계데이터

[R 시계열분석 기초] ACVF, ACF, PACF 개념 완전 정복

시계열 데이터에서 왜 필요한가? 시계열 데이터는 시간의 흐름에 따라 기록된 데이터입니다. 이 데이터를 분석할 때 중요한 건 과거 값이 현재나 미래 값에 영향을 주는지 확인하는 것이죠. 이걸 확인하려면 서로 시간 간격(lag)이 있는 값들끼리 얼마나 관련이 있는지 알아야 하는데, 그걸 측정하는 게 바로 자기공분산함수(ACVF) 자기상관함수(ACF)   자기공분산함수(Autocovariance Function, ACVF) 정의 시간차(시차)…

[예측방법론] 15강. 지수평활부터 프로펫, 신경망, 예측조합까지

1. 지수평활법 (Exponential Smoothing) 1-1. 개념 과거 값에 가중치를 두는데, 최근 값일수록 더 큰 가중치를 부여하는 방법이에요. 과거 데이터를 오래된 순서대로 잊어버리면서 최근 데이터에 비중을 두는 방식 1-2. 단순 지수평활 y^t+1=αyt+(1−α)y^t\hat{y}_{t+1} = \alpha y_t + (1-\alpha) \hat{y}_t ​ α\alpha : 평활상수 (0~1) 값이 클수록 최근 데이터 반영 비율↑ 1-3. 홀트-윈터스…

[예측방법론] 14강. 공적분분석과 오차수정모형

1. 가성적 회귀란? 1-1. 문제 상황 시계열 데이터 두 개가 둘 다 불안정(단위근이 있는 경우, I(1))인데이걸 그냥 회귀하면 R² 값이 0.9 이상 뜨고 잔차는 분명히 상관이 있는 엉터리 결과가 나오는 현상 이걸 가성적 회귀(spurious regression) 라고 해요. 1-2. 해결법 두 시계열이 공적분 관계인지 확인공적분이면 장기균형관계로 해석 가능아니면 회귀하면 안 됨…

[예측방법론] 13강. VAR 모형을 이용한 예측

1. VAR 모형이란? 1-1. 시계열 예측 기본 기존에는 AR, ARIMA 모형처럼 한 변수만 시간에 따라 분석했죠. 그런데 현실에서는 여러 변수가 서로 영향을 주고받으며 동시에 움직이므로그걸 고려해야 해요. 그래서 등장한 게 VAR (벡터자기회귀 모형)입니다. 1-2. VAR 모형 구조 두 변수 YtY_t XtX_t 가 있을 때 AR은 이렇게 Yt=a0+a1Yt−1+utY_t = a_0 +…

[예측방법론] 12강. 예측데이터의 시계열분해(2)

예측데이터의 시계열분해(2) — 계절조정, 추세, 순환변동까지 1. 계절조정법 시계열 데이터에는 계절성(일정 주기로 반복되는 패턴)이 존재합니다.이를 제거해서 순수한 추세와 변동성만 남긴 값을 얻는 것이 계절조정이에요. 1-1. STL 계절조정법 STL(Seasonal and Trend decomposition using Loess) 기법은데이터를 추세 계절성 불규칙성으로 분해하는 방법입니다. 이걸 반복적으로 갱신하며 정밀하게 조정하는데, 아래와 같은 과정을 거쳐요. STL 조정…

[예측방법론] 11강. 예측데이터의 시계열분해(1)

예측데이터의 시계열분해(1) — 기초부터 정리 1. 시계열분해란? 시계열분해(time series decomposition)란,시간에 따라 변하는 데이터를 여러 요인으로 나누어 분석하는 기법입니다. 데이터를 그냥 한 덩어리로 보는 게 아니라,시간의 흐름에 따라 나타나는 패턴을 ‘추세’, ‘계절성’, ‘불규칙성’으로 나누어 살펴보는 것이죠. 1-1. 시계열 데이터의 변동 요인 1️⃣ 추세(Trend) TtT_t : 장기적인 상승이나 하락 경향.→ 예: GDP의…

[예측방법론] 10강. 회귀모형 진단과 예측, 연립방정식모형

1. 회귀모형 진단 방법 회귀분석을 하고 나면, 그 결과가 믿을만한지 반드시 확인해야 합니다.이걸 모형 진단이라고 부릅니다. 1-1. 잔차란 무엇인가? 잔차(residual)란 실제 값과 예측 값의 차이를 의미합니다. rt=yt−y^tr_t = y_t – \hat{y}_t​ 여기서 yty_t : 실제 값 y^t\hat{y}_t : 회귀모형으로 계산한 예측 값 잔차가 랜덤하게 분포해야 좋은 모형이에요.특정한 패턴이 있으면 잘못된…

[예측방법론] 9강. 상관관계와 회귀분석 기본

1. 상관관계 분석 시계열 간 관계 시간 흐름에 따라 변하는 두 변수 간의 관계를 측정하는 방법→ 상관계수로 두 변수 간 선형적 강도를 측정 표본상관계수 두 변수 X, Y의 상관계수 계산 공식 r=∑(Xi−Xˉ)(Yi−Yˉ)∑(Xi−Xˉ)2∑(Yi−Yˉ)2r = \frac{\sum (X_i – \bar{X})(Y_i – \bar{Y})}{\sqrt{\sum (X_i – \bar{X})^2 \sum (Y_i – \bar{Y})^2}}​ 1에 가까울수록 강한 양의…

[예측방법론] 8강. ARIMA 추정, 진단, 예측, 변동성 모형

1. ARIMA 모형의 추정 추정 방법 최대우도법 (MLE: Maximum Likelihood Estimation) 개념 : 주어진 데이터가 관측될 확률(우도, likelihood)을 가장 크게 만드는 파라미터 값을 찾는 방법. 주로 확률모형에 사용 (ex. 정규분포 평균, 분산 추정) 우도의 로그값(log-likelihood) 을 최대화해서 계산하는 게 일반적. “이 데이터가 이렇게 나올 확률을 가장 높게 만드는 파라미터가 뭐냐?”…

[예측방법론] 7강. 시계열 모형 검정과 ARIMA 식별 완전 정리

1. 시계열 모형 관련 검정 단위근 검정 (Unit Root Test) 시계열 데이터가 불안정한지 확인하는 검정으로, 가장 많이 쓰이는 방법이 ADF(Augmented Dickey-Fuller) 검정입니다. 단위근 (Unit Root) 이란? 시계열 데이터에서 자기상관 계수 ϕ=1\phi = 1인 경우를 단위근이 있다고 합니다. 단위근이 있는 시계열은 비정상 시계열이라서 평균이 시간에 따라 변하고 분산도 무한대로 커지고 충격이…

[예측방법론] 6강. 불안정, 비선형 시계열모형 완전정리

1. 불안정 시계열 모형 확률보행 모형 (Random Walk) 확률보행 모형은 가장 기본적인 불안정 시계열 모형으로, 현재 값이 이전 값에 오차항이 더해진 형태입니다. Yt=Yt−1+ϵtY_t = Y_{t-1} + \epsilon_t​ 여기서 ϵt\epsilon_t 는 평균 0, 분산 σ2\sigma^2 인 백색잡음. 특징 : 평균이 일정하지 않고, 시간이 지날수록 분산이 커짐 안정성 없음 차분 (Differencing) 불안정…

[예측방법론] 5강. 시계열 모형 AR, MA, ARMA

1. 시계열 모형 개요 시계열 모형(time series model)이란, 과거 데이터의 시간적 구조와 규칙을 이용해 미래를 예측하는 모델입니다.시계열 모형은 크게 선형 모형과 비선형 모형으로 나뉩니다. 선형 시계열 모형 과거 값과 오차항의 선형 결합으로 현재 값을 설명 대표적으로 AR, MA, ARMA, ARIMA 비선형 시계열 모형 비선형 함수로 구성 대표적으로 TAR, Bilinear, GARCH…

[예측방법론] 4강. 시계열 분석 자기상관 완전 정리

1. 자기상관의 개념 자기상관(autocorrelation)이란, 동일한 시계열 데이터 내에서 시간 차이를 두고 관측한 값들 간의 상관관계를 의미합니다. 쉽게 말해, 오늘의 값과 내일의 값, 또는 이번 달의 값과 다음 달의 값이 얼마나 비슷하게 움직이는지를 나타내는 지표입니다. 양의 자기상관 : 이전 값이 크면 이후 값도 클 가능성이 높음 음의 자기상관 : 이전 값이…

[예측방법론] 3강. 시계열의 주파수 분석과 확률과정

1. 시계열의 주파수 분석 시계열 데이터는 시간에 따라 변화하는 자료를 의미합니다. 예를 들어, 월별 온도 변화, 연도별 GDP, 분기별 매출액 등이 시계열 데이터에 해당합니다. 이 시계열 데이터를 분석하는 방법 중 하나가 주파수 분석입니다. 주파수 분석은 자료에 내재된 주기성(반복되는 패턴)을 찾아내는 방법으로, 데이터가 특정 주기(월, 분기, 연도 등)를 기준으로 어떻게 변동하는지…

[예측방법론] 2강. 시계열 데이터 분석 기초 정리

예측방법론 2강 — 시계열 데이터 분석 기초 정리 안녕하세요! 이번 포스팅에서는 시계열 데이터의 개념과 처리 방법을 초보자분들도 이해하기 쉽게 정리해보겠습니다.특히 시간에 따라 변화하는 데이터를 분석하고 예측하는 데 필수적인 개념과 기법들을 정리했으니, 데이터마이닝, 통계분석, 경제예측을 공부하시는 분들께 추천드립니다. 1. 시계열 데이터란? 시간의 흐름에 따라 수집된 연속적인 데이터를 의미합니다. 예 국내총생산(GDP), 주가,…