时间序列学习笔记

一元线性回归

线性回归模型

一元线性回归模型(linear regression model with a single regressor):

$$ Y_i = \beta_0 + \beta_1 X_i + u_i $$

其中\(Y\)称为从属变量(regressand),\(X\)称为回归变量(regressor)。

式中第一部分\(\beta_0 + \beta_1 X\)称为总体回归线(population regression line)。

截距(intercept)\(\beta_0\)和斜率(slope)\(\beta_1\)称为总体回归线的系数(coefficient)。

\(u_i\)称为误差项(error term)

线性回归模型的系数估计

令\(b_0\)和\(b_1\)分别表示\(\beta_0\)和\(\beta_1\)的估计量,则基于这些估计量的回归线为\(b_0 + b_1 X\),所有\(n\)个观测的预测误差平方和为:

$$ \sum\limits_{i=1}^n (Y_i - b_0 - b_1 X_i)^2 $$

我们称最小化式中误差平方和的截距和斜率估计量为\(\beta_0\)和\(\beta_1\)的普通最小二乘(OLS)估计量,分别记为\(\hat\beta_0\)和\(\hat\beta_1\)。

给定\(X_i\)时\(Y_i\)的预测值(predicted value)记为\(\hat Y_i = \hat\beta_0 + \hat\beta_1 X_i\)。

第i个观测的残差(residual)记为\(\hat u_i = Y_i - \hat Y_i\)。

拟合优度

估计了线性回归线后,你可能想知道用回归线描述数据的效果如何:

  1. 回归变量说明了大部分还是极少部分的因变量变化?
  2. 观测值是紧密地聚集在回归线周围呢还是很分散?

\(R^2\)和回归标准误差衡量了OLS回归线拟合数据的效果。其中\(R^2\)度量了能被\(X_i\)解释的\(Y_i\)方差的比例。而回归标准误差度量了\(Y_i\)距离其预测值的典型偏差大小。

\(R^2\)

回归\(R^2\)是指可由\(X_i\)解释(或预测)的\(Y_i\)样本方差比例:

$$\begin{aligned} ESS &= \sum\limits_{i=1}^n (\hat Y_i - \bar Y_i)^2 \\ TSS &= \sum\limits_{i=1}^n (Y_i - \bar Y_i)^2 \\ R^2 &= {ESS \over TSS} \end{aligned}$$

\(R^2\)的取值范围为0到1。\(R^2\)接近1表示回归变量能较好地预测\(Y_i\),而\(R^2\)接近0表示回归变量不能很好地预测\(Y_i\)。

回归标准误差

回归标准误差(SER)是回归误差\(u_i\)的标准差估计量,它衡量了典型回归误差的大小:

$$\begin{aligned} SSR &= \sum\limits_{i=1}^n \hat u_i^2 \\ SER &= \sqrt{SSR \over n-2} \end{aligned}$$