lithdo | 时间序列学习笔记

一元线性回归

线性回归模型

一元线性回归模型（linear regression model with a single regressor）：

$$ Y_i = \beta_0 + \beta_1 X_i + u_i $$

其中$Y$称为从属变量（regressand），$X$称为回归变量（regressor）。

式中第一部分$\beta_0 + \beta_1 X$称为总体回归线（population regression line）。

截距（intercept）$\beta_0$和斜率（slope）$\beta_1$称为总体回归线的系数（coefficient）。

$u_i$称为误差项（error term）。

线性回归模型的系数估计

令$b_0$和$b_1$分别表示$\beta_0$和$\beta_1$的估计量，则基于这些估计量的回归线为$b_0 + b_1 X$，所有$n$个观测的预测误差平方和为：

$$ \sum\limits_{i=1}^n (Y_i - b_0 - b_1 X_i)^2 $$

我们称最小化式中误差平方和的截距和斜率估计量为$\beta_0$和$\beta_1$的普通最小二乘（OLS）估计量，分别记为$\hat\beta_0$和$\hat\beta_1$。

给定$X_i$时$Y_i$的预测值（predicted value）记为$\hat Y_i = \hat\beta_0 + \hat\beta_1 X_i$。

第i个观测的残差（residual）记为$\hat u_i = Y_i - \hat Y_i$。

拟合优度

估计了线性回归线后，你可能想知道用回归线描述数据的效果如何：

回归变量说明了大部分还是极少部分的因变量变化？
观测值是紧密地聚集在回归线周围呢还是很分散？

$R^2$和回归标准误差衡量了OLS回归线拟合数据的效果。其中$R^2$度量了能被$X_i$解释的$Y_i$方差的比例。而回归标准误差度量了$Y_i$距离其预测值的典型偏差大小。

$R^2$

回归$R^2$是指可由$X_i$解释（或预测）的$Y_i$样本方差比例：

$$\begin{aligned} ESS &= \sum\limits_{i=1}^n (\hat Y_i - \bar Y_i)^2 \\ TSS &= \sum\limits_{i=1}^n (Y_i - \bar Y_i)^2 \\ R^2 &= {ESS \over TSS} \end{aligned}$$

$R^2$的取值范围为0到1。$R^2$接近1表示回归变量能较好地预测$Y_i$，而$R^2$接近0表示回归变量不能很好地预测$Y_i$。

回归标准误差

回归标准误差（SER）是回归误差$u_i$的标准差估计量，它衡量了典型回归误差的大小：

$$\begin{aligned} SSR &= \sum\limits_{i=1}^n \hat u_i^2 \\ SER &= \sqrt{SSR \over n-2} \end{aligned}$$

一元线性回归

线性回归模型

线性回归模型的系数估计

拟合优度

\(R^2\)

回归标准误差