一元线性回归
线性回归模型
一元线性回归模型(linear regression model with a single regressor):
$$ Y_i = \beta_0 + \beta_1 X_i + u_i $$其中\(Y\)称为从属变量(regressand),\(X\)称为回归变量(regressor)。
式中第一部分\(\beta_0 + \beta_1 X\)称为总体回归线(population regression line)。
截距(intercept)\(\beta_0\)和斜率(slope)\(\beta_1\)称为总体回归线的系数(coefficient)。
\(u_i\)称为误差项(error term)。
线性回归模型的系数估计
令\(b_0\)和\(b_1\)分别表示\(\beta_0\)和\(\beta_1\)的估计量,则基于这些估计量的回归线为\(b_0 + b_1 X\),所有\(n\)个观测的预测误差平方和为:
$$ \sum\limits_{i=1}^n (Y_i - b_0 - b_1 X_i)^2 $$我们称最小化式中误差平方和的截距和斜率估计量为\(\beta_0\)和\(\beta_1\)的普通最小二乘(OLS)估计量,分别记为\(\hat\beta_0\)和\(\hat\beta_1\)。
给定\(X_i\)时\(Y_i\)的预测值(predicted value)记为\(\hat Y_i = \hat\beta_0 + \hat\beta_1 X_i\)。
第i个观测的残差(residual)记为\(\hat u_i = Y_i - \hat Y_i\)。
拟合优度
估计了线性回归线后,你可能想知道用回归线描述数据的效果如何:
- 回归变量说明了大部分还是极少部分的因变量变化?
- 观测值是紧密地聚集在回归线周围呢还是很分散?
\(R^2\)和回归标准误差衡量了OLS回归线拟合数据的效果。其中\(R^2\)度量了能被\(X_i\)解释的\(Y_i\)方差的比例。而回归标准误差度量了\(Y_i\)距离其预测值的典型偏差大小。
\(R^2\)
回归\(R^2\)是指可由\(X_i\)解释(或预测)的\(Y_i\)样本方差比例:
$$\begin{aligned} ESS &= \sum\limits_{i=1}^n (\hat Y_i - \bar Y_i)^2 \\ TSS &= \sum\limits_{i=1}^n (Y_i - \bar Y_i)^2 \\ R^2 &= {ESS \over TSS} \end{aligned}$$\(R^2\)的取值范围为0到1。\(R^2\)接近1表示回归变量能较好地预测\(Y_i\),而\(R^2\)接近0表示回归变量不能很好地预测\(Y_i\)。
回归标准误差
回归标准误差(SER)是回归误差\(u_i\)的标准差估计量,它衡量了典型回归误差的大小:
$$\begin{aligned} SSR &= \sum\limits_{i=1}^n \hat u_i^2 \\ SER &= \sqrt{SSR \over n-2} \end{aligned}$$