宜配屋

前言

说到如何用Python执行线性回归，大部分人会立刻想到用sklearn的linear_model，但事实是，Python至少有8种执行线性回归的方法，sklearn并不是最高效的。

今天，让我们来谈谈线性回归。没错，作为数据科学界元老级的模型，线性回归几乎是所有数据科学家的入门必修课。抛开涉及大量数统的模型分析和检验不说，你真的就能熟练应用线性回归了么？未必！

在这篇文章中，文摘菌将介绍8种用Python实现线性回归的方法。了解了这8种方法，就能够根据不同需求，灵活选取最为高效的方法实现线性回归。

“宝刀不老”的线性回归

时至今日，深度学习早已成为数据科学的新宠。即便往前推10年，SVM、boosting等算法也能在准确率上完爆线性回归。

为什么我们还需要线性回归呢？

一方面，线性回归所能够模拟的关系其实远不止线性关系。线性回归中的“线性”指的是系数的线性，而通过对特征的非线性变换，以及广义线性模型的推广，输出和特征之间的函数关系可以是高度非线性的。另一方面，也是更为重要的一点，线性模型的易解释性使得它在物理学、经济学、商学等领域中占据了难以取代的地位。

那么，如何用Python来实现线性回归呢？

由于机器学习库scikit-learn的广泛流行，常用的方法是从该库中调用linear_model来拟合数据。虽然这可以提供机器学习的其他流水线特征（例如：数据归一化，模型系数正则化，将线性模型传递到另一个下游模型）的其他优点，但是当一个数据分析师需要快速而简便地确定回归系数（和一些基本相关统计量）时，这通常不是最快速简便的方法。

下面，我将介绍一些更快更简洁的方法，但是它们所提供信息量和建模的灵活性不尽相同。

各种线性回归方法的完整源码都可以在文末的GitHub链接中找到。他们大多数都依赖于SciPy包。

SciPy是基于Python的Numpy扩展构建的数学算法和函数的集合。通过为用户提供便于操作和可视化数据的高级命令和类，为交互式Python会话增加了强大的功能。

8种方法实现线性回归

方法一：Scipy.polyfit( ) or numpy.polyfit( )

这是一个最基本的最小二乘多项式拟合函数（least squares polynomial fit function），接受数据集和任何维度的多项式函数（由用户指定），并返回一组使平方误差最小的系数。这里给出函数的详细描述。对于简单的线性回归来说，可以选择1维函数。但是如果你想拟合更高维的模型，则可以从线性特征数据中构建多项式特征并拟合模型。

方法二：Stats.linregress( )

这是一个高度专业化的线性回归函数，可以在SciPy的统计模块中找到。然而因为它仅被用来优化计算两组测量数据的最小二乘回归，所以其灵活性相当受限。因此，不能使用它进行广义线性模型和多元回归拟合。但是，由于其特殊性，它是简单线性回归中最快速的方法之一。除了拟合的系数和截距项之外，它还返回基本统计量，如R2系数和标准差。

方法三：Optimize.curve_fit( )