线性回归的通俗理解

如果想节省时间,直接看(最下面)线性回归的本质

定义

  线性回归(linear regression)是统计学中的术语,指利用线性回归方程的最小二乘函数对(一个或多个)自变量与因变量之间关系进行建模的一种回归分析。这种函数是一个或多个成为回归系数的模型参数的线性组合。只有一个自变量的情况成为简单回归,大于一个自变量的情况成为多元回归(multivariable linear regression)。

  以上摘自维基百科。

  通俗理解,就是将数据用线性函数拟合


使用场景

  对于初学者来说,掌握线性回归的使用场景不是那么重要。但是,这会帮助理解机器学习的知识体系。
  线性回归通常用于监督学习的回归(regression)问题。监督学习能解决两个重要的问题,一是回归,二是分类。如何分辨二者呢?很简单!回归问题的因变量是连续的;而分类问题的因变量是离散的。
  线性回归用于监督学习中的回归问题。线性回归用于监督学习中的回归问题。线性回归用于监督学习中的回归问题。重要的结论讲三遍。


模型

简单形式

  • $h_{\theta}(x) = \theta_0 + \theta_1x$
    • $h_{\theta}(x)$ . h是hypothesis(假说)的首字母,可以理解为函数/因变量——y
    • $\theta_0 + \theta_1x$ . x是自变量

一般形式

$h_{\theta}(x_0, x_1, x_2, x_3, \cdots,x_n) = \theta_0x_0 + \theta_1x_1 + \theta_2x_2 + \cdots + \theta_nx_n $
  $x_0 = 1$,准确来说$\theta_0x_0$是常数项。应为要让格式整齐,就加了一个$x_0$
  $x_1, x_2, x_3, \cdots,x_n$是标量
$h_{\theta}(\pmb{x}) = \pmb{\theta} \pmb{x}$
  $\pmb{\theta}$ 是向量,$\begin{bmatrix} \theta_0 \\ \theta_1 \\ \theta_2 \\ \cdots \\ \theta_n \end{bmatrix}$
  $\pmb{x}$是向量,$\pmb{x} = \begin{bmatrix} x_0 \\ x_1\\ x_2\\ \cdots \\ x_n \\ \end{bmatrix}$
  $h_\theta(\pmb{x}) = \begin{bmatrix} \theta_0x_0 + \theta_1x_0 + \cdots + \theta_nx_n \\ \end{bmatrix}$ ,其实就是标量


数据

  机器学习离不开数据。那么,数据形式是怎么样的呢?
  在监督学习中,数据只要分为 自变量因变量。自变量有一个或多个,而因变量一般只有一个。训练数据是人为标注的。


损失函数(loss)/代价(cost)函数

  损失函数(代价函数)是描述模型好坏程度的有力工具。线性回归的loss函数常用最小二乘法法定义,loss函数值越小,模型越优。求loss函数有两种方式,分别是梯度下降法正规方程法。这个我会在另写一个blog详细讲述。
$J(\pmb{\theta}) = \frac 1{2m}\sum_{i=1}^m(h_\theta(x^{(i)}-y^{(i)}))^2$


线性回归的本质(本文核心)

  线性回归,其实是根据问题建立一个模型(线性函数),并寻找最合适的参数,以达到最合适的拟合效果。

梯度下降 与 正规方程法

特征变量归一化

向量化


转载请注明来源,欢迎对文章中的引用来源进行考证,欢迎指出任何有错误或不够清晰的表达。可以在下面评论区评论,也可以邮件至 525244039@qq.com

文章标题:线性回归的通俗理解

文章字数:774

本文作者:Zikun

发布时间:2019-11-26, 22:25:50

最后更新:2019-11-26, 22:25:50

原始链接:http://zikun97.github.io/2019/11/26/%E7%BA%BF%E6%80%A7%E5%9B%9E%E5%BD%92%E7%9A%84%E9%80%9A%E4%BF%97%E7%90%86%E8%A7%A3/

版权声明: "署名-非商用-相同方式共享 4.0" 转载请保留原文链接及作者。

目录
×

喜欢就点赞,疼爱就打赏