线性回归的通俗理解
如果想节省时间,直接看(最下面)线性回归的本质
定义
线性回归(linear regression)是统计学中的术语,指利用线性回归方程的最小二乘函数对(一个或多个)自变量与因变量之间关系进行建模的一种回归分析。这种函数是一个或多个成为回归系数的模型参数的线性组合。只有一个自变量的情况成为简单回归,大于一个自变量的情况成为多元回归(multivariable linear regression)。
以上摘自维基百科。
通俗理解,就是将数据用线性函数拟合。
使用场景
对于初学者来说,掌握线性回归的使用场景不是那么重要。但是,这会帮助理解机器学习的知识体系。
线性回归通常用于监督学习的回归(regression)问题。监督学习能解决两个重要的问题,一是回归,二是分类。如何分辨二者呢?很简单!回归问题的因变量是连续的;而分类问题的因变量是离散的。
线性回归用于监督学习中的回归问题。线性回归用于监督学习中的回归问题。线性回归用于监督学习中的回归问题。重要的结论讲三遍。
模型
简单形式
- $h_{\theta}(x) = \theta_0 + \theta_1x$
- $h_{\theta}(x)$ . h是hypothesis(假说)的首字母,可以理解为函数/因变量——y
- $\theta_0 + \theta_1x$ . x是自变量
一般形式
$h_{\theta}(x_0, x_1, x_2, x_3, \cdots,x_n) = \theta_0x_0 + \theta_1x_1 + \theta_2x_2 + \cdots + \theta_nx_n $
$x_0 = 1$,准确来说$\theta_0x_0$是常数项。应为要让格式整齐,就加了一个$x_0$
$x_1, x_2, x_3, \cdots,x_n$是标量
$h_{\theta}(\pmb{x}) = \pmb{\theta} \pmb{x}$
$\pmb{\theta}$ 是向量,$\begin{bmatrix} \theta_0 \\ \theta_1 \\ \theta_2 \\ \cdots \\ \theta_n \end{bmatrix}$
$\pmb{x}$是向量,$\pmb{x} = \begin{bmatrix} x_0 \\ x_1\\ x_2\\ \cdots \\ x_n \\ \end{bmatrix}$
$h_\theta(\pmb{x}) = \begin{bmatrix} \theta_0x_0 + \theta_1x_0 + \cdots + \theta_nx_n \\ \end{bmatrix}$ ,其实就是标量
数据
机器学习离不开数据。那么,数据形式是怎么样的呢?
在监督学习中,数据只要分为 自变量 和 因变量。自变量有一个或多个,而因变量一般只有一个。训练数据是人为标注的。
损失函数(loss)/代价(cost)函数
损失函数(代价函数)是描述模型好坏程度的有力工具。线性回归的loss函数常用最小二乘法法定义,loss函数值越小,模型越优。求loss函数有两种方式,分别是梯度下降法和正规方程法。这个我会在另写一个blog详细讲述。
$J(\pmb{\theta}) = \frac 1{2m}\sum_{i=1}^m(h_\theta(x^{(i)}-y^{(i)}))^2$
线性回归的本质(本文核心)
线性回归,其实是根据问题建立一个模型(线性函数),并寻找最合适的参数,以达到最合适的拟合效果。
梯度下降 与 正规方程法
特征变量归一化
向量化
转载请注明来源,欢迎对文章中的引用来源进行考证,欢迎指出任何有错误或不够清晰的表达。可以在下面评论区评论,也可以邮件至 525244039@qq.com
文章标题:线性回归的通俗理解
文章字数:774
本文作者:Zikun
发布时间:2019-11-26, 22:25:50
最后更新:2019-11-26, 22:25:50
原始链接:http://zikun97.github.io/2019/11/26/%E7%BA%BF%E6%80%A7%E5%9B%9E%E5%BD%92%E7%9A%84%E9%80%9A%E4%BF%97%E7%90%86%E8%A7%A3/版权声明: "署名-非商用-相同方式共享 4.0" 转载请保留原文链接及作者。