大众号/将门创投
来源: towards data science
编译:T.R
任何一个机器学习成绩都有着不止一种算法来处理,在机器学习范畴“没有收费的午餐”的意思就是没有一个关于一切成绩都很好的算法。机器学习算法的表现很大水平上与数据的构造和规模有关。所以判别算法功能最好的方法就是在数据上运转比拟后果。
不过与此同时我们关于算法的优缺陷有一定的理解可以协助我们找需求的算法。本文将会引见三种回归算法及其优缺陷,将会为我们了解和选择算法提供很好的协助。
线性和多项式回归
在这一复杂的模型中,单变量线性回归的义务是树立起单个输出的独立变量与因变量之间的线性关系;而多变量回归则意味着要树立多个独立输出变量与输入变量之间的关系。除此之外,非线性的多项式回归则将输出变量停止一系列非线性组合以树立与输入之间的关系,但这需求拥有输出输入之间关系的一定知识。训练回归算法模型普通运用随机梯度下降法(SGD)。
优点:
- 建模迅速,关于小数据量、复杂的关系很无效;
- 线性回归模型非常容易了解,有利于决策剖析。
缺陷:
- 关于非线性数据或许数据特征间具有相关性多项式回归难以建模;
- 难以很好地表达高度复杂的数据。
神经网络
神经网络由一系列称为神经元的节点经过外部网络衔接而成,数据的特征经过输出层被逐级传递到网络中,构成多个特征的线性组合,每个特征会与网络中的权重互相作用。随后神经元对线性组合停止非线性变化,这使得神经网络模型具有对多特征复杂的非线性表征才能。神经网络可以具有多层构造,以加强关于输出数据特征的表征。人们普通应用随机梯度下降法和反向传达法来对神经网络停止训练,请参照上述图解。
优点:
- 多层的非线性构造可以表达非常复杂的非线性关系;
- 模型的灵敏性使得我们不需求关怀数据的构造;
- 数据越多网络表现越好。
缺陷:
- 模型过于复杂,难以解释;
- 训练进程需求弱小算力、并且需求微调超参数;
- 对数据量依赖大,但惯例机器学习成绩则运用较小量数据。
回归树和回归森林
让我们从最根本的概念动身,决策树是经过遍历树的分支并依据节点的决策选择下一个分支的模型。树型感知应用训练数据作为数据,依据最合适的特征停止拆分,并不时停止循环指点训练数据被分到一类中去。树立树的进程中需求将别离树立在最地道的子节点上,从而在别离特征的状况下坚持别离数目尽能够的小。地道性是来源于信息增益的概念,它表示关于一个不曾谋面的样本需求多大的信息量才干将它正确的分类。实践上经过比拟熵或许分类所需信息的数量来定义。而随机森林则是决策树的复杂集合,输出矢量经过多个决策树的处置,最终的关于回归需求对输入数据取均匀、关于分类则引入投票机制来决议分类后果。
优点:
- 具有很高的复杂度和高度的非线性关系,比多项式拟合拥有更好的效果;
- 模型容易了解和论述,训练进程中的决策边界容易理论和了解。
缺陷:
- 由于决策树有过拟合的倾向,完好的决策树模型包括很多过于复杂和非必需的构造。但可以经过扩展随机森林或许剪枝的办法来缓解这一成绩;
- 较大的随机数表现很好,但是却带来了运转速度慢和内存耗费高的成绩。