农企新闻网

机器学习探究性数据剖析的数据类型

发布者:刘同
导读大众号:将门创投来源: Machine Learning Blog编译:T.R数据类型是统计学中的重要概念,我们需求对它有正确的了解方能应用正确的数据类型来取得结论。这篇文章将引见几种用于机器学习探究性数据剖析的数据类型,以便正确的掌握和应用数据。对数据构造的良好了解关于机器学习中探究性剖析非常重要,关于不同的数据类型我们需求不同的统计学度量手腕来停止剖析测试。同时也需求依据数据的类型选择适宜的可

大众号:将门创投

来源: Machine Learning Blog

编译:T.R

数据类型是统计学中的重要概念,我们需求对它有正确的了解方能应用正确的数据类型来取得结论。这篇文章将引见几种用于机器学习探究性数据剖析的数据类型,以便正确的掌握和应用数据。

对数据构造的良好了解关于机器学习中探究性剖析非常重要,关于不同的数据类型我们需求不同的统计学度量手腕来停止剖析测试。同时也需求依据数据的类型选择适宜的可视化方式来协助我们更好的了解数据。最初数据类型也为变量的分类提供了一个无效的途径。

分类数据

分类数据代表着对象的属性特点。诸如人群的性别、言语、国籍大都属于分类数据。分类数据通常也可以用数值表示(例如1表示女性而0表示男性),但需求留意的是这一数值并没无数学上的意义仅仅是分类的标志而已。

定类数据

定类变量用于标志不同变量的特征,而并不需求定量的数值,它们仅仅是标签而已。需求留意定类数据是无序的,关于变量顺序的更改不会改动数据的实质特征。

机器学习探索性数据分析的数据类型

上图中表示的便是一个样本典型的分类数据,辨别描绘了集体的性别和言语属性。特别的作图中是一个只要两个属性的二叉分枝。

定序数据

定序数据代表了团圆但是有序的变量单位。它于定类数据非常类型但的确有序的数据组织。上面教育背景的数据很好地的描绘了定序数据的特点。

机器学习探索性数据分析的数据类型

上图中的四个选项顺次表示了不同的受教育水平,但却无法量化初级教育与高中的差异和高中与大学差异间的不同。定序数据缺乏关于特征间差异的量化使得它更多的只能用于评价利于心情和用户称心度等一系列非数值特征。

数值数据

团圆数据

团圆数据是指其取值是不延续的别离值,数据只能在一些特定点取值。这样的数据不能定量测量但可以停止统计计量,并可将其包含的信息经过分类的方式停止表示。掷硬币便是最著名的例子,我们无法预测出下一次硬币的正反但是可以经过统计历史数据来估测概率的散布。

当处置团圆数据时我们需求对两个成绩停止深化考虑:数据能否可以计数统计,能否可以联系成较小的局部。假如结论于此相关数据可以被测量而不可以计数,那么意味着我们需求处置的便是延续的数据类型。

延续数据

延续数据类型代表着对象可测量的延续取值,虽然不可以计数但是可以用某种尺度停止延续的测量取值,例如人的身高和年龄便是延续的数值。通常状况下人们只用或许实数来停止表示。

定距数据

定距变量用于表示对象等差属性的描绘办法。当我们运用定距变量时我们可以明白的晓得数值间的顺序和差异,并计量这种差异。关于温度的描绘就是一个定距数据典型的例子。

机器学习探索性数据分析的数据类型

但定距变量存在的成绩在于它没有一个相对的基准零值,关于上图中的温度来说0度并不意味着没有温度。关于定距变量来说我们可以停止加减操作却无法停止乘除或许比例计算操作。由于不存在相对零值使得描绘性和推感性的统计办法都无法在定距数据上使用。

定比数据

定比数据和定距数据一样都是有序的数据陈列,但定比数据存在一个相对的零值,所描绘的都是具有零值基准的变量,包括分量、高度和长度等。

机器学习探索性数据分析的数据类型

为何数据类型如此重要?

由于不同的统计办法适用于不同的数据类型,所以数据的类型关于统计和机器学习剖析非常重要。试想假如应用延续数据的剖析办法来研讨分类数据,那么十有八九会得出错误的结论。关于数据类型的了解将会有助于我们选择正确的办法和统计模型来探究和剖析数据。那么不同的数据类型我们该选择何种统计模型来剖析呢?

关于定类数据来说次要需求关注频率、比例/百分比和可视化办法三个要素。用频率度量某一事物在一定工夫或许是在数据集中发作的次数。同时可以用频率将其从数据中的占比停止统计和别离。关于这列数据来说饼图和柱状图是最好的出现方式。

机器学习探索性数据分析的数据类型

关于定序数据来说除了百分比和频率等目标外,还可以应用百分位数、中位数等统计目标来描绘数据。

关于延续数据来说可以应用更为丰厚的的手腕停止处置,除了罕见统计手腕的均值和方差外还有峰峰值、范围等目标来停止表示。为了表示数据的误差和团圆水平,带有误差棒的箱式图和直方图不失为一种直观的出现方式。经过箱图可以看到数据的集中水平和误差水平,而直方图则可以提供数据的全体形状、中值、散布以及趋向。

机器学习探索性数据分析的数据类型

在这篇文章中我们看到除了延续和团圆的数值类型外,统计学中还包括了定序数据、定类数据、定距数据和定比数据等类别。关于不同的数据类型有着不同的剖析和可视化办法,在着手处置数据时,了解数据是开端任务的首要条件,不只有助于我们选择正确的工具和办法,更有助于我们用正确的思想去探究和剖析数据,更容易地得出正确无效的结论。