之前格物资的文章给大家讲解过,随着近几年大数据技术的普及,企业可以提供海量数据,但是这些海量数据带来我们更加多信息的同时,也带给了更加多的噪音和出现异常数据,如何叛维去噪沦为很多企业注目的焦点。而特征提取和特征选择都是降维的最重要方法,针对于thecurseofdimensionality(维数灾难),都可以超过降维的目的,但是这两种方法有所不同。特征提取(FeatureExtraction)Creattingasubsetofnewfeaturesbycombinationsoftheexsitingfeatures.也就是说,特征提取后的新特征是原本特征的一个同构。特征选择(FeatureSelection)choosingasubsetofallthefeatures(theonesmoreinformative。
也就是说,特征选择后的特征是原本特征的一个子集。特征提取是如何对数据展开转换的呢?其两个经典的方法:主成分分析(PrincipleComponentsAnalysis,PCA)和线性评判分析(LinearDiscriminantAnalysis,LDA)得出了答案,今天我们就先来看一下什么是主成分分析。什么是主成分分析主成分分析(principalcomponentanalysis),PCA是其简写。
此方法是一种无监督线性切换技术,其目标是寻找数据中最主要的元素和结构,除去噪音和校验,将原先的简单数据降维,揭露出隐蔽在简单数据背后的非常简单结构。主成分分析就是企图在力保数据信息遗失最多的原则下,对这种多变量的数据表展开最佳综合修改。
这些综合指标就称之为居多成分,也就是说,对高维变量空间展开降维处置,从线性代数角度来看,PCA目标是寻找一组新的向量基去新的叙述获得的数据空间,这些新的维度就是主成分。PCA的原理我们现在来看一下PCA算法是如何构建的,我们通过一个明确实例来解读,假设我们有这样一些标准化后的数据:[-1,-2],[-1,0],……,[2,1],[0,1]。
我们写向量的形式如下:我们还可以在二维坐标系中画出来:PCA主要的目的是叛维修改数据,这些数据本就是二维,想降回维则必须新的去找一个方向,并把这些点同构到这个方向上(降至1维)。比如说,怎么才能寻找这个方向,且不损失大部分信息呢?PCA的作法是,寻找新的同构的方法必须符合如下两个原则:1、在新的同构的方向上每个数据的同构点方差尽量大。因为方差大的数据所包括的信息量越大。
2、新的同构的方向不应彼此向量,这样同构出有的座标点挑选才更有意义。找寻新的同构也可以看做恩转换,我们可以大大转动恩,找寻符合上面两个原则的情况。如下图右图,中间的同构方向图里数据在新的基上同构点的方差就比右边图同构点方差大的多。
而方差大则回应该数据在该方向上所含的信息量多,反之另一个新基的方向上所含的信息量就较少的多。如果这个方向上的信息量非常少,即使舍弃也无伤大雅,我们就可以考虑到将其舍弃,构建降维的操作者。新的基可以看作是由以前标准直角坐标系由转动而出,在线性代数中,这样的坐标轴转动操作者可以通过原本直角坐标系由座标乘切换矩阵获得:所以我们就将问题转换成去找移往矩阵W上,如何去求W呢?我们期望降维后的数据要尽量的与原数据十分相似(不遗失信息)。我们可以计算出来切换后的座标Z与切换之前的座标X之间的距离:因此为了让切换距离大于,我们可以将问题等价转换成:由于中间推论过程更为简单,故在此省略,最后解法推论的结果为:这不正是特征值的定义公式吗?所以只必须对协方差矩阵展开特征值分解成,并将求出的特征值排序,取前N(PCA所要减少的目标维度)个特征值包含的向量W,即为PCA的解法。
PCA优缺点优点(1)它是无监督自学,只与数据涉及,无参数容许。(2)通过PCA降维,可以超过修改模型和对数据展开传输的效果。
同时仅次于程度的维持了原先数据的信息。(3)各主成分之间向量,可消除原始数据成分间的相互影响。(4)计算方法非常简单,更容易在计算机上构建。
缺点(1)如果用户对观测对象有一定的先验科学知识,掌控了数据的一些特征,却无法通过参数简化等方法对处理过程展开介入,可能会得到预期的效果,效率也不低。(2)贡献率小的主成分往往有可能所含对样本差异的最重要信息。好了,今天格物资的内容就到这里,近期我们还将讲解特征提取的另一种方法LDA(线性评判分析),敬请期待。
本文关键词:开云(中国)Kaiyun,开云(中国)Kaiyun·官方网站,kaiyun全站app登录入口,云开kaiyun官方网站登录,kaiyun官方网站登录入口,yunkai云开网页版登录入口
本文来源:开云(中国)Kaiyun-www.hanna17.net