文章目录
0. 前言1. 主成分分析PCA如果这篇文章对你有一点小小的帮助,请给个关注,点个赞喔,我会非常开心的~
0. 前言
维数灾难:在高维情形下出现的数据样本稀疏、距离计算困难等问题。
缓解维数灾难的方法是降维。
降维的好处:
舍弃部分信息后能使得样本的采样密度增大当数据受到噪声影响时,舍弃的无关信息往往与噪声有关
1. 主成分分析PCA
主成分分析(Principal Component Analysis)是常用的降维方法。
PCA假设存在这样的超平面:
最近重构性:样本点到这个超平面的距离都足够近最大可分性:样本点在这个超平面上的投影能尽可能分开,即方差最大化
PCA算法如下图所示(图源:机器学习),基于线性变换进行降维:Z=WTXZ=W^TXZ=WTX:
奇异值分解SVD:通常可以使用SVD代替特征值分解:svd=UΣVTsvd=U\Sigma V^Tsvd=UΣVT,Σ\SigmaΣ的对角线元素为奇异值,选择最大的d′d'd′个奇异值,对应向量为矩阵UUU的前d′d'd′列。
设置一个阈值确定降维后需要保持多少的原始信息,以此来设定降维维度:
∑i=1d′λi∑i=1dλi⩾t\frac{\sum_{i=1}^{d'}\lambda_i}{\sum_{i=1}^d\lambda_i}\geqslant t ∑i=1dλi∑i=1d′λi⩾t
其中,λ\lambdaλ表示特征值或者奇异值。
如果这篇文章对你有一点小小的帮助,请给个关注,点个赞喔,我会非常开心的~