机器学习 西瓜书 Day15 特征选择与稀疏学习

p247 - p266
哈哈哈感觉今天看书的状态不错
看来有希望把欠的两天都补上呀
不多说了进入第11章

第11章 特征选择与稀疏学习

11.1 子集搜索与评价

从给定的特征集合中选择相关特征子集的过程,称为“特征选择”。
特征选择是一个重要的数据预处理过程。
能降低“维数灾难”风险,并有降维的效果。

处理高维数据的两大主流技术:“降维”、“特征选择”。

“无关特征”,“冗余特征”?
如果“冗余特征”对应了一个中间过程,那么这个“冗余过程”是有益的。

怎么选特征?
产生一个“候选子集”,评价出好坏,基于评价产生下一个候选子集,再评价,直到收敛。
两个问题:
1)如何获取候选子集?
“子集搜索问题”。前向(非常像决策树)、后向、双向。
贪心策略,并不能全局最优。

2)如何评价好坏?
使用信息增益。
实际上,特征子集对应了一个对数据集D的划分,真实label对应了一个划分。想办法比较这两个划分的差异就能评价好坏。

特征搜索+子集评价:特征选择。
常见分为三类:过滤式、包裹式、嵌入式。

11.2 过滤式选择

过滤式方法先对数据集进行特征选择,再训练学习器。特征选择和学习器无关。

Relief:著名的特征选择方法。
设计了一个“相关统计量”来度量特征的重要性。

对每个样本先选择最近的同类样本,在选择最近的不同类样本。
相关统计量对于每个属性j的计算方法:p250 式11.3

FRelief:对多分类的扩展。

11.3 包裹式选择

包裹式选择考虑学习器,把学习器的性能作为评价指标。
也就是要给学习器选择最有利于其性能,量身定做的特征子集。

开销自然会比过滤式大。

LVW:典型的包裹式选择方法。(拉斯维加斯框架下)
伪码见p251

LVW中特征子集搜索采用了随机策略,每次评价都得重新训练学习器,故计算开销是很大的。
同时,由于是拉斯维加斯框架,故可能给不出解。

11.4 嵌入式选择和L1正则化

嵌入式:学习器训练过程中自动进行了特征选择。

当维数较大样本较少,容易陷入过拟合。
故加入正则项。

而L1范数是比L2更容易得到更稀疏的解的,也就是说w中0更多。也就是选择了特征。
p252 式11.7称为LASSO

从而基于L1正则化的学习方法就是一种嵌入式特征选择方法

L1正则化问题的求解可使用近端梯度下降方法(PGD)。详细原理见p253-254。
PGD可以使LASSO和其他基于L1范数最小化的方法得以快速求解。

11.5 稀疏表示与字典学习

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容

  • 机器学习是做NLP和计算机视觉这类应用算法的基础,虽然现在深度学习模型大行其道,但是懂一些传统算法的原理和它们之间...
    在河之简阅读 20,686评论 4 65
  • 特征选择与稀疏学习 原理 《机器学习》周志华 11.1 子集搜索与评价 对一个学习任务来说,给定属性集,其中有些属...
    hxiaom阅读 5,386评论 0 1
  • sklearn、XGBoost、LightGBM的文档阅读小记 文章导航 目录 1.sklearn集成方法 1.1...
    nightwish夜愿阅读 14,363评论 1 49
  • 因为偶然的原因,我就在刚才才看完这部电影,平时不太看电影的。 因为初中有女生说我像爱德华,我也颇有兴趣,看...
    怪言残喘阅读 2,778评论 0 0
  • 在家里,我的身体稍微有些胖,爸爸妈妈每天给我做,粗茶淡饭,吃的我,看到那些绿油油的菜,我就感到,恶心。但是,今天的...
    李冠良阅读 1,501评论 0 0