机器学习

1. 过拟合和欠拟合

过拟合:
 一个训练集产生的模型在训练数据上表现良好,但对新数据的泛化能力却很差。
欠拟合:
 一个训练集产生的模型在训练数据上表现不良,模型需要不断完善。

2. 数据划分方式

可划分为三个数据集:
 ①建立模型的数据集
 ②在训练好的模型上选择的验证集
 ③判断最终模型的测试集

3. 正确性

3.1 预测模型

| 真 | 假
----|--|----
预测为真 | 真阳性 | 假阳性
预测为假| 假阴性 | 真阴性

3.2 度量方法

查准率
 预测正确占所有预测的百分比
查全率
 预测正确占所有正确的百分比
F1得分
 2*查准率*查全率/(查全率+查准率)

4. 偏倚和方差

①高偏倚,低方差 =》对应少特征值拟合(欠拟合)
  解决:适当增加特征值
②低偏倚,高方差 =》对应多特征值拟合(过拟合)
 解决:适当减少特征值
增加数据量可大大减少过拟合问题

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容