R语言机器学习算法实战系列(八)逻辑回归算法 (logistic regression)

image.png
  1. R语言机器学习算法实战系列(一)XGBoost算法+SHAP值(eXtreme Gradient Boosting)
  2. R语言机器学习算法实战系列(二) SVM算法+重要性得分(Support Vector Machine)
  3. R语言机器学习算法实战系列(三)lightGBM算法+SHAP值(Light Gradient Boosting Machine)
  4. R语言机器学习算法实战系列(四)随机森林算法+SHAP值 (Random Forest)
  5. R语言机器学习算法实战系列(五)GBM算法+SHAP值 (Gradient Boosting Machines)
  6. R语言机器学习算法实战系列(六)K-邻近算法 (K-Nearest Neighbors)
  7. R语言机器学习算法实战系列(七)朴素贝叶斯分类算法 (Naïve Bayes Classifier)
  8. R语言机器学习算法实战系列(八)逻辑回归算法 (logistic regression)
  9. R语言机器学习算法实战系列(九)决策树分类算法 (Decision Trees Classifier)
  10. R语言机器学习算法实战系列(十)自适应提升分类算法 (Adaptive Boosting)
  11. R语言机器学习算法实战系列(十一)MLP分类算法 (Multi-Layer Perceptrons)
  12. R语言机器学习算法实战系列(十二)线性判别分析分类算法 (Linear Discriminant Analysis)

介绍

逻辑回归分类算法的原理是基于概率的,它通过估计一个给定输入样本属于某个类别的概率来进行分类。下面是逻辑回归算法的原理和步骤:

image.png

原理:

  1. 线性假设:逻辑回归假设特征和输出之间存在线性关系。对于二分类问题,我们想要预测的是一个概率值,即样本属于某个类别的概率。
  2. Sigmoid函数:为了将线性回归的输出转换为概率值(一个介于0和1之间的值),逻辑回归使用Sigmoid函数。
  3. 对数几率(Log-odds):Sigmoid函数的输入是对数几率,即特征的线性组合。对数几率表示的是特征和类别标签之间的线性关系。
  4. 最大似然估计:逻辑回归模型的参数通常通过最大似然估计(MLE)来确定。这意味着找到一组参数值,使得观察到的数据出现的概率最大。

步骤:

  1. 数据准备:收集数据并进行预处理,如特征缩放、处理缺失值等。
  2. 模型初始化:初始化模型参数,通常使用随机值或零。
  3. 计算对数几率:对于每个样本,计算其特征的线性组合
  4. 应用Sigmoid函数:将对数几率通过Sigmoid函数转换为概率值
  5. 预测:根据概率值和设定的阈值(通常为0.5)来确定样本的类别。如果概率值大于阈值,则预测为类别1,否则为类别0。
  6. 损失函数:定义损失函数,逻辑回归通常使用交叉熵损失(Cross-Entropy Loss)。
  7. 参数更新:使用梯度下降或其它优化算法来更新模型参数,以最小化损失函数。

教程

本文旨在通过R语言实现LR,总共包含:

  1. 下载数据
  2. 加载R包
  3. 数据预处理
  4. 数据描述
  5. 数据切割
  6. 构建模型
  7. 预测测试数据
  8. 评估模型
  9. 特征的重要性
  10. 保存模型
  11. 总结
  12. 系统信息

更多内容

R语言机器学习算法实战系列(八)逻辑回归算法 (logistic regression)

image.png
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容