机器学习实战——Logistic回归

【主要内容】

  • Sigmoid函数和Logistic回归分类器
  • 最优化理论初步
  • 梯度下降最优算法
  • 数据中的缺失项处理

【Sigmoid函数】

  • 类似阶跃函数,数学上更易处理
  • 为了实现L机器学习实战——Logistic回归ogistic回归分类器,
    • 把每个特征都乘以一个回归系数,
    • 然后把所有的结果值想加,
    • 将这个总和带入Sigmoid函数
    • 得到一个范围在0~1之间的数值
  • 0.5 1类,<0.5 0类

  • 剩下的问题:回归系数(参数)

【最优化方法】

  • 梯度上升
    • 思想:要找到某函数的最大值,最好的方法就是沿着该函数的梯度方向探寻。(函数沿着各个分量求偏导)
    • 公式:w := w+alpha*gradient(f(w),w)
      • alpha是步长,影响误差
    • 梯度下降(求最小值)
  • 梯度上升求最优参数实战
    • 数据集整理
    • 梯度的计算
      • 数学公式推导(李航、NG)
        • 李航的略复杂(sigmoid函数复杂)
        • NG:
          • 基于sigmoid函数求1-0的概率
          • 基于概率求似然函数—>求对数似然函数
          • 求max对数似然函数
            • 梯度上升,求对数似然函数的求导(y-h(x))x,然后梯度算法
            • 牛顿迭代算法,求对数似然函数一阶导数、二阶导数,然后求一阶导数为0的点
    • 算法
      • 解析格式化数据
      • 准备公式的因子: error=(labels - sigmoid(w*x))
      • 梯度:x*error
      • 梯度算法迭代:w=w-alphaxerror
      • 迭代500次
      • result:
Paste_Image.png
- 优化:
    - 迭代次数500?
    - 能否不要每次计算都遍历所有样本?
    - 优化算法
        - 单样本随机梯度
        - 样本次序随机
        - 收敛情况:
Paste_Image.png
  • 其他的调研

【缺失数据项的处理】

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容