【主要内容】
- Sigmoid函数和Logistic回归分类器
- 最优化理论初步
- 梯度下降最优算法
- 数据中的缺失项处理
【Sigmoid函数】
- 类似阶跃函数,数学上更易处理
- 为了实现L机器学习实战——Logistic回归ogistic回归分类器,
- 把每个特征都乘以一个回归系数,
- 然后把所有的结果值想加,
- 将这个总和带入Sigmoid函数
- 得到一个范围在0~1之间的数值
0.5 1类,<0.5 0类
- 剩下的问题:回归系数(参数)
【最优化方法】
- 梯度上升
- 思想:要找到某函数的最大值,最好的方法就是沿着该函数的梯度方向探寻。(函数沿着各个分量求偏导)
- 公式:w := w+alpha*gradient(f(w),w)
- alpha是步长,影响误差
- 梯度下降(求最小值)
- 梯度上升求最优参数实战
- 数据集整理
- 梯度的计算
- 数学公式推导(李航、NG)
- 李航的略复杂(sigmoid函数复杂)
- NG:
- 基于sigmoid函数求1-0的概率
- 基于概率求似然函数—>求对数似然函数
- 求max对数似然函数
- 梯度上升,求对数似然函数的求导(y-h(x))x,然后梯度算法
- 牛顿迭代算法,求对数似然函数一阶导数、二阶导数,然后求一阶导数为0的点
- 数学公式推导(李航、NG)
- 算法
- 解析格式化数据
- 准备公式的因子: error=(labels - sigmoid(w*x))
- 梯度:x*error
- 梯度算法迭代:w=w-alphaxerror
- 迭代500次
- result:

Paste_Image.png
- 优化:
- 迭代次数500?
- 能否不要每次计算都遍历所有样本?
- 优化算法
- 单样本随机梯度
- 样本次序随机
- 收敛情况:

Paste_Image.png
- 其他的调研
【缺失数据项的处理】
