机器学习 西瓜书 Day18 概率图模型(上)

p319 - p330
今天在寝室宅了一天
或者说玩了一天:)
晚上好运吧
进入第14章

第14章 概率图模型

14.1 隐马尔科夫模型

概率模型提出了一种描述框架,将学习任务归结于计算变量的概率分布。

生成式vs判别式
生成式考虑的是建立联合分布P(Y,R,O)
判别式考虑条件分布P(Y,R|O)

概率图模型是一类用图来表达变量相关关系的概率模型。
节点表示一个或一组随机变量。
节点之间的边表示变量间的概率相关关系,即“变量关系图”。
根据边的性质不同,分为两类:
1)用DAG表示变量间的依赖关系,称为有向图或贝叶斯网
2)使用无向图表示变量相关关系,称为无向图模型或马尔科夫网。

隐马尔科夫模型(HMM)是结构最简单的贝叶斯网。有向图模型、
状态变量、观测变量。
状态转移概率矩阵A,输出观测概率矩阵B,初始状态概率π。

通过制定状态空间、观测空间、ABπ就能确定一个隐马尔科夫模型。
产生观测序列的过程:
1)选择初始状态。
2)选择观测变量取值。
3)选择转移
4)重复(1)-(3)

实际应用中关注三个基本问题:
1)给定模型,如何有效计算产生观测序列的概率?即如何评估模型与观测序列的匹配程度。
例:根据以往观测序列计算当前时刻最有可能的观测值。
2)给定模型与观测序列,如何找到与观测最匹配的状态序列。
例:语音识别中根据观测信号推测状态序列(对应文字)
3)给定观测序列,如何确定模型参数使出现此序列的概率最大。
例:人工指定模型参数不靠谱,怎么学出来最好的参数。

14.2 马尔科夫随机场

马尔科夫随机场(MRF)是典型的马尔科夫网。

图中每个节点表示一个或一组变量,节点之间的边表示两个变量之间的依赖关系。

马尔科夫随机场有一组势函数,来定义概率分布函数。

马尔科夫随机场中,多个变量之间的联合概率分布能基于团分解成多个因子的乘积,每个因子仅与一个团相关。
用团太多了,所以只用极大团

条件独立性的定义:
见p32图14.3 若从点集A到点集B中的结点必须经过点集C中的结点,则称A和B被C分离,C称为“分离集”。
对马尔科夫随机场有:全局马尔科夫性,即给定两个变量子集的分离集,则这两个变量子集条件独立。

由全局马尔科夫性可获得两个推论:局部马尔科夫性成对马尔可夫性。详细见p324-325。

对于势函数,非负且在所偏好的变量取值上有较大函数值。

14.3 条件随机场

隐马尔科夫与HMM都是生成式
条件随机场(CRF)是一种判别式,计算的是条件概率。

若图G中的每个变量yv都满足马尔科夫性,则(y,x)构成一个条件随机场。

主要讨论链式条件随机场,结构见p326图14.6

14.4 学习与推断

“条件分布”、“边际分布”

参数确定:称为参数估计或参数学习。
通常使用极大似然估计或最大后验概率估计。
若将参数视为待推测的变量,则参数估计很像“推断”。

推断问题的目标就是计算边际概率与条件概率。

推断方法大致分为两类:精确推断、近似推断。

©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容

  • 机器学习的核心思想就是根据已知的内容去推测未知的内容,然后在已知和未知之间建立起联系,这个联系就是机器学习中的各种...
    闪电随笔阅读 9,359评论 1 7
  • 神经网络 原理 《机器学习》周志华 14.1 隐马尔可夫模型 机器学习最重要的任务,是根据一些已观察到的证据(例如...
    hxiaom阅读 5,342评论 0 1
  • 今天带着悠悠去学校加班一整天,当忙完一切,有些疲倦又有一些欣喜。我发现,我的寒假即将拉开帷幕。 当老师的最大好处就...
    枝枝Rena阅读 2,981评论 0 1
  • 主,我感谢你如此奇妙、全备、丰富的恩典临到我这败坏不堪、破碎不堪的器皿。 在这过程中,我一面看到你匠人的手对我的陶...
    張瑞利阅读 3,068评论 0 0
  • 1.中午工作餐时间,嘴里一边嚼着公司餐厅大厨掌勺的红烧排骨,一边用手机刷着各大网站的图书打折消息。自言自语的模式瞬...
    花花晨阅读 1,657评论 0 1