数学之美

一统计语言模型

马尔可夫假设：假定一个词wi出现概率只与它前面的词wi-1有关
所以一句话S如果由特定的词 w1,w2 ..... wn组成，那么：

与基于规则的系统相比，统计语言模型被证明是有效且准确率高的。

三隐马尔科夫模型

目前为止仍是实现快速精确的语音识别系统最成功的方法。

当我们观测到语音信号 o1,o2,o3 时，我们要根据这组信号推测出发送的句子s1,s2,s3。显然，我们应该在所有可能的句子中找最有可能性的一个。用数学语言来描述，就是在已知 o1,o2,o3,...的情况下，求使得条件概率P (s1,s2,s3,...|o1,o2,o3....) 达到最大值的那个句子 s1,s2,s3。
利用贝叶斯公式并且省掉一个常数项，可以把上述公式等价变换成：P(o1,o2,o3,...|s1,s2,s3....) * P(s1,s2,s3,...)
其中，P(o1,o2,o3,...|s1,s2,s3....) 表示某句话 s1,s2,s3...被读成 o1,o2,o3,...的可能性, 而P(s1,s2,s3,...) 表示字串 s1,s2,s3,...本身能够成为一个合乎情理的句子的可能性。

再加上两个假设：
第一， s1,s2,s3,... 是一个马尔可夫链，也就是说， si 只由 si-1 决定。
第二，第 i 时刻的接收信号 oi 只由发送信号 si 决定

四信息理论

信息度量：信息熵，单位：bit
对于任意一个随机变量 X（比如得冠军的球队），它的熵定义如下：

七信息理论在信息处理中的应用

语言模型是为了用上下文预测当前的文字，模型越好，预测得越准，那么当前文字的不确定性就越小。
信息熵正是对不确定性的衡量，因此信息熵可以直接用于衡量统计语言模型的好坏。
信息论中仅次于熵的另外两个重要的概念是“互信息”（Mutual Information) 和“相对熵”（Kullback-Leibler Divergence)。
互信息是信息熵的引申概念，它是对两个随机事件相关性的度量。比如说今天随机事件北京下雨和随机变量空气湿度的相关性就很大，但是和姚明所在的休斯敦火箭队是否能赢公牛队几乎无关。互信息就是用来量化度量这种相关性的。 互信息可以解决多义词的翻译问题。
相对熵 相对熵用来衡量两个正函数是否相似，对于两个完全相同的函数，它们的相对熵等于零。在自然语言处理中可以用相对熵来衡量两个常用词（在语法上和语义上）是否同义，或者两篇文章的内容是否相近等等。

五布尔代数和搜索引擎的索引

早期的文献检索查询系统大多基于数据库，严格要求查询语句符合布尔运算。比如我们要找有“关原子能应用” 的文献，但并不想知道如何造原子弹。我们可以这样写一个查询语句：
“原子能 AND应用 AND (NOT 原子弹)”

今天的搜索引擎相比之下要聪明的多，它自动把用户的查询语句转换成布尔运算的算式。当然在查询时，不能将每篇文献扫描一遍，来看看它是否满足上面三个条件，因此需要建立一个索引。

最简单索引的结构是用一个很长的二进制数表示一个关键字是否出现在每篇文献中。有多少篇文献，就有多少位数，每一位对应一篇文献， 1 代表相应的文献有这个关键字， 0 代表没有。比如关键字“原子能”对应的二进制数是 0100100001100001...，表示第二、第五、第九、第十、第十六篇文献包含着个关键字。注意，这个二进制数非常之长。样，我们假定“应
用”对应的二进制数是 0010100110000001...。那么要找到同时包含“原子能”和“应用”的文献时，只要将这两个二进制数进行布尔运算 AND。

再复杂一些的索引非常之大，以至于不可能用一台计算机存下。大家普遍的做法就是根据网页的序号将索引分成很多份（Shards)，分别存储在不同的服务器中。每当接受一个查询时，这个查询就被分送到许许多多服务器中，这些服务器同时并行处理用户请求，并把结果送到主服务器进行合并处理，最后将结果返回给用户。

九确定网页和查询的相关性

确定关键词搜索筛选后，哪些网页应该排在前面呢？
关键词词频+权重
应删除词（的，是，和等等）
ＴＦ／ＩＤＦ（term frequency/inverse document frequency) 的概念被公认为信息检索中最重要的发明。在搜索、文献分类和其他相关领域有广泛的应用。IDF的概念就是一个特定条件下、关键词的概率分布的交叉熵。

一 统计语言模型

三 隐马尔科夫模型

四 信息理论

七 信息理论在信息处理中的应用

五 布尔代数和搜索引擎的索引

九 确定网页和查询的相关性