分词总结

本文主要是自己在阅读jieba源码的理解做一下分词算法的总结,分为工程和算法两部分进行。

算法

现在的中文分词以规则+统计为主要实现方式。所以大致分为:1、词典的存储方式。2、query表达。3、译码。4、对于单字序列用HMM发现新词。

  • 词典的存储方式
  1. trier树
lfreq = {}  
    trie = {}  
    ltotal = 0.0  
    with open(f_name, 'rb') as f:  
        lineno = 0   
        for line in f.read().rstrip().decode('utf-8').split('\n'):  
            lineno += 1  
            print "lineno: ", lineno
            print len(trie)
            try:  
                word,freq,_ = line.split(' ')  
                freq = float(freq)  
                lfreq[word] = freq  
                ltotal+=freq  
                p = trie  
                for c in word:  
                    if c not in p:  
                        p[c] ={}  
                    p = p[c]  
                p['']='' #ending flag  
  1. 前缀数组
lfreq = {}
        ltotal = 0
        f_name = resolve_filename(f)
        for lineno, line in enumerate(f, 1):
            try:
                line = line.strip().decode('utf-8')
                word, freq = line.split(' ')[:2]
                freq = int(freq)
                lfreq[word] = freq
                ltotal += freq
                for ch in xrange(len(word)):
                    wfrag = word[:ch + 1]
                    if wfrag not in lfreq:
                        lfreq[wfrag] = 0

翻看结巴的发布历史,发现最开始用的trier树的方式,现在采用的是前缀数组的方式进行存储。这儿加一段自己的理解,为什么后来用前缀数组来表示,因为字典树的优势在于其查找的速度上,其复杂度为o(n)(n为query的长度,和树的深度没有关系)。但是python的dict是散列表实现其查找复杂度为O(1),trier树的优势不再存在,但是c++等语言中字典是红黑树实现的,其优势还是比较明显。而前缀数组相较于tier树不用保存单词间的依赖关系,因为其速度和所占用的内存上回更有优势。

  • query表达

一般是将输入query转换成有向无环图

这一步的主要作用是将query根据第一步加载的词典生成有向无环图,有向无环图大概长这样:

DAG
0 [0]
1 [1]
2 [2, 4]
3 [3, 4]
4 [4]
5 [5]
6 [6]
7 [7]
8 [8]

即表示的是每一个输入query的token序列的所有成词的方式,后面的译码算法会根据这个图进行译码。常见的译码算法包括最大正向匹配算法,最大概率译码方式。jieba采用的最大概率译码。注意在表示

  • 译码

根据query的有向无环图,这儿介绍最大概率译码和最大正向匹配译码

最大正向匹配算法

 dag = self.get_DAG(sentence)
        old_j = -1
        for k, L in iteritems(dag):
            if len(L) == 1 and k > old_j:
                yield sentence[k:L[0] + 1]
                old_j = L[0]
            else:
                if len(L) > 1 and  k > old_j:
                    yield sentence[k:L[-1] + 1]
                    old_j = L[-1]

最大概率

def calc(self, sentence, DAG, route):
        N = len(sentence)
        route[N] = (0, 0)
        logtotal = log(self.total)
        for idx in xrange(N - 1, -1, -1):
            route[idx] = max((log(self.FREQ.get(sentence[idx:x + 1]) or 1) -
                              logtotal + route[x + 1][0], x) for x in DAG[idx])
  • HMM发现新词

对于译码出的单字序列使用HMM发现新词。HMM的原理和代码详见我的github:
HMM介绍及code实现

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容

  • 1 序 2016年6月25日夜,帝都,天下着大雨,拖着行李箱和同学在校门口照了最后一张合照,搬离寝室打车去了提前租...
    RichardJieChen阅读 5,243评论 0 12
  • 承接前面的《浅谈机器学习基础》、《浅谈深度学习基础》和《浅谈自然语言处理基础》,主要参考了《解析深度学习:语音识别...
    我偏笑_NSNirvana阅读 23,714评论 6 66
  • 命名实体识别 命名实体的提出源自信息抽取问题,即从报章等非结构化文本中抽取关于公司活动和国防相关活动的结构化信息,...
    我偏笑_NSNirvana阅读 10,451评论 1 35
  • 我是一个非名牌大学的研究生,虽说是研究生,可并不优秀的那种。 不知道有没有有跟我一样的感觉,从小就是别人眼中的好学...
    一滴小小水阅读 215评论 0 0
  • 题目1: 实现如下图Tab切换的功能Tabcode题目2:实现下图的模态框功能,点击模态框不隐藏,点击关闭以及模态...
    饥人谷_醉眼天涯阅读 136评论 0 0