第七章 一个完整搜索系统中的评分计算

7.1快速评分及排序

思想:把查询向量看成是1,<1,1,1,..>,这样的话,计算query和文档d的余弦相似度时,只需要累加文档d的权重即可

7.1.1 非精确的返回前k偏文档的方法

思想:1)先找一个文档集合A;条件是包含很多和前k偏文档得分相近的文档;K<|A|<<N,远远小于文档总户
2)返回集合A中的得分最高的前K篇文档;

7.1.2 索引去除技术

思想:
1)在倒排中查询字典时,词项idf值超过一定阀值的文档被留下;小于阀值的文档将忽略掉。自己考虑好处?
2)只留下包含多个查询词项的文档;

这样的话,可以把倒排索引中的很多拉链数据过滤掉。也就是所说的索引去除技术;

7.1.3 胜者表

champion list (同义:fancy list ; top doc)

思想: 对于词典中的每个词项term,预先计算前r个最高权重的文档; 使用时,也就是这些文档参与相似度计算;

7.1.4 静态得分和排序

static quality score: 静态质量得分 简称:静态得分

7.1.5影响度排序

7.1.6 簇剪枝法

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容

  • 这个系列的第六个主题,主要谈一些搜索引擎相关的常见技术。 1995年是搜索引擎商业公司发展的重要起点,《浅谈推荐系...
    我偏笑_NSNirvana阅读 11,679评论 3 24
  • Solr&ElasticSearch原理及应用 一、综述 搜索 http://baike.baidu.com/it...
    楼外楼V阅读 12,126评论 1 17
  • 1. Java基础部分 基础部分的顺序:基本语法,类相关的语法,内部类的语法,继承相关的语法,异常的语法,线程的语...
    子非鱼_t_阅读 31,929评论 18 399
  • 前天中午去影院看了那部迟到的生日礼物大鱼海棠,但是没想到还送给了自己一份礼物泪流满面。 我不去追究剧情,我只想...
    Craquelure阅读 1,417评论 0 0
  • 01 世人皆有爱美之心。 上幼儿园的时候就听过《丑小鸭》的故事。一只天鹅蛋在鸭群中破壳了,因为这只小天鹅长得丑,不...
    夕夕酱阅读 2,767评论 0 8