搜索系统 搭建

solr和elasticsearch选型

solr与Elasticsearch对比:

http://solr-vs-elasticsearch.com/

http://stackoverflow.com/questions/10213009/solr-vs-elasticsearch

数据采集爬虫系统

语言选择

Python 提取速度快,性能较好

Java 优点是目前开发人员比较熟悉,缺点是语言比较重,数据计算量大时系统开销会比较大。

PHP 各种功能模块齐全,但并发处理能力较弱

成熟的爬虫框架

抓取目标

电商网站 商品图片 商品名称 商品价格

搜索系统的商品数据获取方式

传统方式  接收商品系统推送的商品消息,创建索引

爬虫  初始化数据,后续如果商品系统接入API,可以考虑实现传统方式接入。避免重度依赖商品系统。可以先行。

搜索引擎消息队列

rabbitMQ

分词词库的创建

英文以空格分词

若有特殊需求,考虑使用开源分词(rake等)或者自己编写分词器

日志(查询日志、点击日志)收集、展示、分析

Kibana和logstash

搜索联想

solr suggester:https://wiki.apache.org/solr/Suggester

Elasticsearchsuggests:https://www.elastic.co/guide/en/elasticsearch/reference/current/search-suggesters.html#search-suggesters

数据指标:准确率、召回率

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容