solr和elasticsearch选型
solr与Elasticsearch对比:
http://solr-vs-elasticsearch.com/
http://stackoverflow.com/questions/10213009/solr-vs-elasticsearch
数据采集爬虫系统
语言选择
Python 提取速度快,性能较好
Java 优点是目前开发人员比较熟悉,缺点是语言比较重,数据计算量大时系统开销会比较大。
PHP 各种功能模块齐全,但并发处理能力较弱
成熟的爬虫框架
抓取目标
电商网站 商品图片 商品名称 商品价格
搜索系统的商品数据获取方式
传统方式 接收商品系统推送的商品消息,创建索引
爬虫 初始化数据,后续如果商品系统接入API,可以考虑实现传统方式接入。避免重度依赖商品系统。可以先行。
搜索引擎消息队列
rabbitMQ
分词词库的创建
英文以空格分词
若有特殊需求,考虑使用开源分词(rake等)或者自己编写分词器
日志(查询日志、点击日志)收集、展示、分析
Kibana和logstash
搜索联想
solr suggester:https://wiki.apache.org/solr/Suggester
Elasticsearchsuggests:https://www.elastic.co/guide/en/elasticsearch/reference/current/search-suggesters.html#search-suggesters
数据指标:准确率、召回率
