抓取 千股千评

1.因为东财的数据是通过异步提取,所有可以以
用浏览器的开发工具 network-js-刷新 的方式得到数据接口
分析后以 3426项为结束 并用1页请求下来, 避免东财的监控

http://datainterface.eastmoney.com/EM_DataCenter/JS.aspx?type=FD&sty=TSTC&st=1&sr=1&p=1&ps=3426

2.使用scrapy 以 scrapy.Request 分两步爬取
1步爬取本页的基本数据
2步分析另一页的链接 并爬取数据(以http://data.eastmoney.com/stockcomment/%s.html %s为股票代码 得到详情页)

3 将两页的数据合并在一起 存入数据库
4 定时更新时分为按股票代码 如果存在就存储 如果已经有了,就更新的原则

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容