爬虫小思路

最近考试,好久没写代码了

而实习却是在弄爬虫,虽然还没上测试环境跑过

但是最近在思考不同的网站验证逻辑该怎麽躲过?

对于滑动验证可以采用seleniu+phantomJS来模拟

对于图片验证

打算采用java调用python来处理(但是部门没有一套自己的python训练框架,估计会采用第三方或者别的部门的接口)

但是自己来搞也需要有思路

1.拖动补全图片

2.数字验证码

3.根据文字选择合适的图片进行补全

这些github均有现成的模块可以模仿调用

而公司的那套框架已经封装了那种爬虫链,也就是爬虫上下文,基本的逻辑也就是单纯地解析,而对于附带的数据应该注意一些反爬的校验数据应该携带,浏览器的代理应该注意,增加容错机制等等

©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容