登录注册写文章

爬虫小思路

爬虫小思路

最近考试，好久没写代码了

而实习却是在弄爬虫，虽然还没上测试环境跑过

但是最近在思考不同的网站验证逻辑该怎麽躲过？

对于滑动验证可以采用seleniu+phantomJS来模拟

对于图片验证

打算采用java调用python来处理（但是部门没有一套自己的python训练框架，估计会采用第三方或者别的部门的接口）

但是自己来搞也需要有思路

1.拖动补全图片

2.数字验证码

3.根据文字选择合适的图片进行补全

这些github均有现成的模块可以模仿调用

而公司的那套框架已经封装了那种爬虫链，也就是爬虫上下文，基本的逻辑也就是单纯地解析，而对于附带的数据应该注意一些反爬的校验数据应该携带，浏览器的代理应该注意，增加容错机制等等

©著作权归作者所有,转载或内容合作请联系作者
平台声明：文章内容（如有图片或视频亦包括在内）由作者上传并发布，文章内容仅代表作者本人观点，简书系信息发布平台，仅提供信息存储服务。

推荐阅读更多精彩内容

Android - 收藏集
Android 自定义View的各种姿势1 Activity的显示之ViewRootImpl详解 Activity...
passiontim阅读 174,351评论 25赞 709
为什么你会写自嗨型文案？
导读：在“顶尖文案”五周年现场，李叫兽受邀做了关于X型文案和Y型文案的分享。如何减少文案中的“自嗨现象”，写真正用...
怕什么怕只有努力了阅读 1,874评论 3赞 40
升维“攻击”
昨天看到一篇很有趣的文章，里面讲到了升维“攻击”的问题。那么神马是升维“攻击”呢？简单地说就是通过提升自己来降低...
若水Dewlight阅读 512评论 0赞 1
一种来自心理上被侵扰的不安
有一次在学校饭堂排队的时候被搭讪，当时我因为工作的原因刚进入一个新的圈子，对圈子里的所有人还没有能完全认得，所以当...
PEIPEIEEE阅读 265评论 0赞 0
（一）
清风微微起我就喜欢你
我要当万年单身狗阅读 139评论 0赞 0

1赞2赞

赞赏

手机看全文