webmagic的一些总结

1、page.getRequest().getUrl()可以获得当前所爬取的URL是什么
2、使用xpath获取某个颜色的内容

xpath("//b[@style='color:black;background-color:#ffff66']/text()").get()

3、可以在
public void process(Page page) {}方法中添加正则区分URL属于第几轮
并在main方法中利用isExitWhenComplete()方法判断第一轮spider是否完成采集

            Spider spider = Spider.create(new BaiduKuaiZhao())
                        .addUrl(kwsList().get(0)).thread(50);
            spider.run();
            if (spider.isExitWhenComplete()) {
                  spider.close();
                  System.out.println("spider1已经结束");
                  System.out.println(kzList.size());
                  Spider spider1 = Spider.create(new BaiduKuaiZhao())
                              .addUrl(kzList.get(0)).thread(5);
                  spider1.run();
                  spider1.close();
            }
      }

最后编辑于：2017.12.09 02:46:13

©著作权归作者所有,转载或内容合作请联系作者
平台声明：文章内容（如有图片或视频亦包括在内）由作者上传并发布，文章内容仅代表作者本人观点，简书系信息发布平台，仅提供信息存储服务。

推荐阅读更多精彩内容

Spring Cloud
Spring Cloud为开发人员提供了快速构建分布式系统中一些常见模式的工具（例如配置管理，服务发现，断路器，智...
卡卡罗2017阅读 135,477评论 19赞 139
爬虫（1）--- Python网络爬虫二三事
1 前言作为一名合格的数据分析师，其完整的技术知识体系必须贯穿数据获取、数据存储、数据提取、数据分析、数据挖掘、...
whenif阅读 18,197评论 45赞 523

scrapy学习笔记(有示例版）
scrapy学习笔记(有示例版）我的博客 scrapy学习笔记1.使用scrapy1.1创建工程1.2创建爬虫模...
陈思煜阅读 14,371评论 4赞 46
Scrapy
1.Scrapy的命令行命令创建一个Scrapy工程终端输入: PyCharm 下直接运行 ScrapyScra...
EnjoyWT阅读 8,343评论 0赞 1
沉淀你的情与思摘抄自语文课 - 草稿
文章写不出来或者写不好，最主要的一个原因其实便是缺乏沉淀自我情与思的习惯。一心想着打造一个自我的金蔷薇出来，但没有...
諗念阅读 1,631评论 0赞 0

赞1赞

赞赏

手机看全文