webmagic的一些总结

1、page.getRequest().getUrl()可以获得当前所爬取的URL是什么
2、使用xpath获取某个颜色的内容

xpath("//b[@style='color:black;background-color:#ffff66']/text()").get()

3、可以在
public void process(Page page) {}方法中添加正则区分URL属于第几轮
并在main方法中利用isExitWhenComplete()方法判断第一轮spider是否完成采集

            Spider spider = Spider.create(new BaiduKuaiZhao())
                        .addUrl(kwsList().get(0)).thread(50);
            spider.run();
            if (spider.isExitWhenComplete()) {
                  spider.close();
                  System.out.println("spider1已经结束");
                  System.out.println(kzList.size());
                  Spider spider1 = Spider.create(new BaiduKuaiZhao())
                              .addUrl(kzList.get(0)).thread(5);
                  spider1.run();
                  spider1.close();
            }
      }

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容

  • Spring Cloud为开发人员提供了快速构建分布式系统中一些常见模式的工具(例如配置管理,服务发现,断路器,智...
    卡卡罗2017阅读 135,477评论 19 139
  • 1 前言 作为一名合格的数据分析师,其完整的技术知识体系必须贯穿数据获取、数据存储、数据提取、数据分析、数据挖掘、...
    whenif阅读 18,197评论 45 523
  • scrapy学习笔记(有示例版) 我的博客 scrapy学习笔记1.使用scrapy1.1创建工程1.2创建爬虫模...
    陈思煜阅读 14,371评论 4 46
  • 1.Scrapy的命令行命令 创建一个Scrapy工程终端输入: PyCharm 下直接运行 ScrapyScra...
    EnjoyWT阅读 8,343评论 0 1
  • 文章写不出来或者写不好,最主要的一个原因其实便是缺乏沉淀自我情与思的习惯。一心想着打造一个自我的金蔷薇出来,但没有...
    諗念阅读 1,631评论 0 0