Scrapy学习笔记

学习

  • 初步使用
# 继承 scrapy
start_urls
def parse(self,response)
scrapy runspider file.py -o file.csv
  • 基本使用 scrapy
pip install scrapy // 安装
scrapy startproject demo // 创建项目
cd demo
scrapy genspider gdqy_spider gdqy.gov.cn// 创建 爬虫
iterms.py // 编写字段
piplines.py // 处理获取的 item 数据
# 编写代码,分析源代码,获取 xpath 或者 css path
demo : scrapy crawl gdqy_spider // 运行爬虫

问题记录:

  • 运行爬虫出现 500 错误:
    解决办法:设置 settings.py 文件 去掉 USER_AGENT 的注销
  • response.xpath() 无法获取数据:
    解决办法:删除 xpath 中出现的 tbody
  • 出现提示:list index out of range
    错误原因,没有获取到数据,可能是url 错误或者是 xpath 错误,也有可能是需要登陆
  • 无法获取或者下载到图片
    错误原因:file_urls 字段的值类型必须为 list ,加上 [ ] 括号
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容

友情链接更多精彩内容