登录注册写文章

Scrapy学习笔记

Scrapy学习笔记

学习

初步使用

# 继承 scrapy
start_urls
def parse(self,response)
scrapy runspider file.py -o file.csv

基本使用 scrapy

pip install scrapy // 安装
scrapy startproject demo // 创建项目
cd demo
scrapy genspider gdqy_spider gdqy.gov.cn// 创建 爬虫
iterms.py // 编写字段
piplines.py // 处理获取的 item 数据
# 编写代码，分析源代码，获取 xpath 或者 css path
demo : scrapy crawl gdqy_spider // 运行爬虫

问题记录：

运行爬虫出现 500 错误：
解决办法：设置 settings.py 文件去掉 USER_AGENT 的注销
response.xpath() 无法获取数据：
解决办法：删除 xpath 中出现的 tbody
出现提示：list index out of range
错误原因，没有获取到数据，可能是url 错误或者是 xpath 错误，也有可能是需要登陆
无法获取或者下载到图片
错误原因：file_urls 字段的值类型必须为 list ，加上 [ ] 括号

最后编辑于：2017.12.06 18:01:26

©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成，浏览时请结合常识与多方信息审慎甄别。
平台声明：文章内容（如有图片或视频亦包括在内）由作者上传并发布，文章内容仅代表作者本人观点，简书系信息发布平台，仅提供信息存储服务。

推荐阅读更多精彩内容

scrapy学习笔记(有示例版）
scrapy学习笔记(有示例版）我的博客 scrapy学习笔记1.使用scrapy1.1创建工程1.2创建爬虫模...
陈思煜阅读 14,374评论 4赞 46
Scrapy学习笔记
scrapy是python最有名的爬虫框架之一，可以很方便的进行web抓取，并且提供了很强的定制型，这里记录简单学...
bomo阅读 6,521评论 1赞 11

Scrapy学习笔记(2)-使用pycharm在虚拟环境中运行第一个spider
前言系统环境：CentOS7 本文假设你已经安装了virtualenv，并且已经激活虚拟环境ENV1，如果没有，...
leeyis阅读 10,869评论 4赞 1
Scrapy学习笔记01-初窥
原文地址：LoveDev Scrapy是一个为了爬取网站数据，提取结构性数据而编写的应用框架。可以应用在包括数据...
KevinLive阅读 2,435评论 0赞 0
喝了一场大酒
今天和员工聚会喝的微醉早晨看了一篇文章说最奇葩得领导是谁有人说是天天画饼却不给饭有人说是死抠说的话不兑现...
小李非刀阅读 1,868评论 4赞 1

友情链接更多精彩内容

赞1赞

赞赏

手机看全文