python 六节课 爬虫 1-3

url

https://www.bilibili.com/video/av19689660/?p=1

课程

第一节课 ,简介 ,基本多余
第二节课 ,前半 多余 ,后半 ,开始 讲requests 模块,进入正式代码部分

正确的步骤

  • 安装anaconda- python环境
  • 安装 pycharm- ide工具

requests 模块

response的方法

  • response.text
    • 该方式往往会出现乱码,出现乱码要制定编码格式 response.encoding='utf-8'
  • response.content.decode()
    • 把相应的二进制字节流转化为str类型

发送post请求

不加header的情况下,下面的代码足矣,但是因为没有header容易被服务器判断为爬虫而不响应。

image.png

header的东西,可以用chrome来查看


image.png

普通情况下只加user-agent就可以

使用超时参数

  • requests.get(url,headers=headers,timeout=3) # 3秒内响应,否则报错

retrying模块 需要安装

使用装饰器,出错情况下运行3次


image.png

cookie

  • 先用chrome登录,然后找到相应url,以及对应的cookie,复制到代码中 header


    image.png
  • 或者显示的声明 cookie
image.png
  • 利用session
image.png
image.png

如何找到正确的form提交url

观察chrome的network的时候
为了防止页面跳转而导致各种请求信息消失,
可以勾选 preserve log

  1. 在html的form代码中找提交的action的url
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容

  • Spring Cloud为开发人员提供了快速构建分布式系统中一些常见模式的工具(例如配置管理,服务发现,断路器,智...
    卡卡罗2017阅读 135,486评论 19 139
  • Python学习网络爬虫主要分3个大的版块:抓取,分析,存储 另外,比较常用的爬虫框架Scrapy,这里最后也详细...
    楚江数据阅读 5,316评论 0 6
  • http header 消息通常被分为4个部分:general header即头部, request header...
    徐薇薇阅读 32,193评论 0 5
  • 要知道任何一段感情,当局者才是最清楚始末的。只言片语怎么能够描绘出两个人的点点滴滴。其实,情感让人丧失了判断,而在...
    格格雾阅读 1,059评论 0 0
  • 今天的心情是橙色的,带一点尘色。 我的春节假期已经进入尾声,翻了翻这几天写的东西,日子堪称安逸,我自己非常享受这种...
    小知了阅读 1,553评论 0 0