Requests库网络爬虫实例

1.京东商品页抓取

url = "https://item.jd.com/2330392.html"
try:
    r = requests.get(url)
    r.raise_for_status()
    r.encoding = r.apparent_encoding
    print(r.text[:1000])
except:
    print("爬虫失败")

2.亚马逊商品页抓取(修改User-Agent,模拟浏览器)

url = "https://www.amazon.cn/gp/product/B0094DVNT6"
try:
    kv = {'User-Agent' : 'Mozilla/5.0'}
    r = requests.get(url, headers=kv)
    r.raise_for_status()
    r.encoding = r.apparent_encoding
    print(r.text[:1000])
except:
    print("爬虫失败")

3.百度搜索

keyword = "Python"
try:
    kv = {'wd' : keyword}
    r = requests.get("http://www.baidu.com/s", params = kv)
    print(r.requests.url)
    r.raise_for_status()
    print(len(r.text))
except:
    print("爬虫失败")

最后编辑于：2017.12.08 04:28:32

©著作权归作者所有,转载或内容合作请联系作者
平台声明：文章内容（如有图片或视频亦包括在内）由作者上传并发布，文章内容仅代表作者本人观点，简书系信息发布平台，仅提供信息存储服务。

推荐阅读更多精彩内容

iOS开发常用三方库集合OC版(三方库、插件、博客等等)
Swift版本点击这里欢迎加入QQ群交流: 594119878最新更新日期：18-09-17 About A cu...
ylgwhyh阅读 25,681评论 7赞 249
Python爬虫之requests库网络爬取简单实战
实例1：直接爬取网页实例2 ：构造headers，突破访问限制，模拟浏览器爬取网页实例3 ：分析请求参数，构造...
六尺帐篷阅读 13,069评论 4赞 38

浏览器User-Agent、Cookie
一、基础知识篇：Http Header之User-AgentUser Agent中文名为用户代理，是Http协议中...
iPhone阅读 16,131评论 0赞 13
Android - 收藏集
Android 自定义View的各种姿势1 Activity的显示之ViewRootImpl详解 Activity...
passiontim阅读 175,633评论 25赞 709
＃30天专注橙长计划＃社会心理学学习Day18
三在名誉文化中，存在这样的准则，这些准则要求个体用攻击对威胁自己名誉的行为进行报复，这些准则对攻击有很强的影响。...
淡淡心情阅读 1,163评论 0赞 0

赞1赞

赞赏

手机看全文