Python 的简单爬虫

Python 的简单爬虫 三种网页抓取方式

# coding:utf8 I
import urllib2
import cookielib

url = "http://www.baidu.com"
print '第一种方法'
response1 = urllib2.urlopen(url)
print response1.getcode()
print len(response1.read())

print '第二种方法'
request = urllib2. Request(url)
request.add_header("user-agent","Mozilla/5.0")
response2 = urllib2.urlopen(request)
print response2.getcode()
print len(response2.read())

print '第三种方法'
cj = cookielib.CookieJar()
opener = urllib2.build_opener(urllib2.HTTPCookieProcessor(cj))
urllib2.install_opener(opener)
response3 = urllib2.urlopen(url)
print response3.getcode()
print cj
print response3.read()

打印

第一种方法
200
118090
第二种方法
200
118069
第三种方法
200
<CookieJar[<Cookie BAIDUID=6BEEEF7E1E24A2D831C6EBE1842863C2:FG=1 for .baidu.com/>, <Cookie BIDUPSID=6BEEEF7E1E24A2D831C6EBE1842863C2 for .baidu.com/>, <Cookie H_PS_PSSID= for .baidu.com/>, <Cookie PSTM=1533609482 for .baidu.com/>, <Cookie BDSVRTM=0 for www.baidu.com/>, <Cookie BD_HOME=0 for www.baidu.com/>, <Cookie delPer=0 for www.baidu.com/>]>
<!DOCTYPE html>
<!--STATUS OK-->
XXX 网页的内容
}
</script>

</body>
</html>
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容

  • 爬虫文章 in 简书程序员专题: like:128-Python 爬取落网音乐 like:127-【图文详解】py...
    喜欢吃栗子阅读 22,205评论 4 411
  • 爬虫文章 in 简书程序员专题: like:128 - Python 爬取落网音乐 like:127 - 【图文详...
    treelake阅读 29,645评论 33 638
  • 昨晚豆豆的情绪很低落,她在感召上面,受了一点挫折,我给她说了很多,但是,感觉还没有到点子上,只是教她方法,并没有共...
    文会阅读 1,742评论 4 2
  • 格拉斯哥(Glasgow),人口60万,是苏格兰最大城市,英国第三大城市。 格拉斯哥的制造业曾是该城市的中心产业,...
    sunnysky阅读 4,375评论 2 2
  • 我想过一百种结果,却单单没有这一种结果,因为我真的也想不出一百种结果。 从最开始的最初,其实一百种只是一种说法。 ...
    波切某萨伊阅读 3,192评论 0 0