爬虫

1、Scrapy 

安装Scrapy:

sudo pip install virtualenv

virtualenv scrapyenv

cd scrapyenv

source bin/activate

pip install Scrapy

文档:https://docs.scrapy.org/en/latest/intro/tutorial.html

2、使用urllib2和正则表达式实现

import urllib2  

import re

response = urllib2.urlopen('http://www.baidu.com/')  

html = response.read() 

 print(re.match('dev', html).span())

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容