登录注册写文章

爬取拉钩网招聘信息储存到mongodb

爬取拉钩网招聘信息储存到mongodb

本文源代码在 https://github.com/zhangshier/-.git 可下载

安装 pip install scrapy

安装pip install pymongo

需要爬取的内容

分析拉钩页面按住F12

开始创建项目

1.新建个文件夹本人是在F 盘下的pachong文件夹下各位随意

然后win+R启动cmd命令跳转到你的文件下

使用 scrapy startproject lagou 创建存放爬虫的文件

回车后创建项目然后进入你创建的项目然后创建爬虫

使用scrapy genspider lgw lagou.com 创建爬虫

main.py 里配置下

fromscrapy.cmdlineimportexecute

importsys

importos

sys.path.append(os.path.dirname(os.path.abspath(__file__)))

execute(["scrapy","crawl","lgw"])

要找到的‘java开发工程师’

使用xpath 匹配

xpath 不会的可以参考 http://www.w3school.com.cn/xpath/index.asp

使用xpath匹配java工程师

response.xpath('//div[@class="list_item_top"]/div[@class="position"]/div[@class="p_top]/a/h2/text(')

可以直接在main 里使用run 运行

配置mondogo

items.py

数据库内容展示

最后编辑于：2017.12.06 16:09:17

©著作权归作者所有,转载或内容合作请联系作者
平台声明：文章内容（如有图片或视频亦包括在内）由作者上传并发布，文章内容仅代表作者本人观点，简书系信息发布平台，仅提供信息存储服务。

推荐阅读更多精彩内容

scrapy学习笔记(有示例版）
scrapy学习笔记(有示例版）我的博客 scrapy学习笔记1.使用scrapy1.1创建工程1.2创建爬虫模...
陈思煜阅读 12,848评论 4赞 46
利用Scrapy爬取豆瓣图书并保存至Mysql数据库
Scrapy是一个纯Python语言写的爬虫框架，本次用它来爬取豆瓣图书的数据。准备工作没有安装Scrapy的...
teaGod阅读 7,107评论 15赞 18
利津水煎包
说起水煎包,在山东叫水煎包,到上海一带又变成生煎馒头,前者用加了面粉的水煎成,后者是清水煮就,做法有些差别。 ...
旗袍恋西点阅读 413评论 0赞 1
2017.8.7日志
今天满脑子都是飞合在大组会说过的话，毕竟是老师，看问题很精准！中周末就可以看到她了，希望她快点小宇宙爆发！ ...
徐丽红阅读 295评论 0赞 0
《出嫁的季节》
秋天里的她嫁期来临春花变为旧梦中的美好夏阳已成热恋后的回忆情感身心和年龄在这季节全是丰满而成熟的诗句她...
秋AldrichB果阅读 214评论 1赞 12

赞1赞

赞赏

手机看全文