java网络爬虫项目--慕课猿问爬取

spider.jpg

什么是网络爬虫?

维基百科

网络爬虫(英语:web crawler),也叫网络蜘蛛(spider),是一种用来自动浏览万维网的网络机器人。其目的一般为编纂网络索引。

百度百科

网络爬虫(又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫。

java网络爬虫练习项目

一个比较简单的java练习项目。

需要知识

  • 什么是网络爬虫
  • Java基础
  • 正则表达式

项目思路

慕课网的猿问页面,寻找一个你喜欢的问题页面,利用http请求获取问题页面的源码,然后通过正则表达式,不断爬取相关问题页面。

项目介绍

该项目存在三个类
Imooc.java : imooc问题bean类
Spider.java: 封装用来爬取页面的方法类
Main.java: 运行起始页面

  • Imooc.java类是要爬取内容的对象类,属性成员有问题,问题链接,问题描述,答案列表和下一个问题链接。
  • Spider.java类封装了2个可能用到的方法,getSource方法获取网页源代码和getImoocPage获取页面Url列表。

项目源码

IMOOCSpider项目已上传到我的github上----传送门
欢迎Star

下载下来后导入eclipse即可运行。

项目运行结果

Paste_Image.png
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容

  • Android 自定义View的各种姿势1 Activity的显示之ViewRootImpl详解 Activity...
    passiontim阅读 174,212评论 25 709
  • 你爬了吗? 要玩大数据,没有数据怎么玩?这里推荐一些33款开源爬虫软件给大家。 爬虫,即网络爬虫,是一种自动获取网...
    Albert新荣阅读 2,253评论 0 8
  • 33款可用来抓数据的开源爬虫软件工具 要玩大数据,没有数据怎么玩?这里推荐一些33款开源爬虫软件给大家。 爬虫,即...
    visiontry阅读 7,467评论 1 99
  • 这次说一个张学友最著名的表情包出处 故事一开始混混阿华接到电话表妹阿娥要来治病暂时住在他这 表妹进来后阿华小弟苍蝇...
    小羚阅读 2,903评论 0 0
  • W先生: 分开后一年多,我一直想跟你说点什么。 可是好多思绪争先恐后的涌现眼前,破碎的记忆像是凌晨被哨声叫醒的士兵...
    思氓阅读 419评论 1 9