对四川大学公共管理学院新闻数据爬取的实验报告

首先生成项目结构

定义要抓取的数据为:新闻标题、新闻发生时间、新闻具体内容和uil

找到item文件并进行修改



但是修改失败了(不知道原因)把修改的url=scrapy.Field()这句删掉后表示修改成功,后面发现这不是主要原因。修改失败主要是权限问题,使用root来修改时表现为成功。

进入所在项目子文件



编写提取item数据的Spider


整个实验过程最困难的就是这段代码过程,定位方法选择的是xpath,感觉它对于非熟练者较为友好。我选择只爬取了官网主页的12条新闻。

在代码编写过程中出现了两个类似问题(感觉都是xpath定位不准导致的语法错误):1、在详情页爬取的过程中,对时间的爬取出现了一定方面的理解误差,导致最后没能实现对时间的爬取2、在尝试对新闻具体列表页进行爬取时出现了类似的问题,但报错的内容集中在类似于SyntaxError: Non-ASCII character '\xce' in file

/home/lc/venv/news/news/spiders/newsscrapy.py on lin这种,应该还是语法错误。

选取正确代码执行并生成xml文件



最后形成的xml文件


最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容