对四川大学公共管理学院新闻数据爬取的实验报告

首先生成项目结构

定义要抓取的数据为：新闻标题、新闻发生时间、新闻具体内容和uil

找到item文件并进行修改

但是修改失败了（不知道原因）把修改的url=scrapy.Field()这句删掉后表示修改成功，后面发现这不是主要原因。修改失败主要是权限问题，使用root来修改时表现为成功。

进入所在项目子文件

编写提取item数据的Spider

整个实验过程最困难的就是这段代码过程，定位方法选择的是xpath，感觉它对于非熟练者较为友好。我选择只爬取了官网主页的12条新闻。

在代码编写过程中出现了两个类似问题（感觉都是xpath定位不准导致的语法错误）：1、在详情页爬取的过程中，对时间的爬取出现了一定方面的理解误差，导致最后没能实现对时间的爬取2、在尝试对新闻具体列表页进行爬取时出现了类似的问题，但报错的内容集中在类似于SyntaxError: Non-ASCII character '\xce' in file

/home/lc/venv/news/news/spiders/newsscrapy.py on lin这种，应该还是语法错误。

选取正确代码执行并生成xml文件

最后形成的xml文件

最后编辑于：2017.12.07 06:34:31

©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成，浏览时请结合常识与多方信息审慎甄别。
平台声明：文章内容（如有图片或视频亦包括在内）由作者上传并发布，文章内容仅代表作者本人观点，简书系信息发布平台，仅提供信息存储服务。