噢!这是一篇关于Python 爬虫的技术文

今天实验室又双叕断网了,我能有什么办法呢。。我也很无奈啊……正好借此机会总结下最近学习的相关东西。

1.先检查实验室的网络环境,顺便了解下计算机软硬件相关知识以及网络相关的知识。实验室有服务器,交换机,路由器,学生pc机,学生手机。学生pc机如何上网呢,先通过学校的信心中心把网络连接到服务器,如果这步没问题,服务器就可以成功连上网。然后,通过服务器个交换机的配置已经交换机和pc端的连接,最后ping通网络。而学生手机上网,只是在交换机之外又连接了个无线路由器,然后手机就可以无线上网了。当然各个设备都是需要网线来互联的。对于网线的水晶头如何做?上次也体验了下,网线里面有各种各样颜色的线,按顺序将其排列在水晶头中就可以了。anyway ,说了这么多,只要学校断网,信息中心网络除了问题,也就只能跪了。。。

2.Linux 相关。虽说一直都知道linux 属于开源的操作系统,大多数服务器都是用linux,是开着所必须掌握的操作环境。但是自己接触的真的太少太少,以前本科的时候有进入过Linux 的操作系统体验过,当时的自己只是觉得很新奇再加一脸懵逼,并没有好好学习。。。突然无比后悔自己本科时候为什么不好好学点扎实的技术呢。。现在的自己还得慢慢地再学习这些。现在我学习的目的主要是想了解下基本的环境和操作。至于Linux 的知识体系之类的,刚刚报了个学习班(老徐讲的,崇尚分享互助。嗯……),等明天听过了之后再来补充。

抱着只是了解下Linux 的心态,就装了个VM ware 的虚拟机,然后在其中导入Ubuntu kylin的iso文件,这样就创造了一个虚拟的linux操作系统。登录进入,按CTR Alt f1可进入命令行模式。然后就有关于Linux 的各种常用命令,比如ls,vim ,sudo,等等,自己也就学到这个级别。另外,用CTR Alt 可以让鼠标移动到你的Windows 桌面。确实学得很浅,有待明天的补充。。

3.python 相关。最开始学python 的原因是因为自己想重新捡起代码编程这些东西,无奈之前学过的c和java 都没学好,就想开始一门新的语言,重点是她简单啊啊啊。。嗯,然后就觉得开始了。主要需求是学习爬虫和数据分析相关,毕竟科研有需求。然而,从上学期就开始学的我,似乎什么都没学到,就学了一些基本语法。主要是因为当时的自己并没有好好认真学,遇到一点困难就呼天喊地。。安装个开发环境都很为难,不是这里报错就是那里有问题,遇到问题又不知道怎么解决。好在现在这些问题都已经解决了。。。虽说有很多小细节还没把握,但是查查相关文档也就知道了。算是已经入门了吧。。现在自己的环境是python 3.5(竟然是32位的,我也是服了我自己,毕竟我的操作系统是64位哇。。)写代码主要用pychram ,偶尔用IDLE 调试下,当然还需要用到命令提示符。。关于操作系统系统变量的配置啊等也知道一些,算是搭好了个基础框架吧。。当然需要学习的东西还很多。

4.python爬虫相关。除了了解爬虫的基本原理之外,也知道如何使用requests 和beautiful soup 模块来进行网页下载以及网页数据的提取。还有http相关的请求头,代理,cookies 等相关内容。但是不知道如何翻页爬取,这也是一个很重要的问题。嗯,据说有很好的爬虫框架……那我们就来看看scrapy 。

5.scrapy 相关。scrapy startproject …scrapy crawl …scrapy shell …创建scrapy 项目后,就会有个文件夹,里面包含很多文件都有其对应的解释。爬虫程序的主体是写在spiders 里面。。如何写?这里又涉及到了,正则表达式,css,xpath 等。。。路还很长,需要慢慢学习。加油哦~

6.MySQL 和mongodb 相关。也只是初步了解了下,查询等简单语句。还有python 如何与数据库连接。。对于python爬取出来的数据如何存储,以哪种格式存储也是个需要好好探讨的问题。txt?json?存储之后又要进行什么样的处理呢?……

总之,路还很长,需要静下心来慢慢学习。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容

  • 序言第1章 Scrapy介绍第2章 理解HTML和XPath第3章 爬虫基础第4章 从Scrapy到移动应用第5章...
    SeanCheney阅读 15,196评论 13 61
  • 中间空了两周没写总结,主要是这两周也确实啥都没做,不好意思写 做的事情 1.面试coding.net 2.写了个选...
    酱油_阅读 190评论 0 0
  • 老三出差,与兄弟公司不太熟的大毛哥合住一个标间。大毛哥四十多岁,儿子刚上大学。 两个不太熟的人住在一个屋檐下,大毛...
    乌卓阅读 791评论 2 2
  • 一、热身 1.放松小跳,25秒(50-60个) 2.合掌跳20秒(40个) 3.交替侧弓步20秒(20个) 4.高...
    钱盅锺阅读 570评论 0 0
  • 大川拿着一杯褐色的酒,灯光的闪烁让酒杯看起来玲珑剔透,他仰起头,缓缓把酒倒入口中。只见吧台的桌上,一瓶烈酒...
    珈迦阅读 488评论 10 10