数据采集与存储(一、数据接入消息队列)

项目采集端通过爬虫采集微博相关数据,需要提供对数据的接入、清洗和存储。技术上实施流程为,爬虫将采集数据发送到消息队列(kafka)数据缓冲接入,队列后端通过spark stream进行消息流数据的清洗,并存储到hadoop平台,整个流程如图所示:


1.创建kafkatopic

如图,创建了一个名为weibodata的主题队列,指定分区(并发度)为5,消息备份为2。

2. 通过python接口往消息队列发送数据

        python可以通过kafka-python库与kafka进行交互,所以首先安装kafka-python

2.1 通过生产者发送数据例子

创建一个kafka数据生产者,指定kafka集群连接地址,然后通过send方法,发送数据,第一个参数为topic主题队列,值为前面创建的’weibodata’,第二个参数就是需要发送的数据字符串。

2.1通过消费者接收数据例子

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容

  • Spring Cloud为开发人员提供了快速构建分布式系统中一些常见模式的工具(例如配置管理,服务发现,断路器,智...
    卡卡罗2017阅读 135,107评论 19 139
  • 一、 消息队列概述 消息队列中间件是分布式系统中重要的组件,主要解决应用耦合、异步消息、流量削锋等问题。实现高性能...
    步积阅读 57,151评论 10 138
  • 背景介绍 Kafka简介 Kafka是一种分布式的,基于发布/订阅的消息系统。主要设计目标如下: 以时间复杂度为O...
    高广超阅读 12,909评论 8 167
  • 1 消息队列概述 消息队列中间件是分布式系统中重要的组件,主要解决应用耦合,异步消息,流量削锋等问题。实现高性能,...
    Bobby0322阅读 10,950评论 0 24
  • 0x01 关于charts 这个图表在早期用的比较多,默认大部分比较土的都用highcharts。对于我来说,我还...
    Smarttang阅读 600评论 0 0