登录注册写文章

数据采集与存储(一、数据接入消息队列)

数据采集与存储(一、数据接入消息队列)

项目采集端通过爬虫采集微博相关数据，需要提供对数据的接入、清洗和存储。技术上实施流程为，爬虫将采集数据发送到消息队列(kafka)数据缓冲接入，队列后端通过spark stream进行消息流数据的清洗，并存储到hadoop平台，整个流程如图所示：

1.创建kafkatopic

如图，创建了一个名为weibodata的主题队列，指定分区(并发度)为5，消息备份为2。

2. 通过python接口往消息队列发送数据

python可以通过kafka-python库与kafka进行交互，所以首先安装kafka-python

2.1 通过生产者发送数据例子

创建一个kafka数据生产者，指定kafka集群连接地址，然后通过send方法，发送数据，第一个参数为topic主题队列，值为前面创建的’weibodata’，第二个参数就是需要发送的数据字符串。

2.1通过消费者接收数据例子

最后编辑于：2017.12.09 00:46:18

©著作权归作者所有,转载或内容合作请联系作者
平台声明：文章内容（如有图片或视频亦包括在内）由作者上传并发布，文章内容仅代表作者本人观点，简书系信息发布平台，仅提供信息存储服务。

推荐阅读更多精彩内容

Spring Cloud
Spring Cloud为开发人员提供了快速构建分布式系统中一些常见模式的工具（例如配置管理，服务发现，断路器，智...
卡卡罗2017阅读 135,107评论 19赞 139
消息队列技术介绍
一、消息队列概述消息队列中间件是分布式系统中重要的组件，主要解决应用耦合、异步消息、流量削锋等问题。实现高性能...
步积阅读 57,151评论 10赞 138
消息队列探秘-Kafka全面解析
背景介绍 Kafka简介 Kafka是一种分布式的，基于发布/订阅的消息系统。主要设计目标如下：以时间复杂度为O...
高广超阅读 12,909评论 8赞 167
分布式架构之消息队列
1 消息队列概述消息队列中间件是分布式系统中重要的组件，主要解决应用耦合，异步消息，流量削锋等问题。实现高性能，...
Bobby0322阅读 10,950评论 0赞 24
关于前端charts图表的封装使用
0x01 关于charts 这个图表在早期用的比较多，默认大部分比较土的都用highcharts。对于我来说，我还...
Smarttang阅读 600评论 0赞 0

3赞4赞

赞赏

手机看全文