概述之大数据组成

大数据是目前很火的词语，在互联网公司，大数据有很多的相关岗位和title，下图是大数据部门的组织架构：

haddop生态圈目前是比较经典，在Hadoop2.x系列里，Hadoop主要包括MapReduce Yarn HDFS和Common辅助工具。

HDFS用于数据存储，主要包括NameNode、DataNode、SecondaryNameNode。NameNode主要存储储文件的元数据如文件名、文件目录结构、文件属性以及每个文件的块列表和块所在的DataNode等。DataNode主要在本地文件系统存储文件块数据以及块数据的校验和。SecondaryNameNode用来监控HDFS状态的辅助后台程序，每隔一段时间获取HDFS元数据的快照。

Yarn用于资源调度，主要包括ResourceManager、NodeManager、ApplicationMaster和Container。ResourceManager主要处理客户端的请求，监控NodeManager，NodeManager主要管理单个节点的资源，处理来自ResourceManager和ApplicationMaster的命令，ApplicationMaster负责数据的切分、为应用程序申请资源并分配给内部的任务、负责任务的监控与容错。Container是Yarn资源的抽象，封装了某个节点上的多维资源。

MapReduce将计算过程分为两个阶段：Map和Reduce,Map阶段并行处理输入数据，Reduce阶段对Map结果进行汇总。

下图是Hadoop的技术生态体系：

Sqoop 是一个开源工具，用于Hadoop hive和传统的数据库间进行数据传递，可以将关系型数据库例如MySQL Oracle中的数据导入到Hadoop的HDFS中，也可以将HDFS的数据导进到关系型数据库中。

Flume 是Cloudera提供的分布式的海量日志采集聚合和传输的系统。

Kafka是一种高吞吐量的分布式发布订阅消息系统

Storm用于连续计算，对数据流做连续查询，在计算的时候将结果以流的形式输出给用户

Spark是开源大数据内存计算框架

Hbase是一个分布式的、面向列的开源数据库。

Hive是基于Hadoop的数据仓库工具，将结构化的数据文件映射为一张数据库表，提供简单的SQL查询功能。可以将SQL转换为MapReduce任务进心运行。

概述之大数据组成

推荐阅读更多精彩内容