概述之大数据组成

        大数据是目前很火的词语,在互联网公司,大数据有很多的相关岗位和title,下图是大数据部门的组织架构:

        haddop生态圈目前是比较经典,在Hadoop2.x系列里,Hadoop主要包括MapReduce Yarn HDFS和Common辅助工具。

        HDFS用于数据存储,主要包括NameNode、DataNode、SecondaryNameNode。NameNode主要存储储文件的元数据如文件名、文件目录结构、文件属性以及每个文件的块列表和块所在的DataNode等。DataNode主要在本地文件系统存储文件块数据以及块数据的校验和。SecondaryNameNode用来监控HDFS状态的辅助后台程序,每隔一段时间获取HDFS元数据的快照。

        Yarn用于资源调度,主要包括ResourceManager、NodeManager、ApplicationMaster和Container。ResourceManager主要处理客户端的请求,监控NodeManager,NodeManager主要管理单个节点的资源,处理来自ResourceManager和ApplicationMaster的命令,ApplicationMaster负责数据的切分、为应用程序申请资源并分配给内部的任务、负责任务的监控与容错。Container是Yarn资源的抽象,封装了某个节点上的多维资源。

        MapReduce将计算过程分为两个阶段:Map和Reduce,Map阶段并行处理输入数据,Reduce阶段对Map结果进行汇总。

    下图是Hadoop的技术生态体系:

Sqoop 是一个开源工具,用于Hadoop hive和传统的数据库间进行数据传递,可以将关系型数据库例如MySQL Oracle中的数据导入到Hadoop的HDFS中,也可以将HDFS的数据导进到关系型数据库中。

Flume 是Cloudera提供的分布式的海量日志采集聚合和传输的系统。

Kafka是一种高吞吐量的分布式发布订阅消息系统

Storm用于连续计算,对数据流做连续查询,在计算的时候将结果以流的形式输出给用户

Spark是开源大数据内存计算框架

Hbase是一个分布式的、面向列的开源数据库。

Hive是基于Hadoop的数据仓库工具,将结构化的数据文件映射为一张数据库表,提供简单的SQL查询功能。可以将SQL转换为MapReduce任务进心运行。

©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容

  • 一、系统参数配置优化 1、系统内核参数优化配置 修改文件/etc/sysctl.conf,添加如下配置,然后执行s...
    张伟科阅读 3,822评论 0 14
  • 【什么是大数据、大数据技术】 大数据,又称巨量资料,指的是所涉及的数据资料量规模巨大到无法在合理时间内通过传统的应...
    kimibob阅读 2,793评论 0 51
  • 1.简介 Hadoop是一款开源的大数据通用处理平台,其提供了分布式存储和分布式离线计算,适合大规模数据、流式数据...
    哦00阅读 918评论 0 0
  • Zookeeper用于集群主备切换。 YARN让集群具备更好的扩展性。 Spark没有存储能力。 Spark的Ma...
    Yobhel阅读 7,395评论 0 34
  • 抑郁质表象型乖乖女:14年,某211,广告学毕业。职场小透明,被忽悠入坑,在一家小工作室打杂了4年。一只被温水煮了...
    杭火火阅读 127评论 0 0