Hadoop简介

由apache发布的分布式系统框架,用以处理海量数据的存储和计算。

一、特性

1、高可靠性

一个节点损坏,不会影响整个集群的功能。

2、高扩展性

可以动态增减节点。

3、高效性

并行工作,将每个任务拆分给各节点并行运算再汇总,提高效率。

4、高容错性

自动将失败的任务重新分配,提高容错率。

二、架构

架构图


1、数据存储——HDFS

NameNode:数据存储命名空间(数据目录,数据存储的位置);

DataNode:数据存储空间(数据实际存储的位置);

SecondaryNameNode:备用命名空间(防止NameNode无法运行)。

2、数据计算——MapReduce

分为Map、Reduce两个过程,

Map:给各节点分配任务,

Reduce:汇总各节点的任务结果。

3、资源调度——Yarn(hadoop1.0没有)

给各任务分配运算资源。

ResourceManager(RM):管理整个集群的资源;

NodeManager(NM):管理该节点的资源;

ApplicationMaster(AM):管理单个任务的运行资源;

Container:为任务临时封装的容器,相当于一个临时搭建的服务器。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容

  • Hadoop生态系统为大数据领域提供了开源的分布式存储和分布式计算的平台,这一章我们进行Hadoop生态系统的入门...
    董二弯阅读 1,266评论 0 10
  • 一、 大数据简介 1. 大数据的定义 ⼤数据是指⽆法在⼀定时间范围内⽤常规软件⼯具进⾏捕捉、管理和处理的数据集合,...
    大数据学习宝典阅读 385评论 0 3
  • Hadoop是一个大数据的框架,当代大数据的痛点在于大量数据的采集、存储与计算。Hadoop解决了后两个问题,主要...
    May22Night阅读 1,370评论 0 1
  • 终极算法 关注微信号每天收听我们的消息终极算法为您推送精品阅读 前言 Hadoop 在大数据技术体系中的地位至关...
    Yespon阅读 130,504评论 12 168
  • 写在前面 我自己一直比较喜欢大数据这个方向的工作,虽然自己也在大数据相关的岗位上工作了小两年,但一直没有系统的学习...
    大数据学习宝典阅读 527评论 0 2