这里简答介绍一下Hadoop的核心组件: 1、海量数据的摇篮——HDFS 作为Hadoop分布式文件系统,HDFS处于Hadoop生态圈的最下层,存储所有的数据,支持Hadoop的所有服务,它是GFS(可扩展的分布式文件系统)的开源实现。HDFS的设计理论是以流式数据访问模式,存储超大文件,运行于廉价硬件集群之上。 2、处理海量数据的利器——MapReduce MapReduce是一种编程模型,作为一个分布式计算模型,MapReduce是Hadoop的核心。基于这个框架,分布式并行程序的编写变得异常简单。 3、列族存储——HBase HBase是一个基于HDFS的分布式数据库,擅长实时的随机读写超大规模数据集。
目前围绕Hadoop做二次开发的公司很多,最著名的当属Cloudara、Hortonworks和MapR。
Cloudara开发的CDH已经成为生产环境下装机量最大的Hadoop发行版。CDH的特点在于稳定,并有许多重要的不定、向后移植和更新。Hortonworks拥有的DAG(有向无环图)计算框架Tez,在一些场景下,为了利用MapReduce解决问题,需要将问题分解为若干个有依赖关系的作业,目前MapReduce不支持依赖关系为有向无环图的作业计算,Tez很好的解决了这个问题。同时,Hortonworks的YARN也是Hadoop的重大贡献之一。MapR公司的代表产品是MapR Converged Data Platform,专注于数据的快速分析。 同时MapR公司也主导开发了Apache Drill.