Hadoophe核心组件:
1、HDFS
Hadoop分布式文件系统(HDFS)被设计成适合运行在通用硬件(commodity hardware)上的分布式文件系统。他是一个高度容错性的系统,适合部署在廉价的机器上,能提供高吞吐量的数据访问,非常适合大规模数据集上的应用。
2、MapReduce
MapReduce是一种编程模型,MapReduce是面向大数据并行处理的计算模型、框架和平台,它隐含了以下三层含义:1)是一个基于集群的高性能并行计算平台(Cluster Infrastructure);2)是一个并行计算与运行软件框架(Software Framework);3)是一个并行程序设计模型与方法(Programming Model & Methodology)。
3、其他
HBase: 类似Google BigTable的分布式NoSQL列数据库;Hive:是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供完整的sql查询功能,可以sql语句转换为MapReduce任务进行运行;Zookeeper:分布式锁,提供类似Google Chubby的功能;Avro:新的数据序列化格式与传输工具,将逐步取代Hadoop原有的IPC机制;Pig:大数据数据流分析平台,为用户提供多种接口;Sqoop:在HADOOP与传统的数据库间进行数据的传递。