第一章初识Hadoop

MapReduce比较适合以批处理方式处理需求分析整个数据集的问题，尤其是动态分析。
MapReduce适合一次写入、多次读取数据的应用。
MapReduce是一种线性的可伸缩编程模型。
MapReduce有三大设计目标：（1）为只需要短短几分钟或几个小时就可以完成的作业提供服务；（2）运行与同一个内部有高速网络连接的数据中心内；（3）数据中心内的计算机都是可靠的、定制的硬件。
本书所提到的Hadoop项目：
- Common : 一系列组件和接口，用于分布式文件系统和通用的I／O（序列化、Java RPC和持久化数据接口）。
- Avro : 一种序列化系统，用于支持高效、跨语言的RPC和持久化数据存储。
- MapReduce : 分布式数据处理模型和执行环境，运行于大型商业机集群。
- HDFS : 分布式文件系统，运行于大型商业机集群。
- Pig : 数据流语言和运行环境，用以探究非常庞大的数据集。Pig运行在MapReduce和HDFS集群上。
- Hive : 一种分布式的、按列存储的数据仓库。Hive管理HDFS中存储的数据，饼提供基于SQL的查询语句（由运行时引擎翻译成MapReduce作业）用于查询数据。
- HBase : 一种分布式的、俺咧存储的数据库。HBase使用HDFS作为底层存储，同时支持MapReduce的批量式计算和点查询（随机读取）。
- Zookeeper : 一种分布式的、可用性搞的协调服务。ZooKee提供分布式锁之类的基本服务用于构建分布式应用。
- Sqoop : 该工具用于在结构化数据存储（如关系型数据库）和HDFS之间高效批量传输数据。
- Oozie : 该服务用于运行和调度Hadoop作业（如MapReduce，Pig，Hive及Sqoop作业）。

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

01.md

01.md

第一章初识Hadoop

Files

01.md

Latest commit

History

01.md

File metadata and controls

第一章 初识Hadoop

第一章初识Hadoop