Hadoop集群程序设计与开发

王宏志李春静

更新时间：2020-09-24 12:37:47

最新章节：作者简介

封面

版权页

编委会

内容提要

丛书序一

丛书序二

前言

第1章初识Hadoop

1.1 为什么要学习Hadoop

1.1.1 信息化项目衍生过程

1.1.2 Hadoop产生过程

1.1.3 Hadoop成功案例介绍

1.2 Hadoop与云计算的关系

1.2.1 什么是云计算

1.2.2 云计算演进历史

1.2.3 云计算相关技术介绍

1.2.4 Hadoop在云项目中扮演的角色

1.3 Hadoop与大数据的关系

1.3.1 什么是大数据

1.3.2 大数据的存储结构

1.3.3 大数据的计算模式

1.3.4 Hadoop在大数据中扮演的角色

1.4 学习Hadoop需要具备的知识基础

1.5 学习Hadoop需要的实验环境

1.6 Hadoop的用途

1.7 小结

第2章 Hadoop基础知识

2.1 Hadoop简介

2.1.1 Apache Hadoop项目核心模块

2.1.2 Apache Hadoop项目的其他模块

2.2 Hadoop版本演化

2.3 RPC工作原理

2.3.1 RPC简介

2.3.2 Hadoop中的RPC

2.3.3 RPCoIB和JVM—旁路缓冲管理方案：在高性能网络InfiniBand上数据交换的改进

2.4 MapReduce工作原理

2.4.1 MapReduce计算模型

2.4.2 MapReduce经典案例

2.4.3 MapReduce应用场景

2.5 Hadoop改进

2.5.1 LATE算法：良好的适应异构性环境

2.5.2 Mantri：MapReduce异常处理

2.5.3 SkewTune：MapReduce中数据偏斜处理

2.5.4 基于RDMA的MapReduce设计：提升大数据应用的性能和规模

2.6 HDFS工作原理

2.6.1 HDFS介绍

2.6.2 HDFS体系结构

2.6.3 文件系统的命名空间

2.6.4 HDFS中Block副本放置策略

2.6.5 HDFS机架感知

2.6.6 HDFS安全模式

2.6.7 HDFS应用场景介绍

2.6.8 混合HDFS的设计：充分利用硬件能力获得最佳性能

2.7 YARN工作原理

2.7.1 YARN on HDFS的工作原理

2.7.2 MapReduce on YARN的工作原理

2.8 容错机制

2.9 安全性

2.10 小结

第3章 Hadoop开发环境配置与搭建

3.1 集群部署

3.1.1 安装包版本的选择

3.1.2 Hadoop安装先决条件

3.1.3 Hadoop安装模式

3.2 本地/独立模式搭建

3.2.1 JDK安装与配置

3.2.2 SSH无密码登录

3.2.3 Hadoop本地环境参数配置

3.2.4 Hadoop本地模式验证

3.3 伪分布模式搭建

3.3.1 配置过程

3.3.2 格式化HDFS

3.3.3 Hadoop进程启停与验证

3.4 全分布模式搭建

3.4.1 Hadoop网络配置

3.4.2 Hadoop集群SSH配置

3.4.3 时间同步

3.4.4 IP与机器名映射

3.4.5 Hadoop环境配置

3.4.6 Hadoop集群启停与验证

3.5 基于Hadoop平台的Eclipse开发环境的搭建

3.5.1 Hadoop Eclipse插件配置

3.5.2 编写第一个MapReduce程序

3.5.3 编译打包及运行程序

3.6 小结

第4章 Hadoop分布式文件系统

4.1 HDFS工作原理

4.1.1 HDFS读数据的过程

4.1.2 HDFS写数据的过程

4.1.3 HDFS删除与恢复数据的过程

4.2 HDFS常用命令行操作概述

4.2.1 HDFS命令行

4.2.2 HDFS常用命令行操作

4.3 通过Web浏览HDFS文件

4.4 HDFS API

4.4.1 使用FileSystem API读取数据命令行

4.4.2 使用FileSystem API写入数据命令行

4.4.3 FileUtil文件处理

4.5 小结

第5章 Hadoop的I/O操作