本書介紹了Hadoop生態(tài)系統(tǒng)架構(gòu)功能與原理;分布式文件系統(tǒng)HDF-SHDFS;MapReduce編程模型及應(yīng)用開發(fā);YARN原理及配置;Hadoop偽分布式環(huán)境的搭建與配置測(cè)試;Hadoop完整分布式的集群配置搭建;Zookeeper分布式協(xié)作框架;HDFSHA原理功能與配置測(cè)試;ResourceManagerHA原理與配置;通過實(shí)際案例介紹了網(wǎng)站用戶行為分析、網(wǎng)站后臺(tái)日志分析和二次排序;介紹數(shù)據(jù)倉庫Hive的原理及安裝部署、Hive的基本操作及實(shí)戰(zhàn)操作;大數(shù)據(jù)協(xié)作框架Sqoop、Flume、Oozie及Hue的原理、配置、使用及其在企業(yè)項(xiàng)目中使用的架構(gòu);HBase的概念、HBase內(nèi)部管理(region分裂、分配、合并)、HBase架構(gòu)設(shè)計(jì)及表的存儲(chǔ)設(shè)計(jì);HBaseshell基本使用;HBaseJavaAPI使用及HBase應(yīng)用案例。
更多科學(xué)出版社服務(wù),請(qǐng)掃碼獲取。
省級(jí)"統(tǒng)計(jì)信息與經(jīng)濟(jì)數(shù)據(jù)處理綜合學(xué)科訓(xùn)練中心"主任,是省高校軟件服務(wù)外包類專業(yè)嵌入式人才培養(yǎng)項(xiàng)目--信息與計(jì)算科學(xué)(嵌入式培養(yǎng))項(xiàng)目負(fù)責(zé)人,省級(jí)"信息與計(jì)算科學(xué)"、校級(jí)"統(tǒng)計(jì)學(xué)"重點(diǎn)學(xué)科的專業(yè)學(xué)科帶頭人
目錄
第1章 Hadoop概述 1
1.1 大數(shù)據(jù)應(yīng)用發(fā)展前景 1
1.2 Hadoop簡介 4
1.3 Hadoop架構(gòu) 8
1.4 Hadoop生態(tài)系統(tǒng) 11
1.5 Hadoop 3.x新特性 12
第2章 Hadoop環(huán)境部署 15
2.1 環(huán)境部署準(zhǔn)備工作 15
2.2 Hadoop部署方式概述 20
2.3 本地運(yùn)行模式 20
2.4 基于完全分布式模式部署 21
2.5 MapReduce日志 32
2.6 集群時(shí)間同步 35
第3章 Hadoop分布式文件存儲(chǔ) 37
3.1 HDFS 文件系統(tǒng)架構(gòu)剖析 37
3.2 HDFS的概念詳解 39
3.3 SecondaryNameNode 配置 42
3.4 HDFS 中本地存儲(chǔ)目錄的配置分析 44
3.5 環(huán)境安裝和HDFS API 47
第4章 Hadoop 3.x之YARN和MapReduce 52
4.1 YARN的架構(gòu)與應(yīng)用監(jiān)控 52
4.2 MapReduce編程模型 58
4.3 MapReduce Shuffle過程詳解剖析 70
第5章 MapReduce案例分析 77
5.1 電商網(wǎng)站用戶行為日志統(tǒng)計(jì)分析 77
5.2 旅行網(wǎng)站訂單類型統(tǒng)計(jì)項(xiàng)目 84
5.3 倒排索引 88
第6章 Zookeeper 92
6.1 分布式協(xié)作框架Zookeeper 92
6.2 Zookeeper單機(jī)模式安裝及zkCli基本命令使用 95
6.3 Zookeeper分布式集群安裝部署 98
第7章 Hadoop 3.x之高可用性及聯(lián)邦架構(gòu) 101
7.1 HDFS HA 架構(gòu)原理設(shè)計(jì) 101
7.2 配置HDFS HA部署、啟動(dòng)和測(cè)試 104
7.3 配置HDFS HA自動(dòng)故障轉(zhuǎn)移及測(cè)試 112
7.4 ResourceManager HA架構(gòu)原理 117
7.5 ResourceManager HA配置、部署、啟動(dòng)及測(cè)試 119
7.6 NameNode Federation架構(gòu)原理 124
7.7 NameNode Federation配置與測(cè)試 127
7.8 Hadoop 3.x自帶工具DistCp使用 130
第8章 MapReduce高級(jí)編程之案例篇 133
8.1 MapReduce高級(jí)編程之二次排序 133
8.2 MapReduce高級(jí)編程之Join編程 143
8.3 網(wǎng)站用戶行為日志分析 149
第9章 大數(shù)據(jù)倉庫Hive之基礎(chǔ)篇 153
9.1 Hive簡介 153
9.2 Hive安裝部署 155
9.3 MySQL保存元數(shù)據(jù) 159
9.4 HiveServer2訪問方式 164
9.5 Hive基本shell交互式命令 165
9.6 Hive常用屬性配置 166
第10章 大數(shù)據(jù)倉庫Hive之深入篇 169
10.1 Hive數(shù)據(jù)類型 169
10.2 Hive數(shù)據(jù)庫的基本操作 170
10.3 Hive數(shù)據(jù)表的基本操作 172
10.4 Hive數(shù)據(jù)表類型 176
10.5 Hive數(shù)據(jù)操縱 177
10.6 Hive數(shù)據(jù)查詢 180
10.7 Hive分區(qū)表與分桶表 191
10.8 自定義函數(shù) 194
10.9 常見Hive調(diào)優(yōu)策略 198
第11章 大數(shù)據(jù)倉庫Hive之案例篇 205
11.1 Hive壓縮與配置 205
11.2 Hive文件存儲(chǔ)格式 210
11.3 Hive實(shí)戰(zhàn)案例:網(wǎng)站訪問日志分析 217
11.4 Hive實(shí)戰(zhàn)案例:MovieLens數(shù)據(jù)分析 222
第12章 分布式數(shù)據(jù)庫HBase225
12.1 HBase概述 225
12.2 HBase的體系架構(gòu) 226
12.3 HBase數(shù)據(jù)模型與存儲(chǔ)結(jié)構(gòu) 227
12.4 HBase部署 232
12.5 HBaseshell 操作 236
12.6 HBaseJava API使用 247
第13章 HBase進(jìn)階篇 257
13.1 HBase架構(gòu)深入剖析 257
13.2 HBase創(chuàng)建表時(shí)的預(yù)分區(qū) 260
13.3 HBase表設(shè)計(jì) 263
13.4 HBase表屬性 269
13.5 HBase管理工具 273
13.6 HBase與Hive集成 278
第14章 數(shù)據(jù)同步框架DataX 283
14.1 DataX概述 283
14.2 DataX架構(gòu) 285
14.3 DataX安裝部署 287
14.4 同步MySQL數(shù)據(jù)到HDFS案例 289
14.5 DataX參數(shù)傳遞 295
14.6 同步HDFS數(shù)據(jù)到MySQL案例 297
第15章 大數(shù)據(jù)協(xié)作框架之Flume 300
15.1 Flume設(shè)計(jì)架構(gòu) 300
15.2 Flume環(huán)境搭建 303
15.3 Flume常用組件的詳細(xì)介紹 306
15.4 案例分析:收集數(shù)據(jù)至HDFS 311
15.5 Flume企業(yè)實(shí)戰(zhàn)案例 313
主要參考文獻(xiàn) 317