Hadoop大數(shù)據(jù)平臺開發(fā)運維實訓(xùn)
定 價:38 元
叢書名:高等院校信息類新專業(yè)規(guī)劃教材華信乾坤培訓(xùn)推薦教材
當前圖書已被 7 所學(xué)校薦購過!
查看明細
- 作者:余挺主編
- 出版時間:2022/1/1
- ISBN:9787563565849
- 出 版 社:北京郵電大學(xué)出版社
- 中圖法分類:TP274
- 頁碼:205頁
- 紙張:膠版紙
- 版次:1
- 開本:16開
本書系統(tǒng)梳理總結(jié)ApacheHadoop大數(shù)據(jù)相關(guān)技術(shù),介紹大數(shù)據(jù)存儲、并行計算、數(shù)據(jù)處理等內(nèi)容,幫助讀者形成對大數(shù)據(jù)知識體系及其應(yīng)用領(lǐng)域的輪廓性認識,為讀者在大數(shù)據(jù)領(lǐng)域進行更深入的學(xué)習(xí)和研究奠定基礎(chǔ)、指明方向。
2012年后,大數(shù)據(jù)(BagData)一詞越來越多地被提及,人們用它來描述和定義信息爆炸時代產(chǎn)生的海量數(shù)據(jù),并命名與之相關(guān)的技術(shù)發(fā)展與創(chuàng)新。
隨著云時代的來臨,大數(shù)據(jù)吸引了越來越多的關(guān)注,數(shù)據(jù)正在迅速膨脹并變大,它決定著企業(yè)的未來發(fā)展,雖然很多企業(yè)可能并沒有意識到數(shù)據(jù)爆炸性增長帶來問題的隱患,但是隨著時間的推移,人們將越來越多地意識到數(shù)據(jù)對企業(yè)的重要性,大數(shù)據(jù)通常用來形容一個公司創(chuàng)造的大量非結(jié)構(gòu)化和半結(jié)構(gòu)化數(shù)據(jù),這些數(shù)據(jù)在下載到關(guān)系數(shù)據(jù)庫時用于分析會花費過多的時間和金錢,大數(shù)據(jù)分析常和云計算聯(lián)系到一起,因為實時的大型數(shù)據(jù)分析需要像MapReduce一樣的計算框架來向數(shù)十、數(shù)百甚至數(shù)千臺計算機分配工作。
本書主要向讀者介紹一種大規(guī)模數(shù)據(jù)處理的開源框架——Hadoop生態(tài)系統(tǒng)。在深入探討Hadoop的技術(shù)細節(jié)和應(yīng)用之前,有必要花時間來了解Hadoop及其取得巨的歷史背景,Hadoop并不是憑空想象出來的,它的出現(xiàn)源于人們創(chuàng)建和使用的數(shù)據(jù)量的爆炸性增長。在此背景下,不僅龐大的跨國公司面臨著海量數(shù)據(jù)處理的困難,小型創(chuàng)業(yè)公司同樣如此。與此同時,一些變革改變了軟件和系統(tǒng)的部署方式,除了傳統(tǒng)的基礎(chǔ)設(shè)施,人們開始使用甚至偏好于分布式資源處理框架。
本書揭開了Apache Hadoop的神秘面紗,著重講解了如何應(yīng)用Hadoop和相關(guān)技術(shù)搭建工作系統(tǒng)并完成任務(wù)。本書共分為9章:第pan>章講解Hadoop的生態(tài)系統(tǒng),以及在行業(yè)中的應(yīng)用場景;第2章講解Hadoop分布式文件系統(tǒng)括NameNode和DataNode節(jié)點、機架感知策略、HDFS Shell 命令等;第3 章講解MapReduce 并行計算框架,讓讀者了解MapReduce的工作原理:第4章講解HBase分布式數(shù)據(jù)庫,講述了HBase 如何實現(xiàn)數(shù)據(jù)存儲、HBase 的節(jié)點類型、HBase API開發(fā):第5章講解Hive 數(shù)據(jù)倉庫,介紹了Hive 的架構(gòu)、HQL語法結(jié)構(gòu)、Hive 數(shù)據(jù)查詢案例:第6章講解Kafka 消息系統(tǒng),介紹了Kafka消息系統(tǒng)的工作原理、Kafka消息細節(jié)處理等;第7章講解Flume 日志處理系統(tǒng),介紹了Flume的日志處理技術(shù),F(xiàn)lume 如行流計算技術(shù)處理:第8章講郁Zookeper分布式協(xié)調(diào)系統(tǒng),幫助讀者理解如何實現(xiàn)Hadoop組件之問的協(xié)調(diào)控制:第9意講解 Sagoop數(shù)據(jù)遷移工具,涵蓋了有效使用Sqoop處理實際場景中的數(shù)據(jù)遷移工作。
通過閱讀本書,讀者將迅速掌握編程概念,打下堅實的基礎(chǔ),并養(yǎng)成良好的習(xí)慣。此后,讀者就可以開始了解其他大數(shù)臺技術(shù),如Spark內(nèi)存計算框架、Flink流扯一體化處臺,并能夠更輕松地掌握大數(shù)據(jù)技術(shù)。
第1章 .Hadoop大數(shù)臺概述
1.1 Hadoop大數(shù)臺起源
1.1.1 Hadoop發(fā)展歷程
1.1.2 Hadoop核心組件
1.1.3 Hadoop與云計算的關(guān)系
1.2 Hadoop集群搭建和簡單應(yīng)用
1.2.1 集群服務(wù)器規(guī)劃
1.2.2 Hadoop軟件安裝
1.2.3 Hadoop命令行的基本使用
本章小結(jié)
第2章 Hadoop分布式文件系統(tǒng)
2.1 HDFS概述
2.1.1 HDFS的概念和特性
2.1.2 HDFS的局限性
2.1.3 HDFS保證可靠性的措施
2.1.4 單點故障(單點失效)問題
2.2 HDFS Shell命令
2.2.1 常見Shell命令
2.2.2 其他HDFS Shell命令
2.3 對HDFS的深入理解
2.3.1 HDFS的優(yōu)點和缺點
2.3.2 HDFS的能
2.4 HDFS讀寫過程
2.4.1 HDFS寫入數(shù)據(jù)過程
2.4.2 HDFS讀取數(shù)據(jù)過程
2.5 分布式集群中HDFS的各種角色
2.5.1 NameNode的可靠性
2.5.2 DataNode的可靠性
2.5.3 元數(shù)據(jù)的CheckPoint
本章小結(jié)
第3章 MapReduce并行計算框架
3.1 MapReduce概述
3.1.1 為什么需要MapReduce
3.1.2 MapReduce程序運行演示
3.1.3 WordCount.java源碼分析
3.i.4編寫自己的WordCount程序
3.2 MapReduce的核心運行機制
3.3 MapReduce的多Job串聯(lián)和全局計數(shù)器
3.3.1 MapReduce的多Job串聯(lián)
3.3.2 全局計數(shù)器
3.3.3 計數(shù)器該如何使用
3.3.4 MapReduce框架Partitioner分區(qū)
3.3.5 MapReduce框架Combiner分區(qū)
3.4 YARN的資源調(diào)度
本章小結(jié)
第4章 HBase分布式數(shù)據(jù)庫
4.1 HBase數(shù)據(jù)庫概述
4.1.1 HBase數(shù)據(jù)庫的使用場景
4.1.2 HBase數(shù)據(jù)庫的安裝
4.2 HBase數(shù)據(jù)庫物理架構(gòu)
4.2.1 HBase集群節(jié)點類型
4.2.2 HBase數(shù)據(jù)存儲
4.3 HBase數(shù)據(jù)庫r/> 4.3.1 HBase命令行的啟動
4.3.2 HBase表的r/> 4.3.3 HBase表中數(shù)據(jù)的r/> 4.4 HBase數(shù)據(jù)庫的APIr/> 本章小結(jié)
第5章 Hive數(shù)據(jù)倉庫
5.1 Hive簡介
5.1.1 什么是Hire
5.1.2 Hive的數(shù)據(jù)組織
5.1.3 Hive的表類型
5.2 Hive的安裝與使用
5.2.1 Hive的安裝配置
5.2.2 Hive的基本使用
5.2.3 Hive的連接方式
5.3 Hive數(shù)據(jù)結(jié)構(gòu)
5.3.1 Hive數(shù)據(jù)類型
5.3.2 Hive數(shù)據(jù)存儲格式
5.3.3 數(shù)據(jù)格式
5.4 Hive數(shù)據(jù)r/> 5.4.1 管理庫
5.4.2 表r/> 5.5 Hive應(yīng)用案例
5.5.1 統(tǒng)計單月訪問次數(shù)訪問次數(shù)
5.5.2 學(xué)生課程成績統(tǒng)計
本章小結(jié)
第6章 Kafka消息系統(tǒng)
6.1 Kafka消息系能
6.1.1 Kafka概述
6.1.2 Kafka組件架構(gòu)
6.1.3 Kafka軟件安裝
6.1.4 Kafka服務(wù)的啟動
6.2 Kafka組件術(shù)語
6.2.1 主題與日志
6.2.2 Kafka H志處理
6.2.3 消息副本
6.2.4 數(shù)據(jù)處理場景
6.2.5 生產(chǎn)者
6.2.6 消費者
本章小結(jié)
第7章 Flume日志處理系統(tǒng)
7.1 F、lume的簡介
7.1.1 Flume概述
7.1.2 Flume NG的介紹
7.1.3 Flume的部署類型
7.2 F、lume的安裝與配置
7.2.1 Flume的下載與安裝
7.2.2 Flume Sources描述
7.3 Flume代理流配置
7.3.1 單配置
7.3.2 單代理多流配置
7.3.3 配置多代理流程
7.3.4 多路復(fù)用流
本章小結(jié)
第8章 ZooKeeper分布式協(xié)調(diào)系統(tǒng)
8.1 分布式協(xié)調(diào)技術(shù)概述
8.2 ZooKeeper概述
8.3 ZooKeeper監(jiān)聽機制
8.3.1 Watch觸發(fā)器
8.3.2 監(jiān)聽原理
8.3.3 ZooKeeper應(yīng)用舉例
8.4 ZooKeeper的安裝與集群配置
8.4.1 ZooKeeper的安裝
8.4.2 使用ZooKeeper命令的簡單操作步驟
本章小結(jié)
第9章 Sqoop數(shù)據(jù)遷移工具
9.1 Sq0能概述
9.1.1 Sqoop軟件介紹
9.1.2 Sqoop軟件安裝
9.2 Sqoop命令r/> 9.2.1 Sqoop的基本命令
9.2.2 Sqoop的數(shù)據(jù)導(dǎo)入
9.2.3 將MysQL數(shù)據(jù)庫中的表數(shù)據(jù)導(dǎo)入Hive
9.2.4 將MysQL數(shù)據(jù)庫中的表數(shù)據(jù)導(dǎo)入HBar/> 本章小結(jié)
參考文獻
第一章
Hadoop大數(shù)臺概述
從大數(shù)據(jù)自身的技術(shù)體系來說,大數(shù)據(jù)所有的技術(shù)都緊緊圍繞數(shù)據(jù)價值化來展開,企業(yè)對大數(shù)據(jù)的利用當前也逐漸從傳統(tǒng)的數(shù)據(jù)采集和分析向數(shù)據(jù)生產(chǎn)轉(zhuǎn)變,相信在工業(yè)互聯(lián)網(wǎng)時代這一趨勢會越發(fā)明是。
對于企業(yè)來說,借助于大數(shù)據(jù)來降低運營成本是一個重要的訴求,而通過大數(shù)據(jù)技術(shù)來降低運營成本的出發(fā)點多,不同行業(yè)企業(yè)要結(jié)合自身的實際情況行方案規(guī)劃。當前很多企業(yè)利用大數(shù)據(jù)來構(gòu)建自己的價值化考核體系,這是降耗提效的好方式。
大數(shù)據(jù)時代,數(shù)據(jù)的應(yīng)用已經(jīng)滲透到各行各業(yè),但是傳統(tǒng)的數(shù)據(jù)挖據(jù)和分析已經(jīng)不能滿足行業(yè)發(fā)展的需求,大數(shù)據(jù)技術(shù)為企業(yè)業(yè)務(wù)分析和行業(yè)發(fā)展帶來了新的思維角度,將會充分激發(fā)數(shù)據(jù)對社會發(fā)展的影響和推動。如何有效利用大數(shù)臺?接下來我們就一起來了解Apache Hadoop大數(shù)據(jù)生態(tài)系統(tǒng),
1.1 Hadoop大數(shù)臺起源
Hadoop是Hadoop項目創(chuàng)建者Doug Cutting兒子的一只玩具的名字。他的兒子一直稱呼一只黃色的大象玩具為Hadoop,這剛好滿足Cutting的命名需求——簡短、容易拼寫和發(fā)
音、毫無意義、不會在別處被使用,于是Hadoop就誕生了。Hadoop的發(fā)行版本有很多,有華為發(fā)行版、星環(huán)發(fā)行版、Intel發(fā)行版、Cloudera發(fā)行版(CDH).MapR版本以及Horton Works版本等。所有發(fā)行版本都是基于Apache Hadoop衍生出來的,產(chǎn)生這些版本的原因可歸結(jié)為
Apache Hadoop的開源協(xié)議;任何人都可以對行修改,并作為開源或商業(yè)產(chǎn)品發(fā)布和銷售。
1.1.1 Hadoop發(fā)展歷程
1.Hadoop大數(shù)臺的起源
①Hadoop早起源于Nutch項目,Nutch 的設(shè)計目標是構(gòu)建一個大型的搜索引聚括網(wǎng)頁抓取,索引、查能,但隨著抓取網(wǎng)更數(shù)量的增加,其遇到了嚴重的可擴展性問題——如何解決數(shù)十億網(wǎng)頁的存儲和索引問題。
②從2003年開始,Google陸續(xù)發(fā)表的3篇論文為該問題提供了可行的解決方案。
·分布式文件系統(tǒng)(DFS):可用于處理海量網(wǎng)頁的存儲問題。
·分布式計算框架MapReduce:可用于處理海量網(wǎng)頁的索引計算問題。
·Big Table分布式數(shù)據(jù)庫:OLTP(聯(lián)機事務(wù)處理,On-Line Transaction Processing)用于執(zhí)行增、刪、改操作,OLAP(聯(lián)機分析處理,On-Line Analysis Processing)用于執(zhí)行查詢操作。
(③Nutch的開發(fā)人員完成了相應(yīng)的開源實現(xiàn)HDFS和MapReduce,并將其從Nutch中剝離出來,成為獨立項目Hadoop。直到2008年pan>月,Hadoop成為Apache項目,迎來了快速發(fā)展期。
2.Hadoop官網(wǎng)
我們可以通過 Hadoop官網(wǎng)http://hadoop.apache.org/來學(xué)習(xí)Hadoop 的核心技術(shù)。
Hadoop大數(shù)臺的處理主要就是存儲和計算,我們安裝Hadoop集群,目的是實現(xiàn)兩個核
YARN和一個分布式文件系統(tǒng)HDFS.其實MapReduce就是運行在
YARN之上的應(yīng)用。
1.1.2Hadoop核心組件
Hadoop是Apache旗下的一套開源軟臺,Hadoop主要提能是:利用服務(wù)器集群,根據(jù)用戶自定義的邏輯對海量數(shù)行分布式處理。
1.Hadoop的概念
①狹義上:屬于Apache基全會的一個項目Apache Hadoop.
②廣義上:以Hadoop為核心的整個大數(shù)據(jù)處理體系括計算和存儲能力。
2.Hadoop的核心組件
①Hadoop Common:支持其他Hadoop模塊的常用工具。
②Hadoop分布式文件系統(tǒng)(HDFS):一種分布式文件系統(tǒng),可提供對應(yīng)用程序數(shù)據(jù)的高吞吐量訪問。
③Hadoop YARN:作業(yè)調(diào)度和集群資源管理的框架。
④Hadoop MapReduce:一種用于井行處理大型數(shù)據(jù)集的基于YARN的系統(tǒng)。
……