《大數(shù)據(jù)技術概論:從虛幻走向真實的數(shù)據(jù)世界》從初學者易于理解的角度,以通俗易懂的語言、豐富的實例、簡潔的圖表、傳統(tǒng)和現(xiàn)代數(shù)據(jù)特征的對比,將大數(shù)據(jù)這一計算機前沿科學如數(shù)家珍地娓娓道來。既介紹了大數(shù)據(jù)和相關的基礎知識,又與具體應用有機結合起來,并借助可視化圖表的畫面感立體地為讀者剖析了大數(shù)據(jù)的技術和原理,非常便于自學。
本書內容包括大數(shù)據(jù)概論、大數(shù)據(jù)采集及預處理、大數(shù)據(jù)分析、大數(shù)據(jù)可視化、Hadoop概論、HDFS和Common概論、MapReduce概論、NoSQL技術介紹、Spark概論、云計算與大數(shù)據(jù)、大數(shù)據(jù)相關案例等內容。
本書既可以作為想了解大數(shù)據(jù)技術和應用的初學者的教材,也適合作為培訓中心、IT人員、企業(yè)策劃和管理人員的參考書。
前言
IT產(chǎn)業(yè)在其發(fā)展歷程中,經(jīng)歷過幾次技術浪潮。如今,大數(shù)據(jù)浪潮正在迅速朝我們涌來,并將觸及各個行業(yè)和生活的許多方面。大數(shù)據(jù)浪潮將比之前發(fā)生過的浪潮更大、觸及面更廣,給人們的工作和生活帶來的變化和影響也更大。
毋庸置疑,大數(shù)據(jù)的應用激發(fā)了一場思想風暴,也悄然改變了我們的生活方式和思維習慣。大數(shù)據(jù)正以前所未有的速度顛覆人們探索世界的方法,引起工業(yè)、商業(yè)、醫(yī)學、軍事等領域的深刻變革。因此,在當前大數(shù)據(jù)浪潮的猛烈沖擊下,人們迫切需要充實和完善自己原有的IT知識結構,掌握兩種全新的技能: 一是掌握大數(shù)據(jù)基本技術與應用,使大數(shù)據(jù)為我們所用的技能; 二是掌握數(shù)據(jù)之間隱藏的規(guī)律與關系,以及可視化方法,使大數(shù)據(jù)更好地服務于社會發(fā)展的技能。
本書注重實用性,圍繞大數(shù)據(jù)及其相關技術這一主題,采用深入淺出、圖文并茂的敘述方式,簡明扼要地闡述了大數(shù)據(jù)及其相關技術的基本理論和發(fā)展趨勢,使廣大讀者通過閱讀本書,深入了解和掌握大數(shù)據(jù)的理論和應用,從而更好地把握時代發(fā)展的脈搏和歷史賦予的機遇。
本書的目標是給廣大讀者提供一個既通俗易懂,又具有嚴謹、完整、結構化特征的書籍。其獨到之處是既闡明了大數(shù)據(jù)技術的系統(tǒng)性和理論性,又對傳統(tǒng)數(shù)據(jù)和大數(shù)據(jù)在來源、結構、特征、存儲方式、使用方法等方面,通過大量的表格和圖形方式進行了有針對性的對比和闡述,使讀者對兩者的區(qū)別一目了然,對理解和掌握大數(shù)據(jù)理技術具有事半功倍的效果。另外,考慮到大數(shù)據(jù)技術涉及許多新名詞和專業(yè)性極強的詞匯,故在全書的每一章中均附有相關術語的注釋,方便讀者查閱和自學。
本書還力求將大數(shù)據(jù)技術晦澀難懂的理論知識以通俗易懂的語言和方式,由淺入深地展現(xiàn)在讀者面前,便于讀者理解和掌握。本書內容重點突出,語言精練易懂,非常便于自學,可作為想了解、使用大數(shù)據(jù)技術的相關人員,如工程技術人員、IT工作者、企業(yè)策劃和管理人員的參考書,也可作為相關學習班的培訓教材。
全書共分成11章: 第1章大數(shù)據(jù)概論,第2章大數(shù)據(jù)采集及預處理,第3章大數(shù)據(jù)分析概論,第4章大數(shù)據(jù)可視化,第5章Hadoop概論,第6章HDFS和Common概論,第7章MapReduce概論,第8章NoSQL技術介紹,第9章Spark概論,第10章云計算與大數(shù)據(jù),第11章大數(shù)據(jù)解決方案相關案例。
本書在寫作過程中參閱了大量的中外書籍和相關資料,在此對各位作者表示真誠的謝意。另外本書得到了中國醫(yī)科大學沙憲政教授和東北大學楊廣明教授的大力支持,清華大學出版社對這本書的出版做了精心策劃及充分論證,特此感謝!由于作者水平有限,加之時間倉促,書中難免存在疏漏之處,懇請廣大讀者批評斧正!
婁巖2016年6月
第1章大數(shù)據(jù)概論
1.1大數(shù)據(jù)技術概述
1.1.1大數(shù)據(jù)的基本概念
1.1.2IT產(chǎn)業(yè)的發(fā)展簡史
1.1.3大數(shù)據(jù)的來源
1.1.4大數(shù)據(jù)產(chǎn)生的三個發(fā)展階段
1.1.5大數(shù)據(jù)的特點
1.1.6大數(shù)據(jù)處理流程
1.1.7大數(shù)據(jù)的數(shù)據(jù)格式特性
1.1.8大數(shù)據(jù)的特征
1.1.9大數(shù)據(jù)的應用領域
1.2大數(shù)據(jù)技術架構
1.3大數(shù)據(jù)的整體技術和關鍵技術
1.4大數(shù)據(jù)分析的五種典型工具簡介
1.5大數(shù)據(jù)未來發(fā)展趨勢
1.5.1數(shù)據(jù)資源化
1.5.2數(shù)據(jù)科學和數(shù)據(jù)聯(lián)盟的成立
1.5.3大數(shù)據(jù)隱私和安全問題
1.5.4開源軟件成為推動大數(shù)據(jù)發(fā)展的動力
1.5.5大數(shù)據(jù)在多方位改善我們的生活
本章小結
第2章大數(shù)據(jù)采集及預處理
2.1大數(shù)據(jù)采集
2.1.1大數(shù)據(jù)采集概述
2.1.2大數(shù)據(jù)采集的數(shù)據(jù)來源
2.1.3大數(shù)據(jù)采集的技術方法
2.2大數(shù)據(jù)的預處理
2.3大數(shù)據(jù)采集及預處理的工具
本章小結
第3章大數(shù)據(jù)分析概述
3.1大數(shù)據(jù)分析簡介
3.1.1什么是大數(shù)據(jù)分析
3.1.2大數(shù)據(jù)分析的基本方法
3.1.3大數(shù)據(jù)處理流程
3.2大數(shù)據(jù)分析的主要技術
3.2.1深度學習
3.2.2知識計算
3.2.3可視化
3.3大數(shù)據(jù)分析處理系統(tǒng)簡介
3.3.1批量數(shù)據(jù)及處理系統(tǒng)
3.3.2流式數(shù)據(jù)及處理系統(tǒng)
3.3.3交互式數(shù)據(jù)及處理系統(tǒng)
3.3.4圖數(shù)據(jù)及處理系統(tǒng)
3.4大數(shù)據(jù)分析的應用
本章小結
第4章大數(shù)據(jù)可視化
4.1大數(shù)據(jù)可視化概述
4.1.1大數(shù)據(jù)可視化與數(shù)據(jù)可視化
4.1.2大數(shù)據(jù)可視化的過程
4.2大數(shù)據(jù)可視化工具
4.2.1常見大數(shù)據(jù)可視化工具簡介
4.2.2Tableau數(shù)據(jù)可視化入門
本章小結
第5章Hadoop概論
5.1Hadoop簡介
5.1.1Hadoop的發(fā)展簡史
5.1.2Hadoop應用現(xiàn)狀和發(fā)展趨勢
5.2Hadoop的架構與組成
5.2.1Hadoop架構
5.2.2Hadoop組成模塊介紹
5.3Hadoop的應用
5.3.1Hadoop平臺搭建
5.3.2Hadoop的開發(fā)方式
5.3.3Hadoop應用分析
本章小結
第6章HDFS和Common概論
6.1HDFS概述
6.1.1HDFS相關概念
6.1.2HDFS特點
6.1.3HDFS體系結構
6.1.4HDFS工作原理
6.1.5HDFS相關技術
6.1.6HDFS源代碼結構
6.1.7HDFS接口
6.2Common概述
本章小結
第7章MapReduce概論
7.1MapReduce簡介
7.1.1如何理解MapReduce
7.1.2MapReduce功能和技術特征
7.2MapReduce的Map和Reduce任務
7.2.1Map與Reduce
7.2.2Map任務原理
7.2.3Reduce任務原理
7.3MapReduce架構和工作流程
7.3.1MapReduce的架構
7.3.2MapReduce工作流程
7.4MapReduce編程源碼范例
7.5MapReduce接口
本章小結
第8章NoSQL技術介紹
8.1NoSQL基礎知識
8.1.1NoSQL的產(chǎn)生
8.1.2NoSQL的特點
8.1.3NoSQL的技術基礎
8.2NoSQL的種類
8.2.1鍵值存儲
8.2.2列存儲
8.2.3面向文檔存儲
8.2.4圖形存儲
8.3典型的NoSQL工具
8.3.1Redis
8.3.2Bigtable
8.3.3CouchDB
8.3.4Neo4j
本章小結
第9章Spark概論
9.1Spark概述
9.1.1Spark簡介
9.1.2Spark發(fā)展
9.1.3Scala語言
9.2Spark與Hadoop
9.2.1Hadoop的局限與不足
9.2.2Spark的優(yōu)點
9.2.3Spark速度比Hadoop快的原因分解
9.3Spark大數(shù)據(jù)處理架構及其生態(tài)系統(tǒng)
9.3.1底層的Cluster Manager和Data Manager
9.3.2中間層的Spark Runtime
9.3.3高層的應用模塊
9.4Spark的應用
9.4.1Spark的應用場景
9.4.2應用Spark的成功案例
本章小結
第10章云計算與大數(shù)據(jù)
10.1云計算概論
10.1.1云計算定義
10.1.2云計算與大數(shù)據(jù)的關系
10.1.3云計算基本特征
10.1.4云計算服務模式
10.2云計算核心技術
10.2.1虛擬化技術
10.2.2虛擬化軟件及應用
10.2.3資源池化技術
10.2.4云計算部署模式
10.3云計算仿真
10.4云計算的安全
10.4.1云計算安全現(xiàn)狀
10.4.2云計算安全服務體系
10.5云計算應用案例
本章小結
第11章大數(shù)據(jù)解決方案及相關案例
11.1大數(shù)據(jù)解決方案基礎
11.2Intel大數(shù)據(jù)
11.2.1Intel大數(shù)據(jù)解決方案
11.2.2Intel大數(shù)據(jù)相關案例——中國移動廣東公司詳單、賬單
查詢系統(tǒng)
11.3百度大數(shù)據(jù)
11.3.1百度大數(shù)據(jù)引擎
11.3.2百度大數(shù)據(jù)+平臺
11.3.3相關應用
11.3.4百度預測的使用方法
11.4騰訊大數(shù)據(jù)
11.4.1騰訊大數(shù)據(jù)解決方案
11.4.2相關實例——廣點通
本章小結
參考文獻