本書是學習大數(shù)據(jù)技術的入門教材,深入淺出地介紹了什么是大數(shù)據(jù)、大數(shù)據(jù)的價值及應用、大數(shù)據(jù)的架構、大數(shù)據(jù)的采集及預處理、大數(shù)據(jù)的存儲、大數(shù)據(jù)分析、大數(shù)據(jù)可視化等,為學生提供在實踐中解決大數(shù)據(jù)相關問題的思路和方法。本書貫徹理論精簡的原則,注重科普性,突出實用性,可作為職業(yè)院校相關專業(yè)的選修課教材,也可供大數(shù)據(jù)技術初學者及有關技術人員閱讀。
余戰(zhàn)秋,高級講師,任教于安徽工業(yè)經(jīng)濟職業(yè)技術學院,出版過多本職業(yè)教育教材;蔡政策,高級講師,任教于安徽國際商務職業(yè)學院。
第1章 大數(shù)據(jù)概述 1
1.1 大數(shù)據(jù)是什么 1
1.1.1 大數(shù)據(jù)是怎么來的 1
1.1.2 大數(shù)據(jù)的定義與特征 4
1.1.3 大數(shù)據(jù)與云計算、物聯(lián)網(wǎng)、互聯(lián)網(wǎng)之間的關系 5
1.2 大數(shù)據(jù)的意義及挑戰(zhàn) 7
1.2.1 研究大數(shù)據(jù)的意義 7
1.2.2 大數(shù)據(jù)的異構性和不完備性 10
1.2.3 數(shù)據(jù)處理的時效性 10
1.2.4 數(shù)據(jù)安全與隱私保護 11
1.2.5 大數(shù)據(jù)的能耗 12
1.2.6 大數(shù)據(jù)管理易用性 12
1.3 大數(shù)據(jù)技術及應用 13
1.3.1 大數(shù)據(jù)技術框架 13
1.3.2 大數(shù)據(jù)處理工具和技術發(fā)展趨勢 17
1.3.3 大數(shù)據(jù)的應用 19
【思考題】 25
第2章 大數(shù)據(jù)的架構 26
2.1 大數(shù)據(jù)平臺架構簡介 26
2.1.1 傳統(tǒng)計算方式的數(shù)據(jù)瓶頸 26
2.1.2 大數(shù)據(jù)處理平臺的技術架構 27
2.1.3 主流大數(shù)據(jù)架構 32
2.2 Hadoop體系架構 37
2.2.1 Hadoop體系架構簡介 37
2.2.2 Hadoop的應用 48
2.2.3 Hadoop MapReduce的應用 50
2.2.4 Hadoop MapReduce應用實例 58
【思考題】 74
第3章 大數(shù)據(jù)的采集及預處理 75
3.1 大數(shù)據(jù)采集 75
3.1.1 大數(shù)據(jù)采集簡介 75
3.1.2 常用大數(shù)據(jù)采集工具 81
3.1.3 常用的數(shù)據(jù)采集方法 88
3.1.4 Kafka概述 91
3.1.5 Kafka安裝及使用 94
3.2 數(shù)據(jù)預處理 100
3.2.1 數(shù)據(jù)清洗 100
3.2.2 數(shù)據(jù)集成 104
3.2.3 數(shù)據(jù)變換 106
3.3 ETL技術及其工具 108
3.3.1 數(shù)據(jù)倉庫技術ETL 108
3.3.2 常用ETL工具 111
3.3.3 Kettle 113
【思考題】 120
第4章 大數(shù)據(jù)的存儲 121
4.1 大數(shù)據(jù)的存儲方式 121
4.1.1 大數(shù)據(jù)存儲綜述 121
4.1.2 數(shù)據(jù)的存儲方法 125
4.1.3 大數(shù)據(jù)的基礎設施 128
4.1.4 大數(shù)據(jù)文件存儲方式 136
4.1.5 大數(shù)據(jù)存儲的特點及技術路線 142
4.2 數(shù)據(jù)倉庫及開發(fā)模型 144
4.2.1 數(shù)據(jù)倉庫簡介 144
4.2.2 數(shù)據(jù)倉庫模型設計 149
【思考題】 161
第5章 大數(shù)據(jù)分析 163
5.1 大數(shù)據(jù)分析概述 163
5.1.1 數(shù)據(jù)分析的概念和分類 164
5.1.2 大數(shù)據(jù)存在模式與結構大數(shù)據(jù) 167
5.1.3 大數(shù)據(jù)分析與數(shù)據(jù)分析的區(qū)別 169
5.1.4 大數(shù)據(jù)分析的背景及挑戰(zhàn) 170
5.2 大數(shù)據(jù)分析工具及方法 170
5.2.1 大數(shù)據(jù)分析工具及手段 170
5.2.2 大數(shù)據(jù)分析方法 175
5.3 數(shù)據(jù)挖掘 192
5.3.1 數(shù)據(jù)挖掘概述 192
5.3.2 數(shù)據(jù)挖掘工具 194
【思考題】 199
第6章 大數(shù)據(jù)可視化 200
6.1 數(shù)據(jù)可視化概述 200
6.2 大數(shù)據(jù)可視化的實現(xiàn) 204
6.2.1 數(shù)據(jù)可視化方式 204
6.2.2 大數(shù)據(jù)可視化模式及應用 210
6.2.3 大數(shù)據(jù)可視化方法 210
6.2.4 大數(shù)據(jù)可視化的設計 217
6.3 主流大數(shù)據(jù)可視化工具及應用 220
6.3.1 Excel及應用 220
6.3.2 Processing及應用 221
6.3.3 NodeXL及應用 235
【思考題】 240
參考文獻 241