《數(shù)據(jù)應用工程:方法論與實踐》4位資深專家撰寫,為企業(yè)數(shù)據(jù)治理和應用提供工程化方法和先進經(jīng)驗,10余位專家力薦
定 價:129 元
叢書名:大數(shù)據(jù)技術叢書
當前圖書已被 33 所學校薦購過!
查看明細
- 作者:鐘大偉 高鐸 王鵬 宋超 著
- 出版時間:2022/6/1
- ISBN:9787111704096
- 出 版 社:機械工業(yè)出版社
- 中圖法分類:TP274
- 頁碼:424
- 紙張:
- 版次:
- 開本:16
內(nèi)容簡介
這是一本講解組織數(shù)據(jù)能力建設與數(shù)據(jù)應用工程化的著作,它旨在為企業(yè)應用和管理數(shù)據(jù)提供組織建設、技術體系和行業(yè)解決方案方面的理論指導和實踐經(jīng)驗。本書是幾位作者在數(shù)據(jù)領域十幾年工作經(jīng)驗的總結,得到了業(yè)界10余位專家的一致好評。無論是像互聯(lián)網(wǎng)行業(yè)的數(shù)據(jù)原生類企業(yè),還是正在數(shù)字化轉(zhuǎn)型的傳統(tǒng)企業(yè),本書將為他們大規(guī)模、工程化地發(fā)揮數(shù)據(jù)的價值提供有意的參考。
本書的內(nèi)容大致分為如下四個方面:
(1)行業(yè)分析
從宏觀角度闡述了數(shù)字化變革帶來的問題和不確定性,并引出了解決這些問題需要掌握的理論和方法。
(2)理論方法
一方面,詳細講解了企業(yè)和組織的技術能力建設發(fā)方法、發(fā)展規(guī)律以及成熟度評估,幫助企業(yè)打下應用數(shù)據(jù)的堅實基礎;一方面,詳細介紹了數(shù)據(jù)應用成熟度模型的評估、運用和設計,以及數(shù)據(jù)工程的過程和方法。
(3)知識體系
詳細講解了數(shù)據(jù)治理與管理的方法,以及整個大數(shù)據(jù)體系的技術與架構。
(4)實踐案例
通過4個綜合案例分別講解了數(shù)據(jù)工程與治理、業(yè)務數(shù)據(jù)化以及數(shù)據(jù)的工程化應用,既有企業(yè)級別的數(shù)據(jù)管理案例,還有業(yè)務級別的營銷案例,不僅有To B場景,還有To G場景。
贊譽
前言
第一部分 行業(yè)分析
第1章 數(shù)字化時代的變革與挑戰(zhàn) 2
1.1 數(shù)字經(jīng)濟與生產(chǎn)變革 2
1.1.1 從農(nóng)業(yè)經(jīng)濟到數(shù)字經(jīng)濟,從土地到數(shù)據(jù) 3
1.1.2 從規(guī);a(chǎn)到個性化定制生產(chǎn),從IT到DT 8
1.2 數(shù)字化時代的變革動能 10
1.2.1 技術發(fā)展創(chuàng)造變革 11
1.2.2 “新基建”提速變革 14
1.2.3 商業(yè)競爭驅(qū)動變革 16
1.2.4 社會治理需要變革 20
1.2.5 政府政策引導變革 22
1.3 數(shù)字化變革中的不確定性與挑戰(zhàn) 25
1.3.1 環(huán)境不確定性 25
1.3.2 數(shù)字化變革的挑戰(zhàn) 30
1.4 本章小結 37
第二部分 理論方法
第2章 技術變革與組織應用技術的規(guī)律 40
2.1 組織面對技術變革的三大挑戰(zhàn) 40
2.1.1 新技術不斷涌現(xiàn),技術選擇的挑戰(zhàn) 41
2.1.2 創(chuàng)新風險很高,技術應用發(fā)展規(guī)劃的挑戰(zhàn) 45
2.1.3 發(fā)展常遇瓶頸,持續(xù)提升的挑戰(zhàn) 47
2.2 事物發(fā)展的“第一性原理” 48
2.2.1 成熟度 48
2.2.2 成熟度模型 49
2.2.3 成熟度模型分類 51
2.3 技術創(chuàng)新規(guī)律與成熟度評估 56
2.3.1 技術發(fā)展生命周期規(guī)律 56
2.3.2 基于就緒水平的技術研發(fā)成熟度評估 57
2.3.3 考慮宣傳期望的技術發(fā)展成熟度曲線 59
2.4 組織技術應用的發(fā)展規(guī)律與成熟度評估 61
2.4.1 指導早期信息化規(guī)劃的諾蘭成長階段模型 62
2.4.2 諾蘭模型在網(wǎng)絡時代與智能時代的擴展 63
2.5 組織技術應用的能力建設規(guī)律與成熟度評估 65
2.5.1 從質(zhì)量方法發(fā)展來的能力成熟度模型 65
2.5.2 能力成熟度模型的基礎原理 68
2.5.3 軟件領域廣泛應用的能力成熟度模型 73
2.5.4 數(shù)據(jù)領域廣泛應用的能力成熟度模型 75
2.6 本章小結 81
第3章 數(shù)據(jù)應用成熟度模型 82
3.1 模型開發(fā)背景 82
3.2 數(shù)據(jù)應用成熟度模型框架 86
3.2.1 模型框架說明 86
3.2.2 模型階段與維度說明 87
3.3 數(shù)據(jù)應用成熟度模型評估 88
3.3.1 發(fā)展評估—數(shù)據(jù)應用維度 88
3.3.2 能力評估—數(shù)據(jù)工程維度 92
3.3.3 能力評估—數(shù)據(jù)治理維度 94
3.3.4 數(shù)據(jù)應用成熟度綜合評估 96
3.4 數(shù)據(jù)應用成熟度模型的運用 101
3.4.1 模型運用流程 101
3.4.2 成熟度進階建議和措施 102
3.5 數(shù)據(jù)工程過程 104
3.5.1 數(shù)據(jù)工程過程概述 105
3.5.2 數(shù)據(jù)理解過程 108
3.5.3 數(shù)據(jù)設計過程 111
3.5.4 數(shù)據(jù)處理過程—數(shù)據(jù)開發(fā) 114
3.5.5 數(shù)據(jù)處理過程—數(shù)據(jù)分析與數(shù)據(jù)科學建模 124
3.5.6 數(shù)據(jù)部署過程 129
3.5.7 數(shù)據(jù)運營過程 131
3.5.8 數(shù)據(jù)工程支持過程 133
3.6 數(shù)據(jù)治理過程?? 134
3.6.1 數(shù)據(jù)治理維度概述 134
3.6.2 宏觀決策域 135
3.6.3 核心治理域—基本治理過程 137
3.6.4 核心治理域—綜合治理過程 141
3.7 本章小結 143
第三部分 知識體系
第4章 數(shù)據(jù)治理與管理 146
4.1 元數(shù)據(jù)管理 147
4.1.1 元數(shù)據(jù)概述 147
4.1.2 元數(shù)據(jù)定義 147
4.1.3 元數(shù)據(jù)分類 148
4.1.4 元數(shù)據(jù)管理詳解 152
4.2 數(shù)據(jù)質(zhì)量管理 154
4.2.1 數(shù)據(jù)質(zhì)量概述 154
4.2.2 數(shù)據(jù)質(zhì)量問題 156
4.2.3 數(shù)據(jù)質(zhì)量測量與評價 159
4.2.4 數(shù)據(jù)質(zhì)量問題的解決方法 170
4.2.5 如何做好數(shù)據(jù)質(zhì)量管理 173
4.3 數(shù)據(jù)安全管理 175
4.3.1 數(shù)據(jù)安全的內(nèi)容與特點 175
4.3.2 數(shù)據(jù)安全管理流程 179
4.3.3 數(shù)據(jù)合規(guī)要求的法規(guī)體系 181
4.3.4 數(shù)據(jù)安全的基礎合規(guī)要求 183
4.3.5 個人信息處理的專門合規(guī)要求 186
4.3.6 數(shù)據(jù)安全管理的技術和方法 196
4.4 本章小結 207
第5章 大數(shù)據(jù)技術詳解 208
5.1 大數(shù)據(jù)技術的方法和流行開源組件 208
5.1.1 大數(shù)據(jù)的4V特性與技術挑戰(zhàn) 208
5.1.2 大數(shù)據(jù)技術的主要方法 209
5.1.3 大數(shù)據(jù)技術的流行開源組件 211
5.2 大數(shù)據(jù)系統(tǒng)架構 212
5.2.1 MPP數(shù)據(jù)庫架構 212
5.2.2 Hadoop體系的架構 215
5.2.3 兩種架構的對比 218
5.2.4 存儲與計算分離及云化的未來架構 220
5.3 大數(shù)據(jù)存儲技術 221
5.3.1 分布式文件存儲系統(tǒng) 222
5.3.2 分布式數(shù)據(jù)庫系統(tǒng) 225
5.3.3 分布式消息傳遞系統(tǒng) 232
5.4 大數(shù)據(jù)計算技術 234
5.4.1 離線批處理 234
5.4.2 實時流處理 236
5.5 大數(shù)據(jù)分析技術 239
5.5.1 OLAP技術介紹 239
5.5.2 實時OLAP系統(tǒng)的兩種架構模型 240
5.5.3 OLAP相關技術分類 241
5.5.4 OLAP技術典型流行產(chǎn)品示例 242
5.6 數(shù)據(jù)科學技術 244
5.6.1 機器學習的基礎概念 244
5.6.2 有監(jiān)督機器學習算法 250
5.6.3 無監(jiān)督機器學習算法 260
5.7 本章小結 264
第四部分 實踐案例
第6章 數(shù)據(jù)工程與治理案例——移動大數(shù)據(jù)的數(shù)據(jù)處理實踐 266
6.1 統(tǒng)一的大數(shù)據(jù)工程與治理架構 266
6.2 數(shù)據(jù)倉庫設計 268
6.2.1 數(shù)據(jù)模型架構設計 269
6.2.2 數(shù)據(jù)管理規(guī)范設計 270
6.2.3 數(shù)據(jù)規(guī)格設計 276
6.3 大數(shù)據(jù)日志收集技術 278
6.3.1 Web日志收集技術 278
6.3.2 移動端日志收集技術 280
6.3.3 埋點技術與埋點實現(xiàn) 283
6.4 數(shù)據(jù)處理設計 291
6.4.1 數(shù)據(jù)處理技術架構設計 291
6.4.2 數(shù)據(jù)處理流程設計 293
6.5 數(shù)據(jù)科學建模 295
6.5.1 數(shù)據(jù)科學建模工程流程示例 295
6.5.2 面向數(shù)據(jù)安全的Embedding數(shù)據(jù)特征提取方法與應用實例 300
6.5.3 基于移動設備行為數(shù)據(jù)的人口屬性性別標簽預測模型迭代實例 304
6.6 數(shù)據(jù)治理 309
6.6.1 數(shù)據(jù)治理平臺的目標 309
6.6.2 數(shù)據(jù)治理平臺的功能架構 310
6.6.3 元數(shù)據(jù)管理 314
6.6.4 血緣查詢與告警 317
6.6.5 數(shù)據(jù)資產(chǎn)統(tǒng)計 318
6.6.6 其他功能模塊示例 322
6.7 本章小結 325
第7章 數(shù)據(jù)工程過程案例——企業(yè)CDP建設中的數(shù)據(jù)工程實踐 326
7.1 CDP平臺的數(shù)據(jù)源梳理 328
7.1.1 數(shù)據(jù)源梳理過程的輸入和輸出 329
7.1.2 了解客戶的業(yè)務及流程 330
7.1.3 了解客戶的系統(tǒng) 330
7.1.4 了解客戶的數(shù)據(jù) 331
7.2 CDP平臺的標簽體系及其口徑梳理 333
7.2.1 標簽體系及其口徑梳理過程的輸入和輸出 333
7.2.2 標簽體系內(nèi)容說明 334
7.2.3 標簽體系梳理 336
7.2.4 標簽口徑梳理 339
7.3 CDP平臺的數(shù)據(jù)同步接口定義 341
7.3.1 數(shù)據(jù)同步接口定義過程的輸入和輸出 341
7.3.2 關于ETL和ELT 342
7.3.3 數(shù)據(jù)同步接口定義 342
7.4 CDP平臺的數(shù)據(jù)模型設計 345
7.4.1 關于數(shù)據(jù)模型設計過程的輸入與輸出 345
7.4.2 數(shù)據(jù)模型設計 346
7.4.3 數(shù)據(jù)模型的應用 351
7.5 CDP平臺的ETL設計 352
7.5.1 ETL設計過程的輸入和輸出 353
7.5.2 ETL設計 353
7.6 CDP平臺的ETL開發(fā) 357
7.6.1 ETL開發(fā)過程的輸入和輸出 357
7.6.2 ETL開發(fā)流程 358
7.7 CDP平臺的數(shù)據(jù)運維 359
7.7.1 運維過程的輸入與輸出 359
7.7.2 運維工作內(nèi)容 360
7.8 本章小結 362
第8章 數(shù)據(jù)應用案例——大數(shù)據(jù)統(tǒng)計分析與個性化營銷 363
8.1 統(tǒng)計級大數(shù)據(jù)應用——移動應用統(tǒng)計分析系統(tǒng) 363
8.1.1 業(yè)務背景 364
8.1.2 產(chǎn)品技術設計 367
8.1.3 具體實現(xiàn)示例與說明 379
8.2 個體級大數(shù)據(jù)應用——營銷數(shù)據(jù)管理平臺 382
8.2.1 產(chǎn)品背景 382
8.2.2 產(chǎn)品設計 382
8.2.3 具體實現(xiàn)示例 391
8.3 本章小結 392
第9章 數(shù)據(jù)應用案例——基于空間大數(shù)據(jù)的土地資源數(shù)字化精準監(jiān)管 393
9.1 案例背景 393
9.2 數(shù)據(jù)處理過程 394
9.3 數(shù)字化的土地執(zhí)法監(jiān)管應用 398
9.4 本章小結 401
附錄
附錄A 成熟度模型的構建方法 404
附錄B 數(shù)據(jù)應用成熟度模型設計說明 408
附錄C 數(shù)據(jù)合規(guī)要求的法規(guī)文件匯總 411