《創(chuàng)新思維與TRIZ創(chuàng)新方法》編輯委員會〖HT〗〖ST〗〖WT〗〖HJ1〗[JZ(Z][HT4H]主〓審[HTK]: 陳敏玲[HT4H]主〓編[HTK]: 周〓蘇[HT4H]副主編[HTK]: 李亮亮〓褚〓赟〓韓志科〓王〓文〖HT〗[JZ)]〖HJ〗大數(shù)據(jù)(Big Data)的力量,正在積極地影響著我們社會的方方面面。它沖擊著許多主要的行業(yè),包括零售業(yè)、電子商務和金融服務業(yè)等,也正在徹底地改變我們的學習和日常生活: 改變我們的教育方式、生活方式、工作方式。如今,通過簡單、易用的移動應用和基于云端的數(shù)據(jù)服務,我們能夠追蹤自己的行為以及飲食習慣,還能提升個人的健康狀況。因此,我們有必要真正理解大數(shù)據(jù)這個極其重要的議題。
中國是大數(shù)據(jù)最大的潛在市場之一。據(jù)估計,中國有近六億網(wǎng)民,這就意味著中國的企業(yè)擁有絕佳的機會來更好地了解其客戶并提供更加個性化的體驗,同時為企業(yè)增加收入并提高利潤。阿里巴巴就是一個很好的例子。阿里巴巴不但在商業(yè)模式上具有顛覆性,而且掌握了與購買行為、產(chǎn)品需求和庫存供應相關的海量數(shù)據(jù)。除了阿里巴巴高層的領導能力之外,大數(shù)據(jù)是其成功的一個關鍵因素。
然而,僅有數(shù)據(jù)是不夠的。對于身處大數(shù)據(jù)時代的企業(yè)而言,成功的關鍵還在于找出大數(shù)據(jù)所隱含的真知灼見!耙郧,人們總說信息就是力量,如今,對數(shù)據(jù)進行分析、利用和挖掘才是力量之所在!
在不同行業(yè)中,那些專門從事行業(yè)數(shù)據(jù)的收集、整理,進行深度分析,并依據(jù)分析結(jié)果做出行業(yè)研究、評估和預測的工作被稱為數(shù)據(jù)分析。所謂大數(shù)據(jù)分析,是指用適當?shù)姆椒▽κ占瘉淼拇罅繑?shù)據(jù)進行分析,提取有用信息和形成結(jié)論,從而對數(shù)據(jù)加以詳細研究和概括總結(jié)的過程;蛘,顧名思義,大數(shù)據(jù)分析是指對規(guī)模巨大的數(shù)據(jù)進行分析,是大數(shù)據(jù)到信息,再到知識的關鍵步驟。大數(shù)據(jù)分析結(jié)合了傳統(tǒng)統(tǒng)計分析方法和計算分析方法,在研究大量數(shù)據(jù)的過程中尋找模式、相關性和其他有用信息,幫助企業(yè)更好地適應變化并做出更明智的決策。
對于大數(shù)據(jù)技術(shù)及其相關專業(yè)的大學生來說,大數(shù)據(jù)分析的理念、技術(shù)與應用是一門理論性和實踐性都很強的核心課程。在長期的教學實踐中,我們體會到,堅持“因材施教”的重要原則,把實踐環(huán)節(jié)與理論教學相融合,抓實踐教學促進理論知識的學習,是有效地改善教學效果和提高教學水平的重要方法之一。本書的主要特色是: 理論聯(lián)系實際,結(jié)合一系列了解和熟悉大數(shù)據(jù)分析理念、技術(shù)與應用的學習和實踐活動,把大數(shù)據(jù)分析的概念、知識和技術(shù)融入實踐,使學生保持濃厚的學習熱情,加深對大數(shù)據(jù)分析的興趣,認識、理解和掌握核心知識。
本書是為高等院校相關專業(yè)開設“大數(shù)據(jù)分析”課程而設計編寫,具有豐富實踐特色的主教材,也可供有一定實踐經(jīng)驗的IT應用人員、管理人員參考,或作為繼續(xù)教育的教材。
本書系統(tǒng)、全面地介紹了大數(shù)據(jù)分析的基本知識和應用技能,詳細介紹了大數(shù)據(jù)基礎、大數(shù)據(jù)分析基礎、大數(shù)據(jù)分析生命周期、大數(shù)據(jù)分析基本原則、構(gòu)建分析路線、大數(shù)據(jù)分析的運用、大數(shù)據(jù)分析的用例、預測分析方法、預測分析技術(shù)、用戶角色與分析工具、大數(shù)據(jù)分析平臺、社交網(wǎng)絡與推薦系統(tǒng)、組織分析團隊等內(nèi)容。附錄中提供了課程作業(yè)參考答案,還為大數(shù)據(jù)分析的學習設計了一個課程實踐項目。全書具有較強的系統(tǒng)性、可讀性和實用性。
結(jié)合課堂教學方法改革的要求,全書各章有針對性地安排了課前導讀案例,要求和指導學生在課前閱讀案例和課后完成作業(yè),深入理解課程知識內(nèi)涵。
雖然已經(jīng)進入電子時代,但我們?nèi)匀唤吡Τ珜ёx書。為每章設計的作業(yè)(四選一標準選擇題)其實并不難,學生只要認真閱讀教材,都能準確回答所有題目。
本課程的教學進度設計參考詳見“課程教學進度表”,該表可供教師授課和學生學習使用。實際執(zhí)行時,應按照教學大綱和校歷中關于本學期節(jié)假日的安排確定本課程的實際教學進度,并做適當剪裁。
本書的編寫得到2019年度國家級一流本科專業(yè)建設點(教高廳函〔2019〕46號)、浙江省本科高!笆濉碧厣珜I(yè)建設項目(浙教高教〔2017〕29號)、杭州市屬高校新型專業(yè)建設計劃項目(杭教高教〔2019〕5號)等的支持。
本書的編寫得到浙大城市學院、浙江安防職業(yè)技術(shù)學院、浙江商業(yè)職業(yè)技術(shù)學院等多所院校師生的支持。金蒼宏、陳禮管、王文、蔡錦錦、倪寧、喬鳳鳳等參與了本書的教材設計、教學規(guī)劃、案例設計等編寫工作。與本書配套的教學PPT課件等豐富教學資源可從清華大學出版社網(wǎng)站下載,歡迎教師與作者交流并索取本書教學配套的相關資料。
周蘇2020年春
第1章大數(shù)據(jù)基礎1
1.1什么是大數(shù)據(jù)4
1.1.1天文學——信息爆炸的起源5
1.1.2信息爆炸的社會5
1.1.3大數(shù)據(jù)的發(fā)展7
1.1.4大數(shù)據(jù)作為BI的進化形式8
1.2大數(shù)據(jù)的定義9
1.2.1定義大數(shù)據(jù)9
1.2.2大數(shù)據(jù)的3V特征10
1.2.3廣義的大數(shù)據(jù)12
1.3大數(shù)據(jù)的結(jié)構(gòu)類型12
1.4大數(shù)據(jù)應用改變生活13
1.4.1在線娛樂14
1.4.2在線廣告14
1.4.3銷售和營銷14
1.4.4數(shù)據(jù)可視化15
1.4.5運營智能15
1.5大數(shù)據(jù)準備度自我評分表16
作業(yè)19第2章大數(shù)據(jù)分析基礎22
2.1大數(shù)據(jù)的影響25
2.2數(shù)據(jù)具有內(nèi)在預測性27
2.3大數(shù)據(jù)分析的定義27
2.44種數(shù)據(jù)分析方法28
2.4.1描述性分析29
2.4.2診斷性分析30
2.4.3預測性分析30
2.4.4規(guī)范性分析32
2.4.5關鍵績效指標33
2.5定性分析與定量分析33
2.6大數(shù)據(jù)分析的行業(yè)作用33
2.6.1大數(shù)據(jù)分析的作用33
2.6.2大數(shù)據(jù)分析的關鍵應用35
2.6.3大數(shù)據(jù)分析的能力分析36
2.6.4大數(shù)據(jù)分析面臨的問題36
作業(yè)38第3章大數(shù)據(jù)分析生命周期40
3.1大數(shù)據(jù)分析生命周期概述43
3.2商業(yè)案例評估44
3.3數(shù)據(jù)標識44
3.4數(shù)據(jù)獲取與過濾44
3.5數(shù)據(jù)提取45
3.6數(shù)據(jù)驗證與清理46
3.7數(shù)據(jù)聚合與表示47
3.8數(shù)據(jù)分析48
3.9數(shù)據(jù)可視化48
3.10分析結(jié)果的使用49
作業(yè)50第4章大數(shù)據(jù)分析基本原則52
4.1大數(shù)據(jù)的現(xiàn)代分析原則54
4.2原則1: 實現(xiàn)商業(yè)價值和影響56
4.3原則2: 專注于最后一千米56
4.4原則3: 持續(xù)改善57
4.5原則4: 加速學習能力和執(zhí)行力58
4.6原則5: 差異化分析58
4.7原則6: 嵌入分析59
4.8原則7: 建立現(xiàn)代分析架構(gòu)59
4.9原則8: 構(gòu)建人力因素60
4.10原則9: 利用消費化趨勢60
作業(yè)61第5章構(gòu)建分析路線63
5.1什么是分析路線66
5.1.1商業(yè)競爭3.0時代66
5.1.2創(chuàng)建獨特的分析路線67
5.2第1步: 確定關鍵業(yè)務目標69
5.3第2步: 定義價值鏈69
5.4第3步: 頭腦風暴分析解決方案機會71
5.4.1應用描述71
5.4.2分析手段71
5.5第4步: 描述分析解決方案機會74
5.6第5步: 創(chuàng)建決策模型74
5.7第6步: 評估分析解決方案機會75
5.8第7步: 建立分析路線圖77
5.9第8步: 不斷演進分析路線圖77
作業(yè)77第6章大數(shù)據(jù)分析的運用79
6.1企業(yè)分析的分類81
6.2戰(zhàn)略分析82
6.2.1專案分析83
6.2.2戰(zhàn)略市場細分84
6.2.3經(jīng)濟預測84
6.2.4業(yè)務模擬84
6.3管理分析85
6.4運營分析86
6.5科學分析88
6.6面向客戶的分析89
6.6.1預測服務89
6.6.2分析應用89
6.6.3消費分析90
6.6.4案例: 大數(shù)據(jù)促進商業(yè)決策91
作業(yè)94第7章大數(shù)據(jù)分析的用例96
7.1什么是用例100
7.2預測用例101
7.3解釋用例104
7.4預報用例104
7.5發(fā)現(xiàn)用例106
7.6模擬用例106
7.7優(yōu)化用例107
作業(yè)107第8章預測分析方法109
8.1預測分析方法論111
8.2定義業(yè)務需求113
8.2.1理解業(yè)務問題113
8.2.2定義應對措施113
8.2.3了解誤差成本115
8.2.4確定預測窗口116
8.2.5評估部署環(huán)境116
8.3建立分析數(shù)據(jù)集117
8.3.1配置數(shù)據(jù)117
8.3.2評估數(shù)據(jù)117
8.3.3調(diào)查異常值118
8.3.4轉(zhuǎn)換數(shù)據(jù)119
8.3.5執(zhí)行基本表操作119
8.3.6處理丟失數(shù)據(jù)120
8.4降維與特征工程120
8.4.1降維120
8.4.2特征工程120
8.4.3特征變換123
8.5建立預測模型123
8.5.1制訂建模計劃123
8.5.2細分數(shù)據(jù)集124
8.5.3執(zhí)行模型訓練計劃125
8.5.4測量模型效果125
8.5.5驗證模型126
8.6部署預測模型126
8.6.1審查和批準預測模型127
8.6.2執(zhí)行模型評分127
8.6.3評價模型效果128
8.6.4管理模型資產(chǎn)128
8.7預測分析軟件系統(tǒng)129
作業(yè)129第9章預測分析技術(shù)132
9.1關于預測分析技術(shù)136
9.2統(tǒng)計分析136
9.3生存分析137
9.4有監(jiān)督和無監(jiān)督學習138
9.4.1有監(jiān)督學習138
9.4.2無監(jiān)督學習140
9.4.3有監(jiān)督和無監(jiān)督學習的區(qū)別141
9.5機器學習141
9.5.1機器學習的思路141
9.5.2異常檢測142
9.5.3過濾144
9.5.4貝葉斯網(wǎng)絡145
9.5.5文本挖掘146
9.6神經(jīng)網(wǎng)絡147
9.7深度學習149
9.8語義分析151
9.8.1自然語言處理152
9.8.2文本分析152
9.8.3文本處理153
9.8.4語義檢索154
9.8.5A/B測試154
9.9視覺分析155
9.9.1熱點圖156
9.9.2空間數(shù)據(jù)圖156
作業(yè)157第10章大數(shù)據(jù)分析模型161
10.1什么是分析模型169
10.2關聯(lián)分析模型169
10.2.1回歸分析170
10.2.2關聯(lián)規(guī)則分析171
10.2.3相關分析172
10.2.4相關分析與回歸分析173
10.3分類分析模型173
10.3.1判別分析的原理和方法174
10.3.2基于機器學習的分類模型174
10.3.3支持向量機175
10.3.4邏輯回歸176
10.3.5決策樹176
10.3.6k近鄰177
10.3.7隨機森林178
10.3.8樸素貝葉斯180
10.4聚類分析模型180
10.4.1聚類問題分析181
10.4.2聚類分析的分類182
10.4.3聚類有效性的評價183
10.4.4聚類分析方法183
10.4.5聚類分析的應用184
10.5結(jié)構(gòu)分析模型184
10.5.1典型的結(jié)構(gòu)分析方法184
10.5.2社團發(fā)現(xiàn)185
10.6文本分析模型185
作業(yè)186第11章用戶角色與分析工具189
11.1用戶角色193
11.1.1超級分析師193
11.1.2數(shù)據(jù)科學家194
11.1.3業(yè)務分析師195
11.1.4分析使用者195
11.2分析的成功因素196
11.3分析編程語言197
11.3.1R語言197
11.3.2SAS編程語言199
11.3.3SQL200
11.4業(yè)務用戶工具201
11.4.1BI的常用技術(shù)201
11.4.2BI工具和方法的發(fā)展歷程202
11.4.3新的分析工具與方法204
11.4.4業(yè)務工具實例206
作業(yè)208第12章大數(shù)據(jù)分析平臺210
12.1分布式分析217
12.1.1關于并行計算217
12.1.2并行計算的三種形式218
12.1.3數(shù)據(jù)并行與“正交”218
12.1.4分布式的軟件環(huán)境219
12.2預測分析架構(gòu)220
12.2.1獨立分析220
12.2.2部分集成分析221
12.2.3基于數(shù)據(jù)庫的分析223
12.2.4基于Hadoop的分析224
12.3Apache Spark分布式分析軟件225
12.4云計算中的分析227
12.4.1公有云和私有云228
12.4.2安全和數(shù)據(jù)移動229
12.5現(xiàn)代SQL平臺229
12.5.1什么是現(xiàn)代SQL平臺230
12.5.2現(xiàn)代SQL平臺區(qū)別于傳統(tǒng)SQL平臺231
12.5.3MPP數(shù)據(jù)庫232
12.5.4SQLonHadoop232
12.5.5NewSQL數(shù)據(jù)庫233
12.5.6現(xiàn)代SQL平臺的發(fā)展233
作業(yè)234第13章社交網(wǎng)絡與推薦系統(tǒng)236
13.1社交網(wǎng)絡的定義239
13.1.1社交網(wǎng)絡的特點240
13.1.2社交網(wǎng)絡度量241
13.1.3社交網(wǎng)絡學習242
13.2社交網(wǎng)絡的結(jié)構(gòu)243
13.2.1社交網(wǎng)絡的統(tǒng)計學構(gòu)成244
13.2.2社交網(wǎng)絡的群體形成245
13.2.3圖與網(wǎng)絡分析246
13.3社交網(wǎng)絡的關聯(lián)分析248
13.4推薦系統(tǒng)248
13.4.1推薦系統(tǒng)的概念248
13.4.2推薦方法的組合251
13.4.3推薦系統(tǒng)的評價252
13.5協(xié)同過濾252
13.6推薦方法254
13.6.1基于用戶評價的推薦254
13.6.2基于人的推薦255
13.6.3基于標簽的推薦255
作業(yè)256第14章組織分析團隊258
14.1企業(yè)的分析文化262
14.1.1管理分析團隊的有效因素262
14.1.2繁榮分析的文化共性263
14.2數(shù)據(jù)科學家(數(shù)據(jù)工作者)264
14.2.1數(shù)據(jù)科學家角色264
14.2.2分析人才的四種角色264
14.2.3數(shù)據(jù)準備專業(yè)人員266
14.2.4分析程序員266
14.2.5分析經(jīng)理267
14.2.6分析通才268
14.2.7吸引數(shù)據(jù)科學家269
14.3集中式與分散式分析團隊270
14.4組織分析團隊272
14.4.1卓越中心272
14.4.2首席數(shù)據(jù)官與首席分析官272
14.4.3實驗室團隊273
14.4.4數(shù)據(jù)科學技能自我評估273
14.5走起,大數(shù)據(jù)分析275
作業(yè)276附錄278
附錄A部分作業(yè)參考答案278
附錄B大數(shù)據(jù)分析課程實踐280
B.1大數(shù)據(jù)幫零售企業(yè)制定促銷策略280
B.2電信公司通過大數(shù)據(jù)分析挽回核心客戶280
B.3大數(shù)據(jù)幫能源企業(yè)設置發(fā)電機地點281
B.4電商企業(yè)通過大數(shù)據(jù)制定銷售戰(zhàn)略281
B.5案例分析與課程實踐要求281
參考文獻284