本書內(nèi)容分為數(shù)據(jù)挖掘理論和數(shù)據(jù)挖掘?qū)嵺`兩部分。數(shù)據(jù)挖掘理論部分主要包括數(shù)據(jù)挖掘的基本概念、數(shù)據(jù)預(yù)處理、聚類分析、分類與回歸、關(guān)聯(lián)規(guī)則挖掘及離群點檢測。數(shù)據(jù)挖掘?qū)嵺`部分討論數(shù)據(jù)挖掘在文本挖掘和金融領(lǐng)域中的應(yīng)用,通過虛假新聞檢測和社交平臺情緒分析等案例,展示數(shù)據(jù)挖掘在文本挖掘方面的應(yīng)用;通過潛在貸款客戶挖掘、貸款違約等案例展示數(shù)據(jù)挖掘在金融領(lǐng)域的應(yīng)用。 本書可作為高等學校計算機、數(shù)據(jù)科學與大數(shù)據(jù)、電子商務(wù)、信息科學等相關(guān)專業(yè)的教材或參考書,也可供從事數(shù)據(jù)挖掘研究的科研、技術(shù)人員參考。
蔣盛益,教授、博士,碩士生導(dǎo)師;廣東省"千百十"工程省級培養(yǎng)對象,廣東外語外貿(mào)大學教學名師。中國計算機學會高級會員,中國計算機學會中文信息技術(shù)專委會委員,中國中文信息學會計算語言學專業(yè)委員會委員、社會媒體處理專委會委員,人工智能學會機器學習專委會委員,廣東省計算機學會常務(wù)理事;廣州市計算機學會常務(wù)理事;第十、十一屆廣東省政協(xié)委員。先后在湖南師范大學、中南工業(yè)大學、華中科技大學畢業(yè),分別獲理學學士學位、理學碩士學位、工學博士學位。目前重點研究方向是利用自然語言處理、社會網(wǎng)絡(luò)分析技術(shù)來處理網(wǎng)絡(luò)新聞和社交媒體中的數(shù)據(jù),包括新聞觀點自動提取、對特定事件的立場(支持還是反對)分析、輿情傳播模式研究、用戶影響力分析等。應(yīng)用背景包括國內(nèi)外輿情分析、海上絲綢之路的情報分析。
目 錄
上篇 理論篇
第1章 緒論 2
1.1 數(shù)據(jù)挖掘技術(shù)使用背景 4
1.2 數(shù)據(jù)挖掘任務(wù)及過程 5
1.2.1 數(shù)據(jù)挖掘定義 5
1.2.2 數(shù)據(jù)挖掘任務(wù) 5
1.2.3 數(shù)據(jù)挖掘過程 7
1.2.4 數(shù)據(jù)挖掘?qū)ο?8
1.2.5 數(shù)據(jù)挖掘工具及其選擇 13
1.3 數(shù)據(jù)挖掘應(yīng)用 13
1.3.1 數(shù)據(jù)挖掘在計算機領(lǐng)域中的應(yīng)用 14
1.3.2 數(shù)據(jù)挖掘在商業(yè)領(lǐng)域中的應(yīng)用 15
1.3.3 數(shù)據(jù)挖掘在其他領(lǐng)域中的應(yīng)用 16
1.3.4 數(shù)據(jù)挖掘技術(shù)的前景 17
1.4 數(shù)據(jù)挖掘與隱私保護 18
本章小結(jié) 20
習題1 20
第2章 數(shù)據(jù)處理基礎(chǔ) 23
2.1 數(shù)據(jù) 24
2.1.1 數(shù)據(jù)及數(shù)據(jù)類型 24
2.1.2 數(shù)據(jù)集的類型 25
2.2 數(shù)據(jù)探索 27
2.2.1 描述性統(tǒng)計分析 27
2.2.2 數(shù)據(jù)可視化 30
2.2.3 辛普森悖論 34
2.3 數(shù)據(jù)預(yù)處理 37
2.3.1 數(shù)據(jù)清理 38
2.3.2 數(shù)據(jù)集成 41
2.3.3 特征變換 41
2.3.4 數(shù)據(jù)歸約 48
2.4 相似性度量 55
2.4.1 屬性之間的相似性度量 56
2.4.2 對象之間的相似性度量 57
本章小結(jié) 60
習題2 61
第3章 分類和回歸 65
3.1 分類概述 66
3.2 決策樹分類方法 67
3.2.1 決策樹的基本概念 67
3.2.2 構(gòu)建決策樹的要素 68
3.2.3 Hunt算法 73
3.2.4 C4.5算法 74
3.2.5 CART算法 79
3.2.6 決策樹算法的特點 90
3.3 貝葉斯分類方法 90
3.3.1 貝葉斯定理 91
3.3.2 樸素貝葉斯分類算法 92
3.3.3 貝葉斯信念網(wǎng)絡(luò) 96
3.4 k-最近鄰分類方法 97
3.4.1 k-最近鄰分類的基本問題 98
3.4.2 k-最近鄰分類算法描述 98
3.4.3 k-最近鄰分類算法的優(yōu)缺點 100
3.5 神經(jīng)網(wǎng)絡(luò)分類方法 100
3.5.1 人工神經(jīng)網(wǎng)絡(luò)的基本概念 100
3.5.2 典型神經(jīng)網(wǎng)絡(luò)模型介紹 102
3.5.3 神經(jīng)網(wǎng)絡(luò)的特點 103
3.5.4 深度網(wǎng)絡(luò)和深度學習算法 104
3.6 支持向量機 105
3.7 集成分類方法 107
3.8 分類問題拓展 113
3.8.1 不平衡分類問題 113
3.8.2 半監(jiān)督學習 115
3.8.3 單類分類 115
3.8.4 多標簽分類 115
3.8.5 層次分類 115
3.9 分類模型的評價 116
3.9.1 分類模型性能評價指標 116
3.9.2 分類模型的過度擬合 117
3.9.3 評估分類模型性能的方法 117
3.10 綜合案例:信用風險分析 118
3.11 回歸分析 121
3.11.1 多元線性回歸模型 122
3.11.2 非線性回歸 125
3.11.3 邏輯回歸 127
本章小結(jié) 131
習題3 131
第4章 聚類分析 137
4.1 聚類分析概述 138
4.2 k-means算法及其改進 141
4.2.1 基本k-means算法 141
4.2.2 k-means聚類算法的拓展 145
4.3 層次聚類算法 150
4.3.1 二分k-means算法 151
4.3.2 BIRCH算法 152
4.3.3 CURE算法 154
4.3.4 ROCK算法 155
4.4 基于密度的聚類算法 157
4.5 基于圖的聚類算法 160
4.5.1 Chameleon聚類算法 160
4.5.2 基于SNN的聚類算法 165
4.6 一趟聚類算法 167
4.6.1 閾值選擇 167
4.6.2 算法應(yīng)用 171
4.7 基于模型的聚類算法 172
4.7.1 期望最大化方法 172
4.7.2 概念聚類 172
4.7.3 SOM方法 174
4.8 聚類算法評價 176
4.9 綜合案例:航空公司客戶價值分析 178
本章小結(jié) 184
習題4 184
第5章 關(guān)聯(lián)分析 187
5.1 關(guān)聯(lián)分析概述 188
5.2 關(guān)聯(lián)規(guī)則分析基礎(chǔ) 188
5.2.1 基本概念 188
5.2.2 基礎(chǔ)分析方法 190
5.3 Apriori算法 192
5.3.1 Apriori性質(zhì) 192
5.3.2 產(chǎn)生頻繁項集 193
5.3.3 頻繁項集構(gòu)造示例 194
5.3.4 產(chǎn)生關(guān)聯(lián)規(guī)則 195
5.3.5 規(guī)則的評估標準 198
5.3.6 Apriori算法評價 201
5.4 FP-Growth算法 201
5.4.1 FP-tree表示法 201
5.4.2 構(gòu)建FP-tree 202
5.4.3 發(fā)現(xiàn)頻繁項集 204
5.5 關(guān)聯(lián)規(guī)則擴展 205
5.5.1 關(guān)聯(lián)規(guī)則分類 205
5.5.2 多層次關(guān)聯(lián)規(guī)則 206
5.5.3 多維度關(guān)聯(lián)規(guī)則 207
5.5.4 定量關(guān)聯(lián)規(guī)則 208
5.5.5 基于約束的關(guān)聯(lián)規(guī)則 208
5.5.6 序列模式挖掘 208
5.6 綜合案例:移動業(yè)務(wù)關(guān)聯(lián)分析 209
5.6.1 數(shù)據(jù)準備 209
5.6.2 數(shù)據(jù)預(yù)處理 209
5.6.3 關(guān)聯(lián)規(guī)則挖掘過程 211
5.6.4 規(guī)則的優(yōu)化 214
5.6.5 模型的應(yīng)用 215
本章小結(jié) 216
習題5 216
第6章 離群點挖掘 220
6.1 離群點挖掘概述 221
6.2 基于統(tǒng)計的方法 222
6.3 基于距離的方法 224
6.4 基于相對密度的方法 226
6.5 基于聚類的方法 231
6.5.1 基于對象的離群因子方法 231
6.5.2 基于簇的離群因子方法 234
6.5.3 基于聚類的動態(tài)數(shù)據(jù)離群點檢測方法 236
6.6 離群點挖掘方法的評估 237
6.7 綜合案例 237
6.7.1 離群點檢測在癌癥診斷中的應(yīng)用 237
6.7.2 離群點檢測在網(wǎng)絡(luò)入侵檢測中的應(yīng)用 239
本章小結(jié) 242
習題6 242
下篇 實踐篇
第7章 文本挖掘 246
7.1 文本挖掘概述 247
7.1.1 分詞 247
7.1.2 文本表示與詞權(quán)重計算 250
7.1.3 文本特征選擇 252
7.1.4 文本分類 253
7.1.5 文本聚類 256
7.1.6 文檔自動摘要 258
7.1.7 文本情感分析 262
7.1.8 用戶畫像 265
7.2 案例分析 269
7.2.1 虛假新聞檢測案例 269
7.2.2 社交平臺情感分類 277
本章小結(jié) 283
第8章 數(shù)據(jù)挖掘的金融應(yīng)用 285
8.1 數(shù)據(jù)挖掘在金融領(lǐng)域中的應(yīng)用概述 287
8.1.1 金融科技 287
8.1.2 金融領(lǐng)域中的數(shù)據(jù)挖掘應(yīng)用 289
8.2 銀行潛在貸款客戶挖掘 295
8.2.1 業(yè)務(wù)理解 295
8.2.2 數(shù)據(jù)理解與數(shù)據(jù)準備 296
8.2.3 模型構(gòu)建與評估 299
8.3 貸款違約 301
本章小結(jié) 305
附錄A 數(shù)據(jù)挖掘常用資源列表 307
參考文獻 308