本書全面系統(tǒng)地介紹數(shù)據(jù)挖掘的概念、技術、算法及應用, 力求為初學者構建一個合適的學習框架。全書將數(shù)據(jù)挖掘歸納成數(shù)據(jù)預處理、數(shù)據(jù)探索、決策樹、貝葉斯分類、人工神經(jīng)網(wǎng)絡、支持向量機、關聯(lián)規(guī)則分析、聚類、時間序列預測等幾個主題, 不僅詳解技術原理和算法實現(xiàn), 而且還結合復雜多樣的實際數(shù)據(jù)環(huán)境, 探討其應用場景和使用方法。
更多科學出版社服務,請掃碼獲取。
目錄
前言
第1章 引言 1
1.1 數(shù)據(jù)挖掘的定義 1
1.2 數(shù)據(jù)挖掘的起源 2
1.3 數(shù)據(jù)挖掘的類型 2
1.3.1 數(shù)據(jù)庫數(shù)據(jù) 2
1.3.2 數(shù)據(jù)倉庫 3
1.3.3 事務數(shù)據(jù) 3
1.3.4 時間序列數(shù)據(jù) 3
1.3.5 文本和多媒體數(shù)據(jù) 4
1.3.6 空間數(shù)據(jù) 4
1.4 數(shù)據(jù)挖掘的功能與模式 4
1.4.1 數(shù)據(jù)特征化與數(shù)據(jù)區(qū)分 5
1.4.2 頻繁模式、關聯(lián)和相關性分析 6
1.4.3 分類和回歸 6
1.4.4 聚類分析 6
1.4.5 離群點分析 7
1.5 數(shù)據(jù)挖掘常用技術及其優(yōu)缺點 7
1.6 數(shù)據(jù)挖掘的步驟 7
1.7 數(shù)據(jù)挖掘的應用 8
1.7.1 數(shù)據(jù)統(tǒng)計應用現(xiàn)狀 8
1.7.2 個性化技術應用現(xiàn)狀 8
1.7.3 預測技術應用現(xiàn)狀 9
1.7.4 分類和回歸技術應用現(xiàn)狀 9
1.7.5 輔助決策系統(tǒng)應用現(xiàn)狀 9
1.8 數(shù)據(jù)挖掘面臨的困難與挑戰(zhàn) 10
習題 11
第2章 數(shù)據(jù)預處理 12
2.1 認識數(shù)據(jù) 12
2.1.1 數(shù)據(jù)對象與屬性的類型 12
2.1.2 數(shù)據(jù)集的類型 15
2.2 原始數(shù)據(jù)存在的問題 16
2.3 數(shù)據(jù)預處理方法 18
2.3.1 數(shù)據(jù)預處理的步驟 18
2.3.2 數(shù)據(jù)清理 19
2.3.3 數(shù)據(jù)集成 22
2.3.4 數(shù)據(jù)歸約 24
2.3.5 數(shù)據(jù)變換 28
習題 31
實踐練習 31
第3章 數(shù)據(jù)探索 32
3.1 數(shù)據(jù)的基本統(tǒng)計描述 32
3.1.1 中心趨勢度量 32
3.1.2 數(shù)據(jù)散布度量 35
3.2 可視化分析 36
3.2.1 一般概念 36
3.2.2 不同數(shù)據(jù)的可視化 38
3.3 聯(lián)機分析處理 44
3.3.1 OLAP的概念 44
3.3.2 OLAP的多維數(shù)據(jù)概念 45
3.3.3 OLAP的多維數(shù)據(jù)結構 45
3.3.4 OLAP的多維數(shù)據(jù)庫 47
3.3.5 OALP的多維數(shù)據(jù)分析 48
習題 48
實踐練習 48
第4章 決策樹 49
4.1 決策樹概述 49
4.1.1 決策樹的含義及相關概念 49
4.1.2 決策樹算法構造基本流程 52
4.1.3 決策樹的特點 53
4.2 ID3算法 53
4.2.1 ID3算法原理 53
4.2.2 ID3算法代碼實現(xiàn) 55
4.3 C4.5算法 56
4.3.1 C4.5算法原理 56
4.3.2 C4.5算法代碼實現(xiàn) 57
4.4 隨機森林 63
4.4.1 基本原理 63
4.4.2 隨機森林構造步驟 63
4.4.3 隨機森林代碼實現(xiàn) 64
習題 70
實踐練習 71
第5章 貝葉斯分類 72
5.1 貝葉斯定理 72
5.2 樸素貝葉斯分類器 73
5.2.1 樸素貝葉斯分類器工作原理 73
5.2.2 樸素貝葉斯分類器應用案例 74
5.3 半樸素貝葉斯分類器 75
5.4 貝葉斯網(wǎng)絡 76
5.4.1 貝葉斯網(wǎng)絡的結構 77
5.4.2 貝葉斯網(wǎng)絡的建立 77
5.4.3 貝葉斯網(wǎng)絡的特點 78
5.5 貝葉斯分類器實例分析 78
習題 79
實踐練習 80
第6章 人工神經(jīng)網(wǎng)絡 81
6.1 人工神經(jīng)網(wǎng)絡概述 81
6.2 人工神經(jīng)網(wǎng)絡基本原理 82
6.2.1 人工神經(jīng)元模型 82
6.2.2 激活函數(shù) 83
6.2.3 人工神經(jīng)網(wǎng)絡的拓撲結構 86
6.2.4 人工神經(jīng)網(wǎng)絡的學習與工作 89
6.2.5 感知機模型 90
6.2.6 誤差反向傳播算法 93
6.3 算法改進 101
6.3.1 交叉熵—神經(jīng)元飽和 101
6.3.2 正則化—過擬合 102
6.3.3 權值初始化—隱藏層神經(jīng)元飽和 102
6.4 應用及實例分析 103
習題 106
實踐練習 106
第7章 支持向量機 107
7.1 SVM分類 107
7.1.1 最大間隔分類器 107
7.1.2 軟間隔優(yōu)化 112
7.1.3 線性規(guī)劃SVM 113
7.2 SVM回歸 114
7.2.1 ε不敏感損失函數(shù) 114
7.2.2 SVR實現(xiàn)原理及過程 115
7.3 SVM實例應用 117
習題 119
實踐練習 119
第8章 關聯(lián)規(guī)則分析 121
8.1 關聯(lián)規(guī)則分析概述 121
8.1.1 關聯(lián)規(guī)則基本概念 122
8.1.2 關聯(lián)規(guī)則度量及基本過程 122
8.2 關聯(lián)規(guī)則分類 124
8.2.1 單層關聯(lián)規(guī)則—頻繁項集的產(chǎn)生 124
8.2.2 不產(chǎn)生候選頻繁項集的算法 130
8.3 多層多維關聯(lián)規(guī)則挖掘 139
8.3.1 事務型數(shù)據(jù)庫挖掘多層關聯(lián)規(guī)則 139
8.3.2 興趣度度量 139
8.3.3 關聯(lián)挖掘與相關分析 139
8.3.4 有約束的關聯(lián)挖掘 140
8.4 關聯(lián)規(guī)則分析應用場景 140
習題 143
實踐練習 144
第9章 聚類 145
9.1 聚類概述 145
9.1.1 聚類的含義 145
9.1.2 聚類算法的分類 145
9.2 相似性測度指標 146
9.2.1 距離測度指標 146
9.2.2 非距離測度指標 148
9.3 k-means算法 149
9.3.1 k-means算法原理 149
9.3.2 k-means算法特點 151
9.3.3 k-means實例分析 151
9.4 k-中心點算法 153
9.4.1 算法原理 153
9.4.2 k-中心點算法特點 154
9.4.3 k-中心點實例分析 155
習題 157
實踐練習 158
第10章 時間序列預測 159
10.1 時間序列概述 159
10.2 預測的定量方法 166
10.2.1 平滑法 166
10.2.2 趨勢推測法 169
10.3 預測的定性方法 171
10.3.1 德爾菲法 171
10.3.2 專家判斷法 171
10.3.3 主觀概率預測法 171
10.3.4 情景預測法 172
10.4 常用模型介紹 172
10.4.1 平穩(wěn)性檢驗 172
10.4.2 差分法 173
10.4.3 白噪聲檢驗 174
10.4.4 時間序列模型預測的基本步驟 175
10.4.5 AR模型 176
10.4.6 MA模型 184
10.4.7 ARMA模型 188
10.4.8 ARIMA模型 191
習題 200
實踐練習 200
參考文獻 201