數(shù)據(jù)挖掘算法實(shí)踐與案例詳解 丁兆云 沈大勇 徐偉 周鋆
定 價(jià):59 元
- 作者:丁兆云 沈大勇 徐偉 周鋆
- 出版時(shí)間:2025/2/1
- ISBN:9787111760696
- 出 版 社:機(jī)械工業(yè)出版社
- 中圖法分類:TP274
- 頁(yè)碼:
- 紙張:膠版紙
- 版次:
- 開本:16開
數(shù)據(jù)挖掘算法為大數(shù)據(jù)與人工智能的核心,掌握數(shù)據(jù)挖掘各算法的編程實(shí)現(xiàn),有助于提升大數(shù)據(jù)的實(shí)踐運(yùn)用能力。本書詳細(xì)闡述了數(shù)據(jù)挖掘常用算法與編程實(shí)現(xiàn),同時(shí),本書以多個(gè)經(jīng)典的數(shù)據(jù)挖掘賽題為案例,詳細(xì)論述了數(shù)據(jù)預(yù)處理、特征選擇、可視化、算法選擇等全流程數(shù)據(jù)挖掘過(guò)程的編程實(shí)現(xiàn),有助于提升讀者面對(duì)實(shí)際數(shù)據(jù)問題時(shí)靈活運(yùn)用各類算法能力。
隨著大數(shù)據(jù)和人工智能技術(shù)的發(fā)展,各行各業(yè)積累的數(shù)據(jù)越來(lái)越豐富,如何從這些數(shù)據(jù)中挖掘出有價(jià)值的信息,助力科學(xué)、合理的決策變得日益重要。數(shù)據(jù)挖掘技術(shù)可以從大量異構(gòu)、隨機(jī)數(shù)據(jù)中提取有用的信息和知識(shí),已經(jīng)廣泛應(yīng)用于工作和生活的各個(gè)領(lǐng)域。本書基于作者長(zhǎng)期從事數(shù)據(jù)挖掘科研、工程和教學(xué)工作的經(jīng)驗(yàn)編寫而成,通過(guò)案例牽引,幫助讀者掌握常用的數(shù)據(jù)挖掘算法、模型和技術(shù),并解決常見的數(shù)據(jù)挖掘?qū)嶋H問題。本書特點(diǎn):以實(shí)踐為目標(biāo),系統(tǒng)介紹數(shù)據(jù)挖掘的流程,并給出代碼實(shí)現(xiàn)。內(nèi)容涵蓋數(shù)據(jù)清洗、數(shù)據(jù)轉(zhuǎn)換、數(shù)據(jù)降維、回歸分析、聚類、神經(jīng)網(wǎng)絡(luò)分類等常用的數(shù)據(jù)挖掘技術(shù)和方法,使讀者能夠利用Python編程來(lái)解決基本的數(shù)據(jù)挖掘問題。本書提供了豐富的案例,規(guī)模由小到大,幫助讀者循序漸進(jìn)地掌握各類數(shù)據(jù)挖掘模型和算法。掌握這些案例后,讀者可以舉一反三,進(jìn)一步解決更復(fù)雜、更大規(guī)模的問題。作者在中國(guó)大學(xué)MOOC上開設(shè)了“數(shù)據(jù)挖掘”MOOC課程(https://www.icourse163.org/course/NUDT-1461782176),并在頭歌平臺(tái)上開設(shè)了“數(shù)據(jù)挖掘”實(shí)驗(yàn)課程(https://www.educoder.net/paths/4153),讀者可通過(guò)在線視頻課程的學(xué)習(xí)、作業(yè)訓(xùn)練與編程實(shí)踐加深對(duì)數(shù)據(jù)挖掘知識(shí)點(diǎn)的理解,提高運(yùn)用能力。
前 言
隨著大數(shù)據(jù)、人工智能技術(shù)的快速發(fā)展,各行各業(yè)積累的數(shù)據(jù)越來(lái)越豐富,數(shù)據(jù)挖掘的需求越來(lái)越大。本書針對(duì)實(shí)際數(shù)據(jù)及數(shù)據(jù)挖掘任務(wù)需求,提供數(shù)據(jù)預(yù)處理、特征選擇、數(shù)據(jù)可視化、算法運(yùn)用等方面的數(shù)據(jù)挖掘模型的原理與實(shí)現(xiàn)代碼,為運(yùn)用數(shù)據(jù)挖掘提供可參考的
方法。
筆者近年來(lái)一直從事數(shù)據(jù)挖掘方向的研究和數(shù)據(jù)挖掘課程的教學(xué),長(zhǎng)期指導(dǎo)學(xué)生參加數(shù)模競(jìng)賽、天池大數(shù)據(jù)競(jìng)賽、DataCastle大數(shù)據(jù)競(jìng)賽、Kaggle競(jìng)賽等高水平數(shù)據(jù)挖掘競(jìng)賽,并取得了優(yōu)異成績(jī)。同時(shí),積極探索以數(shù)據(jù)挖掘技術(shù)為主線構(gòu)建課堂教學(xué)與實(shí)踐教學(xué)相融合的課程體系,總結(jié)了一套數(shù)據(jù)挖掘?qū)嵺`案例及參考代碼,適合用于理工科相關(guān)專業(yè)的本科生與研究生的數(shù)據(jù)挖掘?qū)嶒?yàn)課程,也可供相關(guān)領(lǐng)域的科研與工程技術(shù)人員實(shí)踐參考。
本書的組織結(jié)構(gòu)如下:
第1章首先簡(jiǎn)述了數(shù)據(jù)挖掘的定義和分類,隨后闡述了數(shù)據(jù)挖掘?qū)嵺`過(guò)程中的Python安裝及環(huán)境配置方法并簡(jiǎn)單介紹了與本書中數(shù)據(jù)挖掘?qū)嵺`任務(wù)相關(guān)的數(shù)據(jù)集,讓讀者掌握如何安裝實(shí)驗(yàn)環(huán)境,了解數(shù)據(jù)挖掘中的常用數(shù)據(jù)集。
第2章以貝葉斯分類為案例,闡述了分類的概念和實(shí)踐全流程,包括數(shù)據(jù)集的劃分、模型的運(yùn)用和模型的評(píng)價(jià),讓讀者能夠針對(duì)具體數(shù)據(jù),運(yùn)用分類算法來(lái)完成數(shù)據(jù)分類過(guò)程。
第3章闡述了特征選擇的實(shí)踐方法,讓讀者掌握通過(guò)直方圖與柱狀圖方法來(lái)完成數(shù)據(jù)的特征選擇。
第4章闡述了數(shù)據(jù)清洗的實(shí)踐方法,讓讀者掌握缺失值填充的方法,知道如何通過(guò)正態(tài)分布與箱線圖方法發(fā)現(xiàn)數(shù)據(jù)離群點(diǎn)。最后,以“測(cè)測(cè)你的一見鐘情指數(shù)”作為實(shí)踐案例,詳細(xì)闡述了數(shù)據(jù)清洗的實(shí)踐過(guò)程。
第5章闡述了數(shù)據(jù)轉(zhuǎn)換的實(shí)踐方法,讓讀者掌握通過(guò)二進(jìn)制編碼方法將離散型數(shù)據(jù)數(shù)值化的方法,并掌握最小–最大規(guī)范化和z分?jǐn)?shù)規(guī)范化、小數(shù)定標(biāo)規(guī)范化的方法。
第6章闡述了數(shù)據(jù)降維的實(shí)踐方法,讓讀者掌握通過(guò)散點(diǎn)圖方法來(lái)分析數(shù)據(jù)相關(guān)性的技巧,并能夠靈活運(yùn)用主成分分析法。
第7章闡述了不平衡數(shù)據(jù)分類的實(shí)踐方法,讓讀者掌握上采樣與下采樣的實(shí)際運(yùn)用,通過(guò)“員工離職問題”實(shí)踐案例,詳細(xì)介紹了不平衡數(shù)據(jù)分類的實(shí)踐過(guò)程。
第8章闡述了回歸分析的實(shí)踐方法,讓讀者掌握多元線性回歸預(yù)測(cè)的實(shí)際運(yùn)用,通過(guò)“PM2.5空氣質(zhì)量預(yù)測(cè)”實(shí)踐案例,詳細(xì)介紹了回歸預(yù)測(cè)的實(shí)踐過(guò)程。
第9章闡述了常見聚類算法的實(shí)際應(yīng)用,使讀者能夠靈活應(yīng)用k均值法、層次聚類法、密度聚類法。通過(guò)鳶尾花數(shù)據(jù)實(shí)踐案例,詳細(xì)介紹了密度聚類的實(shí)踐過(guò)程。
第10章闡述了Apriori算法的實(shí)踐方法,讓讀者掌握該算法的實(shí)現(xiàn)過(guò)程。通過(guò)“棒球運(yùn)動(dòng)產(chǎn)品推薦”實(shí)踐案例,詳細(xì)介紹了該算法的實(shí)踐過(guò)程。
第11章闡述了KNN分類的實(shí)踐方法,通過(guò)“鳶尾花分類”“相似電影推薦”兩個(gè)實(shí)踐案例,詳細(xì)介紹了該算法的實(shí)踐過(guò)程。
第12章闡述了支持向量機(jī)分類的實(shí)踐方法,通過(guò)“鳶尾花數(shù)據(jù)分類”“新聞文本數(shù)據(jù)分類”兩個(gè)實(shí)踐案例,詳細(xì)介紹了該算法的實(shí)踐過(guò)程。
第13章闡述了神經(jīng)網(wǎng)絡(luò)分類的實(shí)踐方法,通過(guò)“新聞文本分類”實(shí)踐案例,詳細(xì)介紹了該算法的實(shí)踐過(guò)程。
第14章闡述了常見的集成學(xué)習(xí)算法的實(shí)踐,讓讀者掌握Bagging、隨機(jī)森林、Adaboost、GBDT、XGBoost的實(shí)際應(yīng)用。通過(guò)“房?jī)r(jià)預(yù)測(cè)”“點(diǎn)擊欺騙預(yù)測(cè)”實(shí)踐案例,詳細(xì)介紹了集成算法的實(shí)踐過(guò)程。
第15章給出了各算法的綜合運(yùn)用案例,主要包括員工離職預(yù)測(cè)、二手車交易價(jià)格預(yù)測(cè)、信息抽取、學(xué)術(shù)網(wǎng)絡(luò)節(jié)點(diǎn)分類四個(gè)綜合案例。
本書在總結(jié)數(shù)據(jù)挖掘?qū)嵺`的基礎(chǔ)上,在中國(guó)大學(xué)MOOC上開設(shè)了“數(shù)據(jù)挖掘”MOOC課程(https://www.icourse163.org/course/NUDT-1461782176),并在頭歌平臺(tái)上開設(shè)了“數(shù)據(jù)挖掘”實(shí)驗(yàn)課程(https://www.educoder.net/paths/4153),讀者可通過(guò)在線視頻課程的學(xué)習(xí)、作業(yè)訓(xùn)練與編程實(shí)踐加深對(duì)數(shù)據(jù)挖掘知識(shí)點(diǎn)的理解,提高運(yùn)用能力。
數(shù)據(jù)挖掘是一個(gè)快速發(fā)展的領(lǐng)域,加之本書編寫時(shí)間短,作者水平有限,書中難免有疏漏之處,請(qǐng)各位讀者、同行不吝指正。
丁兆云,國(guó)防科技大學(xué)博士畢業(yè)后留校任教至今,長(zhǎng)期教授數(shù)據(jù)挖掘課程,負(fù)責(zé)國(guó)防科技大學(xué)系統(tǒng)工程學(xué)院“數(shù)據(jù)挖掘”專業(yè)方向考博命題工作,主持湖南省教改課題1項(xiàng)、國(guó)防科技大學(xué)教改課題1項(xiàng)、發(fā)表教學(xué)論文3篇,獲得國(guó)防科技大學(xué)研究生教學(xué)優(yōu)秀獎(jiǎng)。
目 錄
前言
第1章 緒論 1
1.1 數(shù)據(jù)挖掘技術(shù)的由來(lái) 1
1.2 數(shù)據(jù)挖掘的分類 2
1.2.1 關(guān)聯(lián)規(guī)則挖掘 2
1.2.2 監(jiān)督式機(jī)器學(xué)習(xí) 3
1.2.3 非監(jiān)督式機(jī)器學(xué)習(xí) 4
1.3 Python的安裝步驟 5
1.3.1 Python環(huán)境的配置 5
1.3.2 PyCharm的安裝 7
1.4 常見的數(shù)據(jù)集 10
1.4.1 鳶尾花數(shù)據(jù)集 10
1.4.2 員工離職預(yù)測(cè)數(shù)據(jù)集 11
1.4.3 泰坦尼克號(hào)災(zāi)難預(yù)測(cè)數(shù)據(jù)集 12
1.4.4 PM2.5空氣質(zhì)量預(yù)測(cè)數(shù)據(jù)集 13
1.5 本章小結(jié) 13
第2章 分類 14
2.1 分類的概念 14
2.2 分類中的訓(xùn)練集與測(cè)試集 14
2.3 分類的過(guò)程及驗(yàn)證方法 15
2.3.1 準(zhǔn)確率 15
2.3.2 k折交叉驗(yàn)證 16
2.4 貝葉斯分類的編程實(shí)踐 17
2.4.1 鳶尾花數(shù)據(jù)集的貝葉斯分類 17
2.4.2 基于貝葉斯分類的員工離職
預(yù)測(cè) 17
2.5 本章小結(jié) 19
第3章 數(shù)據(jù)的特征選擇 20
3.1 直方圖 20
3.1.1 直方圖可視化 20
3.1.2 直方圖特征選擇 23
3.2 直方圖與柱狀圖的差異 24
3.3 特征選擇實(shí)踐 26
3.4 本章小結(jié) 29
第4章 數(shù)據(jù)預(yù)處理之?dāng)?shù)據(jù)清洗 30
4.1 案例概述 30
4.2 缺失值處理 31
4.2.1 缺失值處理概述 31
4.2.2 缺失值處理實(shí)例 32
4.3 噪聲數(shù)據(jù)處理 32
4.3.1 正態(tài)分布噪聲數(shù)據(jù)檢測(cè) 32
4.3.2 用箱線圖檢測(cè)噪聲數(shù)據(jù) 34
4.4 數(shù)據(jù)預(yù)處理案例實(shí)踐 35
4.4.1 問題 35
4.4.2 解決方法 35
4.4.3 實(shí)踐結(jié)論 37
4.5 本章小結(jié) 38
第5章 數(shù)據(jù)預(yù)處理之轉(zhuǎn)換 39
5.1 數(shù)據(jù)的數(shù)值化處理 39
5.1.1 順序編碼 39
5.1.2 二進(jìn)制編碼 40
5.2 數(shù)據(jù)規(guī)范化 42
5.2.1 最小–最大規(guī)范化 42
5.2.2 z分?jǐn)?shù)規(guī)范化 43
5.2.3 小數(shù)定標(biāo)規(guī)范化 43
5.3 本章小結(jié) 43
第6章 數(shù)據(jù)預(yù)處理之?dāng)?shù)據(jù)降維 44
6.1 散點(diǎn)圖可視化分析 44
6.2 主成分分析 46
6.3 本章小結(jié) 49
第7章 不平衡數(shù)據(jù)分類 50
7.1 不平衡數(shù)據(jù)分類問題的特征 50
7.1.1 數(shù)據(jù)稀缺問題 50
7.1.2 噪聲問題 51
7.1.3 決策面偏移問題 51
7.1.4 評(píng)價(jià)標(biāo)準(zhǔn)問題 51
7.2 重采樣方法 51
7.2.1 上采樣 52
7.2.2 對(duì)上采樣方法的改進(jìn) 53
7.2.3 下采樣 58
7.2.4 對(duì)下采樣方法的改進(jìn) 60
7.2.5 不平衡問題的其他處理方式 65
7.3 不平衡數(shù)據(jù)分類實(shí)踐 65
7.4 本章小結(jié) 66
第8章 回歸分析 67
8.1 線性回歸 67
8.1.1 一元線性回歸 67
8.1.2 多元線性回歸 69
8.2 回歸分析檢測(cè) 71
8.2.1 正態(tài)分布可能性檢測(cè) 71
8.2.2 線性分布可能性檢測(cè) 72
8.2.3 log轉(zhuǎn)換后的分布 73
8.3 回歸預(yù)測(cè)案例實(shí)踐 74
8.3.1 案例背景 74
8.3.2 代碼實(shí)現(xiàn) 74
8.4 本章小結(jié) 82
第9章 聚類分析 83
9.1 k均值聚類 83
9.1.1 算法的步驟 83
9.1.2 代碼實(shí)現(xiàn) 83
9.2 層次聚類 84
9.2.1 算法的步驟 84
9.2.2 代碼實(shí)現(xiàn) 85
9.3 密度聚類 85
9.3.1 算法的步驟 85
9.3.2 代碼實(shí)現(xiàn) 86
9.4 本章小結(jié) 88
第10章 關(guān)聯(lián)分析 90
10.1 Apriori算法 90
10.2 關(guān)聯(lián)分析案例實(shí)踐 92
10.2.1 案例背景 92
10.2.2 案例的數(shù)據(jù)集 93
10.2.3 代碼實(shí)現(xiàn) 93
10.2.4 運(yùn)行結(jié)果 93
10.3 提升Apriori算法性能的方法 95
10.4 本章小結(jié) 95
第11章 KNN分類 96
11.1 KNN算法的步驟 96
11.2 KNeighborsClassifier函數(shù) 97
11.3 KNN的代碼實(shí)現(xiàn) 98
11.4 結(jié)果分析 98
11.5 KNN案例實(shí)踐 99
11.5.1 案例分析 99
11.5.2 案例實(shí)現(xiàn) 100
11.5.3 運(yùn)行結(jié)果 103
11.6 本章小結(jié) 104
第12章 支持向量機(jī) 105
12.1 支持向量機(jī)的可視化分析 105
12.2 SVM的代碼實(shí)現(xiàn) 108
12.2.1 鳶尾花數(shù)據(jù)分類 108
12.2.2 新聞文本數(shù)據(jù)分類 110
12.3 本章小結(jié) 111
第13章 神經(jīng)網(wǎng)絡(luò)分類 112
13.1 多層人工神經(jīng)網(wǎng)絡(luò) 112
13.2 多層人工神經(jīng)網(wǎng)絡(luò)的代碼實(shí)現(xiàn) 113
13.3 神經(jīng)網(wǎng)絡(luò)分類案例實(shí)踐 114
13.3.1 案例背景 114
13.3.2 數(shù)據(jù)說(shuō)明 114
13.3.3 代碼實(shí)現(xiàn) 115
13.4 本章小結(jié) 120
第14章 集成學(xué)習(xí) 121
14.1 Bagging方法 121
14.2 隨機(jī)森林 123