本書針對計算機、信息管理和其他相關專業(yè)學生的發(fā)展需求,系統(tǒng)、全面地介紹了大數據技術與應用的基本知識和技能,詳細介紹了大數據基礎、大數據的行業(yè)應用、大數據的基礎設施、大數據技術基礎、Hadoop分布式架構、大數據管理、大數據分析、人工智能與機器學習、數據科學與數據科學家、開放數據的時代,以及大數據發(fā)展與展望等內容,具有較強的系統(tǒng)性、可讀性和實用性。本書是為高等院!按髷祿毕嚓P課程全新設計編寫、具有豐富實踐特色的主教材,也可供有一定實踐經驗的軟件開發(fā)人員和管理人員參考,或作為繼續(xù)教育的教材。本書配有授課電子課件,需要的教師可登錄www.cmpedu.com免費注冊,審核通過后下載,或聯系編輯索。≦Q:2850823885,電話:010-88379739)。
提供課程教學進度表,供教師參考。理論聯系實際,結合一系列了解和熟悉大數據技術與應用的學習和實踐活動。為每章教學內容都有針對性地設計了課后的實驗與練習環(huán)節(jié)。提供課程實驗總結。
目 錄前言 第1章 大數據概述1.1 什么是大數據1.1.1 大數據的定義1.1.2 用3V描述大數據的特征1.1.3 廣義的大數據1.2 大數據的結構類型1.3 大數據的發(fā)展1.3.1 硬件性價比提高與軟件技術進步1.3.2 云計算的普及1.3.3 大數據作為BI的進化形式1.3.4 從交易數據分析到交互數據分析1.4 大數據技術的意義1.5 延伸閱讀:得數據者得天下1.6 實驗與思考:了解大數據及其在線支持第2章 大數據的行業(yè)應用2.1 奧巴馬的競選大數據2.2 大都市的智能交通2.3 互聯網企業(yè)對大數據的運用2.4 互聯網競拍公司eBay2.4.1 超乎尋常的數據產生速度2.4.2 eBay的數據分析基礎架構2.5 游戲分析公司Zynga2.5.1 社交游戲經濟的重要指標2.5.2 提高病毒系數的方法2.5.3 數據驅動游戲2.5.4 三次點擊法則2.6 延伸閱讀:大數據正在改變汽車保險2.7 實驗與思考:熟悉大數據應用第3章 大數據的基礎設施3.1 云端大數據3.1.1 什么是云計算3.1.2 云計算的服務形式3.1.3 云計算與大數據3.1.4 云基礎設施3.1.5 云平臺3.2 計算虛擬化3.3 存儲虛擬化(大數據存儲)3.3.1 傳統(tǒng)存儲系統(tǒng)時代3.3.2 大數據時代的新挑戰(zhàn)3.3.3 分布式存儲3.3.4 云存儲及存儲虛擬化3.3.5 大數據存儲的其他需求及特點3.4 網絡虛擬化3.4.1 網卡虛擬化3.4.2 虛擬交換機3.4.3 接入層的虛擬化3.4.4 覆蓋網絡虛擬化3.4.5 軟件定義的網絡(SDN)3.4.6 對大數據處理的意義3.5 云環(huán)境基礎架構的安全3.6 延伸閱讀:用云數據提高農業(yè)產量并做出決策3.7 實驗與思考:了解大數據的基礎設施第4章 大數據技術基礎4.1 技術進步與摩爾定律4.2 大數據的技術架構4.3 大數據的運用形式4.4 大數據運用模式的分類4.4.1 個別優(yōu)化•批處理型4.4.2 個別優(yōu)化•實時型4.4.3 整體優(yōu)化•批處理型4.4.4 整體優(yōu)化•實時型4.5 大數據的運用級別4.5.1 對過去/現狀的把握4.5.2 發(fā)現模式4.5.3 預測4.5.4 優(yōu)化4.6 大數據運用的真正價值4.7 相關的大數據技術4.7.1 神經網絡4.7.2 自然語言處理4.7.3 語義檢索4.7.4 鏈接挖掘4.7.5 A/B測試4.8 延伸閱讀:高科技促使大數據互聯網金融步入快車道4.9 實驗與思考:熟悉大數據的技術基礎第5章 Hadoop分布式架構5.1 什么是分布式系統(tǒng)5.2 什么是Hadoop5.2.1 Hadoop的由來5.2.2 Hadoop的優(yōu)勢5.2.3 Hadoop的發(fā)行版本5.2.4 發(fā)行版本眾多的原因5.3 Hadoop架構元素5.4 Hadoop集群系統(tǒng)5.5 Hadoop開源實現5.6 Hadoop信息安全5.7 Hadoop考試認證與開源社區(qū)5.8 延伸閱讀:有一家大數據公司聲稱要做地球的操作系統(tǒng)5.9 實驗與思考:什么是Hadoop第6章 大數據管理6.1 大數據的數據處理基礎6.2 大數據事務處理(OLTP)6.2.1 傳統(tǒng)OLTP系統(tǒng)6.2.2 NoSQL6.2.3 NewSQL6.3 大數據分析處理(OLAP)6.3.1 OLAP與數據立方體6.3.2 分布式大規(guī)模批量處理(MapReduce/Hadoop)6.3.3 Hadoop HDFS分布式文件系統(tǒng)6.3.4 MapReduce計算模型6.3.5 MPP數據庫6.3.6 分析型數據庫的特征6.4 流數據管理(實時數據處理)6.5 自行開發(fā)流數據處理技術6.6 延伸閱讀:“大數據時代預言家”提醒學校規(guī)避“數據獨裁”6.7 實驗與思考:了解大數據管理技術第7章 大數據分析7.1 數據分析的演變7.1.1 數據分析的商業(yè)驅動力7.1.2 數據分析環(huán)境的演變7.1.3 傳統(tǒng)分析架構7.2 大數據分析平臺7.2.1 敏捷計算平臺7.2.2 線性擴展能力7.2.3 全方位、遍布式、協(xié)作性用戶體驗7.3 大數據與數據挖掘7.3.1 什么是數據挖掘7.3.2 數據挖掘解決的商業(yè)問題7.4 數據挖掘的高級分析方法7.4.1 分類7.4.2 聚類分析7.4.3 關聯規(guī)則7.4.4 回歸分析7.4.5 預測7.4.6 序列分析7.4.7 偏差分析7.5 數據挖掘項目的生命周期7.5.1 商業(yè)問題的形成7.5.2 數據收集7.5.3 數據清理和轉換7.5.4 模型構建7.5.5 模型評估7.5.6 報告和預測7.5.7 應用集成7.5.8 模型管理7.6 大數據可視化7.6.1 數據可視化的運用7.6.2 可視化對認知的幫助7.6.3 七個數據類型7.6.4 七個基本任務7.6.5 數據可視化的挑戰(zhàn)7.7 延伸閱讀:什么是大數據分析做不了的?7.8 實驗與思考:了解大數據分析技術第8章 人工智能與機器學習8.1 什么是人工智能8.1.1 人工智能的定義8.1.2 數據的相關性8.1.3 大數據中的因果關系8.2 機器學習及其研究8.2.1 什么是機器學習8.2.2 基本結構8.2.3 研究領域8.3 機器學習的分類8.3.1 基于學習策略的分類8.3.2 基于所獲取知識的表示形式的分類8.3.3 按應用領域分類8.3.4 按學習形式分類8.4 延伸閱讀:ZestFinance公司的金融風險平估8.5 實驗與思考:了解人工智能,熟悉機器學習第9章 數據科學與數據科學家9.1 什么是數據科學9.2 數據分析生命周期模型9.2.1 模型概述9.2.2 階段1:探索發(fā)現9.2.3 階段2:數據準備9.2.4 階段3:模型規(guī)劃9.2.5 階段4:模型建造9.2.6 階段5:溝通結果9.2.7 階段6:項目實施9.3 數據科學家9.3.1 大數據生態(tài)系統(tǒng)中的關鍵角色9.3.2 數據科學家所需的技能9.3.3 數據科學家所需的素質9.3.4 數據科學家的學習內容9.4 延伸閱讀:基于技能的改善數據科學實踐的方法9.5 實驗與思考:了解數據科學,熟悉數據科學家第10章 開放數據的時代10.1 大數據時代的隱私問題10.1.1 隱私與創(chuàng)新10.1.2 社交化檔案的是非10.1.3 消費者隱私權法案10.2 連接開放數據10.2.1 LOD運動10.2.2 對政府公開的影響10.2.3 創(chuàng)業(yè)型公司——綜合氣候保險10.3 數據市場的興起10.3.1 Factual10.3.2 Windows Azure Marketplace10.3.3 Infochimps10.3.4 Public Data Sets On AWS10.4 不同的商業(yè)模式10.5 延伸閱讀:美國幾乎可監(jiān)控網民所有的網絡活動10.6 實驗與思考:了解大數據時代 的安全與隱私保護第11章 大數據發(fā)展與展望11.1 大數據時代的企業(yè)IT戰(zhàn)略11.2 擁有原創(chuàng)數據的優(yōu)勢11.3 供應商企業(yè)的新商機:數據聚合商11.3.1 數據聚合商的作用11.3.2 誰能成為數據聚合商11.4 支付服務商向數據聚合商的演化11.4.1 VISA11.4.2 PayPal11.4.3 美國運通11.5 數據整合之妙:將原創(chuàng)數據變?yōu)樵鲋禂祿?1.6 大數據未來展望11.6.1 大數據的存儲和管理11.6.2 傳統(tǒng)IT系統(tǒng)到大數據系統(tǒng)的 過渡 11.6.3 大數據分析11.6.4 大數據安全11.7 延伸閱讀:智能大數據分析或 成熱點11.8 課程實驗總結11.8.1 實驗的基本內容11.8.2 實驗的基本評價11.8.3 課程學習能力測評11.8.4 大數據技術與應用實驗總結11.8.5 實驗總結評價(教師)參考文獻