本書以Python作為開發(fā)Spark應(yīng)用程序的編程語言,系統(tǒng)介紹了Spark編程的基礎(chǔ)知識。全書共9章,內(nèi)容包括大數(shù)據(jù)技術(shù)概述、Spark的設(shè)計(jì)與運(yùn)行原理、大數(shù)據(jù)實(shí)驗(yàn)環(huán)境搭建、Spark環(huán)境搭建和使用方法、RDD編程、SparkSQL、SparkStreaming、StructuredStreaming和SparkML
這是一本理論高度概括的書,講解流式處理核心、本質(zhì)的概念、特性、設(shè)計(jì)和方法。本書分為兩部分:第一部分以Beam的編程模型為抓手討論流處理的種種核心問題,重點(diǎn)是相對高層次地討論批處理模型以及流處理模型;第二部分討論流與表的二象性,即兩者之間的類比與差異,對概念進(jìn)行深入探討,并討論關(guān)于流處理的“流與表”的思考方式。本書還概要
大數(shù)據(jù)技術(shù)基礎(chǔ)
本書詳細(xì)講解了基于微服務(wù)的數(shù)據(jù)工程應(yīng)用開發(fā)實(shí)踐,包括微服務(wù)及數(shù)據(jù)工程相關(guān)原理概述、開發(fā)環(huán)境搭建、服務(wù)運(yùn)行與跟蹤、服務(wù)通信與配置、國產(chǎn)自主可控?cái)?shù)據(jù)庫實(shí)踐、相關(guān)系統(tǒng)的開發(fā)實(shí)踐等內(nèi)容,特色是(1)結(jié)合當(dāng)今微服務(wù)發(fā)展技術(shù)指導(dǎo)傳統(tǒng)數(shù)據(jù)工程應(yīng)用的開發(fā)實(shí)踐(2)引入當(dāng)今對國產(chǎn)自主可控?cái)?shù)據(jù)庫的要求,詳細(xì)講解了如何在微服務(wù)技術(shù)條件下對國
《數(shù)據(jù)資產(chǎn)管理核心技術(shù)與應(yīng)用》深入探討數(shù)據(jù)資產(chǎn)管理的核心技術(shù)與應(yīng)用,融入作者在大數(shù)據(jù)領(lǐng)域多年的豐富經(jīng)驗(yàn)!稊(shù)據(jù)資產(chǎn)管理核心技術(shù)與應(yīng)用》為讀者提供一套可以落地的數(shù)據(jù)資產(chǎn)管理框架,并詳解兩個(gè)基于該框架進(jìn)行數(shù)據(jù)資產(chǎn)管理的應(yīng)用案例,使讀者能更好地了解數(shù)據(jù)資產(chǎn)管理底層所涉及的眾多核心技術(shù),讓數(shù)據(jù)可以發(fā)揮出更大的價(jià)值!稊(shù)據(jù)資產(chǎn)管
本書系統(tǒng)介紹了大數(shù)據(jù)基礎(chǔ)知識和相關(guān)技術(shù),全書分為大數(shù)據(jù)基礎(chǔ)、大數(shù)據(jù)存儲與管理篇、大數(shù)據(jù)采集與預(yù)處理、大數(shù)據(jù)分析與挖掘、大數(shù)據(jù)平臺Hadoop實(shí)踐與應(yīng)用案例5篇,共17章,主要內(nèi)容包括大數(shù)據(jù)基本概念、大數(shù)據(jù)平臺Hadoop基礎(chǔ)、大數(shù)據(jù)存儲與管理基本概念、大數(shù)據(jù)分布式文件系統(tǒng)HDFS、大數(shù)據(jù)分布式數(shù)據(jù)庫系統(tǒng)HBase、大數(shù)
《Hadoop海量數(shù)據(jù)處理》從Hadoop的基礎(chǔ)知識講起,逐步深入Hadoop分布式文件系統(tǒng)(HDFS)和MapReduce分布式編程框架的核心技術(shù),幫助讀者全面、系統(tǒng)、深入地理解Hadoop海量數(shù)據(jù)處理技術(shù)的精髓。本書在講解技術(shù)原理時(shí)穿插大量的典型示例,并詳解兩個(gè)典型項(xiàng)目實(shí)戰(zhàn)案例,幫助讀者提高實(shí)際項(xiàng)目開發(fā)水平!禜a
本書通過魯棒優(yōu)化的核心原理和應(yīng)用,揭開不確定性的神秘面紗,為讀者提供應(yīng)對不可預(yù)測的挑戰(zhàn)所需的見解和工具。作者首先簡要介紹了不確定線性規(guī)劃,然后深入分析了適當(dāng)不確定性集的構(gòu)建與經(jīng)典機(jī)會(huì)約束(概率)方法之間的相互聯(lián)系。接著,提出了針對不確定的錐二次優(yōu)化和半定優(yōu)化問題以及動(dòng)態(tài)(多階段)問題的魯棒優(yōu)化理論。最后,通過來自金融、
本書采用項(xiàng)目任務(wù)式編寫方法,以合理的結(jié)構(gòu)、通俗易懂的語言、豐富實(shí)用的案例、學(xué)練結(jié)合的講解方式,全面系統(tǒng)、循序漸進(jìn)地介紹了大數(shù)據(jù)存儲的相關(guān)技術(shù)和實(shí)際應(yīng)用。全書共分為7個(gè)項(xiàng)目,分別為大數(shù)據(jù)存儲概述、數(shù)據(jù)倉庫Hive、列式數(shù)據(jù)庫HBase、文檔數(shù)據(jù)庫MongoDB、圖數(shù)據(jù)庫Neo4j、鍵值數(shù)據(jù)庫Redis、NewSQL數(shù)據(jù)庫
本教材是大數(shù)據(jù)時(shí)代下,大數(shù)據(jù)行業(yè)蓬勃發(fā)展,大數(shù)據(jù)技術(shù)也在不斷涌現(xiàn)革新,本書對大數(shù)據(jù)體系架構(gòu)lambda進(jìn)行梳理,介紹了一些重要的大數(shù)據(jù)平臺技術(shù)原理與編程實(shí)踐,包括數(shù)據(jù)收集層的Kafka,數(shù)據(jù)存儲層的HDFS、HBase,計(jì)算框架層的MapReduce、Spark、Flink,資源管理與協(xié)調(diào)層的YARN、ZooKeepe