本書以Python作為開發(fā)Spark應(yīng)用程序的編程語言,系統(tǒng)介紹了Spark編程的基礎(chǔ)知識。全書共9章,內(nèi)容包括大數(shù)據(jù)技術(shù)概述、Spark的設(shè)計與運行原理、大數(shù)據(jù)實驗環(huán)境搭建、Spark環(huán)境搭建和使用方法、RDD編程、SparkSQL、SparkStreaming、StructuredStreaming和SparkML
這是一本理論高度概括的書,講解流式處理核心、本質(zhì)的概念、特性、設(shè)計和方法。本書分為兩部分:第一部分以Beam的編程模型為抓手討論流處理的種種核心問題,重點是相對高層次地討論批處理模型以及流處理模型;第二部分討論流與表的二象性,即兩者之間的類比與差異,對概念進行深入探討,并討論關(guān)于流處理的“流與表”的思考方式。本書還概要
大數(shù)據(jù)技術(shù)基礎(chǔ)
本書詳細(xì)講解了基于微服務(wù)的數(shù)據(jù)工程應(yīng)用開發(fā)實踐,包括微服務(wù)及數(shù)據(jù)工程相關(guān)原理概述、開發(fā)環(huán)境搭建、服務(wù)運行與跟蹤、服務(wù)通信與配置、國產(chǎn)自主可控數(shù)據(jù)庫實踐、相關(guān)系統(tǒng)的開發(fā)實踐等內(nèi)容,特色是(1)結(jié)合當(dāng)今微服務(wù)發(fā)展技術(shù)指導(dǎo)傳統(tǒng)數(shù)據(jù)工程應(yīng)用的開發(fā)實踐(2)引入當(dāng)今對國產(chǎn)自主可控數(shù)據(jù)庫的要求,詳細(xì)講解了如何在微服務(wù)技術(shù)條件下對國
《數(shù)據(jù)資產(chǎn)管理核心技術(shù)與應(yīng)用》深入探討數(shù)據(jù)資產(chǎn)管理的核心技術(shù)與應(yīng)用,融入作者在大數(shù)據(jù)領(lǐng)域多年的豐富經(jīng)驗!稊(shù)據(jù)資產(chǎn)管理核心技術(shù)與應(yīng)用》為讀者提供一套可以落地的數(shù)據(jù)資產(chǎn)管理框架,并詳解兩個基于該框架進行數(shù)據(jù)資產(chǎn)管理的應(yīng)用案例,使讀者能更好地了解數(shù)據(jù)資產(chǎn)管理底層所涉及的眾多核心技術(shù),讓數(shù)據(jù)可以發(fā)揮出更大的價值!稊(shù)據(jù)資產(chǎn)管
本書系統(tǒng)介紹了大數(shù)據(jù)基礎(chǔ)知識和相關(guān)技術(shù),全書分為大數(shù)據(jù)基礎(chǔ)、大數(shù)據(jù)存儲與管理篇、大數(shù)據(jù)采集與預(yù)處理、大數(shù)據(jù)分析與挖掘、大數(shù)據(jù)平臺Hadoop實踐與應(yīng)用案例5篇,共17章,主要內(nèi)容包括大數(shù)據(jù)基本概念、大數(shù)據(jù)平臺Hadoop基礎(chǔ)、大數(shù)據(jù)存儲與管理基本概念、大數(shù)據(jù)分布式文件系統(tǒng)HDFS、大數(shù)據(jù)分布式數(shù)據(jù)庫系統(tǒng)HBase、大數(shù)
《Hadoop海量數(shù)據(jù)處理》從Hadoop的基礎(chǔ)知識講起,逐步深入Hadoop分布式文件系統(tǒng)(HDFS)和MapReduce分布式編程框架的核心技術(shù),幫助讀者全面、系統(tǒng)、深入地理解Hadoop海量數(shù)據(jù)處理技術(shù)的精髓。本書在講解技術(shù)原理時穿插大量的典型示例,并詳解兩個典型項目實戰(zhàn)案例,幫助讀者提高實際項目開發(fā)水平!禜a
本書通過魯棒優(yōu)化的核心原理和應(yīng)用,揭開不確定性的神秘面紗,為讀者提供應(yīng)對不可預(yù)測的挑戰(zhàn)所需的見解和工具。作者首先簡要介紹了不確定線性規(guī)劃,然后深入分析了適當(dāng)不確定性集的構(gòu)建與經(jīng)典機會約束(概率)方法之間的相互聯(lián)系。接著,提出了針對不確定的錐二次優(yōu)化和半定優(yōu)化問題以及動態(tài)(多階段)問題的魯棒優(yōu)化理論。最后,通過來自金融、
本書采用項目任務(wù)式編寫方法,以合理的結(jié)構(gòu)、通俗易懂的語言、豐富實用的案例、學(xué)練結(jié)合的講解方式,全面系統(tǒng)、循序漸進地介紹了大數(shù)據(jù)存儲的相關(guān)技術(shù)和實際應(yīng)用。全書共分為7個項目,分別為大數(shù)據(jù)存儲概述、數(shù)據(jù)倉庫Hive、列式數(shù)據(jù)庫HBase、文檔數(shù)據(jù)庫MongoDB、圖數(shù)據(jù)庫Neo4j、鍵值數(shù)據(jù)庫Redis、NewSQL數(shù)據(jù)庫
本教材是大數(shù)據(jù)時代下,大數(shù)據(jù)行業(yè)蓬勃發(fā)展,大數(shù)據(jù)技術(shù)也在不斷涌現(xiàn)革新,本書對大數(shù)據(jù)體系架構(gòu)lambda進行梳理,介紹了一些重要的大數(shù)據(jù)平臺技術(shù)原理與編程實踐,包括數(shù)據(jù)收集層的Kafka,數(shù)據(jù)存儲層的HDFS、HBase,計算框架層的MapReduce、Spark、Flink,資源管理與協(xié)調(diào)層的YARN、ZooKeepe