大數(shù)據(jù)技術(shù)涵蓋面廣、體系龐大,涉及不同層面及其相關(guān)技術(shù)。本書主要介紹大數(shù)據(jù)應(yīng)用中的兩大關(guān)鍵技術(shù),即數(shù)據(jù)存儲和數(shù)據(jù)處理與分析。首先介紹大數(shù)據(jù)的基本概念,然后基于Hadoop架構(gòu)簡要講解HDFS大數(shù)據(jù)存儲原理,剖析MapReduce和Spark分布式計算模型,重點通過Python語言詳細介紹大數(shù)據(jù)處理、數(shù)據(jù)可視化和數(shù)據(jù)分析的方法及相關(guān)技術(shù),同時詳細介紹PySpark大數(shù)據(jù)分析的方法,最后通過綜合案例演示大數(shù)據(jù)處理和分析過程。
本書力求較全面地介紹大數(shù)據(jù)的理論以及Python數(shù)據(jù)處理和分析的實踐,使讀者輕松學(xué)會利用Python進行大數(shù)據(jù)分析及應(yīng)用的技術(shù)。本書適合信息類專業(yè)開設(shè)大數(shù)據(jù)技術(shù)課程時作為教材使用,也適合大數(shù)據(jù)相關(guān)技術(shù)人員作為入門參考書使用。
第1章 大數(shù)據(jù)概述
1.1 什么是大數(shù)據(jù)?
1.2 大數(shù)據(jù)的發(fā)展歷程
1.3 大數(shù)據(jù)關(guān)鍵技術(shù)
1.4 大數(shù)據(jù)計算模式
本章小結(jié)
課后習(xí)題
第2章 大數(shù)據(jù)分布式存儲
2.1 大數(shù)據(jù)處理架構(gòu) Hadoop
2.2 分布式文件系統(tǒng) HDFS
本章小結(jié)
課后習(xí)題
第3章 大數(shù)據(jù)分布式處理
3.1 MapReduce
3.2 Spark
本章小結(jié)
課后習(xí)題
第4章 Python語言基礎(chǔ)
4.1 Python基本語法
4.2 NumPy簡介
4.3 Pandas簡介
本章小結(jié)
課后習(xí)題
第5章 Python基本數(shù)據(jù)處理
5.1 數(shù)據(jù)清洗
5.2 數(shù)據(jù)透視
5.3 數(shù)據(jù)分組
5.4 離散化處理
5.5 合并數(shù)據(jù)集
本章小結(jié)
課后習(xí)題
第6章 Python 數(shù)據(jù)可視化
6.1 matplotlib繪圖基礎(chǔ)
6.2 matplotlib可視化實例
6.3 Seaborn繪圖
6.4 中文分詞及詞云圖
6.5 圖像處理簡介
本章小結(jié)
課后習(xí)題
第7章 數(shù)據(jù)分析之機器學(xué)習(xí)
7.1 機器學(xué)習(xí)基本概念
7.2 機器學(xué)習(xí)庫sklearn簡介
7.3 回歸算法原理與應(yīng)用
7.4 支持向量機算法原理與應(yīng)用
7.5 KNN分類算法原理與應(yīng)用
7.6 KMeans 聚類算法原理與應(yīng)用
本章小結(jié)
課后習(xí)題
第8章 數(shù)據(jù)分析之文本分析
8.1 距離度量和相似性度量
8.2 文本向量表示及應(yīng)用
本章小結(jié)
課后習(xí)題
第9章 PySpark 數(shù)據(jù)處理及分析
9.1 PySpark數(shù)據(jù)基本操作
9.2 PySpark 機器學(xué)習(xí)
9.3 Spark Streaming流處理技術(shù)
9.4 Kafka消息發(fā)布-訂閱系統(tǒng)
本章小結(jié)
課后習(xí)題
第10章 大數(shù)據(jù)應(yīng)用綜合案例
10.1 網(wǎng)絡(luò)爬行器
10.2 案例需求分析
10.3 案例設(shè)計
10.4 案例實現(xiàn)
本章小結(jié)
課后習(xí)題
參考文獻