本書著力于介紹數據挖掘基礎知識、基本原理、常用算法,主要內容包括數據挖掘概述、數據的描述與可視化、數據的采集和預處理、數據的歸約、關聯(lián)規(guī)則挖掘、分類與預測、 非線性預測模型、聚類分析、深度學習簡介、使用 Weka 進行數據挖掘。本書通俗易懂,注重基礎知識、基本原理和基本方法,注重啟發(fā)和引申,以培養(yǎng)學生獨立思考和獨立發(fā)現(xiàn)的能力。本書適合作為數據科學與大數據、信息管理、統(tǒng)計等專業(yè)的本科層次基礎課教材,也可作為相關專業(yè)研究生層次的參考用書。
本書是基于人工智能和大數據及相關專業(yè)的新工科教材,重點介紹了數據挖掘領域具有代表性的概念和算法基礎。全書側重基本概念,并配有大量通俗易懂案例。本教材適合48學時、32學時的本科和?平滩模部勺鳛檠芯可娜腴T參考書。
隨著信息技術的普及和應用,各行各業(yè)產生了大量的數據,人們持續(xù)不斷地探索
處理這些數據的方法,以期大程度地從中挖掘有用信息,面對如潮水般不斷增加的
數據,人們不再滿足于數據的查詢和統(tǒng)計分析,而是期望從數據中提取信息或者知識
為決策服務。數據挖掘技術突破數據分析技術的種種局限,結合統(tǒng)計學、數據庫、機
器學習等技術解決從數據中發(fā)現(xiàn)新的信息并輔助決策這一難題,是正在飛速發(fā)展的前
沿學科。近年來,隨著教育部新工科建設的不斷推進,大數據技術受到廣泛的關
注,數據挖掘作為大數據技術的重要實現(xiàn)手段,能夠挖掘數據的關聯(lián)規(guī)則,實現(xiàn)數據
的分類、聚類、異常檢測和時間序列分析等,解決商務管理、生產控制、市場分析、
工程設計和科學探索等各行各業(yè)中的數據分析與信息挖掘問題。
截至 2018 年本書出版,共有 283 所高校獲批數據科學與大數據技術專業(yè),
其中 985 及 211 高校占比為 13%。目前國內數據人才缺口更是達到百萬級。數據科學
是一門交叉學科,除了計算機相關知識,還需要統(tǒng)計和數學基礎,以及業(yè)務應用能力。
目前,
數據科學與大數據逐漸成為高校信息類、
管理類和數學統(tǒng)計類專業(yè)的必修課程,
同時,作為面向各專業(yè)的通識課也廣受歡迎。
本書作為立足于應用型本科數據科學與大數據教學的入門級教材,具有如下特色:
(1)內容安排合理且全面,從數據的預處理到常用數據挖掘算法的描述,循序漸
進,深入淺出。
(2)難度適中,適用于本科中低年級的入門級教材,零基礎要求,對編程及數學
知識不作要求。
(3)融入了大量本領域的前沿知識與方法,如包括基于 GAN 網絡的深度學習的
新進展。
(4)理論與案例相結合,理論與實踐相結合,包含了 Weka 工具的使用。特別地
在第 10 章還給出了完整的數據挖掘應用案例,使讀者能夠在數據挖掘平臺上感受完
整的數據分析過程。
本書全面介紹了數據挖掘的基礎知識、
基本原理、 常用算法以及相應的實踐工具,
主要內容分為以下四塊內容:
(1)數據挖掘基本知識。第 1 章為數據挖掘概述,主要介紹數據挖掘的基本概念、
基本流程及算法等。第 2 章介紹數據的描述與可視化,包括數據按屬性分類、數據的
基本統(tǒng)計描述、數據的相似性度量方法及數據的可視化技術等。
(2)數據預處理。第 3 章介紹數據的采集和預處理,包括數據的采集、數據預處
理的目的和任務、數據清洗、數據集成和數據變換等。第 4 章介紹數據的歸約,包括
線性回歸和主成分分析。
(3)數據挖掘算法詳解。第 5 章介紹關聯(lián)規(guī)則挖掘,包括關聯(lián)規(guī)則挖掘的概念、
關聯(lián)規(guī)則挖掘算法及應用實例。第 6 章介紹分類與預測,包括決策樹模型、貝葉斯分數據挖掘
2
類模型、線性判別模型、邏輯回歸模型以及模型的評估與選擇方法。第 7 章介紹非線
性預測模型,包括支持向量機和神經網絡。第 8 章介紹聚類分析,包括聚類分析概
述、 k-均值聚類、 k-中心聚類以及聚類評估。第 9 章介紹深度學習,包括深度學習
的來由、深度學習網絡的基本結構、卷積神經網絡及一個應用實例。
(4)數據挖掘實踐。第 10 章為使用 Weka 進行數據挖掘,包括 Weka 的基本操作、
如何使用 Weka 進行關聯(lián)規(guī)則挖掘、分類、回歸和聚類等。
另外,附錄還介紹了拉格朗日乘子法在支持向量機中的優(yōu)化算法。
本書由宋萬清、楊壽淵、陳劍雪、高永彬編著。具體分工如下:上海工程技術大
學宋萬清編寫第 2、5、6、8、10 章和附錄,上海工程技術大學陳劍雪編寫第 3、7 章,
上海工程技術大學高永彬編寫第 9 章,江西財經大學楊壽淵編寫第 1、4 章。全書由
上海工程技術大學方志軍、上海交通大學錢亮宏主審。同時,本書部分內容借鑒了許
多學者的研究成果,在此深表謝意!
由于編者水平有限,加之時間倉促,書中難免存在疏漏和不足之處,敬請讀者批
評指正。
編
者
2018 年 8 月
宋萬清:上海工程技術大學電子電氣工程學院教授,主要研究方向:狀態(tài)監(jiān)測與故障診斷,隨機信號分析,大數據處理,機電一體化控制與現(xiàn)場總線技術。主講了智能控制、系統(tǒng)辨識、數據挖掘等25門本科生與研究生課程。
第 1 章
數據挖掘概述 ...................... 1
1.1 什么是數據挖掘
...................... 1
1.1.1 數據、信息和知識 ........ 1
1.1.2 數據挖掘的定義 ............
2
1.1.3 數據挖掘的發(fā)展簡史 .... 3
1.2 數據挖掘的基本流程
及方法概述 ............................. 4
1.2.1 數據挖掘的基本流程 .... 4
1.2.2 數據挖掘的任務
和方法概述 ................... 6
1.3 數據挖掘的應用
...................... 9
1.3.1 數據挖掘在商務
領域的應用 ................... 9
1.3.2 數據挖掘在醫(yī)療
和醫(yī)學領域的應用 ...... 10
1.3.3 數據挖掘在銀行
和保險領域的應用 ...... 10
1.3.4 數據挖掘在社交
媒體領域的應用 ......... 11
習題 ............................................... 11
第 2 章
數據的描述與可視化.......... 12
2.1 概述
...................................... 12
2.2 數據對象與屬性類型.............
12
2.2.1 什么是屬性
................. 12
2.2.2 標稱屬性
..................... 12
2.2.3 二元屬性
..................... 13
2.2.4 序數屬性
..................... 13
2.2.5 數值屬性
..................... 14
2.2.6 離散屬性與連續(xù)
屬性 ............................ 14
2.3 數據的基本統(tǒng)計描述
............ 15
2.3.1 中心趨勢度量 .............
15
2.3.2 度量數據散布:極差、
四分位數、方差、
標準差和四分位數
極差 ............................ 17
2.3.3 數據基本統(tǒng)計的
圖形描述 .................... 19
2.4 數據可視化
........................... 23
2.4.1 基于像素的可視化 ...... 23
2.4.2 幾何投影可視化.......... 25
2.4.3 基于圖符的可視化 ...... 27
2.4.4 層次可視化
................. 28
2.4.5 可視化復雜對象和
關系 ............................ 30
2.5 數據相似性和相異性度量 ..... 32
2.5.1 數據矩陣與相異性
矩陣 ............................ 32
2.5.2 標稱屬性的鄰近性
度量 ............................ 33
2.5.3 二元屬性的鄰近性
度量 ............................ 34
2.5.4 數值屬性的相異性:
閔可夫斯基距離 ......... 36
2.5.5 序數屬性的鄰近性
度量 ............................ 37
2.5.6 混合類型屬性的
相異性 ........................ 38
2.5.7 余弦相似性
................. 40
習題............................................... 40
第 3 章
數據的采集和預處理 .......... 42
3.1 概述
...................................... 42
3.1.1 大數據采集的特點 ...... 42數據挖掘
2
3.1.2 大數據采集的方法 ...... 43
3.2 數據預處理的目的和任務 ..... 44
3.3 數據清洗
............................... 45
3.3.1 缺失值清洗
................. 46
3.3.2 異常值清洗
................. 48
3.3.3 格式內容清洗 .............
50
3.3.4 邏輯錯誤清洗 .............
50
3.3.5 非需求數據清洗 .......... 51
3.3.6 關聯(lián)性驗證
................. 51
3.4 數據集成
............................... 52
3.5 數據變換 ...............................
53
習題 ............................................... 56
第 4 章
數據的歸約........................ 57
4.1 概述
...................................... 57
4.2 屬性的選擇與數值歸約 .........
57
4.2.1 屬性的評估準則 .......... 58
4.2.2 屬性子集選擇方法 ...... 59
4.2.3 數值歸約
..................... 60
4.3 線性回歸
............................... 61
4.4 主成分分析
........................... 63
習題 ............................................... 66
第 5 章
關聯(lián)規(guī)則挖掘 .................... 67
5.1 概述
...................................... 67
5.2 關聯(lián)規(guī)則的分類
.................... 68
5.3 關聯(lián)規(guī)則的研究步驟.............
68
5.3.1 關聯(lián)規(guī)則挖掘算法的
分類 ............................ 69
5.3.2 各種算法類型的
對比 ............................ 70
5.4 Apriori 算法分析
................... 70
5.5 實例分析
............................... 70
5.6 關聯(lián)規(guī)則的推廣(GRI) ...... 72
5.7 關聯(lián)規(guī)則的深入挖掘.............
74
習題 ............................................... 75
第 6 章
分類與預測........................ 76
6.1 概述
...................................... 76
6.1.1 基本概念
..................... 76
6.1.2 數據分類的
一般方法 .................... 77
6.2 決策樹模型
........................... 77
6.2.1 決策樹的工作原理 ...... 78
6.2.2 決策樹的適用問題 ...... 78
6.2.3 ID3 算法
..................... 79
6.2.4 決策樹的結點劃分 ...... 80
6.3 貝葉斯分類模型
.................... 81
6.3.1 貝葉斯定理
................. 81
6.3.2 貝葉斯模型的特點 ...... 82
6.4 線性判別模型
....................... 82
6.5 邏輯回歸模型
....................... 83
6.5.1 邏輯回歸模型
概述 ............................ 83
6.5.2 邏輯回歸模型的
基本概念 .................... 83
6.6 模型的評估與選擇
................ 85
6.6.1 評估分類器性能的
度量 ............................ 85
6.6.2 保持方法和隨機
二次抽樣 .................... 90
6.6.3 交叉驗證
..................... 90
6.6.4 自助法
........................ 91
6.6.5 使用統(tǒng)計顯著性檢驗
選擇模型 .................... 91
習題............................................... 93
第 7 章
非線性預測模型 ................. 94
7.1 概述
...................................... 94
7.2 支持向量機
........................... 94
7.2.1 支持向量機分類
原理 ............................ 95
7.2.2 非線性支持向量機 ...... 99
7.2.3 支持向量機回歸
預測 .......................... 102
7.2.4 基于支持向量機的
預測分析 .................. 106
7.3 神經網絡
............................. 108
7.3.1 人工神經網絡模型
與分類 ...................... 108
7.3.2 BP 神經網絡 .............
112目 錄
3
7.3.3 RBF 神經網絡 ........... 117
7.3.4 基于神經網絡的
預測分析................... 121
習題 ............................................. 124
第 8 章
聚類分析 ......................... 125
8.1 概述
.................................... 125
8.2 k-均值聚類
......................... 126
8.3 k-中心聚類
......................... 129
8.4 聚類評估
............................. 130
8.4.1 外部法
...................... 130
8.4.2 內部法
...................... 131
8.4.3 可視化方法 ...............
131
習題 ............................................. 131
第 9 章
深度學習簡介 .................. 133
9.1 概述
.................................... 133
9.2 來自人類視覺機理的啟發(fā) ... 134
9.3 深層神經網絡......................
136
9.4 卷積神經網絡......................
137
9.4.1 卷積和池化 ...............
138
9.4.2 CNN 網絡框架 .......... 141
9.4.3 CNN 的應用 ..............
142
9.5 RNN 循環(huán)神經網絡 .............
144
9.5.1 RNN 的結構 ..............
145
9.5.2 RNN 的缺陷 ..............
146
9.5.3 RNN 的應用 ..............
147
9.6 生成對抗網絡
..................... 147
9.6.1 GAN 的原理與架構 .. 148
9.6.2 GAN 的應用 ..............
150
習題............................................. 151
第 10 章
使用 Weka 進行
數據挖掘 ....................... 153
10.1 概述
.................................. 153
10.2 Weka 關聯(lián)數據挖掘的
基本操作 ........................... 153
10.3 數據格式
........................... 158
10.4 關聯(lián)規(guī)則挖掘
................... 160
10.5 分類與回歸
....................... 163
10.6 聚類分析
........................... 166
習題............................................. 167
附錄 A 拉格朗日優(yōu)化法 ............... 169
參考文獻........................................ 177