本書(shū)內(nèi)容分為數(shù)據(jù)挖掘理論和數(shù)據(jù)挖掘?qū)嵺`兩部分。數(shù)據(jù)挖掘理論部分主要包括數(shù)據(jù)挖掘的基本概念、數(shù)據(jù)預(yù)處理、聚類(lèi)分析、分類(lèi)與回歸、關(guān)聯(lián)規(guī)則挖掘及離群點(diǎn)檢測(cè)。數(shù)據(jù)挖掘?qū)嵺`部分討論數(shù)據(jù)挖掘在文本挖掘和金融領(lǐng)域中的應(yīng)用,通過(guò)虛假新聞檢測(cè)和社交平臺(tái)情緒分析等案例,展示數(shù)據(jù)挖掘在文本挖掘方面的應(yīng)用;通過(guò)潛在貸款客戶(hù)挖掘、貸款違約等案例展示數(shù)據(jù)挖掘在金融領(lǐng)域的應(yīng)用。 本書(shū)可作為高等學(xué)校計(jì)算機(jī)、數(shù)據(jù)科學(xué)與大數(shù)據(jù)、電子商務(wù)、信息科學(xué)等相關(guān)專(zhuān)業(yè)的教材或參考書(shū),也可供從事數(shù)據(jù)挖掘研究的科研、技術(shù)人員參考。
蔣盛益,教授、博士,碩士生導(dǎo)師;廣東省"千百十"工程省級(jí)培養(yǎng)對(duì)象,廣東外語(yǔ)外貿(mào)大學(xué)教學(xué)名師。中國(guó)計(jì)算機(jī)學(xué)會(huì)高級(jí)會(huì)員,中國(guó)計(jì)算機(jī)學(xué)會(huì)中文信息技術(shù)專(zhuān)委會(huì)委員,中國(guó)中文信息學(xué)會(huì)計(jì)算語(yǔ)言學(xué)專(zhuān)業(yè)委員會(huì)委員、社會(huì)媒體處理專(zhuān)委會(huì)委員,人工智能學(xué)會(huì)機(jī)器學(xué)習(xí)專(zhuān)委會(huì)委員,廣東省計(jì)算機(jī)學(xué)會(huì)常務(wù)理事;廣州市計(jì)算機(jī)學(xué)會(huì)常務(wù)理事;第十、十一屆廣東省政協(xié)委員。先后在湖南師范大學(xué)、中南工業(yè)大學(xué)、華中科技大學(xué)畢業(yè),分別獲理學(xué)學(xué)士學(xué)位、理學(xué)碩士學(xué)位、工學(xué)博士學(xué)位。目前重點(diǎn)研究方向是利用自然語(yǔ)言處理、社會(huì)網(wǎng)絡(luò)分析技術(shù)來(lái)處理網(wǎng)絡(luò)新聞和社交媒體中的數(shù)據(jù),包括新聞?dòng)^點(diǎn)自動(dòng)提取、對(duì)特定事件的立場(chǎng)(支持還是反對(duì))分析、輿情傳播模式研究、用戶(hù)影響力分析等。應(yīng)用背景包括國(guó)內(nèi)外輿情分析、海上絲綢之路的情報(bào)分析。
目 錄
上篇 理論篇
第1章 緒論 2
1.1 數(shù)據(jù)挖掘技術(shù)使用背景 4
1.2 數(shù)據(jù)挖掘任務(wù)及過(guò)程 5
1.2.1 數(shù)據(jù)挖掘定義 5
1.2.2 數(shù)據(jù)挖掘任務(wù) 5
1.2.3 數(shù)據(jù)挖掘過(guò)程 7
1.2.4 數(shù)據(jù)挖掘?qū)ο?8
1.2.5 數(shù)據(jù)挖掘工具及其選擇 13
1.3 數(shù)據(jù)挖掘應(yīng)用 13
1.3.1 數(shù)據(jù)挖掘在計(jì)算機(jī)領(lǐng)域中的應(yīng)用 14
1.3.2 數(shù)據(jù)挖掘在商業(yè)領(lǐng)域中的應(yīng)用 15
1.3.3 數(shù)據(jù)挖掘在其他領(lǐng)域中的應(yīng)用 16
1.3.4 數(shù)據(jù)挖掘技術(shù)的前景 17
1.4 數(shù)據(jù)挖掘與隱私保護(hù) 18
本章小結(jié) 20
習(xí)題1 20
第2章 數(shù)據(jù)處理基礎(chǔ) 23
2.1 數(shù)據(jù) 24
2.1.1 數(shù)據(jù)及數(shù)據(jù)類(lèi)型 24
2.1.2 數(shù)據(jù)集的類(lèi)型 25
2.2 數(shù)據(jù)探索 27
2.2.1 描述性統(tǒng)計(jì)分析 27
2.2.2 數(shù)據(jù)可視化 30
2.2.3 辛普森悖論 34
2.3 數(shù)據(jù)預(yù)處理 37
2.3.1 數(shù)據(jù)清理 38
2.3.2 數(shù)據(jù)集成 41
2.3.3 特征變換 41
2.3.4 數(shù)據(jù)歸約 48
2.4 相似性度量 55
2.4.1 屬性之間的相似性度量 56
2.4.2 對(duì)象之間的相似性度量 57
本章小結(jié) 60
習(xí)題2 61
第3章 分類(lèi)和回歸 65
3.1 分類(lèi)概述 66
3.2 決策樹(shù)分類(lèi)方法 67
3.2.1 決策樹(shù)的基本概念 67
3.2.2 構(gòu)建決策樹(shù)的要素 68
3.2.3 Hunt算法 73
3.2.4 C4.5算法 74
3.2.5 CART算法 79
3.2.6 決策樹(shù)算法的特點(diǎn) 90
3.3 貝葉斯分類(lèi)方法 90
3.3.1 貝葉斯定理 91
3.3.2 樸素貝葉斯分類(lèi)算法 92
3.3.3 貝葉斯信念網(wǎng)絡(luò) 96
3.4 k-最近鄰分類(lèi)方法 97
3.4.1 k-最近鄰分類(lèi)的基本問(wèn)題 98
3.4.2 k-最近鄰分類(lèi)算法描述 98
3.4.3 k-最近鄰分類(lèi)算法的優(yōu)缺點(diǎn) 100
3.5 神經(jīng)網(wǎng)絡(luò)分類(lèi)方法 100
3.5.1 人工神經(jīng)網(wǎng)絡(luò)的基本概念 100
3.5.2 典型神經(jīng)網(wǎng)絡(luò)模型介紹 102
3.5.3 神經(jīng)網(wǎng)絡(luò)的特點(diǎn) 103
3.5.4 深度網(wǎng)絡(luò)和深度學(xué)習(xí)算法 104
3.6 支持向量機(jī) 105
3.7 集成分類(lèi)方法 107
3.8 分類(lèi)問(wèn)題拓展 113
3.8.1 不平衡分類(lèi)問(wèn)題 113
3.8.2 半監(jiān)督學(xué)習(xí) 115
3.8.3 單類(lèi)分類(lèi) 115
3.8.4 多標(biāo)簽分類(lèi) 115
3.8.5 層次分類(lèi) 115
3.9 分類(lèi)模型的評(píng)價(jià) 116
3.9.1 分類(lèi)模型性能評(píng)價(jià)指標(biāo) 116
3.9.2 分類(lèi)模型的過(guò)度擬合 117
3.9.3 評(píng)估分類(lèi)模型性能的方法 117
3.10 綜合案例:信用風(fēng)險(xiǎn)分析 118
3.11 回歸分析 121
3.11.1 多元線性回歸模型 122
3.11.2 非線性回歸 125
3.11.3 邏輯回歸 127
本章小結(jié) 131
習(xí)題3 131
第4章 聚類(lèi)分析 137
4.1 聚類(lèi)分析概述 138
4.2 k-means算法及其改進(jìn) 141
4.2.1 基本k-means算法 141
4.2.2 k-means聚類(lèi)算法的拓展 145
4.3 層次聚類(lèi)算法 150
4.3.1 二分k-means算法 151
4.3.2 BIRCH算法 152
4.3.3 CURE算法 154
4.3.4 ROCK算法 155
4.4 基于密度的聚類(lèi)算法 157
4.5 基于圖的聚類(lèi)算法 160
4.5.1 Chameleon聚類(lèi)算法 160
4.5.2 基于SNN的聚類(lèi)算法 165
4.6 一趟聚類(lèi)算法 167
4.6.1 閾值選擇 167
4.6.2 算法應(yīng)用 171
4.7 基于模型的聚類(lèi)算法 172
4.7.1 期望最大化方法 172
4.7.2 概念聚類(lèi) 172
4.7.3 SOM方法 174
4.8 聚類(lèi)算法評(píng)價(jià) 176
4.9 綜合案例:航空公司客戶(hù)價(jià)值分析 178
本章小結(jié) 184
習(xí)題4 184
第5章 關(guān)聯(lián)分析 187
5.1 關(guān)聯(lián)分析概述 188
5.2 關(guān)聯(lián)規(guī)則分析基礎(chǔ) 188
5.2.1 基本概念 188
5.2.2 基礎(chǔ)分析方法 190
5.3 Apriori算法 192
5.3.1 Apriori性質(zhì) 192
5.3.2 產(chǎn)生頻繁項(xiàng)集 193
5.3.3 頻繁項(xiàng)集構(gòu)造示例 194
5.3.4 產(chǎn)生關(guān)聯(lián)規(guī)則 195
5.3.5 規(guī)則的評(píng)估標(biāo)準(zhǔn) 198
5.3.6 Apriori算法評(píng)價(jià) 201
5.4 FP-Growth算法 201
5.4.1 FP-tree表示法 201
5.4.2 構(gòu)建FP-tree 202
5.4.3 發(fā)現(xiàn)頻繁項(xiàng)集 204
5.5 關(guān)聯(lián)規(guī)則擴(kuò)展 205
5.5.1 關(guān)聯(lián)規(guī)則分類(lèi) 205
5.5.2 多層次關(guān)聯(lián)規(guī)則 206
5.5.3 多維度關(guān)聯(lián)規(guī)則 207
5.5.4 定量關(guān)聯(lián)規(guī)則 208
5.5.5 基于約束的關(guān)聯(lián)規(guī)則 208
5.5.6 序列模式挖掘 208
5.6 綜合案例:移動(dòng)業(yè)務(wù)關(guān)聯(lián)分析 209
5.6.1 數(shù)據(jù)準(zhǔn)備 209
5.6.2 數(shù)據(jù)預(yù)處理 209
5.6.3 關(guān)聯(lián)規(guī)則挖掘過(guò)程 211
5.6.4 規(guī)則的優(yōu)化 214
5.6.5 模型的應(yīng)用 215
本章小結(jié) 216
習(xí)題5 216
第6章 離群點(diǎn)挖掘 220
6.1 離群點(diǎn)挖掘概述 221
6.2 基于統(tǒng)計(jì)的方法 222
6.3 基于距離的方法 224
6.4 基于相對(duì)密度的方法 226
6.5 基于聚類(lèi)的方法 231
6.5.1 基于對(duì)象的離群因子方法 231
6.5.2 基于簇的離群因子方法 234
6.5.3 基于聚類(lèi)的動(dòng)態(tài)數(shù)據(jù)離群點(diǎn)檢測(cè)方法 236
6.6 離群點(diǎn)挖掘方法的評(píng)估 237
6.7 綜合案例 237
6.7.1 離群點(diǎn)檢測(cè)在癌癥診斷中的應(yīng)用 237
6.7.2 離群點(diǎn)檢測(cè)在網(wǎng)絡(luò)入侵檢測(cè)中的應(yīng)用 239
本章小結(jié) 242
習(xí)題6 242
下篇 實(shí)踐篇
第7章 文本挖掘 246
7.1 文本挖掘概述 247
7.1.1 分詞 247
7.1.2 文本表示與詞權(quán)重計(jì)算 250
7.1.3 文本特征選擇 252
7.1.4 文本分類(lèi) 253
7.1.5 文本聚類(lèi) 256
7.1.6 文檔自動(dòng)摘要 258
7.1.7 文本情感分析 262
7.1.8 用戶(hù)畫(huà)像 265
7.2 案例分析 269
7.2.1 虛假新聞檢測(cè)案例 269
7.2.2 社交平臺(tái)情感分類(lèi) 277
本章小結(jié) 283
第8章 數(shù)據(jù)挖掘的金融應(yīng)用 285
8.1 數(shù)據(jù)挖掘在金融領(lǐng)域中的應(yīng)用概述 287
8.1.1 金融科技 287
8.1.2 金融領(lǐng)域中的數(shù)據(jù)挖掘應(yīng)用 289
8.2 銀行潛在貸款客戶(hù)挖掘 295
8.2.1 業(yè)務(wù)理解 295
8.2.2 數(shù)據(jù)理解與數(shù)據(jù)準(zhǔn)備 296
8.2.3 模型構(gòu)建與評(píng)估 299
8.3 貸款違約 301
本章小結(jié) 305
附錄A 數(shù)據(jù)挖掘常用資源列表 307
參考文獻(xiàn) 308