數(shù)據(jù)分析與機(jī)器學(xué)習(xí):基于R語(yǔ)言 [美]理查德·J.羅杰
定 價(jià):99 元
- 作者:[美]理查德·J.羅杰
- 出版時(shí)間:2025/3/1
- ISBN:9787111770794
- 出 版 社:機(jī)械工業(yè)出版社
- 中圖法分類:TP181
- 頁(yè)碼:
- 紙張:膠版紙
- 版次:
- 開(kāi)本:16開(kāi)
本書(shū)基于R語(yǔ)言介紹了機(jī)器學(xué)習(xí)算法、統(tǒng)計(jì)方法和數(shù)據(jù)分析方法,讓讀者在邊學(xué)邊做的過(guò)程中學(xué)會(huì)解決實(shí)際問(wèn)題。本書(shū)首先使用簡(jiǎn)單易懂的例子來(lái)逐步解釋各種機(jī)器學(xué)習(xí)算法。接下來(lái),介紹如何用R編寫(xiě)腳本,這些腳本會(huì)應(yīng)用相關(guān)算法來(lái)解決實(shí)際數(shù)據(jù)中的問(wèn)題。本書(shū)提供腳本代碼,讀者可利用相關(guān)腳本進(jìn)行學(xué)習(xí)。
本書(shū)介紹了R語(yǔ)言、機(jī)器學(xué)習(xí)算法、統(tǒng)計(jì)方法和分析方法,用于讓讀者了解如何在數(shù)據(jù)中找到有趣的結(jié)構(gòu),以及學(xué)會(huì)如何使用數(shù)據(jù)來(lái)解決復(fù)雜問(wèn)題。通過(guò)簡(jiǎn)單、易懂的例子逐步解釋各種機(jī)器學(xué)習(xí)算法是如何獨(dú)立于任何編程語(yǔ)言工作的。本書(shū)詳細(xì)介紹了用R編寫(xiě)的腳本,并將這些腳本應(yīng)用于具有真實(shí)數(shù)據(jù)的復(fù)雜問(wèn)題。提供了腳本代碼,允許讀者在學(xué)習(xí)時(shí)執(zhí)行腳本,涵蓋了多種機(jī)器學(xué)習(xí)技術(shù)的不同實(shí)現(xiàn)方式。本書(shū)既適合作為高校計(jì)算機(jī)及相關(guān)專業(yè)的教材,也適合作為IT技術(shù)人員的參考書(shū)。
前 言
本書(shū)主要介紹R語(yǔ)言、機(jī)器學(xué)習(xí)算法、統(tǒng)計(jì)方法學(xué)和分析方法,以便讀者學(xué)會(huì)使用數(shù)據(jù)來(lái)解決復(fù)雜問(wèn)題。本書(shū)有兩個(gè)主要目標(biāo):
明確展示如何、為什么以及何時(shí)使用機(jī)器學(xué)習(xí)技術(shù)。
盡快為讀者提供成為R語(yǔ)言高效使用者所需的內(nèi)容。
本書(shū)的方法非常直接,可以稱之為“先看后做”,原因如下:
通過(guò)簡(jiǎn)單易懂的示例,逐步解釋各種機(jī)器學(xué)習(xí)算法是如何獨(dú)立于任何編程語(yǔ)言工作的。
解釋了腳本的細(xì)節(jié),這些腳本與包括第4版在內(nèi)的所有R語(yǔ)言的版本兼容,并且可以用來(lái)解決具有真實(shí)數(shù)據(jù)的復(fù)雜問(wèn)題。本書(shū)已提供這些腳本,以便讀者在閱讀本書(shū)的解釋時(shí),可以觀察這些腳本的執(zhí)行過(guò)程。
涵蓋了多種機(jī)器學(xué)習(xí)技術(shù)的不同實(shí)現(xiàn)方式。
提供了章末練習(xí)題,其中許多練習(xí)題可以通過(guò)修改現(xiàn)有腳本來(lái)解決。
本書(shū)中提供的一些腳本可以被視為解決問(wèn)題的模板,稍作修改后可以反復(fù)使用。當(dāng)你對(duì)這些模板有了深入理解后,使用R將變得得心應(yīng)手。
目標(biāo)讀者
本書(shū)適合以下四種讀者群體:
學(xué)生:希望學(xué)習(xí)機(jī)器學(xué)習(xí)并渴望通過(guò)R語(yǔ)言進(jìn)行實(shí)踐的學(xué)生。
教育工作者:決策科學(xué)、計(jì)算機(jī)科學(xué)、信息系統(tǒng)和信息技術(shù)領(lǐng)域的教育工作者,他們希望開(kāi)設(shè)關(guān)于使用R語(yǔ)言進(jìn)行機(jī)器學(xué)習(xí)和數(shù)據(jù)分析的單元、研討會(huì)或整套課程。
專業(yè)人員:需要了解如何將機(jī)器學(xué)習(xí)應(yīng)用于解決業(yè)務(wù)問(wèn)題的專業(yè)人員。
應(yīng)用研究人員:希望將機(jī)器學(xué)習(xí)方法納入他們的問(wèn)題解決和分析工具包中的研究人員。
如何使用本書(shū)
快速學(xué)習(xí)的最佳方式是觀察和實(shí)踐相結(jié)合。我們通過(guò)向你介紹超過(guò)50個(gè)用R編寫(xiě)的腳本來(lái)提供這個(gè)機(jī)會(huì)。為了充分利用本書(shū),你首先應(yīng)閱讀并逐步實(shí)踐第1章到第4章中提供的腳本,這些章節(jié)為使用R進(jìn)行機(jī)器學(xué)習(xí)奠定了基礎(chǔ)。
學(xué)習(xí)第5章需要一些時(shí)間,因?yàn)樗峁┝素S富的信息,其中一些是統(tǒng)計(jì)性質(zhì)的。你將學(xué)習(xí)線性回歸、邏輯回歸以及樸素貝葉斯分類器。首先,你將學(xué)習(xí)如何使用訓(xùn)練集和測(cè)試集的場(chǎng)景進(jìn)行模型評(píng)估,以及如何進(jìn)行交叉驗(yàn)證。在學(xué)習(xí)邏輯回歸時(shí),你將學(xué)習(xí)如何創(chuàng)建混淆矩陣,以及如何創(chuàng)建和解釋接收器操作特性(ROC)曲線下面積。
一旦掌握了第5章,那么就可以按照任意順序?qū)W習(xí)第6章至第11章。唯一的例外是第7章應(yīng)該在第6章之后學(xué)習(xí)。第12章應(yīng)該最后學(xué)習(xí),因?yàn)榈?2章提供了一個(gè)案例,可以深入了解整個(gè)知識(shí)的發(fā)現(xiàn)過(guò)程。
補(bǔ)充材料
正文中對(duì)所有用于示例和章末練習(xí)題的數(shù)據(jù)集及腳本都進(jìn)行了詳細(xì)的描述。這些數(shù)據(jù)集來(lái)自多個(gè)領(lǐng)域,包括商業(yè)、健康和醫(yī)學(xué)以及科學(xué)?梢栽谙率鰞蓚(gè)網(wǎng)址下載這些數(shù)據(jù)集和腳本:
CRC網(wǎng)站:https://www.crcpress.com/9780367439149。
https://krypton.mnsu.edu/~sa7379bt/。
致謝
非常感謝我的妻子蘇珊娜,感謝她一直以來(lái)的支持。
理查德·J. 羅杰(Richard J. Roiger)
明尼蘇達(dá)州立大學(xué)曼卡托分校的榮休教授,他在計(jì)算機(jī)與信息科學(xué)系從事教學(xué)和研究工作超過(guò)30年。羅杰博士于明尼蘇達(dá)大學(xué)獲得計(jì)算機(jī)與信息科學(xué)領(lǐng)域的博士學(xué)位。在機(jī)器學(xué)習(xí)和知識(shí)發(fā)現(xiàn)領(lǐng)域,他曾發(fā)表多篇會(huì)議論文和期刊論文。退休后,羅杰博士繼續(xù)擔(dān)任兼職教師,教授關(guān)于數(shù)據(jù)科學(xué)、人工智能和研究方法的課程。羅杰博士是明尼蘇達(dá)州退休教育協(xié)會(huì)的董事會(huì)成員,并擔(dān)任該協(xié)會(huì)的財(cái)務(wù)顧問(wèn)。
目 錄
譯者序
前言
第1章 機(jī)器學(xué)習(xí)導(dǎo)論1
1.1 機(jī)器學(xué)習(xí)、統(tǒng)計(jì)分析和數(shù)據(jù)科學(xué)1
1.2 機(jī)器學(xué)習(xí):第一個(gè)示例2
1.2.1 屬性-值格式2
1.2.2 用于診斷疾病的決策樹(shù)3
1.3 機(jī)器學(xué)習(xí)策略5
1.3.1 分類5
1.3.2 估計(jì)6
1.3.3 預(yù)測(cè)6
1.3.4 無(wú)監(jiān)督聚類9
1.3.5 市場(chǎng)購(gòu)物籃分析9
1.4 評(píng)估性能9
1.4.1 評(píng)估監(jiān)督模型10
1.4.2 二分類誤差分析10
1.4.3 評(píng)估數(shù)值輸出11
1.4.4 通過(guò)測(cè)量提升比較模型11
1.4.5 評(píng)估無(wú)監(jiān)督模型13
1.5 倫理問(wèn)題14
1.6 本章小結(jié)14
1.7 關(guān)鍵術(shù)語(yǔ)15
練習(xí)題16
第2章 R語(yǔ)言簡(jiǎn)介18
2.1 R語(yǔ)言和RStudio簡(jiǎn)介18
2.1.1 R的特性19
2.1.2 安裝R19
2.1.3 安裝RStudio20
2.2 瀏覽RStudio21
2.2.1 控制臺(tái)21
2.2.2 源面板22
2.2.3 全局環(huán)境24
2.2.4 包28
2.3 數(shù)據(jù)在哪里29
2.4 獲取幫助和額外信息29
2.5 本章小結(jié)30
練習(xí)題30
相關(guān)安裝包和函數(shù)總結(jié)31
第3章 數(shù)據(jù)結(jié)構(gòu)和操作32
3.1 數(shù)據(jù)類型32
3.1.1 字符數(shù)據(jù)和因子33
3.2 單模式數(shù)據(jù)結(jié)構(gòu)34
3.2.1 向量34
3.2.2 矩陣和數(shù)組36
3.3 多模式數(shù)據(jù)結(jié)構(gòu)37
3.3.1 列表37
3.3.2 數(shù)據(jù)框38
3.4 編寫(xiě)自己的函數(shù)39
3.4.1 寫(xiě)一個(gè)簡(jiǎn)單的函數(shù)39
3.4.2 條件語(yǔ)句41
3.4.3 迭代42
3.4.4 遞歸編程45
3.5 本章小結(jié)46
3.6 關(guān)鍵術(shù)語(yǔ)46
練習(xí)題46
相關(guān)安裝包和函數(shù)總結(jié)47
第4章 準(zhǔn)備數(shù)據(jù)48
4.1 知識(shí)發(fā)現(xiàn)的過(guò)程模型48
4.2 創(chuàng)建目標(biāo)數(shù)據(jù)集49
4.2.1 R與關(guān)系模型的接口49
4.2.2 目標(biāo)數(shù)據(jù)的其他來(lái)源52
4.3 數(shù)據(jù)預(yù)處理52
4.3.1 噪聲數(shù)據(jù) 52
4.3.2 使用R進(jìn)行預(yù)處理53
4.3.3 檢測(cè)異常值54
4.3.4 缺失數(shù)據(jù)55
4.4 數(shù)據(jù)轉(zhuǎn)換56
4.4.1 數(shù)據(jù)歸一化56
4.4.2 數(shù)據(jù)類型轉(zhuǎn)換57
4.4.3 屬性和實(shí)例選擇57
4.4.4 創(chuàng)建訓(xùn)練集和測(cè)試集
數(shù)據(jù)58
4.4.5 交叉驗(yàn)證和自助法59
4.4.6 大規(guī)模數(shù)據(jù)59
4.5 本章小結(jié)59
4.6 關(guān)鍵術(shù)語(yǔ)60
練習(xí)題60
相關(guān)安裝包和函數(shù)總結(jié)61
第5章 監(jiān)督統(tǒng)計(jì)技術(shù)62
5.1 簡(jiǎn)單線性回歸62
5.2 多元線性回歸66
5.2.1 多元線性回歸:一個(gè)示例67
5.2.2 評(píng)估數(shù)值輸出69
5.2.3 評(píng)估訓(xùn)練/測(cè)試集71
5.2.4 使用交叉驗(yàn)證71
5.2.5 分類數(shù)據(jù)的線性回歸73
5.3 邏輯回歸78
5.3.1 變換線性回歸模型78
5.3.2 邏輯回歸模型79
5.3.3 R中的邏輯回歸79
5.3.4 創(chuàng)建混淆矩陣81
5.3.5 接收器操作特性曲線82
5.3.6 ROC曲線下面積85
5.4 樸素貝葉斯分類器85
5.4.1 貝葉斯分類器:一個(gè)示例85
5.4.2 零-值屬性計(jì)數(shù)87
5.4.3 缺失數(shù)據(jù)88
5.4.4 數(shù)值數(shù)據(jù)88
5.4.5 用樸素貝葉斯進(jìn)行實(shí)驗(yàn)90
5.5 本章小結(jié)93
5.6 關(guān)鍵術(shù)語(yǔ)94
練習(xí)題95
相關(guān)安裝包和函數(shù)總結(jié)97
第6章 基于樹(shù)的方法98
6.1 決策樹(shù)算法98
6.1.1 一種構(gòu)建決策樹(shù)的算法98
6.1.2 C4.5屬性選擇99
6.1.3 構(gòu)建決策樹(shù)的其他方法102
6.2 構(gòu)建決策樹(shù):C5.0102
6.2.1 信用卡促銷的決策樹(shù)103
6.2.2 模擬客戶流失的數(shù)據(jù) 104
6.2.3 使用C5.0預(yù)測(cè)客戶流失104
6.3 構(gòu)建決策樹(shù):rpart106
6.3.1 信用卡促銷的rpart決策樹(shù) 107
6.3.2 訓(xùn)練和測(cè)試rpart:流失
數(shù)據(jù)109
6.3.3 交叉驗(yàn)證rpart:流失數(shù)據(jù)113
6.4 構(gòu)建決策樹(shù):J48113
6.5 用于提高性能的集成技術(shù)115
6.5.1 裝袋算法116
6.5.2 提升116
6.5.3 提升:C5.0的示例117
6.5.4 隨機(jī)森林117
6.6 回歸樹(shù)119
6.7 本章小結(jié)121
6.8 關(guān)鍵術(shù)語(yǔ)122
練習(xí)題122
相關(guān)安裝包和函數(shù)總結(jié)123
第7章 基于規(guī)則的技術(shù)124
7.1 從樹(shù)到規(guī)則 124
7.1.1 垃圾郵件數(shù)據(jù)集125
7.1.2 垃圾郵件分類:C5.0125
7.2 基本的覆蓋規(guī)則算法128
7.3 生成關(guān)聯(lián)規(guī)則130
7.3.1 置信度和支持度130
7.3.2 挖掘關(guān)聯(lián)規(guī)則:一個(gè)示例131
7.3.3 一般考慮事項(xiàng)134
7.3.4 Rweka的Apriori函數(shù)134
7.4 Rattle用戶界面137
7.5 本章小結(jié)143
7.6 關(guān)鍵術(shù)語(yǔ)144
練習(xí)題144
相關(guān)安裝包和函數(shù)總結(jié)145
第8章 神經(jīng)網(wǎng)絡(luò)146
8.1 前饋神經(jīng)網(wǎng)絡(luò)146
8.1.1 神經(jīng)網(wǎng)絡(luò)輸入格式147
8.1.2 神經(jīng)網(wǎng)絡(luò)輸出格式148
8.1.3 sigmoid評(píng)估函數(shù)149
8.2 神經(jīng)網(wǎng)絡(luò)訓(xùn)練:概念視角150
8.2.1 使用前饋網(wǎng)絡(luò)的監(jiān)督學(xué)習(xí)150
8.2.2 具有自組織映射的無(wú)監(jiān)督
聚類150
8.3 神經(jīng)網(wǎng)絡(luò)解釋151
8.4 一般考慮事項(xiàng)152
8.4.1 優(yōu)勢(shì)152
8.4.2 劣勢(shì)152