前 言
Lifelong Machine Learning,Second Edition
編寫第2版的目的是擴展終身學習的定義,更新部分章節(jié)的內(nèi)容,并添加一個新的章節(jié)來介紹深度神經(jīng)網(wǎng)絡中的持續(xù)學習(continual learning in deep neural networks),這部分內(nèi)容在過去的兩三年里一直被積極研究。另外,還重新組織了部分章節(jié),使得內(nèi)容更有條理。
編寫本書的工作始于我們在2015年第24屆國際人工智能聯(lián)合會議(IJCAI)上關(guān)于終身機器學習(lifelong machine learning)的教程。當時,我們已經(jīng)對終身機器學習這個主題做了一段時間的研究,并在ICML、KDD和ACL上發(fā)表了幾篇文章。當Morgan & Claypool出版社聯(lián)系我們要出版關(guān)于該主題的圖書時,我們很興奮。我們堅信終身機器學習(或簡稱終身學習)對未來的機器學習和人工智能(AI)至關(guān)重要。值得注意的是,終身學習有時在文獻中也被稱為持續(xù)學習(continual
learning)或連續(xù)學習(continuous learning)。我們對該主題的最初研究興趣源于幾年前在一個初創(chuàng)公司所做的關(guān)于情感分析(SA)的工作中所積累的廣泛應用經(jīng)驗。(典型的SA項目始于客戶在社交媒體中對他們自己或競爭對手的產(chǎn)品或服務發(fā)表的消費者意見。)SA系統(tǒng)包含兩個主要的分析任務:(1)發(fā)現(xiàn)人們在評論文檔(如在線評論)中談到的實體(例如,iPhone)和實體屬性/特征(例如,電池壽命);(2)確定關(guān)于每個實體或?qū)嶓w屬性的評論是正面的、負面的或中立的[Liu,2012,2015]。例如,從iPhone真的很酷,但它的電池壽命很糟糕這句話中,SA系統(tǒng)應該發(fā)現(xiàn):(1)作者對iPhone的評論是正面的;(2)作者對iPhone的電池續(xù)航時間的評論是負面的。
在參與許多領(lǐng)域(產(chǎn)品或服務的類型)的許多項目之后,我們意識到跨領(lǐng)域和跨項目之間存在著大量可共享的信息。隨著我們經(jīng)歷的項目越來越多,遇到的新事物卻越來越少。很容易看出,情感詞和短語(如好的、壞的、差的、糟糕的和昂貴的)是跨領(lǐng)域共享的,大量的實體和屬性也是共享的。例如,每個產(chǎn)品都有價格屬性,大量電子產(chǎn)品有電池,大多數(shù)還有屏幕。如果不使用這些可共享的信息來大幅度提高SA的準確度,而是單獨處理每個項目及其數(shù)據(jù),是比較愚蠢的做法。經(jīng)典的機器學習范式完全孤立地學習。在這種范式下,給定一個數(shù)據(jù)集,學習算法在這個數(shù)據(jù)集上運行并生成模型,算法沒有記憶,因此無法使用先前學習的知識。為了利用知識共享,SA系統(tǒng)必須保留和積累過去學到的知識,并將其用于未來的學習和問題的解決,這正是終身學習(lifelong
learning)的目標。
不難想象,這種跨領(lǐng)域和跨任務的信息或知識共享在每個領(lǐng)域都是正確的。在自然語言處理中尤為明顯,因為單詞和短語的含義在不同領(lǐng)域和任務之間基本相同,句子語法也是如此。無論我們談論什么主題,都使用相同的語言,盡管每個主題可能只使用一種語言中的一小部分單詞和短語。如果情況并非如此,那么人類也不會形成自然語言。因此,終身學習可以廣泛應用,而不僅僅局限于情感分析。
本書的目的是提出這種新興的機器學習范式,并對該領(lǐng)域的重要研究成果和新想法進行全面的回顧。我們還想為該研究領(lǐng)域提出一個統(tǒng)一的框架。目前,機器學習中有幾個與終身學習密切相關(guān)的研究課題,特別值得注意的是多任務學習和遷移學習,因為它們也采用了知識共享和知識遷移的思想。本書將集中介紹這些主題,并討論它們之間的相同和差異。我們將終身學習視為這些相關(guān)范式的擴展。通過本書,我們還想激勵研究人員開展終身學習的研究。我們相信終身學習代表了未來幾年機器學習和人工智能的主要研究方向。如果不能保留和積累過去學到的知識,對知識進行推理,并利用已學到的知識幫助未來的學習和解決問題,那么實現(xiàn)通用人工智能(Artificial General Intelligence, AGI)是不可能的。
編寫本書遵循了兩個主要指導原則。首先,它應該包含開展終身學習研究的強大動機,以便鼓勵研究生和研究人員致力于研究終身學習的問題。其次,它的內(nèi)容對于具有機器學習和數(shù)據(jù)挖掘基礎知識的從業(yè)者和高年級本科生應該是易于理解的。但是,對于計劃攻讀機器學習和數(shù)據(jù)挖掘領(lǐng)域博士學位的研究生來說,應該學習更加詳盡的資料。
因此,本書適用于對機器學習、數(shù)據(jù)挖掘、自然語言處理或模式識別感興趣的學生、研究人員和從業(yè)人員。
陳志源和劉兵
2018年8月
譯者序
前 言
致 謝
第1章 引言1
1.1 傳統(tǒng)機器學習范式1
1.2 案例3
1.3 終身學習簡史7
1.4 終身學習的定義9
1.5 知識類型和關(guān)鍵挑戰(zhàn)14
1.6 評估方法和大數(shù)據(jù)的角色17
1.7 本書大綱18
第2章 相關(guān)學習范式20
2.1 遷移學習20
2.1.1 結(jié)構(gòu)對應學習21
2.1.2 樸素貝葉斯遷移分類器22
2.1.3 遷移學習中的深度學習23
2.1.4 遷移學習與終身學習的區(qū)別24
2.2 多任務學習25
2.2.1 多任務學習中的任務相關(guān)性25
2.2.2 GO-MTL:使用潛在基礎任務的多任務學習26
2.2.3 多任務學習中的深度學習28
2.2.4 多任務學習與終身學習的區(qū)別30
2.3 在線學習30
2.4 強化學習31
2.5 元學習32
2.6 小結(jié)34
第3章 終身監(jiān)督學習35
3.1 定義和概述36
3.2 基于記憶的終身學習37
3.2.1 兩個基于記憶的學習方法37
3.2.2 終身學習的新表達37
3.3 終身神經(jīng)網(wǎng)絡39
3.3.1 MTL網(wǎng)絡39
3.3.2 終身EBNN40
3.4 ELLA:高效終身學習算法41
3.4.1 問題設定41
3.4.2 目標函數(shù)42
3.4.3 解決第一個低效問題43
3.4.4 解決第二個低效問題45
3.4.5 主動的任務選擇46
3.5 終身樸素貝葉斯分類47
3.5.1 樸素貝葉斯文本分類47
3.5.2 LSC的基本思想49
3.5.3 LSC技術(shù)50
3.5.4 討論52
3.6 基于元學習的領(lǐng)域詞嵌入52
3.7 小結(jié)和評估數(shù)據(jù)集54
第4章 持續(xù)學習與災難性遺忘56
4.1 災難性遺忘56
4.2 神經(jīng)網(wǎng)絡中的持續(xù)學習58
4.3 無遺忘學習61
4.4 漸進式神經(jīng)網(wǎng)絡62
4.5 彈性權(quán)重合并63
4.6 iCaRL:增量分類器與表示學習65
4.6.1 增量訓練66
4.6.2 更新特征表示67
4.6.3 為新類構(gòu)建范例集68
4.6.4 在iCaRL中完成分類68
4.7 專家網(wǎng)關(guān)69
4.7.1 自動編碼網(wǎng)關(guān)69
4.7.2 測量訓練的任務相關(guān)性70
4.7.3 為測試選擇最相關(guān)的專家71
4.7.4 基于編碼器的終身學習71
4.8 生成式重放的持續(xù)學習72
4.8.1 生成式對抗網(wǎng)絡72
4.8.2 生成式重放73
4.9 評估災難性遺忘74
4.10 小結(jié)和評估數(shù)據(jù)集75
第5章 開放式學習79
5.1 問題定義和應用80
5.2 基于中心的相似空間學習81
5.2.1 逐步更新CBS學習模型82
5.2.2 測試CBS學習模型84
5.2.3 用于未知類檢測的CBS學習84
5.3 DOC:深度開放式分類87
5.3.1 前饋層和一對其余層87
5.3.2 降低開放空間風險89
5.3.3 DOC用于圖像分類90
5.3.4 發(fā)現(xiàn)未知類90
5.4 小結(jié)和評估數(shù)據(jù)集91
第6章 終身主題建模93
6.1 終身主題建模的主要思想93
6.2 LTM:終身主題模型97
6.2.1 LTM模型97
6.2.2 主題知識挖掘99
6.2.3 融合過去的知識100
6.2.4 Gibbs采樣器的條件分布102
6.3 AMC:少量數(shù)據(jù)的終身主題模型102
6.3.1 AMC整體算法103
6.3.2 挖掘must-link知識104
6.3.3 挖掘cannot-link知識107
6.3.4 擴展的Pólya甕模型108
6.3.5 Gibbs采樣器的采樣分布110
6.4 小結(jié)和評估數(shù)據(jù)集112
第7章 終身信息提取114
7.1 NELL:永不停止語言學習器114
7.1.1 NELL結(jié)構(gòu)117
7.1.2 NELL中的提取器與學習118
7.1.3 NELL中的耦合約束120
7.2 終身評價目標提取121
7.2.1 基于推薦的終身學習122
7.2.2 AER算法123
7.2.3 知識學習124
7.2.4 使用過去知識推薦125
7.3 在工作中學習126
7.3.1 條件隨機場127
7.3.2 一般依賴特征128
7.3.3 L-CRF算法130
7.4 Lifelong-RL:終身松弛標記法131
7.4.1 松弛標記法132
7.4.2 終身松弛標記法133
7.5 小結(jié)和評估數(shù)據(jù)集133
第8章 聊天機器人的持續(xù)知識學習135
8.1 LiLi:終身交互學習與推理136
8.2 LiLi的基本思想139
8.3 LiLi的組件141
8.4 運行示例142
8.5 小結(jié)和評估數(shù)據(jù)集142
第9章 終身強化學習144
9.1 基于多環(huán)境的終身強化學習146
9.2 層次貝葉斯終身強化學習147
9.2.1 動機147
9.2.2 層次貝葉斯方法148
9.2.3 MTRL算法149
9.2.4 更新層次模型參數(shù)150
9.2.5 對MDP進行采樣151
9.3 PG-ELLA:終身策略梯度強化學習152
9.3.1 策略梯度強化學習152
9.3.2 策略梯度終身學習設置154
9.3.3 目標函數(shù)和優(yōu)化154
9.3.4 終身學習的安全策略搜索156
9.3.5 跨領(lǐng)域終身強化學習156
9.4 小結(jié)和評估數(shù)據(jù)集157
第10章 結(jié)論及未來方向159
參考文獻164