適讀人群 :本書既適合對數(shù)據挖掘、機器學習和社交網絡分析感興趣的本科生和研究生閱讀,也適合企業(yè)開發(fā)者和項目經理閱讀。對于沒有計算機科學背景,但想要應用圖神經網絡來推進其所在學科發(fā)展的研究人員,本書同樣是一本值得參考的讀物。 -本書獲俞士綸、崔鵬、劉新旺、姬水旺、裴健、唐建、唐杰、王飛、殷建平、張成奇、周志華、祝恩等十余位人工智能國際頂級專家贊譽!
-全書從背景介紹、理論細節(jié),到實際應用,再到總結與拓展,深入淺出。
-涵蓋了學習圖深度學習必須了解的基礎知識,圖深度學習中經典的模型方法,圖深度學習在實際中的應用方法,以及圖深度學習的研究熱點和前沿進展。
-揭秘圖深度學習的基本原理和經典算法,包括現(xiàn)代圖嵌入、用于簡單圖和復雜圖的GNN、GNN 的健壯性和可擴展性及GNN 之外的圖深度模型。
-應用部分介紹了GNN 在典型領域的應用,包括自然語言處理、計算機視覺、數(shù)據挖掘、生物化學和醫(yī)療健康
-適合計算機科學、人工智能和機器學習等相關專業(yè)各個階段的學生學習,也可供信息領域相關從業(yè)者,包括工程師和研究人員閱讀。
推薦序
近年來,隨著大數(shù)據的出現(xiàn)和計算資源的飛速發(fā)展,深度學習成為人工智能領域一個重要的研究熱點,各種深度學習的模型、算法層出不窮,深度學習也在圖像、聲音和文本等應用領域取得了眾多革命性的突破與進展。圖數(shù)據是一種具有強大表達能力的數(shù)據類型,其應用范圍十分廣泛,小至納米級別的蛋白質分子,大到數(shù)億級別的社交網絡,都可以很自然地用圖數(shù)據表示。然而,由于圖數(shù)據的結構特殊性,給各大應用領域帶來深刻變革的深度學習技術并不能直接應用到圖數(shù)據領域,為了解決這一問題,圖深度學習應運而生。
圖深度學習旨在研究如何在圖上應用深度學習技術,學習優(yōu)質的圖表示,以較好地完成圖上的各類任務。到目前為止,圖深度學習的研究已經取得了不少重大突破,這些研究成果給圖上的任務解決模式帶來了巨大變革,并極大地推進了圖表示學習和圖機器學習的發(fā)展。在圖深度學習中,各類圖神經網絡模型在各大計算機相關領域的應用都取得了巨大成功,比如數(shù)據挖掘領域中的社交網絡分析任務、交通網絡預測任務,以及計算機科學領域的程序分析任務等。除此之外,圖神經網絡模型還為各類跨學科領域的研究帶來了革命性的突破,比如生物化學領域的蛋白質性質分析和藥物發(fā)現(xiàn)任務,以及物理科學領域的系統(tǒng)狀態(tài)預測任務等。
本書對圖深度學習進行了全面系統(tǒng)的介紹,結構清晰,內容豐富,深入淺出。本書共4 篇,包括基礎理論、模型方法、實際應用和前沿進展,構成了一個非常全面、系統(tǒng)的知識框架。其內容涵蓋了學習圖深度學習必須了解的基礎知識,圖深度學習中經典的模型方法,圖深度學習在實際中的應用方法,以及圖深度學習的研究熱點和前沿進展。同時,本書各章的結構也都非常優(yōu)美,從背景介紹、理論細節(jié),到實際應用,再到總結與拓展,深入淺出,引人入勝。本書的作者在圖深度學習領域耕耘多年,擁有豐富的一線教學和研究經驗。本書凝結了作者團隊多年的教學及研究心得,極具閱讀和學習價值。
本書適合計算機科學、人工智能和機器學習等相關專業(yè)各個階段的學生學習,也可供信息領域相關從業(yè)者,包括工程師和研究人員閱讀。本書還適合跨學科研究者閱讀,可為其領域研究提供有價值的參考。
俞士綸
伊利諾大學芝加哥分校(UIC)計算機科學系特聘教授,國際計算機領域著名學者,ACM/IEEE 會士
前言
圖(Graph)經常用來表示包括社會科學、語言學、化學、生物學和物理學在內的很多不同領域的數(shù)據。同時,許多現(xiàn)實世界的應用都可以視為圖上的計算任務,例如特定地點的空氣質量預測可以視為節(jié)點分類任務,社交網絡中的朋友推薦可以視為鏈接預測任務,蛋白質性質預測可以視為圖分類任務。為了更好地利用現(xiàn)代機器學習模型完成圖上的計算任務,有效地學習圖的表示至關重要。表示圖的特征提取方法一般可分為兩種——特征工程和表示學習。特征工程依賴于手工設計的特征,這個過程很費時,而且手工設計的特征對于給定的下游任務通常不是最佳的。相對而言,表示學習可以自動地從圖上學習特征,這個過程需要最少的人力并可以靈活適用于給定的下游任務。因此,圖上的表示學習被大家廣泛研究。
在過去的幾十年中,圖表示學習領域取得了巨大的進展。這些進展大致可以劃分為圖表示學習的三個時代,即傳統(tǒng)圖嵌入、現(xiàn)代圖嵌入和圖深度學習。傳統(tǒng)圖嵌入作為第一代圖表示學習,是在經典的基于圖的降維技術的背景下研究的。傳統(tǒng)圖嵌入包括IsoMap、LLE 和eigenmap 等方法。Word2vec 是從大量文本中學習詞的表示的一種方法,這些生成的詞表示已推進了許多自然語言處理任務的進展。Word2vec 在圖域的成功擴展開啟了第二代圖表示學習——現(xiàn)代圖嵌入。鑒于深度學習技術在圖像和文本領域表示學習中取得的巨大成功,研究者已努力地將其推廣到圖域,從而開啟了圖表示學習的新篇章——圖深度學習。
越來越多的證據表明,第三代圖表示學習,尤其是圖神經網絡(GNN),極大地促進了包括側重于節(jié)點和側重于圖的各種圖上計算任務的發(fā)展。GNN 帶來的革命性進展也極大地促進了圖表示學習在現(xiàn)實場景中的廣泛應用。在推薦系統(tǒng)和社交網絡分析等經典領域中,GNN 帶來了最好的性能并為它們帶來新的研究課題。同時,GNN也不斷地應用到新的領域,例如組合優(yōu)化、物理和醫(yī)療健康。GNN 的這些廣泛應用為研究者提供了不同學科的多種貢獻和觀點,并使該研究領域真正成為跨學科領域。
圖表示學習是一個快速發(fā)展的領域,它吸引了來自不同領域研究者的大量關注,并已經積累了大量的文獻。因此,現(xiàn)在是系統(tǒng)地調查和總結該領域的好時機,本書的寫作動機就是實現(xiàn)這一目標。本書基于筆者在該領域多年的教學和研究經驗,旨在幫助研究人員了解圖表示學習的基本知識、進展、廣泛的應用及研究前沿成果。
全書概要
本書全面介紹了圖表示學習,重點講解圖深度學習尤其是GNN。本書由4 篇組成:基礎理論、模型方法、實際應用和前沿進展。基礎理論篇介紹了圖和深度學習的歷史背景和基本概念。模型方法篇涵蓋的主題包括現(xiàn)代圖嵌入、用于簡單圖和復雜圖的GNN、GNN 的健壯性和可擴展性及GNN 之外的圖深度模型。其中,每個主題都用一章介紹,內容包括有關該主題的基本概念和代表性算法的技術細節(jié)。實際應用篇介紹了GNN 在典型領域的應用,包括自然語言處理、計算機視覺、數(shù)據挖掘、生物化學和醫(yī)療健康,每個應用領域將用一章介紹。前沿進展篇討論了涌現(xiàn)的新方法和新的應用領域,每一章最后都包括針對更高級主題和新趨勢的擴展閱讀,感興趣的讀者可以進一步閱讀相關參考文獻。
目標讀者
盡管圖論、微積分、線性代數(shù)、概率論和統(tǒng)計學的基本背景可以幫助讀者更好地理解書中的技術細節(jié),但本書的目的是盡可能地做到自成體系。因此,本書廣泛地適用于具有不同背景和不同閱讀目的的讀者。本書可以作為學習工具和參考書,供相關研究領域的高年級本科生或研究生學習。希望從事該領域研究的研究人員可以將本書作為起點。項目經理和從業(yè)人員可以從本書中學習如何在產品和平臺中應用GNN。計算機科學領域以外的研究人員可以從本書中找到大量將GNN 應用于不同學科的示例。
由于編者水平有限,書中不足之處在所難免,肯請廣大讀者批評指正。
馬耀
湯繼良
東蘭辛,密歇根州
2021 年4 月
致謝
本書在翻譯、校對和出版過程中,得到國內外眾多專家學者和出版人員的大力支持和幫助,我們衷心地感謝為本書做出了卓越貢獻的各位朋友:
感謝為本書撰寫推薦序的伊利諾伊大學芝加哥分校的俞士綸教授。
感謝為本書撰寫推薦語的多位專家學者,他們是(按照姓氏拼音排序):清華大學崔鵬副教授、國防科技大學劉新旺教授、得克薩斯農工大學姬水旺教授、西蒙弗雷澤大學裴健教授、蒙特利爾大學唐建助理教授、清華大學唐杰教授、康奈爾大學王飛副教授、萬人計劃國家教學名師殷建平教授、悉尼科技大學張成奇教授、南京大學周志華教授和國防科技大學祝恩教授。
感謝為本書的校對和修改提出寶貴意見的各位老師和同學們,他們是(按照姓氏拼音排序):桂林電子科技大學蔡國永教授及其團隊、重慶大學高旻副教授及其團隊、中國科技大學何向南教授及其團隊、南寧師范大學黃江濤副研究員及其團隊、北京理工大學禮欣副教授及其團隊、解放軍理工大學潘志松教授及其團隊、吉林大學王鑫副研究員及其團隊、山東大學余國先教授及其團隊、南京航空航天大學袁偉偉教授及其團隊、國防科技大學周思航老師及博士生涂文軒。
感謝為本書付出巨大努力的電子工業(yè)出版社的宋亞東編輯以及全體工作人員。
感謝一直以來關注本書出版進展的熱心人士。
感謝正在閱讀此書的你。
最后,衷心地感謝我們的親人摯友,感謝你們一路溫暖的相伴、真摯的理解和堅強的支持。
祝大家學有所得,心想事成!
王怡琦,金衛(wèi),馬耀,湯繼良
2021年4月
馬 耀
密歇根州立大學博士研究生。他將于2021年秋季學期作為助理教授加入新澤西理工學院。他是密歇根州立大學杰出博士生獎以及FAST Fellowship的獲獎者。他的研究興趣包括網絡嵌入和圖神經網絡。他的論文多次發(fā)表在KDD、WWW、IJCAI、SIGIR和TKDE等數(shù)據挖掘頂級會議和期刊上。他在眾多知名會議(如ICML、 KDD、 AAAI和IJCAI等)以及雜志(如TKDD、TKDE和TPAMI等)擔任程序委員會委員以及審稿人。他是AAAI圖神經網絡和KDD圖深度學習教學講座的第一組織者和演講者,這些教學講座都獲得了領域內外的巨大關注和廣泛好評。
湯繼良
密西根州立大學助理教授。在這之前,他曾擔任雅虎研究院研究員,于2015年從亞利桑那州立大學取得博士學位。他在圖特征選擇、圖表征學習、圖深度學習以及它們在互聯(lián)網和社交媒體上的應用方面做出了杰出貢獻。他曾經獲得 SIGKDD新星獎(Rising Star Award)、Withrow杰出研究獎(Distinguished Withrow Research Award)、美國自然科學基金杰出青年獎(NSF Career Award)、IJCAI早期焦點人物演講(IJCAI Early Career Talk)和包括KDD、WSDM等在內的7項領域知名會議的最佳(或提名)論文獎。他的博士論文獲得SIGKDD最佳博士論文(KDD Best Dissertation)亞軍和院長優(yōu)秀博士論文獎(Dean’s Dissertation Award)。他是SIAM數(shù)據分析小組和ACM TKDD期刊的秘書長。他經常當任數(shù)據挖掘頂級會議的組織者和頂級期刊的編委。他的研究成果發(fā)表在領域頂級的期刊和會議上,現(xiàn)已獲得了超過14,000多次的引用(H指數(shù)為60)和媒體的廣泛關注和報道。
王怡琦
密歇根州立大學博士研究生。她的研究興趣主要集中在圖神經網絡理論基礎及其應用。她在計算機頂級會議(如KDD、EMNLP、WWW和AAAI等)上發(fā)表了多篇研究成果。她曾擔任AAAI、IJCAI和CIKM等國際知名會議的程序委員會委員。她曾參加組織KDD和AAAI圖深度學習專題教學講座,并擔任主要演講者,獲得了領域內外的巨大關注和廣泛好評。
金 衛(wèi)
密歇根州立大學博士研究生。他的研究興趣集中在圖神經網絡,包括理論基礎、模型健壯性及應用。他在KDD、AAAI、WSDM和WWW等計算機頂級會議上發(fā)表了多篇研究成果。他還是備受業(yè)內關注的對抗攻擊和防御工具包DeepRobust的主要貢獻者。他曾擔任包括IJCAI和CIKM等國際知名會議的程序委員會委員。他曾參加組織AAAI圖深度學習專題教學講座和KDD神經網絡對抗攻擊與防御專題教學講座,并擔任主要演講者,獲得了領域內外的巨大關注和廣泛好評。
目錄
第1 章緒論1
1.1 簡介2
1.2 圖深度學習的動機2
1.3 本書內容4
1.4 本書讀者定位6
1.5 圖特征學習的簡要發(fā)展史7
1.5.1 圖特征選擇8
1.5.2 圖表示學習9
1.6 小結10
1.7 擴展閱讀11
第1 篇基礎理論
第2 章圖論基礎15
2.1 簡介16
2.2 圖的表示16
2.3 圖的性質17
2.3.1 度17
2.3.2 連通度19
2.3.3 中心性21
2.4 譜圖論24
2.4.1 拉普拉斯矩陣24
2.4.2 拉普拉斯矩陣的特征值和特征向量26
2.5 圖信號處理27
2.6 復雜圖30
2.6.1 異質圖30
2.6.2 二分圖30
2.6.3 多維圖31
2.6.4 符號圖32
2.6.5 超圖33
2.6.6 動態(tài)圖33
2.7 圖的計算任務34
2.7.1 側重于節(jié)點的任務35
2.7.2 側重于圖的任務36
2.8 小結37
2.9 擴展閱讀37
第3 章深度學習基礎39
3.1 簡介40
3.2 深度前饋神經網絡41
3.2.1 網絡結構42
3.2.2 激活函數(shù)43
3.2.3 輸出層和損失函數(shù)45
3.3 卷積神經網絡47
3.3.1 卷積操作和卷積層48
3.3.2 實際操作中的卷積層51
3.3.3 非線性激活層52
3.3.4 池化層53
3.3.5 卷積神經網絡總體框架53
3.4 循環(huán)神經網絡54
3.4.1 傳統(tǒng)循環(huán)神經網絡的網絡結構55
3.4.2 長短期記憶網絡56
3.4.3 門控循環(huán)單元58
3.5 自編碼器59
3.5.1 欠完備自編碼器59
3.5.2 正則化自編碼器60
3.6 深度神經網絡的訓練61
3.6.1 梯度下降61
3.6.2 反向傳播62
3.6.3 預防過擬合64
3.7 小結65
3.8 擴展閱讀65
第2 篇模型方法
第4 章圖嵌入69
4.1 簡介70
4.2 簡單圖的圖嵌入71
4.2.1 保留節(jié)點共現(xiàn)71
4.2.2 保留結構角色80
4.2.3 保留節(jié)點狀態(tài)83
4.2.4 保留社區(qū)結構84
4.3 復雜圖的圖嵌入86
4.3.1 異質圖嵌入87
4.3.2 二分圖嵌入89
4.3.3 多維圖嵌入90
4.3.4 符號圖嵌入91
4.3.5 超圖嵌入93
4.3.6 動態(tài)圖嵌入95
4.4 小結96
4.5 擴展閱讀97
第5 章圖神經網絡99
5.1 簡介100
5.2 圖神經網絡基本框架102
5.2.1 側重于節(jié)點的任務的圖神經網絡框架102
5.2.2 側重于圖的任務的圖神經網絡框架103
5.3 圖濾波器104
5.3.1 基于譜的圖濾波器104
5.3.2 基于空間的圖濾波器114
5.4 圖池化120
5.4.1 平面圖池化120
5.4.2 層次圖池化121
5.5 圖卷積神經網絡的參數(shù)學習125
5.5.1 節(jié)點分類中的參數(shù)學習126
5.5.2 圖分類中的參數(shù)學習126
5.6 小結127
5.7 擴展閱讀128
第6 章圖神經網絡的健壯性129
6.1 簡介130
6.2 圖對抗攻擊130
6.2.1 圖對抗攻擊的分類131
6.2.2 白盒攻擊132
6.2.3 灰盒攻擊135
6.2.4 黑盒攻擊139
6.3 圖對抗防御142
6.3.1 圖對抗訓練142
6.3.2 圖凈化144
6.3.3 圖注意力機制144
6.3.4 圖結構學習148
6.4 小結149
6.5 擴展閱讀149
第7 章可擴展圖神經網絡151
7.1 簡介152
7.2 逐點采樣法155
7.3 逐層采樣法158
7.4 子圖采樣法162
7.5 小結164
7.6 擴展閱讀164
第8 章復雜圖神經網絡165
8.1 簡介166
8.2 異質圖神經網絡166
8.3 二分圖神經網絡168
8.4 多維圖神經網絡168
8.5 符號圖神經網絡170
8.6 超圖神經網絡173
8.7 動態(tài)圖神經網絡174
8.8 小結175
8.9 擴展閱讀175
第9 章圖上的其他深度模型177
9.1 簡介178
9.2 圖上的自編碼器178
9.3 圖上的循環(huán)神經網絡180
9.4 圖上的變分自編碼器182
9.4.1 用于節(jié)點表示學習的變分自編碼器184
9.4.2 用于圖生成的變分自編碼器184
9.4.3 編碼器:推論模型185
9.4.4 解碼器: 生成模型186
9.4.5 重建的損失函數(shù)186
9.5 圖上的生成對抗網絡187
9.5.1 用于節(jié)點表示學習的生成對抗網絡188
9.5.2 用于圖生成的生成對抗網絡189
9.6 小結191
9.7 擴展閱讀191
第3 篇實際應用
第10 章自然語言處理中的圖神經網絡195
10.1 簡介196
10.2 語義角色標注196
10.3 神經機器翻譯199
10.4 關系抽取199
10.5 問答系統(tǒng)200
10.5.1 多跳問答任務201
10.5.2 Entity-GCN 202
10.6 圖到序列學習203
10.7 知識圖譜中的圖神經網絡205
10.7.1 知識圖譜中的圖濾波205
10.7.2 知識圖譜到簡單圖的轉換206
10.7.3 知識圖譜補全207
10.8 小結208
10.9 擴展閱讀208
第11 章計算機視覺中的圖神經網絡209
11.1 簡介210
11.2 視覺問答210
11.2.1 圖像表示為圖211
11.2.2 圖像和問題表示為圖212
11.3 基于骨架的動作識別214
11.4 圖像分類215
11.4.1 零樣本圖像分類216
11.4.2 少樣本圖像分類217
11.4.3 多標簽圖像分類218
11.5 點云學習219
11.6 小結220
11.7 擴展閱讀220
第12 章數(shù)據挖掘中的圖神經網絡221
12.1 簡介222
12.2 萬維網數(shù)據挖掘222
12.2.1 社交網絡分析222
12.2.2 推薦系統(tǒng)225
12.3 城市數(shù)據挖掘229
12.3.1 交通預測229
12.3.2 空氣質量預測231
12.4 網絡安全數(shù)據挖掘231
12.4.1 惡意賬戶檢測231
12.4.2 虛假新聞檢測233
12.5 小結234
12.6 擴展閱讀234
第13 章生物化學和醫(yī)療健康中的
圖神經網絡235
13.1 簡介236
13.2 藥物開發(fā)與發(fā)現(xiàn)236
13.2.1 分子表示學習236
13.2.2 蛋白質相互作用界面預測237
13.2.3 藥物–靶標結合親和力預測239
13.3 藥物相似性整合240
13.4 復方藥物副作用預測242
13.5 疾病預測244
13.6 小結245
13.7 擴展閱讀245
第4 篇前沿進展
第14 章圖神經網絡的高級方法249
14.1 簡介250
14.2 深層圖神經網絡250
14.2.1 Jumping Knowledge 252
14.2.2 DropEdge 253
14.2.3 PairNorm 253
14.3 通過自監(jiān)督學習探索未標記數(shù)據253
14.3.1 側重于節(jié)點的任務254
14.3.2 側重于圖的任務256
14.4 圖神經網絡的表達能力257
14.4.1 WL 測試258
14.4.2 表達能力259
14.5 小結260
14.6 擴展閱讀260
第15 章圖神經網絡的高級應用261
15.1 簡介262
15.2 圖的組合優(yōu)化262
15.3 學習程序表示264
15.4 物理學中相互作用的動力系統(tǒng)推斷265
15.5 小結266
15.6 擴展閱讀266
參考文獻267
索引295