本書全面介紹了自然語言處理(NLP)的核心概念與技術,內容覆蓋文本預處理、文本的多種表示方法,深入探討了文本分類、聚類技術,以及信息抽取和實體識別,還涉及了機器翻譯、自動摘要、智能問答與對話系統(tǒng),以及情感分析和輿情監(jiān)測等高級應用。此外,對知識圖譜的構建和應用,以及損失函數(shù)與模型優(yōu)化也進行了詳細闡述,為讀者提供了自然語言處理領域的系統(tǒng)性知識。本書適合AI、機器學習、深度學習及自然語言處理的愛好者閱讀,也可以作為高等院校的教材使用。
謝美萍,本科與碩士畢業(yè)于西北工業(yè)大學,博士畢業(yè)于哈爾濱工程大學,2001年至今為上海財經大學信息管理與工程學院 副教授,研究生導師,主要研究方向為數(shù)據(jù)挖掘與數(shù)據(jù)分析、非線性系統(tǒng)建模、機器學習。
目 錄
第1章 緒 論 1
1.1 自然語言處理的定義和發(fā)展歷程 1
1.1.1 自然語言處理的定義 2
1.1.2 自然語言處理的發(fā)展歷程 2
1.2 自然語言處理的研究內容和研究方法 5
1.2.1 自然語言處理的研究內容 5
1.2.2 自然語言處理的研究方法 8
1.3 自然語言處理的應用和前景 8
1.4 自然語言處理的開發(fā)環(huán)境 9
本章小結 12
第2章 文本預處理 14
2.1 文本清洗和去噪 14
2.2 詞法分析 16
2.2.1 中文分詞 16
2.2.2 詞性標注 28
2.3 句法分析 31
2.3.1 句法分析的概念 32
2.3.2 句法分析樹庫及其評測方法 33
2.3.3 依存句法分析 36
2.3.4 依存句法分析工具 38
2.4 語義分析 39
2.4.1 詞義消歧 39
2.4.2 語義角色標注 42
2.4.3 語義分析面臨的挑戰(zhàn) 45
本章小結 46
第3章 文本表示方法 47
3.1 One-Hot編碼 47
3.2 詞袋模型 49
3.3 TF-IDF方法 50
3.4 Word2Vec方法 53
3.4.1 連續(xù)詞袋模型 54
3.4.2 Skip-gram模型 56
3.4.3 Word2Vec的應用 57
3.5 分布式表示方法 60
3.5.1 分布式語義假設 60
3.5.2 奇異值分解 61
3.6 詞嵌入 63
本章小結 64
第4章 文本分類和聚類 65
4.1 文本分類的概念和任務 66
4.1.1 文本分類的概念 66
4.1.2 文本分類的任務 67
4.2 文本分類算法 68
4.2.1 樸素貝葉斯算法 68
4.2.2 支持向量機 72
4.3 文本聚類的概念和任務 76
4.3.1 文本聚類的概念 76
4.3.2 文本聚類的過程 77
4.4 文本聚類算法 78
4.4.1 文本聚類中的數(shù)據(jù)類型及規(guī)范化 78
4.4.2 文本聚類中的聚類算法 81
本章小結 86
第5章 信息抽取 87
5.1 信息抽取的概念和任務 87
5.1.1 信息抽取的相關概念 88
5.1.2 信息抽取的任務 90
5.2 信息抽取的方法和技術 93
5.2.1 基于規(guī)則的方法 93
5.2.2 有監(jiān)督學習方法 101
5.2.3 無監(jiān)督學習方法 106
5.2.4 半監(jiān)督學習方法 109
本章小結 114
第6章 命名實體識別 115
6.1 命名實體識別技術的發(fā)展現(xiàn)狀 116
6.2 命名實體識別的概念 116
6.3 實體識別模型 118
6.3.1 循環(huán)神經網絡 118
6.3.2 BI-LSTM-CRF模型 124
6.3.3 Seq2Seq模型 128
6.3.4 注意力機制 130
6.4 實體識別案例 132
本章小結 133
第7章 機器翻譯和文本摘要 134
7.1 機器翻譯 134
7.1.1 機器翻譯概述 135
7.1.2 基于規(guī)則的機器翻譯方法 137
7.1.3 基于統(tǒng)計的機器翻譯方法 138
7.1.4 基于神經網絡的機器翻譯方法 141
7.1.5 機器翻譯的質量評價 147
7.2 文本摘要 149
7.2.1 抽取式摘要 149
7.2.2 抽象式摘要 151
7.2.3 文本摘要的評估 153
本章小結 154
第8章 智能問答系統(tǒng)和對話系統(tǒng) 155
8.1 智能問答系統(tǒng) 155
8.1.1 智能問答系統(tǒng)概述 155
8.1.2 智能問答系統(tǒng)的主要組成部分 156
8.1.3 智能問答系統(tǒng)的類型 160
8.1.4 智能問答系統(tǒng)的評價 167
8.2 對話系統(tǒng) 169
8.2.1 對話系統(tǒng)概述 169
8.2.2 對話系統(tǒng)的基本過程 170
8.2.3 對話系統(tǒng)的類型 171
8.2.4 對話系統(tǒng)的評價 174
本章小結 174
第9章 情感分析和輿情監(jiān)測 176
9.1 文本情感分析簡介 176
9.1.1 文本情感分析的主要內容 177
9.1.2 文本情感分析的常見應用 179
9.2 情感分析的方法和技術 182
9.2.1 基于情感詞典的方法 183
9.2.2 基于文本分類的方法 185
9.2.3 基于LDA主題模型的方法 187
9.3 輿情監(jiān)測簡介 189
9.3.1 輿情監(jiān)測的主要內容 189
9.3.2 輿情監(jiān)測的常見應用 192
9.4 輿情監(jiān)測技術 194
9.4.1 網絡爬蟲 194
9.4.2 文本情感分析 195
9.5 電商產品情感評論數(shù)據(jù)分析案例 196
9.5.1 背景與挖掘目標 196
9.5.2 分析方法與過程 197
9.5.3 運行結果 199
本章小結 201
第10章 知識圖譜 202
10.1 知識圖譜概述 202
10.1.1 知識圖譜的發(fā)展歷程 203
10.1.2 知識圖譜的基本概念 203
10.1.3 知識圖譜的研究內容 205
10.2 知識圖譜的表示與存儲 205
10.2.1 知識圖譜的符號表示 206
10.2.2 知識圖譜的向量表示 210
10.2.3 基于表的知識圖譜存儲 214
10.2.4 基于圖的知識圖譜存儲 219
10.3 知識圖譜的構建 220
10.3.1 數(shù)據(jù)獲取 220
10.3.2 知識抽取 220
10.3.3 知識表示 221
10.3.4 知識融合 221
10.3.5 知識建模 222
10.3.6 知識推理 222
10.3.7 知識圖譜的其他步驟 223
10.4 知識圖譜的應用 226
10.4.1 搜索引擎 226
10.4.2 問答系統(tǒng) 226
10.4.3 推薦系統(tǒng) 227
10.4.4 推理決策 227
10.4.5 智能對話 227
10.5 構建詞云圖應用案例 228
本章小結 229
第11章 損失函數(shù)與模型瘦身 230
11.1 損失函數(shù) 230
11.2 常用的損失函數(shù) 231
11.2.1 0-1損失函數(shù) 231
11.2.2 交叉熵損失函數(shù) 231
11.2.3 平均絕對誤差損失函數(shù) 232
11.2.4 均方誤差損失函數(shù) 232
11.2.5 Huber損失函數(shù) 233
11.2.6 分位數(shù)損失函數(shù) 233
11.2.7 Hinge損失函數(shù) 234
11.3 模型瘦身 234
11.3.1 知識蒸餾 235
11.3.2 網絡剪枝 238
本章小結 241