終端智能語(yǔ)音處理技術(shù)與應(yīng)用
定 價(jià):109 元
叢書(shū)名:智能機(jī)器人關(guān)鍵技術(shù)叢書(shū)
當(dāng)前圖書(shū)已被 3 所學(xué)校薦購(gòu)過(guò)!
查看明細(xì)
- 作者:納躍躍 等
- 出版時(shí)間:2025/4/1
- ISBN:9787121498060
- 出 版 社:電子工業(yè)出版社
- 中圖法分類(lèi):TP334.1;TP391.1
- 頁(yè)碼:376
- 紙張:
- 版次:01
- 開(kāi)本:16開(kāi)
語(yǔ)音是最有效的人機(jī)交互方式之一。人工智能與傳統(tǒng)語(yǔ)音技術(shù)相結(jié)合使其在家居、可穿戴、機(jī)器人、車(chē)載等智能終端設(shè)備上得到了普及。終端設(shè)備具有低資源、實(shí)時(shí)性、應(yīng)用場(chǎng)景復(fù)雜多變等特點(diǎn),對(duì)算法提出了更嚴(yán)格的要求。本書(shū)介紹了面向端側(cè)設(shè)備的若干智能語(yǔ)音處理技術(shù),書(shū)中主要采用了傳統(tǒng)信號(hào)處理與深度學(xué)習(xí)相結(jié)合的方法論,并且介紹了在實(shí)際工程應(yīng)用中的若干心得,適合于理工科高年級(jí)本科生、研究生,以及語(yǔ)音領(lǐng)域的工程師閱讀。
納躍躍,博士,畢業(yè)于北京交通大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)專(zhuān)業(yè),2014年在中國(guó)科學(xué)院聲學(xué)研究所語(yǔ)言聲學(xué)與內(nèi)容理解重點(diǎn)實(shí)驗(yàn)室完成博士后工作。目前就職于吉利汽車(chē)研究院,主要研究和工作方向包括數(shù)字信號(hào)處理、機(jī)器學(xué)習(xí)、面向智能終端的語(yǔ)音交互等。王子騰,高級(jí)工程師,中國(guó)科學(xué)院聲學(xué)研究所獲信號(hào)與信息處理專(zhuān)業(yè)博士學(xué)位,曾任職阿里巴巴達(dá)摩院語(yǔ)音實(shí)驗(yàn)室,現(xiàn)就職于北京歐珀通信有限公司。付強(qiáng)博士,研究員,之江實(shí)驗(yàn)室高級(jí)研究專(zhuān)家。博士畢業(yè)于西安電子科技大學(xué),美國(guó)OGI口語(yǔ)中心、愛(ài)爾蘭Limeirck大學(xué)博士后。曾任阿里巴巴達(dá)摩院研究員(P10),中科院聲學(xué)所研究員,并曾創(chuàng)辦北京先聲互聯(lián)科技有限公司,后被阿里巴巴全資收購(gòu)。長(zhǎng)期從事語(yǔ)音處理\機(jī)器聽(tīng)覺(jué)研究和應(yīng)用,是國(guó)內(nèi)聲學(xué)前端處理領(lǐng)域的開(kāi)拓者,具有豐富的從學(xué)術(shù)研究到產(chǎn)品量產(chǎn)的產(chǎn)學(xué)研一體化經(jīng)驗(yàn)。
1 終端智能語(yǔ)音處理概述 1
1.1 引言1
1.2 問(wèn)題和挑戰(zhàn) 3
1.3 發(fā)展歷史概要5
1.4 本書(shū)的組織結(jié)構(gòu)8
1.5 本書(shū)的適用人群10
1.6 常用表示和符號(hào)對(duì)照10
1.6.1 默認(rèn)符號(hào) 10
1.6.2 對(duì)離散時(shí)間序列的表示 11
1.6.3 關(guān)于索引序號(hào)從0 還是1 開(kāi)始的說(shuō)明 12
1.7 關(guān)于中英文混寫(xiě)的說(shuō)明13
1.8 免責(zé)聲明 14
1.9 本章小結(jié) 14
—理論篇—
2 子帶濾波 21
2.1 離散傅里葉變換與短時(shí)傅里葉變換 22
2.1.1 離散傅里葉變換 22
2.1.2 短時(shí)傅里葉變換 23
2.1.3 輸出延時(shí)26
2.1.4 頻譜泄漏 27
2.1.5 時(shí)域卷積與頻域點(diǎn)積的近似關(guān)系 30
2.2 多相濾波器組 32
2.2.1 對(duì)頻譜泄漏的數(shù)學(xué)解釋32
2.2.2 扇形損失 34
2.2.3 重采樣35
2.2.4 多相濾波器組 40
2.3 濾波器設(shè)計(jì)基礎(chǔ) 43
2.4 本章小結(jié)45
3 固定波束形成47
3.1 多通道語(yǔ)音增強(qiáng)的基本原理 48
3.1.1 物理解釋 48
3.1.2 幾何解釋50
3.2 遠(yuǎn)場(chǎng)模型 52
3.3 波束形成及陣列性能評(píng)價(jià) 56
3.3.1 beampattern 56
3.3.2 directivity index 60
3.3.3 white noise gain 63
3.3.4 effective rank 65
3.4 波束形成算法的求解形式67
3.4.1 superdirective beamforming 68
3.4.2 差分波束形成69
3.5 本章小結(jié)72
4 自適應(yīng)波束形成 74
4.1 遞推求平均 75
4.2 典型自適應(yīng)波束形成算法77
4.2.1 MVDR 算法 78
4.2.2 PMWF 算法82
4.3 共軛對(duì)稱(chēng)矩陣求逆 83
4.3.1 1 × 1 和2 × 2 矩陣求逆84
4.3.2 Cholesky 分解84
4.3.3 矩陣求逆引理 87
4.3.4 IQRD 方法 89
4.3.5 誤差與穩(wěn)定性90
4.4 本章小結(jié) 93
5 盲源分離 96
5.1 信號(hào)模型97
5.1.1 瞬時(shí)模型 97
5.1.2 卷積模型 98
5.2 獨(dú)立成分分析 100
5.2.1 獨(dú)立性假設(shè)與中心極限定理 101
5.2.2 ICA 的目標(biāo)函數(shù)103
5.2.3 AuxICA 算法 107
5.2.4 2 × 2 廣義特征分解問(wèn)題 112
5.2.5 排列歧義性與尺度歧義性 114
5.3 獨(dú)立向量分析 117
5.3.1 IVA 的目標(biāo)函數(shù) 118
5.3.2 AuxIVA 算法121
5.3.3 兩級(jí)架構(gòu) 125
5.4 盲源分離與波束形成的聯(lián)系和區(qū)別 130
5.5 本章小結(jié) 132
6 回聲消除與去混響136
6.1 信號(hào)模型 138
6.1.1 回聲消除信號(hào)模型 138
6.1.2 去混響信號(hào)模型140
6.2 LMS 與NLMS 算法143
6.3 RLS 算法 145
6.3.1 最小二乘法 146
6.3.2 RLS 算法 151
6.4 一種基于盲源分離的回聲消除方法155
6.4.1 問(wèn)題背景 155
6.4.2 算法推導(dǎo)157
6.4.3 對(duì)比實(shí)驗(yàn) 160
6.5 本章小結(jié) 162
7 數(shù)據(jù)模擬 164
7.1 信號(hào)模型和系統(tǒng)框架 165
7.2 傳函的模擬與測(cè)量167
7.2.1 鏡像法傳函模擬 167
7.2.2 傳函測(cè)量 174
7.2.3 分塊卷積176
7.3 非線(xiàn)性回聲模擬 178
7.4 散射噪聲模擬 180
7.5 信噪比和音量 186
7.6 本章小結(jié)187
8 深度語(yǔ)音增強(qiáng) 190
8.1 信號(hào)模型 192
8.2 時(shí)頻掩蔽 193
8.3 損失函數(shù) 196
8.4 深度回聲殘余抑制 197
8.4.1 數(shù)據(jù)準(zhǔn)備 198
8.4.2 輸入特征 198
8.4.3 模型結(jié)構(gòu) 199
8.5 多通道語(yǔ)音增強(qiáng)模型 200
8.5.1 基于掩蔽的波束形成算法 201
8.5.2 深度神經(jīng)網(wǎng)絡(luò)空域?yàn)V波算法 202
8.6 歌曲成分分離 203
8.7 本章小結(jié) 205
9 語(yǔ)音活動(dòng)性檢測(cè)208
9.1 HMMVAD209
9.1.1 HMM 基礎(chǔ)210
9.1.2 前向算法與后向算法 213
9.1.3 Viterbi 算法 216
9.1.4 Baum-Welch 算法 219
9.1.5 下溢問(wèn)題 220
9.1.6 在線(xiàn)HMMVAD222
9.2 NNVAD 225
9.2.1 一種NNVAD 模型 226
9.2.2 一種NN 和HMM 結(jié)合的VAD229
9.3 VAD 性能評(píng)價(jià) 230
9.4 本章小結(jié) 232
10 關(guān)鍵詞檢測(cè) 234
10.1 特征提取 235
10.2 聲學(xué)模型 237
10.2.1 建模單元 237
10.2.2 聲學(xué)模型 239
10.2.3 關(guān)于聲學(xué)模型工作原理的討論242
10.3 解碼器 247
10.3.1 閾值與動(dòng)態(tài)閾值 249
10.3.2 關(guān)于ROC 曲線(xiàn)與閾值選擇的討論 253
10.4 虛警問(wèn)題 255
10.4.1 對(duì)虛警現(xiàn)象的直觀解釋 255
10.4.2 減少虛警的方法 256
10.4.3 對(duì)比實(shí)驗(yàn) 258
10.5 多通道關(guān)鍵詞檢測(cè)與通道選擇 260
10.5.1 問(wèn)題背景 260
10.5.2 模型與訓(xùn)練方法 262
10.5.3 實(shí)驗(yàn)與分析 263
10.6 本章小結(jié) 269
11 聯(lián)合優(yōu)化方法 272
11.1 盲源分離統(tǒng)一框架273
11.1.1 信號(hào)模型 273
11.1.2 問(wèn)題拆解 275
11.1.3 對(duì)比實(shí)驗(yàn) 276
11.2 語(yǔ)音增強(qiáng)與關(guān)鍵詞檢測(cè)聯(lián)合優(yōu)化 279
11.2.1 系統(tǒng)框架 280
11.2.2 語(yǔ)音增強(qiáng)模塊 282
11.2.3 關(guān)鍵詞檢測(cè)模塊 282
11.2.4 實(shí)驗(yàn)現(xiàn)象 284
11.3 本章小結(jié) 285
12 模型量化 288
12.1 模型量化方法 288
12.1.1 訓(xùn)練后量化 288
12.1.2 訓(xùn)練時(shí)量化 290
12.1.3 無(wú)數(shù)據(jù)量化 291
12.2 關(guān)鍵詞檢測(cè)模型的無(wú)數(shù)據(jù)量化方法 292
12.2.1 時(shí)序數(shù)據(jù)生成器 293
12.2.2 中心距離約束與雙生成器 293
12.2.3 高質(zhì)量篩選 295
12.2.4 時(shí)間掩碼量化蒸餾 296
12.2.5 無(wú)數(shù)據(jù)量化流程 297
12.2.6 無(wú)數(shù)據(jù)量化實(shí)驗(yàn) 299
12.3 本章小結(jié) 303
—工程篇—
13 終端智能語(yǔ)音處理工具包307
13.1 系統(tǒng)框架 308
13.2 配置參數(shù)詳解 310
13.2.1 通用參數(shù) 310
13.2.2 回聲消除 313
13.2.3 去混響 314
13.2.4 多通道語(yǔ)音增強(qiáng) 314
13.2.5 深度語(yǔ)音增強(qiáng) 315
13.2.6 后濾波 316
13.2.7 自動(dòng)增益控制 316
13.2.8 音量計(jì)算 317
13.2.9 聲源定位 317
13.2.10 語(yǔ)音活動(dòng)性檢測(cè) 318
13.2.11 關(guān)鍵詞檢測(cè)319
13.2.12 命令詞檢測(cè)321
13.2.13 產(chǎn)線(xiàn)測(cè)試,模型訓(xùn)練321
13.3 主要離線(xiàn)工具示例322
13.3.1 SoundConnect 離線(xiàn)工具 322
13.3.2 批處理工具 322
13.4 示例程序 323
13.4.1 從配置文件初始化 323
13.4.2 從Params.c 文件初始化 324
13.5 本章小結(jié) 326
14 模型訓(xùn)練 327
14.1 數(shù)據(jù)準(zhǔn)備 328
14.1.1 正樣本數(shù)據(jù) 329
14.1.2 負(fù)樣本和噪聲數(shù)據(jù) 332
14.2 環(huán)境配置 333
14.2.1 傳函模擬 335
14.2.2 目標(biāo)語(yǔ)音模擬 336
14.2.3 干擾信號(hào)模擬 338
14.2.4 回聲模擬 339
14.2.5 噪聲模擬 339
14.2.6 音量和增益 340
14.2.7 生成模擬音頻 340
14.3 模型訓(xùn)練 342
14.3.1 訓(xùn)練環(huán)境 342
14.3.2 訓(xùn)練流程 343
14.3.3 模型訓(xùn)練技巧總結(jié) 345
14.4 模型測(cè)試 348
14.4.1 測(cè)試環(huán)境 348
14.4.2 評(píng)價(jià)指標(biāo) 349
14.4.3 測(cè)試集的錄制與準(zhǔn)備 350
14.4.4 測(cè)試流程 352
14.5 模型發(fā)布 355
14.6 本章小結(jié) 356
附錄A 358
A.1 復(fù)數(shù)求偏導(dǎo)和共軛偏導(dǎo) 358
A.2 共軛求導(dǎo)示例 359
A.2.1 向量求導(dǎo) 359
A.2.2 二次型求導(dǎo) 360