本書全面探討了機器學習中的**化理論、方法與實踐,特別是在人工智能顛覆性發(fā)展的背景下, 包括但不限于監(jiān)督學習、無監(jiān)督學習、深度學習及強化學習等的應用。本書詳細介紹了**性條件、 KKT 條件、拉格朗日對偶等核心**化理論,探討了梯度下降法、鄰近梯度法、牛頓法、擬牛頓方法 (BFGS 方法)、塊坐標下降法、隨機梯度類方法、增廣拉格朗日方法、交替方向乘子法、雙層規(guī)劃等 經(jīng)典**化方法,最后介紹了機器學習與**化深度融合的先進學習優(yōu)化方法。通過本書的學習,讀 者將能夠全面理解機器學習中**化問題的建模和求解計算,及其在實際問題中的應用,為后續(xù)的機 器學習研究和實踐奠定堅實的基礎。在機器學習領域,**化方法不僅是實現(xiàn)模型學習的關鍵技術,也是提高模型性能、防止過擬合和增強泛化能力的基石。本書通過豐富的理論分析和實例演示,使讀者能深入理解**化方法在機器學習中的核心作用,并為解決實際問題提供有力的工具。本書適合作為高等院校計算機、運籌學、計算數(shù)學、大數(shù)據(jù)、統(tǒng)計學等相關專業(yè)的教材,是一本適合廣大人工智能愛好者的優(yōu)秀讀物。
在當今這個信息化快速發(fā)展的時代,機器學習已經(jīng)成為人工智能領域中最受矚目的研究方向之一。它的應用范圍極為廣泛,涵蓋了計算機視覺、自然語言處理等多個重要領域,并展現(xiàn)出了巨大的潛力和價值。機器學習的核心在于通過算法對大量數(shù)據(jù)進行分析和學習,從而實現(xiàn)對未知數(shù)據(jù)的預測、分類和決策等功能。然而,要實現(xiàn)這些功能,必須首先解決機器學習驅(qū)動的最優(yōu)化問題。作為數(shù)學和計算機科學的一個重要交叉分支,最優(yōu)化方法為機器學習提供了堅實的理論基礎和高效的求解手段。
本書旨在全面、深入地探討面向機器學習的最優(yōu)化理論基礎、方法原理以及實際應用。通過系統(tǒng)的介紹和分析,使讀者能夠?qū)ψ顑?yōu)化方法在機器學習中的作用有一個全面而深刻的理解,并能夠熟練運用最優(yōu)化方法解決實際機器學習問題。
本書第1章介紹機器學習中最優(yōu)化問題的基本概念,包括監(jiān)督學習、無監(jiān)督學習、深度學習和強化學習等,闡述最優(yōu)化問題在機器學習中的重要性和應用背景。通過具體實例,幫助讀者理解機器學習中最優(yōu)化問題的本質(zhì)和挑戰(zhàn)。第2章重點介紹最優(yōu)化問題的基本理論,包括最優(yōu)化問題基本形式、拉格朗日對偶理論、最優(yōu)性條件等。通過詳細的公式推導和案例分析,使讀者掌握最優(yōu)化問題的基本理論框架。第3章詳細講解梯度下降類方法,這是一種最基本的求解無約束最優(yōu)化問題的方法。通過本章的學習,讀者將能夠掌握梯度下降類方法的基本原理和實現(xiàn)技巧。第4章介紹鄰近梯度法及其擴展,這是一種處理非光滑目標函數(shù)的梯度下降法擴展方法。第5章介紹牛頓法和最具代表性的擬牛頓方法(BFGS方法),重點介紹這兩種方法的原理、實現(xiàn)步驟以及優(yōu)缺點。第6章介紹塊坐標下降法,這是一種求解大規(guī)模最優(yōu)化問題的有效方法,包括塊坐標下降法的基本架構(gòu)、子問題更新機制以及塊坐標選擇機制。第7章介紹隨機梯度類方法,這是機器學習中應用最廣泛的一種最優(yōu)化方法。本章介紹經(jīng)典隨機梯度法、隨機平均梯度法、方差減小隨機梯度法等,重點分析它們在深度學習中的應用。第8章介紹增廣拉格朗日方法和交替方向乘子法,這兩種方法都是處理帶線性等式約束的最優(yōu)化問題的有效方法。
本章介紹這兩種方法的基本原理、實現(xiàn)步驟以及在實際問題中的應用案例。第9章介紹雙層規(guī)劃,這是一種處理復雜優(yōu)化問題的有效方法。通過本章的學習,讀者將能夠理解最優(yōu)化與機器學習雙層規(guī)劃如何將復雜問題分解為兩個層次進行求解,并提高求解效率。第10章介紹學習優(yōu)化,這是一種利用機器學習技術來設計最優(yōu)化方法的新興技術。通過介紹學習優(yōu)化的基本概念、基本框架以及具體方法,讀者將能夠理解學習優(yōu)化如何根據(jù)訓練數(shù)據(jù)自動設計最優(yōu)化方法。最后,通過第11章的總結(jié)和展望,回顧本書的主要內(nèi)容,并展望未來的發(fā)展趨勢。通過本書的學習,讀者不僅能夠掌握機器學習中最優(yōu)化方法的理論基礎和實踐技巧,還能夠培養(yǎng)解決實際問題的能力,為未來的學習和研究打下堅實的基礎。讀者如果在理解知識的過程中遇到困難,建議不要在一個地方過于糾結(jié),可以繼續(xù)學習后續(xù)內(nèi)容。通常來講,通過逐漸深入的學習,前面有不懂或有疑惑的知識點自然會迎刃而解。另外,讀者一定要動手實踐,如果在實踐過程中遇到困難,建議多查文檔和資料,分析問題發(fā)生的原理,然后親自動手解決問題。衷心希望本書能夠成為廣大讀者的良師益友,幫助讀者更好地理解和應用機器學習中最優(yōu)化方法。同時,也歡迎讀者提出寶貴意見和建議,共同推動面向機器學習的最優(yōu)化方法的發(fā)展和應用。
編者
2025年4月
王祥豐 華東師范大學計算機科學與技術學院/數(shù)學科學學院教授,入選上海市青年科技英才啟明星,擔任上海市運籌學會副理事長、中國運籌學會算法軟件與應用分會常務理事等。主要研究方向是智能體(最優(yōu)化、強化學習、大語言模型驅(qū)動智能體)及應用等。曾獲中國工業(yè)與應用數(shù)學學會落地應用成果、中國運籌學會青年科技獎提名獎、IEEE信號處理學會最佳論文獎、華為云技術合作優(yōu)秀合作伙伴獎、上海開源創(chuàng)新卓越成果獎等。
蔡邢菊 南京師范大學教授,博士研究生導師。擔任大規(guī)模復雜系統(tǒng)數(shù)值模擬部重點實驗室(南京師范大學)副主任,中國運籌學會理事兼副秘書長,江蘇省運籌學會理事長。主要從事最優(yōu)化理論與算法、變分不等式、數(shù)值優(yōu)化等領域的研究工作。先后主持多項國家級基金課題,獲江蘇省科技進步獎一等獎。
陳彩華 南京大學教授、博士生導師,國家優(yōu)秀青年科學基金獲得者,國家自然科學基金重大項目課題負責人,美國斯坦福大學訪問學者,南京大學理學博士,新加坡國立大學聯(lián)合培養(yǎng)博士,F(xiàn)任南京大學工程管理學院副院長、民建江蘇省委大數(shù)據(jù)與人工智能委員會主任。曾獲中國運籌學會青年科技獎、南京大學青年五四獎章、江蘇省科學技術獎等獎勵。
第1 章機器學習中的最優(yōu)化問題......................................................................... 1
1.1 為什么學習最優(yōu)化................................................................................. 2
1.2 機器學習中的最優(yōu)化問題....................................................................... 3
1.2.1 監(jiān)督學習.................................................................................... 3
1.2.2 無監(jiān)督學習................................................................................. 4
1.2.3 深度學習.................................................................................... 6
1.2.4 強化學習.................................................................................... 7
1.3 本章小結(jié)............................................................................................... 8
第2 章最優(yōu)化基礎理論...................................................................................... 9
2.1 最優(yōu)化問題基本形式.............................................................................. 9
2.2 拉格朗日對偶問題................................................................................ 12
2.3 最優(yōu)性條件與KKT 條件........................................................................ 15
2.4 應用案例.............................................................................................. 21
2.4.1 Water-filling 問題....................................................................... 21
2.4.2 最小二乘問題............................................................................ 22
2.5 本章小結(jié).............................................................................................. 23
2.6 習題.................................................................................................... 23
第3 章梯度下降類方法..................................................................................... 25
3.1 為什么需要利用梯度信息...................................................................... 25
3.2 梯度下降法.......................................................................................... 26
3.3 梯度下降法收斂性分析.......................................................................... 27
3.4 梯度類方法的一般形式.......................................................................... 29
最優(yōu)化與機器學習
3.5 應用案例.............................................................................................. 30
3.5.1 最小二乘問題............................................................................ 30
3.5.2 邏輯回歸問題............................................................................ 31
3.6 本章小結(jié).............................................................................................. 31
3.7 習題.................................................................................................... 31
第4 章鄰近梯度法及其擴展.............................................................................. 33
4.1 鄰近算子.............................................................................................. 33
4.2 鄰近梯度.............................................................................................. 40
4.3 鄰近梯度法.......................................................................................... 41
4.4 廣義鄰近梯度法.................................................................................... 42
4.5 Nesterov 加速方法................................................................................. 43
4.6 應用案例.............................................................................................. 45
4.6.1 Lasso 問題................................................................................. 45
4.6.2 ?1-正則邏輯回歸問題.................................................................. 46
4.7 本章小結(jié).............................................................................................. 46
4.8 習題.................................................................................................... 46
第5 章牛頓法和BFGS 方法............................................................................. 49
5.1 牛頓法................................................................................................. 49
5.2 BFGS 方法........................................................................................... 50
5.3 有限內(nèi)存的BFGS 方法......................................................................... 53
5.4 本章小結(jié).............................................................................................. 54
5.5 習題.................................................................................................... 55
第6 章塊坐標下降法........................................................................................ 56
6.1 塊坐標下降法基本架構(gòu).......................................................................... 56
6.2 子問題更新機制.................................................................................... 57
6.3 塊坐標選擇機制.................................................................................... 58
6.4 系列塊坐標下降法匯總.......................................................................... 60
6.5 應用案例.............................................................................................. 61
6.5.1 ?1-正則邏輯回歸問題.................................................................. 62
6.5.2 非負矩陣分解問題...................................................................... 62
6.6 本章小結(jié).............................................................................................. 64
6.7 習題.................................................................................................... 64
第7 章隨機梯度類方法..................................................................................... 67
7.1 經(jīng)典隨機梯度法.................................................................................... 68
7.2 隨機平均梯度法.................................................................................... 69
7.3 方差減小隨機梯度法............................................................................. 70
7.4 隨機梯度法的擴展討論.......................................................................... 71
7.5 面向深度學習的隨機優(yōu)化方法................................................................ 72
7.5.1 動量加速隨機梯度法.................................................................. 73
7.5.2 Adagrad 方法............................................................................. 73
7.5.3 Adadelta 方法............................................................................ 74
7.5.4 RMSprop 方法........................................................................... 74
7.5.5 Adam 方法................................................................................ 74
7.6 本章小結(jié).............................................................................................. 75
7.7 習題.................................................................................................... 76
第8 章增廣拉格朗日方法和交替方向乘子法....................................................... 78
8.1 對偶上升方法....................................................................................... 78
8.2 增廣拉格朗日方法................................................................................ 79
8.3 交替方向乘子法.................................................................................... 80
8.4 應用案例.............................................................................................. 83
8.4.1 一致性最優(yōu)化問題...................................................................... 83
8.4.2 帶約束的凸優(yōu)化問題.................................................................. 84
8.4.3 Lasso 問題................................................................................. 85
8.5 本章小結(jié).............................................................................................. 85
8.6 習題.................................................................................................... 86
第9 章雙層規(guī)劃............................................................................................... 87
9.1 雙層規(guī)劃基礎知識................................................................................ 87
9.2 基于梯度的逼近方法............................................................................. 89
9.2.1 BDA/BMO 方法........................................................................ 91
9.2.2 IAPTT-GM 方法....................................................................... 92
9.3 基于價值函數(shù)的算法............................................................................. 93
9.4 應用案例.............................................................................................. 94
9.4.1 超參優(yōu)化問題............................................................................ 94
9.4.2 核心集選擇問題......................................................................... 95
9.5 本章小結(jié).............................................................................................. 96
9.6 習題.................................................................................................... 96
第10 章學習優(yōu)化............................................................................................. 97
10.1 學習優(yōu)化基本思想............................................................................... 97
10.2 學習優(yōu)化基本框架............................................................................... 99
10.3 學習優(yōu)化方法................................................................................... 100
10.3.1 無模型學習優(yōu)化方法............................................................. 100
10.3.2 基于模型的學習優(yōu)化方法....................................................... 102
10.4 應用案例.......................................................................................... 104
10.5 本章小結(jié).......................................................................................... 106
10.6 習題................................................................................................. 106
第11 章總結(jié).................................................................................................. 107
附錄A 數(shù)學基礎............................................................................................ 109
A.1 基礎概念........................................................................................... 109
A.2 凸集與凸函數(shù).................................................................................... 115
A.3 次梯度與次微分................................................................................. 122
A.4 共軛函數(shù)........................................................................................... 124
A.5 李普希茨連續(xù)可微與強凸性質(zhì)............................................................. 130
A.6 隨機變量及性質(zhì)................................................................................. 137
A.7 習題.................................................................................................. 139
參考文獻.......................................................................................................... 141