" 本書采用項目任務式的編寫方式,介紹了計算機視覺相關的基礎概念與基本知識點,并結合應用案例闡述其基本原理。全書內容豐富、涵蓋面廣,涉及低、中、高層視覺技術,以及視覺與文本結合的多模態(tài)技術,具體包括10 個項目:圖像濾波、圖像特征提取、圖像識別、圖像分割、目標檢測與追蹤、圖像生成與轉換、人體行為解析、圖像文本生成、視覺問答系統和視頻理解。 本書對每個項目涉及的知識點提供了豐富、生動的案例素材,并以Python 語言為主要工具詳細講解了核心程序。每個項目下設2 ~ 3 個應用任務,結合代碼講述具體任務實施過程,讓讀者全方位深刻理解任務對應知識點與基本原理。 本書結構布局緊湊,內容深入淺出,代碼簡潔高效,適合作為計算機、人工智能、通信和自動化等相關專業(yè)的教師與學生用書,也可作為廣大從事計算機視覺工程的研發(fā)人員的參考用書。"
本書采用項目任務式的編寫方式,介紹了計算機視覺相關的基礎概念與基本知識點,并結合應用案例闡述其基本原理。全書內容豐富、涵蓋面廣,涉及低、中、高層視覺技術,以及視覺與文本結合的多模態(tài)技術,具體包括10 個項目:圖像濾波、圖像特征提取、圖像識別、圖像分割、目標檢測與追蹤、圖像生成與轉換、人體行為解析、圖像文本生成、視覺問答系統和視頻理解。
本書對每個項目涉及的知識點提供了豐富、生動的案例素材,并以Python 語言為主要工具詳細講解了核心程序。每個項目下設2 ~ 3 個應用任務,結合代碼講述具體任務實施過程,讓讀者全方位深刻理解任務對應知識點與基本原理。
本書結構布局緊湊,內容深入淺出,代碼簡潔高效,適合作為計算機、人工智能、通信和自動化等相關專業(yè)的教師與學生用書,也可作為廣大從事計算機視覺工程的研發(fā)人員的參考用書。
黨的二十大報告指出:教育、科技、人才是全面建設社會主義現代化國家的基
礎性、戰(zhàn)略性支撐。必須堅持科技是第一生產力、人才是第一資源、創(chuàng)新是第一動
力,深入實施科教興國戰(zhàn)略、人才強國戰(zhàn)略、創(chuàng)新驅動發(fā)展戰(zhàn)略,開辟發(fā)展新領域新
賽道,不斷塑造發(fā)展新動能新優(yōu)勢。
1. 為什么計算機視覺技術如此重要
計算機視覺技術是信息科技中最具前沿性、挑戰(zhàn)性的領域之一,涵蓋了模式識
別、計算機圖形學、機器學習、圖像處理等多門學科。隨著數字技術的不斷進步,計
算機視覺技術正在從理論研究走向實踐應用,是醫(yī)療、安防、智能交通、人臉識別、
虛擬現實等各類應用場景的中樞神經。此外,計算機視覺技術還廣泛應用于工業(yè)智能
化、文化遺產保護、環(huán)境監(jiān)測等領域?梢哉f,計算機視覺技術已經成為新一代信息
科技的引擎,正在高速驅動人類社會的發(fā)展和進步,也在深刻影響我們的日常生活。
2. 為什么要編寫本書
自2007 年以來,編者團隊一直從事計算機視覺技術領域的本科生和研究生教學工
作,期間開展了大量的教學實驗和理論研究,以及與國內外同行密切交流,為本書的
編寫打下了重要的基礎。
當前,計算機視覺科技已成為信息科技領域的熱門方向之一。然而,對于初學者來
說,在海量文獻中找到一份系統、全面的學習資料并不容易,F有的計算機視覺技術類
教材有些注重理論而缺少實踐;有些過度追求專業(yè)化,將初學者拒之千里;有些教材強
調學理,缺少現實生活的應用情景;有些教材缺少對黨的二十大精神和《習近平新時代
中國特色社會主義思想進課程教材指南》等重大主題教育進課程教材的系統規(guī)劃。
因此,我們編寫了這本《計算機視覺技術與應用》,旨在讓學生輕松、系統、全
面地了解計算機視覺技術,使之適應信息時代和知識社會的需求,具備解決復雜問題
和適應不可預測情境的高級能力。
計算機視覺技術與應用
Ⅱ
3. 本書有什么特點
(1)本書堅持以習近平新時代中國特色社會主義思想為指導,深入貫徹黨的二十
大精神,落實育人的根本在于立德。
本書始終堅持以習近平新時代中國特色社會主義思想為指導,以潤物細無聲的方
式融入黨的二十大精神,在具體案例和項目導讀中弘揚社會主義核心價值觀,弘揚科
學家精神,激發(fā)學生實現高水平科技自立自強的責任感和使命感。
(2)本書著眼于學科發(fā)展前沿,具有前瞻性和時代性。
在編寫本書的過程中,我們借鑒了許多國內外優(yōu)秀的計算機視覺教材和案例,結
合我們多年的教學和研究經驗,將知識點分類整理并精選了對應案例。通過案例講解
和實踐操作,學生能夠學以致用,更好地掌握計算機視覺的核心技術。
(3)本書內容翔實,脈絡清晰,體現核心素養(yǎng)的要求,具有科學性和系統性。
本書針對復雜、真實的生活情境,精心設計和編排內容,共有圖像濾波、圖像特
征提取、圖像識別、圖像分割、目標檢測與追蹤、圖像生成與轉換、人體行為解析、
圖像文本生成、視覺問答系統和視頻理解10 個項目。每個項目下設2 ~ 3 個應用任
務,每個任務都設置有學習目標、任務要求、知識歸納、任務實施、任務小結、任務
自測等。任務、知識點、基本原理相輔相成,項目的編排順序環(huán)環(huán)相扣,互相鋪墊,
進一步培養(yǎng)學生解決現實生活復雜問題的能力。
本書使用當前主流的Python 語言編寫,并講解核心程序,代碼簡潔高效,便于學
生實踐操作。
(4)本書在自主學習和人才培養(yǎng)模式方面做出了積極嘗試,具有原創(chuàng)性和創(chuàng)新性。
按照傳統體例編寫的教材需要教師進行大量的指導與講解,留給學生自主學習的
空間有限。本書按照項目式學習原則編寫,提高了真實性和實踐性。學生通過項目、
任務以及豐富的配套資源,能夠實現自主學習。我們也希望通過這本書鼓勵和啟發(fā)教
育者創(chuàng)新人才培養(yǎng)模式。
4. 本書適合哪些讀者
本書內容豐富、涵蓋面廣,涉及低、中、高層視覺,以及視覺與文本結合的多模
態(tài)技術等,適合計算機、人工智能、通信和自動化等相關專業(yè)的教師與學生,以及廣
大從事計算機視覺工程的研發(fā)人員閱讀參考。
5. 致謝
在本書出版之際,我們特別要感謝清華大學出版社和劉茵女士,他們精準策劃,
執(zhí)著約稿,耐心溝通,對我們來說是莫大的鼓勵。我們還要感謝參與本書編寫的其他
成員:楊振國、孫宇平、黃國恒、姬玉柱、趙靖亮等老師,他們查閱梳理了大量國內
Ⅲ
外的最新學術文獻和論著,力求全方位展現計算機視覺領域的前沿技術和最新成果,
凡此種種,都讓我們感動不已。
在本書的編寫過程中,我們通過多種渠道與書中選用作品(包括照片、插圖等)
的作者進行了聯系,得到他們的大力支持,對此,我們表示衷心的感謝。在本書付梓
前,書中仍有部分所參考和引用資料的作者,我們未能與之取得聯系,懇請他們以及
讀者,在本書使用過程中,如遇問題請與清華大學出版社聯系,再次感謝!
在編寫本書的時候,我們常常能感受到吾生也有涯,而知也無涯的浩瀚,但
我們更享受不怕真理無窮,進一寸有一寸的歡喜。期待能夠跟大家一起,通過本
書感受計算機視覺技術領域的魅力。
由于編者水平有限,書中難免有疏漏和不足之處,在此懇請廣大讀者批評、指
正,以便日后修訂。
編 者
2023 年11 月
胡欽太,博士、二級教授、博士生導師,國家社科基金重大課題首席專家,國家自然科學基金重點項目主持人, 廣東省優(yōu)秀社會科學家。
朱鑒,博士,廣東工業(yè)大學副教授,青年百人計劃引進人才,計算機學院副院長。主要研究領域包括計算機視覺、智能圖形學與機器學習等。
劉東寧,博士,現任廣東工業(yè)大學教授、博士生導師,計算機學院教學副院長。主要研究領域為協同計算,包括分布式智能系統、社會計算、工業(yè)軟件等,曾于2013年解決了1973年提出的時態(tài)查詢線性時間復雜度問題;2015年底破解了自1955年提出的匈牙利算法(也稱Kuhn-Munkres算法)多對多最優(yōu)指派問題。
項目1 圖像濾波 1
任務1.1 灰度圖對比度矯正 2
任務1.2 自然圖像噪聲去除 9
任務1.3 圖像邊緣增強 15
項目2 圖像特征提取 21
任務2.1 基于霍夫變換的硬幣檢測 22
任務2.2 基于SIFT 特征點的圖像拼接 31
項目3 圖像識別 41
任務3.1 基于邏輯回歸的手寫數字識別 42
任務3.2 基于卷積神經網絡的人臉識別 53
項目4 圖像分割 71
任務4.1 車牌分割 72
任務4.2 醫(yī)學圖像分割 82
項目5 目標檢測與追蹤 96
任務5.1 基于MMDetection 的目標檢測 98
任務5.2 基于MMTracking 的目標追蹤 113
項目6 圖像生成與轉換 127
任務6.1 服飾圖像生成 129
計算機視覺技術與應用
Ⅵ
任務6.2 圖像風格遷移 146
項目7 人體行為解析 159
任務7.1 人體姿態(tài)估計 160
任務7.2 人體動作識別 173
項目8 圖像文本生成 183
任務8.1 圖像描述生成 184
任務8.2 醫(yī)療文本生成 196
項目9 視覺問答系統 210
任務9.1 封閉式視覺問答系統 211
任務9.2 開放式視覺問答系統 222
項目10 視頻理解 234
任務10.1 視頻情感分類 236
任務10.2 視頻主題分類 248
參考文獻 263