大模型驅(qū)動(dòng)的具身智能:架構(gòu)、設(shè)計(jì)與實(shí)現(xiàn) 程戈
定 價(jià):89 元
大模型賦能,重新定義智能機(jī)器人的未來(lái)。本書(shū)是一部講解如何用大模型驅(qū)動(dòng)具身智能的權(quán)威指南,系統(tǒng)揭示了從底層架構(gòu)到實(shí)戰(zhàn)部署的完整技術(shù)路徑。作者團(tuán)隊(duì)融合多年一線研發(fā)經(jīng)驗(yàn),深入講解如何在多模態(tài)環(huán)境中,實(shí)現(xiàn)智能機(jī)器人的任務(wù)理解、動(dòng)作控制、記憶建構(gòu)與仿真協(xié)同。本書(shū)不僅提供扎實(shí)的理論基礎(chǔ),更通過(guò)豐富的行業(yè)案例與系統(tǒng)性的方法論,幫助讀者構(gòu)建面向未來(lái)的具身智能系統(tǒng)。通過(guò)閱讀本書(shū),你將獲得:(1)全面理解大模型如何賦能具身智能。揭示大型語(yǔ)言模型在感知-決策-執(zhí)行鏈條中的核心作用,理清從感知到行為的智能演化路徑。(2)掌握任務(wù)規(guī)劃與動(dòng)作控制核心技術(shù)。深度解析任務(wù)分解、動(dòng)作生成、空間約束與控制策略,覆蓋從高層意圖到低層執(zhí)行的全鏈路建模方法。(3)構(gòu)建具身智能的記憶與反思機(jī)制。學(xué)習(xí)如何實(shí)現(xiàn)任務(wù)記憶、動(dòng)態(tài)規(guī)劃與自我優(yōu)化機(jī)制,提升機(jī)器人在復(fù)雜環(huán)境中的自適應(yīng)能力。(4)搭建可復(fù)用的開(kāi)發(fā)與仿真框架。熟練運(yùn)用 ROS、MoveIt、Gazebo 等核心中間件與仿真平臺(tái),助力系統(tǒng)開(kāi)發(fā)與快速迭代。無(wú)論你是正在開(kāi)發(fā)具身智能系統(tǒng)的工程師;投身人工智能前沿的科研人員;關(guān)注智能機(jī)器人產(chǎn)業(yè)落地的技術(shù)管理者或產(chǎn)品決策者;本書(shū)都將成為你不可或缺的參考讀物,引領(lǐng)你從理念到落地,真正掌握大模型時(shí)代的具身智能開(kāi)發(fā)的核心技術(shù),讓你在這場(chǎng)技術(shù)革新中把握先機(jī)。
(1)權(quán)威背書(shū),實(shí)力保障作者系湖南國(guó)家應(yīng)用數(shù)學(xué)中心副主任、湘潭大學(xué)博士生導(dǎo)師,科技部國(guó)家重點(diǎn)子課題(大模型相關(guān))的負(fù)責(zé)人 ,長(zhǎng)期深耕AI與機(jī)器人前沿,是業(yè)界公認(rèn)的具身智能專(zhuān)家。(2)實(shí)戰(zhàn)豐富,產(chǎn)業(yè)導(dǎo)向主導(dǎo)多個(gè)具身智能項(xiàng)目從原型到落地,深入企業(yè)應(yīng)用場(chǎng)景,積累了大量工程實(shí)操經(jīng)驗(yàn),本書(shū)凝練了其技術(shù)落地的核心方法論。(3)技術(shù)全面,系統(tǒng)透徹從大模型能力剖析,到多模態(tài)感知、任務(wù)規(guī)劃、動(dòng)作控制、架構(gòu)設(shè)計(jì)與部署實(shí)現(xiàn),全方位講解具身智能系統(tǒng)的核心技術(shù)鏈條。(4)案例詳實(shí),貼近實(shí)戰(zhàn)深度解析特斯拉FSD、松靈機(jī)器人等行業(yè)級(jí)案例,配套R(shí)OS控制、仿真系統(tǒng)、動(dòng)作規(guī)劃等實(shí)操細(xì)節(jié),既可學(xué)習(xí)框架,也可直接落地。
前言本書(shū)寫(xiě)作目的大模型驅(qū)動(dòng)的具身智能正以前所未有的速度推動(dòng)社會(huì)變革,并帶來(lái)了深遠(yuǎn)的影響。大模型的崛起不僅吸引了全球資本的關(guān)注,也為智能機(jī)器人技術(shù)的未來(lái)注入了無(wú)限可能。具身智能伴隨大模型技術(shù)的進(jìn)步加速發(fā)展,它所帶來(lái)的變革將不亞于工業(yè)革命。然而,這次變革帶來(lái)的影響不限于技術(shù)層面,還深刻觸及社會(huì)的各個(gè)方面。在具身智能的廣闊發(fā)展前景下,人類(lèi)的職業(yè)、生活方式乃至社會(huì)關(guān)系和制度都可能被重新定義。例如,埃隆·馬斯克在一次采訪中被問(wèn)到,在AI和機(jī)器人逐步取代許多工作的趨勢(shì)下,他會(huì)給自己的孩子們什么職業(yè)建議。他的回答是鼓勵(lì)孩子們遵循內(nèi)心,去追求他們真正感興趣和能獲得成就感的事業(yè),并盡可能對(duì)社會(huì)有用。這看似簡(jiǎn)單的回答,實(shí)則暗含深意,反映出馬斯克對(duì)如何應(yīng)對(duì)這場(chǎng)變革的深層次思考。對(duì)于個(gè)人而言,每一次技術(shù)革命不僅會(huì)帶來(lái)全新的生活方式,也會(huì)伴隨著巨大的商業(yè)機(jī)會(huì)。無(wú)論是AI技術(shù)的突破,還是大模型驅(qū)動(dòng)的具身智能,都會(huì)帶來(lái)新的市場(chǎng)需求與創(chuàng)業(yè)契機(jī)。擁抱這次技術(shù)變革,積極尋找其中的機(jī)會(huì),不僅是個(gè)人發(fā)展的方向,也是應(yīng)對(duì)未來(lái)挑戰(zhàn)的有效途徑。在技術(shù)層面,具身智能架構(gòu)的復(fù)雜性尤為突出。機(jī)器人架構(gòu)的設(shè)計(jì),尤其在任務(wù)規(guī)劃與動(dòng)作控制的實(shí)現(xiàn)方面,涉及多層次的復(fù)雜性,需要對(duì)其進(jìn)行有效的管理與協(xié)調(diào)。在這種背景下,傳統(tǒng)的機(jī)器人架構(gòu)設(shè)計(jì)就已具有較高的難度,而大模型的引入則又提出了新的挑戰(zhàn)。如何將大模型的推理與規(guī)劃能力有效地集成到機(jī)器人中,以實(shí)現(xiàn)智能化的任務(wù)和動(dòng)作決策,是目前亟待解決的問(wèn)題。而系統(tǒng)架構(gòu)的選擇直接決定了系統(tǒng)的運(yùn)行效率、功能實(shí)現(xiàn)及整體性能。本書(shū)正是基于這樣的背景而撰寫(xiě)的。在書(shū)中,我結(jié)合自己在多家企業(yè)中設(shè)計(jì)具身智能方案的豐富經(jīng)驗(yàn)以及深厚的理論基礎(chǔ),以深入淺出的方式為讀者系統(tǒng)剖析大模型驅(qū)動(dòng)的具身智能的架構(gòu)、設(shè)計(jì)與實(shí)現(xiàn)。本書(shū)旨在圍繞大模型與具身智能的融合,為讀者提供清晰的指導(dǎo)和全面的解析,使其得以從容應(yīng)對(duì)技術(shù)變革的浪潮,抓住機(jī)遇。本書(shū)主要內(nèi)容本書(shū)是一本關(guān)于大模型驅(qū)動(dòng)的具身智能的全面指南,包括11章,深入探討了大模型在具身智能領(lǐng)域的應(yīng)用,以及具身智能的架構(gòu)設(shè)計(jì)、任務(wù)級(jí)與動(dòng)作級(jí)規(guī)劃、記憶機(jī)制、中間件、仿真框架及未來(lái)發(fā)展等內(nèi)容。第1章概述具身智能的基本概念和傳統(tǒng)決策算法,介紹世界模型在具身智能中的作用,并討論多模態(tài)大模型構(gòu)建的世界模擬器及其應(yīng)用。第2章介紹機(jī)器人控制的基礎(chǔ)知識(shí),包括機(jī)器人的分類(lèi)與組成、自由度、執(zhí)行器,以及傳統(tǒng)的系統(tǒng)設(shè)計(jì)范式和運(yùn)動(dòng)控制層級(jí),為具身智能的架構(gòu)設(shè)計(jì)奠定基礎(chǔ)。第3章深入分析大模型在任務(wù)級(jí)和動(dòng)作級(jí)規(guī)劃中的角色,介紹具身大模型的基元級(jí)、伺服級(jí)控制方法以及分級(jí)混合架構(gòu)。第4章探討具身任務(wù)分解、任務(wù)級(jí)分層與端到端架構(gòu),結(jié)合微調(diào)與外部記憶,為讀者提供全面的任務(wù)級(jí)規(guī)劃實(shí)現(xiàn)方法。第5章討論基于動(dòng)作原語(yǔ)和價(jià)值圖的動(dòng)作級(jí)分層規(guī)劃,分析其在空間位置約束、任務(wù)感知?jiǎng)幼鞯葢?yīng)用中的優(yōu)勢(shì)與局限性。第6章介紹端到端動(dòng)作級(jí)規(guī)劃,通過(guò)視覺(jué)語(yǔ)言動(dòng)作模型和多任務(wù)端到端架構(gòu)展示具身大模型在復(fù)雜環(huán)境中的統(tǒng)一規(guī)劃與控制能力。第7章介紹人類(lèi)記憶和大模型的記憶機(jī)制,包括參數(shù)記憶、上下文與工作記憶、外部記憶,并探討其在具身智能中的實(shí)現(xiàn)方式和作用。第8章分析多計(jì)劃選擇、反思與提煉、外部規(guī)劃器等技術(shù),為具身智能的決策優(yōu)化提供解決方案。第9章重點(diǎn)介紹ROS機(jī)器人中間件框架、MoveIt 2逆向運(yùn)動(dòng)庫(kù)和人形具身逆向運(yùn)動(dòng)庫(kù),解析中間件在具身智能中的關(guān)鍵作用。第10章討論仿真框架的組成、仿真環(huán)境構(gòu)建、代理、分層任務(wù)規(guī)劃、運(yùn)動(dòng)生成器、強(qiáng)化學(xué)習(xí)支持、模仿學(xué)習(xí)和遠(yuǎn)程操作等,為具身智能的虛擬環(huán)境提供基礎(chǔ)。第11章探討具身智能機(jī)器人的行業(yè)前景,從成熟度曲線和行業(yè)成熟度等角度展望未來(lái)發(fā)展。本書(shū)讀者對(duì)象●AI領(lǐng)域的工程師。通過(guò)對(duì)具身智能算法、控制架構(gòu)、微調(diào)和優(yōu)化的深入探討,提高他們?cè)诰呱碇悄芊矫娴募夹g(shù)水平。●AI研究人員。書(shū)中關(guān)于大模型與具身智能結(jié)合的前沿技術(shù)及分布式優(yōu)化的內(nèi)容,可為他們提供寶貴的研究和應(yīng)用啟示。●技術(shù)架構(gòu)師和系統(tǒng)設(shè)計(jì)師。在設(shè)計(jì)大規(guī)模具身智能系統(tǒng)時(shí),本書(shū)提供的關(guān)于架構(gòu)設(shè)計(jì)、序列化及內(nèi)存管理的詳細(xì)信息可作為參考資源。●計(jì)算機(jī)科學(xué)領(lǐng)域的本科生。本書(shū)可幫助他們學(xué)習(xí)具身智能和大模型的基礎(chǔ)理論與實(shí)踐,為未來(lái)學(xué)習(xí)和職業(yè)發(fā)展提供技術(shù)背景。●計(jì)算機(jī)科學(xué)領(lǐng)域的研究生。他們可從本書(shū)中的高階主題,如多任務(wù)端到端架構(gòu)、優(yōu)化策略等內(nèi)容中獲取靈感,為自己的學(xué)術(shù)或行業(yè)創(chuàng)新提供支持。●商業(yè)戰(zhàn)略規(guī)劃者和技術(shù)決策制定者。在涉及具身智能技術(shù)采購(gòu)、策略制定時(shí),書(shū)中關(guān)于非性能需求、成本優(yōu)化等內(nèi)容可為制定長(zhǎng)遠(yuǎn)的AI發(fā)展戰(zhàn)略提供指導(dǎo)。聯(lián)系作者鑒于作者的寫(xiě)作水平有限,書(shū)中難免存在不妥之處,如你在閱讀過(guò)程中有任何疑問(wèn)或建議,可以通過(guò)郵箱chenggextu@hotmail.com聯(lián)系我。非常期待你的反饋,這將對(duì)我未來(lái)的寫(xiě)作有巨大幫助。希望你在閱讀本書(shū)的過(guò)程中能獲得深刻的啟示,加深對(duì)大模型和人工智能的理解。致謝感謝我的家人。在本書(shū)的撰寫(xiě)過(guò)程中,我陪伴他們的時(shí)間大大減少,但他們始終給予我支持與理解,讓我能夠全身心地投入寫(xiě)作中,而無(wú)后顧之憂。感謝我的研究生李偉華、李泳和謝芃,他們?yōu)楸緯?shū)繪制了大量的插圖,我對(duì)他們的付出表示由衷的感謝。
程戈,博士生導(dǎo)師,湘潭大學(xué)技術(shù)轉(zhuǎn)移中心副主任,湘潭市京東智能城市與大數(shù)據(jù)研究院副院長(zhǎng),湘潭大學(xué)計(jì)算機(jī)學(xué)院.網(wǎng)絡(luò)空間學(xué)院教授,CCF計(jì)算法學(xué)會(huì)執(zhí)委,湖南省知識(shí)產(chǎn)權(quán)保護(hù)專(zhuān)家,湖南省知識(shí)產(chǎn)權(quán)行政保護(hù)技術(shù)調(diào)查官。2011年獲得華中科技大學(xué)計(jì)算機(jī)系統(tǒng)結(jié)構(gòu)專(zhuān)業(yè)的工學(xué)博士學(xué)位。 研究方面,主要從事知識(shí)表示學(xué)習(xí)與內(nèi)容安全問(wèn)題研究,并逐漸聚焦于采用類(lèi)似Chatgpt大規(guī)模語(yǔ)言模型解決人工智能在司法行業(yè)中應(yīng)用的相關(guān)場(chǎng)景。近年來(lái),主持國(guó)家重點(diǎn)研發(fā)子課題2項(xiàng),湖南省重點(diǎn)研發(fā)1項(xiàng),國(guó)家自科基金1項(xiàng),博士點(diǎn)基金1項(xiàng),參與其他國(guó)家與省部級(jí)項(xiàng)目10余項(xiàng);在國(guó)內(nèi)外重要SSCI/SCI/EI學(xué)術(shù)期刊和會(huì)議發(fā)表論文 30 多篇;申請(qǐng)發(fā)明專(zhuān)利20多項(xiàng),獲得發(fā)明專(zhuān)利授權(quán) 20多項(xiàng),軟件著作權(quán)10多項(xiàng)。 社會(huì)服務(wù)方面,產(chǎn)學(xué)研合作求真務(wù)實(shí),在北京捷通華聲科技有限公司等6家企業(yè)擔(dān)任技術(shù)顧問(wèn),主持參與橫向課題10余項(xiàng),多項(xiàng)成果轉(zhuǎn)化應(yīng)用創(chuàng)效,其中語(yǔ)音識(shí)別的單項(xiàng)成果廣泛應(yīng)用于北京捷通華聲科技有限公司的車(chē)載導(dǎo)航系統(tǒng)中。擔(dān)任瀟湘大數(shù)據(jù)研究院研究員,大數(shù)據(jù)與智慧司法研究中心研究員,省創(chuàng)新創(chuàng)業(yè)大賽的評(píng)委。
目錄第1章 大模型與具身智能1 1.1 具身智能的概念1 1.2 傳統(tǒng)的決策算法31.2.1 預(yù)編程方法41.2.2 模仿學(xué)習(xí)51.2.3 強(qiáng)化學(xué)習(xí)6 1.3 世界模型81.3.1 什么是世界模型81.3.2 世界模型在具身智能中的作用10 1.4 通往世界模型的漸進(jìn)之路121.4.1 大模型編碼世界121.4.2 多模態(tài)大模型構(gòu)建世界模擬器14第2章 機(jī)器人系統(tǒng)架構(gòu)19 2.1 機(jī)器人控制基礎(chǔ)192.1.1 機(jī)器人的分類(lèi)與組成192.1.2 自由度與執(zhí)行器22 2.2 機(jī)器人系統(tǒng)設(shè)計(jì)范式242.2.1 層次范式242.2.2 行為范式252.2.3 混合范式27 2.3 運(yùn)動(dòng)控制層級(jí)272.3.1 遞進(jìn)規(guī)劃282.3.2 反應(yīng)機(jī)制302.3.3 雙向控制架構(gòu)312.3.4 分層與端到端33第3章 基于大模型的混合控制架構(gòu)36 3.1 大模型與任務(wù)級(jí)規(guī)劃363.1.1 基礎(chǔ)模型363.1.2 任務(wù)級(jí)分層與端到端39 3.2 大模型與動(dòng)作級(jí)規(guī)劃413.2.1 直接動(dòng)作規(guī)劃413.2.2 間接動(dòng)作規(guī)劃433.2.3 動(dòng)作級(jí)分層與端到端443.2.4 具身大模型45 3.3 基元級(jí)與伺服級(jí)463.3.1 正向運(yùn)動(dòng)學(xué)的計(jì)算463.3.2 逆向運(yùn)動(dòng)學(xué)的計(jì)算483.3.3 伺服級(jí)控制493.3.4 端到端控制網(wǎng)絡(luò)50 3.4 具身智能分級(jí)混合架構(gòu)51第4章 具身任務(wù)級(jí)規(guī)劃54 4.1 任務(wù)分解54 4.2 任務(wù)級(jí)分層與端到端架構(gòu)574.2.1 感知與規(guī)劃574.2.2 分層架構(gòu)574.2.3 端到端架構(gòu)58 4.3 任務(wù)級(jí)規(guī)劃微調(diào)與外部記憶614.3.1 具身經(jīng)驗(yàn)的獲取614.3.2 微調(diào)與外部記憶63第5章 分層動(dòng)作級(jí)規(guī)劃65 5.1 動(dòng)作原語(yǔ)及其局限性655.1.1 動(dòng)作原語(yǔ)665.1.2 技能685.1.3 局限性68 5.2 基于技能的單步動(dòng)作級(jí)規(guī)劃705.2.1 低成本具身智能方案705.2.2 GPTR工作流程715.2.3 局限性73 5.3 基于動(dòng)作原語(yǔ)的直接動(dòng)作級(jí)規(guī)劃755.3.1 代碼即策略755.3.2 提示模板775.3.3 優(yōu)勢(shì)與局限性78 5.4 基于價(jià)值圖的動(dòng)作級(jí)分層規(guī)劃805.4.1 空間信息與間接動(dòng)作規(guī)劃805.4.2 價(jià)值圖815.4.3 動(dòng)作規(guī)劃835.4.4 價(jià)值圖的構(gòu)建Prompt865.4.5 優(yōu)勢(shì)與局限性87 5.5 基于空間位置約束的動(dòng)作級(jí)分層規(guī)劃885.5.1 空間位置約束與軌跡優(yōu)化895.5.2 面向任務(wù)的抓取915.5.3 任務(wù)感知?jiǎng)幼饕?guī)劃925.5.4 視覺(jué)語(yǔ)言模型與Prompt945.5.5 優(yōu)勢(shì)與局限性95第6章 端到端動(dòng)作級(jí)規(guī)劃97 6.1 統(tǒng)一模型與多任務(wù)模型97 6.2 視覺(jué)語(yǔ)言動(dòng)作模型996.2.1 動(dòng)作規(guī)劃流程996.2.2 控制原語(yǔ)1016.2.3 控制參數(shù)的離散化1016.2.4 動(dòng)作序列文本化1036.2.5 詞表1036.2.6 具身動(dòng)作微調(diào)1056.2.7 動(dòng)作輸出限制1066.2.8 優(yōu)勢(shì)和局限性108 6.3 多任務(wù)端到端1096.3.1 端到端中的多任務(wù)1096.3.2 多任務(wù)端到端網(wǎng)絡(luò)架構(gòu)1116.3.3 特征提取任務(wù)1126.3.4 感知任務(wù)1136.3.5 預(yù)測(cè)任務(wù)1156.3.6 規(guī)劃任務(wù)1176.3.7 多任務(wù)的分步訓(xùn)練1186.3.8 特斯拉全自動(dòng)駕駛的多任務(wù)架構(gòu)1196.3.9 具身任務(wù)遷移1226.3.10 優(yōu)勢(shì)和局限性123第7章 具身智能記憶125 7.1 人類(lèi)記憶125 7.2 大模型的記憶機(jī)制1277.2.1 參數(shù)記憶1277.2.2 上下文與工作記憶1297.2.3 外部記憶130 7.3 具身智能系統(tǒng)中的記憶機(jī)制實(shí)現(xiàn)1317.3.1 記憶來(lái)源1317.3.2 記憶實(shí)現(xiàn)方式1337.3.3 基于RAG的外部記憶機(jī)制1347.3.4 大模型參數(shù)微調(diào)及參數(shù)編輯135 7.4 記憶在具身智能系統(tǒng)中的作用1377.4.1 記憶驅(qū)動(dòng)具身智能1377.4.2 技能學(xué)習(xí)與泛化139第8章 決策優(yōu)化142 8.1 多計(jì)劃選擇1428.1.1 多計(jì)劃生成1438.1.2 最優(yōu)計(jì)劃選擇144 8.2 反思與提煉1468.2.1 反思與提煉的過(guò)程1468.2.2 多角色1478.2.3 局限性148 8.3 外部規(guī)劃器1498.3.1 符號(hào)規(guī)劃器1498.3.2 神經(jīng)網(wǎng)絡(luò)規(guī)劃器151第9章 中間件與基礎(chǔ)庫(kù)154 9.1 ROS機(jī)器人中間件框架1549.1.1 ROS的生態(tài)系統(tǒng)1559.1.2 ROS 2架構(gòu)1569.1.3 分布式通信模式1579.1.4 節(jié)點(diǎn)1619.1.5 參數(shù)配置162 9.2 MoveIt 2逆向運(yùn)動(dòng)庫(kù)1649.2.1 基本概念和功能1649.2.2 MoveIt 2的解算器庫(kù)1659.2.3 逆向規(guī)劃的一般過(guò)程166 9.3 人形具身逆向運(yùn)動(dòng)庫(kù)1679.3.1 全身逆向運(yùn)動(dòng)1679.3.2 人體姿態(tài)表征1689.3.3 交互表征1719.3.4 具身數(shù)據(jù)收集1739.3.5 逆向運(yùn)動(dòng)遷移1759.3.6 軌跡優(yōu)化176第10章 仿真框架178 10.1 仿真框架的組成179 10.2 仿真環(huán)境構(gòu)建18110.2.1 交互方式18110.2.2 環(huán)境描述183 10.3 代理184 10.4 分層任務(wù)規(guī)劃186 10.5 運(yùn)動(dòng)生成器188 10.6 強(qiáng)化學(xué)習(xí)支持18910.6.1 框架封裝19010.6.2 并行仿真環(huán)境19010.6.3 從仿真到現(xiàn)實(shí)192 10.7 模仿學(xué)習(xí)和遠(yuǎn)程操作195第11章 具身智能的未來(lái)197 11.1 具身智能機(jī)器人:短暫泡沫還是未來(lái)趨勢(shì)19711.1.1 人形具身熱潮19711.1.2 智能化與人形具身198 11.2 行業(yè)滲透預(yù)測(cè)20011.2.1 成熟度曲線20011.2.2 行業(yè)成熟度20211.2.3 加速的發(fā)展浪潮203