![]() ![]() |
構建數(shù)據(jù)和機器學習平臺 ![]() 本書的主要內(nèi)容有:設計現(xiàn)代化和安全的云原生或混合式數(shù)據(jù)分析和機器學習平臺。整合數(shù)據(jù)到妥善治理、可擴展和有彈性的數(shù)據(jù)平臺,以數(shù)據(jù)加速創(chuàng)新。實現(xiàn)企業(yè)數(shù)據(jù)訪問的民主化,治理業(yè)務團隊抽取洞察力的方式,并構建AI/ML能力。賦予業(yè)務團隊用流處理流水線實時決策的能力。構建MLOps平臺,采用預測分析和規(guī)范性分析方法。 編輯推薦 前言數(shù)據(jù)平臺是什么?你為何需要它?構建數(shù)據(jù)和機器學習(ML)平臺都涉及哪些內(nèi)容?你為何應該在云端構建平臺?做數(shù)據(jù)和機器學習項目,總會遇到這些常見問題。本書從解答這些問題入手,接著規(guī)劃平臺開發(fā)的戰(zhàn)略旅程。我們建議你按該旅程在自己的業(yè)務中構建數(shù)據(jù)和機器學習能力。我們將介紹如何執(zhí)行該戰(zhàn)略的每一步,并將所有概念都整合到一個典型的數(shù)據(jù)現(xiàn)代化案例之中。你為何需要云數(shù)據(jù)平臺?試想貴司首席技術官(CTO)正欲新建一移動端友好的電商網(wǎng)站。我們失去業(yè)務,他振振有詞道,還不是因為我們網(wǎng)站沒適配手機,尤其是沒考慮到亞洲語言區(qū)的使用習慣。CTO 所講現(xiàn)有網(wǎng)站在移動端用戶體驗不佳這一點,首席執(zhí)行官(CEO)非常認同,但她想弄清楚平臺的移動端客戶在總客戶群中是否形成一個能盈利的細分市場。于是,她給亞洲區(qū)運營負責人打電話,詢問:我們電商網(wǎng)站手機客戶的收入和利潤率各是多少?如增加用手機購買的人數(shù),下一年的總收入會有怎樣的變化?亞洲區(qū)負責人該如何回答這個問題?要回答這個問題,需有能力關聯(lián)客戶訪問(確定HTTP 請求的來源)、客戶購買(了解他們所購商品)和采購信息(確定所購商品的成本)。除此之外,還要有能力預測細分市場的增長情況。地區(qū)負責人要找信息技術(IT)部,請他們從不同數(shù)據(jù)源拉取必要信息,并編寫程序計算這些統(tǒng)計數(shù)據(jù)嗎? IT 部門具備回答這個問題的帶寬和做預測分析的技能嗎?如該機構擁有數(shù)據(jù)平臺,情況會有多大改善?如有數(shù)據(jù)平臺,所有數(shù)據(jù)均已采集和清洗到位,全機構可直接拉數(shù)據(jù)做分析和合成所需數(shù)據(jù)。數(shù)據(jù)分析師團隊只需運行交互式即席查詢。他們還可利用平臺內(nèi)置的AI 能力,輕松預測收入和流量模式,或檢索其預測結果,并以數(shù)據(jù)驅動決策,確定是否響應CTO 的要求,投資建設移動端友好的新站點。為解答CEO 的問題, 可購買和部署一套實時用戶監(jiān)控(real-time user monitoring,RUM)工具。這類專用工具非常多,這種一次性決策都有一款合適的工具。但擁有一個數(shù)據(jù)平臺,機構就能解答很多這樣的一次性問題,再無需采購和安裝一堆專門解決方案。當今機構日益渴求以數(shù)據(jù)驅動決策。我們所舉例子聚焦的是一次性決策。但在很多情況下,機構期望針對每筆交易都能反復自動決策。例如,機構可能想判斷購物車是否有棄車風險,以立即向客戶推送低價商品,幫其跨過免運費門檻。這些商品必須能吸引具體的購物者,因而需要扎實的分析和機器學習能力;跀(shù)據(jù)作決策,機構需要一個能簡化如下工作的數(shù)據(jù)和機器學習平臺:? 獲取數(shù)據(jù)。? 運行交互式即席查詢。? 創(chuàng)建報告。? 根據(jù)數(shù)據(jù)自動決策。? 企業(yè)服務個性化。為獲得上述所有能力,需克服技術障礙。如本書所講,云平臺能減少這些障礙:有了它就能從任何地方訪問數(shù)據(jù),執(zhí)行快速、大規(guī)模查詢,甚至在邊緣設備上也可以,而且還能利用提供多種分析和AI 能力的服務。然而,要實現(xiàn)這樣一個平臺,需多個構建模塊,而將這些模塊開發(fā)和安裝到位,有時是一個復雜的旅程。本書旨在幫讀者更好地理解這些主要概念、架構模式和可用工具,以搭建現(xiàn)代云數(shù)據(jù)平臺,洞察和控制公司數(shù)據(jù),作出更有意義和自動化程度更高的業(yè)務決策。我們幾位作者都是擁有多年工作經(jīng)驗的工程師,一直在幫不同地區(qū)、不同行業(yè)的企業(yè)構建數(shù)據(jù)和機器學習平臺。這些企業(yè)期望從數(shù)據(jù)獲取洞察力,但往往面臨很多挑戰(zhàn),難以拿到適合他們快速分析的所有必要數(shù)據(jù)。因而,他們發(fā)現(xiàn)自己必須構建一個現(xiàn)代化數(shù)據(jù)和機器學習平臺。目標讀者本書是為那些期望在自己業(yè)務中通過利用公有云技術構建數(shù)據(jù)和機器學習平臺來支持數(shù)據(jù)驅動決策的架構師而寫。數(shù)據(jù)工程師、數(shù)據(jù)分析師、數(shù)據(jù)科學家和機器學習工程師,有可能在這些系統(tǒng)上從事開發(fā)工作,閱讀本書,有助于理解其概念設計。原本就從事數(shù)字業(yè)務的數(shù)字原生公司,數(shù)年以來持續(xù)構建和開發(fā)這類平臺,驅動業(yè)務決策。早在2016 年,Twitter 公司就曾解釋(https://oreil.ly/OwTy4)其數(shù)據(jù)平臺團隊維護多個系統(tǒng),為實現(xiàn)多種業(yè)務目標而支持并管理數(shù)據(jù)的生產(chǎn)和消費,其中包括公開指標、推薦、A/B 測試、廣告定向投放等。回到2016 年,其工作還包括維護當時世界上最大的Hadoop 集群。到2019 年,這項工作職責改成將支持云原生數(shù)據(jù)倉庫解決方案(https://oreil.ly/xeud3)也包括在內(nèi)。再舉一例,Etsy 公司表示(https://oreil.ly/4vckj)其機器學習平臺團隊開發(fā)和維護技術基礎設施,支持機器學習實驗,方便Etsy 機器學習實操者大規(guī)模構建原型、訓練和部署機器學習模型。Twitter 和Etsy 都已構建現(xiàn)代化數(shù)據(jù)和機器學習平臺。這兩家公司的平臺不同,支持的數(shù)據(jù)、員工和業(yè)務用例類型也不同,但基本方法非常相似。本書將介紹如何構建可賦予你們工程師如下能力的現(xiàn)代化數(shù)據(jù)和機器學習平臺:? 從多種數(shù)據(jù)源采集數(shù)據(jù),如運營數(shù)據(jù)庫、客戶點擊流、物聯(lián)網(wǎng)(IoT)設備、軟件即服務(SaaS)應用等。? 打破機構不同部門之間的壁壘。? 攝取數(shù)據(jù)時或加載數(shù)據(jù)后處理數(shù)據(jù),同時確保處理得法,數(shù)據(jù)質(zhì)量高可用,且管理到位。? 例行或即席分析數(shù)據(jù)。? 用現(xiàn)有AI 模型豐富數(shù)據(jù)。? 構建機器學習模型,執(zhí)行預測分析。? 數(shù)據(jù)操作不僅支持例行處理,還可響應觸發(fā)事件和閾值。? 傳播洞察力,嵌入分析。若到企業(yè)從事數(shù)據(jù)和機器學習模型相關工作,企業(yè)將要求你在數(shù)據(jù)或機器學習平臺團隊開發(fā)的平臺上工作,而本書對平臺架構方面的考量所作介紹有望帶你登堂入室。本書有助于數(shù)據(jù)工程師、數(shù)據(jù)分析師、數(shù)據(jù)科學家或機器學習工程師獲得一種高層次的系統(tǒng)設計觀。我們的主要經(jīng)驗雖來自谷歌云(Google Cloud)平臺,但寫作過程努力采用一種云無關的視角來介紹這些架構背后的服務。為此,我們了引入三大云供應商(即亞馬遜云服務AWS、微軟Azure 和谷歌云)的相關例子,但并不拘泥于這三家。內(nèi)容編排本書按第2 章將詳細介紹的用數(shù)據(jù)創(chuàng)新的戰(zhàn)略步驟編排,分12 章。本書以一個典型應用場景收尾,展示機構該如何走上自己的現(xiàn)代化之旅。第1 章討論機構為何應構建數(shù)據(jù)平臺。該章還涵蓋數(shù)據(jù)平臺的構建方法、技術趨勢和核心原則。第2、3 章深入規(guī)劃構建旅程,確定創(chuàng)新的戰(zhàn)略步驟和實施方法。屆時,我們將討論降低總擁有成本(TCO)、打破數(shù)據(jù)壁壘和利用AI 解鎖創(chuàng)新方法等概念。我們還將分析數(shù)據(jù)生命周期的構建模塊,討論數(shù)據(jù)團隊的設計方法,并推薦一種采用計劃。第4 章用遷移框架整合上述內(nèi)容。第5 ~ 7 章依次討論數(shù)據(jù)平臺的三種最常用的架構:數(shù)據(jù)湖、數(shù)據(jù)倉庫和湖倉一體。我們展示從數(shù)據(jù)湖或數(shù)據(jù)倉庫出發(fā)構建湖倉一體的兩種方式,并討論這兩種路徑該如何選。第8、9 章討論湖倉一體基本模式的兩種常用擴展方法。屆時,我們將介紹如何通過引入流式模式提高在上下文的決策速度,實現(xiàn)實時決策,以及如何通過向邊緣擴展來支持混合架構。第10、11 章介紹如何在企業(yè)環(huán)境構建和使用AI 和機器學習,如何設計架構來設計、構建、部署和編排創(chuàng)新模型。這些章節(jié)涵蓋機器學習預測模型和生成模型。本書第12 章我們將給出一個典型的數(shù)據(jù)現(xiàn)代化樣板旅程,重點闡釋如何從遺留架構遷移到新架構,并解釋機構選擇某種特定解決方案的過程。你若是云架構師,擔當為你們業(yè)務構建數(shù)據(jù)和機器學習平臺的重任,那么請按順序閱讀本書所有章節(jié)。你若是數(shù)據(jù)分析師,負責創(chuàng)建報告、數(shù)據(jù)看板和作嵌入式分析,請閱讀第1 章、第4 ~ 7 章、第10 章。你若是數(shù)據(jù)工程師,負責構建數(shù)據(jù)流水線,請閱讀第5 ~ 9 章。其余章節(jié)可跳過,后續(xù)若對一類特定應用有需求,再將其作為參考。你若是負責構建機器學習模型的數(shù)據(jù)科學家,請閱讀第7、8、10 章和11 章。你若是對機器學習模型運維感興趣的機器學習工程師,請?zhí)^第1 ~ 9 章,直接研讀第10、11 章。排版約定本書排版遵循以下約定:斜體(Italic)表示新術語、URL、郵件地址、文件名和文件擴展名。等寬字體(Constant width)表示程序片段和段落中出現(xiàn)的編程元素,如變量、函數(shù)名、數(shù)據(jù)庫、數(shù)據(jù)類型、環(huán)境變量、語句和關鍵字。使用代碼示例本書配套材料請從https://oreil.ly/architecting-data-ml-platforms-code 下載。本書技術問題或代碼使用問題,請發(fā)電子郵件至:support@oreilly.com。本書旨在幫你完成工作。一般來講,本書示例代碼,你將其用于自己項目和文檔,無需聯(lián)系我們征得許可,但大量復制代碼另議。例如,你寫程序使用書中多處代碼,無需我們授權,但出售或分發(fā)OReilly 圖書示例代碼,則需我們授權。引用本書內(nèi)容或示例代碼回答問題,無需授權。但在你的產(chǎn)品文檔中大量使用本書示例代碼,則需經(jīng)我們授權。所用之處,如能添加內(nèi)容出處,我們將非常感激,當然這并非必須。出處通常要標明書名、作者、出版社和 ISBN 號。例如:Architecting Data and Machine Learning Platforms by Marco Tranquillin, Valliappa Lakshmanan,and Firat Tekiner (OReilly). Copyright 2024 Marco Tranquillin, Valliappa Lakshmanan, and Firat Tekiner, 978-1-098-15161-4.。如果你覺得示例代碼的使用方式可能不當或超出上述許可范圍,請聯(lián)系我們,郵箱是 permissions@oreilly.com。OReilly 在線學習平臺(OReilly Online Learning)近40 年來,OReilly Media 致力于提供技術和商業(yè)培訓、知識和卓越見解,來幫助眾多公司取得成功。公司獨有的專家和改革創(chuàng)新者網(wǎng)絡通過OReilly 書籍、文章以及在線學習平臺,分享他們的專業(yè)知識和實踐經(jīng)驗。OReilly 在線學習平臺按照您的需要提供實時培訓課程、深入學習渠道、交互式編程環(huán)境以及來自OReilly 和其他200 多家出版商的大量書籍與視頻資料。更多信息,請訪問網(wǎng)站:https://www.oreilly.com/。聯(lián)系我們?nèi)魏斡嘘P本書的意見或疑問,請按照以下地址聯(lián)系出版社。美國:OReilly Media, Inc.1005 Gravenstein Highway NorthSebastopol, CA 95472中國:北京市西城區(qū)西直門南大街2 號成銘大廈C 座807 室(100035)奧萊利技術咨詢(北京)有限公司我們?yōu)楸緯隽艘粋網(wǎng)頁,將勘誤信息、示例代碼和其他附加信息列在上面。地址是https://oreil.ly/architecting-data-ml-platforms?闭`請發(fā)送給errata@oreilly.com.cn。如欲了解更多OReilly 圖書、課程、會議和新聞相關信息,請訪問以下網(wǎng)站:http://www.oreilly.com。我們的LinkedIn:https://linkedin.com/company/oreilly-media。我們的Twitter:http://twitter.com/oreillymedia。我們的YouTube:http://youtube.com/oreillymedia。致謝編寫這樣一本書意義深遠,因為你分享的不僅是自己的知識,還是你經(jīng)驗結出的碩果,而這些經(jīng)驗是你與很多人并肩奮斗才得來的。寫作過程,我們回想起有幸與其共事、向其學習和共同慶祝的朋友。在不違背保密協(xié)議的前提下,我們無法一一點名致謝,因此我們只能向包括他們在內(nèi)的廣大數(shù)據(jù)分析、數(shù)據(jù)工程和數(shù)學科學社區(qū)表示深深的感謝。我們由衷感激本書杰出的技術審稿人Sami Akbay、Mike Dahlin、Kevin George、Jonathan Gerhard、Noah Gift、Sanjay Ramchandani、Joseph Reis 和Vicki Reyzelman,他們審閱初稿并提出寶貴的反饋和建議。OReilly 是技術類圖書的首選出版方,本書出版團隊所表現(xiàn)出來的專業(yè)水準便是最好的證明。Megan Laddusaw 指導我們編寫引人入勝的大綱。Virginia Wilson 和Melissa Potter 不遺余力管理整個內(nèi)容開發(fā)過程。Gregory Hyman 幫我們打磨出高質(zhì)量的終稿,甚至還幫我們設計所有插圖。感謝你們的大力幫助!Marco:感謝我的好妻子Lara Maria Gessica,她是指路明燈,寫作期間,她給予無盡的幫助。感謝我可愛的兒子Walter 和Nicholas 讓我生命的每一天都無比精彩。Lak:感謝Abirami 長達25 年的關愛和陪伴。此刻,抗議聲弱了下來,但我不會因空巢而讓自己承擔更多寫作任務!Firat:謹以此書獻給三位女士,她們持續(xù)塑造我的生命,并使這一切成為可能。獻給女兒Evre,感謝她的好奇和快樂。獻給妻子Yontem,感謝她的堅持。獻給母親Emine Ayla,感謝她對我的信任始終如一。本書英文版版稅將全部捐給Girls Who Code(https://girlswhocode.com)機構。其使命是構建一條培養(yǎng)未來女性工程師的大型流水線。數(shù)據(jù)在各行各業(yè)所起作用越來越核心,從業(yè)人員的多元化和包容性也越發(fā)重要。 Marco Tranquillin是資深顧問,幫機構用云計算實現(xiàn)技術轉型。Valliappa Lakshmanan是知名高管,與管理層其他同仁和數(shù)據(jù)科學團隊一起用數(shù)據(jù)和AI創(chuàng)造價值。Firat Tekiner是創(chuàng)新型產(chǎn)品經(jīng)理,為全球大型機構開發(fā)并交付數(shù)據(jù)產(chǎn)品和AI系統(tǒng)。 目錄
你還可能感興趣
我要評論
|