本書(shū)從大數(shù)據(jù)的采集、存儲(chǔ)、計(jì)算、分析挖掘、可視化、應(yīng)用和安全等角度,全面解析大數(shù)據(jù)技術(shù)原理及應(yīng)用實(shí)踐。在此基礎(chǔ)上介紹大數(shù)據(jù)的技術(shù)架構(gòu)和關(guān)鍵技術(shù),結(jié)合應(yīng)用實(shí)踐,詳細(xì)闡述了傳統(tǒng)信息系統(tǒng)與大數(shù)據(jù)平臺(tái)的整合策略,大數(shù)據(jù)應(yīng)用實(shí)踐的流程和方法,并介紹了主要的大數(shù)據(jù)應(yīng)用產(chǎn)品和解決方案。
在未來(lái)5~10年,我國(guó)大數(shù)據(jù)市場(chǎng)規(guī)模年均增速將超過(guò)30%。未來(lái)5年,國(guó)內(nèi)大數(shù)據(jù)人才缺口將突破150萬(wàn)。在BAT發(fā)布的招聘職位中,目前大數(shù)據(jù)崗位占比已經(jīng)超過(guò)60%,F(xiàn)在業(yè)界有一種觀點(diǎn):即使把全國(guó)所有計(jì)算機(jī)專業(yè)都做成大數(shù)據(jù)專業(yè),仍然無(wú)法滿足國(guó)內(nèi)對(duì)大數(shù)據(jù)人才的需求量。
在快速膨脹的需求與國(guó)家扶植政策的推動(dòng)下,全國(guó)高校、高職、高專院校紛紛啟動(dòng)大數(shù)據(jù)人才培養(yǎng)計(jì)劃。然而,大數(shù)據(jù)專業(yè)建設(shè)卻面臨重重困難。首先,大數(shù)據(jù)是個(gè)新生事物,懂大數(shù)據(jù)的老師少之又少,院校缺“人”;其次,尚未形成完善的大數(shù)據(jù)人才培養(yǎng)和課程體系,院校缺“機(jī)制”;再次,大數(shù)據(jù)實(shí)驗(yàn)需要為每位學(xué)生提供集群計(jì)算機(jī),院校缺“機(jī)器”;最后,院校不擁有海量數(shù)據(jù),開(kāi)展大數(shù)據(jù)教學(xué)科研工作缺“原材料”。
其實(shí),在2000年網(wǎng)格計(jì)算興起時(shí)和2008年云計(jì)算興起時(shí),我國(guó)科技工作者都曾遇到過(guò)類似的挑戰(zhàn)問(wèn)題,我有幸參與了這些問(wèn)題的解決過(guò)程:
為了解決網(wǎng)格計(jì)算挑戰(zhàn)問(wèn)題,我在清華大學(xué)讀博期間,于2001年創(chuàng)辦了中國(guó)網(wǎng)格信息中轉(zhuǎn)站(chinagrid.net)網(wǎng)站,每天花好幾個(gè)小時(shí)收集和分享有價(jià)值的資料給學(xué)術(shù)界。于2002年與人合作出版了《網(wǎng)格計(jì)算》教材。并多次籌辦和主持全國(guó)性的網(wǎng)格計(jì)算學(xué)術(shù)會(huì)議。
為了解決云計(jì)算挑戰(zhàn)問(wèn)題,我于2008年創(chuàng)辦了中國(guó)云計(jì)算(chinacloud.cn)網(wǎng)站,于2010年出版了《云計(jì)算(第一版)》、2011年出版了《云計(jì)算(第二版)》、2015年出版了《云計(jì)算(第三版)》,每一版都花費(fèi)大量成本制作并免費(fèi)分享對(duì)應(yīng)的幾十個(gè)教學(xué)PPT。這些PPT的下載總量達(dá)到了幾百萬(wàn)次之多。早在2010年,我就在南京組織了全國(guó)高校云計(jì)算師資培訓(xùn)班,培養(yǎng)了國(guó)內(nèi)第一批云計(jì)算老師。并通過(guò)與華為、中興、360等知名企業(yè)合作,輸出云計(jì)算技術(shù),培養(yǎng)云計(jì)算研發(fā)人才。為社區(qū)做貢獻(xiàn),收獲是沉甸甸的:我獲得了大家的好評(píng)與認(rèn)可,擔(dān)任了一些全國(guó)性專家委員會(huì)的專家,《云計(jì)算》教材成了國(guó)內(nèi)高校的首選教材,中國(guó)云計(jì)算網(wǎng)站成了國(guó)內(nèi)排名第一的云計(jì)算網(wǎng)站。
近幾年,我用類似的辦法來(lái)解決我們所面臨的大數(shù)據(jù)挑戰(zhàn)問(wèn)題。為了解決大數(shù)據(jù)技術(shù)資料缺乏和存在交流障礙的問(wèn)題,我于2013年創(chuàng)辦了中國(guó)大數(shù)據(jù)(thebigdata.cn)網(wǎng)站,投入大量的人力每天維護(hù),該網(wǎng)站已經(jīng)在各大搜索引擎排名“大數(shù)據(jù)”關(guān)鍵詞第一名;為了解決大數(shù)據(jù)師資匱乏的問(wèn)題,我面向全國(guó)院校,陸續(xù)舉辦多期大數(shù)據(jù)教師培訓(xùn)班。最近在南京舉辦的全國(guó)高校/高職/中職大數(shù)據(jù)免費(fèi)培訓(xùn)班,報(bào)名的老師已有400多位;為了解決缺乏權(quán)威大數(shù)據(jù)教材的問(wèn)題,我所負(fù)責(zé)的南京大數(shù)據(jù)研究院,聯(lián)合金陵科技學(xué)院、河南大學(xué)、南陽(yáng)理工學(xué)院、南陽(yáng)理工學(xué)院、云創(chuàng)大數(shù)據(jù)、許昌學(xué)院、安徽師范大學(xué)、才云科技、中國(guó)地震局、南京公安研究院等多家單位,歷時(shí)兩年,編著了《大數(shù)據(jù)》教材和《大數(shù)據(jù)庫(kù)》教材。并計(jì)劃為高職和中職院校專門編寫(xiě)大數(shù)據(jù)專業(yè)系列教材。我們將在中國(guó)大數(shù)據(jù)(thebigdata.cn)、中國(guó)云計(jì)算(chinacloud.cn)和劉鵬看未來(lái)(lpoutlook)微信公眾號(hào)等陸續(xù)免費(fèi)提供配套PPT和其他資料;為了解決大數(shù)據(jù)實(shí)驗(yàn)難以開(kāi)展的問(wèn)題,我?guī)ьI(lǐng)云創(chuàng)大數(shù)據(jù)(www.cstor.cn)的科研人員,研發(fā)成功BDRack大數(shù)據(jù)實(shí)驗(yàn)一體機(jī),它打破虛擬化技術(shù)的性能瓶頸,可以為每一位參加實(shí)驗(yàn)的人員虛擬出Hadoop集群、Spark集群、 MongoDB集群、Storm集群等,自帶實(shí)驗(yàn)所需數(shù)據(jù),并準(zhǔn)備了詳細(xì)的實(shí)驗(yàn)手冊(cè)、PPT和視頻,可以開(kāi)展大數(shù)據(jù)管理、大數(shù)據(jù)挖掘等各類實(shí)驗(yàn),并可進(jìn)行精確營(yíng)銷、信用分析等多種實(shí)戰(zhàn)演練。目前該平臺(tái)已經(jīng)在鄭州大學(xué)等高校成功應(yīng)用。我們還開(kāi)放了免費(fèi)的物聯(lián)網(wǎng)大數(shù)據(jù)托管平臺(tái)——萬(wàn)物云(wanwuyun.com)和環(huán)境大數(shù)據(jù)免費(fèi)分享平臺(tái)——環(huán)境云(envicloud.cn)
在此,特別感謝我的碩士導(dǎo)師謝希仁教授和博士導(dǎo)師李三立院士。謝希仁教授出版的《計(jì)算機(jī)網(wǎng)絡(luò)》已經(jīng)更新到第6版,與時(shí)俱進(jìn)且日臻完美,時(shí)時(shí)提醒學(xué)生要以這樣的標(biāo)準(zhǔn)來(lái)寫(xiě)書(shū)。李三立院士是留蘇博士,為我國(guó)計(jì)算機(jī)事業(yè)做出了杰出貢獻(xiàn),曾任國(guó)家攀登計(jì)劃項(xiàng)目首席科學(xué)家。他的嚴(yán)謹(jǐn)治學(xué)帶出了一大批杰出的學(xué)生。
本書(shū)是集體智慧的結(jié)晶,在此謹(jǐn)向付出辛勤勞動(dòng)的各位作者致敬!書(shū)中難免會(huì)有不當(dāng)之處,務(wù)必讀者不吝賜教。我的郵箱:gloud@126.com,微信公眾號(hào):劉鵬看未來(lái)(lpoutlook)。
劉鵬 教授
于南京大數(shù)據(jù)研究院
2016年12月24日
劉鵬,清華大學(xué)博士,解放軍理工大學(xué)教授、學(xué)科帶頭人,中國(guó)云計(jì)算專家委員會(huì)委員。主要研究方向?yàn)樾畔⒕W(wǎng)格和云計(jì)算,完成科研課題18項(xiàng),發(fā)表論文70余篇,獲部級(jí)科技進(jìn)步獎(jiǎng)6項(xiàng)。曾奪得國(guó)際計(jì)算機(jī)排序比賽冠軍,并二次奪得全國(guó)高?萍急荣*高獎(jiǎng),獲“全軍十大學(xué)習(xí)成才標(biāo)兵”、“南京十大杰出青年”和“清華大學(xué)學(xué)術(shù)新秀”等稱號(hào)。2002年首倡的“網(wǎng)格計(jì)算池”和2003年研發(fā)的“反垃圾郵件網(wǎng)格”分別為云計(jì)算和云安全的前身。創(chuàng)辦了知名的中國(guó)網(wǎng)格和中國(guó)云計(jì)算網(wǎng)站。
第1章 大數(shù)據(jù)概念與應(yīng)用
1.1 大數(shù)據(jù)之“大”
1.2 大數(shù)據(jù)的來(lái)源
1.3 大數(shù)據(jù)的技術(shù)支撐
1.4 大數(shù)據(jù)應(yīng)用場(chǎng)景
1.5 如何開(kāi)展大數(shù)據(jù)研發(fā)
習(xí)題
參考文獻(xiàn)
第2章 數(shù)據(jù)采集與預(yù)處理
2.1 大數(shù)據(jù)采集架構(gòu)
2.2 數(shù)據(jù)預(yù)處理原理
2.3 數(shù)據(jù)倉(cāng)庫(kù)與ETL工具
習(xí)題
參考文獻(xiàn)
第3章 數(shù)據(jù)挖掘算法
3.1 數(shù)據(jù)挖掘概述
3.2 分類
3.3 聚類
3.4 關(guān)聯(lián)規(guī)則
3.5 預(yù)測(cè)模型
3.6 數(shù)據(jù)挖掘算法綜合應(yīng)用
習(xí)題
參考文獻(xiàn)
第4章 大數(shù)據(jù)挖掘工具
4.1 Mahout
4.2 Spark MLlib
4.3 其他數(shù)據(jù)挖掘工具
習(xí)題
參考文獻(xiàn)
第5章 R語(yǔ)言
5.1 R語(yǔ)言簡(jiǎn)介
5.2 R與數(shù)據(jù)挖掘
5.3 SparkR
習(xí)題
參考文獻(xiàn)
第6章 大數(shù)據(jù)可視化
6.1 數(shù)據(jù)可視化基礎(chǔ)
6.2 大數(shù)據(jù)可視化方法
6.3 大數(shù)據(jù)可視化軟件與工具
習(xí)題
參考文獻(xiàn)
第7章 互聯(lián)網(wǎng)大數(shù)據(jù)處理
7.1 互聯(lián)網(wǎng)信息抓取
7.2 文本分詞
7.3 倒排索引
7.4 網(wǎng)頁(yè)排序算法
7.5 歷史信息檢索
習(xí)題
參考文獻(xiàn)
第8章 大數(shù)據(jù)商業(yè)應(yīng)用
8.1 用戶畫(huà)像與精準(zhǔn)營(yíng)銷
8.2 廣告推薦
8.3 互聯(lián)網(wǎng)金融
習(xí)題
參考文獻(xiàn)
第9章 行業(yè)大數(shù)據(jù)
9.1 地震大數(shù)據(jù)
9.2 交通大數(shù)據(jù)
9.3 環(huán)境大數(shù)據(jù)
9.4 警務(wù)大數(shù)據(jù)
習(xí)題
參考文獻(xiàn)
附錄:大數(shù)據(jù)實(shí)驗(yàn)一體機(jī)