![]() ![]() |
Python爬蟲(chóng)大數(shù)據(jù)采集與挖掘
本書(shū)圍繞大數(shù)據(jù)采集與挖掘,對(duì)采集技術(shù)的相關(guān)基礎(chǔ)、技術(shù)原理、Python實(shí)現(xiàn)技術(shù)、大數(shù)據(jù)挖掘與應(yīng)用方法進(jìn)行了系統(tǒng)介紹。書(shū)中全面、完整地覆蓋了各種類(lèi)型的網(wǎng)絡(luò)爬蟲(chóng)及相關(guān)的信息處理挖掘技術(shù),并提供了42個(gè)與爬蟲(chóng)技術(shù)和應(yīng)用相關(guān)的Python程序。全書(shū)共分為四大部分,即概述、基礎(chǔ)篇、技術(shù)與實(shí)現(xiàn)篇、大數(shù)據(jù)挖掘與應(yīng)用篇。第一部分是概述,指出了利用Python采集互聯(lián)網(wǎng)大數(shù)據(jù)的重要性,介紹了相關(guān)技術(shù)研究、技術(shù)體系、Python爬蟲(chóng)采集技術(shù)的合規(guī)性及應(yīng)用現(xiàn)狀等;第二部分是基礎(chǔ)篇,包括Web服務(wù)器的應(yīng)用架構(gòu)以及HTTP、Robots、HTML、頁(yè)面編碼等相關(guān)協(xié)議和規(guī)范;第三部分是技術(shù)與實(shí)現(xiàn)篇,全面介紹了普通網(wǎng)絡(luò)爬蟲(chóng)技術(shù)、動(dòng)態(tài)頁(yè)面采集方法、主題爬蟲(chóng)技術(shù)、DeepWeb爬蟲(chóng)、微博信息采集、Web信息提取以及反爬蟲(chóng)技術(shù)等,內(nèi)容涵蓋了各種爬蟲(chóng)技術(shù)實(shí)現(xiàn)方法及Python例子;第四部分是大數(shù)據(jù)挖掘與應(yīng)用篇,介紹了文本、情感、社交網(wǎng)絡(luò)和時(shí)間序列等典型大數(shù)據(jù)處理與挖掘技術(shù)及應(yīng)用模式,并以新聞采集與分析、Web自動(dòng)化測(cè)試、酒店評(píng)估文本挖掘?yàn)槔榻B了Python爬蟲(chóng)應(yīng)用構(gòu)建方法,將本書(shū)介紹的一些關(guān)鍵技術(shù)、模型和工具貫穿在一起。
你還可能感興趣
我要評(píng)論
|