本書(shū)共七章,內(nèi)容包括:緒論、相關(guān)基礎(chǔ)理論、基于壓縮實(shí)體摘要圖的RDF數(shù)據(jù)關(guān)鍵字查詢(xún)方法、基于實(shí)體類(lèi)型關(guān)系摘要的RDF數(shù)據(jù)關(guān)鍵字查詢(xún)方法、多索引的RDF數(shù)據(jù)關(guān)鍵字查詢(xún)方法、兩階段SPARQL查詢(xún)優(yōu)化處理、總結(jié)。
隨著語(yǔ)義Web技術(shù)的不斷發(fā)展和應(yīng)用,萬(wàn)維網(wǎng)上充滿(mǎn)了大量可讀取、可被機(jī)器理解和處理的RDF數(shù)據(jù),RDF數(shù)據(jù)關(guān)鍵字杳詢(xún)問(wèn)題的研究已經(jīng)成為當(dāng)今語(yǔ)義Web研究的一個(gè)熱點(diǎn)。無(wú)論是終端用戶(hù)還是應(yīng)用系統(tǒng),都有著對(duì)RDF數(shù)行查詢(xún)的需求。但是,RDF數(shù)據(jù)的標(biāo)準(zhǔn)查詢(xún)語(yǔ)言SPARQL對(duì)于普通用戶(hù)來(lái)說(shuō)過(guò)于復(fù)雜,用戶(hù)既不了解SPARQL查詢(xún)的語(yǔ)法和語(yǔ)義,更沒(méi)有掌握待查詢(xún)的RDF數(shù)據(jù)的模式信息。因此,提出一種基于查詢(xún)轉(zhuǎn)換的方法來(lái)實(shí)現(xiàn)RDF數(shù)據(jù)關(guān)鍵字查詢(xún),通過(guò)將關(guān)鍵字查詢(xún)轉(zhuǎn)換為SPARQL查詢(xún),借助現(xiàn)有的比較的SPARQL搜索引擎對(duì)RDF數(shù)行查詢(xún)。另外,提出兩階段查詢(xún)優(yōu)化方法可以對(duì)生成的SPARQL查行處理,以提高查詢(xún)執(zhí)行的效率。本書(shū)的主要貢括以下幾個(gè)方面:
提出了一種基于壓縮實(shí)體摘要圖的RDF數(shù)據(jù)關(guān)鍵字查詢(xún)方法。從大規(guī)模的RDF數(shù)據(jù)中,提取實(shí)體及實(shí)體關(guān)聯(lián),為了方便查詢(xún)轉(zhuǎn)換,將實(shí)體的類(lèi)型封裝在實(shí)體節(jié)點(diǎn)當(dāng)中,從而建立了一個(gè)壓縮實(shí)體摘要索引。利用雙向搜索算法,在這個(gè)壓縮實(shí)體摘要索引上搜含所有關(guān)鍵字實(shí)體的子圖,即找到對(duì)應(yīng)的查詢(xún)變量之間的關(guān)系,然后將這些子圖轉(zhuǎn)換成SPARQL查詢(xún),后利用現(xiàn)有的SPARQL搜索引行RDF數(shù)據(jù)的查詢(xún)。
提出了一種基于實(shí)體類(lèi)型關(guān)系摘要的RDF數(shù)據(jù)關(guān)鍵字查詢(xún)方法。通過(guò)概括出RDF數(shù)據(jù)實(shí)體類(lèi)型之間的關(guān)系,定義了一種面向?qū)嶓w類(lèi)型關(guān)系的摘要索引,從轉(zhuǎn)換的目標(biāo)對(duì)象SPARQL的角度出發(fā),該摘要索引的構(gòu)建利用了SPARQL1.pan>的屬性路徑操作符括謂語(yǔ)路徑操作符、可選路徑操作符“|”以及序列路徑操作符“/”等。該索引不僅使關(guān)鍵字查詢(xún)向SPARQL查詢(xún)的轉(zhuǎn)換更為簡(jiǎn)單、方便以及,而且該摘要索引彌補(bǔ)了現(xiàn)有的用于查詢(xún)轉(zhuǎn)換索引的缺陷,能夠完整地概括出RDF數(shù)據(jù)中所有實(shí)體類(lèi)型之間的關(guān)系。后,將在此摘要索引上找含所有關(guān)鍵字實(shí)體的類(lèi)型關(guān)系的top-子圖,并轉(zhuǎn)換成SPARQL查詢(xún),利用現(xiàn)有的SPARQL搜索引行RDF數(shù)據(jù)的查詢(xún)。
提出了一種利用多索引來(lái)實(shí)現(xiàn)RDF數(shù)據(jù)關(guān)鍵字的查詢(xún)方法,事先在RDF數(shù)據(jù)上建立多個(gè)索引,用于定位關(guān)鍵字到指定的實(shí)體的關(guān)鍵字倒排索引和用于搜索top-k子圖的r-半徑領(lǐng)域索引、r半徑領(lǐng)域內(nèi)的短路徑索引以及用于子圖向SPARQL轉(zhuǎn)換的r半徑領(lǐng)域內(nèi)的短屬性路徑索引。通過(guò)這些索引能夠快速行關(guān)鍵字查詢(xún)向SPARQL查詢(xún)轉(zhuǎn)換。雖然索引的存儲(chǔ)開(kāi)銷(xiāo)較大,不過(guò)利用“空間換時(shí)間”的思想,很大程度地提高了查詢(xún)效率。后,利用現(xiàn)有的SPARQL搜索引擎對(duì)RDF數(shù)行查詢(xún)。另外,對(duì)本書(shū)提出的三種不同的RDF數(shù)據(jù)關(guān)鍵字查詢(xún)方行了分析和比較,分別比較了三種方法用于關(guān)鍵字查詢(xún)向SPARQL查詢(xún)轉(zhuǎn)換服務(wù)的索引、關(guān)鍵字索引、top-k子圖的搜索算法以及用于輔助圖搜索的索引結(jié)構(gòu)等。
針對(duì)生成的SPARQL查詢(xún)本身所具有的特點(diǎn),提出了一個(gè)兩階段的SPAR-QL查詢(xún)法,對(duì)生成的SPARQL查行優(yōu)化處理。階段,把SPARQL查詢(xún)中含有相同變量的聯(lián)結(jié)劃分為一塊,通過(guò)計(jì)算每塊內(nèi)選擇度來(lái)重新排列三元組模式的聯(lián)結(jié)順序。第二階段,利用屬性路徑索引對(duì)剩余的聯(lián)行中間結(jié)果過(guò)濾。不但利用了RDF圖中的屬性路徑,而且還考慮了三元組模式中的選擇度問(wèn)題,大幅度地減少了查詢(xún)?cè)诼?lián)結(jié)過(guò)程中產(chǎn)生的中間結(jié)果數(shù)量,從而改善了查詢(xún)質(zhì)量,提高了查詢(xún)效率。
1998年,萬(wàn)維網(wǎng)的發(fā)明人Tim Berners Lee提出了“語(yǔ)義萬(wàn)維網(wǎng)”(SemanticWeb)的設(shè)想。200pan>年,《科學(xué)美國(guó)人》雜志刊登題為“The Semantic Web”的科普文章,宣告了“語(yǔ)義網(wǎng)”的誕生。“語(yǔ)義網(wǎng)”的愿景為“使計(jì)算機(jī)更能解讀萬(wàn)維網(wǎng)”。
萬(wàn)維網(wǎng)是一個(gè)文字、圖片、聲音及的網(wǎng)絡(luò),作為人們?cè)谝蛱鼐W(wǎng)上獲取和發(fā)布信息的重要手段和途徑,萬(wàn)維網(wǎng)逐漸成為巨大的信息資源倉(cāng)庫(kù),計(jì)算機(jī)對(duì)于這樣的萬(wàn)維網(wǎng)只發(fā)揮了有限的作用,它們索引關(guān)鍵詞,將信息從服務(wù)器傳輸?shù)娇蛻?hù)端,而已。所有的智能工作(選擇、組合及聚集等)必須通過(guò)人類(lèi)讀者來(lái)完成。語(yǔ)義網(wǎng)使“萬(wàn)維網(wǎng)上的數(shù)據(jù)為計(jì)算機(jī)可理解和處理”成為現(xiàn)實(shí)。從此,語(yǔ)義Web技術(shù)的發(fā)展有了一個(gè)新的里程碑。W3C(World Wide Web Consortium,萬(wàn)維網(wǎng)聯(lián)盟)制定了一系列的語(yǔ)義網(wǎng)技術(shù)規(guī)范括描述各種資源和它們之間語(yǔ)義關(guān)系的資源描述框架(Resource Description Framework,RDF)、萬(wàn)維網(wǎng)本體語(yǔ)言(OWL2)、RDF數(shù)據(jù)的標(biāo)準(zhǔn)查詢(xún)語(yǔ)言(SPARQL)及規(guī)則交換格式(RIF)等。這些技術(shù)規(guī)范間的關(guān)系在圖1.pan>所示W3C語(yǔ)義Web分層模型中有所體現(xiàn)。語(yǔ)義網(wǎng)為萬(wàn)維網(wǎng)上的知識(shí)表示、推理、交換和復(fù)用奠定了理論基礎(chǔ)。
Web數(shù)據(jù)呈現(xiàn)爆炸式的增長(zhǎng)。大規(guī)模可用的RDF數(shù)據(jù)被發(fā)布。RDF已經(jīng)被許多項(xiàng)目和機(jī)構(gòu)用來(lái)表示它們的元數(shù)據(jù),如DBLP,Wikipedia等;IBM智慧地球的研究中心采用了RDF數(shù)據(jù)描述以及集成語(yǔ)義;Freebase知識(shí)庫(kù)是語(yǔ)義網(wǎng)數(shù)據(jù)庫(kù)技術(shù)公司Metaweb維護(hù)的,其中體育、電影等眾多領(lǐng)域元信息都是用RDF表示的,生物、化學(xué)、生物醫(yī)學(xué)、地理等多個(gè)領(lǐng)域都在 RDF 基礎(chǔ)行建立領(lǐng)域本體。根據(jù) W3C的SWEO(Semantic Web Ed-ucation and Outreach)研究小組的不統(tǒng)計(jì),截止到2017年4月,在互聯(lián)網(wǎng)上的各種RDF三元組的數(shù)量括Linked Open Data,YAGO,DBpedia,Freebase等RDF數(shù)據(jù)集)已經(jīng)達(dá)到620億,其中涉及的實(shí)體數(shù)量更多。互聯(lián)網(wǎng)已經(jīng)從只含網(wǎng)頁(yè)和網(wǎng)頁(yè)之間超鏈接的文檔萬(wàn)維網(wǎng)轉(zhuǎn)變成了能夠?qū)?shí)體和實(shí)體之間豐富的關(guān)行描述的數(shù)據(jù)萬(wàn)維網(wǎng)。傳統(tǒng)互聯(lián)網(wǎng)中的文檔檢索通常是將HTML頁(yè)面(文檔)看作是信息的載體,用戶(hù)的查詢(xún)返回結(jié)果則是若含這些查詢(xún)關(guān)鍵詞的文檔,而語(yǔ)義Web數(shù)據(jù)搜索用戶(hù)擊中的三元組中描述的實(shí)體。語(yǔ)義Web數(shù)據(jù)的搜索問(wèn)題已經(jīng)成為當(dāng)今語(yǔ)義網(wǎng)技術(shù)的一個(gè)重要研究熱點(diǎn),各大搜索公司(如Google、百度、搜狗等)紛紛構(gòu)建知識(shí)圖譜(分別為Knowledge Graph、知心和知立方)來(lái)搜索質(zhì)量。
RDF數(shù)據(jù)的搜索需要處理粒度更細(xì)的結(jié)構(gòu)化語(yǔ)義數(shù)據(jù)。原有的針對(duì)非結(jié)構(gòu)化的Web文檔的存儲(chǔ)和索引的各種成熟技術(shù)已經(jīng)對(duì)RDF數(shù)據(jù)不再適用,目前的大量排序算法也不能直接運(yùn)用到面向?qū)嶓w和其關(guān)聯(lián)的語(yǔ)義搜索中。SPARQL(Simple Protocol and RDF Query Language)是RDF數(shù)據(jù)的查詢(xún)語(yǔ)言,已于2008年pan>月15日正式成為W3CRDF數(shù)行有效的查詢(xún)。正如SQL是數(shù)據(jù)庫(kù)查詢(xún)的標(biāo)準(zhǔn),SPARQL是查詢(xún)RDF數(shù)據(jù)的標(biāo)準(zhǔn)。由于RIF、RDFS和OWL都是使用RDF數(shù)據(jù)模型,因此SPARQL也能夠作為這三者的查詢(xún)語(yǔ)言。SPARQL查詢(xún)的基本組成單元是三元組模式(Triple Pattern),三元組模式與RDF三元組類(lèi)似,區(qū)別在于其主語(yǔ)(Subject)、謂語(yǔ)(Predicate)和賓語(yǔ)(Object)位置可以設(shè)置為變量。除了SPARQL查詢(xún)語(yǔ)言外,還有RQL、RDQL(RDF dataquery language)以及SeRQL等RDF數(shù)據(jù)查詢(xún)語(yǔ)言。但是,這些查詢(xún)語(yǔ)言對(duì)于普……