![]() ![]() |
基于信息度量的高維數(shù)據(jù)特征選擇模型和方法
高維數(shù)據(jù)特征選擇是數(shù)據(jù)挖掘的重要組成部分,可廣泛應(yīng)用于生物信息學(xué)、統(tǒng)計(jì)學(xué)及圖像處理等領(lǐng)域。有效選擇信息特征可顯著提高學(xué)習(xí)精度和結(jié)果的可解釋性。為提高分類精度,許多現(xiàn)有特征選擇方法通過去除數(shù)據(jù)中的冗余和不相關(guān)特征來識別信息特征。由于特征維數(shù)隨數(shù)據(jù)規(guī)模的增大而增加,易出現(xiàn)維數(shù)災(zāi)難和過擬合問題;數(shù)據(jù)高維性不僅增加算法的時(shí)間和空間復(fù)雜度,也會(huì)降低算法的求解精度。針對高維數(shù)據(jù)特征選擇所存在的問題,本書通過引入互信息、聯(lián)合互信息、條件互信息等信息度量,設(shè)計(jì)合理有效的特征選擇模型和方法來降低數(shù)據(jù)維度、保留數(shù)據(jù)的重要特征。本書主要包括自適應(yīng)結(jié)構(gòu)稀疏回歸模型、多項(xiàng)式自適應(yīng)稀疏組Lasso模型、最大相關(guān)性和最小監(jiān)督冗余準(zhǔn)則、加權(quán)廣義組Lasso模型等內(nèi)容。
你還可能感興趣
我要評論
|