- 相關(guān)推薦
基于深度學(xué)習(xí)的不完整大數(shù)據(jù)填充算法論文范文
1引言
隨著互聯(lián)網(wǎng)、社交網(wǎng)絡(luò)及電子商務(wù)技術(shù)的興起和發(fā)展,數(shù)據(jù)正以前所未有的速度增長(zhǎng)。大數(shù)據(jù)的研究和應(yīng)用時(shí)代己經(jīng)到來。在大數(shù)據(jù)的采集和傳輸過程中,每個(gè)環(huán)節(jié)都可能出現(xiàn)故障,導(dǎo)致很多大數(shù)據(jù)集中存在著大量的缺失。大數(shù)據(jù)的不完整性為大數(shù)據(jù)的分析和處理帶來巨大的挑戰(zhàn)。因此,不完整數(shù)據(jù)的填充對(duì)大數(shù)據(jù)的分析和處理具有重要的意義。
近些年,國(guó)內(nèi)外研究人員提出了很多不完整數(shù)據(jù)填充方法。包括基于最大期望的數(shù)據(jù)填充算法叫基于模糊聚類的填充算法以及基于最近鄰對(duì)象的填充算法等。這些算法在填充小規(guī)模數(shù)據(jù)集方面取得了顯著的效果。然而在填充不完整大數(shù)據(jù)方面,精度急劇下降。這是由于大數(shù)據(jù)存在著豐富的信息維度,而傳統(tǒng)的數(shù)據(jù)填充算法不能體現(xiàn)大數(shù)據(jù)的深度特征。
針對(duì)這個(gè)問題,本文提出一種基于深度學(xué)習(xí)的不完整大數(shù)據(jù)填充算法。
2填充自動(dòng)編碼機(jī)
本文構(gòu)建的深度填充網(wǎng)絡(luò)以填充自動(dòng)編碼機(jī)為基礎(chǔ)模塊,從完整數(shù)據(jù)子集中隨機(jī)采取一部分?jǐn)?shù)據(jù)對(duì)象作為實(shí)例訓(xùn)練填充自動(dòng)編碼機(jī)的網(wǎng)絡(luò)參數(shù)。在構(gòu)造填充自動(dòng)編碼過程中,使用選中的數(shù)據(jù)對(duì)象模擬缺失數(shù)據(jù)對(duì)象,隨機(jī)地將每個(gè)實(shí)例數(shù)據(jù)對(duì)象的部分屬性值置,模擬不完整對(duì)象作為填充自動(dòng)編碼機(jī)的輸入,通過最小化重構(gòu)數(shù)據(jù)與實(shí)例原型來訓(xùn)練網(wǎng)路參數(shù)。
根據(jù)隨機(jī)梯度下降算法,每當(dāng)從數(shù)據(jù)集中選擇一個(gè)實(shí)例進(jìn)行訓(xùn)練,填充自動(dòng)編碼機(jī)首先隨機(jī)地選擇該實(shí)例的部分屬性,將其屬性值置。,得到一對(duì)數(shù)據(jù),然后通過如下公式對(duì)自動(dòng)編碼機(jī)的權(quán)值進(jìn)行一次更新。如此更新網(wǎng)絡(luò)參數(shù),直到整個(gè)網(wǎng)絡(luò)趨于穩(wěn)定。
3深度填充網(wǎng)絡(luò)與數(shù)據(jù)填充
本文以填充自動(dòng)編碼機(jī)為基礎(chǔ)模塊,構(gòu)建三層網(wǎng)絡(luò)模型。每一層網(wǎng)絡(luò)輸出都將作為上一層網(wǎng)絡(luò)的輸入,最上層作為提取的特征輸出。訓(xùn)練過程分為預(yù)訓(xùn)練和微調(diào)兩個(gè)階段。首先自下而上地進(jìn)行逐層訓(xùn)練獲得網(wǎng)絡(luò)初始化參數(shù),最終通過反向傳播算法對(duì)全局參數(shù)進(jìn)行微調(diào)。
為了獲取網(wǎng)絡(luò)逐層訓(xùn)練監(jiān)督對(duì)象,首先利用實(shí)例數(shù)據(jù)作為輸入構(gòu)建疊加自動(dòng)編碼機(jī),獲得實(shí)例數(shù)據(jù)的兩層特征。本文以未經(jīng)處理的原始實(shí)例數(shù)據(jù)二作為網(wǎng)絡(luò)輸入,在最下層可獲取第一層特征,把特征作為上一層網(wǎng)絡(luò)的輸入,獲得第二層特征,該訓(xùn)練過程是局部的,即第二層網(wǎng)絡(luò)更新本層的網(wǎng)絡(luò)權(quán)重,對(duì)下層網(wǎng)絡(luò)沒有影響。通過這種方式可以初始化疊層網(wǎng)絡(luò)參數(shù),最后通過反向傳播算法對(duì)網(wǎng)絡(luò)全局參數(shù)進(jìn)行微調(diào)。如此能夠獲得對(duì)應(yīng)于原始數(shù)據(jù)實(shí)例的兩層特征。
從數(shù)據(jù)中逐一取出實(shí)例對(duì)深度實(shí)例網(wǎng)絡(luò)進(jìn)行訓(xùn)練,每訓(xùn)練一次,對(duì)網(wǎng)絡(luò)參數(shù)進(jìn)行一次更新,直到整個(gè)網(wǎng)絡(luò)趨于穩(wěn)定,獲得最終的網(wǎng)絡(luò)參數(shù)。在獲得網(wǎng)絡(luò)參數(shù)之后,本文首先抽取不完整數(shù)據(jù)集中每個(gè)數(shù)據(jù)對(duì)象的深度特征。對(duì)于不完整數(shù)據(jù)對(duì)象二而言,首先將其缺失屬性的屬性值置。
4實(shí)驗(yàn)分析
為了驗(yàn)證本文提出的算法(DLDBI)的有效性,將本文提出的算法和兩種填充算法FIMUS和DMI進(jìn)行對(duì)比。本文采用的數(shù)據(jù)集采自數(shù)字家庭與無線傳感網(wǎng)絡(luò)實(shí)驗(yàn)室,數(shù)據(jù)集總量達(dá)到10U每個(gè)數(shù)據(jù)對(duì)象包含650個(gè)數(shù)值屬性。我們首先人為地從數(shù)據(jù)集中刪除一部分?jǐn)?shù)據(jù),模擬不完整數(shù)據(jù)集,在填充完成之后,將填充值與真實(shí)值進(jìn)行比較,得到算法的填充精度。
本文人工制造兩種缺失值,單模式缺失和多模式缺失。在單模式缺失中,每個(gè)數(shù)據(jù)對(duì)象只允許含有一個(gè)缺失值,多模式缺失則允許每個(gè)數(shù)據(jù)對(duì)象含有多個(gè)缺失值。本文分別從數(shù)據(jù)集中選擇15%和10%的數(shù)據(jù)對(duì)象并刪除這些數(shù)據(jù)對(duì)象的部分屬性值,模擬缺失數(shù)據(jù)。 本文使用兩個(gè)標(biāo)準(zhǔn)來衡量算法的填充精度。第一個(gè)標(biāo)準(zhǔn)被稱標(biāo)準(zhǔn),該標(biāo)準(zhǔn)用于衡量填充值與真實(shí)值的匹配程度, 對(duì)于任何一種缺失組合,本文提出的算法所得到的都明顯高于其他兩種算法。除此之外,隨著數(shù)據(jù)缺失率的增大,算法FIMUS和DMI所得到的都在下降,即這兩種算法的填充精度隨著數(shù)據(jù)缺失率的增大面降低。而本文提出的算法的填充精度一直保持在一個(gè)很高的水平之上。因此,本文提出的算法的填充精度明顯高于FIMUS和DMI。
對(duì)于任何一種缺失組合,本文提出的算法所得到的RMSE都明顯低于其他兩種算法。隨著數(shù)據(jù)缺失率的增大,算法FIMUS和DM所得到的RMSE不斷升高,即這兩種算法的填充精度隨著數(shù)據(jù)缺失率的增大而降低。而本文提出的算法的得到的RMSE一直低。因此,就RMSE而言,本文提出的算法的填充精度明顯高于FIMUS和DMI。
本文提出的算法填充精度相對(duì)比較穩(wěn)定。具體的說,當(dāng)數(shù)據(jù)缺失率在1%到10%之間,值能夠穩(wěn)定的保持在。此外,對(duì)于任意一種缺失率而言,單缺失模式的填充精度明顯高于多缺失模型的填充精度,這是因?yàn)槎嗵畛淠J饺笔?shù)據(jù)大,對(duì)特征提取和還原造成的干擾高于單缺失模式。
5結(jié)束語
本文提出一種基于深度學(xué)習(xí)的不完整大數(shù)據(jù)填充算法,算法針對(duì)大數(shù)據(jù)具有豐富的信息維度,構(gòu)建深度填充網(wǎng)絡(luò)類提取大數(shù)據(jù)的深度特征,進(jìn)而對(duì)缺失值進(jìn)行還原。實(shí)驗(yàn)結(jié)果表明本文提出的算法能夠有效的提高數(shù)據(jù)填充精度。在下一步工作中,探索如何提高多缺失模式下的數(shù)據(jù)填充精度。
【基于深度學(xué)習(xí)的不完整大數(shù)據(jù)填充算法論文】相關(guān)文章:
Hadoop物聯(lián)網(wǎng)數(shù)據(jù)挖掘的算法分析論文10-10
基于SVM的重復(fù)網(wǎng)頁(yè)檢測(cè)算法分析論文10-11
基于Excel的數(shù)據(jù)加密方案的論文范文10-07
基于旅游管理的時(shí)空數(shù)據(jù)模型研究論文10-08
計(jì)算機(jī)通信中DES數(shù)據(jù)加密算法應(yīng)用論文10-09
基于大數(shù)據(jù)的旅游服務(wù)供應(yīng)鏈管理研究論文10-09
深度學(xué)習(xí)在金融風(fēng)險(xiǎn)管理的應(yīng)用論文10-08
基于GABP算法的計(jì)算機(jī)復(fù)雜網(wǎng)絡(luò)可靠性評(píng)估方法研究論文10-08
深度學(xué)習(xí)在金融風(fēng)險(xiǎn)管理中的應(yīng)用論文10-08
自動(dòng)排課算法的分析論文10-11