當(dāng)前位置:工程項目OA系統(tǒng) > 建筑OA系統(tǒng) > 建筑工程項目管理軟件
支持向量機(jī)在數(shù)據(jù)挖掘中的應(yīng)用研究
摘 要:支持向量機(jī)(Support Vector Machine, SVM)是數(shù)據(jù)挖掘和機(jī)器 學(xué)習(xí) 中的一個很有效的工具。結(jié)合支持向量機(jī)在數(shù)據(jù)挖掘和機(jī)器學(xué)習(xí)中的 應(yīng)用 , 介紹了支持向量機(jī)的基本原理, 發(fā)展 方向及其 研究 熱點。
關(guān)鍵詞:支持向量機(jī); 數(shù)據(jù)挖掘; 機(jī)器學(xué)習(xí) 1 SVM的提出和基本思想 支持向量機(jī)是Vapnik等人提出的,在解決小樣本、非線性及高維模式識別 問題 中表現(xiàn)出許多特有的優(yōu)勢,已應(yīng)用于手寫體識別、三維目標(biāo)識別、人臉識別、文本圖像分類等實際問題中,性能優(yōu)于已有的學(xué)習(xí) 方法 ,表現(xiàn)出良好的學(xué)習(xí)能力。它是從線性可分情況下的線性分類面發(fā)展而來的,接著利用核函數(shù)很好的解決了非線性可分情況。 2 支持向量機(jī)的幾個發(fā)展 (1)模糊支持向量機(jī),引入樣本對類別的隸屬度函數(shù),這樣每個樣本對于類別的 影響 是不同的,這種 理論 的應(yīng)用提高了SVM的抗噪聲的能力,尤其適合在未能完全揭示輸入樣本特性的情況下。 (2)最小二乘支持向量機(jī)。這種方法是在1999年提出,經(jīng)過這幾年的發(fā)展,已經(jīng)應(yīng)用要很多相關(guān)的領(lǐng)域。研究的問題已經(jīng)推廣到:對于大規(guī)模數(shù)據(jù)集的處理;處理數(shù)據(jù)的魯棒性;參數(shù)調(diào)節(jié)和選擇問題;訓(xùn)練和仿真。 (3)加權(quán)支持向量機(jī)(有偏樣本的加權(quán),有偏風(fēng)險加權(quán))。 (4)主動學(xué)習(xí)的支持向量機(jī)。主動學(xué)習(xí)在學(xué)習(xí)過程中可以根據(jù)學(xué)習(xí)進(jìn)程,選擇最有利于分類器性能的樣本來進(jìn)一步訓(xùn)練分類器,特能有效地減少評價樣本的數(shù)量。 (5)粗糙集與支持向量機(jī)的結(jié)合。首先利用粗糙集理論對數(shù)據(jù)的屬性進(jìn)行約簡,能在某種程度上減少支持向量機(jī)求解 計算 量。 (6)基于決策樹的支持向量機(jī)。對于多類問題,采用二岔樹將藥分類的樣本集構(gòu)造出一系列的兩類問題,每個兩類構(gòu)造一個SVM。 (7)分級聚類的支持向量機(jī)。基于分級聚類和決策樹思想構(gòu)建多類svm,使用分級聚類的方法,可以先把n-1個距離較近的類別結(jié)合起來,暫時看作一類,把剩下的一類作為單獨的一類,用svm分類,分類后的下一步不再考慮這單獨的一類,而只研究所合并的n-1類,再依次下去。 (8)算法上的提高。Vapnik在1995年提出了一種稱為“chunking”的塊算法,即如果刪除矩陣中對應(yīng)Lagrange乘數(shù)為0的行和列,將不會影響最終結(jié)果。Osuna提出了一種分解算法,應(yīng)用于人臉識別領(lǐng)域。Joachims在1998年將Osuna提出的分解策略推廣到解決大型SVM學(xué)習(xí)的算法。Platt于1998年提出了序貫最小優(yōu)化每次的工作集中只有2個樣本。 (9)核函數(shù)的構(gòu)造和參數(shù)的選擇理論研究。基于各個不同的應(yīng)用領(lǐng)域,可以構(gòu)造不同的核函數(shù),能夠或多或少的引入領(lǐng)域知識?,F(xiàn)在核函數(shù)廣泛應(yīng)用的類型有:多項式逼近、貝葉斯分類器、徑向機(jī)函數(shù)、多層感知器。參數(shù)的選擇現(xiàn)在利用交叉驗證的方法來確認(rèn)。 (10)支持向量機(jī)從兩類問題向多類問題的推廣。Weston在1998年提出的多類算法為代表。在經(jīng)典svm理論的基礎(chǔ)上,直接在目標(biāo)函數(shù)上進(jìn)行改進(jìn),重新構(gòu)造多值分類模型,建立k分類支持向量機(jī)。通過sv方法對新模型的目標(biāo)函數(shù)進(jìn)行優(yōu)化,實現(xiàn)多值分類。 一對多(one-against-rest)——Vapnik提出的,k類——k個分類器,第m個分類器將第m類與其余的類分開,也就是說將第m類重新標(biāo)號為1,其他類標(biāo)號為-1。完成這個過程需要計算k個二次規(guī)劃,根據(jù)標(biāo)號將每個樣本分開,最后輸出的是兩類分類器輸出為最大的那一類。不足:容易產(chǎn)生屬于多類別的點(多個1)和沒有被分類的點(標(biāo)號均為-1)——不對,訓(xùn)練樣本數(shù)據(jù)大,訓(xùn)練困難,推廣誤差無界。 層(數(shù)分類方法),是對一對一方法的改進(jìn),將k個分類合并為兩個大類,每個大類里面再分成兩個子類,如此下去,直到最基本的k個分類,這樣形成不同的層次,每個層次都用svm來進(jìn)行分類——1對r-1法,構(gòu)建k-1個分類器,不存在拒絕分類區(qū)。 3 主要研究熱點 從上面的發(fā)展中,我們可以 總結(jié) 出, 目前 支持向量機(jī)有著幾方面的研究熱點:核函數(shù)的構(gòu)造和參數(shù)的選擇;支持向量機(jī)從兩類問題向多類問題的推廣;更多的應(yīng)用領(lǐng)域的推廣;與目前其它機(jī)器學(xué)習(xí)方法的融合;與數(shù)據(jù)預(yù)處理(樣本的重要度、屬性的重要度、特征選擇等)方法的結(jié)合。 參考 文獻(xiàn) [1]?張學(xué)工.統(tǒng)計 學(xué)習(xí) 理論 的本質(zhì)[M].北京:清華大學(xué)出版社,2000. [2]?NelloCristianini,JohnShawe-Taylor.支持向量機(jī)導(dǎo)論[M].北京: 電子 工業(yè) 出版社,2004.- 1關(guān)于舉辦以房抵債合同效力及工程收款風(fēng)險控制實務(wù)高級研修班的預(yù)備通知
- 22015招標(biāo)師專業(yè)實務(wù)第二章命題點:公開招標(biāo)和邀請招標(biāo)的區(qū)別
- 3磚筒壁配筋范圍和最小配筋
- 4一級建造師復(fù)習(xí)資料:流水施工的基本組織形式
- 5近九成工程簽署質(zhì)量終身責(zé)任承諾書
- 6建筑施工程序歌謠
- 72015年監(jiān)理工程師《投資控制》每日一練(5.23)
- 8造價工程師考試基礎(chǔ)理論與相關(guān)法律法規(guī)輔導(dǎo)(五)
- 9防洪二期工程C2標(biāo)段工程施工組織設(shè)計方案
- 10不可抗力費用索賠問題
- 11插型鋼高壓旋噴樁基坑支護(hù)方法
- 12四川首個建筑工業(yè)化基地投產(chǎn) 未來重點打造100%預(yù)制化建筑
- 13恩施州某醫(yī)院外科大樓工程鋼筋施工方案
- 14滬昆客專貴州段又一座特大橋——高峰特大橋順利架通
- 15中國第一根4米大直徑橋梁鉆孔樁灌注成功
- 16水泥價現(xiàn)20年未見上漲行情 山西已斷貨
- 172015二級建造師《施工管理》重點(10)
- 182015年造價工程師《計價與控制》資料:財務(wù)基礎(chǔ)數(shù)據(jù)
- 19梁中配有計算需要的縱向受壓鋼筋時箍筋配置有哪些?
- 202015年監(jiān)理工程師《進(jìn)度控制》每日一練(10.23)
- 21北京某公寓式酒店鋼筋工程施工方案(魯班獎)
- 22鋼筋混凝土框架結(jié)構(gòu)施工工藝
- 23室外大跨度電纜橋架如何計算
- 24安順混凝土攪拌機(jī)廠家哪家好
- 25高層鋼結(jié)構(gòu)建筑的工程監(jiān)理特點分析(二)
- 26建筑工程抹水泥砂漿施工工藝
- 27自然人的3種民事行為能力:完全民事行為能力
- 28二級建造師實務(wù)復(fù)習(xí)要點:壓漿順序
- 29[北京]辦公樓工程二次結(jié)構(gòu)施工工藝
- 30【5月27日預(yù)測】天津建材價格繼續(xù)維穩(wěn)
成都公司:成都市成華區(qū)建設(shè)南路160號1層9號
重慶公司:重慶市江北區(qū)紅旗河溝華創(chuàng)商務(wù)大廈18樓