亚洲国产日韩欧美在线a乱码,国产精品路线1路线2路线,亚洲视频一区,精品国产自,www狠狠,国产情侣激情在线视频免费看,亚洲成年网站在线观看

從此我不再天真的初二作文

時(shí)間:2025-10-11 22:33:25 初二作文 我要投稿

從此我不再天真的初二作文

  摘要:隨著統(tǒng)計(jì)學(xué)習(xí)理論的出現(xiàn),將經(jīng)驗(yàn)風(fēng)險(xiǎn)最小和泛化性相結(jié)合的SVM(支持向量機(jī))成為當(dāng)今新的研究熱點(diǎn)。在參考大量文獻(xiàn)的基礎(chǔ)上,本文對(duì)SVM的本質(zhì)做了,同時(shí)給出了常用的SVM軟件,SVMlight,LIBSVM,為了深入了解SVM軟件實(shí)現(xiàn)機(jī)制,對(duì)相關(guān)的分解算法和優(yōu)化算法SMO也做了詳細(xì)的介紹。通過(guò)改進(jìn)SVMlight和LIBSVM的瓶頸同時(shí)二者精華基礎(chǔ)上,本文給出了高效的HeroSVM,并對(duì)其實(shí)現(xiàn)機(jī)制給出了詳細(xì)的介紹。最后本文對(duì)SVMlight和LIBSVM在相同數(shù)據(jù)集上做了對(duì)比,并給出了性能分析。

從此我不再天真的初二作文

  第一章引言

  1.1理論背景

  基于數(shù)據(jù)的機(jī)器學(xué)習(xí)是現(xiàn)代智能技術(shù)中的重要方面,從觀測(cè)數(shù)據(jù)(樣本)出發(fā)尋找規(guī)律,利用這些規(guī)律對(duì)未來(lái)數(shù)據(jù)或無(wú)法觀測(cè)的數(shù)據(jù)進(jìn)行預(yù)測(cè)。傳統(tǒng)的經(jīng)典的(參數(shù))統(tǒng)計(jì)估計(jì)方法,要求已知參數(shù)的相關(guān)形式,利用訓(xùn)練樣本用來(lái)估計(jì)參數(shù)的值,包括模式識(shí)別、神經(jīng)網(wǎng)絡(luò)等在內(nèi),但是這種方法有很大的局限性,因?yàn)樾枰阎獦颖痉植夹问,而這需要花費(fèi)很大代價(jià),還有,隱含的思想是樣本數(shù)目趨于無(wú)窮大時(shí)的漸近理論,但在實(shí)際問(wèn)題中,樣本數(shù)往往是有限的,因此這些理論上很優(yōu)秀的學(xué)習(xí)方法實(shí)際中表現(xiàn)卻可能不盡人意。還有就是經(jīng)驗(yàn)非線性方法,如人工神經(jīng)網(wǎng)絡(luò)(ANN),這種方法利用已知樣本建立非線性模型,克服了傳統(tǒng)參數(shù)估計(jì)方法的困難,但是缺乏一種統(tǒng)一的數(shù)學(xué)理論,在這種基礎(chǔ)上現(xiàn)代的統(tǒng)計(jì)學(xué)習(xí)理論就誕生了。

  統(tǒng)計(jì)學(xué)習(xí)理論[1](StatisticalLearningTheory或SLT)是一種專門(mén)研究小樣本情況下機(jī)器學(xué)習(xí)規(guī)律的理論.統(tǒng)計(jì)學(xué)習(xí)理論的一個(gè)核心概念就是VC維(VCDimension)概念,它是描述函數(shù)集或?qū)W習(xí)機(jī)器的復(fù)雜性或者說(shuō)是學(xué)習(xí)能力(Capacityofthemachine)的一個(gè)重要指標(biāo),在此概念基礎(chǔ)上發(fā)展出了一系列關(guān)于統(tǒng)計(jì)學(xué)習(xí)的一致性(Consistency)、收斂速度、推廣性能(GeneralizationPerformance)等的重要結(jié)論。統(tǒng)計(jì)學(xué)習(xí)理論是建立在一套較堅(jiān)實(shí)的理論基礎(chǔ)之上的,為解決有限樣本學(xué)習(xí)問(wèn)題提供了一個(gè)統(tǒng)一的框架。它能將很多現(xiàn)有方法納入其中,有望幫助解決許多原來(lái)難以解決的問(wèn)題(比如神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)選擇問(wèn)題、局部極小點(diǎn)問(wèn)題等。

  1.2SVM介紹

  V.Vapnik提出的支持向量機(jī)理論[2]是建立在統(tǒng)計(jì)學(xué)習(xí)理論的VC維理論和結(jié)構(gòu)風(fēng)險(xiǎn)最小原理基礎(chǔ)上的,根據(jù)有限的樣本信息在模型的復(fù)雜性(即對(duì)特定訓(xùn)練樣本的學(xué)習(xí)精度,Accuracy)和學(xué)習(xí)能力(即無(wú)錯(cuò)誤地識(shí)別任意樣本的能力)之間尋求最佳折衷,以期獲得最好的推廣能力(GeneralizatinAbility)。支持向量機(jī)方法的幾個(gè)主要優(yōu)點(diǎn)有:

  1.它是專門(mén)針對(duì)有限樣本情況的,其目標(biāo)是得到現(xiàn)有信息下的最優(yōu)解而不僅僅是樣本數(shù)趨于無(wú)窮大時(shí)的最優(yōu)值;

  2.算法最終將轉(zhuǎn)化成為一個(gè)二次型尋優(yōu)問(wèn)題,從理論上說(shuō),得到的將是全局最優(yōu)點(diǎn),解決了在神經(jīng)網(wǎng)絡(luò)方法中無(wú)法避免的局部極值問(wèn)題;

  3.算法將實(shí)際問(wèn)題通過(guò)非線性變換轉(zhuǎn)換到高維的特征空間(FeatureSpace),在高維空間中構(gòu)造線性判別函數(shù)來(lái)實(shí)現(xiàn)原空間中的非線性判別函數(shù),特殊性質(zhì)能保證機(jī)器有較好的推廣能力,同時(shí)它巧妙地解決了維數(shù)問(wèn)題,其算法復(fù)雜度與樣本維數(shù)無(wú)關(guān);已經(jīng)有許多事實(shí)證明,作為支持向量機(jī)最基本思想之一的結(jié)構(gòu)化風(fēng)險(xiǎn)最小化原則[2](StructuralRiskMinimization,SRM)要優(yōu)于傳統(tǒng)的經(jīng)驗(yàn)風(fēng)險(xiǎn)最小化原則(EmpiricalRiskMinimization,ERM)。不同于ERM試圖最小化訓(xùn)練集上的誤差的做法,SRM試圖最小化VC維的上界,從而使其學(xué)習(xí)機(jī)獲得了更好的推廣性能,這恰恰是統(tǒng)計(jì)學(xué)習(xí)理論最重要的目標(biāo)之一。支持向量機(jī)的主要應(yīng)用領(lǐng)域有模式識(shí)別、函數(shù)逼近和概率密度估計(jì)等等。

  *****因?yàn)樯婕暗教嗟膱D表和公式無(wú)法顯示,省略一部分。********

  1.2SVM算法研究現(xiàn)狀

  由于SVM方法較好的理論基礎(chǔ)和它在一些領(lǐng)域的應(yīng)用中表現(xiàn)出來(lái)的優(yōu)秀的推廣性能,近年來(lái),許多關(guān)于SVM方法的研究,包括算法本身的改進(jìn)和算法的實(shí)際應(yīng)用,都陸續(xù)被研究出來(lái),比較出名的有SVMlight[4],SMO[5],LIBSVM[8],HeroSVM[11]等。

  盡管SVM算法的性能在許多實(shí)際問(wèn)題的應(yīng)用中得到了驗(yàn)證,但是該算法在計(jì)算上存在著一些問(wèn)題,包括訓(xùn)練算法速度慢、算法復(fù)雜而難以實(shí)現(xiàn)以及檢測(cè)階段運(yùn)算量大等等。傳統(tǒng)的利用標(biāo)準(zhǔn)二次型優(yōu)化技術(shù)解決對(duì)偶問(wèn)題的方法可能是訓(xùn)練算法慢的主要原因:首先,SVM方法需要計(jì)算和存儲(chǔ)核函數(shù)矩陣,當(dāng)樣本點(diǎn)數(shù)目較大時(shí),需要很大的內(nèi)存,例如,當(dāng)樣本點(diǎn)數(shù)目超過(guò)4000時(shí),存儲(chǔ)核函數(shù)矩陣需要多達(dá)128兆內(nèi)存;其次,SVM在二次型優(yōu)化過(guò)程中要進(jìn)行大量的矩陣運(yùn)算,多數(shù)情況下,優(yōu)化算法是占用算法時(shí)間的主要部分。SVM方法的訓(xùn)練運(yùn)算速度是限制它的應(yīng)用的主要方面,近年來(lái)人們針對(duì)方法本身的特點(diǎn)提出了許多算法來(lái)解決對(duì)偶優(yōu)化問(wèn)題。大多數(shù)算法的一個(gè)共同的思想就是循環(huán)迭代:將原問(wèn)題分解成為若干子問(wèn)題,按照某種迭代策略,通過(guò)反復(fù)求解子問(wèn)題,最終使結(jié)果收斂到原問(wèn)題的最優(yōu)解。

  1.3分解理論

  在真實(shí)世界中分解是解決復(fù)雜問(wèn)題的常用策略,一個(gè)復(fù)雜問(wèn)題分解為很多的子問(wèn)題,而這些子問(wèn)題可以很方便的應(yīng)用一些常用的技術(shù),而且這些子問(wèn)題聯(lián)合起來(lái)又可以解決原始問(wèn)題,這就是分解理論的意義所在。分解應(yīng)用到SVM中就是在每次迭代過(guò)程中,都將優(yōu)化問(wèn)題中的拉格朗日乘子分為迭代過(guò)程需要改變的自由變量集合B和暫時(shí)不變的固定變量N兩部分,當(dāng)優(yōu)化條件被破壞時(shí),從B集合中選擇變量進(jìn)行更改,其余的變量保持不變,從而將二次規(guī)劃問(wèn)題進(jìn)行分解。

  根據(jù)子問(wèn)題的劃分和迭代策略的不同,又可以大致分為兩類。第一類是所謂的“塊算法[3]”(chunkingalgorithm)。“塊算法”基于的是這樣一個(gè)事實(shí),即去掉Lagrange乘子等于零的訓(xùn)練樣本不會(huì)影響原問(wèn)題的解。對(duì)于給定的訓(xùn)練樣本集,如果其中的支持向量是已知的,優(yōu)化算法就可以排除非支持向量,只需對(duì)支持向量計(jì)算權(quán)值(即Lagrange乘子)即可。實(shí)際上支持向量是未知的,因此“塊算法”的目標(biāo)就是通過(guò)某種迭代方式逐步排除非支持向量。具體的作法是,選擇一部分樣本構(gòu)成樣本集進(jìn)行訓(xùn)練,剔除其中的非支持向量,并用訓(xùn)練結(jié)果對(duì)剩余樣本進(jìn)行檢驗(yàn),將不符合訓(xùn)練結(jié)果(一般是指違反KKT條件)的樣本(或其中的一部分)與本次結(jié)果的支持向量合并成為一個(gè)新的樣本集,然后重新訓(xùn)練。如此重復(fù)下去直到獲得最優(yōu)結(jié)果。當(dāng)支持向量的數(shù)目遠(yuǎn)遠(yuǎn)小于訓(xùn)練樣本數(shù)目時(shí),“塊算法”顯然能夠大大提高運(yùn)算速度。

  然而,如果支持向量的數(shù)目本身就比較多,隨著算法迭代次數(shù)的增多,樣本集也會(huì)越來(lái)越大,算法依舊會(huì)變得十分復(fù)雜。因此第二類方法把問(wèn)題分解成為固定樣本數(shù)[5]的子問(wèn)題:樣本集的大小固定在算法速度可以容忍的限度內(nèi),迭代過(guò)程中只是將剩余樣本中部分“情況最糟的樣本”與樣本集中的樣本進(jìn)行等量交換,即使支持向量的個(gè)數(shù)超過(guò)樣本集的大小,也不改變樣本集的規(guī)模,而只對(duì)支持向量中的一部分進(jìn)行優(yōu)化。

  固定樣本集的方法和塊算法的主要區(qū)別在于:塊算法的目標(biāo)函數(shù)中僅包含當(dāng)前樣本集中的樣本,而固定樣本集方法雖然優(yōu)化變量?jī)H包含樣本,但目標(biāo)函數(shù)卻包含整個(gè)訓(xùn)練樣本集,即樣本集之外的樣本的Lagrange乘子固定為前一次迭代的結(jié)果,而不是像塊算法中那樣設(shè)為0。而且固定樣本集方法還涉及到一個(gè)確定換出樣本的問(wèn)題(因?yàn)閾Q出的樣本可能是支持向量)。這樣,這一類算法的關(guān)鍵就在于找到一種合適的迭代策略使得算法最終能收斂并且較快地收斂到最優(yōu)結(jié)果,通過(guò)這里也可以看出固定集方法的時(shí)間要比塊算法慢的多。

  固定樣本集的方法最早大概是由Osunaetal[6].提出的。在[7]中,EdgarOsunal等人介紹了一種具體的算法并對(duì)人臉識(shí)別問(wèn)題進(jìn)行了實(shí)驗(yàn)。將樣本集分為兩個(gè)集合B和N,集合B作為子問(wèn)題樣本集進(jìn)行SVM訓(xùn)練,集合N中所有樣本的Lagrange乘子均置為零。顯然,如果把集合B中對(duì)應(yīng)Lagrange乘子為零的樣本i(即ai=0,iB)與集合N中的樣本j(即ai=0,jN)交換,不會(huì)改變子問(wèn)題與原問(wèn)題的可行性(即仍舊滿足約束條件);而且,當(dāng)且僅當(dāng)樣本滿足條件KKT條件時(shí),替換后的子問(wèn)題的最優(yōu)解不變。于是可以按照以下步驟迭代求解:

  1.選擇集合B,構(gòu)造子問(wèn)題;

  2.求子問(wèn)題最優(yōu)解aiiBb,并置aj=0,jN;

  3.找出其中不滿足條件KKT的樣本j,與B中滿足ai=0的樣本i交換,構(gòu)成新的子問(wèn)題。[7]證明了這種迭代算法的收斂性,并給出了兩階多項(xiàng)式分類器在人臉識(shí)別問(wèn)題中的應(yīng)用結(jié)果。需要說(shuō)明的是,文中沒(méi)有說(shuō)明集合B的大小是否改變。 前面提到,固定樣本集方法的關(guān)鍵在于選擇一種合適的換入換出策略。Joachims指出如果采用某種啟發(fā)式的迭代策略將會(huì)提高算法的收斂速度。最近JohnC.Platt在[5]中提出SMO(SequentialMinimalOptimization或SMO)算法。將樣本集的規(guī)模減到最小——兩個(gè)樣本。之所以需要兩個(gè)樣本是因?yàn)榈仁骄性約束的存在使得同時(shí)至少有兩個(gè)Lagrange乘子發(fā)生變化。由于只有兩個(gè)變量,而且應(yīng)用等式約束可以將其中一個(gè)用另一個(gè)表示出來(lái),所以迭代過(guò)程中每一步的子問(wèn)題的最優(yōu)解可以直接用解析的方法求出來(lái)。這樣,算法避開(kāi)了復(fù)雜的數(shù)值求解優(yōu)化問(wèn)題的過(guò)程;此外,Platt[5]還設(shè)計(jì)了一個(gè)兩層嵌套循環(huán)分別選擇進(jìn)入樣本集的樣本,這種啟發(fā)式策略大大加快了算法的收斂速度。標(biāo)準(zhǔn)樣本集的實(shí)驗(yàn)結(jié)果證明,SMO表現(xiàn)出在速度方面的良好性能。子問(wèn)題的規(guī)模和迭代的次數(shù)是一對(duì)矛盾,SMO將樣本集的規(guī)模減少到2,一個(gè)直接的后果就是迭代次數(shù)的增加。所以SMO實(shí)際上是將求解子問(wèn)題的耗費(fèi)轉(zhuǎn)嫁到迭代上,然后在迭代上尋求快速算法。但是,SMO迭代策略的思想是可以用到其他迭代算法中的,可見(jiàn),SMO還有改進(jìn)的余地。

  本文的第二部分將分別就幾種著名的軟件進(jìn)行介紹,給出其基于的理論基礎(chǔ)。第三部分就第二部分進(jìn)行分析,對(duì)比各軟件之間的差異,給出分析結(jié)論。最后對(duì)其應(yīng)用前景和改進(jìn)空間進(jìn)行討論。

【從此我不再天真的初二作文】相關(guān)文章:

我從此不再煩惱作文02-27

從此我不再任性初二作文500字(精選18篇)07-04

從此我不再恐懼初二作文500字(通用10篇)07-01

從此,我不再煩惱作文(精選18篇)08-16

從此我不再期待初三作文06-29

(精選)從此不再作文500字12-11

從此不再作文500字10-14

從此我不再說(shuō)謊作文(通用31篇)03-05

從此我不再害怕作文500字(精選32篇)06-11

從此,我不再悲傷初三作文(精選13篇)12-16

  • 相關(guān)推薦