前言:中文期刊網精心挑選了神經網絡提取特征范文供你參考和學習,希望我們的參考范文能激發你的文章創作靈感,歡迎閱讀。
神經網絡提取特征范文1
關鍵詞:車牌字符;BP人工神經網絡;圖像識別;模式識別
引言
近年來,神經網絡的智能化特征與能力使其應用領域日益擴大,潛力日趨明顯。許多用傳統信息處理方法無法解決的問題采用神經網絡后取得了良好的效果。其中,神經網絡在車牌字符識別中的應用效果尤為明顯。目前,車牌字符識別主要采用兩種方法,即模式匹配法和神經網絡法。由于神經網絡模式識別方法能夠實現基于計算理論層次上的模式識別理論所無法完成的模式信息處理工作,這種方法是選用適當的字符圖像特征提取方法,然后使用訓練樣本訓練網絡并構建一個識別網絡作為分類器。所以,相信未來一段時期內神經網絡在車牌字符識別領域中的應用還會是趨于主導地位。
1 人工神經網絡簡介
人工神經網絡來提取特征向量,把字符平均分成8份,統計每一份內黑色像素點的個數作為8個特征, 即分別統計這8個區域中的黑色像素點的數目,可以得到8個特征。然后統計水平方向中間兩列和豎直方向中間兩列的黑色像素點的個數作為4個特征,最后統計所有黑色像素點的個數作為第13個特征。如下圖所示:
圖3 13特征提取法
神經網絡提取特征范文2
關鍵詞 滾動軸承;Matlab;時域、頻域特征值;神經網絡
中圖分類號:TH133.33 文獻標識碼:A 文章編號:1671—7597(2013)051-113-01
滾動軸承是將運轉的軸與軸座之間的滑動摩擦變為滾動摩擦,從而減少摩擦損失的一種精密的機械元件。由于它使用方便,具有較高的可靠性且其起動性能好,在中等速度下其承載能力較高,所以是目前被廣泛使用的一類軸承。
滾動軸承在運轉時可能會由于各種原因導致損壞,旋轉機械的故障很大程度是由滾動軸承故障引起的,其運行狀態的正常與否會影響到整臺機器的性能。但對重要用途的軸承來說定時維修是很不合理的,費時費力,若在軸承運轉過程中,進行工況監視與故障診斷,將定時維修改變為視情維修或預知維修,這樣既可以防止機械工作精度的下降,又能最大限度地發揮軸承的工作潛力,所以說對軸承進行故障診斷是非常重要的。
當滾動軸承元件的工作表面出現疲勞剝落、壓痕或局部腐蝕等問題時,軸承在運行中就會出現周期性的振動信號。用安裝在軸承座或軸承周圍的傳感器采集這種周期信號,并用放大器放大信號,經A/D轉換將模擬信號轉換成計算機可以識別并處理的數字信號,計算機利用Matlab編程在信號的時域和頻域內分別抽取有效的特征值,經一系列計算,建立正確的神經網絡并進行模式識別判斷故障類型,達到軸承狀態檢測的目的。
傳感器采集到的振動信號,在進行特征值提取前需計算機對數據進行零均值化處理,其目的一方面可以提高數據的可靠性、真實性,另一方面檢查信號的隨機性,以便正確地選擇分析處理方法。
對軸承振動信號進行時域分析的步驟是在信號時域內獲得時域特征值,用獲得的時域特征值與正常軸承運行時的特征值進行比對確定軸承的狀態。常用的特征值可分為有量綱參數和無量綱參數。有量綱量包括:均值、方差、均方根值、峰值等,無量綱量包括:峰值因子、峭度系數、波形因子、脈沖因子、裕度因子等,對零均值化后的數據進行特征提取,通過Matlab可得其樣本的時域特征值,鑒于時域分析不能完全反映滾動軸承工作狀態,故還需對樣本進行頻域分析。對零均值化后的數據進行傅里葉變換,通過軟件繪制頻譜圖,對不同樣本故障軸承和不同樣本正常軸承的頻譜圖進行對比,設得出n個特征頻率點,特征值的選擇應遵循不同樣本數值變化明顯、相同樣本數值穩定的特點,再對各個樣本一一進行特征抽取,獲得頻域特征值。由于各個特征值的幅值大小不一,有時甚至相差很大,不便于檢測者比較同一特征值的不同樣本之間的差異,并且考慮到后面的神經網絡的建立及輸入值的大小等問題,可將所有特征值歸一化到0~1區間。線性函數轉換,表達式如下:u=(x-min(min(x)))/(max(max(x))-min(min(x)))。
通過抽取的特征值可以看出正常軸承與故障軸承的差異性及相同狀態軸承不同樣本的重復性。但通常為更直觀地比較正常軸承與故障軸承不同樣本間的重復性以及正常軸承與故障軸承的差異性,常用matlab作出它們的頻譜特征直方圖,通過圖可以明顯看出重復性與差異性,同時選取的特征頻率點也能充分反應兩種狀態軸承的特征。
BP神經網絡是由一個輸入層,一個或多個隱層以及一個輸出層組成的,上下層可以實現全連接,而每層神經元相互獨立,沒有連接。使用BP神經網絡時,需對其輸入層、隱層、輸出層進行具體的設計。設計神經網絡的一般方法是:輸入層的神經元數目應根據所要求解的問題及數據表示形式來確定,在故障診斷中,輸入層神經元個數一般等于每個樣本中包含的特征值的個數;輸出層的神經元個數股可根據設計者的要求確定,在故障診斷中,一般將BP網絡用作分類器,例如測其軸承狀態,只有故障和正常之分,確定的輸出層神經元的個數則為2個;隱層的神經元個數選擇則比較繁瑣,沒有準確的式子可將其求解出,一般需要設計者多次試驗來確定。隱層單元的個數與問題的要求與輸入層、輸出層神經元的數目都是相互聯系的。
首先將已歸一化的特征值作為BP神經網絡的基礎,按上述方法設計BP神經網絡,確定其各個參數。然后建立神經網絡并對其進行訓練,從而實現模式識別。
在滾動軸承狀態監測過程中,樣本數據是實驗數據經分析處理后所提取的有效特征值。由前面假設提取的特征值個數可知,網絡輸入神經元個數應為n;網絡輸出為軸承狀態,所以輸出神經元個數為2。 對于軸承的不同狀態進行識別,建立神經網絡對它進行訓練,確定隱層個數,計算出隱層神經元個數。
設網絡的輸出層神經元傳遞函數與隱含層神經元傳遞函數分別為L、T,最大訓練步數定為m,目標誤差定為0.01。通過Matlab軟件經過m次的訓練后,網絡隱層的神經元數目選為BP網絡對函數的逼近效果最好時的數目。
通過已確定的網絡結構,對神經網絡進行訓練,經編程計算得到其訓練步數。神經網絡訓練好后,需對神經網絡進行測試。將測得結果與期望結果進行比較,若測得結果與期望值一致,那么說明此數據的分類正確,也就是說前面建立起來的神經網絡對軸承狀態的識別系統是正確的;若不一致,需重新設計網絡結構并進行計算。得到正確的神經網絡,以后再對其他此類型的軸承狀態進行檢測時,只需將采集的數據輸入這個網絡中,就可以根據它的輸出結果正確的判別出此軸承的狀態。
本文大體介紹了滾動軸承的優點及故障診斷的必要性,并針對具體故障對軸承進行了完整的故障診斷。對軸承故障診斷的重要性、信號分析、模式識別四個方面分別進行了闡述。針對具體故障進行研究時,進行了特征值提取和模式識別。提取特征值時,分別進行時域分析和頻域分析。時域分析過程中得到了時域特征值,對時域特征值進行重復性和有效性檢驗后,確定了明顯、穩定的時域特征值進行模式識別。頻域分析采用了傅里葉變換,得到頻譜圖,經過重復性和有效性檢驗后,最終確定特征頻率點。得到特征值后,就可以進行模式識別。本文采用BP神經網絡進行模式識別。先是對輸入層、隱層、輸出層分別進行設計,然后再通過訓練確定網絡的最終結構。網絡結構確定后,對神經網絡進行訓練,至達到訓練目標。訓練完后,對神經網絡進行測試,獲得正確神經網絡。
參考文獻
[1]軸承工業協會編著.滾動軸承檢驗與檢測[M].河南人民出版社,2010.
[2]王.滾動軸承測試技術[M].機械工業出版社,2008.
神經網絡提取特征范文3
關鍵詞:人工神經網絡;故障診斷;水泵
中圖分類號:TU
文獻標識碼:A
文章編號:1672-3198(2010)04-0295-02
1 人工神經網絡理論應用于水泵故障診斷研究的理論意義
采用人工神經網絡(ANN)技術解決機械故障診斷問題的主要著眼點在于:
(1)ANN的大規模分布式并行處理能力,適于解決復雜的診斷問題。
(2)ANN具有較強的非線性處理能力,適宜于解決故障診斷中復雜的非線性模式識別問題。
(3)ANN具有任意復雜映射的強有力的逼近能力,適宜于解決故障領域中的預測與控制問題。
水泵工作故障往往表現為工作平穩性惡化、振動加劇以及噪聲增大,這往往又是衡量機器制造質量和工作性能的重要指標。本文以某型號離心泵為對象,通過測取故障振動信號來進行故障診斷。
水泵轉子由于制造誤差、裝配不當或在不適當的條件(載荷、等)下使用,常會發生以下故障:①轉子不平衡;②不對中;③油膜渦動。而這些故障將會使軸承的旋轉精度降低,產生振動、噪聲,增加軸承旋轉的阻力,最終將使軸承受到阻滯或卡死,造成整個工業系統的失效。振動中不平衡、不對中以及油膜渦動占整個故障發生率的80%。因此對上述故障進行診斷具有非常重要的意義。
神經網絡之所以適合于故障診斷,是因為神經網絡具有以下優越性:自組織和自學習能力可以根據對象的正常歷史數據訓練神經網絡,然后將此信息與當前測量數據進行比較,以確定故障;聯想記憶神經網絡具有濾出噪聲及在有噪聲情況下得出正確結論的能力,可以訓練神經網絡來識別故障信息,使其能在噪聲環境中有效地工作,這種濾除噪聲的能力使得神經網絡適合在線故障檢測和診斷;非線性映射能力神經網絡對于高維空間模式識別和非線性模式識別問題的分類精度高,具有分辨故障原因及類型的能力,這為實現故障診斷奠定了基礎。因此,神經網絡理論在故障診斷領域顯示出了極大的應用潛力。本文將新興的神經網絡理論應用于水泵的故障診斷和狀態檢測,以某型號水泵的實測數據為例,對神經網絡模型進行訓練分析,取得了令人滿意的結果,具有實際應用價值。
2 人工神經網絡應用于水泵故障診斷技術的實現
2.1 樣本數據的獲取
實驗采用便攜式Dasylab測試系統進行測試,在現場對三種故障進行模擬,將數據信號存儲在磁盤中,得到水泵三種故障:(1)轉子不平衡;(2)轉子不對中; (3)油膜渦動的時域曲線和頻域曲線。對各個故障的頻域曲線,提取了五個不同頻率的幅值作為描述水泵故障的特征值,并把這組特征值作為輸入量。
2.2 特征提取
要從樣本中提取對診斷故障貢獻大的有用信息,這一工作就是特征提取。特征提取就是利用已有特征參數構造一個較低維數的特征空間,將原始特征中蘊含的有用信息映射到少數幾個特征上,忽略多余的不相干的信息,從數學意義上講,就是對一個n維向量X=[x1.x2,…,xn]T進行降維變換成低維向量Y=[y1,y2,…,yn]T,m
由于水泵設備總是運行在噪聲、電磁干擾等環境中,在振動信號分析與處理方法中,常用快速傅立葉(FFT)變換對振動信號進行頻譜分析。
2.3 樣本數據的預處理
原始樣本數據不宜直接作為神經網絡輸入,那會使網絡連接權值相差極大,使網絡輸出性能變得不穩定。因此在輸入網絡前通常需要將數據進行預處理。為了一開始就使各變量的重要性處于同等地位,神經網絡學習和測試時要對提取的數據進行歸一化處理,即:令
x′i=xi-xminxmax-xmin(1.1)
xi――不同頻率下的幅值
xmin――最小幅值xmin=min(xi)
xmax――最大幅值xmax=max(xi)
這樣,網絡所有輸入都在[0, 1]內。
2.4 水泵故障診斷神經網絡模型結構
由于故障機理(故障征兆和故障原因之間的關系)往往隱含于故障實例之中,通過一些故障實例(稱為故障樣本)對神經網絡進行訓練學習,可以建立起系統的故障診斷模型,而故障診斷的推理規則隱含于神經網絡的網絡拓撲結構和網絡權值之中。
多層前饋神經網絡的輸入和輸出之間的關系,可以看成是一種映射關系,這種映射是一個高度非線性映射,如果輸入節點數為L,輸出節點數為N,網絡是從L維歐氏空間到N維歐氏空間的映射。三層神經就已經能夠逼近任意函數了,因此,水泵故障診斷神經網絡采用三層結構即輸入層、輸出層和隱含(中間層)。通過有監督的訓練方法訓練網絡權值。
(1)輸入層設計。
特征參數組成特征向量,特征向量作為網絡輸入。所以,特征參數選取的正確與否直接影響到網絡的性能。
通常,選取的方法應該通過理論分析、專家經驗、試驗找出對水泵性能影響較大,同時對各種故障都有較明顯反應的變量作為特征參數,然后將這些特征參數組成特征向量,經過數據的預處理,作為BP網絡的輸入。第二章通過水泵故障機理的分析可以發現5個參數在故障情況下變動明顯。因此,本文選取以上5個參數作為BP網絡的輸入參數。
輸入層中神經元節點的個數對應著上述狀態特征描述參數矢量或數組。通過對水泵故障的分析,提取了頻域曲線中五個不同頻率的幅值作為描述水泵故障的特征值,并把這組特征值作為輸入量,所以水泵故障診斷神經網絡的輸入單元為5個。
(2)輸出層設計。
網絡輸出向量,通常是具體問題的目標結果。本文的目的是判斷某一狀態下處于何種故障,輸出層中神經元節點的個數對應于神經網絡要識別的故障模式矢量或矩陣。本故障診斷神經網絡需要對不平衡、不對中和油膜渦動三種故障進行識別。因此水泵故障診斷神經網絡的輸出為3個單元。
如以上所述,BP神經網絡的輸入神經元有5個,輸出神經元有3個。隱層神經元數目是由訓練樣本數目決定的。
(3)中間層設計。
中間層數及其神經元節點的個數與輸入的技術特征參數的復雜程度及所需識別的故障模式種類有關。當輸入模式和輸出模式相當不同時,就需要增加中間層,形成輸入信號的中間轉換。處理信號的能力隨層數的增加而增加,如果有足夠的中間層單元,輸入模式也總能轉換為適當的輸出模式。一般來說,還沒有任何理論根據采用兩層以上的中間層。對大多數的實際問題來說,一層中間層即三層網絡己經足夠了。根據經驗,采用兩層以上的中間層幾乎沒有任何益處。采用越多的中間層,訓練時間就會急劇增加,這是因為中間層越多,誤差向后傳播的過程計算就越復雜,使訓練時間急劇增加。另外中間層增加后,局部最小誤差也會增加,網絡在訓練過程中,往往容易陷入局部最小誤差而無法擺脫,網絡的權重難以調整到最小誤差處。
根據試驗的需要和具體的分析,本研究所建立的網絡為一層中間層,確定中間層以后的一個重要問題是選擇適當的中間層處理單元。可以說,選用中間層單元數往往是網絡成敗的關鍵,因為中間層處理單元數選用太小,則網絡所能獲取的用以解決問題的信息太少,難以處理復雜的問題;但若中間層處理單元數過多,不僅使網絡的訓練時間急劇增加,難以在人們所能接受的時間內完成訓練,更重要的是過多的中間層處理單元還可能出現所謂“過度吻合”問題。也就是說,如果網絡具有過多的信息處理能力,甚至把訓練集中一些無關緊要的非本質的東西,也學的惟妙惟肖時,則網絡就難以分辨數據中真正的模式。
一般來說,中間層單元數可根據下式確定,
n1=n+m+α
式中n1――中間層單元數 m――輸出層單元數 n――輸入層單元數
α――1-10之間的整數
本文中,m取3,n取5,根據上面公式中間層單元數n1取5。從而該水泵故障診斷神經網絡結構如圖所示。
圖1
2.5 神經網絡關鍵程序實現
(1)創建網絡。
使用newff()函數創建網絡,網絡參數設置如下:
隱藏層神經元設置為5,輸出層神經元個數為3,根據神經網絡的要求和所要達到的網絡輸出目的,選擇輸入層到隱藏層間的傳遞函數為tansig,即S型的正切函數,隱藏層到輸出層間的傳遞函數為logsig型函數,即為S型的對數函數。
使用訓練函數trainlm來訓練網絡。
(2)設置訓練次數。
將訓練次數設置為1000次。
(3)設置學習效率。
學習速率決定每一次循環訓練中所產生的權值變化量,用η表示。η較大時,權值的變化量就較大,學習速率比較快,但有時會導致振蕩。η較小時,學習速率慢,然而學習過程平穩。這樣,在實際的學習過程中,可以將η值取為一個與學習過程有關的變量,并且在學習剛開始時η值相對大,然后隨著學習的深入,η值逐漸減小。在一些簡單的問題中,η可取為一個常數,滿足0
(4)網絡訓練。
使用學習樣本和目標向量訓練網絡,P和T分別設為訓練樣本向量和目標向量。
(5)診斷測試。
利用待診斷數據樣本P_test,使用sim()函數實現測試。
3 結束語
本文采用Dasylab測試軟件采集故障信號,以信號頻譜中各階倍頻和分頻作為智能診斷的特征因子,提取故障樣本,進行BP網絡的訓練。利用MATLAB建立了水泵故障診斷神經網絡學習和診斷程序,實現了基于人工神經網絡理論的某型號水泵故障診斷模型。結果表明,本神經網絡故障診斷模型不僅克服了傳統診斷方法的弊端,而且大大提高了水泵故障診斷的準確率和診斷效率。
參考文獻
[1]廖伯瑜.機械故障診斷基礎[M].北京:冶金工業出版社,2003:1-36.
[2]田景文.工神經網絡算法研究及應用[M].北京:北京理工大學出版社,2006:70-90.
[3]韓力群.人工神經網絡教程[M].北京:北京郵電大學出版社,2006:50-85.
神經網絡提取特征范文4
關鍵詞:遺傳算法;BP神經網絡;乳腺腫瘤;計算機輔助診斷
DOIDOI:10.11907/rjdk.161973
中圖分類號:TP319
文獻標識碼:A 文章編號文章編號:16727800(2016)011014404
0 引言
乳腺癌作為全球女性中最為頻發的惡性腫瘤疾病和癌癥死亡的首要原因,嚴重危害女性身心健康。近年來,我國乳腺癌的發病率和死亡率逐年上升,且呈明顯的年輕化趨勢。乳腺癌在初期常無明顯臨床癥狀,或僅表征為輕微的疼痛[1]。迄今為止,乳腺癌發病的確切原因還未找到,盡管環境、遺傳因素和生活方式是造成乳腺癌的主要因素,但60%以上的乳腺癌患者身上并不存在這些明顯的危險因素[2]。因此,早發現、早診斷仍是當前提高乳腺癌治愈率和降低死亡率最有效的途徑[3]。
腫瘤作為乳腺癌的直接病理征象和主要診斷依據,大約90%的乳腺癌患者在X影像上有清晰的腫瘤征象。由于X線是一種無創、微輻射的檢查方法,檢查費用低,而且對腫瘤與鈣化比較敏感,因此X線乳腺圖像已經成為檢測乳腺癌的黃金標準,通過它來檢測乳腺異常是預防乳腺癌的重要方法之一[4]。隨著醫學影像學和計算機輔助診斷技術的發展,基于X線乳腺圖像的CAD系統得到了廣泛應用,但是不同CAD系統的診斷效果也由系統自身決定[5]。2013年,Marc Lobbes比較了兩個CAD系統(Second Look 和 AccuDetect Galileo)的病灶檢測能力,并分析了326份病例,結果顯示,AccuDetect Galileo在檢測腫瘤與微鈣化(尤其是針對致密性乳腺)時效果更佳[6]。目前,針對X線圖像的乳腺腫瘤輔助診斷算法主要分為圖像增強、腫瘤分割、特征提取和優化,以及良惡性腫瘤識別4部分。
近年來,隨著BP神經網絡理論的完善和成熟,在計算機輔助診斷領域得到了廣泛應用。由于BP神經網絡具有強大的非線性映射能力,在使用乳腺腫瘤病灶組織圖像時,建立基于神經網絡的乳腺腫瘤輔助診斷方法模型,不僅能夠提高乳腺癌的診斷準確率,而且可以為臨床醫生提供幫助。但是BP神經網絡在進行輔助診斷建模時,會因其輸入特征的多維性而造成模型精度低、建模時間長等問題。所以,本文提出了基于遺傳算法―BP神經網絡的乳腺腫瘤CAD方法。首先,提取乳腺腫瘤ROI的幾何特征、形狀特征、灰度特征、紋理特征、頻率特征和邊緣特征79維;然后用遺傳算法(GA)對提取的特征進行約簡,去除冗余特征后選擇最能體現腫瘤良惡性的特征組合17維;最后基于GA-BP神經網絡模型進行乳腺腫瘤良惡性分類,探討GA-BP模型在乳腺腫瘤分類識別中的性能。
1 基礎知識
1.1 遺傳算法
遺傳算法(Genetic Algorithm,GA)是模擬達爾文生物進化論的自然淘汰與遺傳選擇生物進化過程的一種計算模型。其核心思想源于適者生存的自然選擇規律,具有“生存+檢測”的迭代過程。它將所要解決的問題解空間映射到遺傳空間,再對解空間進行編碼。一般用一串“1、0”數字串表示每個可能的解,并將該解稱為一個染色體,解的每一個分量稱為一個基因。在算法開始時,先隨機選擇一群染色體作為候選解,用預先設定好的評價指標計算每個染色體的適應值,并淘汰適應度較低的染色體,保留適應度高的優良染色體,然后對這些染色體進行選擇復制、交叉和變異等操作,如此進行一代一代的“進化”,直到找到算法的最優解。
遺傳算法相對于一些傳統的優化算法,優點表現在:①遺傳算法在搜索過程中不易陷入局部最優,能以很大概率找到整體最優解,具有良好的適應性與魯棒性,是一種經典的全局最優化算法;②遺傳算法具有隱含并行性,運算效率高,適用于大規模的并行計算機。然而,遺傳算法的缺點表現在易早熟、局部收斂性差等。
1.2 BP神經網絡
BP網絡[7]的拓撲結構由輸入層、隱含層和輸出層組成。圖1為一個典型的三層BP神經網絡結構圖,層與層之間采用全連接方式,同一層之間不存在相互連接,隱含層包括一層或多層。
2 本文算法
本文首先對乳腺腫瘤圖像進行分割,提取ROI區域,其次提取幾何特征、形狀特征、灰度特征、紋理特征、頻率特征和邊緣特征共79維,然后采用遺傳算法進行特征選擇,選擇17維特征用于BP神經網絡的計算機輔助診斷,從而識別乳腺腫瘤的良惡性,最后基于GA-BP神經網絡的輔助診斷模型為臨床提供參考意見。
2.1 基于遺傳算法的特征選擇
基于BP神經網絡的遺傳算法優化輔助診斷,是使用遺傳算法選擇BP神經網絡的最佳輸入特征,優化后的BP神經網絡能夠更好地識別乳腺腫瘤的良惡性并減少建模時間,以提高輔助診斷效果。利用遺傳算法選擇特征,必須經過輸入變量編碼、初始種群產生、適應度計算、交叉變異選擇、優化結果輸出等過程[8]。本文GA優化變量的主要步驟如下:(1)輸入變量編碼。本文首次提取的特征有79維,經GA選擇17維特征作為BP神經網絡的輸入,即輸入變量為17個,個體的每個基因只能取“1”和“0”兩種情況,1表示輸入變量參與建模,0表示輸入變量不參與建模。(2)初始種群產生。隨機產生20個初始個體組合作為一個種群,遺傳算法以這20個個體作為初始點進行迭代。(3)適應度計算。本文選取測試集數據誤差平方和的倒數作為適應度函數,對每個個體進行訓練和預測,如式(1)所示。
式(1)中,T′={t′1,t′2,…,t′n}為測試集的預測集,T={t1,t2,…,tn}為測試集的期望集,n為測試集的樣本數目。(4)選擇交叉變異。選擇操作使用比例選擇算子,計算出所有個體的適應度和各個個體的相對適應度,作為該個體被選中并遺傳到下一代的概率。變異操作一般采用單點變異算子,隨機產生一個變異點,改變其基因上的基因值,經過一輪選擇交叉變異,又可以產生新的適應度更高的種群。(5)優化結果輸出。經過一代代的迭代優化,當滿足迭代終止條件時,輸出的末代種群對應的便是問題最優解,即經過選擇后的特征。
2.2 BP神經網絡模型建立
2.2.1 模型拓撲結構設置
BP神經網絡的拓撲結構由輸入層、隱含層和輸出層3部分組成,本文將特征數據作為網絡輸入,乳腺腫瘤的良惡性類別作為神經網絡輸出,從而構建基于BP神經網絡的乳腺腫瘤輔助診斷模型。
(1)隱含層層數:本文考慮到基于BP神經網絡的乳腺腫瘤輔助診斷模型的輸入和輸出規模較小,選用一層隱含層。
(2)隱含層節點個數:本文采用初始隱含層節點范圍公式計算隱含層數目。其中,s表示隱含層節點數目,m表示輸入層節點數目,n表示輸出層節點數目,a是1~10之間的整數。本文設定隱含層數目為10。
2.2.2 模型重要參數設置
要建立一個BP網絡,除了對隱含層層數和節點個數的設置,還需要對BP神經網絡訓練函數、節點傳遞函數、誤差界值、學習率等參數進行初步設置。本文選擇系統默認的Levenberg-Marquardt優化算法作為BP神經網絡的訓練函數[9];初步設置BP神經網絡默認的節點傳遞函數tansig為隱含層節點傳遞函數;網絡需要輸出的值是線性具體值,所以網絡輸出層的節點傳遞函數初步選擇purelin;誤差界值設置為0.01,既足以滿足網絡的精度要求,又可以保證網絡收斂速度;學習率初步設置為0.1,既能避免學習率過大造成的網絡不收斂,又避免學習率過小造成的時間復雜度高。具體設置如表1所示。
3 算法仿真實驗
實驗數據:本研究中的乳腺腫瘤病例樣本數據來自于DDSM機器學習數據庫。選取555例乳腺瘤數據樣本作為實驗數據,其中包括344例良性乳腺腫瘤數據,211例惡性乳腺腫瘤數據。
實驗環境如下:操作平臺為Windows7操作系統,仿真平臺為MATLAB 2012圖像處理軟件,硬件環境為4G內存、750G硬盤、i5-3230M處理器。
3.1 圖像分割
首先從555例實驗圖像中提取ROI,圖3為5例良性乳腺腫瘤圖像與5例惡性乳腺腫瘤圖像以及經過圖像分割處理后的ROI。
3.2 特征提取
針對3.1節分割后的555個ROI進行特征提取,提取到的特征有79維,基于不變矩的形狀特征為:R1、R2、R3、R4、R5、R6、R7;基于圖像內容的幾何特征為:周長、面積、圓形度、矩形度、伸長度、緊致度、歐拉數;基于灰度直方圖的灰度特征為:平均灰度、一致性(標準差)、灰度波動、傾斜度、峰度、梯度能量;基于灰度共生矩陣的紋理特征為:能量、熵、慣性矩、相關性、逆差距、方差、和的均值、和熵、差熵、和的方差、差分方差、相關信息度量(f12,f13)、最大相關系數;頻率特征為空間頻率;邊緣特征為:邊緣銳度、邊緣平均梯度,具體特征見表2。
3.3 基于遺傳算法的特征選擇實驗
實驗數據使用在3.2節實驗中所得的555幅圖像的79維特征數據。按照遺傳算法特征選擇的步驟進行仿真,隨著進化代數不斷增加,群體適應度越來越高,也即預測值與期望值之間的誤差越來越小,群體整體表現越來越好。當迭代次數達到設定的最大迭代次數時,終止進化,并輸出該種群中適應度最好的個體對應輸入變量的基因編號。它們分別是:1,4,8,9,10,12,14,15,17,18,19,22,23,24,25,26,28,即選擇后輸入特征是:基于不變矩的1階、4階等2個矩特征;基于灰度直方圖的平均灰度、一致性、灰度波動、峰度等4個灰度特征;基于圖像內容的周長、面積、矩形度、伸長度、緊致度等5個灰度特征;邊緣銳度、邊緣平均梯度等2個邊緣特征;基于灰度共生矩陣(0°方向)的能量、熵、慣性矩、逆差距4個紋理特征,共17維特征,具體見表3。即經過遺傳算法的選擇,確定該17維特征參與下一步的輔助診斷仿真。
3.4 基于BP的乳腺腫瘤輔助診斷實驗
實驗數據使用在3.3節實驗中所得的555例圖像的17維特征數據。BP神經網絡的輸入是17維特征數據,期望輸出是良性乳腺瘤和惡性乳腺瘤兩個類別,通過仿真實驗來檢驗只含有選擇后的特征輸入的BP網絡性能。網絡的期望輸出值只能取1或2作為己標記的良惡性乳腺腫瘤分類。網絡的預測輸出值大于0.5且小于等于1.5,則視為良性乳腺瘤;如果該值大于1.5且小于等于2.5,則視為惡性乳腺瘤。
將555份樣本數據隨機排序并編號后,采用5-折交叉法將其分為5組,其中1~111號為第1組、112~222號為第2組、223~333號為第3組、334~444號為第4組、445~555號為第5組。每次實驗使用的訓練樣本數據和測試樣本數據如表4所示。5次仿真實驗的結果迭代次數、建模時間和識別率如表5所示。
由表5可知,本文模型的平均迭代次數為8.6次,乳腺腫瘤輔助診斷準確率的平均值為96.756 76%,并且每次仿真的迭代次數和準確率非常接近。在仿真過程中發現,建模時間基本在2s左右,建模速度較快。總之,在進行輔助診斷時,輸入特征的維數應根據需要篩選核特征,去除無關冗余信息,不僅能提高網絡性能,也會降低時間復雜度。
在第5次仿真實驗中,良性腫瘤64例,惡性腫瘤47例,訓練樣本共111例。其中良性腫瘤確診63例,誤診1例,良性腫瘤檢測率為98.44%;惡性腫瘤確診45例,誤診2例,惡性腫瘤檢測率為95.74%。總檢測樣本111例,確診108例,誤診3例,檢測準確率為97.30%。仿真實驗預測結果如圖4~圖6所示。圖4為預測結果圖,圖5為線性回歸曲線圖,圖6為均方誤差收斂圖。
4 結語
本文在BP神經網絡與乳腺腫瘤輔助診斷方法的基礎上,利用遺傳算法對BP神經網絡所需的特征進行選擇,優化了BP神經網絡輔助診斷模型,從而提高了模型整體性能。首先使用遺傳算法對BP神經網絡的輸入特征進行提取,然后選擇17維有效特征用于BP神經網絡模型建模。仿真實驗結果表明,基于GA特征選擇的BP神經網絡模型對乳腺瘤的診斷準確率達到96.76%,在減少輸入特征的情況下,建模時間更少,識別率更高。因此,基于遺傳算法―BP神經網絡的乳腺腫瘤輔助診斷模型取得了良好的診斷效果。
參考文獻:
[1] 胡永升.現代乳腺影像診斷學[M].北京:科學出版社,2001.
[2] 劉君,方志沂.乳腺癌的早期診斷[J].中國全科醫學,2002,5(6):431432.
[3] 郝欣,曹穎,夏順仁.基于醫學圖像內容檢索的計算機輔助乳腺x線影像診斷技術[J].中國生物醫學工程學報,2009,28(6):922930.
[4] AFSANEH JALALIAN,SYAMSIAH B T MASHOHOR, HAJJAH ROZI MAHMUD,et puteraided detection/diagnosis of breast cancer in mammography and ultrasound:a review[J].Clinical Imaging,2013,37(3):420426.
[5] C DROMAIN,B BOYER,R FERRE,et putedaided diagnosis (CAD) in the detection of breast cancer[J].European Journal of Radiology,2013,82(3):417423.
[6] MARC LOBBES,MARJOLEIN SMIDT,KRISTIEN KEYMEULEN,et al.Malignant lesions on mammography:accuracy of two different computeraided detection systems[J].Clinical Imaging,2013,37(2):283288.
[7] XIA C,YANG Z,LEI B,et al.SCG and LM improved BP neural network loadforecasting and programming network parameter settings and data preprocessing[C].2012 International Conference on Computer Science & Service System (CSSS),IEEE,2012:3842.
神經網絡提取特征范文5
以上文章都結合卷積神經網絡模型對交通標志分類做了大量的研究,避免了復雜的人工特征提取算法的設計,研究結果具有一定的參考性。在現有卷積神經網絡模型的啟發下,以上文章都采用分類器。而訓練分類器需要大量樣本,因而在小樣本數據下,采用分類器容易造成過擬合,降低網絡的泛化性。同時,由于SVM分類器在小樣本數據集上具有出色分類性能,本文提出一種基于卷積神經網絡和多類SVM分類器[[4]的交通標志識別模型。此模型利用卷積神經網絡強大的特征提取和泛化能力,使得算法在復雜環境中依然具有可靠的識別結果。 首先,本文通過遷移學習策略「51L61對AlexNet網絡[7]特征提取部分進行微調,并將微調結果作為本文的特征提取器。然后將卷積神經網絡提取的特征作為多類SVM分類器的輸入。同時為了進一步防止過擬合現象的發生,本文在SVM分類器中加入dropout層,利用隨機置零策略進行參數選擇。最后,文章通過實驗結果證實本文提出的分類模型相比于采用softmax分類器有更好的準確率、在復雜背景中具有較高的識別率和較強的魯棒性棒。1卷積神經網絡和SVM
1.1 AlexNet網絡
AlexNet網絡是著名的卷積分類網絡,可成功實現對1000類別物體的分類。其結構可以分為特征提取器和分類器兩部分。
特征提取器主要由卷積層、池化層、激活函數組成。卷積層由大小不同的卷積核組成,卷積核類似于傳統視覺中的特征提取算子。但區別于傳統視覺算子,卷積核參數由網絡自己學習得到,可以提取圖像從底層到高層的不同特征信息。池化層常連接在卷積層之后,一般常用最大池化操作。池化層可以加強網絡對平移變化的魯棒性。激活函數為網絡引入非線性因素,使得網絡可以逼近任意函數形式。
分類層主要由全連接層和多類邏輯回歸函數組成。全連接層學習用合理的方式組合特征,可以看為函數映射。邏輯回歸函數進行類別概率判別,邏輯回歸判別見公式。同時,為了防止全連接層過擬合,AlexNet網絡引入dropout層,dropout[9]采用隨機置零的方式,防止神經元以特定的方式組合工作,從而防止深度網絡的過擬合。p}Y}}}=j1二(‘);B)=藝 e醉x})丫‘eBTx}' }e' j代表類別,二(i)為輸入,k代表類別總數,8,表示將樣本x}')映射到j類的參數,B代表er,r=i,z,~… ,,組成的矩陣,p(少‘)=j}x(仍表示x}'}屬于j類的概率。1.2標準SVM SVM是基于結構風險最小化理論的有監督學習算法,通過尋找最優分割超平面來實現分類[}10}。相比于神經網絡,SVM在小樣本數據集上也能表現出良好的分類效果,因而得到廣泛使用。標準的SVM通過尋求公式(2)的最優解來找到最優超分割平面。minw,b含,,w,,(2)yc> (w·二(‘)+b) >_ 1,i=1, 2,……,m尹)代表第i個樣本標簽,x}'}代表第i個樣本特,m為訓練集大小。分類模型設計
本文提出的分類模型主要分為兩部分,特征提取部分和多類SVM分類器。整體結構如圖1所示。
圖1中,特征提取器主要對輸入圖片進行特征提取和融合,最終得到圖像的高階特征并將提取到的信息特征送入多類SVM分類器。dropout層進行參數隨機丟失步驟,此步驟通過隨機失活神經元可有效防止過擬合的發生;然后結合不加正則化項的SVM算法進行分類,得到最終輸出結果。
2.1特征提取器
神經網絡提取特征范文6
【關鍵詞】圖像分類深度 卷積神經網絡 加權壓縮近鄰
1 研究背景
手寫數字識別是一個經典的模式識別問題。從0 到9這10 個阿拉伯數字組成。由于其類別數比較小,它在些運算量很大或者比較復雜的算法中比較容易實現。所以,在模式識別中數字識別一直都是熱門的實驗對象。卷積神經網絡 (Convolutional Neural Networks,CNN),在手寫體識別中有著良好的性能。卷積神經網絡的神經元是局部連接,神經元之間能夠共享權值。深度卷積神經網絡不但可以解決淺層學習結構無法自動提取圖像特征的問題,并且提高了分類的泛化能力和準確度。
2 深度卷積神經網絡
深度卷積神經網絡是一種具有多層監督的神經網絡,隱含層中的卷積層和池采樣層是實現深度卷積神經網絡提取特征的核心模塊,并通過使用梯度下降算法最小化損失函數來進行權重參數逐層反向調節,再經過迭代訓練提高分類精確度。
深度卷積神經網絡的首層是輸入層,之后是若干個卷積層和若干個子采樣層和分類器。分類器一般采用Softmax,再由分類器去輸出相應的分類結果。正常情況下,一個卷積后面都跟一個子采樣層。基于卷積層里權值共享和局部連接的特性,可以簡化網絡的樣本訓練參數。運算之后,獲得的結果通過激活函數輸出得到特征圖像,再將輸出值作為子采樣層的輸入數據。為了實現縮放、平移和扭曲保持不變,在子采樣層中將之前一層對應的特征圖中相鄰特征通過池化操作合并成一個特征,減少特征分辨率。這樣,輸入的數據就可以立即傳送到第一個卷積層,反復進行特征學習。將被標記的樣本輸入到Softmax分類器中。
CNN 能夠簡化網絡的樣本訓練參數,降低計算難度。這些良好的性能是網絡在有監督方式下學會的,網絡的結構主要有局部連接和權值共享兩個特點:
2.1 局部連接
深度卷積神經網絡中,層與層之間的神經元節點是局部連接,不像BP 神經網絡中的連接為全連接。深度卷積神經網絡利用局部空間的相關性將相鄰層的神經元節點連接相鄰的上一層神經元節點。
2.2 權重共享
在深度卷積神經網絡中,卷積層中每一個卷積濾波器共享相同參數并重復作用,卷積輸入的圖像,再將卷積的結果變為輸入圖像的特征圖。之后提取出圖像的部分特征。
在得到圖像的卷積特征之后,需要用最大池采樣方法對卷積特征進行降維。用若干個n×n 的不相交區域來劃分卷積特征,降維后的卷積特征會被這些區域中最大的或平均特征來表示。降維后的特征更方便進行分類。
3 實驗結果
為了驗證卷積神經網絡的有效性,本實驗中使用以最經典的MNIST 和USPS 庫這兩個識別庫作為評測標準。手寫數字MNIST數據庫有集60000 個訓練樣本集,和10000 個測試,每個樣本向量為28×28=784維表示。手寫數字USPS 數據庫含有7291 個訓練樣本和2007 個測試樣本,每個樣本向量為16×16=256 維。
表1給出了卷積神經網絡在MNIST 和USPS 庫上的識別結果。從表1中可知,深度卷積神經網絡對MNSIT 庫識別率能夠達到97.89%,與用BP 算法得到的識別率94.26%相比,提高了兩個多百分點。對USPS 庫識別率能夠達到94.34%,與用BP 算法得到的識別率91.28%相比,也提高了三個多百分點。
因此,使用深度卷積神經網絡算法訓練在圖像識別中獲得更高識別率。因此,深度卷積神經網絡在識別手寫體字符時有著較好的分類效果。
4 總結
本文介紹深度卷積神經網絡的理論知識、算法技術和算法的結構包括局部連接、權重共享、最大池采樣以及分類器Softmax。本文通過深度卷積神經網絡對兩組手寫識別庫實驗來驗證CNN 有著較低的出錯率。
參考文獻
[1]趙元慶,吳華.多尺度特征和神經網絡相融合的手寫體數字識別簡介[J].計算機科學,2013,40(08):316-318.
[2]王強.基于CNN的字符識別方法研究[D].天津師范大學,2014.
[3]Krizhevsky A,Sutskever I,Hinton G E.ImageNet Classification with Deep Convolutional Neural Networks.Advances in Neural Information Processing Systems,2012,25(02),1097-1105.
[4]郝紅衛, 蔣蓉蓉.基于最近鄰規則的神經網絡訓練樣本選擇方法[J].自動化學報,2007,33(12):1247-1251.
作者簡介
關鑫(1982-),男,黑龍江省佳木斯市人。碩士研究生學歷。現為中國電子科技集團公司第五十四研究所工程師。研究方向為計算機軟件工程。