前言:尋找寫作靈感?中文期刊網用心挑選的證券交易的異常分析,希望能為您的閱讀和創作帶來靈感,歡迎大家閱讀并分享。
1概述 隨著互聯網的普及以及網上證券交易系統功能的不斷豐富、完善和使用的便利性,網上交易正成為證券投資者交易的主流模式,據統計,證券經營機構網上交易業務的交易量已經占到總交易量的80%以上,網上證券交易系統已經成為證券公司交易系統的重要組成部分。另一方面,隨著互聯網應用的普及,針對網上證券交易的安全事件日益增多。 “盜買盜賣”惡意行為、“證券大盜”等病毒木馬給投資者和證券公司帶來經濟損失的同時,也影響到網上證券交易市場的長遠發展,如何提升網上證券交易系統的安全性,已成為證券行業關注的熱點。 2網上證券交易面臨的問題和分析 2.1網上證券交易面臨的安全問題 在當前信息技術日新月異、電子商務高速發展、資本市場規模不斷擴大、業務創新層出不窮的前提下,證券業的信息系統變得越來越龐大和復雜。在行業信息化建設過程中,信息安全的各個環節都暴露了一些亟待解決的問題。 互聯網應用的快速發展,促使攻擊事件變得越來越普及,網絡犯罪活動已經從最初的個人惡意攻擊行為,轉變成目標明確,有組織、有分工的職業化行為。危及網上證券交易安全的病毒、木馬、釣魚、竊取、篡改等攻擊手段層出不窮,大部分網上證券交易的用戶安全防范意識不高,對于可能盜取用戶口令的攻擊手段沒有任何防范能力。這些問題極大地影響了證券交易體系的安全性。同時,以盈利為目的的黑色產業鏈,正促使這種局面愈加惡劣。 如近期集中爆發的網絡釣魚事件,更是給廣大的網上用戶,直接帶來了巨大的經濟損失。因此,維護網絡安全成為了證券業信息化建設的重要工作。 網上證券交易系統的安全可以分為賬戶安全和系統安全。保護賬戶安全是指保護個人賬戶的賬戶/密碼、資金、交易行為等信息的機密性,不被他人竊取或監聽;保護系統安全是指保護網上證券交易系統,使之不受合法賬戶的非法交易行為的影響。 分析證券交易中的異常行為,有針對性地提出安全信息系統的解決方案,是保障網上證券交易系統安全、可靠運行的有效途徑。 2.2網上證券交易異常行為定義和分析 證券交易中的異常行為主要表現在用戶在買賣股票、債券或資金劃轉過程中出現的異常舉動。根據《上海證券交易所證券異常交易實時監控指引》對證券交易異常行為的歸類和定義,基本包括以下幾種異常交易類別:高買低賣利益傳送、資金頻繁存取、長期閑置賬戶頻繁異動、大量委托或查詢請求、虛假申報、短線操縱、連續集中交易等。 1)高買低賣利益傳送 證券交易盜買盜賣行為,通常是通過頻繁交易國債或企業債品種,利用債券T+0交易、無漲跌停、且交投不活躍的特點,通過高買低賣方式,實現利益輸送。此類異常行為一般在市場整體交投不活躍、投資者不經常查看賬戶狀態的情況下進行,降低了被投資者及時發現的可能。 2)長期閑置賬戶頻繁異動 長期閑置的賬戶突然發生異常波動,包括頻繁登錄、頻繁交易,或無交易頻繁轉賬等,都可以視為疑似異常行為。如,正常交易日無交易賬戶資金劃轉每天發生3次以上,或者無交易賬戶資金劃轉每天發生1次,且持續發生3天以上,出現接近于大額現金交易標準的現金收付的交易行為。 3)大量委托或查詢請求 攻擊者通過利用多個賬戶發送大量無效的委托或查詢請求(如失敗委托或不可能成交委托),攻擊證券公司的交易系統。交易系統需要對委托、查詢訂單進行處理,勢必會占用券商交易系統和交易所撮合系統的資源,也會影響到其他用戶的正常交易行為。 除上面介紹的異常行為外,虛假申報、短線操縱、連續集中交易等也嚴重影響了網上證券交易的政策秩序,需要及時發現并予以控制。 但是,網上證券交易的異常行為是在不斷變化的,很難僅憑借現有的行為特征予以識別和防范,還需要不斷了解新的異常行為,并作出反應。本文提出了一種基于數據挖掘的異常行為分析方式,它通過收集交易行為數據,利用挖掘算法,對數據進行清理、降維、歸納、模式識別、結果分析與評價,不斷豐富異常行為數據庫,從而實現對網上證券異常交易行為的及時預警。 3基于數據挖掘的證券交易異常行為分析 3.1數據挖掘的概念及方法 數據挖掘常特指數據庫數據挖掘(KnowledgeDiscoveryinDatabase),按照Fayyad的定義,“KDD是從數據集中識別出有效的、新穎的、潛在有用的,以及最終可理解的模式的非平凡過程”[1]。 數據挖掘的過程大體分為三個階段:數據準備、數據挖掘以及結果的解釋評估,可以參見圖1中給出的多處理階段過程模型。 1)數據準備 數據準備包括數據選取(Selection)、數據預處理(Preprocessing)和數據變換(Transformation)等工作。數據選取用來確定發現任務的操作對象,即目標數據(TargetData),根據用戶的需要從原始數據中抽取一部分數據。數據預處理把目標數據處理成便于挖掘的形式,一般包括去噪聲、缺值數據處理、消除重復記錄以及數據類型的轉換等操作。 2)數據挖掘 數據挖掘首先確定挖掘的任務,如分類、聚類、關聯規則發現,或序列模式發現等。然后選擇采用哪種挖掘算法,算法的選擇主要基于兩點考慮:一是針對數據本身的特點,采取相應的算法挖掘;二是針對用戶的需求(是獲取顯式的規則還是抽象的模型等)采取相應的算法挖掘。數據挖掘階段是數據挖掘過程的核心,目前的大多數研究也都是針對挖掘算法展開的。#p#分頁標題#e# 3)結果的解釋和評價 數據挖掘的結果可能并不完全符合用戶的要求,其中可能包含冗余或無用的模式,這就需要將其剔除。另外,由于數據挖掘的結果是面向人類的,因此需要將結果轉化成易于理解的形式(如產生式規則),提交給用戶。 3.2基于數據挖掘的異常交易行為分析 系統從網絡中得到反映交易行為的交易數據,存入交易行為庫中,根據現有的異常交易行為的模型,提取其行為特征,判斷該行為是否是為異常,能夠明確判斷為正常或者異常的行為可直接被處理,不能豐富異常行為庫,本文分析的重點是無法判知的行為,對于未知行為,利用專家系統和數據挖掘算法對其進行威脅分析和特征提取,得到新的異常交易行為的規則和模型,擴充了異常行為庫,并應用于之后的行為分析。 基于數據挖掘的方法主要基于歷史交易行為數據提取交易行為異常特性,即使網絡的拓撲結構和配置發生改變,也能從新的交易行為中自動發現新的異常行為特征。因此這種方法極大地降低了對專家知識的依賴,不存在知識獲取的瓶頸,而且也減輕了人員的工作負擔。基于異常交易行為分析應用模型,選取到合適的算法對交易數據進行數據挖掘就非常重要。 4常用的數據挖掘算法研究 4.1GSP算法研究 4.1.1算法簡介 GSP(GeneralizedSequentialPatterns)算法是寬度優先算法,算法引入了時間約束、滑動時間窗和分類層次技術,同時利用哈希樹來存儲候選序列[3]。 GSP算法首先掃描序列數據庫,得到長度為1的序列模式L1,作為初始的種子集。 根據長度為i的種子集Li通過連接操作和剪切操作生成長度為i+1的候選序列模式Ci+1;然后掃描序列數據庫,計算每個候選序列模式的支持數,產生長度為i+1的序列模式Li+1,并將Li+1作為新的種子集。 重復上一步,直到沒有新的序列模式或新的候選序列模式產生為止。 L1==>C2==>L2==>C3==>L3==>C4==>L4==>…連接階段:如果去掉序列模式s1的第一個項目與去掉序列模式s2的最后一個項目所得到的序列相同,則可以將s1與s2進行連接,即將s2的最后一個項目添加到s1中。例如(1,2)(3)去掉第一個項目與(2)(3,4)去掉第二個項目所得到的序列均為(2)(3),因此將兩者連接為(1,2)(3,4)。 剪切階段:若某候選序列模式的某個子序列不是序列模式,則此候選序列模式不可能是序列模式,將它從候選序列模式中刪除。 候選序列模式的支持度計算:利用hash樹的方法。對于給定的候選序列模式集合C,掃描序列數據庫,對于其中的每一條序列d,找出集合C中被d所包含的所有候選序列模式,并增加其支持度計數。 GSP算法也是一個Apriori類算法,它存在的主要問題和AprioriAll算法相似。由于約束條件的使用,相應會使算法復雜一些,也會以相應的開銷為代價,但總體來說,效率比AprioriAll高2-20倍。 4.1.2算法分析 GSP算法有效地減少了需要掃描的候選序列的數量,同時克服了基本序列模型的局限性,減少多余的無用模式的產生,更加切合實際。但是,如果數據庫的規模比較大,則有可能會產生大量的候選序列模式。需要對序列數據庫進行循環掃描。對于序列模式的長度比較長的情況,由于其對應的短的序列模式規模太大,GSP算法很難處理。 對于證券交易行為庫來說,這是一個相對較大的庫,并且也只有庫中的數據越多,得到的結果才能更接近實際情況,在用GSP算法對異常行為做數據挖掘時,算法的效率較低。 4.2PreFixSpan算法研究 4.2.1算法簡介 PrefixSpan(Prefix-ProjectedSequentialPatternsMining)[4]算法是一種深度優先算法。通過掃描數據庫發現頻繁1-序列模式,把數據庫投影到前綴序列庫,重復序列發現和投影操作,任何一個頻繁序列都可以由它的頻繁前綴生長得到。 PrefixSpan算法的基本定義有前綴、后綴、投影等。 前綴:設每個元素中的所有項目按照字典序排列。給定序列=<e1e2en>,=<e1’e2’em’>(m≤n),如果ei’=ei(i≤m-1),,并且(em-em’)中的項目均在em’中項目的后面,則稱β是α的前綴。 投影:給定序列α和β,如果β是α的子序列,則α關于β的投影必須滿足:β是的前綴,是α的滿足上述條件的最大子序列。 后綴:序列α關于子序列β=<e1e2em-1em’>的投影為=<e1e2en>(n>=m),則序列α關于子序列β的后綴為<em”em+1en>,其中em”=(em-em’)投影數據庫:設α為序列數據庫S中的一個序列模式,則α的投影數據庫為S中所有以α為前綴的序列相對于α的后綴,記為。 投影數據庫中的支持數:設a為序列數據庫S中的一個序列模式,序列β以a為前綴,則β在α的投影數據庫中的支持數為中滿足條件的序列的個數。 算法的基本過程是: 首先掃描序列數據庫,生成所有長度為1的序列模式。 根據長度為1的序列模式,生成相應的投影數據庫。 在相應的投影數據庫上重復上述步驟,直到在相應的投影數據庫上不能產生長度為1的序列模式為止。#p#分頁標題#e# 4.2.2算法分析 該類算法不需要生成候選項集,大大縮減了檢索空間,聚焦于小搜索空間,尋找頻繁模式的過程更有針對性且高效,映射后的序列庫逐漸縮小,在實際情況中,映射庫縮小很快,因為只有很小一部分前綴會生長到長模式。算法的主要開銷在于投影數據庫的構造,采用以空間換時間的策略。如果存在大量的序列模式,并且需要為每一個序列模式建立一個投影數據庫,開銷就比較大,為了能夠更準確地分析異常行為模式,為異常行為分別建立投影數據庫是很必要的,這樣勢必需要更大的空間來做分析,并且算法實現比較復雜。 4.3孤立點挖掘算法研究 4.3.1算法簡介 孤立點挖掘技術[5]是數據挖掘技術的一種,用于研究偏離了絕大多數對象的很小一部分數據。孤立點挖掘可以描述如下:給定一個n個數據點或對象的集合,及預期的孤立點的數據k,設定某一閾值,以閾值來量化對象之間的差異,發現與剩余對象之間的差異超過該閾值的所有對象。本系統中使用的是孤立點挖掘的LDC-mine[2]算法,下面是幾個定義: 定義1:對象p的k距離:對于任何一個正數k,對象p的k距離即,K-dis(p),被定義為d(p,o),在對象p于對象o之間滿足:至少有k個對象,使得;至多有k-1個對象,使得。 定義2:對象p的k距離鄰居:給定一個對象p的k距離,p的k距離包括所有和p的距離小于k距離的對象,即:。這些對象叫做p的k距離鄰居。 定義3:對象p的局部偏差率:給出以對象p的k距離鄰居,以p為圓心,以k距離為半徑,得到一個包含所有k距離鄰居的圓,計算出k距離鄰居的質心,然后對象p的局部偏差率LDRrk(p)為:LDC-mini算法,簡單地說,對象p的局部偏差率越大,就認為以對象p為圓心,k為距離的半徑的圓內,對象集對對象p的影響越小,對象p偏離大多數對象的概率就越大,對象p就越可能是一個孤立點。 4.3.2算法分析 該算法在總體數據樣本中,以孤立點表征異常行為,適用于證券交易的實際情況,并且算法在時間和空間上相對來說開銷都較低,實現起來相對簡單,在對交易行為進行數據挖掘時是較優的算法選擇。 5孤立點挖掘算法在網上證券交易異常 行為檢測中的應用本文將基于孤立點挖掘的算法用在如高買低賣模型、資金頻繁存取模型、長期閑置資金頻繁交易模型、委托請求DoS攻擊模型、查詢請求DoS攻擊模型等模型中。各個模型中的k距離空間各維度的物理含義各不相同,但是應用的算法是相同的,下面以委托請求DoS攻擊模型為例,說明LDC-mini算法在預警系統中的應用。 委托請求DoS攻擊是指:是用戶本人出于某種目的,使用自己的賬號發送大量委托請求,攻擊證券公司的交易系統,占用券商交易系統和交易所系統的資源,進而影響到其他用戶的正常交易行為。 委托請求攻擊中有兩個指標有異于正常的委托請求:“小額委托/總委托”比和“失敗委托/總委托”比。利用LDC算法進行委托請求DoS攻擊檢測步驟如下: (1)根據歷史樣本得到“小額委托/總委托”比和“失敗委托/總委托”比的缺省對象,Pd=<Sd,fd>。 (2)計算當前賬戶一段時間內的“小額委托/總委托”比和“失敗委托/總委托”比,得到對象Pc=<Sc,Fc>。 (3)確定Pc的k距離。 (4)檢索歷史樣本確定Pc的k距離鄰居集合。 (5)計算出對象pc的局部偏差率(6)如果pC的超過預先設定的某一閾值,則說明Pc對象屬于孤立點,該賬戶可能正在發起委托請求的DoS攻擊。 6結論 本文通過對常用數據挖掘算法的對比分析,最終提出將孤立點挖掘算法應用于網上證券交易異常行為的檢測方法,從而有效地解決了現有網上證券交易異常行為識別和分析的難題,提升了證券交易系統的整體安全防護能力,以確保進一步防范盜買盜賣此類業務風險,從而促進證券交易市場健康、平穩地持續發展。