前言:中文期刊網(wǎng)精心挑選了數(shù)據(jù)挖掘技術(shù)論文范文供你參考和學(xué)習(xí),希望我們的參考范文能激發(fā)你的文章創(chuàng)作靈感,歡迎閱讀。
數(shù)據(jù)挖掘技術(shù)論文范文1
數(shù)據(jù)挖掘技術(shù)是一種新型的技術(shù),在現(xiàn)代數(shù)據(jù)存儲(chǔ)以及測(cè)量技術(shù)的迅猛發(fā)展過程中,人們可以進(jìn)行信息的大量測(cè)量并進(jìn)行存儲(chǔ)。但是,在大量的信息背后卻沒有一種有效的手段和技術(shù)進(jìn)行直觀的表達(dá)和分析。而數(shù)據(jù)挖掘技術(shù)的出現(xiàn),是對(duì)目前大數(shù)據(jù)時(shí)代的一種應(yīng)急手段,使得有關(guān)計(jì)算機(jī)數(shù)據(jù)處理技術(shù)得到加快發(fā)展。數(shù)據(jù)挖掘技術(shù)最早是從機(jī)器學(xué)習(xí)的概念中而產(chǎn)生的,在對(duì)機(jī)器的學(xué)習(xí)過程中,一般不采用歸納或者較少使用這種方法,這是一種非常機(jī)械的操作辦法。而沒有指導(dǎo)性學(xué)習(xí)的辦法一般不從這些環(huán)境得出反饋,而是通過沒有干預(yù)的情況下進(jìn)行歸納和學(xué)習(xí),并建立一種理論模型。數(shù)據(jù)挖掘技術(shù)是屬于例子歸納學(xué)習(xí)的一種方式,這種從例子中進(jìn)行歸納學(xué)習(xí)的方式是介于上述無指導(dǎo)性學(xué)習(xí)以及較少使用歸納學(xué)習(xí)這兩種方式之間的一種方式。因此,可以說,數(shù)據(jù)挖掘技術(shù)的特征在出自于機(jī)器學(xué)習(xí)的背景下,與其相比機(jī)器主要關(guān)心的是如何才能有效提高機(jī)器的學(xué)習(xí)能力,但數(shù)據(jù)挖掘技術(shù)主要關(guān)心如何才能找到有用、有價(jià)值的信息。其第二個(gè)特征是,與機(jī)器學(xué)習(xí)特點(diǎn)相比較而言,機(jī)器關(guān)心的是小數(shù)據(jù),而數(shù)據(jù)挖掘技術(shù)所面臨的對(duì)象則是現(xiàn)實(shí)中海量規(guī)模的數(shù)據(jù)庫(kù),其作用主要是用來處理一些異常現(xiàn)象,特別是處理殘缺的、有噪音以及維數(shù)很高的數(shù)據(jù)項(xiàng),甚至是一些不同類型數(shù)據(jù)。以往的數(shù)據(jù)處理方法和現(xiàn)代的數(shù)據(jù)挖掘技術(shù)相比較而言,其不同點(diǎn)是以往的傳統(tǒng)數(shù)據(jù)處理方法前提是把理論作為一種指導(dǎo)數(shù)據(jù)來進(jìn)行處理,在現(xiàn)代數(shù)據(jù)挖掘技術(shù)的出發(fā)角度不同,主要運(yùn)用啟發(fā)式的歸納學(xué)習(xí)進(jìn)行理論以及假設(shè)來處理的。
2、數(shù)據(jù)挖掘技術(shù)主要步驟
數(shù)據(jù)挖掘技術(shù)首先要建立數(shù)據(jù)倉(cāng)庫(kù),要根據(jù)實(shí)際情況而定,在易出現(xiàn)問題的有關(guān)領(lǐng)域建立有效的數(shù)據(jù)庫(kù)。主要是用來把數(shù)據(jù)庫(kù)中的所有的存儲(chǔ)數(shù)據(jù)進(jìn)行分析,而目前的一些數(shù)據(jù)庫(kù)雖然可以進(jìn)行大量的存儲(chǔ)數(shù)據(jù),同時(shí)也進(jìn)行了一系列的技術(shù)發(fā)展。比如,系統(tǒng)中的在線分析處理,主要是為用戶查詢,但是卻沒有查詢結(jié)果的分析能力,而查詢的結(jié)果仍舊由人工進(jìn)行操作,依賴于對(duì)手工方式進(jìn)行數(shù)據(jù)測(cè)試并建模。其次,在數(shù)據(jù)庫(kù)中存儲(chǔ)的數(shù)據(jù)選一數(shù)據(jù)集,作為對(duì)數(shù)據(jù)挖掘算法原始輸入。此數(shù)據(jù)集所涉及到數(shù)據(jù)的時(shí)變性以及統(tǒng)一性等情況。然后,再進(jìn)行數(shù)據(jù)的預(yù)處理,在處理中主要對(duì)一些缺損數(shù)據(jù)進(jìn)行補(bǔ)齊,并消除噪聲,此外還應(yīng)對(duì)數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化的處理。隨后,再對(duì)數(shù)據(jù)進(jìn)行降維和變換。如果數(shù)據(jù)的維數(shù)比較高,還應(yīng)找出維分量高的數(shù)據(jù),對(duì)高維數(shù)數(shù)據(jù)空間能夠容易轉(zhuǎn)化為檢點(diǎn)的低維數(shù)數(shù)據(jù)空間進(jìn)行處理。下一步驟就是確定任務(wù),要根據(jù)現(xiàn)實(shí)的需要,對(duì)數(shù)據(jù)挖掘目標(biāo)進(jìn)行確定,并建立預(yù)測(cè)性的模型、數(shù)據(jù)的摘要等。隨后再?zèng)Q定數(shù)據(jù)挖掘的算法,這一步驟中,主要是對(duì)當(dāng)前的數(shù)據(jù)類型選擇有效的處理方法,此過程非常重要,在所有數(shù)據(jù)挖掘技術(shù)中起到較大作用。隨后再對(duì)數(shù)據(jù)挖掘進(jìn)行具體的處理和結(jié)果檢驗(yàn),在處理過程中,要按照不同的目的,選擇不同的算法,是運(yùn)用決策樹還是分類等的算法,是運(yùn)用聚類算法還是使用回歸算法,都要認(rèn)真處理,得出科學(xué)的結(jié)論。在數(shù)據(jù)挖掘結(jié)果檢驗(yàn)時(shí),要注意幾個(gè)問題,要充分利用結(jié)論對(duì)照其他的信息進(jìn)行校核,可對(duì)圖表等一些直觀的信息和手段進(jìn)行輔助分析,使結(jié)論能夠更加科學(xué)合理。需要注意的是要根據(jù)用戶來決定結(jié)論有用的程度。最后一項(xiàng)步驟是把所得出的結(jié)論進(jìn)行應(yīng)用到實(shí)際,要對(duì)數(shù)據(jù)挖掘的結(jié)果進(jìn)行仔細(xì)的校驗(yàn),重點(diǎn)是解決好以前的觀點(diǎn)和看法有無差錯(cuò),使目前的結(jié)論和原先看法的矛盾有效解除。
3、數(shù)據(jù)挖掘技術(shù)的方法以及在電力營(yíng)銷系統(tǒng)中的應(yīng)用和發(fā)展
數(shù)控挖掘技術(shù)得到了非常廣泛的應(yīng)用,按照技術(shù)本身的發(fā)展出現(xiàn)了較多方法。例如,建立預(yù)測(cè)性建模方法,也就是對(duì)歷史數(shù)據(jù)進(jìn)行分析并歸納總結(jié),從而建立成預(yù)測(cè)性模型。根據(jù)此模型以及當(dāng)前的其他數(shù)據(jù)進(jìn)行推斷相關(guān)聯(lián)的數(shù)據(jù)。如果推斷的對(duì)象屬于連續(xù)型的變量,那么此類的推斷問題可屬回歸問題。根據(jù)歷史數(shù)據(jù)來進(jìn)行分析和檢測(cè),再做出科學(xué)的架設(shè)和推定。在常用的回歸算法以及非線性變換進(jìn)行有效的結(jié)合,能夠使許多問題得到解決。電力營(yíng)銷系統(tǒng)中的數(shù)據(jù)挖掘技術(shù)應(yīng)用中關(guān)聯(lián)規(guī)則是最為關(guān)鍵的技術(shù)應(yīng)用之一。這種應(yīng)用可以有效地幫助決策人員進(jìn)行當(dāng)前有關(guān)數(shù)據(jù)以及歷史數(shù)據(jù)的規(guī)律分析,最后預(yù)測(cè)出未來情況。把關(guān)聯(lián)規(guī)則成功引入電力營(yíng)銷分析,通過FP-Growth算法對(duì)電力營(yíng)銷的有關(guān)數(shù)據(jù)進(jìn)行關(guān)聯(lián)規(guī)則分析,從中得出各種電量銷售的影響因素以及外部因素、手電水平等的關(guān)聯(lián)信息,以便更好地為電力的市場(chǎng)營(yíng)銷策略提供參謀和決策。對(duì)電力營(yíng)銷系統(tǒng)的應(yīng)用中,時(shí)間序列挖掘以及序列挖掘非常經(jīng)典、系統(tǒng),是應(yīng)用最為廣泛的一種預(yù)測(cè)方法。這種方法的應(yīng)用中,對(duì)神經(jīng)網(wǎng)絡(luò)的研究非常之多。因此,在現(xiàn)實(shí)中應(yīng)用主要把時(shí)間序列挖掘以及神經(jīng)網(wǎng)絡(luò)兩者進(jìn)行有效地結(jié)合,然后再分析有關(guān)電力營(yíng)銷數(shù)據(jù)。此外,有關(guān)專家還提出應(yīng)用一種時(shí)間窗的序列挖掘算法,這種方式可以進(jìn)行有效地報(bào)警處理,使電力系統(tǒng)中的故障能夠準(zhǔn)確的定位并診斷事故。此算法對(duì)電力系統(tǒng)的分析和挖掘能力的提高非常有效,還可判定電力系統(tǒng)的運(yùn)行是否穩(wěn)定,對(duì)錯(cuò)誤模型的分析精度達(dá)到一定的精確度。
4、結(jié)語
數(shù)據(jù)挖掘技術(shù)論文范文2
關(guān)鍵詞:數(shù)據(jù)挖掘;決策樹;C4.5算法;教學(xué)管理;高校教學(xué)
中圖分類號(hào):TP391 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1009-3044(2012)30-7150-04
隨著數(shù)字信息化社會(huì)的飛速發(fā)展,計(jì)算機(jī)技術(shù)和數(shù)據(jù)庫(kù)管理系統(tǒng)被廣泛應(yīng)用于科學(xué)探索、商業(yè)、金融業(yè)、電子商務(wù)、企業(yè)生產(chǎn)等各種行業(yè),已逐漸發(fā)展成為一種智能管理過程。數(shù)據(jù)挖掘作為一種新興的數(shù)據(jù)分析技術(shù),它的研究成果取得了令人矚目的成就[1]。利用數(shù)據(jù)庫(kù)技術(shù),通過對(duì)教務(wù)管理的大量數(shù)據(jù)進(jìn)行多層次、多維度的加工處理,從而實(shí)現(xiàn)人性化管理,為科學(xué)決策提供支持。
畢業(yè)論文在教學(xué)體系中占有十分重要的位置,是本科生培養(yǎng)計(jì)劃中衡量教學(xué)質(zhì)量的重要指標(biāo)。提高畢業(yè)論文教學(xué)質(zhì)量是一項(xiàng)系統(tǒng)工程,為研究在當(dāng)前的教學(xué)條件下如何提高畢業(yè)論文教學(xué)質(zhì)量,本文采用數(shù)據(jù)挖掘技術(shù)對(duì)影響畢業(yè)論文成績(jī)管理的多方面因素進(jìn)行了深入分析和挖掘,以期發(fā)現(xiàn)對(duì)學(xué)校畢業(yè)論文教學(xué)管理有用的知識(shí),將這些知識(shí)應(yīng)用于本科學(xué)生畢業(yè)論文教學(xué)實(shí)踐中,為學(xué)校管理者提供有用的信息,進(jìn)而獲得更好的管理效益,為學(xué)校未來的發(fā)展提供更廣闊的空間,發(fā)揮重要的作用。
1 數(shù)據(jù)挖掘簡(jiǎn)介
數(shù)據(jù)挖掘(Data Mining),又稱數(shù)據(jù)庫(kù)中的知識(shí)發(fā)現(xiàn)(Knowledge discovery in Database. KDD)[2],是通過分析每一個(gè)具體數(shù)據(jù),從大量的、有噪聲的、模糊的、隨機(jī)的海量數(shù)據(jù)中尋找其規(guī)律的技術(shù),它是數(shù)據(jù)庫(kù)研究中的一個(gè)很有應(yīng)用價(jià)值的新領(lǐng)域。
1.1 數(shù)據(jù)挖掘的定義
H包含如下功能:
綜上所述,數(shù)據(jù)挖掘具有三大特點(diǎn):其一是處理大型數(shù)據(jù);其二應(yīng)用數(shù)據(jù)挖掘的目的是發(fā)現(xiàn)未知的、有意義的模式或規(guī)律;其三是一個(gè)對(duì)大量數(shù)據(jù)處理的過程,有特定的步驟[3]。
1.2 數(shù)據(jù)挖掘的主要方法
數(shù)據(jù)挖掘是一個(gè)多學(xué)科交叉領(lǐng)域,它由人工智能、機(jī)器學(xué)習(xí)的方法起步,并與統(tǒng)計(jì)分析方法、模糊數(shù)學(xué)和可視化技術(shù)相融合,以數(shù)據(jù)庫(kù)為研究對(duì)象,圍繞面對(duì)應(yīng)用,為決策者提供服務(wù)。
數(shù)據(jù)挖掘的方法主要可分為六大類:統(tǒng)計(jì)分析方法、歸納學(xué)習(xí)方法、仿生物技術(shù)、可視化技術(shù)、聚類方法和模糊數(shù)學(xué)方法。歸納學(xué)習(xí)法是目前重點(diǎn)研究的方向,本文根據(jù)給定的訓(xùn)練樣本數(shù)據(jù)集,采用歸納學(xué)習(xí)法中的決策樹技術(shù)構(gòu)造分類模型,將事例分類成不同的類別。
2 決策樹算法基本理論
2.1 決策樹方法介紹
決策樹[4]方法是以事例學(xué)習(xí)為基礎(chǔ)的歸納推算法,著眼于從一組無序的,無規(guī)則的事例中推斷出類似條件下會(huì)得到什么值這類規(guī)則的方法,它是一種逼近離散值函數(shù)的方法,也可以看作一個(gè)布爾函數(shù)[5]。決策樹歸納方法是目前許多數(shù)據(jù)挖掘商用系統(tǒng)的基礎(chǔ),可以應(yīng)用于分析數(shù)據(jù),同樣也可以用來作預(yù)測(cè)。建模過程中,即樹的生長(zhǎng)過程是不斷的把數(shù)據(jù)進(jìn)行切分,采用“自頂向下,分而治之”的方法將問題的搜索空間劃分為若干個(gè)互不交叉的子集,通常用來形成分類器和預(yù)測(cè)模型。如圖1所示,為決策樹的示意圖。
決策樹一種類似流程圖的樹形結(jié)構(gòu),是一種知識(shí)的表現(xiàn)形式。為了對(duì)未知樣本進(jìn)行分類,生成具體的分類規(guī)則,信息樣本的各個(gè)屬性值要在決策樹上進(jìn)行測(cè)試。主要分為兩個(gè)階段:在第一階段中生成樹。決策樹最上面的節(jié)點(diǎn)為根節(jié)點(diǎn),是整個(gè)決策樹的開始,然后遞歸的進(jìn)行數(shù)據(jù)分區(qū),每次切分對(duì)應(yīng)一個(gè)問題,也對(duì)應(yīng)著一個(gè)節(jié)點(diǎn);在第二階段中對(duì)樹進(jìn)行修剪,此過程中去掉一些可能是噪音或異常的數(shù)據(jù),防止決策樹的過匹配,進(jìn)而保證生成決策樹的有效性和合理性。當(dāng)一個(gè)節(jié)點(diǎn)中的所有數(shù)據(jù)都屬于同一類別,或者沒有屬性可以再用于數(shù)據(jù)進(jìn)行分割時(shí),分割工作停止。具體的工作流程如圖2所示。
2.2 C4.5算法
1986年Ross Quinlan首次提出了ID3決策樹算法,它是最早的決策樹算法之一。ID3算法運(yùn)用信息熵理論,選擇當(dāng)前樣本中具有信息增益值的屬性作為測(cè)試屬性,對(duì)樣本的劃分則依據(jù)測(cè)試屬性的取值[6]。C4.5算法是在ID3算法基礎(chǔ)上發(fā)展起來的,它繼承了ID3算法的全部?jī)?yōu)點(diǎn),并增加了新的功能改進(jìn)了ID3算法中的不足,可以進(jìn)行連續(xù)值屬性處理并處理未知值的訓(xùn)練樣本。在應(yīng)用單機(jī)的決策樹算法中,C4.5算法不僅分類準(zhǔn)確而且執(zhí)行速度快。
C4.5通過兩個(gè)步驟來建立決策樹:第一階段樹的生成,第二階段樹的剪枝。C4.5算法采用信息增益率來記錄字段不同取值的選擇,首先計(jì)算各個(gè)屬性的信息增益率,尋找到規(guī)則信息的優(yōu)劣,選出信息增益率最大的屬性作為結(jié)點(diǎn),自頂向下生成決策樹。C4.5算法構(gòu)造決策樹的基本策略如下:
首先計(jì)算出給定樣本所需的期望信息,設(shè)S為一個(gè)包含s個(gè)數(shù)據(jù)樣本的集合,對(duì)于類別屬性,可以取m個(gè)不同取值,分別對(duì)應(yīng)于m個(gè)不同的類別[Ci(i∈1,2,...,m)]。假設(shè)類別[Ci]中的樣本個(gè)數(shù)為[si],期望信息為:
其中,[Pi]是任意樣本屬于[Ci]的概率,并用[sis]估計(jì)。
接著,計(jì)算當(dāng)前樣本集合所需用的信息熵,設(shè)一個(gè)屬性A具有n個(gè)不同的值[(a1,a2,...an)],利用屬性A可以將集合S劃分為n個(gè)子集[S1,S2,...Sn],其中[Sj]包含了S集合中屬性A取[aj]值的樣本數(shù)據(jù)。如果屬性A被選作測(cè)試屬性,設(shè)[Sij]為[Sj]中屬于[Ci]類別的樣本集,根據(jù)A劃分計(jì)算的熵為:
然后利用屬性A對(duì)當(dāng)前分支結(jié)點(diǎn)進(jìn)行相應(yīng)樣本集合劃分計(jì)算信息增益:
最后,求信息增益率,表達(dá)式為:
C4.5算法的偽代碼如下:
輸入:訓(xùn)練樣本Samples;目標(biāo)屬性Target—attribute;候選屬性的集合Attributes
輸出:一棵決策樹
1)創(chuàng)建根節(jié)點(diǎn)root;
2)If Samples都在同一類C Then;
3)返回label=類C的單結(jié)點(diǎn)樹root;
4)If Attributes為空Then;
5)返回單結(jié)點(diǎn)樹root,[label=Samples]中最普遍的Target-Atribute值;
6)Else;
7)For each測(cè)試屬性列表Attributes中的屬性;
8)IF測(cè)試屬性是連續(xù)的Then;
9)對(duì)測(cè)試屬性進(jìn)行離散化處理,找出使其信息增益比率最大的分割閾值;
10)Else;
11)計(jì)算測(cè)試屬性的信息增益比率;
20)添加子樹Generate Tree C4.5;
21)對(duì)已建立的決策樹計(jì)算每個(gè)結(jié)點(diǎn)的分類錯(cuò)誤,進(jìn)行剪枝,并返回根結(jié)點(diǎn)Root。
3 畢業(yè)論文成績(jī)管理系統(tǒng)的設(shè)計(jì)和實(shí)現(xiàn)
利用數(shù)據(jù)挖掘技術(shù)對(duì)學(xué)生的成績(jī)數(shù)據(jù)進(jìn)行提煉,所產(chǎn)生的結(jié)果和信息會(huì)對(duì)以后的教學(xué)管理工作提供有用的信息,進(jìn)而獲得更好的管理效益。解決問題的重點(diǎn)在于怎樣對(duì)學(xué)生的畢業(yè)論文成績(jī)進(jìn)行全面且深度的分析,從而挖掘出成績(jī)與其他因素之間隱藏的內(nèi)在聯(lián)系。本文采用決策樹技術(shù)挖掘信息時(shí),主要操作步驟如下:
1)確定挖掘來源:清晰地定義挖掘?qū)ο螅鞔_挖掘目標(biāo)是數(shù)據(jù)挖掘所有工作中重要的一步。本文中應(yīng)用于挖掘的數(shù)據(jù)信息是畢業(yè)生的畢業(yè)論文成績(jī),旨在通過對(duì)大量成績(jī)數(shù)據(jù)進(jìn)行各層次的挖掘,全面了解具體影響學(xué)生畢業(yè)論文成績(jī)的各方面因素,正確的針對(duì)問題擬定分析過程。
2)獲取相關(guān)知識(shí):數(shù)據(jù)是挖掘知識(shí)最原始的資料,根據(jù)確定的數(shù)據(jù)分析對(duì)象,抽象出數(shù)據(jù)分析中所需要的特征信息模型。領(lǐng)域問題的數(shù)據(jù)收集完成之后,與目標(biāo)信息相關(guān)的屬性也隨之確定。這些數(shù)據(jù)有些是可以直接獲得的,有些則需要對(duì)學(xué)生進(jìn)行調(diào)查才能的得到。
3)數(shù)據(jù)預(yù)處理:此過程中是對(duì)已收集的大量數(shù)據(jù)進(jìn)行整合與檢查。因?yàn)榇娣旁跀?shù)據(jù)庫(kù)中的數(shù)據(jù)一般是不完整的、不一致的,通常還含有噪聲的存在。因此就需要對(duì)數(shù)據(jù)庫(kù)中數(shù)據(jù)進(jìn)行清理、整理和歸并,以提高挖掘過程的精度和性能。
4)數(shù)據(jù)轉(zhuǎn)換:對(duì)預(yù)處理后的數(shù)據(jù)建立分析模型,對(duì)于特定的任務(wù),需要選擇合適的算法來建立一個(gè)準(zhǔn)確的適合挖掘算法的分析模型。本文采用決策樹技術(shù)進(jìn)行分類建模來解決相應(yīng)的問題。
5)分類挖掘知識(shí)和信息:此階段的工作目的是根據(jù)系統(tǒng)最終要實(shí)現(xiàn)的功能和任務(wù)來確定挖掘的分類模型。選擇合適的數(shù)據(jù)挖掘技術(shù)及算法,并采用恰當(dāng)?shù)某绦蛟O(shè)計(jì)語言來實(shí)現(xiàn)該算法,對(duì)凈化和轉(zhuǎn)換過得數(shù)據(jù)訓(xùn)練集進(jìn)行挖掘,獲得有價(jià)值的分析信息。
6)知識(shí)表示:將數(shù)據(jù)挖掘得到的分析信息進(jìn)一步的解釋和評(píng)價(jià),生成可用的、正確的、可理解的分類規(guī)則呈現(xiàn)給管理者,應(yīng)用于實(shí)踐。
7)知識(shí)應(yīng)用:將分析得到的規(guī)則應(yīng)用到教學(xué)管理中,教師可以利用所得到的知識(shí)針對(duì)性的開展畢業(yè)設(shè)計(jì)的教學(xué)活動(dòng),進(jìn)一步指導(dǎo)教學(xué)工作,提高教學(xué)水平和學(xué)生的畢業(yè)論文質(zhì)量。
4 結(jié)論
最終發(fā)現(xiàn)影響學(xué)生畢業(yè)論文成績(jī)主要的因素不是指導(dǎo)教師的職稱,學(xué)生的基礎(chǔ)及感興趣程度,而是指導(dǎo)教師的學(xué)歷高低。根據(jù)具體分類規(guī)則的結(jié)論,學(xué)校教學(xué)管理工作應(yīng)加重對(duì)教師的素質(zhì)及能力培養(yǎng),合理的分配每個(gè)教師的畢業(yè)論文指導(dǎo)工作,不僅能夠有效的完成畢業(yè)課題指導(dǎo)工作,更有助于學(xué)生整體論文質(zhì)量的提高。
在高校教學(xué)數(shù)字化的時(shí)代趨勢(shì)下,利用數(shù)據(jù)挖掘技術(shù)來挖掘提取教學(xué)工作中的全面而有價(jià)值信息,可以為教育管理者的教學(xué)工作提供有效的參考信息,改進(jìn)教學(xué)管理方法,提高教學(xué)質(zhì)量和學(xué)生的綜合素質(zhì),是高校保持良好的可持續(xù)發(fā)展的有力工具。
參考文獻(xiàn):
[1] 劉玉文.數(shù)據(jù)挖掘在高校招生中的研究與應(yīng)用[D].上海:上海師范大學(xué),2008.
[2] 魏萍萍,王翠茹,王保義,張振興.數(shù)據(jù)挖掘技術(shù)及其在高校教學(xué)系統(tǒng)中的應(yīng)用[J].計(jì)算機(jī)工程,2003.29(11):87-89.
[3] 劉林東. Web挖掘在考試系統(tǒng)中的應(yīng)用[J].計(jì)算機(jī)應(yīng)用研究,2005(2):150-154.
[4] Tom M Mitchell.(美)卡內(nèi)基梅隆大學(xué).機(jī)器學(xué)習(xí)[D].曾華軍,張銀奎,譯,北京:機(jī)械工業(yè)出版社,2003.
數(shù)據(jù)挖掘技術(shù)論文范文3
檔案管理對(duì)象的數(shù)量隨著社會(huì)的發(fā)展而不斷增加,僅僅通過傳統(tǒng)的管理方式已不能高效管理檔案,這就需要充分利用計(jì)算機(jī)網(wǎng)絡(luò)技術(shù)。在檔案管理系統(tǒng)中應(yīng)用計(jì)算機(jī)數(shù)據(jù)挖掘技術(shù)可以確保檔案信息的安全性,提高管理檔案的效率,還能優(yōu)化檔案數(shù)據(jù)的檢索。總之,基于大數(shù)據(jù)的計(jì)算機(jī)數(shù)據(jù)挖掘技術(shù)對(duì)完善檔案管理系統(tǒng)發(fā)揮著十分重要的作用。
2基于大數(shù)據(jù)的計(jì)算機(jī)數(shù)據(jù)挖掘技術(shù)概述
基于大數(shù)據(jù)的計(jì)算機(jī)數(shù)據(jù)挖掘技術(shù)是當(dāng)代新開發(fā)的一種數(shù)據(jù)處理技術(shù),它可以從大數(shù)據(jù)中挑選出人們需要的數(shù)據(jù)。計(jì)算機(jī)數(shù)據(jù)挖掘是一個(gè)循環(huán)往復(fù)的過程,如果沒有取得預(yù)期的效果,計(jì)算機(jī)數(shù)據(jù)挖掘信息處理系統(tǒng)就會(huì)返回上一層重新工作,直到完成目標(biāo)任務(wù)為止,這種對(duì)目標(biāo)的細(xì)化過程可以滿足檔案數(shù)據(jù)檢索的需要。
3基于大數(shù)據(jù)的計(jì)算機(jī)挖掘技術(shù)在檔案管理系統(tǒng)中的作用
3.1提高檔案信息的安全性。無論是文字檔案、圖片檔案還是其他形式的檔案,都是一種寶貴的資料。越是意義重大的檔案,檔案管理人員就越要想方設(shè)法將其保存起來。檔案的價(jià)值隨著其保存時(shí)間的不斷推移而增加,價(jià)值越高的檔案,被使用的頻率就越高,但是如果使用過于頻繁的話,就會(huì)縮短檔案資料的壽命,加大保存難度。除此之外,有的檔案信息是保密的,在應(yīng)用時(shí)如果監(jiān)管不力就會(huì)導(dǎo)致機(jī)密泄露。由以上可見,檔案的保存與使用儼然已互為對(duì)立面了。將計(jì)算機(jī)挖掘技術(shù)應(yīng)用到檔案管理中則對(duì)檔案資料的完整性毫無影響,并且還可以提高檔案信息的安全性。3.2提高檔案信息管理的效率。在檔案管理工作中應(yīng)用計(jì)算機(jī)數(shù)據(jù)挖掘技術(shù),可以極大改變傳統(tǒng)檔案管理模式低效率的弊端。使用計(jì)算機(jī)數(shù)據(jù)挖掘技術(shù),大大提高了工作人員處理檔案信息的速度,同樣的工作使用的時(shí)間極大減少。鑒定檔案是檔案管理工作中的重要組成部分,傳統(tǒng)的鑒定方式是由管理人員根據(jù)自己的經(jīng)驗(yàn)進(jìn)行主觀鑒定,有時(shí)會(huì)存在有價(jià)值的檔案丟失的現(xiàn)象。應(yīng)用計(jì)算機(jī)數(shù)據(jù)挖掘技術(shù),檔案管理人員就可以利用計(jì)算機(jī)系統(tǒng)分析檔案使用和保存的情況,促進(jìn)了檔案鑒定工作的發(fā)展。3.3提高了檔案信息的使用效率。大部分檔案信息具有一定的機(jī)密性,所以檔案的借閱并不是向全社會(huì)公開的,而是有范圍限制的,但是由于檔案管理人員和借閱者對(duì)檔案信息不熟悉,導(dǎo)致雙方的溝通存在一定的問題,在借閱者提出申請(qǐng)之后,檔案管理人員會(huì)將檔案資料調(diào)出來,有時(shí)調(diào)出來的資料不是借閱者所需要的,還得重新調(diào)閱,類似的過程就嚴(yán)重浪費(fèi)了雙方的時(shí)間。應(yīng)用計(jì)算機(jī)數(shù)據(jù)挖掘技術(shù)可以促進(jìn)檔案管理人員和借閱者之間的交流,讓檔案管理者明確借閱者需要的具體檔案信息,從而形成專門的檔案提供渠道,這就大大提高了檔案信息的使用效率。3.4增強(qiáng)檔案信息的服務(wù)性。加密檔案信息會(huì)嚴(yán)重縮小它的適用范圍,受當(dāng)代信息化的影響,很多檔案信息自身會(huì)出現(xiàn)一些問題,并且只能為一小部分人服務(wù)。將計(jì)算機(jī)數(shù)據(jù)挖掘技術(shù)應(yīng)用到檔案信息管理中,可以具體分析檔案的使用情況,通過研究發(fā)現(xiàn)未來使用檔案信息的人群,在此基礎(chǔ)上提高檔案信息的服務(wù)性。
4基于大數(shù)據(jù)的計(jì)算機(jī)數(shù)據(jù)挖掘技術(shù)在檔案管理中的實(shí)際應(yīng)用
4.1在檔案分類管理中的應(yīng)用。檔案管理的基礎(chǔ)工作就是將檔案進(jìn)行分類。傳統(tǒng)的分類方法既費(fèi)時(shí)又費(fèi)力,工作效率極低。計(jì)算機(jī)數(shù)據(jù)挖掘技術(shù)中有一種決策樹算法,它可以在最短的時(shí)間內(nèi)按照一定的規(guī)則將不同屬性的檔案信息進(jìn)行分類和整理,大大提高了檔案分類工作的效率。計(jì)算機(jī)數(shù)據(jù)挖掘技術(shù)在檔案分類工作中的具體流程是:從大量不同種類的數(shù)據(jù)集中選擇一些數(shù)據(jù)組合成訓(xùn)練集,然后應(yīng)用到?jīng)]有進(jìn)行分類的檔案管理中,這樣可以幫助管理者根據(jù)借閱者對(duì)檔案信息的需求來對(duì)檔案進(jìn)行分類,同時(shí)還可以根據(jù)借閱者的需求為其推薦其他檔案信息。通過這些針對(duì)性強(qiáng)的數(shù)據(jù)分析,可以極大縮短借閱者獲取檔案信息的時(shí)間,檔案數(shù)據(jù)的利用價(jià)值就能充分發(fā)揮出來。4.2在檔案收集管理中的應(yīng)用。計(jì)算機(jī)數(shù)據(jù)挖掘技術(shù)可以根據(jù)數(shù)據(jù)庫(kù)內(nèi)部的數(shù)據(jù)信息描述來構(gòu)建一個(gè)相應(yīng)的數(shù)據(jù)模型,然后比較計(jì)算機(jī)數(shù)據(jù)樣本和數(shù)據(jù)模型之間的差異,如果這二者互相吻合,就需要檔案管理人員使用測(cè)試樣本模型來對(duì)檔案信息進(jìn)行分類處理。計(jì)算機(jī)數(shù)據(jù)挖掘技術(shù)需要全面分析檔案數(shù)據(jù)信息庫(kù)中的數(shù)據(jù),建立一個(gè)對(duì)已知數(shù)據(jù)有詳細(xì)描述的概念模型,并與測(cè)試樣本進(jìn)行對(duì)比,如果一個(gè)模型測(cè)試通過,就證明這個(gè)模型可以應(yīng)用在檔案收集管理中。
5結(jié)語
綜上所述,在科技技術(shù)不斷進(jìn)步的時(shí)代背景下,在檔案信息管理中應(yīng)用基于大數(shù)據(jù)的計(jì)算機(jī)數(shù)據(jù)挖掘技術(shù)已成為一種必然趨勢(shì),它可以極大提高檔案信息管理的工作效率,促進(jìn)檔案管理的高效發(fā)展。除了在檔案信息存儲(chǔ)和利用上確保基本的信息查詢服務(wù)外,還需要應(yīng)用計(jì)算機(jī)數(shù)據(jù)挖掘技術(shù)整合檔案信息,建立眾多檔案管理服務(wù)數(shù)據(jù)之間的關(guān)聯(lián),這樣才能為檔案信息管理提供更好的服務(wù)。
作者:陳皓穎 單位:昆明理工大學(xué)津橋?qū)W院
參考文獻(xiàn)
[1]高燕飛,陳俊杰.試析計(jì)算機(jī)數(shù)據(jù)挖掘技術(shù)在檔案信息管理系統(tǒng)中的運(yùn)用[J].內(nèi)蒙古師范大學(xué)學(xué)報(bào):哲學(xué)社會(huì)科學(xué)版,2012(4):44-46.
[2]曾雪峰.計(jì)算機(jī)數(shù)據(jù)挖掘技術(shù)開發(fā)及其在檔案信息管理中的運(yùn)用研究[J].科技創(chuàng)新與應(yīng)用,2016(9):285.
[3]李國(guó)強(qiáng),曹巧蓮,辛正宇,等.淺談數(shù)據(jù)處理的新技術(shù)———數(shù)據(jù)挖掘[J].科技創(chuàng)新與生產(chǎn)力,2010(6).
[4]周碧珍.淺析計(jì)算機(jī)數(shù)據(jù)挖掘技術(shù)在檔案信息管理系統(tǒng)中的應(yīng)用[J].黑龍江科技信息,2009(1).
數(shù)據(jù)挖掘技術(shù)論文范文4
關(guān)鍵詞:遠(yuǎn)程開放教育,數(shù)據(jù)挖掘,應(yīng)用,智能化
1 前言
現(xiàn)代遠(yuǎn)程開放教育的全過程基本上都是通過瀏覽網(wǎng)站的形式進(jìn)行的,學(xué)生在Web上的行為都會(huì)產(chǎn)生大量的信息,這些信息在遠(yuǎn)程教育的全過程中十分寶貴,充分挖掘這些信息及其背后潛在的信息,反饋來指導(dǎo)遠(yuǎn)程教育中的各個(gè)環(huán)節(jié),以此來為學(xué)生提供個(gè)性化的服務(wù)內(nèi)容,增強(qiáng)遠(yuǎn)程開放教育的競(jìng)爭(zhēng)力。利用數(shù)據(jù)庫(kù)技術(shù)來存儲(chǔ)管理數(shù)據(jù),利用網(wǎng)絡(luò)和計(jì)算機(jī)學(xué)習(xí)的方法來分析數(shù)據(jù),從而挖掘出大量的隱藏在數(shù)據(jù)背后的知識(shí),即數(shù)據(jù)庫(kù)中的知識(shí)發(fā)現(xiàn)---KDD(Knowledge Discovery in Databases),其中,數(shù)據(jù)挖掘技術(shù)便是最為關(guān)鍵的環(huán)節(jié)。論文參考網(wǎng)。基于遠(yuǎn)程開放教育將是當(dāng)前和未來教育的重要輔助系統(tǒng),本文提出并介紹信了把數(shù)據(jù)挖掘技術(shù)應(yīng)用于現(xiàn)代遠(yuǎn)程開放教育系統(tǒng)中。
2 數(shù)據(jù)挖掘概述
2.1數(shù)據(jù)挖掘(DataMining)定義
數(shù)據(jù)挖掘就是從大量存儲(chǔ)的數(shù)據(jù)中,利用模式識(shí)別、統(tǒng)計(jì)和數(shù)學(xué)的技術(shù),篩選發(fā)現(xiàn)新的有意義的關(guān)系、模式和趨勢(shì)的方法。就是從大量的、不完全的、有噪聲的、模糊的、隨機(jī)的數(shù)據(jù)中,提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識(shí)的過程。它主要依靠人工智能、機(jī)器學(xué)習(xí)和統(tǒng)計(jì)學(xué)技術(shù),對(duì)數(shù)據(jù)進(jìn)行歸納推理,從中挖掘出潛在的模式,預(yù)測(cè)未來趨勢(shì),為決策提供支持。
2.2數(shù)據(jù)挖掘的主要任務(wù)
(1)關(guān)聯(lián)分析。兩個(gè)或兩個(gè)以上變量的取值之間存在的規(guī)律性稱為關(guān)聯(lián)。數(shù)據(jù)關(guān)聯(lián)是數(shù)據(jù)庫(kù)中存在的一類重要的、可被發(fā)現(xiàn)的知識(shí)。關(guān)聯(lián)分析的目的是找出數(shù)據(jù)庫(kù)中隱藏的關(guān)聯(lián)網(wǎng)。
(2)聚類分析。聚類是把數(shù)據(jù)按照相似性歸納成若干類別,同一類中的數(shù)據(jù)彼此相似,不同類中的數(shù)據(jù)相異。
(3)分類。分類就是找出一個(gè)類別的概念描述,它代表了這類數(shù)據(jù)的整體信息。
(4)預(yù)測(cè)。預(yù)測(cè)是利用歷史數(shù)據(jù)找出變化規(guī)律,建立模型,并由此模型對(duì)未來數(shù)據(jù)的種類及特征進(jìn)行預(yù)測(cè)。
(5)時(shí)序模式。時(shí)序模式是指通過時(shí)間序列搜索出的重復(fù)發(fā)生概率較高的模式。它是用己知的數(shù)據(jù)預(yù)測(cè)未來的值,但這些數(shù)據(jù)的區(qū)別是變量所處時(shí)間的不同。
(6)偏差分析。在偏差中包括很多有用的知識(shí),數(shù)據(jù)庫(kù)中的數(shù)據(jù)存在很多異常情況,發(fā)現(xiàn)數(shù)據(jù)庫(kù)中數(shù)據(jù)存在的異常情況是非常重要的。偏差檢驗(yàn)的基本方法就是尋找觀察結(jié)果與參照之間的差別。
2.3數(shù)據(jù)挖掘?qū)ο?/p>
根據(jù)信息存儲(chǔ)格式,用于挖掘的對(duì)象有關(guān)系數(shù)據(jù)庫(kù)、面向?qū)ο髷?shù)據(jù)庫(kù)、數(shù)據(jù)倉(cāng)庫(kù)、文本數(shù)據(jù)源、多媒體數(shù)據(jù)庫(kù)、空間數(shù)據(jù)庫(kù)、時(shí)態(tài)數(shù)據(jù)庫(kù)、異質(zhì)數(shù)據(jù)庫(kù)以及Internet等。
2.4數(shù)據(jù)挖掘技術(shù)實(shí)施的步驟
(1)確定業(yè)務(wù)對(duì)象。清晰地定義出業(yè)務(wù)問題,認(rèn)清數(shù)據(jù)挖掘的目的是數(shù)據(jù)挖掘的重要一步。挖掘的最后結(jié)構(gòu)是不可預(yù)測(cè)的,但要探索的問題應(yīng)是有預(yù)見的,為了數(shù)據(jù)挖掘而數(shù)據(jù)挖掘則帶有評(píng)價(jià),并以用戶能理解和觀察的方式將發(fā)現(xiàn)的知識(shí)呈現(xiàn)給用戶。
(2)數(shù)據(jù)準(zhǔn)備。這個(gè)階段的工作包括數(shù)據(jù)集成、數(shù)據(jù)選擇、預(yù)分析和轉(zhuǎn)換。要對(duì)Web服務(wù)器上的數(shù)據(jù)進(jìn)行挖掘,必須研究站點(diǎn)之間異構(gòu)數(shù)據(jù)的集成問題,只有將這些站點(diǎn)的數(shù)據(jù)都集成起來,提供給用戶一個(gè)統(tǒng)一的視圖,才有可能從巨大的數(shù)據(jù)資源中獲取所需的東西。
(3)數(shù)據(jù)挖掘。這個(gè)階段就是利用數(shù)據(jù)挖掘工具對(duì)經(jīng)過轉(zhuǎn)換的數(shù)據(jù)進(jìn)行挖掘和發(fā)現(xiàn)知識(shí)的過程。不同的數(shù)據(jù)挖掘工具有不同的算法,面向不同的分析需求,并且當(dāng)具體使用操作時(shí),也在一定程度上受到數(shù)據(jù)分析人員的思維方式和行為習(xí)慣的影響。數(shù)據(jù)挖掘利用人工智能領(lǐng)域中一些已經(jīng)成熟的算法和技術(shù)。如:人工神經(jīng)網(wǎng)絡(luò)、遺傳算法、決策樹方法、鄰近搜索算法、規(guī)則推理、模糊邏輯、公式發(fā)現(xiàn)等來進(jìn)行數(shù)據(jù)的挖掘。
(4)結(jié)果分析。論文參考網(wǎng)。數(shù)據(jù)挖掘的結(jié)果由分析人員根據(jù)發(fā)現(xiàn)知識(shí)的領(lǐng)域重要性、可信度和支持度等閥值來對(duì)發(fā)現(xiàn)結(jié)果進(jìn)行評(píng)價(jià),并以用戶能理解和觀察的方式將發(fā)現(xiàn)的知識(shí)呈現(xiàn)給用戶。通常會(huì)用到可視化技術(shù)。
(5)知識(shí)的同化。將分析所得到的知識(shí)集成到業(yè)務(wù)信息系統(tǒng)的組織結(jié)構(gòu)中去。
3 現(xiàn)代遠(yuǎn)程開放教育系統(tǒng)簡(jiǎn)介
遠(yuǎn)程開放教育系統(tǒng)能實(shí)現(xiàn)個(gè)性化學(xué)習(xí)、實(shí)時(shí)教學(xué)、實(shí)時(shí)考試和智能答疑。為每一個(gè)接受網(wǎng)絡(luò)遠(yuǎn)程教育的學(xué)習(xí)者提供個(gè)性化的學(xué)習(xí)進(jìn)程。能根據(jù)與當(dāng)前學(xué)習(xí)者相類似的學(xué)生的學(xué)習(xí)模式自動(dòng)地對(duì)其后繼知識(shí)的學(xué)習(xí)進(jìn)行預(yù)測(cè)以及合理推薦,并對(duì)學(xué)習(xí)者的學(xué)習(xí)過程進(jìn)行分階段的評(píng)價(jià),依據(jù)其績(jī)效信息動(dòng)態(tài)調(diào)整其學(xué)習(xí)難度、練習(xí)與測(cè)試內(nèi)容,對(duì)學(xué)生提出的問題實(shí)現(xiàn)智能化答疑,對(duì)該學(xué)習(xí)者薄弱環(huán)節(jié)進(jìn)行有效指導(dǎo),做到因材施教和全天候?qū)W習(xí)。
遠(yuǎn)程開放教育系統(tǒng)由用戶系統(tǒng)、WEB服務(wù)器、應(yīng)用服務(wù)器、數(shù)據(jù)服務(wù)器、用戶數(shù)據(jù)庫(kù)和資源數(shù)據(jù)庫(kù)組成。
用戶系統(tǒng)用于實(shí)現(xiàn)遠(yuǎn)程開放教育系統(tǒng)的顯示功能,其功能是:實(shí)現(xiàn)信息的和接受,管理員通過它來實(shí)現(xiàn)系統(tǒng)的管理、更新、維護(hù)等,主要是通過XML語言和HTTP協(xié)議實(shí)現(xiàn)WEB瀏覽器與WEB服務(wù)器的鏈接和信息通訊。WEB服務(wù)器用于完成遠(yuǎn)程開放教育系統(tǒng)的事務(wù)處理,用于處理學(xué)習(xí)過程中的各種事務(wù)。應(yīng)用服務(wù)器直接為WEB服務(wù)器提供相關(guān)服務(wù),處理WEB服務(wù)器以及XML文檔組成的用戶的事務(wù)請(qǐng)求信息。論文參考網(wǎng)。數(shù)據(jù)庫(kù)服務(wù)器用于完成數(shù)據(jù)處理,為應(yīng)用服務(wù)器提供相關(guān)服務(wù),完成數(shù)據(jù)查詢、修改和更新等服務(wù),并把運(yùn)行結(jié)果反饋給應(yīng)用服務(wù)器。資源數(shù)據(jù)庫(kù)中主要由遠(yuǎn)程開放教育系統(tǒng)中要使用的課件庫(kù)、答疑庫(kù)、作業(yè)庫(kù)、試題庫(kù)和必要的超級(jí)鏈接等構(gòu)成。用戶數(shù)據(jù)庫(kù)主要用于存儲(chǔ)遠(yuǎn)程開放教育系統(tǒng)中要使用的的注冊(cè)檔案、用戶目前的學(xué)習(xí)內(nèi)容、學(xué)習(xí)進(jìn)展、作業(yè)情況和考試情況等信息。
4 數(shù)據(jù)挖掘技術(shù)在遠(yuǎn)程開放教育中的應(yīng)用
現(xiàn)代遠(yuǎn)程開放教育是隨著現(xiàn)代信息技術(shù)的發(fā)展而產(chǎn)生的一種新型教育形式,其基本特征是利用計(jì)算機(jī)網(wǎng)絡(luò)和多媒體技術(shù),提供豐富的教學(xué)資源供學(xué)習(xí)者選用,教學(xué)形式由原來的以教為主變?yōu)橐詫W(xué)為主。數(shù)據(jù)挖掘技術(shù)在現(xiàn)代遠(yuǎn)程開放教育中的應(yīng)用主要有以下幾方面:
(1)在個(gè)性化學(xué)習(xí)方面的應(yīng)用
由于每個(gè)學(xué)習(xí)者的知識(shí)背景、學(xué)習(xí)習(xí)慣和學(xué)習(xí)目標(biāo)都不一樣,故個(gè)性化學(xué)習(xí)在遠(yuǎn)程開放教育中就顯得非常重要。為了實(shí)現(xiàn)此功能,基于WEB的智能遠(yuǎn)程開放教育系統(tǒng)首先要根據(jù)學(xué)習(xí)者的特點(diǎn)和學(xué)習(xí)目標(biāo)來收集學(xué)習(xí)者的數(shù)據(jù)信息,然后對(duì)收集到的信息進(jìn)行預(yù)處理,再應(yīng)用一種合理的挖掘算法或綜合應(yīng)用不同的算法,如關(guān)聯(lián)規(guī)則分析、聚類和分類技術(shù)、統(tǒng)計(jì)分析以及時(shí)序模式技術(shù)等,來處理此數(shù)據(jù),最終發(fā)現(xiàn)用戶的訪問模式,但是通過模式挖掘后,生成的規(guī)則數(shù)目大、表達(dá)晦澀且不好用,這時(shí)就需要用到智能查詢機(jī)制、可視化和聯(lián)機(jī)分析等技術(shù)對(duì)模式進(jìn)行分析評(píng)價(jià),經(jīng)過模式分析和應(yīng)用技術(shù)處理后,選擇一種學(xué)習(xí)者易于理解和接受的表達(dá)方式將知識(shí)數(shù)據(jù)顯現(xiàn)出來。利用數(shù)據(jù)挖掘與學(xué)習(xí)內(nèi)容綁定的技術(shù),系統(tǒng)就可以以可視化方式來指導(dǎo)學(xué)習(xí)者學(xué)習(xí)和個(gè)性化發(fā)展,這樣系統(tǒng)就實(shí)現(xiàn)了個(gè)性化學(xué)習(xí)功能。
(2)在資源庫(kù)建設(shè)方面的應(yīng)用
資源庫(kù)建設(shè)在整個(gè)系統(tǒng)中至關(guān)重要,為了建立覆蓋面廣、功能齊全的資源庫(kù),我們就必須編制信息資源目錄,征集種類資源信息,并進(jìn)行資源、資源信息篩選、資源信息整理和存儲(chǔ);同時(shí)按學(xué)科門類建設(shè)積件庫(kù)。當(dāng)老師在系統(tǒng)內(nèi)制作課件,為了有針對(duì)性和避免重復(fù),我們可以對(duì)所有學(xué)習(xí)者已選的課程進(jìn)行聚類,并通過聚類學(xué)習(xí)算法來自動(dòng)確定每門課程的類別標(biāo)記。接著利用數(shù)據(jù)挖掘中的關(guān)聯(lián)規(guī)則,估計(jì)出一組相關(guān)同位類課程,再利用泛化關(guān)聯(lián)規(guī)則,找到其上位類課程,或利用序列模式,預(yù)測(cè)出與之有關(guān)的學(xué)生未來可能選擇的同級(jí)課程,最后圍繞學(xué)習(xí)者的需求權(quán)限進(jìn)行課程設(shè)置。
(3)在實(shí)時(shí)教學(xué)方面的應(yīng)用
在本系統(tǒng)中,由于引入了互聯(lián)網(wǎng)技術(shù)、人工智能技術(shù)、數(shù)據(jù)庫(kù)技術(shù)和知識(shí)發(fā)現(xiàn)技術(shù),通過機(jī)器學(xué)習(xí)、統(tǒng)計(jì)分析等方法設(shè)計(jì)出了個(gè)性化處理引擎,從大量的數(shù)據(jù)中進(jìn)行數(shù)據(jù)挖掘,提取有用的、潛在的信息。學(xué)生可以通過網(wǎng)絡(luò)實(shí)現(xiàn)每天24小時(shí)的學(xué)習(xí),而且本系統(tǒng)可以更多且及時(shí)的了解到學(xué)生的學(xué)習(xí)學(xué)習(xí)進(jìn)度、需求、能力、興趣愛好等方面的信息,并動(dòng)態(tài)地根據(jù)這些信息調(diào)整學(xué)習(xí)計(jì)劃和進(jìn)度,讓學(xué)生得到針對(duì)其“個(gè)性”的教育,實(shí)現(xiàn)因材施教。
(4)在智能答疑方面的應(yīng)用
基于WEB的遠(yuǎn)程教學(xué)系統(tǒng)中的智能答疑系統(tǒng)只要用戶能上網(wǎng),就可解答學(xué)生在學(xué)習(xí)過程中產(chǎn)生的問題。它能根據(jù)學(xué)生用戶訪問日志、問題記錄等數(shù)據(jù)進(jìn)行數(shù)據(jù)挖掘,用智能抽取的方法實(shí)現(xiàn)智能答疑。從用戶訪問日志和提問信息里面可以分析出學(xué)生的行為。智能答疑系統(tǒng)后臺(tái)存儲(chǔ)了大量的由經(jīng)驗(yàn)豐富的教師精心挑選的問題答案,對(duì)于用戶提出的問題.系統(tǒng)首先通過對(duì)問題的分析自動(dòng)在數(shù)據(jù)庫(kù)中尋找最適合的答案。這樣通過數(shù)據(jù)挖掘,針對(duì)學(xué)生用戶提問記錄、日志不斷更新和調(diào)整學(xué)生用戶知識(shí)庫(kù),使問題的回答更加精確。
(5)在實(shí)時(shí)考試方面的應(yīng)用
本系統(tǒng)的實(shí)時(shí)考試系統(tǒng)是一個(gè)基于數(shù)據(jù)庫(kù)和WEB的遠(yuǎn)程在線式實(shí)時(shí)的測(cè)試系統(tǒng)。它能考慮個(gè)別學(xué)習(xí)者的能力和特性,按照考試的目的和必要性,提供各種問項(xiàng)信息,如難易程度、辨別程度等。并且還能同步打分,提供成績(jī)進(jìn)展情況,根據(jù)個(gè)人特性解釋問題,按個(gè)人及科目對(duì)考試結(jié)果進(jìn)行各種統(tǒng)計(jì)分析和評(píng)價(jià),并存入學(xué)生用戶數(shù)據(jù)中。這些功能的實(shí)現(xiàn)是由于系統(tǒng)采用關(guān)聯(lián)規(guī)則、聚類和分類工具對(duì)數(shù)據(jù)庫(kù)中抽取的數(shù)據(jù)進(jìn)行處理,分析出學(xué)生的特性及其對(duì)課程各知識(shí)點(diǎn)的掌握程度,并結(jié)合學(xué)生的考試目的恰當(dāng)?shù)胤答伣o學(xué)生,這樣提高了學(xué)生學(xué)習(xí)的效率。
5 結(jié)束語
在現(xiàn)代遠(yuǎn)程開放教育網(wǎng)站設(shè)計(jì)中,基于XML(ExtensibleMarkup Language,可擴(kuò)展標(biāo)記語言)的新一代系統(tǒng)設(shè)計(jì)環(huán)境,可以更好地描述半結(jié)構(gòu)化和結(jié)構(gòu)化的數(shù)據(jù),更有利于進(jìn)行數(shù)據(jù)搜索和挖掘。如何整合XML和Web服務(wù)技術(shù),以此為契機(jī)開展數(shù)據(jù)挖掘和知識(shí)獲取,在現(xiàn)代遠(yuǎn)程開放教育網(wǎng)站的設(shè)計(jì)中以學(xué)習(xí)者為中心,提供一種基于資源的學(xué)習(xí),教學(xué)資源可以適應(yīng)各種學(xué)習(xí)者的需要和背景進(jìn)行不同的組合,提供更加優(yōu)良的、個(gè)性化的服務(wù)。
參考文獻(xiàn):
[1]李爽,陳麗.國(guó)內(nèi)外網(wǎng)上智能答疑系統(tǒng)比較研究[J].北京,中國(guó)電化教育,2003(5)
[2]蘇新寧.?dāng)?shù)據(jù)挖掘理論與技術(shù)[M].北京:科學(xué)技術(shù)文獻(xiàn)出版社,2003
[3]趙丹群.?dāng)?shù)據(jù)挖掘:原理、方法及其應(yīng)用[J].現(xiàn)代圖書情報(bào)技術(shù),2000,(6)
[4]周云真,舒建文,王平根.據(jù)挖掘在基于WEB的智能遠(yuǎn)程教育系統(tǒng)中的的應(yīng)用[J] .南京:文教資料,2006(10)
數(shù)據(jù)挖掘技術(shù)論文范文5
1.1數(shù)據(jù)挖掘技術(shù)
關(guān)聯(lián)分析即找出兩個(gè)或以上變量之間同時(shí)出現(xiàn)的規(guī)律、因果結(jié)構(gòu),即通過其他事物可對(duì)某個(gè)與之相關(guān)的事物做出預(yù)測(cè)。數(shù)據(jù)挖掘關(guān)聯(lián)分析的主要作用就是分析海量數(shù)據(jù)中潛在的關(guān)聯(lián)規(guī)則,對(duì)于高校圖書館個(gè)性化服務(wù)而言,即從圖書館數(shù)據(jù)庫(kù)中發(fā)現(xiàn)相關(guān)的關(guān)聯(lián)規(guī)則,針對(duì)用戶的信息需求做出準(zhǔn)確預(yù)測(cè),提高信息推送的針對(duì)性,便于用戶獲取所需的信息。聚類即將數(shù)據(jù)庫(kù)中的一組個(gè)體按照相似性歸結(jié)為若干類型,應(yīng)用于圖書館系統(tǒng)中,就是將相似的文獻(xiàn)集中在一起,用戶在搜索相關(guān)文獻(xiàn)時(shí)可以查閱更多其他相關(guān)內(nèi)容,便于其總結(jié)、歸納;在個(gè)性化服務(wù)中還可以通過聚類匯總用戶所需的特定信息。分類與聚類相似,是按照分析對(duì)象的屬性建立類組,用戶查閱資料的過程中,每種信息的重要程度有所不同,通過分類可以將用戶所需求的知識(shí)分為高度需求、中度需求及低度需求。在高校圖書館個(gè)性化服務(wù)中要對(duì)用戶的使用規(guī)律做出預(yù)測(cè),即根據(jù)用戶歷史查閱記錄對(duì)用戶所需的文獻(xiàn)種類、特征等做出預(yù)測(cè)。時(shí)序模式主要是通過時(shí)間段對(duì)用戶的訪問記錄、檢索過程做出標(biāo)志,再通過時(shí)間序列將重復(fù)率較高的內(nèi)容挖掘出來,以預(yù)測(cè)其下個(gè)信息需求,提高用戶查閱資料的便利性。
1.2圖書館中應(yīng)用數(shù)據(jù)挖掘的必要性與可行性分析
圖書館應(yīng)用數(shù)據(jù)挖掘技術(shù)的必要性體現(xiàn)在以下幾個(gè)方面:首先,信息化需求。用戶的借閱記錄、檢索記錄均存儲(chǔ)于圖書館數(shù)據(jù)庫(kù)中,需要利用數(shù)據(jù)挖掘技術(shù)將這些海量數(shù)據(jù)轉(zhuǎn)換為有用的知識(shí)信息,以便于館員做出決策。其次,圖書館的管理需求。傳統(tǒng)圖書館系統(tǒng)僅能為用戶提供簡(jiǎn)單的訪問、檢索等功能,這些功能無法滿足圖書館個(gè)性化的技術(shù)要求,因此要利用數(shù)據(jù)挖掘技術(shù)將用戶借閱數(shù)據(jù)中隱含的關(guān)聯(lián)性發(fā)掘出來,從中發(fā)現(xiàn)有用的知識(shí)信息。最后,用戶服務(wù)的需求。數(shù)字化圖書館的發(fā)展越來越迅速,用戶通過圖書館獲得的資源也越來越豐富,如何從海量的信息資源中發(fā)掘出對(duì)用戶有用的知識(shí)信息,僅依靠傳統(tǒng)的圖書館管理系統(tǒng)無法解決這一問題,因此要利用數(shù)據(jù)挖掘技術(shù)對(duì)用戶的借閱記錄進(jìn)行分析,從中獲得更多有價(jià)值的信息,以提高圖書館的服務(wù)質(zhì)量及館藏利用率。而在圖書館個(gè)性化服務(wù)中應(yīng)用數(shù)據(jù)挖掘技術(shù)也是可行的,一方面很多圖書館已具備比較好的物質(zhì)條件及人才條件,這些均是圖書館個(gè)性化服務(wù)中應(yīng)用數(shù)據(jù)挖掘技術(shù)的必要條件,而且政府在經(jīng)濟(jì)方面、政策方面也為數(shù)據(jù)挖掘的應(yīng)用提供了更多保障;另一方面,近年來數(shù)據(jù)挖掘技術(shù)也有了長(zhǎng)足的發(fā)展,其足以為圖書館的個(gè)性化服務(wù)提供必要的技術(shù)支持。圖書館數(shù)字化發(fā)展過程中需要采集、購(gòu)置更多的數(shù)據(jù)資源,而利用數(shù)據(jù)挖掘技術(shù)可以為圖書館資源建設(shè)提供指導(dǎo)作用,挖掘圖書館的歷史借閱記錄,可進(jìn)一步了解用戶的借閱習(xí)慣、閱讀興趣及信息需求,并且可以對(duì)不同圖書之間的關(guān)聯(lián)性進(jìn)行深入分析,圖書館員根據(jù)這些信息記錄、分析結(jié)果等提供指導(dǎo),可以提高圖書資源分配的合理性,對(duì)館藏布局進(jìn)行優(yōu)化。由此可見,數(shù)字化圖書館個(gè)性化服務(wù)中應(yīng)用數(shù)據(jù)挖掘技術(shù)十分必要。
2圖書館個(gè)性化服務(wù)的具體體現(xiàn)
高校圖書館個(gè)性化服務(wù)是指根據(jù)每個(gè)用戶的專業(yè)、愛好、研究方向、探索領(lǐng)域及特殊服務(wù)為其提供更具針對(duì)性的信息服務(wù),幫助用戶查閱更加完整的信息資料,便于其學(xué)習(xí)、研究。高校圖書館個(gè)性化服務(wù)具體體現(xiàn)在以下3個(gè)方面:
①用戶可根據(jù)自己的需求定制相關(guān)信息,以保證其在圖書館中能夠查閱到相關(guān)資料;圖書館利用數(shù)據(jù)挖掘技術(shù)發(fā)現(xiàn)用戶的興趣愛好,為其定制個(gè)性化的訪問空間。用戶訪問圖書館數(shù)據(jù)庫(kù)時(shí)會(huì)將其興趣愛好間接地反映出來,如果用戶不感興趣,在頁面停留的時(shí)間會(huì)較短,停留時(shí)間較長(zhǎng)則說明比較感興趣;利用用戶的瀏覽路徑信息時(shí)間即可將用戶對(duì)信息資源的感興趣程度發(fā)掘出來。
②提高圖書館資源利用率。利用數(shù)據(jù)挖掘技術(shù)可以識(shí)別圖書館網(wǎng)站內(nèi)頻繁訪問的路徑及用戶訪問次數(shù)較多的頁面,可以將新書信息、重要的分類信息放在這些路徑上,從而向用戶主動(dòng)推送其所需要的信息資源,提高圖書的利用率。
③優(yōu)化鏈接結(jié)構(gòu),提高用戶應(yīng)用的便利性。對(duì)Weblog進(jìn)行挖掘,可以發(fā)現(xiàn)用戶訪問頁面的相關(guān)性,增加聯(lián)系比較密切的網(wǎng)頁之間的關(guān)聯(lián)性;發(fā)現(xiàn)用戶的期望位置,如果用戶訪問期望位置的頻率高于對(duì)實(shí)際位置的訪問頻率,則可在二者之間建立導(dǎo)航鏈接,優(yōu)化站點(diǎn)。
④查新服務(wù)與定題服務(wù)。傳統(tǒng)圖書館主要通過查詢光盤數(shù)據(jù)庫(kù)、文獻(xiàn)數(shù)據(jù)庫(kù)等進(jìn)行查新服務(wù),而隨著網(wǎng)絡(luò)技術(shù)的不斷發(fā)展與應(yīng)用,外部網(wǎng)絡(luò)信息及更新的速度遠(yuǎn)遠(yuǎn)超過圖書館內(nèi)部網(wǎng)絡(luò),因此要加強(qiáng)網(wǎng)絡(luò)平臺(tái)的建設(shè),以保證服務(wù)結(jié)果的真實(shí)性與可靠性。數(shù)字圖書館在進(jìn)行查新與定題服務(wù)過程中,可以利用可視化技術(shù)為用戶提供在線即時(shí)信息分析。
3圖書館個(gè)性化服務(wù)中數(shù)據(jù)挖掘技術(shù)的應(yīng)用
圖書館個(gè)性化服務(wù)數(shù)據(jù)挖掘技術(shù)的應(yīng)用流程如下:建立讀者數(shù)據(jù)倉(cāng)庫(kù)——數(shù)據(jù)收集——挖掘算法的選擇——挖掘結(jié)果的顯示——對(duì)結(jié)果的評(píng)價(jià)。
3.1建立讀者數(shù)據(jù)倉(cāng)庫(kù)
數(shù)據(jù)挖掘過程中,在確定了挖掘目標(biāo)后,即開始進(jìn)行數(shù)據(jù)準(zhǔn)備,從大量數(shù)據(jù)中選擇一個(gè)與需挖掘目標(biāo)相關(guān)的樣板數(shù)據(jù)子集。此時(shí)需要建立一個(gè)數(shù)據(jù)倉(cāng)庫(kù),其主要作用是將所有挖掘目標(biāo)所需的數(shù)據(jù)保存其中,如果未建立數(shù)據(jù)倉(cāng)庫(kù)直接進(jìn)行數(shù)據(jù)挖掘,可能會(huì)導(dǎo)致挖掘失敗,因此數(shù)據(jù)挖掘的前期工作大部分用于準(zhǔn)備數(shù)據(jù),因此建立數(shù)據(jù)倉(cāng)庫(kù)是一個(gè)至關(guān)重要的準(zhǔn)備工作。高校圖書館個(gè)性化服務(wù)中應(yīng)用數(shù)據(jù)挖掘技術(shù),第一步就是建立用戶的興趣庫(kù)及圖書館自身的特色資源數(shù)據(jù)庫(kù)。用戶使用圖書館的過程中,必然會(huì)產(chǎn)生大量的借閱記錄,訪問圖書館網(wǎng)站會(huì)留下訪問記錄,這其中均潛藏了大量有意義的信息。
3.2數(shù)據(jù)收集
在建立用戶興趣庫(kù)及特色資源數(shù)據(jù)庫(kù)后,必須對(duì)這兩個(gè)數(shù)據(jù)庫(kù)中的數(shù)據(jù)進(jìn)行分析、調(diào)整,以保證原始數(shù)據(jù)的質(zhì)量,從而保證數(shù)據(jù)挖掘結(jié)果的質(zhì)量。數(shù)據(jù)收集即數(shù)據(jù)的分析與調(diào)整可以分為數(shù)據(jù)抽取、數(shù)據(jù)清洗及數(shù)據(jù)轉(zhuǎn)換等3個(gè)步驟。其中數(shù)據(jù)抽取的主要作用是將與挖掘目標(biāo)相關(guān)的數(shù)據(jù)信息搜索出來;數(shù)據(jù)清洗則是對(duì)數(shù)據(jù)進(jìn)行噪聲消除、重復(fù)記錄的消除及推導(dǎo)計(jì)算缺值數(shù)據(jù)等。圖書館每天會(huì)產(chǎn)生大量的用戶相關(guān)的數(shù)據(jù),并非所有的數(shù)據(jù)均對(duì)整個(gè)挖掘處理過程有正面作用,有些數(shù)據(jù)可能會(huì)對(duì)挖掘效果產(chǎn)生負(fù)面影響,因此剔除這些無用的數(shù)據(jù)十分必要。數(shù)據(jù)轉(zhuǎn)換的主要作用是精減數(shù)據(jù)維數(shù),從初始特征中分析出真正有用的特征,通過數(shù)據(jù)轉(zhuǎn)換可有效減少數(shù)據(jù)挖掘時(shí)需要考慮的變量數(shù)。
3.3選擇算法及建立模型
數(shù)據(jù)挖掘過程中不同的算法可能會(huì)實(shí)現(xiàn)同一個(gè)任務(wù),但過程卻大相徑庭,因此要根據(jù)數(shù)據(jù)的特點(diǎn)、實(shí)際運(yùn)行系統(tǒng)的要求選擇適用的算法。有些用戶比較傾向于獲取描述型的、容易理解的知識(shí),有些用戶則希望獲取預(yù)測(cè)型知識(shí),因此要針對(duì)不同的用戶選擇對(duì)應(yīng)的算法,之后就要進(jìn)行數(shù)據(jù)挖掘模型的建立。通過對(duì)用戶分類、聚類及時(shí)間序列的分析,將每類用戶的普遍性需求及個(gè)性化需求抽象出來,從而建立一系列的關(guān)聯(lián)規(guī)則模型。一個(gè)模型完成后不一定可以立刻解決問題,需要對(duì)其進(jìn)行反復(fù)驗(yàn)證,如果可以解決問題證明模型有效;如模型存在缺陷,則要通過反饋對(duì)模型進(jìn)行修改、調(diào)整,或者選擇新算法,建立新模型,對(duì)不同的模型進(jìn)行全面考察。
3.4結(jié)果解釋與知識(shí)表示
在建立數(shù)據(jù)挖掘模型后,可利用建立挖掘模型時(shí)所用的算法規(guī)則進(jìn)行運(yùn)算,即可產(chǎn)生數(shù)據(jù)挖掘結(jié)果,圖書館只需對(duì)挖掘結(jié)果進(jìn)行可視化、可理解化處理即可。要將抽象的數(shù)據(jù)解釋成易讀、易懂的結(jié)果,圖書館決策者及管理者即可根據(jù)可視化的挖掘結(jié)果進(jìn)行決策。比如圖書館新引進(jìn)了一批考古專業(yè)的學(xué)術(shù)論文,由數(shù)據(jù)挖掘模型分析結(jié)果可知,該批論文的查閱者90%均為考古專業(yè)的老師與學(xué)生,其他專業(yè)的師生查閱率不到10%,根據(jù)這一結(jié)果,即可將論文信息傳遞給考古專業(yè)的相關(guān)用戶,以提高信息推送的針對(duì)性。
3.5結(jié)果的驗(yàn)證、應(yīng)用及評(píng)價(jià)
產(chǎn)生挖掘結(jié)果后需要進(jìn)一步實(shí)踐,以驗(yàn)證結(jié)果的有效性與可用性,及對(duì)模型的實(shí)用性進(jìn)行評(píng)價(jià),并且挖掘結(jié)果還具備預(yù)測(cè)未來數(shù)據(jù)的功能。上一步的結(jié)果解釋經(jīng)過實(shí)踐后,可對(duì)應(yīng)用過程進(jìn)行跟蹤了解,獲得用戶的反饋信息,對(duì)結(jié)果的實(shí)用性進(jìn)行驗(yàn)證。需要注意一點(diǎn),即一個(gè)數(shù)據(jù)挖掘的模型與已有數(shù)據(jù)完全相符比較困難,且并非所有的環(huán)境、每個(gè)時(shí)間節(jié)點(diǎn)均適用于同一個(gè)數(shù)據(jù)挖掘模型,因此要對(duì)挖掘結(jié)果做出評(píng)價(jià),如經(jīng)過用戶的反饋,數(shù)據(jù)挖掘出來的結(jié)果可以解決問題,實(shí)現(xiàn)了最初的挖掘目標(biāo),滿足了用戶需求,則可判定該模型是合理的。挖掘結(jié)果可以滿足用戶的要求,用戶就會(huì)做出滿意的反饋,將這一反饋信息提供給決策者即可做下一步的實(shí)施,完成該階段后,圖書館就基本上實(shí)現(xiàn)了以用戶為中心的個(gè)性化服務(wù)的數(shù)據(jù)挖掘過程。不過某些情況下模型的評(píng)價(jià)結(jié)果可能不盡如人意,即數(shù)據(jù)挖掘的結(jié)果無法滿足用戶的要求,這種情況就要由系統(tǒng)進(jìn)行重新處理,重復(fù)上述步驟,重新抽取數(shù)據(jù)、選擇另外一種數(shù)據(jù)轉(zhuǎn)換方法、設(shè)定新的數(shù)據(jù)挖掘參數(shù)值、選擇另外的挖掘算法等。由此可見,數(shù)據(jù)挖掘的過程是一個(gè)不斷反饋的過程,體現(xiàn)出反復(fù)性的特點(diǎn)。
4結(jié)語
數(shù)據(jù)挖掘技術(shù)論文范文6
論文摘要:隨著數(shù)據(jù)庫(kù)技術(shù)和人工智能技術(shù)的不斷進(jìn)步,數(shù)據(jù)挖掘技術(shù)逐步發(fā)展起來,作為當(dāng)前計(jì)算機(jī)信息技術(shù)中的一項(xiàng)較為新興的技術(shù),綜合運(yùn)用了數(shù)理統(tǒng)計(jì)、模式識(shí)別、計(jì)算智能、人工智能等多項(xiàng)先進(jìn)技術(shù),主要是從大量的數(shù)據(jù)中來發(fā)現(xiàn)和挖掘一些隱含的有價(jià)值的知識(shí),從大型的數(shù)據(jù)庫(kù)數(shù)據(jù)中挖掘一些人們比較感興趣的知識(shí),本文主要講了數(shù)據(jù)挖掘技術(shù)的概念、數(shù)據(jù)挖掘技術(shù)在保護(hù)設(shè)備故障信息中的實(shí)現(xiàn)方法以及數(shù)據(jù)挖掘技術(shù)保護(hù)設(shè)備故障信息管理的基本功能等問題。
數(shù)據(jù)挖掘技術(shù)作為當(dāng)前計(jì)算機(jī)信息技術(shù)中的一項(xiàng)較為新興的技術(shù),綜合運(yùn)用了數(shù)理統(tǒng)計(jì)、模式識(shí)別、計(jì)算智能、人工智能等多項(xiàng)先進(jìn)技術(shù),主要是從大量的數(shù)據(jù)中來發(fā)現(xiàn)和挖掘一些隱含的有價(jià)值的知識(shí),也就是從大型的數(shù)據(jù)庫(kù)數(shù)據(jù)中挖掘一些人們比較感興趣的知識(shí),這些被提取的知識(shí)通常會(huì)表現(xiàn)為模式、規(guī)律、規(guī)則和概念,將數(shù)據(jù)挖掘的所有對(duì)象定義成數(shù)據(jù)庫(kù)或者是文件系統(tǒng)以及其他的一些組織在一起的數(shù)據(jù)集合,數(shù)據(jù)挖掘技術(shù)也是現(xiàn)在智能理論系統(tǒng)的重要研究?jī)?nèi)容,已經(jīng)開始被應(yīng)用于行政管理、醫(yī)學(xué)、金融、商業(yè)、工業(yè)等不同的領(lǐng)域當(dāng)中,在保護(hù)設(shè)備故障信息管理方面發(fā)揮出了積極的作用。
一、數(shù)據(jù)挖掘技術(shù)的概念
隨著數(shù)據(jù)庫(kù)技術(shù)和人工智能技術(shù)的不斷進(jìn)步,數(shù)據(jù)挖掘技術(shù)逐步發(fā)展起來,主要是指從大量的數(shù)據(jù)中發(fā)現(xiàn)和挖掘一些隱含的有價(jià)值的有用信息和知識(shí),這些被提取的知識(shí)通常會(huì)表現(xiàn)為模式、規(guī)律、規(guī)則和概念,將數(shù)據(jù)挖掘的所有對(duì)象定義成數(shù)據(jù)庫(kù)或者是文件系統(tǒng)以及其他的一些組織在一起的數(shù)據(jù)集合,當(dāng)前數(shù)據(jù)挖掘技術(shù)已經(jīng)逐漸被應(yīng)用于了醫(yī)藥業(yè)、保險(xiǎn)業(yè)、制造業(yè)、電信業(yè)、銀行業(yè)、市場(chǎng)營(yíng)銷等不同的領(lǐng)域,隨著計(jì)算技術(shù)、網(wǎng)絡(luò)技術(shù)以及信息技術(shù)的不斷進(jìn)步,在故障診斷過程中所采集到的數(shù)據(jù)可以被廣泛地存儲(chǔ)在不同的數(shù)據(jù)庫(kù)當(dāng)中,如果依然采用傳統(tǒng)的數(shù)據(jù)處理方法來對(duì)這些海量的信息數(shù)據(jù)進(jìn)行分析處理,不僅會(huì)浪費(fèi)大量的實(shí)踐而且也很難挖掘到有效的信息數(shù)據(jù),同時(shí),盡管智能診斷以及專家系統(tǒng)等方式在故障的診斷過程中已經(jīng)被得到了廣泛的應(yīng)用,但是這些方法卻仍然存在著很多推理困難、知識(shí)瓶頸等一些尚未完全被解決的問題,采用數(shù)據(jù)挖掘技術(shù)就可以比較有效地來解決這些難題,在故障診斷的過程中發(fā)揮其獨(dú)特的優(yōu)勢(shì)。從不同的角度進(jìn)行分析,數(shù)據(jù)挖掘技術(shù)可以分為不同的方法,就目前的發(fā)展現(xiàn)狀來看,常用的數(shù)據(jù)挖掘技術(shù)方法主要有遺傳算法、粗集方法、神經(jīng)網(wǎng)絡(luò)方法以及決策樹方法等。
二、數(shù)據(jù)挖掘技術(shù)在保護(hù)設(shè)備故障信息中的實(shí)現(xiàn)方法
1.基本原理。在設(shè)備出現(xiàn)故障時(shí)采用數(shù)據(jù)挖掘技術(shù)對(duì)設(shè)備進(jìn)行一系列的故障診斷,也就是說根據(jù)這一設(shè)備的運(yùn)行記錄,對(duì)其運(yùn)行的趨勢(shì)進(jìn)行預(yù)測(cè),并對(duì)其可能存在的運(yùn)行狀態(tài)進(jìn)行分類,故障診斷的實(shí)質(zhì)就是一種模式識(shí)別方式,對(duì)機(jī)器設(shè)備的故障進(jìn)行診斷的過程也就是該模式匹配和獲取的過程。
2.對(duì)故障診斷的數(shù)據(jù)挖掘方法建模。針對(duì)機(jī)械故障的診斷來說,首先就應(yīng)當(dāng)獲取一些關(guān)于本機(jī)組的一些運(yùn)行參數(shù),既要包括機(jī)器在正常運(yùn)行以及平穩(wěn)工作時(shí)的信息數(shù)據(jù),也應(yīng)當(dāng)包括機(jī)器在出現(xiàn)故障時(shí)的一些信息數(shù)據(jù),在現(xiàn)場(chǎng)的監(jiān)控系統(tǒng)中往往就會(huì)存在著相應(yīng)的正常工作狀態(tài)下以及出現(xiàn)故障時(shí)的不同運(yùn)行參數(shù),而數(shù)據(jù)挖掘的任務(wù)就是從這些雜亂無章的信息樣本庫(kù)中找出其中所隱藏著的內(nèi)在規(guī)律,并且從中提取各自故障的不同特征,在對(duì)故障的模式進(jìn)行劃分時(shí),我們通常可以借助概率統(tǒng)計(jì)的方式,在對(duì)故障模式進(jìn)行識(shí)別時(shí)可以采用較為成熟的關(guān)聯(lián)規(guī)則理論,實(shí)現(xiàn)變量之間的關(guān)聯(lián)關(guān)系,并最終得到分類所需要用到的一些規(guī)則,從而最終達(dá)到分類的目的,依據(jù)這些規(guī)則,就可以對(duì)一些新來的數(shù)據(jù)進(jìn)行判斷,而且可以準(zhǔn)確地對(duì)故障進(jìn)行分類,找出故障所產(chǎn)生的原因和解決故障的正確方法。
三、數(shù)據(jù)挖掘技術(shù)保護(hù)設(shè)備故障信息管理的基本功能
1.數(shù)據(jù)傳輸功能。數(shù)據(jù)挖掘技術(shù)保護(hù)設(shè)備故障信息管理與分析系統(tǒng)的主要數(shù)據(jù)來源就是故障信息的分站系統(tǒng),而分站系統(tǒng)中的數(shù)據(jù)是各個(gè)子站的一個(gè)數(shù)據(jù)匯總,而保護(hù)設(shè)備故障信息管理與分析系統(tǒng)所采用的獲取數(shù)據(jù)的主要方式就是一些專門的通信程序構(gòu)建起系統(tǒng)與分站之間的聯(lián)系,將分站上的一些匯總數(shù)據(jù)傳輸?shù)焦收闲畔⑾到y(tǒng)的數(shù)據(jù)庫(kù)中,分析系統(tǒng)所具有的數(shù)據(jù)傳輸功能,在進(jìn)行數(shù)據(jù)的處理時(shí)又能做到不影響原先分站數(shù)據(jù)庫(kù)的正常運(yùn)行,并且具備抗干擾能力強(qiáng)、計(jì)算效率高的優(yōu)點(diǎn)。
2.數(shù)據(jù)的分析功能。系統(tǒng)在正常運(yùn)行時(shí),會(huì)從故障信息子站或者是分站采集相關(guān)的數(shù)據(jù)并且對(duì)這些采集到的數(shù)據(jù)進(jìn)行分析整理,最終得到有用的數(shù)據(jù)信息,利用數(shù)據(jù)挖掘技術(shù)對(duì)龐大的故障數(shù)據(jù)進(jìn)行分析、分類以及整理,能夠有效地找出有用的信息,歸并一些冗余的信息,對(duì)信息進(jìn)行有效地存儲(chǔ)和分類。另外,數(shù)據(jù)挖掘技術(shù)還具有信息查詢的功能,可以進(jìn)行不同條件下的查詢,例如按時(shí)間段、報(bào)告類型、設(shè)備型號(hào)以及單位等進(jìn)行查詢,實(shí)現(xiàn)查詢后的備份轉(zhuǎn)存等,根據(jù)故障信息系統(tǒng)所提供高的數(shù)據(jù)信息以及本系統(tǒng)庫(kù)中所保存的一些整定阻抗值,可以通過邏輯判斷生產(chǎn)繼電保護(hù)動(dòng)作的分析報(bào)告,主要包括對(duì)故障過程的簡(jiǎn)述、故障切除情況以及保護(hù)動(dòng)作情況等,可以便于繼電保護(hù)人員直觀的對(duì)保護(hù)裝置的動(dòng)作情況進(jìn)行分析。
四、結(jié)語
隨著企業(yè)自動(dòng)化程度的不斷提高以及數(shù)據(jù)庫(kù)技術(shù)的迅速發(fā)展,很多企業(yè)在一些重要的設(shè)備方面都安裝了監(jiān)測(cè)系統(tǒng),對(duì)設(shè)備運(yùn)行過程中的一些重要參數(shù)和數(shù)據(jù)進(jìn)行采集,采用數(shù)據(jù)挖掘技術(shù)可以有效地解決設(shè)備故障診斷中的一些知識(shí)獲取瓶頸,將數(shù)據(jù)挖掘系統(tǒng)充分應(yīng)用到監(jiān)控系統(tǒng)中,有效解決故障診斷中的一些困難,事實(shí)證明,將數(shù)據(jù)挖掘技術(shù)應(yīng)用到故障診斷中是非常有效的,也是值得研究和學(xué)習(xí)的新型技術(shù)手段。
參考文獻(xiàn)
[1]李勛,龔慶武,楊群瑛,羅思需,李社勇.基于數(shù)據(jù)挖掘技術(shù)的保護(hù)設(shè)備故障信息管理與分析系統(tǒng)[J].電力自動(dòng)化設(shè)備,2011,9
[2]李建業(yè),劉志遠(yuǎn),蔡乾,趙洪波.基于Web的故障信息系統(tǒng)[J].電力信息化,2007,S1