前言:尋找寫作靈感?中文期刊網用心挑選的計算機基礎教育運用關聯規則,希望能為您的閱讀和創作帶來靈感,歡迎大家閱讀并分享。
一、引言 職校學生都要參加江蘇省計算機辦公自動化等級考試,為了保證學生考試通過率我們引進了在線考核系統。該系統通過網絡服務器的設置,學生所用的計算機作為客戶端來登錄服務器隨機抽取試題,答題完畢后網上提交試卷,系統會對學生的答卷進行分類、整理,并指出錯誤原因。近幾年來,隨著該系統的深入應用,暴露出許多錯誤率較高的題目,雖然教師能夠獲得學生錯誤的具體數據,但長久以來都只是被動的糾正問題,卻不能發現錯題之間潛在的聯系。數據挖掘中關聯規則就是從大量的數據中挖掘出有價值、有意義的內在聯系。本文通過在線考核系統利用關聯規則對錯題數據進行挖掘,從中發現錯題之間潛在的聯系,找到學生學習的難點,進而指導教師主動的預防錯誤發生,提高教學質量。 二、關聯規則理論 1.關聯規則的作用 關聯規則挖掘是數據挖掘中是一個重要的課題,它是一個自學習的過程。反映一個事物與其他事物之間的相互依存性和關聯性,揭示數據間未知的依賴關系。假如兩個或者多個事物之間存在一定的關聯關系,那么其中一個事物就能夠通過其它事物猜測到。關聯規則側重于確定數據中不同域之間的聯系,通過支持度和可信度定量地描述這種關聯的程度,以此可以發現人們不知道的、或者是出乎人們預料的規則。 2.關聯規則的基本概念 設I={i1,i2,...,im}是數據項的集合。D是所有事務的集合(即數據庫),每個事務T是一些項目的集合,T包含在I中,每個事務可以用唯一的標識符TID來標識。關聯規則是形如AB的蘊涵式,其中AI,BI,且A∩B=,A稱為前提,B稱為結果。含義是如果A出現在一條記錄中,則在這條記錄中B同時出現的可能性比較高。支持度:項集A在事務集D中的支持度是D中包含A的事務數,記作Support(A)。規則AB的支持度定義為P(A∪B),表示A、B同時出現的可能性,即支持度(AB)等于包含A和B的元組數除以元組總數。記作:Support(AB)=P(A∪B)。支持度描述了項集A和B在所有事務中同時出現的概率。例如一個文具店某天共有100筆業務,其中有10筆業務同時買了鉛筆和橡皮,則關聯規則“鉛筆=>橡皮”的支持度為10%。置信度:規則AB的置信度定義為D中包含A的事務的同時也包含B的可能性,也就是在A出現的條件下B也出現的概率,即可信度(AB)等于包含A和B的元組數除以包含A的元組數。 記作:Confidence(AB)=P(B|A)=P(A∪B)/P(A)。支持度是對關聯規則的重要性的衡量,而置信度是對關聯規則的準確度的衡量。支持度說明了這條規則在所有事務中有多大的代表性,顯然支持度越大,關聯規則越重要。有些關聯規則置信度雖然很高,但支持度卻很低,說明該關聯規則實用的機會很小,也不重要。只有符合最小支持度和最小可信度的規則才可稱為強規則。當給定一個事務集D時,關聯規則挖掘就是要產生強規則。 3.關聯規則挖掘求解問題的步驟 (1)預處理與采掘任務有關的數據,根據具體問題的要求對數據庫進行相應的操作,從而構成規格化的數據庫D。(2)針對D求出所有滿足最小支持度的項集,即頻繁項集。(3)生成滿足最小置信度的規則,形成規則集R,解釋并輸出R。4.關聯規則挖掘的經典算法——Apriori算法Apriori算法是一個很有影響的關聯規則挖掘算法,它的核心是基于頻集理論的遞歸方法,是挖掘單維布爾關聯規則的一種重要方法,但具有一定的局限性。Apriori算法就是根據有關頻繁項集特性的先驗知識(priorknowledge)而命名的。該算法利用了一個層次順序搜索的循環方法來完成頻繁項集的挖掘工作;這一循環方法就是利用k項集來產生(k+1)項集。Apriori算法的基本思想是將關聯規則挖掘算法的設計分解為兩步:(1)找到所有支持度大于最小支持度的項集,即頻繁項集; (2)使用第一步找到的頻繁項集產生所期望的規則。Apriori算法表示如下:輸入:事務數據庫D;Min_sup;Min_con。輸出:事物數據庫D中所有的頻繁項集L。方法:L1={large-itemsets};for=(k=2;Lk-1;k++)dobeginCk=apriori-gen(Lk-1);foralltransactiont∈DdobeginCt=subset(Ck,t);forallcandidatec∈Ctdoc.support++;endLk{c∈Ct|c.support>=min_sup}endL=UkLk; 三、關聯規則在等級考試模擬系統中的應用 學生通過在線考核系統進行測試,完成測試后答案自動上報到系統。教師利用該系統對學生的答案進行評判,系統會將學生做錯的內容和學生所在機子的編號傳送到系統數據庫中。通過關聯規則的挖掘我們對學生的錯誤可以有很好的預防,對提高教學效率有很好的幫助。下面我會以計算機《辦公自動化》中的word和excel兩個章節考核內容,選取10高職某班學生在考核中出現的錯誤問題來進行關聯規則方面的實驗。 1.主要錯誤類型的設定為了表述簡單清晰,本文只拿出10名學生的5個主要問題來進行說明。如表1所示: 2.數據預處理為了便于挖掘,對錯誤類型進行了量化數據預處理,表中采用兩個屬性值,1代表此題錯誤,0代表正確,如表2所示: 四、結束語 本文主要是對學生計算機在線考核中出現的錯誤進行了關聯規則的挖掘,從大量的數據中提煉出學生錯誤中間隱藏的具有教學指導意義的規則和信息,并以此找到影響學生成績的原因,達到教學水平的提高。隨著教育信息化的不斷發展,將數據挖掘技術應用到日常教學中來,必然可以幫助教師更加合理的安排教學方法,從而帶動整個學科發展。