前言:尋找寫作靈感?中文期刊網用心挑選的大學生個性化學習推薦系統研究,希望能為您的閱讀和創作帶來靈感,歡迎大家閱讀并分享。
【摘要】本文通過針對2019年計算機專業的53萬條招聘文本,利用Word2vec對文本實施向量化、通過KMeans聚類對將技術需求從招聘文本中抽取出來,再通過二次聚類提取技術詞匯。通過應用關聯分析,從海量招聘文本中學習計算機技能之間的潛在關聯,為計算機系在讀學生提供學習指導。
【關鍵詞】非結構化數據;機器學習;關聯分析
0引言
計算機專業中的技術知識的多樣化導致了在校生對于課外的技術學習產生困惑。招聘網站中的招聘信息往往以語言文本的形式存在,雖然蘊含豐富的價值,但是由于文本理解的難度,難以結構化。若能從中挖掘有效信息,探究數據間的關聯,將能為畢業高校生提供合乎市場需求的技術學習方案。
1技術背景
1.1Word2vec
Word2vec是Google推出的用于獲取詞向量的工具包。其主要思想是將詞表示為一個N維實數向量,兩向量的相似度可以用來度量其對應詞的語義相似度或語義相關度[1]。
1.2關聯分析
關聯算法可以發現一個事物與其他事物之間的相互依存性和關聯性。例如被眾人熟知的購物籃分析,通過發現顧客放入其購物籃中的不同商品之間的聯系,分析顧客的購買習慣。關聯分析可以借由支持度,置信度和提升度來發現聯系如關聯規則或頻繁項集。
2設計思路與具體步驟
2.1數據集
數據集為2019年爬取的就業數據,共539215條記錄,主要內容為崗位需求的文字描述。
2.2數據預處理
每一條招聘信息由多個單句組成的段落。利用jieba工具實現對單句的分詞操作,同時過濾其余不需要的字符。
2.3文本向量化
選用Word2vec技術進行文本向量化處理。利用分詞后的文本數據集作為語料庫,構建詞向量模型。其中,特征向量維度為200維,詞頻至少為50。
2.4單句聚類與技術詞匯聚類
詞向量模型的詞語,實際上是大量的無標簽文本。加載詞向量模型并根據模型中已有的詞語對前100萬條單句數據進行向量值計算,以單句中各詞向量值的平均值作為單句的向量值存入單句向量列表。再將單句向量列表轉換成Numpy數組作為訓練集,通過KMeans聚類將向量值相近的單句聚于一簇中,并標注簇別,其中簇數量設定為8。至此第一次聚類完成,如圖1所示。觀察聚類結果,發現不同類別的語句被歸類,其中一簇以技術需求為主。選取該類作為基礎,對該類以單詞為基礎進行單詞級別的二次聚類。經過反復探索,將簇數量設定為4。此時技術詞匯被聚集在同一簇,根據記錄數降序排列。
2.5結構化
獲得技術清單后,就可以將原有的文字描述的招聘需求(Job列)轉為結構化的招聘清單(JobWords列)列表。
2.6關聯分析
在前文將每一條招聘信息文本轉為技術清單后,通過Apriori算法獲取頻繁項,并按照支持度降序排序,共有424個頻繁項集。再將頻繁項集作為association_rules()方法的參數,指定合適的置信度,可以計算出符合條件的強關聯規則。其中規則支持度、置信度、提升度,均可作為結果的判定標準。通過頻繁項集可以根據用戶提供的技術名詞檢索出其他有關聯的詞語,完成技術推薦,圖3為其中三例推薦的結果。
3結束語
本課題目的是實現非結構化招聘文本到結構化文本的轉化與有價值信息的提取,為高校生提供學習參考。使用經典的NLP方法的同時,加入了多個機器學習算法豐富探究過程,主要包含數據預處理、文本向量化、聚類操作、信息提取等步驟。本文為二者結合提供了一個新思路,并挖掘了潛藏信息?;痦椖浚菏〖?a href="http://www.east68.cn/jiaoyulunwen/gexinghuajiaoxuelunwen/150170.html" target="_blank">大學生創新創業訓練計劃“基于機器學習的大學生個性化學習推薦系統”(ZJ1946)。
參考文獻
[1]劉康,仇培元,劉希亮,等.利用詞向量模型分析城市道路交通空間相關性[J].測繪學報,2017,46(12):108-116.
作者:顏中偉 馬云鶯 劉毅鵬 連松偉 鄭豪 單位:福州大學至誠學院