前言:中文期刊網(wǎng)精心挑選了網(wǎng)絡(luò)爬蟲基本原理范文供你參考和學(xué)習(xí),希望我們的參考范文能激發(fā)你的文章創(chuàng)作靈感,歡迎閱讀。
網(wǎng)絡(luò)爬蟲基本原理范文1
關(guān)鍵詞: 搜索引擎;網(wǎng)絡(luò)爬蟲;實現(xiàn);設(shè)計;主題
中圖分類號:TP393 文獻標識碼:A 文章編號:1009-3044(2016)17-0023-02
Abstract: In the information age, the Internet is full of all aspects of our lives, and the application of the search engine for our life brought great convenience .The research on the realization of web crawler in search engine is of great significance to improve the efficiency of search engine. This paper analyzes the realization of the web crawler in the subject oriented search engine, and puts forward the corresponding methods and measures.
Key words: Search Engine; Web Crawler; Implementation; Design; Theme
1 概述
使用搜索引擎,人們可以方便快捷地在網(wǎng)上獲取有用信息。隨著大數(shù)據(jù)時代的到來,傳統(tǒng)的通用搜索引擎面臨著索引規(guī)模、更新速度和個性化需求等多方面的挑戰(zhàn)。主題搜索引擎以提供分類精細、數(shù)據(jù)全面、更新實時的搜索服務(wù)為目標。網(wǎng)絡(luò)爬蟲是搜索引擎的基礎(chǔ)模塊,是搜索引擎的重要基礎(chǔ)。
網(wǎng)絡(luò)爬蟲是一種能自動提取網(wǎng)頁內(nèi)容的程序,利用網(wǎng)頁信息格式進行網(wǎng)頁分析,也可以定期搜集某個或某些網(wǎng)站的內(nèi)容,跟蹤網(wǎng)站的發(fā)展歷程。隨著網(wǎng)絡(luò)爬蟲技術(shù)的快速進步,網(wǎng)絡(luò)爬蟲更加廣泛地運用于網(wǎng)站結(jié)構(gòu)分析、個性化信息獲取以及用戶興趣挖掘等多種服務(wù)中。
2 主題搜索引擎簡述
搜索引擎是一種用來在萬維網(wǎng)上檢索資源文件的計算機程序。搜索引擎根據(jù)用戶輸入的檢索關(guān)鍵詞推測出用戶的查詢意圖,然后快速地返回相關(guān)的查詢結(jié)果信息供用戶使用。
大數(shù)據(jù)時代互聯(lián)網(wǎng)數(shù)據(jù)爆炸性地增長,急切地需要一種快速、準確細致、全面深入且更新及時的信息檢索方法。主題搜索引擎克服了傳統(tǒng)搜索引擎的諸多困難,使信息檢索變得更加精確細致,使搜索到的信息更加全面深入,同時使專題信息和學(xué)科信息的更新更加及時。
3 網(wǎng)絡(luò)爬蟲簡述
網(wǎng)絡(luò)爬蟲從一個初始URL隊列開始,從中獲取一個URL,獲取網(wǎng)頁,從網(wǎng)頁中提取所有的URL,并將新的URL添加到URL隊列中。然后網(wǎng)絡(luò)爬蟲從隊列中獲得另一個URL,重復(fù)前面的過程,直到達到停止條件。這種爬取資源的方式存在著網(wǎng)絡(luò)連接不穩(wěn)定、網(wǎng)頁特征多樣化、URL不規(guī)范等一些問題。
4 網(wǎng)絡(luò)爬蟲分類
第一個網(wǎng)絡(luò)爬蟲是美國麻省理工學(xué)院的學(xué)生Matthew Grey于1993年寫成,后來改進了爬蟲程序并將其引入到搜索引擎中。隨著搜索引擎技術(shù)的不斷進步,爬蟲程序也越來越復(fù)雜,后來產(chǎn)生了通用爬蟲、限定爬蟲和主題爬蟲等幾種不同類型的爬蟲。
4.1通用爬蟲
基本原理上文已分析,但爬取的范圍過大,爬取順序要求低,對爬取速度和存儲空間要求較高。
4.2限定爬蟲
限定爬蟲是一種能爬取用戶感興趣的某一類網(wǎng)頁的爬蟲程序。但它不要求爬取所有的網(wǎng)頁,只需爬取某些特定種類的網(wǎng)頁即可。工作過程是:采用樸素貝葉斯方法用網(wǎng)頁樣本訓(xùn)練一個文本分類器,然后用這個文本分類器指導(dǎo)爬蟲的偏好,從爬蟲隊列中選擇出用戶感興趣的網(wǎng)頁。
4.3 主題爬蟲
主題爬蟲先確定一個或多個主題,根據(jù)一定的分析算法過濾與主題無關(guān)的URL,保留與主題相關(guān)的URL并將其放入等待URLs隊列中;然后使用某種搜索策略從等待隊列中選擇下一個要抓取的URL,并重復(fù)上述過程,直到達到某種停止條件。
首先主題爬蟲需要判定當(dāng)前抓取與設(shè)定的主題的相關(guān)性,其次主題爬蟲采用按相似度大小抓取網(wǎng)頁的策略來抓取網(wǎng)頁。相比通用爬蟲它極大地節(jié)約了硬件和網(wǎng)絡(luò)資源,加快了爬取速度,還可以滿足人們對特定領(lǐng)域的需求。
5 主題爬蟲的爬取策略
主題爬蟲以通用網(wǎng)絡(luò)爬蟲為基礎(chǔ),在此基礎(chǔ)上進行優(yōu)化和擴展,使其具備主題網(wǎng)絡(luò)爬蟲特有的功能,進而實現(xiàn)面向主題的網(wǎng)頁信息提取。
主題爬蟲盡可能搜集與主題相關(guān)的網(wǎng)頁,減少下載無關(guān)網(wǎng)頁的可能。主題爬蟲與通用爬蟲相比需要解決以下問題:主題的描述和定義、網(wǎng)頁內(nèi)容與主題相關(guān)性的判定、鏈接重要程度的判定、如何提高主題爬蟲資源覆蓋率。
面向主題的信息采集系統(tǒng)可分為4個部分,即主題集選取、Web信息提取、頁面預(yù)處理、鏈接過濾。
5.1 主題集選取
主題網(wǎng)絡(luò)爬蟲中,為有效進行剪枝和過濾操作,需要對主題進行定義或描述,以此來確定采集的方向,主題集的好壞直接影響到了最終的采集效果。主題可以是幾個關(guān)鍵詞,還可以是自然語言。用戶可以自己定制主題,對主題做進一步的描述。主題集的合理選擇是主題爬蟲的基礎(chǔ)。
5.2 Web 信息提取
從采集起點開始,主題爬蟲開爬取Web上的信息資源,通過各種Web協(xié)議自動爬取站點的有效信息。為了高效地獲取信息,主題爬蟲系統(tǒng)中大多都采用了多線程的方式來提取Web信息。
5.3 頁面預(yù)處理
把主題爬蟲抓取到的Web頁面規(guī)范化,主要包括:頁面語法分析,頁面去噪等操作,提取網(wǎng)頁中的有效信息,然后判定網(wǎng)頁信息的主題相關(guān)性,過濾與主題無關(guān)的頁面,從而提高主題爬蟲的主題信息提取的準確性。
HTML網(wǎng)頁內(nèi)容可以從正文、標題、標記信息、鏈接信息等方面反映。因此,對網(wǎng)頁信息的提取只需將這些特征信息提取出來。讀取頁面時,找到標記,將標記中間的內(nèi)容中的所有標記去除,就得到了頁面正文;標記中的內(nèi)容就是網(wǎng)頁的標題,它顯示在標題欄中。
即使提取的URL通過了主題相關(guān)性判別,提取到的頁面內(nèi)容與設(shè)定的主題也可能有很大差距。所以,在頁面提取之后應(yīng)對頁面信息進行與主題相關(guān)性判別,淘汰與主題無關(guān)頁面。
5.4 鏈接過濾
要提高主題Web信息的提取速率和準確性,系統(tǒng)需對采集到的UI進行URL和主題的關(guān)系的判定,叫做鏈接過濾,或鏈接預(yù)測。
鏈接過濾常用的算法是EPR算法。在鏈接關(guān)系的基礎(chǔ)上加入針對鏈接的相關(guān)主題的權(quán)重,再引入鏈接網(wǎng)頁之間的主題相關(guān)度權(quán)重,使產(chǎn)生的重要頁面是針對某一主題的,這形成了EPR算法。
6 結(jié)束語
網(wǎng)絡(luò)爬蟲的發(fā)展為搜索引擎的成功奠定了堅實的基礎(chǔ),然而隨著互聯(lián)網(wǎng)技術(shù)的迅速發(fā)展,人們對搜索引擎的需求越來越大,信息檢索服務(wù)也在向著個性化、精細化的方向發(fā)展,人們對網(wǎng)絡(luò)爬蟲的進一步設(shè)計優(yōu)化提出了更高的要求。
主題爬蟲核心問題是主題頁面群的采集和無關(guān)頁面的過濾問題。網(wǎng)絡(luò)爬蟲具有重復(fù)性,如何將頁面動態(tài)變化的規(guī)律與先前的搜索統(tǒng)計結(jié)果相結(jié)合,提高爬取效率是一個值得研究的問題。目前網(wǎng)絡(luò)爬蟲采用的搜索策略都較固定,缺乏適應(yīng)性,如何提升爬蟲的自適應(yīng)性有待進一步研究。
參考文獻:
[1] 劉金紅,陸余良.主題網(wǎng)絡(luò)爬蟲研究綜述[J].計算機應(yīng)用研究,2007,24(10):26-29,47.
[2] 盛亞如,魏振鋼,劉蒙.基于主題網(wǎng)絡(luò)爬蟲的信息數(shù)據(jù)采集方法的研究與應(yīng)用[J]. 電子技術(shù)與軟件工程,2016(7):168-169.
[3] 梁萍.搜索引擎中網(wǎng)絡(luò)爬蟲及結(jié)果聚類的研究與實現(xiàn)[D].中國科學(xué)技術(shù)大學(xué),2011.
[4] 于娟,劉強. 主題網(wǎng)絡(luò)爬蟲研究綜述[J].計算機工程與科學(xué),2015,02:231-237.
網(wǎng)絡(luò)爬蟲基本原理范文2
>> 基于.NET搜索引擎的研究與應(yīng)用 基于網(wǎng)站建設(shè)的搜索引擎優(yōu)化策略構(gòu)建 基于搜索引擎優(yōu)化的省級檔案網(wǎng)站調(diào)查與分析 基于的檔案垂直搜索引擎的實現(xiàn) 基于Servlet的搜索引擎 基于垂直搜索技術(shù)的搜索引擎 基于成功要素的搜索引擎優(yōu)化模型研究 基于Memcached的日歷搜索引擎系統(tǒng)優(yōu)化設(shè)計與實現(xiàn) 基于搜索引擎優(yōu)化的網(wǎng)絡(luò)宣傳機模型 基于搜索引擎優(yōu)化的網(wǎng)頁設(shè)計要點研究 網(wǎng)站搜索引擎優(yōu)化研究 基于Lucene的圖書垂直搜索引擎探析 基于lucene的校園網(wǎng)搜索引擎 基于時間技術(shù)的搜索引擎排名算法 基于文本的圖片搜索引擎的研究 基于神經(jīng)網(wǎng)絡(luò)的搜索引擎應(yīng)用 基于JAVA技術(shù)的搜索引擎研究 基于Nutch的搜索引擎的研究 基于垂直搜索引擎的主題爬蟲技術(shù) 基于Google搜索引擎的原理及使用 常見問題解答 當(dāng)前所在位置:l”),目的是幫助用戶對站點的整體有個把握。
(2)XML格式的網(wǎng)站地圖(類似“http:///Sitemap.xml”),它是網(wǎng)站上鏈接的列表。制作Sitemap并提交給搜索引擎可以使網(wǎng)站的內(nèi)容完全被收錄。
中創(chuàng)建網(wǎng)站地圖方案:
(1)創(chuàng)建一個名為Web.sitemap的XML文件,該文件按站點的分層形式組織頁面。的默認站點地圖提供程序自動選取此站點地圖。注意:該文件必須位于應(yīng)用程序的根目錄中。站點地圖代碼演示如下:
(2)利用免費的在線工具(http://)創(chuàng)建網(wǎng)站地圖,只要輸入網(wǎng)站地址,在線工具就會動態(tài)生成HTML格式或XML格式的網(wǎng)站地圖。
4.3 AJAX優(yōu)化
Ajax(Asynchronous JavaScript and XML)是一種使用客戶端腳本與網(wǎng)站服務(wù)器交換數(shù)據(jù)的網(wǎng)站應(yīng)用開發(fā)技術(shù)。它為Web中的客戶端腳本和服務(wù)器語言之間架起了一座橋梁。使用AJAX技術(shù),其直接效果是頁面不需要打斷交互流程就可以重新加裁從而實現(xiàn)動態(tài)地更新,由此極大提升速度和用戶體驗。但Ajax技術(shù)在SEO方面被歸入“糟糕”一類效果,因為JavaScript是AJAX實現(xiàn)的基礎(chǔ),對于AJAX來說是必不可少的,而搜索引擎不識別JavaScript代碼,因此搜索引擎抓取不到AJAX動態(tài)加載的內(nèi)容。解決方法是在XML Sitemap中建立網(wǎng)站的所有鏈接,建立所有內(nèi)容的靜態(tài)導(dǎo)航鏈接。這不僅有助于提升網(wǎng)站的搜索引擎可見度,還確保那些沒有啟用JavaScript的用戶也能看到導(dǎo)航條內(nèi)容和鏈接。
4.4 網(wǎng)頁重定向優(yōu)化
網(wǎng)站運行過程中會遇到服務(wù)器出錯,程序配置錯誤等一系列的問題,這就需要頁面重定向。如果不做重定向,用戶請求瀏覽網(wǎng)頁碰到這些的時候會出現(xiàn)一些系統(tǒng)默認的錯誤頁面,這樣對于搜索引擎來所很不友好。
HTTP 404錯誤意味著原始網(wǎng)頁的URL失效,這種情況很難避免,譬如瀏覽器請求的網(wǎng)頁被刪除或者移位,用戶鍵入鏈接拼寫錯誤等。搜索引擎同樣產(chǎn)生HTTP 404錯誤,認為該頁面不存在。如果頁面過多將會導(dǎo)致站點的權(quán)重大量的流失,影響到排名收錄。甚至?xí)艿剿阉饕娴奶幜P,對網(wǎng)站排名進行下降處理。
配置錯誤頁面解決方法,在web.config的system.web節(jié)里增加以下配置:
RedirectMode屬性設(shè)置為ResponseRedirect,則將用戶重定向到該錯誤頁面,并且原始URL更改為該錯誤頁面的URL。RedirectMode屬性設(shè)置為ResponseRewrite,則將用戶定向到錯誤頁面,并且不更改瀏覽器中的原始URL。
301代表永久性轉(zhuǎn)移(Permanently Moved),301重定向是網(wǎng)頁更改地址后對搜索引擎友好的最好方法,只要不是暫時搬移的情況,都建議使用301來做轉(zhuǎn)址。
下的301重定向方法,在原頁面的Page_Load事件中增加以下代碼:
private void Page_Load(object sender,System.EventArgs e)
{Response.Status = "301 Moved Permanently";
Response.AddHeader ("Location","http://");
}
5 結(jié)束語
隨著互聯(lián)網(wǎng)的發(fā)展,搜索引擎優(yōu)化會得到越來越廣泛的應(yīng)用。利用搜索引擎收錄和排名的規(guī)則,根據(jù)不同網(wǎng)站的架構(gòu),有針對性地基于不同開發(fā)平臺的特點進行優(yōu)化來獲得搜索引擎的青睞,從而達到提高網(wǎng)站排名的效果。本文對網(wǎng)站的搜索引擎優(yōu)化處理做了一些研究,還有很多所有平臺共有的優(yōu)化要素都要全面加以優(yōu)化,才能獲得較好的優(yōu)化效果。
參考文獻:
[1]鄭耀東從入門到實踐[M].清華大學(xué)出版社,2009.
[2]吳澤欣.SEO教程:搜索引擎優(yōu)化入門與進階[M].人民郵電出版社,2008.
[3]楊帆.SEO攻略:搜索引擎優(yōu)化策略與實戰(zhàn)案例詳解[M].人民郵電出版社,2009.
[4]王建.精通Web標準建站―標記語言、網(wǎng)站分析、設(shè)計理念、SEO與BI[M].人民郵電出版社,2007.
[5]徐曉力.SEO及其策略研究[J].電腦知識與技術(shù),2010,1(6):59-61.