請問什么是網(wǎng)絡(luò)爬蟲???是干什么的呢?
網(wǎng)絡(luò)爬蟲是一種程序,主要用于搜索引擎,它將一個網(wǎng)站的所有內(nèi)容與鏈接進(jìn)行閱讀,并建立相關(guān)的全文索引到數(shù)據(jù)庫中,然后跳到另一個網(wǎng)站.樣子好像一只大蜘蛛.
當(dāng)人們在網(wǎng)絡(luò)上(如google)搜索關(guān)鍵字時,其實就是比對數(shù)據(jù)庫中的內(nèi)容,找出與用戶相符合的.網(wǎng)絡(luò)爬蟲程序的質(zhì)量決定了搜索引擎的能力,如google的搜索引擎明顯要比百度好,就是因為它的網(wǎng)絡(luò)爬蟲程序高效,編程結(jié)構(gòu)好.
什么是網(wǎng)絡(luò)爬蟲
1 爬蟲技術(shù)研究綜述
引言?
隨著網(wǎng)絡(luò)的迅速發(fā)展,萬維網(wǎng)成為大量信息的載體,如何有效地提取并利用這些信息成為一個巨大的挑戰(zhàn)。搜索引擎(Search Engine),例如傳統(tǒng)的通用搜索引擎AltaVista,Yahoo!和Google等,作為一個輔助人們檢索信息的工具成為用戶訪問萬維網(wǎng)的入口和指南。但是,這些通用性搜索引擎也存在著一定的局限性,如:?
(1) 不同領(lǐng)域、不同背景的用戶往往具有不同的檢索目的和需求,通用搜索引擎所返回的結(jié)果包含大量用戶不關(guān)心的網(wǎng)頁。?
(2) 通用搜索引擎的目標(biāo)是盡可能大的網(wǎng)絡(luò)覆蓋率,有限的搜索引擎服務(wù)器資源與無限的網(wǎng)絡(luò)數(shù)據(jù)資源之間的矛盾將進(jìn)一步加深。?
(3) 萬維網(wǎng)數(shù)據(jù)形式的豐富和網(wǎng)絡(luò)技術(shù)的不斷發(fā)展,棱數(shù)據(jù)庫、音頻/視頻多媒體等不同數(shù)據(jù)大量出現(xiàn),通用搜索引擎往往對這些信息含量密集且具有一定結(jié)構(gòu)的數(shù)據(jù)無能為力,不能很好地發(fā)現(xiàn)和獲取。?
(4) 通用搜索引擎大多提供基于關(guān)鍵字的檢索,難以支持根據(jù)語義信息提出的查詢。?
為了解決上述問題,定向抓取相關(guān)網(wǎng)頁資源的聚焦爬蟲應(yīng)運(yùn)而生。聚焦爬蟲是一個自動下載網(wǎng)頁的程序,它根據(jù)既定的抓取目標(biāo),有選擇的訪問萬維網(wǎng)上的網(wǎng)頁與相關(guān)的鏈接,獲取所需要的信息。與通用爬蟲(general?purpose web crawler)不同,聚焦爬蟲并不追求大的覆蓋,而將目標(biāo)定為抓取與某一特定主題內(nèi)容相關(guān)的網(wǎng)頁,為面向主題的用戶查詢準(zhǔn)備數(shù)據(jù)資源。?
1 聚焦爬蟲工作原理及關(guān)鍵技術(shù)概述?
網(wǎng)絡(luò)爬蟲是一個自動提取網(wǎng)頁的程序,它為搜索引擎從萬維網(wǎng)上下載網(wǎng)頁,是搜索引擎的重要組成。傳統(tǒng)爬蟲從一個或若干初始網(wǎng)頁的URL開始,獲得初始網(wǎng)頁上的URL,在抓取網(wǎng)頁的過程中,不斷從當(dāng)前頁面上抽取新的URL放入隊列,直到滿足系統(tǒng)的一定停止條件,如圖1(a)流程圖所示。聚焦爬蟲的工作流程較為復(fù)雜,需要根據(jù)一定的網(wǎng)頁分析算法過濾與主題無關(guān)的鏈接,保留有用的鏈接并將其放入等待抓取的URL隊列。然后,它將根據(jù)一定的搜索策略從隊列中選擇下一步要抓取的網(wǎng)頁URL,并重復(fù)上述過程,直到達(dá)到系統(tǒng)的某一條件時停止,如圖1(b)所示。另外,所有被爬蟲抓取的網(wǎng)頁將會被系統(tǒng)存貯,進(jìn)行一定的分析、過濾,并建立索引,以便之后的查詢和檢索;對于聚焦爬蟲來說,這一過程所得到的分析結(jié)果還可能對以后的抓取過程給出反饋和指導(dǎo)。?
相對于通用網(wǎng)絡(luò)爬蟲,聚焦爬蟲還需要解決三個主要問題:?
(1) 對抓取目標(biāo)的描述或定義;?
(2) 對網(wǎng)頁%B
參考資料:
網(wǎng)絡(luò)爬蟲是什么意思
網(wǎng)絡(luò)爬蟲(又被稱為網(wǎng)頁蜘蛛,網(wǎng)絡(luò)機(jī)器人,在FOAF社區(qū)中間,更經(jīng)常的稱為網(wǎng)頁追逐者),是一種按照一定的規(guī)則,自動的抓取萬維網(wǎng)信息的程序或者腳本。
什么叫做Web爬蟲?
[離散數(shù)學(xué)是當(dāng)代數(shù)學(xué)的一個重要分支,也是計算機(jī)科學(xué)的數(shù)學(xué)基礎(chǔ)。它包括數(shù)理邏輯、 *** 論、圖論和近世代數(shù)四個分支。數(shù)理邏輯基于布爾運(yùn)算,我們已經(jīng)介紹過了。這里我們介紹圖論和互聯(lián)網(wǎng)自動下載工具網(wǎng)絡(luò)爬蟲 (Web Crawlers) 之間的關(guān)系。順便提一句,我們用 Google Trends 來搜索一下“離散數(shù)學(xué)”這個詞,可以發(fā)現(xiàn)不少有趣的現(xiàn)象。比如,武漢、哈爾濱、合肥和長沙市對這一數(shù)學(xué)題目最有興趣的城市。]
我們上回談到了如何建立搜索引擎的索引,那么如何自動下載互聯(lián)網(wǎng)所有的網(wǎng)頁呢,它要用到圖論中的遍歷(Traverse) 算法。
圖論的起源可追溯到大數(shù)學(xué)家歐拉(Leonhard Euler)。1736 年歐拉來到德國的哥尼斯堡(Konig *** erg,大哲學(xué)家康德的故鄉(xiāng),現(xiàn)在是俄羅斯的加里寧格勒),發(fā)現(xiàn)當(dāng)?shù)厥忻駛冇幸豁椣不顒?,就是試圖將下圖中的每座橋恰好走過一遍并回到原出發(fā)點,從來沒有人成功過。歐拉證明了這件事是不可能的,并寫了一篇論文,一般認(rèn)為這是圖論的開始。
圖論中所討論的的圖由一些節(jié)點和連接這些節(jié)點的弧組成。如果我們把中國的城市當(dāng)成節(jié)點,連接城市的國道當(dāng)成弧,那么全國的公路干線網(wǎng)就是圖論中所說的圖。關(guān)于圖的算法有很多,但最重要的是圖的遍歷算法,也就是如何通過弧訪問圖的各個節(jié)點。以中國公路網(wǎng)為例,我們從北京出發(fā),看一看北京和哪些城市直接相連,比如說和天津、濟(jì)南、石家莊、南京、沈陽、大同直接相連。我們可以依次訪問這些城市,然后我們看看都有哪些城市和這些已經(jīng)訪問過的城市相連,比如說北戴河、秦皇島與天津相連,青島、煙臺和濟(jì)南相連,太原、鄭州和石家莊相連等等,我們再一次訪問北戴河這些城市,直到中國所有的城市都訪問過一遍為止。這種圖的遍歷算法稱為“廣度優(yōu)先算法”(BFS),因為它先要盡可能廣地訪問每個節(jié)點所直接連接的其他節(jié)點。另外還有一種策略是從北京出發(fā),隨便找到下一個要訪問的城市,比如是濟(jì)南,然后從濟(jì)南出發(fā)到下一個城市,比如說南京,再訪問從南京出發(fā)的城市,一直走到頭。然后再往回找,看看中間是否有尚未訪問的城市。這種方法叫“深度優(yōu)先算法”(DFS),因為它是一條路走到黑。這兩種方法都可以保證訪問到全部的城市。當(dāng)然,不論采用哪種方法,我們都應(yīng)該用一個小本本,記錄已經(jīng)訪問過的城市,以防同一個城市訪問多次或者漏掉哪個城市。
現(xiàn)在我們看看圖論的遍歷算法和搜索引擎的關(guān)系?;ヂ?lián)網(wǎng)其實就是一張大圖,我們可以把每一個網(wǎng)頁當(dāng)作一個節(jié)點,把那些超鏈接(Hyperlinks)當(dāng)作連接網(wǎng)頁的弧。很多讀者可能已經(jīng)注意到,網(wǎng)頁中那些藍(lán)色的、帶有下劃線的文字背后其實藏著對應(yīng)的網(wǎng)址,當(dāng)你點下去的的時候,瀏覽器是通過這些隱含的網(wǎng)址轉(zhuǎn)到相應(yīng)的網(wǎng)頁中的。這些隱含在文字背后的網(wǎng)址稱為“超鏈接”。有了超鏈接,我們可以從任何一個網(wǎng)頁出發(fā),用圖的遍歷算法,自動地訪問到每一個網(wǎng)頁并把它們存起來。完成這個功能的程序叫做網(wǎng)絡(luò)爬蟲,或者在一些文獻(xiàn)中稱為"機(jī)器人" (Robot)。世界上第一個網(wǎng)絡(luò)爬蟲是由麻省理工學(xué)院 (MIT)的學(xué)生馬休.格雷(Matthew Gray)在 1993 年寫成的。他給他的程序起了個名字叫“互聯(lián)網(wǎng)漫游者”(" wanderer")。以后的網(wǎng)絡(luò)爬蟲越寫越復(fù)雜,但原理是一樣的。
我們來看看網(wǎng)絡(luò)爬蟲如何下載整個互聯(lián)網(wǎng)。假定我們從一家門戶網(wǎng)站的首頁出發(fā),先下載這個網(wǎng)頁,然后通過分析這個網(wǎng)頁,可以找到藏在它里面的所有超鏈接,也就等于知道了這家門戶網(wǎng)站首頁所直接連接的全部網(wǎng)頁,諸如雅虎郵件、雅虎財經(jīng)、雅虎新聞等......
網(wǎng)絡(luò)爬蟲是什么,有很大的作用嗎?
網(wǎng)絡(luò)爬蟲又被稱為網(wǎng)頁蜘蛛,聚焦爬蟲,網(wǎng)絡(luò)機(jī)器人,在FOAF社區(qū)中間,更經(jīng)常的稱為網(wǎng)頁追逐者,是一種按照一定的規(guī)則,自動地抓取萬維網(wǎng)信息的程序或者腳本。另外一些不常使用的名字還有螞蟻、自動索引、模擬程序或者蠕蟲。
網(wǎng)絡(luò)爬蟲是一個自動提取網(wǎng)頁的程序,它為搜索引擎從萬維網(wǎng)上下載網(wǎng)頁,是搜索引擎的重要組成搐傳統(tǒng)爬蟲從一個或若干初始網(wǎng)頁的URL開始,獲得初始網(wǎng)頁上的URL,在抓取網(wǎng)頁的過程中,不斷從當(dāng)前頁面上抽取新的URL放入隊列,直到滿足系統(tǒng)的一定停止條件。聚焦爬蟲的工作流程較為復(fù)雜,需要根據(jù)一定的網(wǎng)頁分析算法過濾與主題無關(guān)的鏈接,保留有用的鏈接并將其放入等待抓取的URL隊列。然后,它將根據(jù)一定的搜索策略從隊列中選擇下一步要抓取的網(wǎng)頁URL,并重復(fù)上述過程,直到達(dá)到系統(tǒng)的某一條件時停止。另外,所有被爬蟲抓取的網(wǎng)頁將會被系統(tǒng)存貯,進(jìn)行一定的分析、過濾,并建立索引,以便之后的查詢和檢索;對于聚焦爬蟲來說,這一過程所得到的分析結(jié)果還可能對以后的抓取過程給出反饋和指導(dǎo)。
什么是網(wǎng)絡(luò)爬蟲,網(wǎng)絡(luò)爬蟲的職能是什么
自動檢索工具(automatic indexer),或者(在FOAF軟件概念中)網(wǎng)絡(luò)疾走(WEB scutter),是一種“自動化瀏覽網(wǎng)絡(luò)”的程序,或者說是一種網(wǎng)絡(luò)機(jī)器人。它們被廣泛用于互聯(lián)網(wǎng)搜索引擎或其他類似網(wǎng)站,以獲取或更新這些網(wǎng)站的內(nèi)容和檢索方式。它們可以自動采集所有其能夠訪問到的頁面內(nèi)容,以供搜索引擎做進(jìn)一步處理(分檢整理下載的頁面),而使得用戶能更快的檢索到他們需要的信息。
參考自知乎網(wǎng)友回答
什么是網(wǎng)絡(luò)爬蟲,簡單點說,網(wǎng)上的看不懂
網(wǎng)絡(luò)爬蟲,你可以把互聯(lián)網(wǎng)理解為一張由代碼編制成大的網(wǎng),網(wǎng)上有很多爬蟲,在上面行走,但每個爬蟲都有個家,每天外出,但時間就會回家,等于把蒐集到的數(shù)據(jù)帶回數(shù)據(jù)庫
網(wǎng)絡(luò)爬蟲 這個是什么意思
百度蜘蛛,這只是比喻他們在網(wǎng)上爬行。他們主要是負(fù)責(zé)收錄網(wǎng)站,以便用戶將來能搜索到更多更好的網(wǎng)站
爬蟲是什么意思?
網(wǎng)絡(luò)爬蟲(又被稱為網(wǎng)頁蜘蛛,網(wǎng)絡(luò)機(jī)器人,在FOAF社區(qū)中間,更經(jīng)常的稱為網(wǎng)頁追逐者),是一種按照一定的規(guī)則,自動地抓取萬維網(wǎng)信息的程序或者腳本。
注意:另外一些不常使用的名字還有螞蟻、自動索引、模擬程序或者蠕蟲。
什么是網(wǎng)絡(luò)爬蟲以及怎么做它?
網(wǎng)絡(luò)爬蟲(又被稱為網(wǎng)頁蜘蛛,網(wǎng)絡(luò)機(jī)器人,在FOAF社區(qū)中間,更經(jīng)常的稱為網(wǎng)頁追逐者),是一種按照一定的規(guī)則,自動的抓取萬維網(wǎng)信息的程序或者腳本。另外一些不常使用的名字還有螞蟻,自動索引,模擬程序或者蠕蟲。
看看百科 上邊挺詳細(xì)的
查看百度蜘蛛爬行記錄的方法:
第一,前往空間服務(wù)器,下載網(wǎng)站日志。
第二,打開網(wǎng)站日志文件,搜索:Baiduspider。
百度(Baidu)爬蟲名稱:Baiduspider
第三,鑒別百度蜘蛛的真?zhèn)巍?/p>
由于很多站長工具會模擬百度蜘蛛的名稱來爬抓網(wǎng)站,因此,需要我們鑒別百度蜘蛛的真?zhèn)巍?/p>
鑒別方法:
開始—運(yùn)行—輸入 cmd ,用命令nslookup +ip
只要是百度的IP段,代碼中會有出現(xiàn):name:baiduspider,如果沒有出現(xiàn),那就不說不是真的百度IP段
第四,可以通過日志工具來查看網(wǎng)站日志。例如:光年日志。