9I果冻制作厂_国产精品999_97成人做爰A片无遮挡直播_99国产精品99久久久久久_WWW.97_99这里只有精品_特级做A爰片毛片免费69_97视频_久久99精品国产.久久久久久_99精品视频在线观看_97在线观看_大地资源9中文在线观看

搜索引擎蜘蛛爬蟲原理(lǐ)

發布日(rì)期:2012-07-19

做(zuò)SEO的(de)都(dōu)知(zhī)道(dào)網站(zhàn)收錄≤§•♣是(shì)靠爬蟲進來(lái)後,讀(dú)取網頁內(nèi)容∞ ,從(cóng)而收錄網站(zhàn)裡(l™β₹↑ǐ)內(nèi)容,那(nà)麽,作(zuò)為(₽₩Ω©wèi)一(yī)個(gè)合格的(de)SEOer,就(jiù)更應該知(zhī★×™)道(dào),爬蟲是(shì)原理(lǐ)了(le),今天,簡析一(yī)下(xφ≥ià),蜘蛛爬蟲的(de)原理(lǐ),雖然,網上(shàng)也(yě)有(yǒu)過文(wén "‍)章(zhāng)說(shuō)明(míng),不(bù)過,還(hái)是(sh★₽₹'ì)簡略地(dì)說(shuō)一(yī)下(xià):

 

  1、 聚焦爬蟲工(gōng)作(zuò)原理(l€ ǐ)及關鍵技(jì)術(shù)概述

  網絡爬蟲是(shì)一(yī)個(gè)自(zì)動提取網頁的(de)程序,它為(wèi)搜♦λ©索引擎從(cóng)Internet網上(shàng♣♣ )下(xià)載網頁,是(shì)搜索引擎的(de)重要(yào)組成。傳統爬蟲從γ♥αα(cóng)一(yī)個(gè)或若幹初始網頁✘↓©的(de)URL開(kāi)始,獲得(de)初始網頁上(shàng)的(de)URL,在抓取<&&網頁的(de)過程中,不(bù)斷從(cóng)當前頁面上(shàng)抽取新的(de®£)URL放(fàng)入隊列,直到(dào)滿足系統的(de)一(yī)定停止條件☆‌(jiàn)。聚焦爬蟲的(de)工(gōng≥ )作(zuò)流程較為(wèi)複雜(zá),需要(yà₽$o)根據一(yī)定的(de)網頁分(fēn)析算(suàn)法過濾與主題無關的(de ∑↓)鏈接,保留有(yǒu)用(yòng)的(de★©)鏈接并将其放(fàng)入等待抓取的(de)URL隊列。然後,它将根據一(y∞¥"ī)定的(de)搜索策略從(cóng)隊列ε'±×中選擇下(xià)一(yī)步要(yào)抓取的(de)網頁URL,并重複上(shàng)≤←★述過程,直到(dào)達到(dào)系統的(de)某一(yī)條件₩¶☆ (jiàn)時(shí)停止,另外(wài),所有(yǒu)被爬蟲抓取的(de)網頁将會(ε®huì)被系統存貯,進行(xíng)一(yī)定的(de)分(fēn)析、過濾,并建立索引,以便之±£↔<後的(de)查詢和(hé)檢索;對(duì)于聚焦爬'↔蟲來(lái)說(shuō),這(zhè)一(yī)過程所得(< ∑±de)到(dào)的(de)分(fēn)析結果還(♥≠ hái)可(kě)能(néng)對(duì)以後的(de)抓取過程給出反饋和(hé)指導。

  相(xiàng)對(duì)于通(tōng)用(yòng)網絡爬蟲,聚  λδ焦爬蟲還(hái)需要(yào)解決三個(gè)主→$∑要(yào)問(wèn)題:

  (1) 對(duì)抓取目标的(de)描€α述或定義;

  (2) 對(duì)網頁或數(shù)據的(de)分(fēn€±☆)析與過濾;

  (3) 對(duì)URL的(de)搜索策略。

  抓取目标的(de)描述和(hé)定義是(shì)決定網頁分(fēn)析算(suàn)法∏≈與URL搜索策略如(rú)何制(zhì)訂​‌的(de)基礎。而網頁分(fēn)析算(suàn)法和(hé)候選URL排序算(suàn)法是 ε¶×(shì)決定搜索引擎所提供的(de)服務形式和(hé©↔")爬蟲網頁抓取行(xíng)為(wèi)的©§×(de)關鍵所在。這(zhè)兩個(gè)部Ω∑φ分(fēn)的(de)算(suàn)法又(yòu)是(shì)緊密相(xiàng)關的(d↔§αe)。

  2、 抓取目标描述

  現(xiàn)有(yǒu)聚焦爬蟲對(duì¥₩"‍)抓取目标的(de)描述可(kě)分(f✘∑ēn)為(wèi)基于目标網頁特征、基于目标數(shù)據模式和(hé)••基于領域概念3種。

  基于目标網頁特征的(de)爬蟲所抓取、存儲并索引的(de)對(duì)象一(yī÷®ε♦)般為(wèi)網站(zhàn)或網頁。根據種子∑£↕(zǐ)樣本獲取方式可(kě)分(fēn)為(wèi):

  (1) 預先給定的(de)初始抓取種子(∑↑×zǐ)樣本;

  (2) 預先給定的(de)網頁分(fēn)類目錄和(hé)與分(fēn₽€)類目錄對(duì)應的(de)種子(zǐ)樣本,如(rú)Yahoo!分(fē®'n)類結構等;

  (3) 通(tōng)過用(yòng)戶行(xíng)為(wèi)确♠≥₹定的(de)抓取目标樣例,分(fēn)為(wèi):

  a) 用(yòng)戶浏覽過程中顯示标注的(de)抓取樣本;

  b) 通(tōng)過用(yòng)戶日(rì)志(zhì)挖掘得(de)到(dà↔←←↓o)訪問(wèn)模式及相(xiàng)λ<關樣本。

  其中,網頁特征可(kě)以是(shì)網頁的(de)內(nèi)容特征,也(yě)可↑$☆©(kě)以是(shì)網頁的(de)鏈接結構特征等等。✔σ±

  現(xiàn)有(yǒu)的(de)聚焦爬蟲對♦↕♠(duì)抓取目标的(de)描述或定義可(kě)以分(fēn)為(wèi)↑φ‌λ基于目标網頁特征,基于目标數(shù)據模式和(hé)基于領域概念δ♣Ω≠三種。

  基于目标網頁特征的(de)爬蟲所抓取、存儲并索引的(≥↓de)對(duì)象一(yī)般為(wèi)網站(zhàn)或網頁。具體(tǐ§₽)的(de)方法根據種子(zǐ)樣本的(de)獲取方式φ‌π可(kě)以分(fēn)為(wèi):

  (1)預先給定的(de)初始抓取種子(zǐ)樣本;

  (2)預先給定的(de)網頁分(fēn)類目錄和(hé ←☆)與分(fēn)類目錄對(duì)應的(de)種子(zǐ)樣本,如(rú)Yaho₽¶•o!分(fēn)類結構等;

  (3)通(tōng)過用(yòng)♠∑♥戶行(xíng)為(wèi)确定的(de)抓取目标樣↓∏↕★例。其中,網頁特征可(kě)以是(shì)網頁的(de)內(nèi)容特α≥≥¥征,也(yě)可(kě)以是(shì)網頁的(de)鏈∞≈♦↔接結構特征,等等。

  基于目标數(shù)據模式的(de)爬蟲針對​∑ Ω(duì)的(de)是(shì)網頁上(shàng)的(de)數(shù)據,所抓≠∑​取的(de)數(shù)據一(yī)般要(yào)符合一(yī)定的(de)模式↔↑→,或者可(kě)以轉化(huà)或映射為(wèi)目标數(shù)據模式 ®。

  另一(yī)種描述方式是(shì)建立目✘₹•标領域的(de)本體(tǐ)或詞典,用(yò£→ng)于從(cóng)語義角度分(fēn)析不(bù)同特征在某一(yīπ∏)主題中的(de)重要(yào)程度。

  3 、網頁搜索策略

  網頁的(de)抓取策略可(kě)以分(fēn)為(wèi)深度優先、廣度優先和(hé)最佳優先₽γ三種。深度優先在很(hěn)多(duō)情況下(xià)會(huì)導緻爬蟲的(de)陷入(tr" ±apped)問(wèn)題,目前常見(jiàn)的(de)是(shì)廣度優先和(hé)最佳↕→優先方法。

  4、廣度優先搜索策略

  廣度優先搜索策略是(shì)指在抓取過程中,在完成當前層∞♠"£次的(de)搜索後,才進行(xíng)下(xià)一(yī)層"λ次的(de)搜索。該算(suàn)法的(de)設計(jì)和(hé)實現(Ω&xiàn)相(xiàng)對(duì)簡單。在目前為✔​₽↓(wèi)覆蓋盡可(kě)能(néng)多(duō)的(de)≠¶★&網頁,一(yī)般使用(yòng)廣度優先搜索方≤©₩法。也(yě)有(yǒu)很(hěn)多(duō)研究将廣度優先搜索策→ 略應用(yòng)于聚焦爬蟲中。其基本思想是(shì)↓¥認為(wèi)與初始URL在一(yī)定鏈接距離(lí)內(nèi)的(de)網頁具有(yǒ♦£♠u)主題相(xiàng)關性的(de)概率很(hěn)大(dà   )。另外(wài)一(yī)種方法是(s₽ hì)将廣度優先搜索與網頁過濾技(jì)術(shù)結合使用(yòng∏$₩),先用(yòng)廣度優先策略抓取網頁, ★再将其中無關的(de)網頁過濾掉。這(zhè)些(xiē)方法的(de)缺點在于₹>σ ,随著(zhe)抓取網頁的(de)增多(duō),大(dà)量的(de)無關網頁将被下← ★≥(xià)載并過濾,算(suàn)法的(d₹≥λe)效率将變低(dī)。

  相(xiàng)信很(hěn)多(duō)SEOer也(yě)知(zhī)道(dà​≈✘♥o)爬蟲的(de)原因,那(nà)麽,不(bù)知(zhī♦↑♠)道(dào)爬蟲的(de)SEO入門(mén)者,可(kě)以看(kàn)看(kàn)提‌↓↕供的(de)蜘蛛爬行(xíng)簡析,希望對(duì)自(∞€αzì)己有(yǒu)幫助!

上(shàng)一(yī)篇:長(cháng)尾關鍵詞挖掘方法盤點

下(xià)一(yī)篇:SEO優化(huà)之長(cháng)尾關鍵詞選擇

創建網站(zhàn) 如(rú)此簡單

專屬為(wèi)客戶提供最有(yǒu)價值的(de)互聯網設計(jì)方案
策略+創意+設計(jì)+服務!

1 2 3 4 5
  • 網站(zhàn)策劃  >

    網站(zhàn)調研和(hé)競争分(fēn)析

    網站(zhàn)的(de)策劃和(hé)定位

  • 網頁設計(jì)  >

    網站(zhàn)頁面個(gè)性化(huà)β¶ 設計(jì)

    W3C标準化(huà)前端交互技(jì)術←→✔¥(shù)開(kāi)發

  • 視(shì)覺還(hái)原  >

    定制(zhì)化(huà)HTML頁面嵌套

    內(nèi)容管理(lǐ)系統定制(zhì)開(kāi)發

  • 優化(huà)推廣  >

    SEO搜索引擎優化(huà)

    SEM搜索引擎營銷

  • 媒體(tǐ)營銷  >★÷

    MMM移動媒體(tǐ)營銷

    社會(huì)化(huà)媒體(tǐ)活動策劃

展開(kāi)

9I果冻制作厂_国产精品999_97成人做爰A片无遮挡直播_99国产精品99久久久久久_WWW.97_99这里只有精品_特级做A爰片毛片免费69_97视频_久久99精品国产.久久久久久_99精品视频在线观看_97在线观看_大地资源9中文在线观看