收錄的第一個環節就是抓取。抓取的過程是搜索引擎應用程序去抓取網站的網頁,這里負責搜索引擎抓取網頁職能的程序俗稱蜘蛛( Spider),蜘蛛是一個形象的說法,因為互聯網就是一張巨大的蜘蛛網,搜索引擎的程序通過網絡不斷地進行爬行和探索。每個互聯網公司都有自己的抓取蜘蛛,比如百度蜘蛛(Baiduspider)、谷歌蜘蛛、搜狗蜘蛛等。
蜘蛛通過網站提交的Sitemap (網頁地圖)或者在互聯網其他地方留下的頁面URL信息,爬行到網站對應頁面,然后沿著網站頁面其他鏈接一層層往下爬行,發現更多的頁面。
蜘蛛抓取網頁是收錄頁面工作的上游,通過蜘蛛對網頁的抓取,發現更多頁面,同時知道哪些頁面已經有了更新,從而實現對互聯網頁面的抓取和持續更新。
關于蜘蛛抓取系統的工作原理,可以參考百度蜘蛛抓取的說明。
簡而言之,蜘蛛抓取系統包括鏈接存儲系統、鏈接選取系統、DNS解析服務系統、抓取調度系統、網頁分析系統、鏈接提取系統、鏈接分析系統、網頁存儲系統。Baiduspider 通過這種系統的通力合作完成對互聯網頁面的抓取工作。
蜘蛛通過網站提交的Sitemap (網頁地圖)或者在互聯網其他地方留下的頁面URL信息,爬行到網站對應頁面,然后沿著網站頁面其他鏈接一層層往下爬行,發現更多的頁面。
蜘蛛抓取網頁是收錄頁面工作的上游,通過蜘蛛對網頁的抓取,發現更多頁面,同時知道哪些頁面已經有了更新,從而實現對互聯網頁面的抓取和持續更新。
關于蜘蛛抓取系統的工作原理,可以參考百度蜘蛛抓取的說明。
簡而言之,蜘蛛抓取系統包括鏈接存儲系統、鏈接選取系統、DNS解析服務系統、抓取調度系統、網頁分析系統、鏈接提取系統、鏈接分析系統、網頁存儲系統。Baiduspider 通過這種系統的通力合作完成對互聯網頁面的抓取工作。
- 上一篇:應對蜘蛛抓取基本策略
- 下一篇: EO優化與關鍵詞的聯系