避免搜尋引擎蜘蛛爬取不必要的內容–robots.txt


search engine

搜尋引擎的爬與不爬

搜尋引擎蜘蛛到網站來訪問固然是一件好事,代表網站的內容獲得搜尋引擎的青睞,並且有希望被收錄進 Search Engine 的資料庫。然而網站架構裡頭有許多是搜尋引擎不必要去爬取的內容,那麼這個部分就需要透過設置告訴搜尋引擎不要去訪問那些內容。這樣做有幾個好處

(1) 避免搜尋引擎訪問過多沒必要的內容,浪費頻寬以及增加網站服務器的負載

(2) 對搜尋引擎比較友好,因為你已經告訴他這些不需要去爬取

(3) 對網站的 SEO 也有好處,雖然沒有直接的好處,但對搜尋引擎爬取內容友好的網站相對的也能獲得搜尋引擎比較好的重視

WordPress 的檔案架構

(1) WordPress 的根路徑

(2) 目錄 wp-admin

(3) 目錄 wp-content ,wp-content 路徑下有 plugins、themes、upgrade、uploads 子路徑

(4) 目錄 wp-includes

   

其中 wp-admin 以及 wp-includes 都不需要搜尋引擎爬取,而 wp-content 中的 plugins 以及 themes 也不需要讓搜尋引擎訪問。

限制搜尋引擎抓取內容 – robots.txt

透過設置 robots.txt 檔案可以有效告訴搜尋引擎那些頁面可以抓取,那些頁面或路徑不需要抓取。

一個 WordPress 站點的 robots.txt 內容範本如下

User-agent: *
Disallow: /wp-admin
Disallow: /wp-content/plugins
Disallow: /wp-content/themes
Disallow: /wp-includes
Disallow: /?s=

這一段的解釋如下

User-agent: * 允許所以的搜尋引擎蜘蛛訪問

接下來的四行 Disallow: 路徑,是告訴搜尋引擎這些路徑下的檔案不需要去抓取

最後一行 Disallow: /?s= 是限制抓取搜索結果

完成以後將 robots.txt 這個檔案上傳到服務器的 WordPress 根路徑下即可。

避免搜尋引擎蜘蛛爬取不必要的內容延伸閱讀

(*) 網頁載入速度分析 | SEO 筆記: SEOer 也應該更新到 2.0了 | 網站載入速度至關重要 | SEO 筆記:有別人給你網站留言別高興的太早 | SEO 筆記: 防止搜索引擎訪問不必要的檔案及路徑 | SEO筆記:Google 來的搜索流量大幅減少 | Bing 的搜索蜘蛛造成系統 CPU 負載大增

本文地址:避免搜尋引擎蜘蛛爬取不必要的內容–robots.txt
內容對你有幫助嗎? 臉書分享:
分享到:

發表迴響

您的電子郵件位址並不會被公開。 必要欄位標記為 *

*

您可以使用這些 HTML 標籤與屬性: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <strike> <strong>

交換連結: Liang's Blog |