robots.txt 文件快速上手

robots.txt 一個存在於「網站根目錄」的一個 ASCII 編碼的文字檔案,用來告訴 搜尋引擎 的 網路爬蟲( 或是叫 網路蜘蛛 )可以搜尋伺服器的哪些檔案,哪些檔案是不可以被搜尋的,在建立 robots.txt 的過程中,檔案的命名「必須」小寫,否則無法正常作用。然而 robots.txt 雖然可以限制 url 的讀取,但不代表能保證網站的隱私,這一點是必須注意的。

為何需要 robots.txt?

  1. 確保私人資訊安全無虞:robots.txt 當中的指令並不是規則,對於 網路爬蟲 並無強制力可言,只能視為一個基本原則與方針。 原則上像是 Google 或是其他較為「正規」的檢索器,都會依循robots.txt 內所制定的規則執行檢索,然而並非每一個檢索器都是如此,網站管理者需了解不同檢索器之間的差異與規則,並依照其規則書寫一份合乎特定檢索器之方針,以避免不良的結果產生。 然而,既使有 robots.txt 制定規則,也無法確保至於伺服器檔案的隱私,這點請務必注意。
  2. 針對各個檢索器使用正確語法:一般而言,正規的檢索器會依循robots.txt檔案中的指令執行檢索,但部分檢索器解讀指令可能會有些許不同。
  3. 禁止網路爬蟲依循預設規則檢索您的網址

robots.txt所包含的元素

在標準的robots.txt檔案中,需要包含這三種元素,分別為 User-agent Disallow 和 Allow,而個別的說明如下:

User-agent( 搜尋引擎的爬蟲名稱) : 預設值為 * ,也就是允許所有 網路爬蟲 進行存取的動作,當然也可依據不同的 網路爬蟲 進行設定。

Disallow( 不允許存取的檔案類型或路徑) : 當伺服器裡存在敏感的檔案,不想被 網路爬蟲 抓取,可以將檔案類型或是資料夾路徑設定於此,請務必注意「此方法不保證檔案或路徑的隱私」,過於敏感的資料請勿至於伺服器。當然也可由伺服器的設定阻止特定檔案的存取。

Allow( 允許存取的檔案類型或路徑) : 這個一般而言比較少使用,通常只要是沒設定於 Disallow 項目中, 網路爬蟲 就會自動進行存取,除非有特殊的需要,像是有一個被 Disallow 的路徑,底下有一個資料夾或是檔案必須被存取,那麼就可由 Allow 捱進行規則複寫的動作。

robots.txt寫法

robots.txt 寫法大致上有 6種,分別為 允許所有的機器人、僅允許特定的機器人、攔截所有的機器人、禁止所有機器人存取特定目錄、僅禁止壞爬蟲存取特定目錄與禁止所有機器人存取特定檔案型別。

## 允許所有的機器人 1

User-agent: *

Disallow:

## 允許所有的機器人 2

User-agent: *

Allow:/

## 僅允許特定的機器人:

User-agent: 爬蟲名稱

Allow:

## 攔截所有的機器人:

User-agent: *

Disallow: /

## 禁止所有機器人存取特定目錄:

User-agent: *

Disallow: /cgi-bin/

Disallow: /images/

Disallow: /tmp/

Disallow: /private/

## 僅禁止壞爬蟲存取特定目錄:

User-agent: 爬蟲名稱

Disallow: /private/

## 禁止所有機器人存取特定檔案型別[2]:

User-agent: *

Disallow: /*.php$

Disallow: /*.js$

Disallow: /*.inc$

Disallow: /*.css$

結語

一份良好的robots.txt可以讓網路爬蟲抓取正確的網頁資訊,有利於內容可以被使用者搜尋到並增加曝光的機率。相反的當robots.txt內容不良,也可能會直接造成網站曝光度降低,也因為網站的「內容不夠豐富」,網路爬蟲對於網站搜尋的次數也會相對減少,對於網站經營來說是一大問題。

發表迴響