robots.txt 合規說明
了解 robots.txt 如何影響網站的搜尋發現度、頁面渲染完整性、內容開放策略,
以及 AI 系統對網站內容的理解方式。
對 GEO Scorecard 而言,robots.txt 不是一個附屬技術檔案,而是網站對搜尋引擎、
AI crawler 與外部代理公開說明抓取邊界的第一層入口。它會影響網站能不能被抓、能不能被完整渲染、
以及外部系統是否能穩定理解你的內容開放方式。
我們將 robots.txt 納入評分,不是因為「有檔案就加分」,而是因為它會直接影響三件事情:
網站是否能被正常抓取、搜尋引擎是否能取得渲染頁面所需的關鍵資源,以及網站是否清楚表達自己對不同類型 bot 的開放邊界。
換句話說,這不是一個只屬於 SEO 顧問或工程師的技術細節,而是網站對外部系統的第一份規則說明書。 如果這裡缺失、混亂或衝突,後面的 HTML、JSON-LD、Meta Tag 即使做得不差,也可能因為入口規則寫錯而無法正常發揮。
它決定 crawler 能不能進站、哪些路徑能讀、哪些資源可渲染,直接影響內容發現度與索引效率。
它影響 AI 搜尋、引用型產品與訓練型 crawler 對內容的取用邊界,會影響理解、引用與收錄方式。
robots.txt 是放在網站根目錄的純文字檔案,用來告訴 crawler 哪些路徑可以抓、哪些路徑不建議抓。
它是 Robots Exclusion Protocol 的實作入口,Google 會先抓取並解析這份檔案,再決定後續抓取方式;RFC 9309 也已將這套協議標準化。
一份最基本的寫法通常包含下列欄位:
User-agent:規則對哪一類 crawler 生效。Allow:允許抓取的路徑。Disallow:不允許抓取的路徑。Sitemap:提供 sitemap 的完整位置。User-agent: *
Disallow:
Sitemap: https://example.com/sitemap.xml
上面的意思很簡單:對所有 crawler 沒有額外封鎖,並且主動提供 sitemap 位置。對陌生網站來說, 這是一種可預測的公開姿態。你不是要外部系統自己猜網站結構,而是主動把抓取邊界講清楚。
如果網站沒有這份檔案,部分 crawler 仍可能按照預設方式抓取公開內容,但你就失去了主動定義規則的機會。 對商業網站而言,這通常不是最理想的做法,因為它讓抓取政策回到「默認狀態」,而不是你的明確策略。
下列來源可作為這個評分面向的外部依據。這些連結讓使用者理解:這不是主觀評論,而是建立在正式規範、 搜尋引擎文件與 AI 平台官方文件上的整理。