robots.txt 文件是一个位于网站根目录下的纯文本文件,它告诉搜索引擎的爬虫(Spider)哪些页面可以抓取,哪些页面不可以,正确配置 robots.txt 是进行 SEO(搜索引擎优化)的重要一步。

(图片来源网络,侵删)
robots.txt 的基本语法
在写具体规则之前,我们先了解其基本构成:
-
User-agent: 指定规则对哪个爬虫生效。
User-agent: *:对所有的搜索引擎爬虫生效( 是通配符)。User-agent: Baiduspider:只对百度爬虫生效。User-agent: Googlebot:只对谷歌爬虫生效。
-
Disallow: 指定不允许抓取的目录或文件。
Disallow: /:禁止抓取整个网站。Disallow: /temp/:禁止抓取temp目录及其下的所有文件。Disallow: /dede/:禁止抓取dede管理后台目录。Disallow: /data/:禁止抓取data数据目录。Disallow: *.php:禁止抓取所有以.php结尾的文件。
-
Allow: 指定允许抓取的目录或文件(通常与
Disallow搭配使用,用于例外情况)。
(图片来源网络,侵删)Disallow: /:禁止抓取根目录下所有内容。Allow: /:允许抓取根目录下的所有内容,这两个规则组合起来等于允许抓取所有。Disallow: /temp/:禁止抓取temp目录。Allow: /temp/images/:但在temp目录中,允许抓取images子目录。
-
Sitemap: 告诉搜索引擎网站地图(sitemap)的位置,这是一个可选但强烈推荐的指令。
Sitemap: https://www.yourdomain.com/sitemap.xml
DedeCMS 网站需要屏蔽的核心目录
DedeCMS 的目录结构比较特殊,有几个目录是绝对不允许搜索引擎抓取的,否则可能导致网站安全问题或数据泄露。
/dede/:网站后台管理目录,包含大量管理脚本和配置文件。/data/:核心数据目录,存放缓存文件、配置文件等。/templets/:模板目录,虽然不直接涉及数据安全,但包含了网站的结构和样式,让爬虫抓取没有意义。/special/:专题目录,通常是动态页面,SEO 价值不高,且可能包含重复内容。/plus/:功能目录,包含评论、搜索、会员中心等动态脚本,抓取意义不大。/include/:包含公共函数和类的目录,属于核心代码。/install/:安装目录,如果安装完成后未删除,这是极大的安全隐患。/static/或/images/:静态资源目录,搜索引擎通常能识别这些是资源文件,抓取后返回404或200但无内容,占用爬虫配额,建议屏蔽。/member/:会员中心目录,包含用户隐私信息。/ask/:问答模块目录(如果安装了),功能性的动态目录。
DedeCMS robots.txt 写法推荐
下面提供几个不同场景下的 robots.txt 写法模板,你可以根据自己的需求选择和修改。
通用推荐版(最常用)
这个版本屏蔽了所有 DedeCMS 的核心目录,只允许搜索引擎抓取前台的文章、栏目等静态化后的页面。

(图片来源网络,侵删)
User-agent: * Allow: / # 禁止抓取DedeCMS核心目录 Disallow: /dede/ Disallow: /data/ Disallow: /templets/ Disallow: /special/ Disallow: /plus/ Disallow: /include/ Disallow: /install/ Disallow: /static/ Disallow: /member/ Disallow: /ask/ # 如果你的网站有其他功能性或动态目录,也一并加上 # Disallow: /your_other_dynamic_dir/ # 告知搜索引擎网站地图的位置 Sitemap: https://www.yourdomain.com/sitemap.xml
说明:
Allow: /:这个指令非常重要,它告诉爬虫,虽然你屏蔽了很多目录,但是网站的根目录(即你希望被收录的文章页、列表页等)是允许访问的,如果没有这一行,Disallow: /会禁止抓取整个网站。Sitemap::强烈建议加上,这能帮助搜索引擎更高效地发现和收录你的网站。
简洁版
如果你觉得上面的规则太多,可以写一个更简洁的版本。
User-agent: * Disallow: /dede/ Disallow: /data/ Disallow: /plus/ Disallow: /special/ Disallow: /member/ Disallow: /ask/ Sitemap: https://www.yourdomain.com/sitemap.xml
说明: 这个版本屏蔽了最核心的几个目录,对于大多数网站来说,这已经足够了。
针对特定搜索引擎的精细控制
如果你希望为不同的搜索引擎设置不同的规则,可以这样写,对百度和谷歌设置更严格的规则。
# 对所有搜索引擎的通用规则 User-agent: * Disallow: /dede/ Disallow: /data/ Disallow: /install/ Disallow: /member/ Sitemap: https://www.yourdomain.com/sitemap.xml # 针对百度爬虫的额外规则 User-agent: Baiduspider # 百度对动态页面抓取比较积极,可以多屏蔽一些目录 Disallow: /plus/ Disallow: /special/ Disallow: /ask/ # 针对谷歌爬虫的额外规则 User-agent: Googlebot # 谷歌的爬虫更智能,规则可以相对宽松 # 这里可以不添加额外的 Disallow,或者只屏蔽一些特定目录
如何上传 robots.txt 文件
- 创建文件:使用任何文本编辑器(如记事本、VS Code、Sublime Text 等),将上面的代码复制粘贴进去。
- 修改域名:将
https://www.yourdomain.com/替换成你自己的网站域名。 - 保存文件:将文件命名为
robots.txt(注意全是小写,没有后缀名)。 - 上传文件:通过 FTP 工具(如 FileZilla)或网站后台的文件管理器,将
robots.txt文件上传到你网站的根目录下,根目录就是public_html、www或httpdocs文件夹。
验证:上传成功后,在浏览器中访问 https://www.yourdomain.com/robots.txt,如果能看到你写的规则,说明上传成功。
重要注意事项
- 不要使用
Disallow: /:除非你的网站还没准备好上线,否则不要在robots.txt中使用Disallow: /来禁止所有爬虫,这等于告诉搜索引擎“别来收录我”。 - 屏蔽不等于不收录:
robots.txt只是“礼貌性”的请求,它并不能阻止恶意爬虫,它只是告诉“好”的爬虫哪些地方不该去,真正删除内容需要使用404或410状态码。 - 检查目录大小写:DedeCMS 的目录名通常是全小写的,确保
Disallow后面的路径与服务器上的实际路径大小写一致。 - 网站地图:确保你提供的
Sitemap链接是正确的,DedeCMS 默认会在根目录生成sitemap.xml文件,但如果没有,你需要先生成它。 - 测试工具:在配置完成后,可以使用 Google Search Console 或百度搜索资源平台的“robots.txt 测试工具”来验证你的语法是否正确,以及爬虫是否能正确理解你的规则。
选择一个适合你网站的模板,稍作修改,并上传到根目录,你的 DedeCMS 网站就有了一个规范的 robots.txt 文件。
