dede robots.txt如何正确写法?

99ANYc3cd6
预计阅读时长 13 分钟
位置: 首页 DEDE建站 正文

robots.txt 文件是一个位于网站根目录下的纯文本文件,它告诉搜索引擎的爬虫(Spider)哪些页面可以抓取,哪些页面不可以,正确配置 robots.txt 是进行 SEO(搜索引擎优化)的重要一步。

dede robots.txt写法
(图片来源网络,侵删)

robots.txt 的基本语法

在写具体规则之前,我们先了解其基本构成:

  1. User-agent: 指定规则对哪个爬虫生效。

    • User-agent: *:对所有的搜索引擎爬虫生效( 是通配符)。
    • User-agent: Baiduspider:只对百度爬虫生效。
    • User-agent: Googlebot:只对谷歌爬虫生效。
  2. Disallow: 指定不允许抓取的目录或文件。

    • Disallow: /:禁止抓取整个网站。
    • Disallow: /temp/:禁止抓取 temp 目录及其下的所有文件。
    • Disallow: /dede/:禁止抓取 dede 管理后台目录。
    • Disallow: /data/:禁止抓取 data 数据目录。
    • Disallow: *.php:禁止抓取所有以 .php 结尾的文件。
  3. Allow: 指定允许抓取的目录或文件(通常与 Disallow 搭配使用,用于例外情况)。

    dede robots.txt写法
    (图片来源网络,侵删)
    • Disallow: /:禁止抓取根目录下所有内容。
    • Allow: /:允许抓取根目录下的所有内容,这两个规则组合起来等于允许抓取所有。
    • Disallow: /temp/:禁止抓取 temp 目录。
    • Allow: /temp/images/:但在 temp 目录中,允许抓取 images 子目录。
  4. Sitemap: 告诉搜索引擎网站地图(sitemap)的位置,这是一个可选但强烈推荐的指令。

    • Sitemap: https://www.yourdomain.com/sitemap.xml

DedeCMS 网站需要屏蔽的核心目录

DedeCMS 的目录结构比较特殊,有几个目录是绝对不允许搜索引擎抓取的,否则可能导致网站安全问题或数据泄露。

  • /dede/:网站后台管理目录,包含大量管理脚本和配置文件。
  • /data/:核心数据目录,存放缓存文件、配置文件等。
  • /templets/:模板目录,虽然不直接涉及数据安全,但包含了网站的结构和样式,让爬虫抓取没有意义。
  • /special/:专题目录,通常是动态页面,SEO 价值不高,且可能包含重复内容。
  • /plus/:功能目录,包含评论、搜索、会员中心等动态脚本,抓取意义不大。
  • /include/:包含公共函数和类的目录,属于核心代码。
  • /install/:安装目录,如果安装完成后未删除,这是极大的安全隐患。
  • /static//images/:静态资源目录,搜索引擎通常能识别这些是资源文件,抓取后返回 404200 但无内容,占用爬虫配额,建议屏蔽。
  • /member/:会员中心目录,包含用户隐私信息。
  • /ask/:问答模块目录(如果安装了),功能性的动态目录。

DedeCMS robots.txt 写法推荐

下面提供几个不同场景下的 robots.txt 写法模板,你可以根据自己的需求选择和修改。

通用推荐版(最常用)

这个版本屏蔽了所有 DedeCMS 的核心目录,只允许搜索引擎抓取前台的文章、栏目等静态化后的页面。

dede robots.txt写法
(图片来源网络,侵删)
User-agent: *
Allow: /
# 禁止抓取DedeCMS核心目录
Disallow: /dede/
Disallow: /data/
Disallow: /templets/
Disallow: /special/
Disallow: /plus/
Disallow: /include/
Disallow: /install/
Disallow: /static/
Disallow: /member/
Disallow: /ask/
# 如果你的网站有其他功能性或动态目录,也一并加上
# Disallow: /your_other_dynamic_dir/
# 告知搜索引擎网站地图的位置
Sitemap: https://www.yourdomain.com/sitemap.xml

说明:

  • Allow: /:这个指令非常重要,它告诉爬虫,虽然你屏蔽了很多目录,但是网站的根目录(即你希望被收录的文章页、列表页等)是允许访问的,如果没有这一行,Disallow: / 会禁止抓取整个网站。
  • Sitemap::强烈建议加上,这能帮助搜索引擎更高效地发现和收录你的网站。

简洁版

如果你觉得上面的规则太多,可以写一个更简洁的版本。

User-agent: *
Disallow: /dede/
Disallow: /data/
Disallow: /plus/
Disallow: /special/
Disallow: /member/
Disallow: /ask/
Sitemap: https://www.yourdomain.com/sitemap.xml

说明: 这个版本屏蔽了最核心的几个目录,对于大多数网站来说,这已经足够了。

针对特定搜索引擎的精细控制

如果你希望为不同的搜索引擎设置不同的规则,可以这样写,对百度和谷歌设置更严格的规则。

# 对所有搜索引擎的通用规则
User-agent: *
Disallow: /dede/
Disallow: /data/
Disallow: /install/
Disallow: /member/
Sitemap: https://www.yourdomain.com/sitemap.xml
# 针对百度爬虫的额外规则
User-agent: Baiduspider
# 百度对动态页面抓取比较积极,可以多屏蔽一些目录
Disallow: /plus/
Disallow: /special/
Disallow: /ask/
# 针对谷歌爬虫的额外规则
User-agent: Googlebot
# 谷歌的爬虫更智能,规则可以相对宽松
# 这里可以不添加额外的 Disallow,或者只屏蔽一些特定目录

如何上传 robots.txt 文件

  1. 创建文件:使用任何文本编辑器(如记事本、VS Code、Sublime Text 等),将上面的代码复制粘贴进去。
  2. 修改域名:将 https://www.yourdomain.com/ 替换成你自己的网站域名。
  3. 保存文件:将文件命名为 robots.txt(注意全是小写,没有后缀名)。
  4. 上传文件:通过 FTP 工具(如 FileZilla)或网站后台的文件管理器,将 robots.txt 文件上传到你网站的根目录下,根目录就是 public_htmlwwwhttpdocs 文件夹。

验证:上传成功后,在浏览器中访问 https://www.yourdomain.com/robots.txt,如果能看到你写的规则,说明上传成功。


重要注意事项

  1. 不要使用 Disallow: /:除非你的网站还没准备好上线,否则不要在 robots.txt 中使用 Disallow: / 来禁止所有爬虫,这等于告诉搜索引擎“别来收录我”。
  2. 屏蔽不等于不收录robots.txt 只是“礼貌性”的请求,它并不能阻止恶意爬虫,它只是告诉“好”的爬虫哪些地方不该去,真正删除内容需要使用 404410 状态码。
  3. 检查目录大小写:DedeCMS 的目录名通常是全小写的,确保 Disallow 后面的路径与服务器上的实际路径大小写一致。
  4. 网站地图:确保你提供的 Sitemap 链接是正确的,DedeCMS 默认会在根目录生成 sitemap.xml 文件,但如果没有,你需要先生成它。
  5. 测试工具:在配置完成后,可以使用 Google Search Console 或百度搜索资源平台的“robots.txt 测试工具”来验证你的语法是否正确,以及爬虫是否能正确理解你的规则。

选择一个适合你网站的模板,稍作修改,并上传到根目录,你的 DedeCMS 网站就有了一个规范的 robots.txt 文件。

-- 展开阅读全文 --
头像
织梦dedecms如何获取会员信息?
« 上一篇 昨天
float与double类型有何关键区别?
下一篇 » 昨天

相关文章

取消
微信二维码
支付宝二维码

目录[+]