- 创建和配置采集规则:这是最关键的一步,告诉 DedeCMS 去哪里抓取、抓取什么。
- 测试并执行采集:用规则去网站抓取内容,并存到 DedeCMS 的临时表。
- 到指定栏目:将临时表中的内容,正式发布到你想要的网站栏目中。
第一步:创建和配置采集规则 (核心)
这个步骤的目标是让 DedeCMS 能够识别目标网站上的“标题”在哪里,并将其抓取下来。

(图片来源网络,侵删)
进入采集管理后台
登录你的 DedeCMS 后台,在顶部菜单栏找到:
采集 -> 采集管理
或者
核心 -> 采集 -> 采集管理
添加新采集节点
点击 增加新采集 按钮,进入规则配置向导。
- 基本配置
- 采集名称:给你的采集任务起个名字,方便管理,采集XX新闻头条”。
- 起始网址:目标网站的列表页 URL,新闻列表页的第一页。
- 列表链接:这是关键! 告诉 DedeCMS 如何从列表页中找到每篇文章的链接。
- 点击“选择”按钮,在弹出的窗口中,用鼠标点击目标网站列表页上的一篇文章的标题链接。
- DedeCMS 会自动识别并填充代码,通常是类似
a[href^='http']这样的 CSS 选择器,如果识别不准,你需要手动修改,确保它能唯一、准确地匹配到所有文章链接。
- 列表页码:如果目标网站有分页,需要设置。
列表网址规则填写/news/list_{page}.html,起始页为 1,结束页为 10。
配置采集内容 (重点:标题)
这一步是定义要抓取哪些内容字段。
-
点击“选择”或“直接编写”进入内容字段配置页面。
(图片来源网络,侵删) -
标题 字段配置 (最重要)
- 在
名称列填写title(这是 DedeCMS 默认的字段名,必须填这个)。 - 在
抓取代码列,你需要填写能定位到标题的代码。- 方法一(推荐):使用 CSS 选择器。
- 点击“选择”按钮,在弹出的窗口中,用鼠标点击目标网站文章页面上的标题文字。
- DedeCMS 会自动生成类似
h1.entry-title或.article-title的选择器,这是最准确、最稳定的方式。
- 手动编写。
- 如果你熟悉 HTML,可以直接查看目标网页源码,找到标题标签的 ID 或 Class,如果标题是
<h1 id="article-title">...</h1>,那么抓取代码就填#article-title,如果是<div class="title">...</div>,就填.title。
- 如果你熟悉 HTML,可以直接查看目标网页源码,找到标题标签的 ID 或 Class,如果标题是
- 方法一(推荐):使用 CSS 选择器。
- 高级选项 - 采集标题图片旁边有配图,可以勾选此项,并配置图片的抓取代码。
- 是否启用字段的“启用”是勾选状态。
- 在
-
其他字段配置 (同理)
- 名称填
body,用同样的方法,点击选择目标网站文章的正文内容区域。 - 发布时间:名称填
pubdate,选择或编写能定位到日期的代码。 - 作者:名称填
writer。 - 来源:名称填
source。 - 缩略图:名称填
litpic,选择文章中的第一张图片或指定的图片。 - Tags (关键词):名称填
keywords,选择或编写能定位到关键词的代码。
- 名称填
高级设置
- 内容过滤:非常重要!可以设置过滤掉目标网站的无用代码,如广告、导航、版权信息等,防止它们被采集到你的正文里。
- 发布选项:
- 选择栏目:提前想好采集来的内容要放到哪个栏目下。
- 是否保存远程图片到本地:强烈建议勾选,这样能保证图片不会因为对方网站失效而丢失。
- 是否自动分页:如果文章很长,目标网站有分页,可以勾选自动合并。
第二步:测试并执行采集
规则配置完成后,不要急于大规模采集,先进行测试。
-
测试采集
(图片来源网络,侵删)- 在规则列表中找到你刚刚创建的规则,点击右侧的
测试按钮。 - 系统会根据你的规则去抓取第一篇文章。
- 检查结果:在弹出的结果页面,仔细核对 、时间 等字段是否抓取正确、完整,如果发现问题,返回第一步修改“抓取代码”。
- 循环测试:可以多次点击“测试”,抓取不同的文章,确保规则的普适性。
- 在规则列表中找到你刚刚创建的规则,点击右侧的
-
开始采集
- 测试无误后,回到规则列表,点击你规则的
开始采集按钮。 - DedeCMS 会开始逐页抓取,并将抓取到的内容存入一个 “待审核内容” 的临时表里。
- 你可以在后台
采集->采集结果中查看已经采集到的文章列表。
- 测试无误后,回到规则列表,点击你规则的
第三步:导入内容到指定栏目
采集到临时表后,还需要一步才能正式显示在网站上。
-
进入审核发布页面
- 在后台菜单栏找到
采集->采集结果。 - 你会看到所有已采集但未发布的文章列表。
- 在后台菜单栏找到
-
审核并选择栏目
- 全选:勾选列表顶部的复选框,选中所有待审核的文章。
- 选择栏目:在列表下方的
选择栏目下拉菜单中,选择你希望这些文章最终发布的那个栏目(国内新闻”、“科技资讯”等)。 - 开始审核:点击
开始审核按钮。
-
完成导入
- 点击后,系统会将这些文章从临时表移动到你选择的栏目中,并生成正式的 HTML 页面。
- 现在你可以去网站的前台,在你选择的栏目下,就能看到采集到的文章了。
常见问题与技巧 (FAQ)
-
Q: 为什么采集到的标题是空的?
- A: 最常见的原因是“抓取代码”写错了,回到规则配置,重新用“选择”功能或手动检查目标网页的源码,确保选择器能准确定位到标题元素。
-
Q: 为什么标题里有乱码?
- A: 通常是字符集编码问题,在规则的高级设置里,检查“目标网页编码”是否正确(一般是
UTF-8或GBK),并确保你的 DedeCMS 网站编码与之匹配。
- A: 通常是字符集编码问题,在规则的高级设置里,检查“目标网页编码”是否正确(一般是
-
Q: 采集很慢怎么办?
- A: 采集是模拟浏览器访问,速度天然较慢,可以尝试在后台设置中调高“每次采集间隔时间”,避免因请求过快被目标网站封禁 IP。
-
Q: 采集到的内容格式很乱,有很多换行和空格?
- A: 在“内容”字段的“内容过滤”设置中,可以添加一些正则表达式来清理。
\s+可以匹配一个或多个空白字符(包括空格、换行、制表符),将其替换为空。
- A: 在“内容”字段的“内容过滤”设置中,可以添加一些正则表达式来清理。
-
Q: 采集规则里的“正则表达式”和“XPath”是什么?
- A: 它们是更高级的抓取方式。
- CSS 选择器:最常用,通过元素的标签名、ID、Class 来定位,简单直观。
- XPath:一种更强大的路径语言,可以遍历 XML/HTML 文档树,能处理 CSS 选择器难以解决的复杂结构。
- 正则表达式:通过匹配文本模式来提取内容,适合处理没有固定 HTML 结构的文本。
- A: 它们是更高级的抓取方式。
希望这份详细的指南能帮助你顺利完成 DedeCMS 的内容采集工作!
