这篇教程将从准备工作、核心步骤、高级技巧和注意事项四个方面,为你详细讲解如何使用织梦采集插件。
使用前的准备工作(非常重要)
在开始采集之前,做好准备工作能让后续过程事半功倍,并且避免很多问题。
-
明确采集目标:
- 你想采集哪个网站的内容?
- 你想采集哪些栏目?(新闻、图集、软件下载等)
- 你想采集哪些字段?(标题、内容、作者、来源、缩略图等)
-
分析目标网站:
- 打开目标网站,找到你想要采集的列表页(新闻列表页)。
- 分析列表页的URL规则:它是分页的吗?分页参数是什么?(
?page=2或/list_2_1.html)。 - 分析文章页的URL规则:文章链接是动态的(如
?id=123)还是静态的(如/article/123.html)?这决定了你后续的“目标网址”设置。 - 分析列表页和文章页的HTML结构:
- 列表页:找到包裹每篇文章标题和链接的
<a>标签,以及分页链接的<a>标签,使用浏览器“检查元素”功能,查看它们的class或id属性。 - 文章页:分别找到标题、内容、作者、缩略图等元素所在的HTML标签和它们的
class或id可能在<h1 class="title">...</h1>中,内容可能在<div class="content">...</div>中。
- 列表页:找到包裹每篇文章标题和链接的
-
在织梦后台准备“容器”:
- 创建栏目:在“栏目管理”中,为你采集的内容创建好对应的栏目,采集体育新闻,就创建一个“体育新闻”栏目。采集到的文章会自动发布到你指定的栏目下。
- 模型:确保你采集栏目的“内容模型”是你需要的类型(文章模型、图集模型等)。
采集的核心步骤(四步走)
准备工作完成后,就可以登录织梦后台(/dede/),开始正式的采集流程了,核心路径是:采集 -> 采集节点管理。
第1步:创建采集节点
这是采集的核心配置文件,定义了从哪里采、采什么。
- 进入“采集” -> “采集节点管理”,点击右上角的“增加新节点”。
- 填写基本信息:
- 节点名称:给你的采集任务起个名字,方便识别,如“XX新闻网体育新闻”。
- 起始网址:填写你分析好的列表页第一页的URL。
- 目标网址:这是最关键的一步! 这里填写文章页的URL规则。
- 动态URL:如果文章链接是
view.php?id={},你就写view.php?id={}。 - 静态URL:如果文章链接是
arc-{}.html,你就写arc-{}。 是一个通配符,代表文章ID。 - 列表页模式:如果网站是瀑布流或无限滚动,可能需要选择“列表页模式”,但这种情况比较复杂,我们先以传统的分页列表为例。
- 动态URL:如果文章链接是
- 列表页命名规则:设置采集下来的列表页的命名规则,一般使用默认即可。
- 保存路径:设置采集下来的列表页存放在网站的哪个目录,一般使用默认。
- 作者:默认采集到的文章作者。
- 来源:默认采集到的文章来源。
- 发布状态:选择“审核发布”或“仅保存”,建议先选择“仅保存”,测试无误后再改为“审核发布”。
- 栏目选择:务必选择一个你之前准备好的栏目,采集到的文章会发布到这里。
- 保存后,点击“下一步”。
第2步:配置列表/分页规则
这一步告诉织梦如何从列表页上找到所有文章的链接。
-
列表区域 (list):
- 在右侧的“选择范围”中,用鼠标在浏览器中选中列表页中所有文章标题所在的区域(一个包含多个
<li>的<ul>)。 - 选中后,代码会自动填入,织梦会自动提取这个区域内的所有
<a>标签作为文章链接。 - 如果列表页有特殊的链接格式,可以在下面的“链接标签”中指定,如
a。
- 在右侧的“选择范围”中,用鼠标在浏览器中选中列表页中所有文章标题所在的区域(一个包含多个
-
分页 (page):
- 在列表页下方找到“下一页”或“末页”的链接。
- 用鼠标选中这个链接,或者在“选择范围”中手动输入它的父级容器代码。
- 织梦会根据这个规则找到分页链接,并自动翻页采集。
- 高级用法:如果分页URL很复杂,可以使用“使用JS获取分页链接”功能,但效率较低。
- 设置最大页数:为了防止无限采集,务必设置一个合理的“最大页数”。
- 点击“保存”。
第3步:配置内容规则
这一步告诉织梦如何从每一篇文章的页面中提取标题、内容、缩略图等信息。
-
选择要采集的字段:
在左侧的字段列表中,勾选你想要采集的字段,如“标题”、“内容”、“缩略图”、“作者”、“来源”等。
-
为每个字段设置采集规则:
- 在右侧的“选择范围”中,用鼠标在浏览器中选中(通常是
<h1>标签)。 - 代码会自动填入,织梦会提取这个标签内的文本作为标题。
- 在右侧的“选择范围”中,用鼠标在浏览器中选中(通常是
- 这是最重要的部分,用鼠标选中文章的正文内容区域(一个
<div class="article-content">)。 - 内容过滤:采集到的内容通常会包含目标网站的广告、版权信息等“垃圾”,你需要在这里设置过滤规则。
- 去除广告:如果广告都在某个
<div id="ad">...</div>里,就在“内容过滤”的“去掉”标签里填写#ad。 - 保留特定部分:如果只想保留内容中的图片,可以填写
img。 - 常用过滤规则:
去掉:script,iframe,div[id^='ad'],div[class^='ad'](去掉所有脚本、iframe,以及id或class以'ad'开头的div)保留:p,br,img,table(只保留段落、换行、图片和表格)
- 去除广告:如果广告都在某个
- 正文图片替换:织梦可以自动将文章中的图片下载到你的服务器,并替换链接。
- 勾选“保留远程图片”或“下载远程图片并本地化”。
- 设置好本地保存目录(如
/uploads/images/)。 - 织梦会自动处理,将
<img src="http://xxx.com/1.jpg">替换为<img src="/uploads/images/你的新文件名.jpg">。
- 这是最重要的部分,用鼠标选中文章的正文内容区域(一个
- 缩略图:
- 用鼠标选中文章中的第一张图片(或你指定的缩略图)。
- 在下面的“选择范围”中,选中
<img>- 在“使用正则表达式”中,填写
src="([^"]*)",这样就能准确提取图片的src属性值。 - 在“使用正则表达式”中,填写
- 作者/来源:
用同样的方法,找到作者和来源所在的HTML标签并选中。
-
所有字段规则设置完毕后,点击“保存”。
第4步:开始采集与测试
-
测试采集:
- 在节点列表中找到你刚刚创建的节点,点击“选择” -> “测试采集”。
- 在弹出的窗口中,可以测试“测试列表”(看是否能正确列出文章链接)和“”(看是否能正确提取一篇文章的标题和内容)。
- 这是最关键的调试步骤! 如果测试失败,返回第2步或第3步,检查你的列表/内容规则是否正确。
-
开始采集:
- 测试成功后,回到节点列表,点击“选择” -> “开始采集”。
- 系统会按照你设定的规则,逐页抓取内容,并自动发布到你指定的栏目。
- 你可以在“采集日志”中查看采集进度和结果。
高级技巧与注意事项
-
采集规则调试:
- 如果采集不到内容,不要慌,90%的问题出在规则不匹配。
- 多使用浏览器“检查元素”,仔细对比你写的规则和网页实际HTML结构是否一致。
- 网站改版:目标网站一旦改版,HTML结构改变,你的采集规则就会失效,需要重新配置。
-
尊重版权与Robots协议:
- 切勿采集受版权保护的内容,这可能导致法律风险。
- 在采集前,检查目标网站的
robots.txt文件(https://www.example.com/robots.txt),查看他们是否禁止了爬虫或特定目录的采集,遵守规则是良好网络公民的体现。
-
采集频率:
不要设置过高的采集频率(例如每秒采集多页),这会给目标网站服务器带来巨大压力,也容易被对方封禁IP,建议设置一个合理的间隔。
-
数据去重:
- 织梦采集时,默认会检查标题,如果采集到的文章标题与网站现有文章标题重复,则不会重复添加,你也可以在“采集参数设置”中配置更复杂的去重规则,如按内容MD5值去重。
-
使用“远程图片本地化”:
这个功能非常实用,它不仅能保证文章图片在你的服务器上可用,还能加快网站加载速度,并防止对方图片失效或删除导致你的文章“破图”。
-
内容伪原创:
- 为了避免搜索引擎判定为重复内容,你可以在采集后,使用织梦的“内容维护” -> “一键生成HTML”或安装一些伪原创插件,对采集来的内容进行简单的同义词替换或语序调整。
织梦采集插件功能强大,但学习曲线稍陡,核心在于耐心分析目标网站的结构,然后准确地配置好“节点”中的每一条规则。
流程回顾:准备 -> 建节点 -> 配列表 -> 配内容 -> 测试 -> 采集。
多练习几次,从简单的网站开始,慢慢你就会掌握这个工具的精髓,用它来高效地丰富你的网站内容。
