织梦采集插件怎么使用

99ANYc3cd6
预计阅读时长 15 分钟
位置: 首页 织梦建站 正文

这篇教程将从准备工作、核心步骤、高级技巧和注意事项四个方面,为你详细讲解如何使用织梦采集插件。


使用前的准备工作(非常重要)

在开始采集之前,做好准备工作能让后续过程事半功倍,并且避免很多问题。

  1. 明确采集目标

    • 你想采集哪个网站的内容?
    • 你想采集哪些栏目?(新闻、图集、软件下载等)
    • 你想采集哪些字段?(标题、内容、作者、来源、缩略图等)
  2. 分析目标网站

    • 打开目标网站,找到你想要采集的列表页(新闻列表页)。
    • 分析列表页的URL规则:它是分页的吗?分页参数是什么?(?page=2/list_2_1.html)。
    • 分析文章页的URL规则:文章链接是动态的(如 ?id=123)还是静态的(如 /article/123.html)?这决定了你后续的“目标网址”设置。
    • 分析列表页和文章页的HTML结构
      • 列表页:找到包裹每篇文章标题和链接的 <a> 标签,以及分页链接的 <a> 标签,使用浏览器“检查元素”功能,查看它们的 classid 属性。
      • 文章页:分别找到标题、内容、作者、缩略图等元素所在的HTML标签和它们的 classid可能在 <h1 class="title">...</h1> 中,内容可能在 <div class="content">...</div> 中。
  3. 在织梦后台准备“容器”

    • 创建栏目:在“栏目管理”中,为你采集的内容创建好对应的栏目,采集体育新闻,就创建一个“体育新闻”栏目。采集到的文章会自动发布到你指定的栏目下。
    • 模型:确保你采集栏目的“内容模型”是你需要的类型(文章模型、图集模型等)。

采集的核心步骤(四步走)

准备工作完成后,就可以登录织梦后台(/dede/),开始正式的采集流程了,核心路径是:采集 -> 采集节点管理

第1步:创建采集节点

这是采集的核心配置文件,定义了从哪里采、采什么。

  1. 进入“采集” -> “采集节点管理”,点击右上角的“增加新节点”。
  2. 填写基本信息
    • 节点名称:给你的采集任务起个名字,方便识别,如“XX新闻网体育新闻”。
    • 起始网址:填写你分析好的列表页第一页的URL
    • 目标网址这是最关键的一步! 这里填写文章页的URL规则
      • 动态URL:如果文章链接是 view.php?id={},你就写 view.php?id={}
      • 静态URL:如果文章链接是 arc-{}.html,你就写 arc-{}。 是一个通配符,代表文章ID。
      • 列表页模式:如果网站是瀑布流或无限滚动,可能需要选择“列表页模式”,但这种情况比较复杂,我们先以传统的分页列表为例。
    • 列表页命名规则:设置采集下来的列表页的命名规则,一般使用默认即可。
    • 保存路径:设置采集下来的列表页存放在网站的哪个目录,一般使用默认。
    • 作者:默认采集到的文章作者。
    • 来源:默认采集到的文章来源。
    • 发布状态:选择“审核发布”或“仅保存”,建议先选择“仅保存”,测试无误后再改为“审核发布”。
    • 栏目选择务必选择一个你之前准备好的栏目,采集到的文章会发布到这里。
    • 保存后,点击“下一步”

第2步:配置列表/分页规则

这一步告诉织梦如何从列表页上找到所有文章的链接。

  1. 列表区域 (list)

    • 在右侧的“选择范围”中,用鼠标在浏览器中选中列表页中所有文章标题所在的区域(一个包含多个 <li><ul>)。
    • 选中后,代码会自动填入,织梦会自动提取这个区域内的所有 <a> 标签作为文章链接。
    • 如果列表页有特殊的链接格式,可以在下面的“链接标签”中指定,如 a
  2. 分页 (page)

    • 在列表页下方找到“下一页”或“末页”的链接。
    • 用鼠标选中这个链接,或者在“选择范围”中手动输入它的父级容器代码。
    • 织梦会根据这个规则找到分页链接,并自动翻页采集。
    • 高级用法:如果分页URL很复杂,可以使用“使用JS获取分页链接”功能,但效率较低。
    • 设置最大页数:为了防止无限采集,务必设置一个合理的“最大页数”。
    • 点击“保存”

第3步:配置内容规则

这一步告诉织梦如何从每一篇文章的页面中提取标题、内容、缩略图等信息。

  1. 选择要采集的字段

    在左侧的字段列表中,勾选你想要采集的字段,如“标题”、“内容”、“缩略图”、“作者”、“来源”等。

  2. 为每个字段设置采集规则

      • 在右侧的“选择范围”中,用鼠标在浏览器中选中(通常是 <h1> 标签)。
      • 代码会自动填入,织梦会提取这个标签内的文本作为标题。
      • 这是最重要的部分,用鼠标选中文章的正文内容区域(一个 <div class="article-content">)。
      • 内容过滤:采集到的内容通常会包含目标网站的广告、版权信息等“垃圾”,你需要在这里设置过滤规则。
        • 去除广告:如果广告都在某个 <div id="ad">...</div> 里,就在“内容过滤”的“去掉”标签里填写 #ad
        • 保留特定部分:如果只想保留内容中的图片,可以填写 img
        • 常用过滤规则
          • 去掉:script,iframe,div[id^='ad'],div[class^='ad'] (去掉所有脚本、iframe,以及id或class以'ad'开头的div)
          • 保留:p,br,img,table (只保留段落、换行、图片和表格)
      • 正文图片替换:织梦可以自动将文章中的图片下载到你的服务器,并替换链接。
        • 勾选“保留远程图片”或“下载远程图片并本地化”。
        • 设置好本地保存目录(如 /uploads/images/)。
        • 织梦会自动处理,将 <img src="http://xxx.com/1.jpg"> 替换为 <img src="/uploads/images/你的新文件名.jpg">
    • 缩略图
      • 用鼠标选中文章中的第一张图片(或你指定的缩略图)。
      • 在下面的“选择范围”中,选中 <img>
      • 在“使用正则表达式”中,填写 src="([^"]*)",这样就能准确提取图片的 src 属性值。
    • 作者/来源

      用同样的方法,找到作者和来源所在的HTML标签并选中。

  3. 所有字段规则设置完毕后,点击“保存”

第4步:开始采集与测试

  1. 测试采集

    • 在节点列表中找到你刚刚创建的节点,点击“选择” -> “测试采集”。
    • 在弹出的窗口中,可以测试“测试列表”(看是否能正确列出文章链接)和“”(看是否能正确提取一篇文章的标题和内容)。
    • 这是最关键的调试步骤! 如果测试失败,返回第2步或第3步,检查你的列表/内容规则是否正确。
  2. 开始采集

    • 测试成功后,回到节点列表,点击“选择” -> “开始采集”。
    • 系统会按照你设定的规则,逐页抓取内容,并自动发布到你指定的栏目。
    • 你可以在“采集日志”中查看采集进度和结果。

高级技巧与注意事项

  1. 采集规则调试

    • 如果采集不到内容,不要慌,90%的问题出在规则不匹配。
    • 多使用浏览器“检查元素”,仔细对比你写的规则和网页实际HTML结构是否一致。
    • 网站改版:目标网站一旦改版,HTML结构改变,你的采集规则就会失效,需要重新配置。
  2. 尊重版权与Robots协议

    • 切勿采集受版权保护的内容,这可能导致法律风险。
    • 在采集前,检查目标网站的 robots.txt 文件(https://www.example.com/robots.txt),查看他们是否禁止了爬虫或特定目录的采集,遵守规则是良好网络公民的体现。
  3. 采集频率

    不要设置过高的采集频率(例如每秒采集多页),这会给目标网站服务器带来巨大压力,也容易被对方封禁IP,建议设置一个合理的间隔。

  4. 数据去重

    • 织梦采集时,默认会检查标题,如果采集到的文章标题与网站现有文章标题重复,则不会重复添加,你也可以在“采集参数设置”中配置更复杂的去重规则,如按内容MD5值去重。
  5. 使用“远程图片本地化”

    这个功能非常实用,它不仅能保证文章图片在你的服务器上可用,还能加快网站加载速度,并防止对方图片失效或删除导致你的文章“破图”。

  6. 内容伪原创

    • 为了避免搜索引擎判定为重复内容,你可以在采集后,使用织梦的“内容维护” -> “一键生成HTML”或安装一些伪原创插件,对采集来的内容进行简单的同义词替换或语序调整。

织梦采集插件功能强大,但学习曲线稍陡,核心在于耐心分析目标网站的结构,然后准确地配置好“节点”中的每一条规则

流程回顾准备 -> 建节点 -> 配列表 -> 配内容 -> 测试 -> 采集

多练习几次,从简单的网站开始,慢慢你就会掌握这个工具的精髓,用它来高效地丰富你的网站内容。

-- 展开阅读全文 --
头像
织梦搜索页面调用代码
« 上一篇 03-29
dede图集为何默认显示第一张?
下一篇 » 03-29
取消
微信二维码
支付宝二维码