dede采集图集图片,发布时如何正确处理?

99ANYc3cd6
预计阅读时长 12 分钟
位置: 首页 DEDE建站 正文

核心思路

  1. 创建图集栏目:你需要一个专门用于存放图集内容的栏目。
  2. 设置图集模型:确保你的图集栏目使用的是“图集”模型,而不是“文章”模型。
  3. 配置采集规则:这是最关键的一步,在采集规则中,你需要告诉DedeCMS:
    • :在哪里找到。
    • :在哪里找到(通常包含图集说明)。
    • 图集图片最关键,如何找到所有图片的地址。
    • :如何为每一张图片设置标题(可选)。
  4. 采集并入库:运行采集规则,DedeCMS会自动抓取内容并生成图集。

详细步骤

第一步:准备图集栏目

  1. 登录你的DedeCMS后台。
  2. 进入「核心」 -> 「频道模型」 -> «内容模型管理»。
  3. 检查是否存在名为“图集”的模型,默认情况下,DedeCMS安装时会自带,如果没有,你需要创建一个(但通常不需要)。
  4. 进入「核心」 -> «栏目管理»。
  5. 创建一个新栏目(美景图集”)。
    • 栏目类型:选择“栏目”(默认)。
    • 类型:选择“图集”。
    • 其他信息(如栏目名称、目录等)正常填写即可。
  6. 保存,这样,你就有了一个可以发布图集的栏目了。

第二步:创建并配置采集规则

这是整个流程的核心,我们以采集一个网页上所有图片为例。

dede 采集发布到图集图片
(图片来源网络,侵删)
  1. 进入「采集」 -> «一键采集»。

  2. 点击「新建采集任务」,给你的任务起个名字(采集花瓣网图集)。

  3. 填写网站信息

    • 网站名称:随便填,方便你识别。
    • 起始URL:填写你想要采集的那个网页的地址(https://huaban.com/pins/12345678)。
    • 网站编码:通常选择 UTF-8GB2312,根据目标网站选择,选错会导致乱码。
    • 采集列表间隔:如果需要分页采集,设置抓取列表页的时间间隔,单页采集可以忽略。
    • 点击「下一步」。
  4. 配置采集列表(如果需要分页)

    dede 采集发布到图集图片
    (图片来源网络,侵删)
    • 如果你的目标网站有“下一页”并且你希望批量采集多个页面,你需要在这里设置列表规则。
    • 列表规则:使用“选择范围”工具,选中列表页中每个图集条目的容器(一个包含<li><div>的区域)。
    • 标题链接:在选中的容器内,指向详情页的链接(通常是<a>标签)。
    • 简介/缩略图:可选,根据需要设置。
    • 如果只是单页采集,可以直接点击「下一步」跳过此步。
  5. 配置采集内容(最关键的一步)

    • 系统会自动跳转到你设置的“起始URL”对应的详情页,现在你需要告诉DedeCMS如何抓取这个页面的内容。
      • 勾选“”。
      • 使用“选择范围”工具,在页面上选中图集的标题文字。
      • DedeCMS会自动填充规则,如 {dede:field.title/}
      • 勾选“”。
      • 使用“选择范围”工具,选中图集的说明文字部分,这部分文字将作为图集内容的正文。
      • DedeCMS会填充规则,如 {dede:field.body/}
    • 图集图片这是重中之重!
      • 勾选“图集图片”。
      • 使用“选择范围”工具,选中页面中所有图片的容器,一个包含所有<img>标签的<div class="pins">
      • DedeCMS会抓取到这个容器内的所有图片,但为了更精确,可以进一步设置:
        • 图片链接:通常选择“本图片地址”。
        • 缩图地址:选择“本图片地址”。
        • (非常重要) 这是设置每张图片标题的关键,你需要告诉DedeCMS从哪里获取图片的标题。
          • 方案A(使用图片Alt属性):如果目标网站的图片有alt属性,并且alt属性就是图片的标题,那么选择“Alt属性”。
          • 方案B(使用图片文件名):选择“图片文件名”,它会使用图片URL中最后一部分作为标题(https://xxx.com/abc/风景.jpg就是“风景.jpg”)。
          • 方案C(使用父级文本):如果图片标题在图片的某个父级<p><span>标签里,可以选择“父级文本”,然后选中那个父级元素。
          • 方案D(固定标题或留空):如果这些图片没有标题,或者你希望统一用“图集图片1”、“图集图片2”这样的标题,可以留空,然后在后面的“自动处理”中设置。
      • 点击“测试采集”,你应该能看到预览出的图片列表和标题,如果正确,说明规则配置成功。
  6. 设置自动处理

    • 在这一步,你可以对采集到的内容进行一些自动化处理。
    • 内容过滤:可以设置过滤掉目标网站的一些特定代码或广告(如 <div class="ad">...</div>)。
    • 图集图片标题格式:如果上一步你没有设置图片标题,或者想统一格式,可以在这里设置,输入 图集图片{@me}{@me}代表序号,最终会生成“图集图片1”、“图集图片2”。
    • 下载远程图片强烈建议勾选! 这样DedeCMS会把抓取到的图片下载到你自己的服务器上,避免因对方网站图片失效而导致你的图集显示不出来。
    • 是否启用远程图片本地化:勾选此项。
    • 目录保存路径:设置图片保存到你网站的哪个目录(如 /uploads/allimg/)。
  7. 选择保存栏目

    • 在最后一步,选择你之前创建好的“图集”栏目(美景图集”)。
    • 点击「保存规则」。

第三步:执行采集

  1. 回到「一键采集」主界面,你会看到你刚刚创建的规则。
  2. 点击规则右侧的「开始采集」按钮。
  3. DedeCMS会自动打开浏览器,访问你配置的URL,并根据规则抓取内容。
  4. 采集完成后,你可以进入对应的图集栏目,查看已经发布好的图集内容。

常见问题与解决方案

  • Q: 采集不到图片,或者图片为空?

    dede 采集发布到图集图片
    (图片来源网络,侵删)
    • A1: 检查“图集图片”规则中的“选择范围”是否选对了,确保它选中了包含所有图片的父级容器,而不是只选中了第一张图片。
    • A2: 检查目标网站的图片地址是否是真实地址,有些网站会使用延迟加载技术,图片地址可能是空的或是一个占位图,这种情况下,需要更高级的规则配置,或者手动复制图片地址。
    • A3: 检查“”的设置是否正确,如果设置错误,可能会导致图片无法被正确识别和抓取。
  • Q: 采集到的图集,点进去看大图时顺序乱了?

    • A: 这通常是因为DedeCMS在解析HTML时,图片的顺序和你看到的不一致,这和网页本身的HTML结构有关,如果问题严重,可能需要手动微调“选择范围”的规则,或者对采集到的图片顺序进行手动排序。
  • Q: 图片无法下载到本地?

    • A1: 确保在“自动处理”步骤中勾选了“下载远程图片”和“启用远程图片本地化”。
    • A2: 检查你的服务器目录权限,确保/uploads/目录有写入权限。
    • A3: 目标网站可能做了防盗链,你的服务器无法直接下载,可以尝试在服务器配置中添加Referer头,但这比较复杂。
  • Q: 采集到的内容有乱码?

    • A: 检查在第一步“填写网站信息”时,选择的“网站编码”是否与目标网站一致,如果不确定,可以尝试用浏览器打开目标网站,查看页面源代码中的charset属性。

成功的关键在于耐心和细致地配置“”步骤,特别是图集图片和这两项,多使用“测试采集”功能来验证你的规则是否正确,只要规则设置得当,DedeCMS的采集功能非常强大,可以帮你高效地建立图集网站。

-- 展开阅读全文 --
头像
Linux C语言如何实现HTTPS通信?
« 上一篇 前天
dede如何调用交叉栏目的内容?
下一篇 » 前天

相关文章

取消
微信二维码
支付宝二维码

目录[+]