核心思路
- 创建图集栏目:你需要一个专门用于存放图集内容的栏目。
- 设置图集模型:确保你的图集栏目使用的是“图集”模型,而不是“文章”模型。
- 配置采集规则:这是最关键的一步,在采集规则中,你需要告诉DedeCMS:
- :在哪里找到。
- :在哪里找到(通常包含图集说明)。
- 图集图片:最关键,如何找到所有图片的地址。
- :如何为每一张图片设置标题(可选)。
- 采集并入库:运行采集规则,DedeCMS会自动抓取内容并生成图集。
详细步骤
第一步:准备图集栏目
- 登录你的DedeCMS后台。
- 进入「核心」 -> 「频道模型」 -> «内容模型管理»。
- 检查是否存在名为“图集”的模型,默认情况下,DedeCMS安装时会自带,如果没有,你需要创建一个(但通常不需要)。
- 进入「核心」 -> «栏目管理»。
- 创建一个新栏目(美景图集”)。
- 栏目类型:选择“栏目”(默认)。
- 类型:选择“图集”。
- 其他信息(如栏目名称、目录等)正常填写即可。
- 保存,这样,你就有了一个可以发布图集的栏目了。
第二步:创建并配置采集规则
这是整个流程的核心,我们以采集一个网页上所有图片为例。

(图片来源网络,侵删)
-
进入「采集」 -> «一键采集»。
-
点击「新建采集任务」,给你的任务起个名字(采集花瓣网图集)。
-
填写网站信息:
- 网站名称:随便填,方便你识别。
- 起始URL:填写你想要采集的那个网页的地址(
https://huaban.com/pins/12345678)。 - 网站编码:通常选择
UTF-8或GB2312,根据目标网站选择,选错会导致乱码。 - 采集列表间隔:如果需要分页采集,设置抓取列表页的时间间隔,单页采集可以忽略。
- 点击「下一步」。
-
配置采集列表(如果需要分页):
(图片来源网络,侵删)- 如果你的目标网站有“下一页”并且你希望批量采集多个页面,你需要在这里设置列表规则。
- 列表规则:使用“选择范围”工具,选中列表页中每个图集条目的容器(一个包含
<li>或<div>的区域)。 - 标题链接:在选中的容器内,指向详情页的链接(通常是
<a>标签)。 - 简介/缩略图:可选,根据需要设置。
- 如果只是单页采集,可以直接点击「下一步」跳过此步。
-
配置采集内容(最关键的一步):
- 系统会自动跳转到你设置的“起始URL”对应的详情页,现在你需要告诉DedeCMS如何抓取这个页面的内容。
- :
- 勾选“”。
- 使用“选择范围”工具,在页面上选中图集的标题文字。
- DedeCMS会自动填充规则,如
{dede:field.title/}。
- :
- 勾选“”。
- 使用“选择范围”工具,选中图集的说明文字部分,这部分文字将作为图集内容的正文。
- DedeCMS会填充规则,如
{dede:field.body/}。
- 图集图片:这是重中之重!
- 勾选“图集图片”。
- 使用“选择范围”工具,选中页面中所有图片的容器,一个包含所有
<img>标签的<div class="pins">。 - DedeCMS会抓取到这个容器内的所有图片,但为了更精确,可以进一步设置:
- 图片链接:通常选择“本图片地址”。
- 缩图地址:选择“本图片地址”。
- :(非常重要) 这是设置每张图片标题的关键,你需要告诉DedeCMS从哪里获取图片的标题。
- 方案A(使用图片Alt属性):如果目标网站的图片有
alt属性,并且alt属性就是图片的标题,那么选择“Alt属性”。 - 方案B(使用图片文件名):选择“图片文件名”,它会使用图片URL中最后一部分作为标题(
https://xxx.com/abc/风景.jpg就是“风景.jpg”)。 - 方案C(使用父级文本):如果图片标题在图片的某个父级
<p>或<span>标签里,可以选择“父级文本”,然后选中那个父级元素。 - 方案D(固定标题或留空):如果这些图片没有标题,或者你希望统一用“图集图片1”、“图集图片2”这样的标题,可以留空,然后在后面的“自动处理”中设置。
- 方案A(使用图片Alt属性):如果目标网站的图片有
- 点击“测试采集”,你应该能看到预览出的图片列表和标题,如果正确,说明规则配置成功。
-
设置自动处理:
- 在这一步,你可以对采集到的内容进行一些自动化处理。
- 内容过滤:可以设置过滤掉目标网站的一些特定代码或广告(如
<div class="ad">...</div>)。 - 图集图片标题格式:如果上一步你没有设置图片标题,或者想统一格式,可以在这里设置,输入
图集图片{@me},{@me}代表序号,最终会生成“图集图片1”、“图集图片2”。 - 下载远程图片:强烈建议勾选! 这样DedeCMS会把抓取到的图片下载到你自己的服务器上,避免因对方网站图片失效而导致你的图集显示不出来。
- 是否启用远程图片本地化:勾选此项。
- 目录保存路径:设置图片保存到你网站的哪个目录(如
/uploads/allimg/)。
-
选择保存栏目:
- 在最后一步,选择你之前创建好的“图集”栏目(美景图集”)。
- 点击「保存规则」。
第三步:执行采集
- 回到「一键采集」主界面,你会看到你刚刚创建的规则。
- 点击规则右侧的「开始采集」按钮。
- DedeCMS会自动打开浏览器,访问你配置的URL,并根据规则抓取内容。
- 采集完成后,你可以进入对应的图集栏目,查看已经发布好的图集内容。
常见问题与解决方案
-
Q: 采集不到图片,或者图片为空?
(图片来源网络,侵删)- A1: 检查“图集图片”规则中的“选择范围”是否选对了,确保它选中了包含所有图片的父级容器,而不是只选中了第一张图片。
- A2: 检查目标网站的图片地址是否是真实地址,有些网站会使用延迟加载技术,图片地址可能是空的或是一个占位图,这种情况下,需要更高级的规则配置,或者手动复制图片地址。
- A3: 检查“”的设置是否正确,如果设置错误,可能会导致图片无法被正确识别和抓取。
-
Q: 采集到的图集,点进去看大图时顺序乱了?
- A: 这通常是因为DedeCMS在解析HTML时,图片的顺序和你看到的不一致,这和网页本身的HTML结构有关,如果问题严重,可能需要手动微调“选择范围”的规则,或者对采集到的图片顺序进行手动排序。
-
Q: 图片无法下载到本地?
- A1: 确保在“自动处理”步骤中勾选了“下载远程图片”和“启用远程图片本地化”。
- A2: 检查你的服务器目录权限,确保
/uploads/目录有写入权限。 - A3: 目标网站可能做了防盗链,你的服务器无法直接下载,可以尝试在服务器配置中添加Referer头,但这比较复杂。
-
Q: 采集到的内容有乱码?
- A: 检查在第一步“填写网站信息”时,选择的“网站编码”是否与目标网站一致,如果不确定,可以尝试用浏览器打开目标网站,查看页面源代码中的
charset属性。
- A: 检查在第一步“填写网站信息”时,选择的“网站编码”是否与目标网站一致,如果不确定,可以尝试用浏览器打开目标网站,查看页面源代码中的
成功的关键在于耐心和细致地配置“”步骤,特别是图集图片和这两项,多使用“测试采集”功能来验证你的规则是否正确,只要规则设置得当,DedeCMS的采集功能非常强大,可以帮你高效地建立图集网站。
