首页 > CMS建站 > 织梦DEDE > 正文

DeDeCMS织梦后台自带采集器采集教程案例讲解

2020-07-02 22:16:06
字体:
来源:转载
供稿:网友
这篇文章主要为大家详细介绍了DeDeCMS织梦后台自带采集器采集教程案例讲解,具有一定的参考价值,感兴趣的小伙伴们可以参考一下,有需要的朋友可以收藏方便以后借鉴。

   很多小朋友咨询织梦361模板网小编:怎么使用织梦后台自带的采集啊?前一段时间比较忙,没来得及给大家分享,今天抽点空给大家写个简单易懂的图片教程分享给大家。

第一步、我们打开织梦后台点击采集——采集节点管理——增加新节点

织梦后台采集增加新节点1

织梦后台采集增加新节点2

如上图所示,直接按图操作。

第二步、新增节点-配置网址索引

填写要采集的网站的列表相关规则,

查看采集站点的编码和网站源码

我们右键单击,点击查看源码,在源码的开头位置,找到一个写有charset=某一编码的meta标签,比如charset="gb2312",这个就是所说的网站编码了,如下图所示:

查看采集站点的编码等信息1

查看采集站点的编码等信息2

然后选择采集站点的编码

选择采集编码

第三步、新增节点-配置文章网址匹配规则

我们查看采集站点的列表页源码,找到文章列表开始html和结束html标签,分别把它们复制到增加采集节点->文章网址匹配规则的"区域开始的HTML"和“区域结束的HTML”输入框中。你不一定选择右键查看源码来找到文章列表开始标签,你可以在文章开始的地方右键单击,审查元素(chrome浏览器,firefox是查看元素),这样就更方便的找到文章列表开始和结束的标签了。

设置之后我们点击"保存信息并进入下一步设置"

DeDeCMS织梦后台自带采集器采集教程案例讲解

DeDeCMS织梦后台自带采集器采集教程案例讲解2

第四步:网址获取规则测试

如果在测试结果发现有无关的网址信息,说明的第五步中的网址过滤规则有误或者没有填写过滤规则。如果发现采集有误,你可以返回上一次修改,没有就点击“保存信息并进入下一步设置”。

织梦后台采集测试效果

第五步:内容字段获取规则

我们查看采集站点的文章源码,找到相关选项的开始和结束html标签,填写入指定位置,开始和结束标签以"[内容]"分格。

设置完毕,我们点击"保存配置并预览"

DeDeCMS织梦后台自带采集器采集教程案例讲解2

DeDeCMS织梦后台自带采集器采集教程案例讲解3

第六步:过滤规则

在第七步中的匹配规则后面,都 有一个过滤规则,这个过滤规则是用来过滤无需采集的内容。

比如,网易每篇文章都有一个放置广告的iframe标签,我们要采集网易的文章,不可能采集回来之后,一篇一篇得去删除这个广告。但是如何去除呢?去除方法就是那个过滤规则,我们点击常用规则,就会弹出一个小窗口,列出了常用的过滤规则,我们只需点击要们要过滤的规则即可,要过滤网易文章中的iframe标签,我们就点击iframe即可。

DeDeCMS织梦后台自带采集器采集教程案例讲解4

测试内容字段设置

因为网易有的文章开头是<div id="endText">,有的文章开头是<div id="endText" class="end-text">,所以会出现采集出错的情况。

如果你现在就要采集,你可以点击保存并采集。这里我选择仅保存

DeDeCMS织梦后台自带采集器采集教程案例讲解6

DeDeCMS织梦后台自带采集器采集教程案例讲解7

采集内容(一)

回到采集节点管理的界面,也就是第一步中的界面,我们选择节点,点击采集

DeDeCMS织梦后台自带采集器采集教程案例讲解8

采集内容(二)

DeDeCMS织梦后台自带采集器采集教程案例讲解9

查看已下载

可以在采集界面(即第十步中的界面)的右上角,点击“查看已下载”。也可以在“采集节点管理”的界面里点击“查看已下载”。这里以第二个方法为例。

DeDeCMS织梦后台自带采集器采集教程案例讲解10

DeDeCMS织梦后台自带采集器采集教程案例讲解11

导出内容

选择要导入到的栏目,数据量,是否生成html文件 ,随机推荐数量

DeDeCMS织梦后台自带采集器采集教程案例讲解12

DeDeCMS织梦后台自带采集器采集教程案例讲解13

最终结果

DeDeCMS织梦后台自带采集器采集教程案例讲解14

以上就是DeDeCMS织梦后台自带采集器采集教程案例讲解的全部内容,希望对大家的学习和解决疑问有所帮助,也希望大家多多支持错新网。
发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表