多语言展示
当前在线:1534今日阅读:155今日分享:35

火车头采集器如何过滤内容中的垃圾信息

在使用火车头采集器的时候,为了避免采集到一些广告和同类网站的链接地址需要在设置采集规则的时候过滤掉一些不必要的标签,下面小编来告诉大家如何过滤采集内容中的广告标签和垃圾链接
工具/原料

火车头采集器

方法/步骤
1

点击进入采集内容规则区域的内容标签页面,在第二部分数据处理的地方点击添加,选择HTML标签过滤

2

标签过滤一般需要过滤掉链接,脚本,以及首尾空白,勾选之后需要点击确定按钮才生效

3

标签过滤之后需要过滤一些其他文字垃圾,同样点击添加按钮,选择内容替换

4

在右侧框内输入不需要的信息,右侧框若不输入文字,则默认为将左侧框内的内容全部删除,若右侧框有文字则默认替换为该部分内容,类似word中的替换功能

5

最后一部分的过滤就是内容过滤了,点击内容过滤显示右侧条件,可以根据自己的需要来勾选或添加相关条件。这样就可以过滤掉自己不需要的信息

注意事项
1

替换的时候不一定都是文字,也可以统一替换代码

2

替换的时候可以将内容统一替换成自己网站的名称或相关内容

推荐信息