多语言展示
当前在线:1744今日阅读:103今日分享:49

简数采集平台抓取网页数据-教程

本文介绍如何使用简数采集平台抓取网页数据,内容偏向基础部分;简数采集平台是一个在线配置和云采集的网页数据采集和发布平台,无需安装客户端。
工具/原料

浏览器

方法/步骤
1

首先搜索简数数据采集平台,进入官网并注册账号;

2

完成注册后进入控制台页面,点击‘创建采集任务’--> 出现智能向导模式窗口--> 填写采集的任务名称和列表页网址;

3

下一步,可以查看简略的获取链接信息(系统智能选择采集的链接)。点击‘列表提取器’按钮,可进入列表规则设置页面(可视化操作的页面,不需要懂代码),在该页可以选择需要采集的链接,只需用鼠标左键点击想采集的区域(选择成功会以绿色方框表示),当选择两个链接时,系统会智能选择页面上相类似的链接;也可以使用Xpath语法来设置采集的链接,完成设置后记得点击保存;

4

下一步,可查看简略的详情页各字段获取内容(默认是第一个链接的详情页,各字段系统已智能选择采集内容)。点击‘详情提取器’按钮,可进入详情规则设置页面(可视化操作页面),在该页面可以进行以下操作:---修改各字段抓取的内容(也支持Xpath语法);---删除、添加、替换和过滤内容;---分页采集,图片下载,测试采集等;完成设置后,记得保存。

5

下一步,点击‘启动运行’开始采集,等待云采集完成,采集期间关掉页面也是无影响的;采集成功的数据会在‘结果数据&发布’栏目中显示,可以选择Excel导出或者发布到网站(目前支持wordpress、织梦DEDE和Zblog等);简数采集平台还支持多任务运行、定时采集、自动发布和SEO等高级功能。

推荐信息