智能抓取
组件介绍
在网页或者桌面程序中批量抓取相似元素的数据,包括列表、表格等,同时支持抓取多页数据。
截图
属性说明
必填项
属性名称 | 类型 | 默认值 | 说明 |
---|---|---|---|
目标元素 | 元素 | 空 | 使用元素探测抓取到的信息,可能是表格,也可能是列表 |
通用选填项
属性名称 | 类型 | 默认值 | 说明 |
---|---|---|---|
获取条数 | 数字 | 0 | 必须是整数,0 代表获取所有符合条件的元素数据, 如果目标是列表元素,会自动填写符合条件的元素数据数量 |
数据分页 | 下拉选项 | 单页 | ● 单页:适用于所有页面;仅抓取当前页的数据 ● 多页:适用于抓取多页并且需要点击翻页按钮的页面;点击翻页按钮并抓取多页数据 ● 滚屏:适用于抓取向下滚动屏幕会连续加载数据的页面;向下滚动屏幕抓取数据直到页面最底部,可过滤重复数据 |
查找元素超时 | 数字 | 10 | 单位:秒,在查找元素时 如果超过了指定的时间,则认为目标元素不存在 |
单页选填项
无
多页选填项
属性名称 | 类型 | 默认值 | 说明 |
---|---|---|---|
下一页 | 元素 | 空 | 需要指定下一页按钮的元素信息,点击右侧编辑按钮选择元素 |
点击方式 | 下拉选项 | 模拟鼠标 | 下一页选择元素后生效 ● 自动化接口:使用系统自带的自动化点击接口,在某些位置可能不生效 ● 模拟鼠标:模拟鼠标进行点击,当自动化接口不生效时可以尝试此方式,会移动鼠标位置 ● 系统消息:使用系统发送消息到窗口的方式,多用于网页 |
获取页数 | 数字 | 0 | 需要获取数据的页数 0 默认为一直点击下一页元素直到最后一页 |
翻页间隔 | 数字 | 1 | 单位:秒 数据获取完成后,距离点击下一页按钮时等待的秒数 |
滚屏选填项
属性名称 | 类型 | 默认值 | 说明 |
---|---|---|---|
滚屏间隔 | 数字 | 1 | 单位:秒, 滚动一屏幕之后等待数据加载的时间,为空则默认为 1 秒 |
数据去重 | 下拉选项 | 否 | 是否自动过滤整行完全相同的数据 ● 是 ● 否 |
返回值
名称 | 类型 | 说明 |
---|---|---|
数据表 | 数据表 | 抓取到的相似元素数据 |
组件示例
- 智能抓取:点击选择元素或者目标元素右侧的编辑按钮,在一个需要向下滑动才加载数据的页面,按照引导鼠标移动到需要抓取数据后按下 Ctrl+鼠标左键选择元素,按照操作选择第二个同级元素(非表格数据需要选择两个同级元素,表格数据只需要选择一个元素);数据分页滚屏,数据去重是,其他选填项默认,返回值数据表数据表——如果想过滤抓取到的重复数据数据去重请选择是
- 打开 Excel:文件 "./res/123.xlsx",其他选项默认
- 写入 Excel:写入内容数据表,范围区域,其他选项默认——将抓取到的数据写入到 Excel 文件中
- 运行结果:向下滚屏抓取数据并将最终抓取到的数据写入到 Excel 文件中
名词解析
- 智能抓取界面介绍
① 获取数量:需要抓取数据的数量,0 表示抓取全部数据。
② 数据表:抓取到数据的返回值变量,在对应组件右侧属性点击 fx 选择此变量后即可使用此数据。
③ 提取链接/删除此列:鼠标悬停列会显示编辑按钮,对于有链接的列会显示提取链接按钮(仅在表格模式下显示),点击后会在右侧增加一列显示链接;点击删除此列按钮可以删除当前列数据(如果此列数据不需要时)。
④添加一列:重新抓取一列数据显示在最右侧,仅在表格模式下生效;一般用于部分数据未抓取到,需要手动添加时使用。
⑤ 表格/列表模式:切换数据显示为表格/列表模式,默认为表格模式
- 选择元素 选择表格元素时,只需要按下 Ctrl+鼠标左键选择表格中的任意一个元素即可抓取整个表格的数据。 选择非表格元素时,需要分别按下两次 Ctrl+鼠标左键选择两个相似元素,会抓取和这两个相似元素相同层级的所有元素。
注意事项
数据必须获取层级接近或相同的元素,比如在一个页面上同一区域的标题、列表、按钮,但不能通过选择不同区域或层次的元素抓取。
在网页上抓取数据目前支持谷歌、IE、Edge、360 及 Firefox(火狐) 浏览器,除 IE 浏览器外其他浏览器都需要安装插件,具体操作详见浏览器插件安装说明。