智能抓取

组件介绍

在网页或者桌面程序中批量抓取相似元素的数据,包括列表、表格等,同时支持抓取多页数据。

截图

属性说明

必填项
属性名称 类型 默认值 说明
目标元素 元素 使用元素探测抓取到的信息,可能是表格,也可能是列表
通用选填项
属性名称 类型 默认值 说明
获取条数 数字 0 必须是整数,0 代表获取所有符合条件的元素数据,
如果目标是列表元素,会自动填写符合条件的元素数据数量
数据分页 下拉选项 单页 ● 单页:适用于所有页面;仅抓取当前页的数据
● 多页:适用于抓取多页并且需要点击翻页按钮的页面;点击翻页按钮并抓取多页数据
● 滚屏:适用于抓取向下滚动屏幕会连续加载数据的页面;向下滚动屏幕抓取数据直到页面最底部,可过滤重复数据
查找元素超时 数字 10 单位:秒,在查找元素时
如果超过了指定的时间,则认为目标元素不存在
单页选填项

多页选填项
属性名称 类型 默认值 说明
下一页 元素 需要指定下一页按钮的元素信息,点击右侧编辑按钮选择元素
点击方式 下拉选项 模拟鼠标 下一页选择元素后生效
● 自动化接口:使用系统自带的自动化点击接口,在某些位置可能不生效
● 模拟鼠标:模拟鼠标进行点击,当自动化接口不生效时可以尝试此方式,会移动鼠标位置
● 系统消息:使用系统发送消息到窗口的方式,多用于网页
获取页数 数字 0 需要获取数据的页数
0 默认为一直点击下一页元素直到最后一页
翻页间隔 数字 1 单位:秒
数据获取完成后,距离点击下一页按钮时等待的秒数
滚屏选填项
属性名称 类型 默认值 说明
滚屏间隔 数字 1 单位:秒,
滚动一屏幕之后等待数据加载的时间,为空则默认为 1 秒
数据去重 下拉选项 是否自动过滤整行完全相同的数据
● 是
● 否
返回值
名称 类型 说明
数据表 数据表 抓取到的相似元素数据

组件示例

  1. 智能抓取:点击选择元素或者目标元素右侧的编辑按钮,在一个需要向下滑动才加载数据的页面,按照引导鼠标移动到需要抓取数据后按下 Ctrl+鼠标左键选择元素,按照操作选择第二个同级元素(非表格数据需要选择两个同级元素,表格数据只需要选择一个元素);数据分页滚屏,数据去重是,其他选填项默认,返回值数据表数据表——如果想过滤抓取到的重复数据数据去重请选择是
  2. 打开 Excel文件 "./res/123.xlsx",其他选项默认
  3. 写入 Excel写入内容数据表,范围区域,其他选项默认——将抓取到的数据写入到 Excel 文件中
  4. 运行结果:向下滚屏抓取数据并将最终抓取到的数据写入到 Excel 文件中

名词解析

  • 智能抓取界面介绍

  • 获取数量:需要抓取数据的数量,0 表示抓取全部数据。

  • 数据表:抓取到数据的返回值变量,在对应组件右侧属性点击 fx 选择此变量后即可使用此数据。

  • 提取链接/删除此列:鼠标悬停列会显示编辑按钮,对于有链接的列会显示提取链接按钮(仅在表格模式下显示),点击后会在右侧增加一列显示链接;点击删除此列按钮可以删除当前列数据(如果此列数据不需要时)。

  • 添加一列:重新抓取一列数据显示在最右侧,仅在表格模式下生效;一般用于部分数据未抓取到,需要手动添加时使用。

  • 表格/列表模式:切换数据显示为表格/列表模式,默认为表格模式

  • 选择元素 选择表格元素时,只需要按下 Ctrl+鼠标左键选择表格中的任意一个元素即可抓取整个表格的数据。 选择非表格元素时,需要分别按下两次 Ctrl+鼠标左键选择两个相似元素,会抓取和这两个相似元素相同层级的所有元素。

注意事项

  • 数据必须获取层级接近或相同的元素,比如在一个页面上同一区域的标题、列表、按钮,但不能通过选择不同区域或层次的元素抓取。

  • 在网页上抓取数据目前支持谷歌、IE、Edge、360 及 Firefox(火狐) 浏览器,除 IE 浏览器外其他浏览器都需要安装插件,具体操作详见浏览器插件安装说明

Copyright 北京库木塔格科技有限公司 2024 all right reserved,powered by Gitbook该文章修订时间: 2024-03-29 19:05:19

results matching ""

    No results matching ""