根据信息抓取技术实现方式分类
1、依据对象句柄元素抓取
句柄是指操作系统内存里指向某个结构体的指针,如在Windows中设立句柄是由于内存管理的需要,就像公安部门对社区人口的户籍管理一样,操作系统也需要知道每个应用程序的内存位置,因此Windows用句柄来记载数据地址的变更。句柄标识了应用程序中不同类型的对象实例,如窗口、按钮、图标、滚动条、输出设备、控件或者文件等。
2、依据网页标签实现抓取
大多数Web网页源代码都是通过HTML语言编写的,页面中的数据通过各种HTML标签所标识。RPA可以让用户更灵活更快捷、更精准地获取到所需要的网页内容,而不必采用爬虫技术中的深度或广度搜索,甚至避免了通过种子URL扩展到整个网站页面进行访问或下载。
3、利用图像对比技术实现抓取
利用图像抓取技术的主要原理就是预先保存好需要查询的某对象的图像,如一个按钮或下拉控件的图像,当机器人在桌面窗口查询这个对象时,根据预存的该对象的图像对整个窗口的图像做查询和比对。
4、借助OCR 识别技术实现抓取
OCR(光学字符识别)技术是首先扫描识别整个屏幕图像,获取所有的文字信息,然后在其中查询某个关键字,确定它的坐标位置后再做其他处理动作。OCR还可以用来识别某个页面对象中的文字信息,如利用标准