网页中的列表提取(基本思路)

网页中很多数据都以列表的形式呈现出来,这一点只要看看各大政府网站发布信息的方式就知道了。这就涉及到怎么自动化地获取到这些数据。下面的思路就是针对解决这个问题的。虽然只写了个思路,但通过这个思路是完全可以设计出来高效的算法的。

我们关注的数据基本是链接或者可点击的元素,姑且称作有效数据吧,这些数据往往是上下排列的。如果计算出这些有效数据的“在网页上的绝对路径”来,那么按照哪些有效元素有共同的父节点来进行分类。每个分类就对应出一块儿数据区域。剩下的问题就是怎么找出有用信息所在的那个区域。

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值