VIPS:基于视觉的Web页面切割算法

VIPS是一种由Microsoft Research Asia实习生开发的网页分割算法。该算法通过分析HTML源代码在浏览器中的显示属性来确定如何将页面分割成不同的区块。VIPS不仅能够识别页面的主要内容区域,还能进一步细化这些区域内的结构,有助于更好地理解和解析网页布局。

VIPS 是 Microsoft Research Asia 的几位实习学生提出的算法,可在 MSR 里面查看详细信息,另外还有中文简略介绍,还有一个 C# 写的简单实现

他们的思想是根据HTML源代码在浏览器中的显示属性来确定一个页面到底要需要分成哪些块。简单的说就是将页面切割成一块一块的,页面是一块,页脚是一块,中间是一块,然后中间又根据内容分成更细的块,整个过程是一个迭代的过程。最后对于太小的页面还需要合并,使之更加体现页面的主要内容,而不需要关注单个的文本。【引用自http://www.blog.edu.cn/user2/xylz/archives/2007/113.shtml

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值