能提取HTML网页正文的网站,智能提取网页正文新方法

一、基于中文标点符号和HTML 树

结构的网页正文信息抽取方法H TML

( hyper text markup language) 是超文本标记语言, 是基于标准通用标记语言(SGML) 的一个庞大的文档处理系统. SGML 的基本思想是采用描述标记( Tag) 来提供描述文档结构的附加信息. HTML 利用SGML 定义了一些标记,如、

等,用于描述文本的显示方式,并对这些标记的使用都做了格式定义,对于实体符号的显示和标记元素的结构也做了规范,使得HTML 网页在文本格式和结构上存在一定的规律,也为网页信息的提取提供了方便.

1. 1  中文标点符号在网页中的分布特征

网页可以分成两类:一类是导航型网页,该网页主要是超链接导航信息,如各种门户网站;另一类是正文型网页,是指包含有主题内容的网页. 本文只对正文型网页进行处理,因为导航型网页含有大量的超链接,很容易被处理和识别. 本文将正文网页划分为5 个部分:网页导航信息、网页正文、内容相关链接、内容不相关链接以及版权信息. 选取10 个不同的门户网站,如新浪、网易、搜狐等,每个网站随机选取10 个正文型网页,以统计中文标点符号在网页正文中出现的次数N1 和在网页页面中出现的次数N2 .由表1 可见,约有96 %的中文句号出现在网页正文中,是所有中文标点符号中分布最高的. 究其原因,主要在于网页正文部分大多由一个个句子组成,所以句号出现比较多;导航信息大多是两字短语;链接部分一般都取自所链接文章的标题,标题中一般不会出现句号;版权部分也基本都没有成行的句子,所以句号较少.

t1.png

由此可见,使用中文标点符号,尤其是句号,可以作为网页正文区别于其他部分的特征.

1. 2  网页内容结构化表示

HTML 文件是自描述的半结构化数据,数据的结构和内容混在一起,没有明显的区分;它们具有一定的结构性,但这些结构化的信息并没有提供足够的语义信息. 由于半结构化的数据很难被应用程序直接使用,为了从HTML 文件中提取信息,必须先将其结构化.一般情况下, HTML 元素相互嵌套,因此最适合用树型结构存放. 但由于HTML 元素并不完全递归嵌套,允许有交叉的情况,而且有些元素可以没有结束标记,在将H TML 文件组织成树型结构之前,需要先规整化,使其元素完全递归嵌套 . 规范化的要求如下:

(1)“”只能用来包含网页标记,当在其他地方出现这两个符号时应该用“ &lt ;”和“&gt ;”代替.

(2) 所有的标记必须匹配,即每个开始标记都对应一个结束标记.

(3) 所有标记的属性值都必须放在引号中,如

(4) 所有的标记必须是正确嵌套的. 如 A> B>是不正确的嵌套,正确的嵌套形式应该是

(5) 由于文字内容有可能被修饰标记如等标记隔断,为保持数据内容与修饰标记的顺序性,需要增加自定义标记〈text〉来嵌套文字内容.

在规范化之前,可以先删除

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值