首先该专利表述了这么以下几个基本含义
1)一个文档,特别是有一定篇幅的文档,在每个自然段中包含至少一个特定的含义,这个和人的写作习惯,说话方式有关,或者说是局部性原理,就是提出一个话题后,会紧接着论述这个话题,而不会左右环顾而言它.而某些html页面由于追加的广告,这种分段分析的方法可以有效地去除不相关的概念,避免干扰。
2)为了提取文档的含义,通常需要了解文档每个自然段的含义,通过每个自然段的含义,寻找最相关的一组,并形成一个概念,而这个概念就是整篇文档所要描述的意思。
首先在含义数据库上的描述是不彻底的,不全面的,称之为方法和系统我认为是有问题的.如何有效地归类和存储并不是专利的重点.如何更好的扩展系统也不全面,权力要求书中,仅仅提到了关键词,链接,广告,等几个有价值的待匹配项目.
一句话,这种将文档分段分析,以及用来提供广告,或者链接的展示的,这种内容和资源匹配,是该专利的主要重点.
英文专利连接
http://v3.espacenet.com/textdoc?DB=EPODOC&IDX=EP1649396&F=0
中文专利链接
本文介绍了一种文档分析技术,通过对文档进行分段并提取各段落的主题意义,来确定整个文档的核心内容。这种方法有助于精准定位文档的主旨,并能有效应用于去除无关内容如广告等,从而提高文档分析的准确性。
1072

被折叠的 条评论
为什么被折叠?



