博客文章:博客链接极性分类与生物医学文档程序知识提取研究
在当今的网络世界中,博客作为一种重要的信息传播平台,其中的链接蕴含着丰富的信息。同时,生物医学文档中也存在着大量的程序知识等待被挖掘。本文将详细介绍博客链接极性分类的方法以及生物医学文档中程序知识提取的相关研究。
博客链接极性分类
博客作者在撰写博客时,常常会链接到其他博客,并且这种链接往往带有一定的情感倾向,我们将这种情感倾向称为链接极性。一般来说,链接极性可分为积极、消极和其他三类。但在我们收集的 840 个链接中,只有 5 个消极链接,积极链接占绝大多数,因此我们将链接极性分为积极和其他两类。
链接极性分类步骤
- 输入博客文章 :将需要分析的博客文章作为输入。
- 提取引用区域 :引用区域是指包含超链接以及提及该链接的周围句子。我们手动创建了基于提示短语的规则来自动提取引用区域,同时考虑 HTML 锚点类型,将其分为以下三类:
- 锚点类型 1 :锚点是链接博客的 URL。
- 锚点类型 2 :锚点包含链接博客的作者姓名。
- 锚点类型 3 :除类型 1 和 2 之外的其他情况。
针对不同的锚点类型,我们分别制定了相应的规则:
- 规则 1(锚点类型 1) :
- 提取包含链接的句子
超级会员免费看
订阅专栏 解锁全文
1069

被折叠的 条评论
为什么被折叠?



