63、博客文章:博客链接极性分类与生物医学文档程序知识提取研究

博客文章:博客链接极性分类与生物医学文档程序知识提取研究

在当今的网络世界中,博客作为一种重要的信息传播平台,其中的链接蕴含着丰富的信息。同时,生物医学文档中也存在着大量的程序知识等待被挖掘。本文将详细介绍博客链接极性分类的方法以及生物医学文档中程序知识提取的相关研究。

博客链接极性分类

博客作者在撰写博客时,常常会链接到其他博客,并且这种链接往往带有一定的情感倾向,我们将这种情感倾向称为链接极性。一般来说,链接极性可分为积极、消极和其他三类。但在我们收集的 840 个链接中,只有 5 个消极链接,积极链接占绝大多数,因此我们将链接极性分为积极和其他两类。

链接极性分类步骤
  1. 输入博客文章 :将需要分析的博客文章作为输入。
  2. 提取引用区域 :引用区域是指包含超链接以及提及该链接的周围句子。我们手动创建了基于提示短语的规则来自动提取引用区域,同时考虑 HTML 锚点类型,将其分为以下三类:
    • 锚点类型 1 :锚点是链接博客的 URL。
    • 锚点类型 2 :锚点包含链接博客的作者姓名。
    • 锚点类型 3 :除类型 1 和 2 之外的其他情况。

针对不同的锚点类型,我们分别制定了相应的规则:
- 规则 1(锚点类型 1)
- 提取包含链接的句子

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值