个人主页信息提取器

该博客介绍了一个用于从研究人员个人主页中自动提取并分类信息的工具,包括publication、education和honor等类别。利用fastText模型进行训练,Python爬虫获取HTML数据,通过WNBTE算法提取正文,然后进行短语级分类。项目包含多个模块,如fasttext训练、HTML元素提取和示例代码。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

本文共731个字,预计阅读时间需要3分钟。

简介

从研究人员的主页(HTML)中提取信息,并将信息自动分为三类(您可以添加更多的类)。支持中英文页面。

可以分成的类别:

  • publication
  • education
  • honor

详细

从互联网文本数据中提取并分类学术行为的流程如下图所示,整个过程是线性的。在正式提取学术行为之前,首先人工标注互联网中少量的学术行为,生成训练集后,采用fastText进行训练生成模型并保存。
在这里插入图片描述
接下来通过Python爬虫获取HTML元数据,将HTML数据传入网页正文提取算法WNBTE中获得正文文本,其中正文提取算法通过统计HTML不同标签中文本字数的比值来判断正文所在的位置,能够有效去除冗余无关的HTML标签。随后对正文文本段落进行短语级切分,分词后传入fastText神经网络,利用已经训练好的数据模型对短语进行分类,打上标签。

项目结构

  • ff_classifier: 使用fasttext自动训练和预测学术行为(训练时间小于1s)
  • text_toolkit.py: 提取具有一定模式的字符串,如邮箱,手机号,时间等
  • profile_class.py: 研究人员的类
  • html_extract.py: 提取HTML元素
  • demo.py: demo

结果预

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值