自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(4)
  • 收藏
  • 关注

原创 【news retrieval system:基于pysolr的新闻检索】

本文通过solr实现一般检索功能。(这里需要首先配置solr服务并开启)

2023-10-28 09:20:44 196 1

原创 【基于selenium和bs4的chinanews新闻爬取】

基于python写的简单的chinanews爬虫

2023-10-28 08:51:50 168 1

原创 Huffman编码

本文基于Huffman编码原理,实现对英文文本的简单编码解码。

2022-11-03 21:28:37 2931

原创 【无标题】

​功能数字钟数字电路实验

2022-06-25 17:44:19 796 1

【selenium用到的edge插件】

msedgedriver.exe

2023-10-28

命名实体识别-双向BiLSTM-CRF

命名实体识别(Named Entity Recognition,简称NER)是自然语言处理中的一个重要任务,其目标是从文本中识别出具有特定意义的命名实体,如人名、地名、组织机构名等。 双向BiLSTM-CRF是一种常用于命名实体识别的模型架构。它主要由以下几个部分组成: 双向LSTM(BiLSTM):双向LSTM是一种循环神经网络结构,有前向和后向两个方向的隐藏状态,并通过学习上下文信息来捕捉词语的语义特征。 CRF(Conditional Random Field):CRF是一种概率图模型,用于对序列标注问题进行建模。在命名实体识别任务中,CRF层可以根据上下文信息对标签序列进行全局优化,提高模型的准确性。 字符嵌入(Character Embedding):为了更好地捕捉词语的细粒度特征,通常会将字符级别的信息作为输入。字符嵌入可以通过学习字符级别的表示来增强模型的表达能力。 具体的模型流程如下: 将输入文本进行切词,得到词语序列。 对每个词语进行字符级别的表示,可以使用CNN、LSTM等结构进行字符嵌入。 将字符嵌入和词语嵌入拼接在一起作为输入,输入到双向LSTM中得

2023-10-16

HanLP相关setup文件

HanLP是一款自然语言处理工具包,由东南大学自然语言处理与社会人文计算实验室研发。它支持中文分词、词性标注、命名实体识别、依存句法分析、关键词提取、自动摘要、短语提取、拼音转换等多种任务。 HanLP的特点如下: ①速度快:HanLP采用高效的自动化内存管理策略,对Java内存进行精细控制,同时还使用了多线程技术和并行计算技术,使得其速度非常快。 ②功能全面:HanLP不仅支持中文分词、词性标注、命名实体识别等基础任务,还支持依存句法分析、关键词提取、自动摘要和短语提取等应用任务,而且还可以实现拼音转换和简繁转换等功能。 ③精度高:HanLP采用最新的技术和模型,经过大规模的训练和优化,可以达到非常高的精度。 ④易于使用:HanLP提供了简单易用的API,可以轻松地基于HanLP实现各种自然语言处理任务。

2023-10-16

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除