- 博客(4)
- 收藏
- 关注
原创 【news retrieval system:基于pysolr的新闻检索】
本文通过solr实现一般检索功能。(这里需要首先配置solr服务并开启)
2023-10-28 09:20:44
196
1
命名实体识别-双向BiLSTM-CRF
命名实体识别(Named Entity Recognition,简称NER)是自然语言处理中的一个重要任务,其目标是从文本中识别出具有特定意义的命名实体,如人名、地名、组织机构名等。
双向BiLSTM-CRF是一种常用于命名实体识别的模型架构。它主要由以下几个部分组成:
双向LSTM(BiLSTM):双向LSTM是一种循环神经网络结构,有前向和后向两个方向的隐藏状态,并通过学习上下文信息来捕捉词语的语义特征。
CRF(Conditional Random Field):CRF是一种概率图模型,用于对序列标注问题进行建模。在命名实体识别任务中,CRF层可以根据上下文信息对标签序列进行全局优化,提高模型的准确性。
字符嵌入(Character Embedding):为了更好地捕捉词语的细粒度特征,通常会将字符级别的信息作为输入。字符嵌入可以通过学习字符级别的表示来增强模型的表达能力。
具体的模型流程如下:
将输入文本进行切词,得到词语序列。
对每个词语进行字符级别的表示,可以使用CNN、LSTM等结构进行字符嵌入。
将字符嵌入和词语嵌入拼接在一起作为输入,输入到双向LSTM中得
2023-10-16
HanLP相关setup文件
HanLP是一款自然语言处理工具包,由东南大学自然语言处理与社会人文计算实验室研发。它支持中文分词、词性标注、命名实体识别、依存句法分析、关键词提取、自动摘要、短语提取、拼音转换等多种任务。
HanLP的特点如下:
①速度快:HanLP采用高效的自动化内存管理策略,对Java内存进行精细控制,同时还使用了多线程技术和并行计算技术,使得其速度非常快。
②功能全面:HanLP不仅支持中文分词、词性标注、命名实体识别等基础任务,还支持依存句法分析、关键词提取、自动摘要和短语提取等应用任务,而且还可以实现拼音转换和简繁转换等功能。
③精度高:HanLP采用最新的技术和模型,经过大规模的训练和优化,可以达到非常高的精度。
④易于使用:HanLP提供了简单易用的API,可以轻松地基于HanLP实现各种自然语言处理任务。
2023-10-16
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅