幽兰空谷的旅程-优快云博客

原创【news retrieval system：基于pysolr的新闻检索】

本文通过solr实现一般检索功能。（这里需要首先配置solr服务并开启）

2023-10-28 09:20:44 196 1

原创【基于selenium和bs4的chinanews新闻爬取】

基于python写的简单的chinanews爬虫

2023-10-28 08:51:50 168 1

原创 Huffman编码

本文基于Huffman编码原理，实现对英文文本的简单编码解码。

2022-11-03 21:28:37 2931

命名实体识别（Named Entity Recognition，简称NER）是自然语言处理中的一个重要任务，其目标是从文本中识别出具有特定意义的命名实体，如人名、地名、组织机构名等。双向BiLSTM-CRF是一种常用于命名实体识别的模型架构。它主要由以下几个部分组成：双向LSTM（BiLSTM）：双向LSTM是一种循环神经网络结构，有前向和后向两个方向的隐藏状态，并通过学习上下文信息来捕捉词语的语义特征。 CRF（Conditional Random Field）：CRF是一种概率图模型，用于对序列标注问题进行建模。在命名实体识别任务中，CRF层可以根据上下文信息对标签序列进行全局优化，提高模型的准确性。字符嵌入（Character Embedding）：为了更好地捕捉词语的细粒度特征，通常会将字符级别的信息作为输入。字符嵌入可以通过学习字符级别的表示来增强模型的表达能力。具体的模型流程如下：将输入文本进行切词，得到词语序列。对每个词语进行字符级别的表示，可以使用CNN、LSTM等结构进行字符嵌入。将字符嵌入和词语嵌入拼接在一起作为输入，输入到双向LSTM中得

2023-10-16

HanLP相关setup文件

HanLP是一款自然语言处理工具包，由东南大学自然语言处理与社会人文计算实验室研发。它支持中文分词、词性标注、命名实体识别、依存句法分析、关键词提取、自动摘要、短语提取、拼音转换等多种任务。 HanLP的特点如下： ①速度快：HanLP采用高效的自动化内存管理策略，对Java内存进行精细控制，同时还使用了多线程技术和并行计算技术，使得其速度非常快。 ②功能全面：HanLP不仅支持中文分词、词性标注、命名实体识别等基础任务，还支持依存句法分析、关键词提取、自动摘要和短语提取等应用任务，而且还可以实现拼音转换和简繁转换等功能。 ③精度高：HanLP采用最新的技术和模型，经过大规模的训练和优化，可以达到非常高的精度。 ④易于使用：HanLP提供了简单易用的API，可以轻松地基于HanLP实现各种自然语言处理任务。

2023-10-16

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

weixin_54856627的博客

原创【news retrieval system：基于pysolr的新闻检索】

原创【基于selenium和bs4的chinanews新闻爬取】

原创 Huffman编码

原创【无标题】

【selenium用到的edge插件】

命名实体识别-双向BiLSTM-CRF

HanLP相关setup文件

空空如也

原创 【news retrieval system：基于pysolr的新闻检索】

原创 【基于selenium和bs4的chinanews新闻爬取】

原创 Huffman编码

原创 【无标题】

【selenium用到的edge插件】

命名实体识别-双向BiLSTM-CRF

HanLP相关setup文件

空空如也

原创【news retrieval system：基于pysolr的新闻检索】

原创【基于selenium和bs4的chinanews新闻爬取】

原创【无标题】