
自然语言处理
文章平均质量分 83
nlp相关的知识总结、实验记录和论文笔记等。
路过的风666
https://github.com/ThePassedWind
展开
-
文本相似度指标-基于词汇的相似度量
文章目录Jaccard相似度余弦相似度Dice系数匹配系数Jaccard相似度J(A,B)J(A,B)J(A,B)表示有限样本集之间的相似程度:J(A,B)=∣A∩B∣∣A∪B∣=∣A∩B∣∣A∣+∣B∣−∣A∩B∣J(A,B)=\frac{|A∩B|}{|A∪B|}=\frac{|A∩B|}{|A|+|B|-|A∩B|}J(A,B)=∣A∪B∣∣A∩B∣=∣A∣+∣B∣−∣A∩B∣∣A∩B∣Jaccard相似度:dj(A,B)=1−J(A,B)=∣A∪B∣−∣A∩B∣∣A∪B∣=AΔB∣A∪原创 2022-04-12 17:26:46 · 908 阅读 · 0 评论 -
词嵌入向量生成
词嵌入向量生成写出每个单词的one-hot encodingimport numpy as npX = np.eye(5)words = ['quick','fox','dog','lazy','brown']for i in range(5): print(words[i],"的one-hot编码:",X[i])quick 的one-hot编码: [1. 0. 0. 0. 0.]fox 的one-hot编码: [0. 1. 0. 0. 0.]dog 的one-hot编码: [原创 2022-04-11 00:08:55 · 1653 阅读 · 0 评论 -
GSDMM短文本聚类
文章目录优点例子代码测试结果[1] Yin J, Wang J. A dirichlet multinomial mixture model-based approach for short text clustering[C]//Proceedings of the 20th ACM SIGKDD international conference on Knowledge discovery and data mining. 2014: 233-242.与LDA不同,GSDMM针对较小文档,假设每原创 2022-04-09 17:03:52 · 2085 阅读 · 2 评论 -
RNN与LSTM简单案例实现
前言:针对视频、语音、文本等时序数据,很多时候比较适合利用一些时间序列网络模型RNN和LSTM等。类比于人类在看视频、听语音、读文章时,我们往往都是针对一序列的数据来思考,也就是说,当我们看到下一帧/一段数据时,之前看过的数据还保留在脑海中,对后面的数据分析是存在影响和指导意义的。那么,我们就需要设计相类似的神经网络(RNN/LSTM等)去对这类时序数据进行更好的分析,而非看到后面忘了前面,在得到这些数据更具表示性的特征之后,我们就能完成进一步的下游任务,例如视频/文本的情感分类等各种分类聚类任务了。.原创 2022-04-01 22:18:24 · 1530 阅读 · 0 评论 -
基于Laplacian图谱的短文本聚类算法
论文笔记:[1]孟海宁,冯锴,朱磊,张贝贝,童新宇,黑新宏.基于Laplacian图谱的短文本聚类算法[J].电子学报,2021,49(09):1716-1723.论文笔记内容包括:应用场景、优势亮点、方法步骤应用场景短文本是生活中极其常见的内容形式,手机短信、用户评论及微博话题等都属于短文本,对短文本进行聚类分析具有重要的应用价值,如对用户评论进行观点挖掘、对社交媒体进行话题检测以及舆情预警等。由于短文本数据的特点,会导致传统的聚类算法对短文本聚类精度不高且收敛速度较慢,特点如下:特征维.原创 2022-02-12 16:38:43 · 597 阅读 · 1 评论 -
知识图谱关键技术总览
知识图谱关键技术[1] 马忠贵,倪润宇,余开航.知识图谱的最新进展、关键技术和挑战[J].工程科学学报,2020,42(10):1254-1266.DOI:10.13374/j.issn2095-9389.2020.02.28.001.文章目录知识图谱关键技术知识抽取与表示知识融合知识推理与质量评估质量评估知识图谱应用知识图谱的挑战与展望知识融合技术知识推理技术知识的表示、存储和查询知识图谱全生命周期主要包括3种关键技术:从样本源中获取数据,并将其表示为结构化知识的知识抽取与表示技术融合异源原创 2022-02-07 20:36:35 · 3596 阅读 · 0 评论 -
FastText的短文本分类
论文笔记:[1]王光慈,汪洋.基于FastText的短文本分类[J].电子设计工程,2020,28(03):98-101.DOI:10.14022/j.issn1674-6236.2020.03.022.[2]梁增宇. 基于改进FastText的中文文本分类研究[D].大连理工大学, 2021.DOI:10.26991/d.cnki.gdllu.2021.003183.文章目录传统文本分类方法文本预处理文本表示和特征提取文本表示特征提取分类器选择FastText原理模型架构层次softmaxN-g.原创 2022-02-12 21:49:15 · 915 阅读 · 0 评论 -
实体消歧综述整理
阅读文献:[1] 段宗涛,李菲,陈柘.实体消歧综述[J].控制与决策,2021,36(05):1025-1039.DOI:10.13195/j.kzyjc.2020.0388.文章目录分类按实体任务领域划分按有无目标知识库划分按链接知识库类型划分词义消岐命名实体识别方法基于无监督聚类的消岐系统(1) 基于词袋模型的聚类方法(2) 基于语义特征的聚类方法(3) 基于社会化网络的聚类方法(4) 基于百科知识的聚类方法(5) 基于多源异构语义知识融合的聚类方法基于实体链接的实体消歧其他实体消岐应用测评总结与.原创 2022-01-29 21:48:08 · 4242 阅读 · 0 评论 -
面向多个知识图谱的实体对齐
论文笔记:[1]徐有为,张宏军,程恺,廖湘琳,张紫萱,李雷.知识图谱嵌入研究综述[J/OL].计算机工程与应用:1-25[2022-02-20].http://kns.cnki.net/kcms/detail/11.2127.TP.20220128.1648.002.html.文章目录实体对齐概述概念目标框架步骤实体对齐模型基于三元组的模型方法基于路径的模型基于图的模型实体对齐概述概念与实体消岐相反,实体对齐是针对“同义异名”的实体,即判断两个实体是否指向真实世界中的同一对象的过程。数据库领域.原创 2022-02-21 10:30:53 · 2332 阅读 · 1 评论