
NLP
程勇uestc
电子科大
展开
-
使用互信息来衡量两个单词间的相关程度
\quad两个随机变量X,YX,YX,Y的互信息为I(X;Y)=∑x∈X,y∈Yp(x,y)logp(x,y)p(x)p(y)I(X;Y)=\sum_{x\in X, y\in Y}p(x,y)log\frac{p(x,y)}{p(x)p(y)}I(X;Y)=x∈X,y∈Y∑p(x,y)logp(x)p(y)p(x,y)。互信息可以衡量两个变量之间的相似程度。如果我们要衡量某个数据集中任意两个单词x,yx,yx,y的关联程度,可以这样计算I(x;y)=p(x,y)logp(x,y)p(x)p(y)I(x原创 2020-07-17 16:02:44 · 3039 阅读 · 2 评论 -
快速计算数组中前n个数的均值和方差
一、问题背景\quad给你一个数组x=[1,2,3,6]x=[1,2,3,6]x=[1,2,3,6],如何快速计算其前缀数组x[0⋯n]x[0\cdots n]x[0⋯n]的均值和方差,即需要返回均值数组m=[1,1.5,2,3]m=[1,1.5,2,3]m=[1,1.5,2,3],m[2]=2m[2]=2m[2]=2表示数组x[0⋯2]=[1,2,3]x[0 \cdots 2]=[1,2,3]x[0⋯2]=[1,2,3]的均值为2;同时返回方差数组S=[0,0.25,23,3.5]]S=[0, 0.25原创 2020-06-20 14:44:35 · 3960 阅读 · 3 评论 -
NIL入门(一):提取文章关键词和评价两段文本的相似度
NIL入门(一):提取文章关键词和评价两段文本的相似度1、数据准备# text.txt文件下的数据内容1.In her mind she followed the white BUICK along the road somewhere between here and the Niagara River.2.There were some sweet machines other th...原创 2018-09-30 17:33:13 · 2251 阅读 · 0 评论 -
社区发现算法之——Louvain
1、什么是社区如果一张图是对一片区域的描述的话,我们将这张图划分为很多个子图。当子图之内满足关联性尽可能大,而子图之间关联性尽可能低时,这样的子图我们可以称之为一个社区。2、社区发现算法及评价标准社区发现算法有很多,例如LPA,HANP,SLPA以及我们今天的主人公——Louvain。不同的算法划分社区的效果不尽相同。那么,如何评价这些算法孰优孰劣呢?用模块度modularity来衡量。模...原创 2018-10-25 09:13:39 · 25273 阅读 · 224 评论 -
keras快速搭建神经网络进行电影文本评论二分类
        在本次博客中,将讨论英语文本分类问题,可同样适用于文本情感分类,属性分类等文本二分类问题。1、数据准备      &原创 2018-11-06 20:52:36 · 3421 阅读 · 2 评论 -
RNN,LSTM用于情感分类问题
1、词袋定义和keras自带分词和编码工具词袋定义n-gram: 是从一个句子中提取的 N 个(或更少)连续单词的集合 “The cat sat on the mat.”分解为2-gram: {"The", "The cat", "cat", "cat sat", "sat", "sat on", "on", &quo原创 2018-11-21 20:54:50 · 3830 阅读 · 0 评论 -
判断一串字符是不是单词
对于判断一串字符是不是英语单词,比如cake是英语单词,ccck不是,这要怎么做呢?其实方法很多,可以去下个电子版英语词典,将其用python读入,做成一个键值对的大字典。当然,更方便地,nltk为我们提供了这样的接口,使得可以快速判断一串字符是不是单词。from nltk.corpus import wordnetword = 'case'if wordnet.synsets(word)...原创 2018-11-27 20:26:31 · 9119 阅读 · 6 评论 -
文本处理那些奇淫技巧——缩写词还原、单词去除重复字符和命名实体识别
1、缩写词还原在预处理文本的时候,我们经常会遇到,we’ll, don’t, i’m, i’ve, he’s之类的缩写词,对这类缩写词的还原目前大多数时候用自定义正则匹配即可。下面给出一些例子:replacement_patterns = [(r'won\'t', 'will not'),(r'can\'t', 'cannot'),(r'i\'m', 'i am'),(r'ain\'t...原创 2018-12-10 17:51:03 · 6402 阅读 · 0 评论 -
python推文解析器——实现推文分词、去停词、去网址、缩写词还原、词形还原、提取hashtag、usermentioned内容等
输入:推文文本text输出:由 url, words, hashtag, @ 组成的字典import reclass tweetParser(object): """ function:获取推特文本的网址,单词,hashtag,user_mentioned """ def __init__(self): self.stopWords = ...原创 2019-04-27 15:00:07 · 3966 阅读 · 2 评论