自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(10)
  • 收藏
  • 关注

原创 【论文】A personalized recommendation algorithm based on large-scale real micro-blog data

文章介绍本文是发布在C类期刊的论文,是社区发现和推荐算法的交叉结合。在介绍本文之前先要对推荐系统做简要了解,参考大佬写的总结推荐系统从入门到接着入门。推荐系统的分类:其中协同过滤的方法比较多,也比较常见。协同过滤的假设是:为特定用户找到他真正感兴趣的内容的好方法是首先找到与此用户有相似兴趣的其他用户,然后将他们感兴趣的内容推荐给此用户。此处可与社区发现结合,找出社交网络中兴趣相似的用户组成的社区,为社区内的用户推送他们该兴趣的内容。文章内容1.用户模型构建使用四个方面构建用户模型,分别是用户

2021-05-07 15:35:00 350

原创 【笔记】社区发现(Community Detection)的实际应用和真实数据

做科学研究应该有实际的应用场景或者是研究意义,这样做的这个研究才合理。而不是为了研究而研究。最近呢,看了一些社区发现的论文,了解了社区发现做了哪些事,有着哪些方法。但是最近一个根本性的问题让我陷入了沉思。那就是社区发现的实际应用场景和真实数据集的情况。看了很多如何进行社区发现的算法,却不知道发现这些社区是用来干嘛的,我能将其应用到真实的数据上嘛?如何应用呢?真实数据如何采集呢?我带着这一系列的困惑去寻找答案,查看一些资料和数据集去探究社区发现的意义。然后在此写下一些我的粗略的看法,如果存在一些不恰当或

2021-05-07 11:10:39 4113

原创 【论文】(COPRA)Finding overlapping communities in networks by label propagation

文章介绍本文是基于之前的标签传播算法RAK,提出了新的算法COPRA实现了重叠社区的检测,可处理带权的双向图。算法介绍RAK算法给每个节点初始化一个独一无二的标签,一般是自身的ID。重复迭代步骤,选择数量最多的邻居节点标签替代自身标签,如果存在多个相同最大数量的邻居节点标签就随机选择一个,节点更新的顺序也是随机的。更新方式为异步更新。达到终止条件时停止迭代,一般是标签数量不变或到达一定的迭代次数。将相同标签的节点归为一个社区。这样得到的社区有可能是分来的,将其划分为一个或多个相互连接的社区。

2021-05-06 15:39:51 995 1

原创 马尔科夫链蒙特卡罗(Markov Chain Monte Carlo,MCMC)

大牛写的博客:刘建平博客知乎的MCMC:MCMC

2021-05-04 08:57:40 182

原创 【论文】Dynamic graph-based label propagation for density peaks clustering

文章介绍本文对密度聚类进行了改进,使用K近邻法改善了聚类中心点的确定,并使用动态标签传播算法进行节点聚类。文章内容聚类算法应用场景:1)图像处理2)网络安全3)生物信息4)蛋白质分析5)社交网络等常见聚类算法:1)K-means优点:模型简单,理解容易缺点:一般用来识别球形数据,对离群点和噪声识别不敏感,且需要定义类别数目2)DBSCAN优点:可以识别任意形状的数据,可以有效的处理离群点和噪声,且无需预定义聚类数目。缺点:不能处理密度不均匀的数据集,时间复杂度为二次方,

2021-05-03 21:45:26 485

原创 【论文】Clustering by fast search and find of density peaks

文章介绍本文所提的方法是用来发现聚类中心点的,提供一种全新的思路,算法思想也很简单文章内容提出了两个假设:1)聚类中心的密度要比它的邻居节点高2)聚类中心点到另一个比它密度更高点的距离相对较大定义了三个变量:1)局部密度p2)当前点到密度更高点的距离sigma3)截断距离d三个变量的计算方法:1)局部密度等于截断距离范围内点的数量。2)sigma为当前点到密度更高点的距离,如果是密度最高的点,就是该点到最远点的距离。3)阶段距离的选取应使得包含的邻居节点数目在1%——2%计算出局

2021-05-03 15:56:25 176

原创 【论文】Near linear time algorithm to detect community structures in large-scale networks

文章介绍本文讲的是社区发现算法中的标签传播算法,是标签传播算法经典的论文。内容介绍社区的定义:一群节点,其内部节点之间比较相似,与外部节点之间不相似,我们认为是社区。通常社区被认为是内部节点间连接紧密,与外部节点间外部连接稀疏。值得一提的是,社区的定义并没有一个广为人知的定义,很多的学者尝试着去定义和识别社区。社区发现的应用有很多,这里不一一列举。社区发现算法也有很多,此处挖个坑,有机会做个总结。文中提到的社区发现算法:删边法根据边的中心性(最短路径经过的次数)对边进行删除,进而划分出社

2021-05-03 15:21:09 844 1

原创 [Glove]--could not convert string to float: ‘.‘

最近在使用Glove向量时,需要到一个错误,没办法将str转化为float。ValueError: could not convert string to float: ‘.’解决方法:原代码为:# load the GloVe vectors in a dictionary:embeddings_index = {}f = open('../input/glove840b300dtxt/glove.840B.300d.txt') for line in f: values = lin

2021-03-24 22:40:55 631

原创 【NLP】文本分类综述

文本分类综述文本分类的应用场景sentiment analysis (SA)topic labeling (TL)news classification(NC)question answering (QA)dialog act classification (DAC)natural language inference (NLI)event prediction (EP)文本分类模型Shallow Learning Models数据预处理:word segmentationd

2021-03-22 21:38:07 373

原创 NLP数据清洗

NLP数据清洗Removing URLdef remove_URL(text):## url = re.compile(r'https?://\S+|www\.\S+') return url.sub(r'',text) example="New competition launched :https://www.kaggle.com/c/nlp-getting-started"remove_URL(example)# Ouput: 'New competition l

2021-03-19 19:03:52 524

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除