
数据处理
文章平均质量分 56
如锡如璧
这个作者很懒,什么都没留下…
展开
-
python进行时间数据处理
用页面解析的方式从twitter爬下来的帖子时间有时候是中文的,如下: 由于时间处理的细节很多,所以在这里做一个小结,首先要明白处理的目标数据应该是24小时制,并且形式如下format = "%Y-%m-%d %H:%M:%S"也就是要将字符串转换为datetime.datetime类型 代码如下:from datetime import datetimeformat =...原创 2018-05-06 19:38:34 · 3967 阅读 · 0 评论 -
计算perplexity确定LDA到底聚出多少个主题合适
-perplexity介绍-LDA确定主题的数目perplexity在对文本的主题特征进行研究时,我们往往要指定LDA生成的主题的数目,而一般的解决方法是使用perplexity来计算,原理如下(概率分布perplexity):其中,M是测试语料库的大小,Nd是第d篇文本大小(即单词个数) 其中z是主题,w是文档,gamma是训练集学出来的文本-主题分布 所以p...原创 2018-05-06 20:34:36 · 25050 阅读 · 37 评论 -
基于doc2vec的中文文本聚类及去重
Understand doc2vecData introductionTrain a modelTest the modelCluster all the lyricsFilter out the duplicates1. Understand doc2vec [1]doc2vec是基于word2vec演化而来,其本质是要学出文档的一个表示,模型由谷歌科学家Quoc Le 和 T...原创 2018-12-24 15:55:41 · 6846 阅读 · 2 评论 -
Make your model a web service (using Microsoft Azure machine learning studio)
Make your model a web service (using Microsoft Azure machine learning studio)1. construct an experiment using the studio.2. Set up the web service.Run this experiment firstly and then click the bu...原创 2019-01-21 16:18:07 · 341 阅读 · 0 评论