- 博客(8)
- 资源 (8)
- 收藏
- 关注
转载 关于文本的Brich层次聚类
1.文本聚类的一般性过程:一般生成文档向量矩阵的格式是,每一行代表一个文档,每一列是一个维度代表该文档这个词的权重,没出现这个词就是0,几千个文件维度在10多w左右(看文档的大小),这么大的维度人脑想也想到了,矩阵将是及其稀疏的,也就是说,在一个高维空间中,几千个点几乎都聚在了一起,虽说彼此之间有距离,但是距离非常之小,很明显这样聚类效果肯定非常差,实测过,跟抛硬币的概率一样。于是将矩阵稠密一...
2019-03-17 22:21:27
2743
转载 Exception in thread "main" java.lang.OutOfMemoryError: Java heap space
Exception in thread "main" java.lang.OutOfMemoryError: Java heap space (Java堆空间内存溢出)解决方案一直都知道可以设置jvm heap大小,一直用eclipse写/调试java程序。一直用命令行or console加参数跑程序。现象:在eclipse的配置文件eclipse.ini中设置-vmargs -Xms500...
2018-11-26 19:32:59
1391
原创 python报错:PyThone field larger than field limit (131072)
处理问题:PyThone field larger than field limit (131072)文件数据过大,而导致csv无法读取,添加下段代码即可解决import sysmaxInt = sys.maxsizedecrement = Truewhile decrement: decrement = False try: csv.field_...
2018-09-13 20:43:06
3564
原创 python按行或列读取csv文件的方式
方式一:生成字典形式使用DictReader逐行读取csv文件 返回的每一个单元格都放在一个字典的值内,而这个字典的键则是这个单元格的列标题# 逐行读取csv文件with open(filename,'r',encoding="utf-8") as csvfile: reader = csv.DictReader(csvfile) for row in reader...
2018-09-13 20:32:58
50949
转载 python统计文件中出现次数最多的词并排列
统计重复项出现次数: 方法一: List = [1,2,3,4,5,3,2,1,4,5,6,4,2,3,4,6,2,2] List_set = set(List) #List_set是另外一个列表,里面的内容是List里面的无重复 项 for item in List_set: print("the %d has found %d" %(item,List.count(item)...
2018-09-12 18:05:36
6355
转载 keras的model.fit()
fit( x, y, batch_size=32, epochs=10, verbose=1, callbacks=None,validation_split=0.0, validation_data=None, shuffle=True, class_weight=None, sample_weight=None, initial_epoch=0)x:输入数据。如果模型只有一个输入,那...
2018-09-09 16:52:57
8521
原创 K-Means聚类算法的实现
前言 本文为我的期末大作业,知识原理参考了他人的文章,并不全是我的想法,有不足之处请指出 。K-均值聚类算法的原理与实现一K-均值聚类算法的原理1.1聚类介绍聚类是一种无监督的学习,它将相似的对象归到同一个簇中,聚类方法几乎可以应用于所有对象,簇内的对象越相似,聚类的效果越好,在现实中我们用到很多的簇的类型,使用不同的簇类型划分数据的结果是不同的,如...
2018-07-11 20:47:15
2004
原创 基于Word2Vec的相似度计算(python)
前言 此篇文章的基础知识部分总结了一些别人的文章解释,环境为Windows10下的python3.5版本,需要的包为gensim。代码很简要,不足之处请说明。一.背景知识1.1词向量词向量(word2vec)是一个将单词转换成向量形式的工具。可以把对文本内容的处理简化为向量空间中的向量运算,计算出向量空间上的相似度,来表示文本语义上的相似度。在自然语言处理(NLP...
2018-07-11 13:51:25
46087
7
简易聊天程序java
2019-03-19
端口扫描器
2019-03-18
mongoDB+mongoVUE+rockMongo
2018-03-13
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人