- 博客(13)
- 资源 (6)
- 收藏
- 关注
原创 python list内前k个最大值与对应的索引非重复
函数def maxk(arraylist,k): ''' 前k个的索引 ''' maxlist=[] maxlist_id=range(0,k) m=[maxlist,maxlist_id] for i in maxlist_id: maxlist.append(arraylist[i]) for i in r...
2019-04-23 15:36:08
2638
原创 gensin.lda/lsi + sklearn 文本分类
使用gensim内LDA与LSA训练文本,将其中的docment_topc矩阵信息作为原始矩阵进行分类。我自己选的数据是知网的几千篇摘要,都是计算机大类别下的文档,类别比较模糊,只做了个分词处理。以俩空格‘ '作为分隔符保存。最终分类准确率肯定没有那些类别明显的高(sogo)import osimport refrom gensim import models,corporast...
2018-07-17 14:05:45
2163
3
原创 python 读文件,首行出现前缀‘\ufeff‘
python3读文件时,第一行莫名其妙的出现了’\ufeff‘前缀查看原始文件,刚开始根本没有这个,在读文件时,想原来的.stip() 替换为 .encode('utf-8').decode('utf-8-sig').strip()utf-8编码的txt文件时开头会有一个多余的字符\ufeff,在读文件时会读到\ufeff,通过编码encode('utf-8')与解码decode('utf-8-s...
2018-07-11 10:38:51
2578
原创 urllib2 爬虫 打印页面内容,部分无法显示
爬了一下起点小说网的内容,结果发现打印页面内容时丢失了部分内容这个是我的代码import reimport urllib2user_agent ='Mozilla/5.0 (Windows NT 10.0; WOW64; rv:49.0) Gecko/20100101 Firefox/49.0' headers = { 'User-Agent':user_agent}url
2018-01-06 18:00:32
1273
转载 爬虫,爬糗百热门段子
想爬东西,必须熟悉正则啊,换行的 /s ,任意字符的 . 。先打开网页:url = 'http://www.qiushibaike.com/hot/page/' + str(page) user_agent = 'Mozilla/4.0 (compatible; MSIE 5.5; Windows NT)' headers = { 'User-Agent' : user_a
2018-01-05 10:24:33
513
原创 python2 读取文件TXT编码问题
读取文件:open("test.txt","r")文件建议另存为UTF-8格式,字打印出来是“u'\u6c49'” “就是unicode编码(python里面报的ASCII);”\xe6\xb1\x89“ 是utf-8 编码,printf 输出就是正常汉字了,若还是打印这个,就需要将LIST里for循环打印utf-8编码的汉字len(),单个字符长度是3;unicode len()
2017-11-20 21:52:49
3343
原创 lda+word2vec 主题模型结合深度学习
最近硕士毕业小论文想写LDA结合深度学习的,论文看来看去,看的头大,也没什么好的创新点,杂七杂八小的创新带你想了一大堆,要么自己给否了,要么后来在看论文的时候发现写过了(那么LOW的点也能写),想写个差不多的’有价值意义的创新点,结果想来想去想着头大,就继续看论文。 言归正传,看了大几十篇外文文献了(外文的闻起来就厉害,实际上好的也没几个),结合点就一两个有价...
2017-11-20 21:32:19
19284
30
转载 用gensim.doc2vec 建模、利用相似度做文本分类
想看看doc2vec的效果怎么说,按照 基于gensim的Doc2Vec简析 上面的实验做了下,发现用随机森林做的模型,二分类的准确率50%,换sklearn的KNN,分类结果也是50¥上下。看了半天觉得过程什么的没什么错误,之后就又参考了情感分析利器——Doc2vec ’两个意思差不多。最后利用模型,在随便调参的情况下,分类准确率95%+。效果总算令人满意。代码如下:(过程懒得精简了
2017-11-20 21:04:31
6053
8
转载 gensim-lda
按着 原地址 敲了下,基本上实现了,小霸王笔记本运行了半天。我自己的数据来源;数据,上传还必须要下载分。联系QQ602232180,我这里有完整代码:(就用了一个C000008数据做)import codecsfrom gensim import models,corpora,similaritiesfrom gensim.models.doc2vec import TaggedD
2017-11-07 16:02:34
710
1
转载 redhat下的 cpu-tensorflow安装及远程开启notebook
tensorflow实战上面用的系统是ubuntu的系统,但是有人说红帽的系统运行速度更快,so就跑到红帽上面了,都是linux吗,感觉都差不多吧。安装的过程就是按照《tensorflow实战》这本书上一步步走的,但是问题也有几个,对于我这linux菜鸟查了半天博客。下载anaconda3 4.2.0 去官网上找,只发现了最新的 anaconda5.0.0 最新版本,担心
2017-10-26 16:21:36
480
原创 VM安装Ubuntu卡在open-vm-tools 及tensorflow
系统:ubuntu-16.10-desktop-amd64.iso一直点下一步,最后一步不选择安装完成后自动开启虚拟机,否则很可能会卡在open-vm-tools处目前的解决方式:1、编辑配置文件 (.vmx)2、增加一行 cpuid.1.eax = "0000:0000:0000:0001:0000:0110:1010:0101"3、保存配置文件4、启动虚拟机或者换虚拟机
2017-07-07 20:19:46
15929
1
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人