- 博客(54)
- 资源 (2)
- 收藏
- 关注
转载 SPSS modeler 关联规则 评价指标解释
一、概念理解置信度、支持度、提升度是评价关联规则的三个重要指标。样本100,条件A=》结果B,A:60,B40,同时发生A和B:30则:条件支持度=P(A)=条件A60/样本100=0.6结果支持度=P(B)=结果B40/样本100=0.4(在sas中称为预期置信度)规则支持度=P(A&B)=30/100=0.3规则置信度=P(B|A)=P(A&B)/P...
2018-08-13 11:29:01
12750
3
原创 IBM SPSS CLEMENTINE 下载安装
1、SPSS安装教程链接:http://www.xue51.com/mac/1481.html2、Clementine下载地址:http://www.minixiazai.com/soft/16328.html补丁下载地址:http://www.3322.cc/soft/17001.html安装教程:http://www.3322.cc/soft/17001.html ...
2018-07-27 14:34:17
6829
原创 Python中dataframe\ array\ list相互转化
1、list 转化成array矩阵 np.array(result).T2、array转化成dataframe pd.DataFrame(result)3、把Pandas中的dataframe转成numpy中的array使用 df=df.values,
2018-07-26 16:01:58
17775
原创 Python 读取文件夹中所有的CSV文件
import osimport pandas as pdfor info in os.listdir('/Users/beidou/Desktop/result'): domain = os.path.abspath(r'/Users/beidou/Desktop/result') #获取文件夹的路径 info = os.path.join(domain,info) #将路径...
2018-07-26 13:57:46
11286
转载 python DataFrame
1. 说明 DataFrame是Pandas库中处理表的数据结构,可看作是python中的类似数据库的操作,是Python数据挖掘中最常用的工具。下面介绍DataFrame的一些常用方法。2. 遍历1) 代码 import pandas as pd import math df=pd.DataFrame({'key':['a','b','c']...
2018-07-19 17:20:33
934
转载 Python读取CSV文件
普通方法读取: 1 with open("fileName.csv") as file:2 for line in file:3 print line 用CSV标准库读取: 1 import csv2 csv_reader = csv.reader(open("fileName.csv"))3 for row in csv_reader...
2018-07-19 13:56:40
1400
转载 Mac下CSV中文乱码问题解决方法
Mac下生成CSV文件,用Excel打开时经常会遇到中文乱码的问题。例如下图所示,有一个文件“users.csv”,里面的内容是中文,并且选中文件后点击空格预览,也能正常显示中文。 但用Excel打开时,就变成一堆乱码。如下图所示: 究其原因是Mac下文本的默认编码是UTF-8,而Excel对中文的处理是GBK编码。(听不懂?我只是在胡说八道罢了,继续往下看解决方案!)。解决方法很简单,1)首先打...
2018-07-10 13:21:42
5359
1
原创 MAC中anaconda安装Tushare 解决版本不匹配的问题
在mac终端中:brew install libxml2brew install libxsltbrew link libxml2 --forcebrew link libxslt --force
2017-10-21 10:51:05
2519
原创 SVM学习参考资料
1、http://m.blog.youkuaiyun.com/xyqzki/article/details/436111012、http://www.cnblogs.com/luyaoblog/p/6775342.html3、http://www.cnblogs.com/harvey888/p/5852687.html
2017-08-22 22:34:19
566
原创 CPA备考经验贴汇
1、https://www.douban.com/note/198202393/?type=like2、https://sanwen8.cn/p/151MMlf.html3、http://club.topsage.com/thread-4257718-1-1.html4、http://club.topsage.com/thread-4022600-1-1.html
2017-06-14 14:09:51
833
转载 金融数量分析2:Markowitz均值方差模型
博客原址:http://blog.sina.com.cn/s/blog_6afc560001017xuy.htmlPortfolio在金融投资理论中占有非常重要的地位,Markowitz根据每一种证券的预期收益率、方差和所有证券间的协方差矩阵,得到证券组合的有效边界,再根据投资者的效用无差异曲线,确定一组Portfolio。Markowitz均值方差模型为:min si
2017-06-07 15:37:17
9836
转载 十种深度学习算法要点及代码解析
前言谷歌董事长施密特曾说过:虽然谷歌的无人驾驶汽车和机器人受到了许多媒体关注,但是这家公司真正的未来在于机器学习,一种让计算机更聪明、更个性化的技术。也许我们生活在人类历史上最关键的时期:从使用大型计算机,到个人电脑,再到现在的云计算。关键的不是过去发生了什么,而是将来会有什么发生。工具和技术的民主化,让像我这样的人对这个时期兴奋不已。计算的蓬勃发展也是一样。如今,作为一名
2017-05-25 11:47:34
48934
1
原创 遗传算法学习资料
1、 python实现遗传算法http://f.dataguru.cn/thread-590171-1-1.html2、 python遗传算法(GA)DEAP-Overview学习摘要https://segmentfault.com/a/11900000043451233、 简单遗传算法-python实现http://www.cnblogs.com/biaoyu/p/48578
2017-03-30 21:42:01
1318
原创 特征选择学习资料
1、 结合Scikit-learn介绍几种常用的特征选择方法http://www.cnblogs.com/hhh5460/p/5186226.html2、 特征选择算法http://lib.youkuaiyun.com/article/machinelearning/53458
2017-03-30 21:41:09
1071
转载 pycharm快捷键及一些常用设置
1、编辑(Editing)Ctrl + Space 基本的代码完成(类、方法、属性)Ctrl + Alt + Space 快速导入任意类Ctrl + Shift + Enter 语句完成Ctrl + P 参数信息(在方法中调用参数)Ctrl + Q 快速查看文档Shift + F1 外部文档Ctrl + 鼠标 简介Ctrl + F1 显示错误描述或警告信息A
2017-03-29 18:13:00
1075
原创 Tensorflow学习资源
tensorflow学习笔记二:入门基础 http://www.cnblogs.com/denny402/p/5852083.html 转置函数(tf.transpose):http://blog.youkuaiyun.com/u010417185/article/details/51900441 tf.reshape函数:http://blog.youkuaiyun.com/lxg0807/articl
2017-03-29 18:09:14
976
转载 7种回归模型
【编者按】回归分析是建模和分析数据的重要工具。本文解释了回归分析的内涵及其优势,重点总结了应该掌握的线性回归、逻辑回归、多项式回归、逐步回归、岭回归、套索回归、ElasticNet回归等七种最常用的回归技术及其关键要素,最后介绍了选择正确的回归模型的关键因素。什么是回归分析?回归分析是一种预测性的建模技术,它研究的是因变量(目标)和自变量(预测器)之间的关系。这种技术通常用于预测分
2017-03-09 21:18:27
4949
转载 Matlab中Cell(单元数据)的用法
Cell是Matlab中的一种数据类型,概念和结构类似。用大括号定义,括号里可以是任意类型的数据或矩阵。关于cell的创建:1.跟一般创建矩阵一样,直接使用C = {A B D E}这种形式,不过这里把"[]"改成了"{}"2.使用cell创建cell,C= {C1 C2},这里C1和C2都是cell类型,直接把C1 C2作为一个cell得到的C3是一个1x2的
2016-09-27 23:01:06
37541
原创 simrank
1、SimRank:基于图结构的相似度计算方法http://www.cnblogs.com/zhangchaoyang/articles/4575809.html
2016-05-18 20:42:04
1631
原创 spark环境配置
1、Scala 安装及环境配置教程http://blog.sina.com.cn/s/blog_7d553bb50102w9jv.html2、http://ju.outofmemory.cn/entry/177769http://www.cnblogs.com/eastjade/p/4777974.html
2016-05-14 12:30:09
674
转载 matlab基本操作和语法
1.前言准确的说这篇文章不是给完全的编程新手,特别是以前没有过一定编程经验的人准备的。文章的适合对象是:已经有一定编程基础的人,如果你想用Matlab来快速的完成算法验证,以及科研学术研究等。 文章的范围很大,信息量很大,个别问题新手不是很理解,请自行百度。至于有编程经验的,本文提到的大部分内容应该是可以理解的,根据思路,打开Matlab软件也应该是可以选择的。本文选择的Matl
2016-04-22 18:05:42
31943
转载 主题模型LDA
主题模型,说实话之前学的时候还真没见过,所以看到这一章的时候感觉很是疑惑,不知道主题模型是要干什么。看完后感觉这个主题模型应该是nlp中的一种特殊的聚类方式,可以通过对文档提取主题,然后根据不同的主题进行聚类的方式,他首先肯定不是分类问题,感觉还是可以勉强归为一种聚类吧,这一章给的一个例子感觉特别好,他是将维基百科的今年文档全部拖下来进行主题提取,所以做出这个主题还是很有意义的。数据集
2016-04-11 21:29:01
3656
转载 Gensim and LDA: a quick tour
网址链接:http://nbviewer.jupyter.org/gist/boskaiolo/cc3e1341f59bfbd02726First, fix the verbosity of the logger. In this example we're logging only warnings, but for a better debug, uprint all the IN
2016-04-11 19:51:28
1878
转载 Python 文本挖掘:使用gensim进行文本相似度计算
关键词:转 python 文本 挖掘 使用 gensim 进行 文本 相似 度 计算python使用gensim进行文本相似度计算 转于:http://rzcoding.blog.163.com/blog/static/2222810172013101895642665/ 在文本处理中,比如商品评论挖掘,有时需要了解每个评论分别和商
2016-04-11 16:49:24
7011
转载 资产组合有效前沿的解和最优解(MATLAB语言)
基础理论:在资产组合理论中,核心思想是资产分散化配置,用以来防范个体风险,因此存在一个最优解的问题。如果按照马科维茨的逻辑,资产配置,就是资产在不同资产产品之间的分配,以求达到方差和期望收益的最佳组合,这个组合的最优解取决于投资者自身的偏好和资本有效配置问题。资产的配置有效的前提是资产配置位于资产组合的有效边沿上,在此上的资产组合才能根据投资者的具体偏好而做到最优解。 资产
2016-04-11 15:32:15
35393
2
转载 OKapi BM25 算法
BM25(Best Match25)是在信息检索系统中根据提出的query对document进行评分的算法。It is based on the probabilistic retrieval framework developed in the 1970s and 1980s by Stephen E. Robertson, Karen Spärck Jones, and others.
2016-03-22 10:17:41
10119
转载 LDA主题模型简介
D. M. Blei在2003年(准确地说应该是2002年)提出的LDA(Latent Dirichlet Allocation)模型(翻译成中文就是——潜在狄利克雷分配模型)让主题模型火了起来, 今年3月份我居然还发现了一个专门的LDA的R软件包(7月份有更新),可见主题模型方兴未艾呀。主题模型是一种语言模型,是对自然语言进行建模,这个在信息检索中很有用。LDA主题模型涉及到贝叶斯理
2016-03-13 23:38:34
1597
转载 基于LDA的Topic Model变形
David M. BleiLDA的创始者,04年博士毕业。一篇关于Topic Model的博士论文充分体现其精深的数学概率功底;而其自己实现的LDA又可体现其不俗的编程能力。说人无用,有论文为证:J. Chang and D. Blei. Relational Topic Models for Document Networks . Artificial Intelligence
2016-03-13 23:37:02
1148
转载 主题模型及其变种的实现代码汇总
1.MALLET:实现语言,Java,实现模型,LDA,HLDA,Pachinko Allocation Model,此外,还实现了HMM,最大熵马尔科夫模型和条件随机场;2.Shuyo的github代码:实现语言,Python,实现模型,LDA,Dirichlet Process Gaussian Mixture Model,online HDP,HDPLDA,Interactive T
2016-03-13 23:11:46
1909
转载 Topic Model 都有哪些
Topic modelContent:basic topic model: PLSA, LDAMining multi-faceted overviews of arbitrary topics in a text collectionModeling online reviews with multi-grain topic modelsMultiscale topic to
2016-03-13 23:08:16
3111
转载 Joint Sentiment/Topic Model & Aspect and Sentiment Unification Model
Joint Sentiment/Topic Model & Aspect and Sentiment Unification Model参考文章:Joint Sentiment/Topic Model for Sentiment Analysis JST模型从文本检测情感和主题 之前的工作缺点:基于机器学习的情感分类需要大量的人工标记; 一个领域训练的情感分类模型不能很好地应用
2016-03-13 23:06:41
2929
原创 NLP学习网址
1、斯坦福CoreNLP —— 用Java给Twitter进行情感分析网址:https://segmentfault.com/a/11900000003655472、 JAVA自然语言处理NLP工具包网址:http://my.oschina.net/u/1397325/blog/233738
2016-03-13 19:25:55
758
转载 lda模型的python实现
LDA(Latent Dirichlet Allocation)是一种文档主题生成模型,最近看了点资料,准备使用python实现一下。至于数学模型相关知识,某度一大堆,这里也给出之前参考过的一个挺详细的文档lda算法漫游指南这篇博文只讲算法的sampling方法python实现。完整实现项目开源python-LDA lda模型变量申请及初始化##伪代码#输
2016-03-08 17:39:11
7352
转载 LDA的必读文章和相关代码
LDA和HLDA:(1)D. M. Blei, et al., "Latent Dirichlet allocation," Journal of Machine Learning Research, vol. 3, pp. 993-1022, 2003.(2)T. L. Griffiths and M. Steyvers, "Finding scientific topics,"
2016-03-08 17:35:27
1423
转载 LDA基本介绍以及LDA源码分析(BLEI)
基本介绍: topic model,之前已经介绍过(http://blog.youkuaiyun.com/hxxiaopei/article/details/7617838)topic model本质上就一个套路,在doc-word user-url user-doc等关系中增加topic层,扩充为2层结构,一方面可以降维,另一方面挖掘深层次的关系,用户doc word user url的聚类。
2016-03-08 17:28:55
1958
转载 在weka中使用libsvm的方法
网上有各种方法,本文引用http://blog.youkuaiyun.com/AlextoWarson/archive/2009/11/03/4757700.aspxhttp://blog.youkuaiyun.com/jkxsanger/archive/2009/12/16/5009763.aspx我所学的好多东西,都是从他们的博客中得到的软件安装步骤:第一步,下载weka安装包,该压缩
2016-02-15 10:07:25
2784
转载 Python中有效的字符串合并方法
原文:http://www.cnblogs.com/heshizhu/archive/2012/01/11/2319892.html 介绍在Python编程语言中,构造一些较长的字符串事常常会产生一些运行很慢的代码。本文我将研究不同字符串合并方法的计算性能。在Python中,字符串(string)对象是不可变的(每次关联一个新的字符串变量都会在内存中创建一个新的对象
2016-01-26 18:51:07
10026
1
转载 python:open/文件操作
open/文件操作f=open('/tmp/hello','w')#open(路径+文件名,读写模式)#读写模式:r只读,r+读写,w新建(会覆盖原有文件),a追加,b二进制文件.常用模式如:'rb','wb','r+b'等等读写模式的类型有:rU 或 Ua 以读方式打开, 同时提供通用换行符支持 (PEP 278)w 以写方式打开,a
2016-01-23 22:59:33
696
转载 python学习笔记
http://www.360doc.com/content/14/1014/09/6692392_416732148.shtml
2016-01-23 22:56:46
624
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人