
数据挖掘与分析
文章平均质量分 72
麦好
硕士/量化投资协会成员
展开
-
R语言与数据模型(3)-正态分布
> x<-c(11,22,34,53,12,45,55,37,43,23,9)> dnorm(x,mean=mean(x),sd=sd(x)) [1] 0.011476566 0.020361888 0.023388233 0.010303998 0.012305821 0.016994961 [7] 0.008777154 0.022364773 0.018591966...原创 2018-07-16 10:43:46 · 2054 阅读 · 0 评论 -
R语言与数据模型(2)-读写数据文件
> cat("my data", "20180101-20180331","2 3 5 7", "11 13 17", file = "my1.data", sep = "\n")> x<-scan("my1.data",skip=2)Read 7 items> x[1] 2 3 5 7 11 1原创 2018-07-09 10:30:03 · 513 阅读 · 0 评论 -
R语言与数据模型(1)-平均,方差,中位数,分位数,极差
> x<-c(1,10,20,30,40,50,NA,60)> xm<-mean(x)> xm[1] NA#na.rm表示允许缺失数据NA> xm<-mean(x,na.rm=TRUE)> xm[1] 30.14286>> x<-c(1,10,20,30,40,50,60)> xm<-mean(x)> xm[1]原创 2018-07-05 17:38:37 · 23590 阅读 · 0 评论 -
数学之路-python数据处理(1)
Pandas基础import pandas aspdimport numpy as np#数字序列myseries=pd.Series([1,3,5,np.nan,6,8])print myseries#日期序列mydate=pd.date_range('20150101',periods=42)print mydate生成序列结果如下:0 11 32 53 NaN4 6原创 2015-03-09 12:08:07 · 1914 阅读 · 0 评论 -
数学之路-数据分析进阶-区间估计与假设检验(2)
某商城需要针对某类商品建立该类VIP大客户,定期向该客户推送相关广告,客户服务部门推荐了客户A,在数据库随机抽取了100个客户资料的前4个季度平均季消费数据(在这里用平均随机数模拟数据),客户A平均季消费为元,检测其是否消费处于中上水平(位于中位数以上)> sample(200:50000,100)->sale> sale [1] 8447 13987 8809 44437 22973 280原创 2014-10-07 22:20:59 · 1976 阅读 · 0 评论 -
数学之路-数据分析进阶-区间估计与假设检验(1)
下面是某商品的购买链接在12天内的点击量原创 2014-09-28 17:08:39 · 2581 阅读 · 0 评论 -
数学之路-数据分析进阶-多变量数据分析(3)
继续那个地区销量分析的例子> mygoods 1 2 3 4 5 6 7 8 9 10 11 121 1200 3210 123 1111 688 2110 1123 6894 1470 1071 2250 12412 2222 1500 3200 1580 5562 58411860 981 658 789 1020 11203原创 2014-09-27 10:48:26 · 1975 阅读 · 0 评论 -
数学之路-数据分析进阶-多变量数据分析(2)
皮尔森相关系数(Pearson correlation coefficient)也称皮尔森积矩相关系数(Pearson product-moment correlation coefficient) ,是一种线性相关系数。皮尔森相关系数是用来反映两个变量线性相关程度的统计量,用于度量两个变量X和Y之间的相关(线性相关),其值介于-1与1。相关系数用r表示,其中n为样本量,分别为两个变量的观测值和均原创 2014-09-25 18:13:27 · 3142 阅读 · 1 评论 -
数学之路-数据分析进阶-多变量数据分析(1)
> ejdqz> ejdqz 年.度 求职人数 绝对求职指数 相对求职指数1 2008 3045412 100 1002 2009 3413202 112 1123 2010 3902961 128 1214 2011 3675531 121原创 2014-09-22 16:16:17 · 2406 阅读 · 0 评论 -
数学之路(3)-机器学习(3)-机器学习算法-神经网络[19]
本博客所有内容是原创,如果转载请注明来源http://blog.youkuaiyun.com/u010255642我们也可以尝试用多层感知器网络对一组数据建立模型,在输入与输出数据之间建立非线性关系,用神经网络拟合输出数据,训练好后,输入其它值,能得到一个较精确的仿真输出数据下面是钢包使用次数与容积实测数据钢包使用次数与容积实测数据使用次数x原创 2013-09-03 21:59:01 · 2334 阅读 · 0 评论 -
数学之路(3)-数据分析(11)
5、正太检验与分布拟合 在R中使用函数shapiro.test()进行正态W检验> shapiro.test(cp$产量.台.) Shapiro-Wilk normality testdata: cp$产量.台.W = 0.9671, p-value = 0.7903当p值小于某个显著水平a(如0.05)时,认为样本不是来自于正态分布的总体。原创 2013-06-25 14:33:49 · 2119 阅读 · 0 评论 -
数学之路(3)-数据分析(2)
本博客所有内容是原创,未经书面许可,严禁任何形式的转载。http://blog.youkuaiyun.com/u010255642茎叶图R使用stem函数,格式为:stem(变量,scale=长度,width=绘图宽度,atom=容差)我们绘制一下产品单位成本的茎叶图:>read.table("I:/my_docs/cp.csv",,header=TRUE,sep=",")原创 2013-06-05 21:55:12 · 1991 阅读 · 0 评论 -
数学之路(3)-数据分析(10)
本博客所有内容是原创,未经书面许可,严禁任何形式的转载。http://blog.youkuaiyun.com/u010255642QQ图QQ图可以测试数据分布是否近似为某种类型分布。如果近似于正态分布,则数据点接近直线比如测试平均劳动报酬分布是否近似于正态分布,R中提供以下2个函数:qqnorm画数据点图,qqline画这根直线比较接近正原创 2013-06-05 17:41:18 · 1626 阅读 · 0 评论 -
数学之路(3)-数据分析(9)
本博客所有内容是原创,未经书面许可,严禁任何形式的转载。http://blog.youkuaiyun.com/u010255642核概率密度与正态概率分布图> hist(jiuye[["平均劳动报酬"]],freq=FALSE)> lines(density(jiuye[["平均劳动报酬"]]),col="red")> x平均劳动报酬"]])))> lines(x,dnor原创 2013-06-05 17:34:31 · 1742 阅读 · 0 评论 -
数学之路(3)-数据分析(8)
本博客所有内容是原创,未经书面许可,严禁任何形式的转载。http://blog.youkuaiyun.com/u010255642(2)其它分布R提供了以下函数指数分布 rexp(n, rate=1)gama分布 rgamma(n, shape, scale=1)泊松分布 rpois(n, lambda)Weibull分布 rweibull(n, shape, scal原创 2013-06-05 17:29:43 · 1716 阅读 · 0 评论 -
数学之路(3)-数据分析(7)
本博客所有内容是原创,未经书面许可,严禁任何形式的转载。http://blog.youkuaiyun.com/u010255642分位点的计算R使用qnorm完成正态分布的下α分位点计算:qnorm(概率,平均值,标准差)从概率密度函数可这么理解,设连续随机变量X的累积分布函数为F(x),密度函数为f(x)。> qnorm(0.75,mean=mymean,sd=mys原创 2013-06-05 17:26:56 · 2564 阅读 · 0 评论 -
数学之路(3)-数据分析(6)
本博客所有内容是原创,未经书面许可,严禁任何形式的转载。http://blog.youkuaiyun.com/u010255642我们可以做一个累积分布概率的散点图> plot(x,pnorm(x,mymean,mysd))> 一个连续型随机变量的概率密度函数(在不至于混淆时可以简称为密度函数)是一个描述这个随机变量的输出值在某一个确定的取值点附近的可能性的函数。而随机变量原创 2013-06-05 17:24:47 · 1913 阅读 · 0 评论 -
数学之路(3)-数据分析(5)
本博客所有内容是原创,未经书面许可,严禁任何形式的转载。http://blog.youkuaiyun.com/u0102556423、基本分布(1)正态分布对于一维实随机变量X,设它的累积分布函数是。如果存在可测函数 ,满足:那么X 是一个连续型随机变量,并且是它的概率密度函数。累积分布函数,又叫累计分布函数,是概率密度函数的积分,能完整描述一个实随机变量X的概率分布。原创 2013-06-05 17:21:56 · 1931 阅读 · 0 评论 -
数学之路(3)-数据分析(4)
本博客所有内容是原创,未经书面许可,严禁任何形式的转载。http://blog.youkuaiyun.com/u010255642样本校正平方和(CSS)样本与均值差的平方的求和> sum((jiuye$平均教育经费-mean(jiuye$平均教育经费))^2)[1] 175769451> 样本未校正平方和(USS)样本值平方的求和> sum(jiuye$平均教原创 2013-06-04 17:24:16 · 1741 阅读 · 0 评论 -
数学之路(3)-数据分析(3)
本博客所有内容是原创,未经书面许可,严禁任何形式的转载。http://blog.youkuaiyun.com/u0102556422、位置描述指标(1)平均值> mean(jiuye[["平均劳动报酬"]])[1] 42365.36我们同时统计一下劳动报酬和教育经费的平均值> cbind(jiuye[["平均劳动报酬"]],jiuye[["平均教育经费"]])> a原创 2013-06-04 16:41:12 · 2088 阅读 · 1 评论 -
数学之路(3)-数据分析(1)
数据分析 数据是事实,也称观测值,是实验、测量、观察、调查等的结果,常以数量的形式给出。数据分析的目的是把隐没在一大批看来杂乱无章的数据中的信息集中、萃取和提炼出来,以找出所研究对象的内在规律。在实用中,数据分析可帮助人们作出判断,以便采取适当行动。数据分析是组织有目的地收集数据、分析数据,使之成为信息的过程。 一、描述定性数据1、图形法Youxiangz.csv是2010年全原创 2013-05-27 22:57:59 · 2171 阅读 · 0 评论 -
数学之路(2)-数据分析-R基础(26)
(3)不定数量的函数参数> mycount+ temp=0+ for (i in c(...)){+ temp=temp+1+ }+ temp+ }> mycount(11,22,33)[1] 3> mycount(11,22,33,66)[1] 4> mycount(11,22,66)[1] 3> (4)内嵌函数允许在函数内定义函数原创 2013-05-23 11:27:32 · 1938 阅读 · 0 评论 -
数学之路(2)-数据分析-R基础(23)
19)分析数据集接上篇博文~继续以全球近一周地震数据为例。我们先将变量放到搜索路径上> attach(earthquake)先分析一下地震震深:> summary(Depth) Min. 1st Qu. Median Mean 3rd Qu. Max. NA's 0.10 5.80 12.15 30.82 38.0原创 2013-05-22 10:03:59 · 2716 阅读 · 0 评论 -
数学之路(2)-数据分析-R基础(22)
19)read.table和scan读取文件read.table比scan更强大,在文件有文件头的情况下,指定header=TRUE可以将文件头做为变量名。> read.table("h:/my_docs/eqweek.csv",header=TRUE,sep=",")->earthquake> earthquake DateTime.Latitude.Longitude.De原创 2013-05-22 09:21:43 · 1869 阅读 · 0 评论 -
数学之路(2)-数据分析-R基础(20)
我们来看一个综合的例子,求出下面样本的数字在某区间内的分布数量,即求因子频率。下面是美国地震台网公布的全球2013年5月20日22点到24点的所有发生的地震的震级。2013-05-20T23:57:12.000+00:001.62013-05-20T23:57:12.000+00:000.92013-05-20T2原创 2013-05-21 11:48:04 · 1958 阅读 · 0 评论