- 博客(75)
- 资源 (1)
- 收藏
- 关注
原创 经典50例
student(sno,sname,sage,ssex) 学生表 course(cno,Cname,tno) 课程表 sc(sno,cno,score) 成绩表 teacher(tno,Tname) 教师表/*例1:查询“c1”课程比“c2”课程高的所有学生*/select a.snofrom (select sno,score from sc where cno='c1') a,(sel
2015-10-19 15:44:24
1406
原创 SQL经典问题1——产品、颜色、数量
一个简单的表TABLE 有100条以上的信息,其中包括: 产品 颜色 数量 产品1 红色 123 产品1 蓝色 126 产品2 蓝色 103 产品2 红色 NULL 产品2
2015-09-26 21:44:37
1354
原创 谁说菜鸟不会数据分析
1 数据分析那些事儿2 结构为王——确定分析思路3 无米难为巧妇——数据准备4 三心二意——数据处理5 工先善其器必先利其器——数据分析6 给数据量体裁衣——数据展现7 专业化生存——图表可以更美的8 专业的报告——体现你的职场价值
2015-09-09 11:00:05
1862
原创 数组和lookup函数
1 回顾统计函数sumif函数 sumifs函数 多条件求和 excel 2003没有sumifs,那么要实现多条件求和则可以利用数组2 认识数组通俗含义:令一个区域的值等于某一个单元格值 例:利用数组实现多条件求和 =SUM(($A$2:$A$22=K15)*($B$2:$B$22=L15)*$E$2:$E$22) 利用数组的写公式的不同之处:写完不能直接回车,需要CTRL+SHIFT+
2015-09-08 23:10:08
2912
原创 基本数学函数
1 基本函数round(number,num_digits) 四舍五入 roundup(number,num_digits) 直接进位 rounddown(number,num_digits) 直接舍弃 int(number) 直接取整 mod(number,divisor) 求余数 row(reference) 返回引用的行号,不填默认的是当前单元格 column(reference)
2015-09-07 00:27:22
635
原创 外联接、自联接与联合
1 外联接1 左外联接left outer join 外联接与内联接的区别: 外联接一定会提供数据行,无论改行是能否在另一个表中找出相匹配的行。 左外联接的结果集中的NULL表示右集中没有找到与左表相符的记录;相同,在匹配时多条记录符合条件,就会取出多行。2 右外联接right outer join 与左外联接类似,不同的是左外联接from后面是左表,而右外联接的后面则是右表。2 自联接自联
2015-09-05 10:40:23
632
原创 各种分类算法比较
1 KNN算法原理:已知样本集中每一个数据与所属分类的对应关系,输入没有标签的新数据后,将新数据与训练集的数据对应特征进行比较,找出“距离”最近的k(通常k<20)数据,选择这k个数据中出现最多的分类作为新数据的分类。 算法描述: (1) 计算已知类别数据及中的点与当前点的距离; (2) 按距离递增次序排序 (3) 选取与当前点距离最小的k个点 (4) 确定前K个点所在类别出现的频
2015-09-03 20:23:19
3696
原创 日期函数
1 日期与时间在excel中整数代表天,日期和时间要进行运算必须单位相同 例1:由开始时间、分钟,求结束时间 如:开始时间9:00,在D4单元格 分钟为90,在E4单元格 结束时间为10:30 函数为:=D4+E4/24/60 例2:由开始时间、结束时间,求持续时间(分钟) 如:开始时间9:00,在E9单元格 结束时间12:00,在D9单元
2015-09-02 01:34:20
890
原创 第十三章 时间序列分析和预测
时间序列的关键是确定出已有的时间序列的变化模式,并假定这种模式会延续到未来。 时间序列分析就其发展的历史阶段和所使用的统计分析方法来看,有传统的时间序列分析和现代时间序列分析。下文主要介绍传统的时间序列的分析方法,内容包括时间序列数据的统计和预测方法。1 时间序列及其分解时间序列是同一现象在不同时间上的相继观察值排列而成的序列,可以分为平稳序列和非平稳序列。 平稳序列(stationaryser
2015-09-01 21:11:32
23123
2
原创 第十二章 多元线性回归
1 多元线性回归模型1 多元回归模型与回归方程多元回归模型: y=β 0 +β 1 x 1 +β 2 x 2 +...+β k x k +ε y=\beta_0+\beta_1x_1+\beta_2x_2+...+\beta_kx_k+\varepsilon 多元回归方程: E(y)=β 0 +β 1 x 1 +β 2 x 2 +...+β k x k E(y)=\beta_0+\beta_
2015-09-01 21:06:46
3408
原创 第十一章 一元线性回归
主要分析数值型自变量与数值型自变量之间的关系。 从变量个数上看,可分为简单相关与简单回归分析和多元相关与多元回归分析;从变量之间的关系形态上看,有线性相关与线性回归分析和非线性相关与非线性回归分析。1 变量间关系的度量1 变量间的关系变量之间的关系可分为函数关系和相关关系 函数关系:一 一对应的确定关系 相关关系:变量之间存在的不确定的数量关系2 相关关系的描述与测度假设:(1)两个变量之间是
2015-09-01 16:21:52
3874
原创 第十章 方差分析
从形式上看,方差分析是比较多个总体的均值是否相等,但从本质上它所研究的是变量之间的关系。在研究一个(或多个)分类型自变量与一个数值型因变量之间的关系时,方差分析就是其中的主要方法之一。1 方差分析引论随着增加个体显著性检验的次数,偶然因素导致差别的可能性也会增加(并非均值真的存在差别)。而方差分析则是同时考虑所有样本,排除了错误累积的概率,从而避免拒绝一个真实的原假设。1 方差分析及其有关术语方差分
2015-08-31 21:39:04
4820
原创 第九章 列联分析
列联分析主要用于分类数据的分析1 分类数据与列联表1 分类数据如:完整家庭/离异家庭、一等品/二等品、三等品……2 列联表的构造列联表是由两个以上的变量进行交叉分类的频数分布表。3 列联表的分布列联表的分布可以从两个方便来看:一个是观察值的分布;一个是期望值的分布。 (1)观察值 条件频数、行边缘频数、列边缘频数、百分比 (2)期望值分布 根据比例求出的各个变量的期望值 以四个公司对改革方
2015-08-31 19:42:09
23215
原创 第八章 假设检验
参数估计:是用样本统计量估计总体参数的方法,总体参数μ在估计前是未知的 假设检验:先对μ \mu的值提出一个假设,然后利用样本信息去检验这个假设是否成立1 假设检验的基本问题1 假设的表达式原假设H0 备选假设H12 两类错误第一类错误:原假设为真却被拒绝,犯这种错误的概率用α表示,所以也称α错误或弃真错误 第二类错误:原假设为伪却没有拒绝,犯这种错误的概率用β表示,也称β错误或取伪错误 对
2015-08-31 15:38:33
1107
原创 第七章 参数估计
参数估计是在抽样及抽样分布的基础上,根据样本统计量来推断所关心的总体参数。1 参数估计基本原理1 估计量与估计值 估计量:参数估计中,用来估计总体参数的统计量的名称,如样本均值、样本比例 估计值:根据一个具体的样本计算出来的估计量的数值 2 点估计与区间估计 参数估计的方法有点估计和区间估计。 点估计:用样本统计量的某个取值直接作为总体参数的估计值。无法概率度量可靠程度 区间估计:在点估
2015-08-31 11:47:25
3224
原创 第六章 统计量及其抽样分布
1 统计量统计量:由样本构造一个函数,不依赖任何参数 常用统计量:样本均值(X ¯ \bar{X})、样本方差(S 2 S^2)、样本变异系数(V=SX ¯ V=\dfrac{S}{\bar{X}})、样本k阶距、样本k阶中心距、样本偏度、样本峰度 次序统计量:样本极差(最大值减最小值) 充分统计量:统计量加工过程中一点信息都不损失的统计量。判别定理:因子分解定理2 由正态分布导出的几
2015-08-29 23:49:31
3261
原创 联接与多张表的操作
1 AS的作用as能把select的查询结果填入新表create table profession( id int(11) not null auto_increment primary key, profession varchar(20)) asselect profession from my_contactsgroup by professionorder by profess
2015-08-29 22:04:00
583
原创 缺失值的处理——R语言
本文主要介绍VIM和mice包,使用数据集为VIM包提供的哺乳动物睡眠数据sleep,主要研究62种哺乳动物的睡眠、生态学变量和体质变量间的关系。 睡眠变量包含睡眠中做梦时(Dream)、不做梦的时长(NonD)以及它们的和(Sleep)。体质变量包含体重(BodyWgt,单位为千克)、脑重(BrainWgt,单位为克)、寿命(Span,单位为年)和妊娠期(Gest,单位为天)。生态学变量包含物种
2015-08-29 00:22:15
8409
原创 2 趋势
一般时间序列的均值函数是完全任意的时间函数,平稳时间序列的均值函数是一定时域上的常数。1 确定性趋势与随机趋势下文考虑确定趋势的建模方法2 常数均值的估计假设均值函数是常数,模型可以写为 Y t =μ+X t Y_t=\mu+X_t 其中对所有的t t有E(X t )=0 E(X_t)=0 若用样本观测到的时间序列Y 1 ,Y 2 ,...,Y n Y_1,Y_2,...,Y_n来估计μ
2015-08-27 23:42:52
1079
原创 1 时间序列基本概念
1 时间序列与随机过程随机变量序列Y t :t=0,±1,±2,±3,... {Y_t:t=0,\pm1,\pm2,\pm3,...}称为一个随机过程,并以之作为观测时间序列的模型。2 均值、方差和协方差对随机过程Y t :t=0,±1,±2,±3,... {Y_t:t=0,\pm1,\pm2,\pm3,...},均值函数定义如下: μ t =E(Y t ),t=0,±1,±2,... \mu_t
2015-08-27 23:10:06
2844
原创 第五章 随机事件及其概率
1 随机事件及其概率试验、事件 随机事件(偶然事件)、必然事件、不可能事件 概率2 概率的性质与运算法则互斥事件:事件A和时间B不可能同时发生,P(A∪B)=P(A)+P(B) 条件概率与独立事件 全概率公式与贝叶斯公式 贝叶斯公式:逆概率公式3 离散型随机变量及其分布期望 方差:σ²=D(X)=E[X-E(X)]²=E(X²)-[E(X)]² 二项分布:E(X)=np D(X
2015-08-27 19:53:45
1411
原创 多张表的数据库设计
模式(SCHEMA)是对数据库内的数据描述(列和表),以及任何相关对象和各种连接方式的描述。1 外键外键是表中的某一列,它引用用另一个表的主键 关于外键: (1)外键可能与它引用的主键名称不同 (2)外键使用的主键也称为父键,主键所在的表又称为父表 (3)外键能用于确认一张表中的行与另一表中的行相对应 (4)外键的值可以值NULL,即使主键值不可为NULL (5)外键值不需要唯一,事实上
2015-08-27 17:40:06
729
原创 第四章 数据的概括性度量
1 集中趋势的度量分类数据:众数 顺序数据:中位数和分位数 分位数:上四分位数(Ql)、下四分位数(Qu) Ql位置=n/4,Qu位置=3n/4 如果位置是整数,四分位数就是在该位置对应的值;如果是在0.5的位置上,则取该位置两侧值的平均数;如果在0.25或0.75的位置上,则四分位数等于该位置的下侧值加上按比例分摊位置两侧数值的差值。 数值型数据:平均数 几何平均数:n个变量值乘积的n
2015-08-27 14:16:34
2379
原创 第三章 数据的图形展示
1 数据的预处理数据审核:检查数据中是否有错误,主要从完整性和准确性两个方面。对二手数据,则着重适用性和时效性。 数据筛选:根据需要找出符合特定条件的某类数据。 数据排序:按一定顺序将数据排列 数据透视表2 品质数据的整理与展示对品质数据主要做分类整理,对数值型数据主要做分组整理。1 分类数据的整理与展示频数与频数分布 分类数据的图示 条形图 帕累托图:按各类别数据出现的频数多少排序后绘
2015-08-27 13:49:14
1606
原创 第二章 数据的收集
1 数据的来源数据的间接来源:二手资料 数据的直接来源2 调查数据数据采样阶段:如何抽选出一个好的样本 使用抽样的方式采集数据的具体方式有很多种,可以分为两类:概率抽样和非概率抽样 概率抽样:也称随机抽样。主要包括简单随机抽样、分层抽样、整群抽样、系统抽样、多阶段抽样 分层抽样:将抽样样本按某种特征或某种规则划分为不同的层,然后从不同的层中独立、随机地抽取样本。将各层的样本结合起来对总体的目
2015-08-27 13:45:06
1191
原创 第一章 统计学概论
1 统计及其应用领域数据分析所用方法可分为描述统计方法和推断统计方法。 描述统计:研究数据收集、处理、汇总、图标描述、概括与分析等统计方法 推断统计:研究如何利用样本数据来推断总体特征的统计方法2 统计数据的类型按照所采用的计量尺度不同,可以将统计数据分为分类数据、顺序数据和数值型数据。 分类数据是无序的如男女,企业按行业划分等; 顺序数据是有序的非数字型数据,如一等品,二等品等 按照统计数据
2015-08-27 13:39:14
972
原创 从qplot开始入门
本文使用的数据集为ggplot2包自带的diamonds数据集,其包含了约54000颗钻石的价格和质量的信息。这组数据涵盖了反映钻石质量的四个“C”——克拉重量(carat)、切工(cut)、颜色(color)和净度(clarity),以及五个物理指标——深度(depth)、钻石宽度(table)、x、y、z。如下图:本文使用的另一个数据集是原始数据的一个容量为100的随机样本se
2015-08-26 19:03:00
6159
原创 机器学习基本算法
1Logistic回归:优点:计算代价不高,易于理解和实现。缺点:容易欠拟合,分类精度可能不高。适用数据类型:数值型和标称型数据。类别:分类算法。适用场景:解决二分类问题。简述:Logistic回归算法基于Sigmoid函数,或者说Sigmoid就是逻辑回归函数。Sigmoid函数定义如下:1/(1+exp(-z))。函数值域范围(0,1)。可以用来做分类器。Sigmoid函数
2015-08-26 19:02:58
914
原创 机器学习基础概念
1.基础概念:(1)10折交叉验证:英文名是10-foldcross-validation,用来测试算法的准确性。是常用的测试方法。将数据集分成10份。轮流将其中的9份作为训练数据,1分作为测试数据,进行试验。每次试验都会得出相应的正确率(或差错率)。10次的结果的正确率(或差错率)的平均值作为对算法精度的估计,一般还需要进行多次10折交叉验证,在求其平均值,对算法的准确性进行估计。(2)
2015-08-26 19:02:55
509
原创 深入浅出SQL(三)——表的规范化
原子性:对数据具有原子性,就表示它已经被分割至最小块,已经不能或不应该再被分割。原子性数据规则:规则1:具有原子性数据的列中不会有多个类型相同的值如一种食物的成分列,若”成分“列中有多种成分,如何方便查找。规则2:具有原子性数据的表中不会有多个存储同类数据的列如一个老师带有多个学生,有student1、student2、student3等列规范化表的优点:1 规范化表中没有重复的数据
2015-08-26 19:02:51
1044
原创 深入浅出SQL(2)——select、update…
select语句where 列名='值'(文本型需加单引号,数字不需要)插入(查询)数据本身含有单引号'时(1)添加反斜杠\ (2)添加另一个单引号'例:select * from my_contactswhere location='Grover's MILL,NJ'; (错误写法)则可以写为:select * from my_contactswhere location='
2015-08-26 19:02:46
373
原创 深入浅出SQL(1)
创建数据库create database gregs_list;告诉RDBMS使用哪个数据库use gregs_list;创建简单的表create table doughnut_list( dougnut_name varchar(10), dougnut_type varchar(6));常用数据类型char varchar blob int dec(10,6) date
2015-08-26 19:02:42
568
原创 分类算法——决策树(1)
决策树归纳是从类标记的训练元组学习决策树。决策树是一种类似于流程图的结构,其中,每个内部节点(非树叶节点)表示在一个属性上的测试,每个分枝代表一个测试输出,而每个树叶节点(或终节点)存放一个类标号。树的最顶层节点是根节点,一颗典型的决策树如下图所示:1 决策树归纳典型的算法有ID3 (迭代的二分器)、C4.5、 CART(分类与回归树),三种算法均采用贪心(即非回溯的)方法,其
2015-08-26 19:02:35
1347
原创 最小二乘(OLS)回归法及其在R中的…
回归分析指用一个或多个预测变量(也称自变量或解释变量)来预测响应变量(也称因变量、效标变量或结果变量)的方法。回归包括简单线性、多项式、多元线性、多变量、Logistic回归、泊松、时间序列、非线性、非参数、稳健、Cox比例风险回归等多种形式。下文主要介绍普通最小二乘(OLS)回归法,包括简单线性回归、多项式回归和多元线性回归。1 OLS回归条件:减小因变量的真实值与预测值的差值来获取模型
2015-08-26 19:02:31
57518
原创 主成分分析和因子分析及其在R中的…
1 主成分分析和因子分析比较主成分分析和探索性因子分析是两种用来探索和简化多变量复杂关系的常用方法,它们之间有联系也有区别。主成分分析(PCA)是一种数据降维方法,它能将大量相关变量转化为一组很少的不相关变量,这些无关变量称为主成分。例如,使用PCA可将30个相关(很可能冗余)的环境变量转化为5个无关的成分变量,并且尽可能地保留原始数据集的信息。相对而言,探索性因子分析(EFA)是一
2015-08-26 19:02:29
6842
原创 分类算法——决策树算法及其R实现
决策树定义以鸢尾花为例子来说明: 观察上图,判决鸢尾花的思考过程可以这么来描述:花瓣的长度小于2.4cm的是setosa(图中绿色的分类),长度大于2.4cm的呢?可以通过宽度来判别,宽度小于1.8cm的是versicolor(图中红色的分类),其余的就是virginica(图中黑色的分类)用图形来形象的展示上述思考过程便得到了下图一棵决策树:这种从数据产生决策树的机
2015-08-26 19:02:26
1642
原创 分类算法——K近邻算法及其R实现
原理:已知样本集中每一个数据与所属分类的对应关系,输入没有标签的新数据后,将新数据与训练集的数据对应特征进行比较,找出“距离”最近的k(通常k)数据,选择这k个数据中出现最多的分类作为新数据的分类。算法描述:(1)计算已知类别数据及中的点与当前点的距离;(2)按距离递增次序排序(3)选取与当前点距离最小的k个点(4)确定前K个点所在类别出现的频率(5)返回频率最高的类别作为当前类
2015-08-26 19:02:24
9190
原创 R语言quantstrat包
在引入blotter包之后,一个完整的交易系统就已经可以建立起来了。但是作为盈利的基础,基于quantmod和TTR虽然具有了必要的建模工具,我们依然希望能够有更加灵活易用的交易建模方法。这就是quantstrat包的目标。(1)quantstrat包简介quantstrat包以xts,quantmod,TTR,blotter等为基础,提供了基于交易信号的金融交易建模和回测的基础架构。
2015-08-26 19:02:22
4646
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人