- 博客(27)
- 收藏
- 关注
原创 利用Python进行数据分析_第六章:…
读取文本格式的数据:read_csv默认分隔符是逗号。read_table默认分隔符是制表符(“\t”)。read_fwf读取定宽列格式数据(没有分隔符)read_clipboard读取剪贴板中的数据。将网页转换为表格时很有用。header=none:pandas为其分配默认的列名。否则用:names=[“”,“”]。读取时,列索引参数:index_col=‘’。skiprows跳
2017-04-17 15:02:33
1465
原创 读书笔记2:利用Python进行数据分…
pandas两种主要数据结构:Series和DataFrame。大小写敏感Series:索引index和数据values。可以看成一个定长的有序字典。通过字典创建Series:df=Series(s1)s1为字典。传入字典,结果Series中的索引就是原字典的键(有序排列)例如s=[‘A’,‘B’]df1=Series(df,index=s)NaN:非数字,not a number,
2017-04-17 15:02:29
1015
原创 读书笔记1:Python参考手册(第四…
%d整数 %s字符串 %f浮点数 特殊字符序列:=宽度为3的列中右对齐 %0.2f在小数点后只出现两位数字例如:print(‘heis%dyearsold’%(25))记住最后的%。 format()格式符 代码太长,用反斜杠\ python没有switch或case,用elif语句文件输入输出:open()readline()包括结尾的换
2017-04-17 15:02:25
646
原创 读书笔记2:利用Python进行数据分…
numpy.where函数是三元表达式xifconditionelsey的矢量化。例如:np.where(x>0,yes,no)跟ifelse(python里面的是elif)一样,前面是判断的布尔值。 np.random.randn(5,4)正态分布的数据 np.unique去重,唯一值并返回已排序的结果。 将数组以二进制格式保存到磁盘P118。
2017-04-17 15:02:21
839
原创 《机器学习》周志华 读书笔记
第一章:绪论泛化能力:学到模型适用于新样本的能力。衍生:泛化误差归纳偏好:算法在机器学习过程中对某种假设的偏好“奥卡姆剃刀”原则:若有多个假设与观察一致,则选最简单的那个NFL定理:没有免费的午餐。算法没有优劣好坏,针对具体问题具体分析第二章:模型评估与选择2.1经验误差与过拟合P23过拟合:为了得到一致假设而使假设变的过度复杂。模型过度拟合,在训练集上表现好,测试集上
2017-04-17 15:02:17
3083
原创 Python第二弹:数据处理
重复值处理:drop_duplicates()(去重distinct)缺失值处理:方式1:数据补齐;2:删除对应缺失行,函数dropna();3:不处理。空格值处理:strip()字段抽取:slice(start,stop)字段拆分:split(sep,n,expand=False),n为分割为几列,expand为是否展开为数据框,如果为True,返回数据框,否则返回Series。记录
2017-04-17 15:02:12
525
原创 MySQL的SQL查询优化
慢查询基础:1:是否向数据库请求了不需要的数据 查询不需要的记录;多表关联时返回全部列;总是取出全部列;重复查询相同的数据。2:MYSQL是否在扫码额外的记录SQL查询优化:1:索引2:where限制或筛选条件3:改变库表结构4:一个复杂查询拆分为几个简单查询5:切分查询,例如:设置limit6:查询本身函数的使用,例如:用in()代替关联查询7:使用哈希关
2017-04-17 15:02:03
417
原创 R语言与网站分析 第9章:样本…
第九章:样本间的关系 P3299.1关联分析信任度(置信度confidence):支持度(support):提升度(lift):关联分析:设置取值范围为[0%,100%]的最小支持度阈值min_sup和最小信任度阈值min_confid,提升度lift要大于1才有意义。9.1.2Apriori算法的R语言实现arules包的apriori函数,构建稀疏矩阵并转化为apriori函数
2017-04-17 15:01:54
856
原创 R导论中文版
检验一个数据集的分布: P55 8.2章summary,fivenum函数求汇总信息或者stem(茎叶图)反映数据集的分布情况。d(density):概率密度函数;p(CDF):累积分布函数;q(quantile)表示分位数函数;r(random):表示随机模拟.density绘制更为精致的密度图。可以选用试错法(trial-and-error)选择带宽bw(bandwidth)(P.S
2017-04-17 15:01:50
2002
原创 R语言与网站分析 第8章样本分…
第八章:样本细分8.1数据降维因子载荷(loading):定义:第8章样本分析:聚类分析" TITLE="R语言与网站分析 第8章样本分析:聚类分析" />第8章样本分析:聚类分析" TITLE="R语言与网站分析 第8章样本分析:聚类分析" />5.特征值和信息损失率 P2966.因子得分:计算好因子载荷A和特殊因子e后,计算因子F的数据。计算方式有:加权最小二乘法(Bartle
2017-04-17 15:01:46
1695
1
原创 R语言与网站分析 第7章分类指…
7章分类指标建模:分类分析 决策树分裂 第7章分类指标建模:分类分析" TITLE="R语言与网站分析 第7章分类指标建模:分类分析" />信息增益:信息熵;信息增益gain(X)=info(S)-info1(S)=熵-条件熵CART算法:二分支,Gini系数 C4.5:多分支,连续/离散变量,信息增益比率(info gain ratio) C4.5如何
2017-04-17 15:01:42
2312
原创 R常用函数知识点
make.groups:实现几个相似的对象(向量或数据框)合并为一个数据框。汇总函数:tapply,aggregate函数 tapply(x,INDEX,FUN=,...,simplify=)用于向量的分组汇总分析,INDEX是因子列表;by函数雷同(数据框) aggregate(x,by,FUN,...)boxplot函数查看是否有异常值,然后用boxplot.stats
2017-04-17 15:01:37
413
原创 R语言经典实例 12-13章
12章有用的方法rowSums行的和colSums列的和对数据分组 f找到特定值的位置,match函数,最大值which.maxseq_along和seq_len总是返回一个整数向量每隔n个选定一个向量元素:v[seq_along(v)%%n==0]平行最小值:pmin(1:5,5:1)输出结果是1 2 3 2 1平行最大值:pmax(1:5,5:1)输出结果是5 4 3 4 5
2017-04-17 15:01:33
1459
原创 R语言经典实例 11章方差分析…
R语言经典实例11章方差分析:ANOVAmanova(m)给出方差分析表coefficients(m)给出模型系数coef(m)同上confint(m)给出回归系数的置信区间deviance(m)给出残差平方和effects(m)给出正交影响向量fitted(m)给出拟合y值的向量residuals(m)给出模型残差resid(m)同上vcov(m)主要参数的方差--协方差
2017-04-17 15:01:28
7391
转载 R语言回归篇
原文地址:R语言回归篇作者:霁得彩虹 R语言回归篇分类: R2014-06-0921:48 1198人阅读 评论(0) 收藏 举报R目录(?)[+]1.回归的多面性回归类型用途简单线性个量化的解释变量来预测一个量化的响应变量(一个因变量、一个自变量)多项式一个量化的解释变量预测一个量化的响应变量,模型的关系是n阶多项式(一个预测变量
2017-04-17 15:01:21
9153
1
原创 R语言经典实例(9-10章)
R语言经典实例知识点规范化数据:scale(x) 公式:(y-mean(x))/sd(x)第九章:检验: 样本均值算总体均值:t检验:t.test(x,mu=m) mu为总体均值,p 样本比例:prop.test检验:prob.test(x,n,p) 样本量是n并且样本包含x次成功。p均值置信区间:t.test(x,conf.level=0.99) 99%的置信区间,默认95
2017-04-17 15:01:16
3113
原创 数据挖掘:R语言实战(抽样)
抽样: 简单随机抽样:sample(x,size,replace=F,prob=NULL),size是抽样的个数N,replace默认是无放回,prob等概率抽样。prob=1时候就是直接连续重复抽样。 分层抽样:sampling包中的strata函数,用法:strata(data,stratanames=NULL,size,method=c('srswor','srswr','
2017-04-17 15:01:11
4878
原创 正则表达式全部符号解释及55分钟学…
字符描述\将下一个字符标记为一个特殊字符、或一个原义字符、或一个向后引用、或一个八进制转义符。例如,'n' 匹配字符 "n"。'\n' 匹配一个换行符。序列 '\\' 匹配 "" 而 "\("则匹配 "("。^匹配输入字符串的开始位置。如果设置了 RegExp 对象的 Multiline属性,^ 也匹配 '\n' 或 '\r' 之后的位置。$匹配输入字符串的结束位置
2017-04-17 15:01:06
2829
原创 Python入门教程(1)
工作告一段落,开始写入门Python系列,这个系列时间跨度很长,原计划是2016年7月份才正式学Python的,结果最近来了一个会Python的同事,简单的让我入了门,所以先写再说吧。按照习惯第一次输入‘hello world’,完成第一个Python程序。操作符: 加-减*乘/除用户输入:input,老版是raw_input索引差不多,但是跟R唯一区别是:R是第一个字符索引是[1]
2017-04-17 15:01:01
486
原创 R语言编程艺术完结版和读后感
R语言编程艺术这本书后面干货很少了,对我个人帮助不大,第十四章可以简单看看,讲的是提高代码运行效率的,其他的在日常工作中几乎没有帮助。这本书对于初学者或者中级者帮助不大,对高级R编程达人可能有一点帮助吧,还是干货太少了,和R语言实战、learningR等书籍比起来有点弱,R语言的书越出越多,好书真没几本。反正抱怨了不少了,不再提它了,下一步就是作图包:ggplot2的讲解,看完ggplot2,那
2017-04-17 15:00:54
830
原创 R语言编程艺术 第十一、十二章
重头戏来了,字符串是重点,虽然我以前也发过相关的博文,但是看看R语言编程艺术这本书是怎么讲解的。第十一章:字符串操作:grep(pattern,x)语句在字符串向量x里搜索给定子字符串pattern。sprintf(...)按一定格式把若干个组件组合成字符串。例如:i s“the square of %d is %d”,i,i^2) s 结果:“the square o
2017-04-17 15:00:50
568
原创 R语言编程艺术 第九、十章
第9章:面向对象的编程9.1.X章,我有点看的稀里糊涂的,太编程化了。汗......好吧,后面讲的S4和S3,区别我是懂得,但是不会用。目前估计看不懂,等我学会python再来看看,毕竟不是专业的程序员。数据狗不好做。直接到9.4.5 exists()函数:根据其参数是否存在返回TRUE或FALSE。要注意把参数放在引用号里面。直接下一章,感兴趣的朋友可以看看第九章的内容,的确
2017-04-17 15:00:45
366
原创 R语言编程艺术 第七八章
发文字有非法字符,搞半天没搞定,所以截图发图片:第七八章" TITLE="R语言编程艺术 第七八章" />第七八章" TITLE="R语言编程艺术 第七八章" />第七八章" TITLE="R语言编程艺术 第七八章" />第七八章" TITLE="R语言编程艺术 第七八章" />
2017-04-17 15:00:40
609
原创 争取10分钟学会正则表达式
看了很多10分钟教程,10分钟学会Python,10分钟学会R,10分钟学会linux,10分钟其实什么也学不会,最多是简单的入门,今天就简单的讲讲R语言的正则表达式,处理字符数值的必备利器。正则表达式简洁版,争取10分钟学会,里面的个别案例我改了一些,让大伙更明了,结合昨天发的文章一起看。1 正则表达式简介正则表达式是用于描述/匹配一个文本集合的表达式:· 一 些特殊
2017-04-17 15:00:36
1048
原创 R语言 字符串的处理(解析+案例)
数据分析师的日常工作就是数据预处理,数据预处理最经常遇到的问题就是字符串的处理,这部分很难,我以前看过一些R的书和一些技术博客,现在依旧发现有些细节做不好,下面我就转载别人的一些字符串处理的方法,我会在下面说说我的看法:字符串分割函数:strsplit( )字符串连接函数:paste( )计算字符串长度:nchar( )字符串截取函数:substr()及substrin
2017-04-17 15:00:31
1321
原创 R编程艺术读书笔记(5-6章)
学习和使用R已经有1年多的时间了,看了很多R教程视频,看了很多电子书,买了几本R相关的书,现觉得编程思维很重要,所以继续钻研R编程艺术,已读到第五章,希望读完整本书可以帮助自己R达到大成的状态。R语言编程艺术:第五章drop=F表示向量变成数据框的参数条件。complete.cases()用法跟na.rm和na.omit有点相似,但可以精确删除某行或某列。用法是:x【complete
2017-04-17 15:00:23
779
2
原创 读书笔记:《机器学习》周志华
《机器学习》周志华第一章:绪论泛化能力:学到模型适用于新样本的能力。衍生:泛化误差归纳偏好:算法在机器学习过程中对某种假设的偏好“奥卡姆剃刀”原则:若有多个假设与观察一致,则选最简单的那个NFL定理:没有免费的午餐。算法没有优劣好坏,针对具体问题具体分析第二章:模型评估与选择2.1经验误差与过拟合P23过拟合:为了得到一致假设而使假设变的过度复杂。模型过度拟合,在训
2017-03-05 20:44:07
2272
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人