- 博客(17)
- 收藏
- 关注

原创 关于本博客的说明与规范
前言:一年以前,我接触到了R语言,被这门语言深深吸引了,那时只是觉得编程很新鲜有趣,于是学习的很认真,希望好好掌握这门学科,以后走向分析师这一行。但是不幸的是,中国分析师这个行业据我最近了解,真的很惨淡且待遇糟糕。R这门语言在中国的普及实在是糟糕,而我国金融行业也少有使用编程语言进行辅助的全面人才,深感中美技术与理念的差距。即使是我的本科学校已然如此优秀,在课程的编排上竟也是如此幼稚(近期才在统计...
2018-07-11 14:33:33
306
原创 R语言入门教学(5)- For while if/else 以及逻辑符号
本文编辑版本:R version 3.5.0一、 循环for while语句回顾R中的数据结构,假设:x <- c(5, 2, 6, 8, 4, 2)这是一个简单求和然后求均值的问题,对于一个vector,求每个数的总和,你可以简单地写出: sum(x)/n 或者mean(x)来求均值(没人会说这不行)。当然为了教学,我想在这里引出循环来解决这个问题:n <...
2019-04-02 09:54:57
2447
原创 机械学习与R语言--Naive Bayes 朴素贝叶斯在R语言中的实现
为什么天气预报说70%概率下雨?为什么垃圾短信垃圾邮件被自动归类?这一切的基础算法便是朴素贝叶斯理论(算法有很多,这仅是其中之一)。1.由贝叶斯理论到朴素贝叶斯(naive bayes)理论的基础我就不讲了,我讲一下两个理论的区别。原本贝叶斯理论用来处理上述事件是很好的,但是由于贝叶斯理论在计算条件概率时,即在B发生的情况下A发生的概率,并不能简单的等同于A的概率而是. 除非A B互为独...
2019-03-29 20:33:26
4191
转载 Ad hoc methods and mice (R语言 Mice包处理缺失值)
This is the first vignette in a series of six. It will give you an introduction to the R-package mice, an open-source tool for flexible imputation of incomplete data, developed by Stef van Buuren and ...
2018-07-26 11:24:07
2580
原创 机械学习与R语言---决策树算法的实现与优化(Decision tree algorithm)
本篇需要使用的数据集为credit.csv,下载好并保存于R目录。1.理解决策树算法简而言之,决策树是一个分类器(classifier)。 它利用树状结构,来对于特征以及潜在的结果之间的关系建立模型。如下图(来源网络):在决定是见于不见的时候,决策树给出了一些节点(node)来作为判断依据,至于这些节点是如何被找到的,内在的算法是什么,这个很难在这里讲清楚(而且严格地讲,我们每个人...
2018-07-17 18:09:21
4445
原创 R语言笔记:[[ :punct: ]]在gsub中的使用
[[ :punct: ]]和众多regex类似,这个表示所有的标点符号。在数据分析时,如果你不需要句子里的标点,可以使用:gsub("[[:punct:]]", "", x) #这里将x数据里的所有标点符号变成“”(空)。如下:x<- 'hello.+$%..world'gsub("[[:punct:]]", "", x) #结果为 "helloworld"可以看到,所有标点符号都被..
2018-07-12 23:34:42
4567
原创 机械学习与R语言- 懒惰的KNN 算法
本次需要使用到《机械学习与R语言》中的数据包‘wisc_bc_data.csv’。可以到网上自行搜索下载or到我github里下载:到第二版第三章,点进wisc_bc_data.csv -> 再点击 raw -> 右键另存为本文代码多来源于《MACHINE LEARNING WITH R》- Brett Lantz1.临近分类法(KNN)KNN 算法是一个原理极其简单的算...
2018-07-10 17:35:47
1949
1
原创 R语言入门教学(4)-R的数据结构
前言:经过之前的学习,大家应该大概对R有了一些了解,但是又会感觉懵懵懂懂,这很正常,学习一门语言的路很长,并不能通过一早一夕变进步神速,贵在持之以恒。但无论学什么,基础一定要打好。学知识切记不可如空中楼阁,这会很影响我们向更高层进步。如果凡事只学习应用而不学习背景与基础,也许在面对某些特定项目时,你表现的和别人的水平并无很大差距,但是遇到新知识时,接收能力却会和别人有天壤之别。今天所写的是一些很基...
2018-07-09 17:25:15
602
原创 R语言数据可视化-- boxplot 异常点选取原理讲解
本次详解boxplot原理,同时需要使用到《机械学习与R语言》中的数据包‘usedcars.csv’。可以到网上自行搜索下载or到我github里下载:https://github.com/HAI2018/MLwR/ 到第二版第二章,点进usedcars.csv -> 再点击 raw -> 右键另存为 Boxplot一直都是我们对数据异常点观测的一个简单且直接有效的方式,虽然它并不...
2018-07-09 15:48:00
7810
原创 R语言入门教学(1)——Rstudio的安装
R的安装**所有代码都会在Rstudio里面运行,我们安装R只是为了运行Rstudio,可以理解为Rstudio让大家写起代码来更加方便。1.R 运行code的快捷键 ctrl+enter2.在左上角写code,这些代码是所谓的草稿,R的代码支持一行一行run3.跑出来的结果会在左下角Console框内呈现4.右边两个框一般只用来查看结果,并不对代码造成影响5.现在看不大懂无所谓,写几行代码跑跑就...
2018-07-02 18:33:14
8789
原创 BeautifulSoup在R语言里的实现
一说到爬虫,大家第一时间想到的便是Python,但是实际上,R也能实现爬虫的功能,并且在某些特定的结构中,R的效率非常高,下面就来介绍一个关于R语言实现BeautifulSoup的功能的例子。同样的,我们以天天基金网的QDII 基金净值为例子(详情可以见我上一篇文章点击打开链接),为了爬取其中symbol以及净值数据,R可以通过短短几行代码实现:install.packages('XML') #安...
2018-06-28 18:54:06
512
原创 关于Python BeautifulSoup 爬取网页信息中文乱码 解决方法
爬取中国基金网数据时中文部分出现乱码原code如下:url=r'http://data.chinafund.cn/' urlString= urlopen(url)soup= BeautifulSoup(urlString, 'html.parser')nameList= soup.findAll('div',{'id':'content'}) #print(nameList)for name ...
2018-06-26 17:21:26
2682
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人