小火柴123
本人研究生毕业,一名R语言爱好者、使用者和推广者,曾用R语言发表多篇核心期刊论文。
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
R语言从入门到精通Day5之【数据输入】
数据输入是进行数据分析的第一步,从简单的文本数据导入到连接专业的数据库,R提供了多种数据输入的方法,可以根据你的数据来源选择合适的方法。欢迎大家在评论区留言或私信,交流学习心得或学习R的过程中遇到的问题。原创 2025-10-08 18:34:01 · 173 阅读 · 0 评论 -
R语言从入门到精通Day1之【R语言介绍】
如今,大数据科学不再是高高地挂在神坛之上,已经广泛应用到我们的生活中的任何一个角落在之中,大到国民经济发展、航空航天等领域,小到居民出行、购物等方面,我们置身在大数据的海洋之中,感受大数据给生活带来的便利。如果你不知道什么是R,什么是数据科学,可以看以下的介绍。R语言是一种为统计计算和绘图而生的免费软件环境,它是一套开源的数据分析解决方案,由一个庞大的全球性研究型社区来维护。目前市面上也不少的统计分析和绘图软件,比如,SPSS、SAS、Stata和Excel,我们为什么要选择学习R语言呢?...原创 2022-08-21 18:34:17 · 1275 阅读 · 2 评论 -
R爬虫常用的包与用法
1. xml2用于解析xml报表(parse XML)使用简单、一致的接口处理XML文件。构建在’libxml2’ C库之上。xml2包是到libxml2的绑定,这使得使用r中的HTML和XML很容易。这个API多少受到了jQuery的启发。Usage如下:library("xml2")x <- read_xml("<foo> <bar> text <baz/> </bar> </foo>")xxml_name(x)xml_c原创 2020-05-17 16:33:17 · 1204 阅读 · 3 评论 -
利用R通过顺企网根据公司名称爬取企业地址
利用R通过顺企网根据公司名称爬取企业地址有时我们有公司名称数据但是没有地址,需要根据公司名称找出企业的地址,描述其空间布局,如果数据量很大,手动在网页中操作费时费力,R语言提供了一个解决的办法,前提是该网站能够与机器交互(即没有反爬机制,或者有但限制较小)。其过程如下1. 首先读取数据并作简单处理打开顺企网检索某个公司发现其链接是以下形式,其特征是字符串+“公司名称”构成了一个完整的链接因此可以对每个公司名称构建url地址,然后根据url地址获取页面信息#library packeges&g原创 2020-08-03 19:20:02 · 4148 阅读 · 7 评论 -
R语言模糊匹配
模糊匹配是指根据名词中字符的相似特征,将两个相似的名词进行匹配,以获取另一个表中对应名词的属性数据。相同名词之间的匹配可以参考以前的一篇文章(利用R解决常见的数据匹配问题),但是现实中,由于数据来源不同,同一对象所表达的名称不同,但两个名称之间仍有一定的相似性,本文利用分词、投票的原理,将两个表格中相似程度最高的两个名词进行匹配。...原创 2020-11-13 11:10:36 · 4849 阅读 · 1 评论 -
泊松回归R语言实例
泊松回归当通过一系列连续型和/或类别型变量来预测计数型结果变量时,泊松回归是一个非常有用的工具。泊松回归(Poisson regression)是用来为计数资料和列联表建模的一种回归分析。泊松回归假设反应变量Y是泊松分布,并假设它期望值的对数可被未知参数的线性组合建模。泊松回归模型有时(特别是当用作列联表模型时)又被称作对数-线性模型。该模型在地理学中被广泛应用,如Wu、张华和贺灿飞运用泊松模型分别研究了外资企业在广州和北京城市内部区位选择。以下文献列举了泊松回归在地理学中的应用:[1] Wu F.原创 2020-07-29 21:37:33 · 6730 阅读 · 4 评论 -
R语言处理时间序列数据
R语言处理时间序列数据原创 2020-07-20 11:54:25 · 9880 阅读 · 1 评论 -
R语言Logist回归
Logist回归Logistic回归又称Logistic回归分析,是一种广义的线性回归分析模型,常用于数据挖掘,疾病自动诊断,经济预测等领域。当通过一系列连续型和/或类别型预测变量来预测二值结果型变量时,Logistic回归是一个非常有用的工具。研究数据该数据集为AER包中的Affairs数据集,通过翻译可以发现该数据为“婚外情数据”,取自于1969年《今日心理》所做的一个非常有代表性的调查,变量名称解释如下:affairs:一年以来婚外私通的频率gender: 性别age:年龄yearsm原创 2020-07-14 17:15:11 · 2262 阅读 · 1 评论 -
R数据分类汇总
数据的分类汇总原创 2020-07-04 17:14:36 · 1548 阅读 · 0 评论 -
利用R语言OLS回归分析
回归分析是统计学的核心问题,通常用来用一个或多个解释变量来预测相应变量,有效的回归是一个交互的、整体的、多步骤的过程,而不仅仅是一个技巧OLS回归为了能够恰当地解释OLS模型的系数,数据必须妈祖以下假设: 正态性,即对于固定的自变量值,因变量值呈正态分布 独立性,因变量值之间相互独立 线性, 因变量与自变量之间线性相关 同方差性,因变量的方差不随自变量的水平不同而变化如果违背上述假设,统计检验结果或所得的置信区间很可能就不精确了简单线性回归数据准备提取鸢尾花数据中的山鸢尾数据作为本原创 2020-06-28 10:19:14 · 5807 阅读 · 1 评论 -
随机森林_R代码及用法
随机森林(Random Forests)简介Nilsson在1965年提出:由多位专家组合而成,按一些特定的方式(如投票法,权重法)整合各位专家的意见进行决策,其得到的结果会比只有单个专家的效果更好。由于每位专家的擅长之处不同,因此通过组合的机制可以让专家之间彼此互补,得到更好的结果。随机森林(Random Forests)属于套袋法的一种,是基于决策树所建立的,结合多个决策树的预测结果,而每棵树都是根据随机森林的随机向量的值所建立的。随机森林在影响因素探讨上,现有研究表明,随机森林不需要估计一般回归原创 2020-06-20 16:33:39 · 8320 阅读 · 6 评论 -
利用R处理复杂表格1
复杂表格处理之多个表格数据提取至一个表格有时我们会遇到这样的数据(如下图),即一个Excel表格中镶嵌了多个表格,需要提取其中的部分指标,如果数据量非常大,R提供了便捷的解决方案,代码如下:> #设置工作空间> setwd("F:\\affair")> #读取数据> shandong <- read.csv("山东省.csv")> #加载dolyr函数包,利用此包过滤数据> library(dplyr)> #查看数据> head(sh原创 2020-06-06 09:54:10 · 802 阅读 · 1 评论 -
利用R解决常见的数据匹配问题
数据匹配问题有时我们需要将两个表之间根据某个字段的名称进行匹配,如果数据量达到万级单位,R提供了高效的解决方案,下面以成绩表作为示例> ###数据匹配问题> #创建成绩表> name <- c("张三","李四","王五","小明","张华","李然","马涛","魏然")> chinese <- c(88,55,56,89,58,65,75,56)> english <- c(89,48,57,78,29,68,89,64)> cj_da原创 2020-06-03 10:16:15 · 1996 阅读 · 6 评论 -
R_文字识别(OCR)
本文介绍利用tesseract包对文字进行识别当有大批量的图片文字需要转换成文字时,该方法提供了高效的解决方案,不仅支持中英文图片识别,还支持pdf版本识别,是不是功能很强大,话不多说,直接写代码吧:install.packages("tesseract") #安装包library(tesseract)library(askpass) #与tesseract包结合支持PDF文字识别setwd("E:\\R_study\\文字识别") #设置工作空间 #添加中文识别数据库tesseract_d原创 2020-05-18 10:07:39 · 8947 阅读 · 5 评论 -
Pearson相关系数R代码实现
Pearson相关系数(Pearson Correlation Coefficient)Pearson’s r,称为皮尔逊相关系数(Pearson correlation coefficient),用来反映两个随机变量之间的线性相关程度。要理解皮尔逊相关系数,首先要理解协方差(Covariance)。协方差可以反映两个随机变量之间的关系,如果一个变量跟随着另一个变量一起变大或者变小,那么这两个变量的协方差就是正值,就表示这两个变量之间呈正相关关系,反之相反。如果协方差的值是个很大的正数,我们可以得到两原创 2020-05-14 20:34:11 · 16365 阅读 · 1 评论 -
R语言基础(数据类型,运算符,数据整理,管道操作)
基础数据类型R语言中的数据类型包括逻辑型(logical)、数值型(numeric)、整数型(integer)、字符型(character)、复数型(complex)和原始类型(raw)。结构体对象数据类型R的结构数据类型包括向量、列表、二维矩阵、三维矩阵、因子和数据框,其创建方式和元素访问代码如下表:类别创建方式元素访问向量(vector)c( )v[index...原创 2020-04-10 21:45:23 · 1188 阅读 · 5 评论 -
R软件的下载与更新
R学习开篇本人一枚地理学在读研究生,一次偶然的机会接触R,便对R产生了浓烈的兴趣,学习R有半载时间,但并非专业人才,没有形成系统的学习,一些代码总是学了又忘,忘了又学。平常看优快云博主大神的文章也学了不少知识,俗话说好记性不如烂笔头,优快云是个很好的平台,便萌生出将自己的学习整理成笔记,便于自己将来复习之用,当然如果你刚接触R,咱们可以共同学习,也欢迎各大神的批评指正。R简介R语言主要...原创 2020-04-09 17:28:45 · 1420 阅读 · 2 评论
分享