R语言统计用函数归类

线性回归函数 lm(x~y)


画图函数 plot,  参数type说明了图的格式

h是柱状图

p是点图

l是线图

b是点图和线图

s是阶梯状图


abline 用于添加新的线条,可以用abline(lsfit(1:2,1:2)) 命令生成一条对角线,用该方法,可以生成任意有理数斜率的线条


list()  建立空的列表

### R语言数据爬取、整理与归类方法 #### 数据爬取 在R语言中,可以利用`rvest`包来实现网页数据的爬取。此包提供了方便的功能用于解析HTML文档并提取所需的数据[^1]。例如: ```r library(rvest) url <- "http://example.com" response <- read_html(url) # 将目标URL读取为HTML对象 data <- html_nodes(response, ".class_name") # 提取指定CSS选择器的内容 text_data <- html_text(data) # 获取纯文本形式的数据 ``` 以上代码展示了如何从特定网站抓取带有`.class_name`样式的节点中的文字内容。 对于更复杂的结构化数据,比如链家网房源信息,可以通过XPath表达式进一步精确定位所需的字段[^3]。下面是一个简单的例子展示如何使用XPath定位表格内的单元格值: ```r table_cells <- data %>% xml_find_all("//td[@class='specific_class']") %>% sapply(function(x){xml_value(x)}) ``` 这里假设我们要查找的是具有`sppcific_class`属性的所有 `<td>`标签,并将其转换成向量存储起来。 #### 数据清洗与预处理 一旦完成数据采集之后,就需要对其进行必要的清理工作以便后续分析。这一步骤可能涉及缺失值填补、异常检测以及标准化等操作。以下是几个常见的技巧: - **去除重复记录**: `unique()` 函数可以帮助识别并移除数据框里的冗余条目。 ```r clean_df <- unique(dirty_df) ``` - **替换NA值**: 对于存在空缺的位置可以选择填充平均数或其他统计指标作为替代方案之一。 ```r imputed_column <- ifelse(is.na(original_column), mean(original_column, na.rm = TRUE), original_column)[^1] ``` 另外还可以借助dplyr库来进行更加灵活高效的选择过滤排序聚合等功能应用到整个流程当中去提高效率减少错误率。 #### 数据分类与建模准备 最后,在准备好干净整齐的数据集后就可以考虑采用合适的算法模型来进行预测或者聚类等工作了。在此之前通常还需要做特征工程方面的努力包括但不限于降维技术t-SNE的应用等等[^2]: ```r tsne_result <- Rtsne(as.matrix(cleaned_dataset[, c('feature_1', 'feature_2')]), perplexity=30)$Y plot(tsne_result,col=factor(labels)) ``` 上述片段演示了怎样运用R版本的T-Distributed Stochastic Neighbor Embedding (t-SNE) 来降低维度并将结果可视化出来。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值