R和Python在数据处理与可视化中的应用
1. R语言的数据处理
在数据处理方面,R语言有诸多实用的操作。
1.1 聚类分析
聚类操作通过k - means算法实现,无需额外的特殊包,因为R的基础包自带 kmeans 函数。以下是具体的代码实现:
# create model
m <- kmeans(x = dataset, centers = 3)
dataset$cluster <- as.character(m$cluster)
# create output
output <- dataset
这里将每个 OrderQuantity 和 UnitPrice 的组合分配到一个聚类中。
1.2 关键短语提取
提取关键短语的操作与之前在R脚本可视化中的操作类似。以下是提取关键短语的代码:
# load package
library(tm)
# prepare data
vc <- VCorpus(VectorSource(dataset$EnglishProductNameAndDescription))
vc <- tm_map(vc, content_transformer(tolower))
vc <- tm_map(vc, removeNumbers)
vc <- tm_map(vc, removeWords,
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



