R语言可视化作图笔记(5)文本可视化

文本可视化(Text Visualization)

词云(Word Cloud)

本例中Five.txt是一个包含对CASIO某一手表的所有五星好评,分别用到了tmwordcloudRColorBrewer建立词云

data<-read.table("Five.txt",header=F, sep='\n') #读取文档
library(tm)
library(wordcloud)
library(RColorBrewer)
data$doc_id=1:nrow(data)
colnames(data)[1]<-"text"

#把data中的每一行当成单独的文档
mycorpus <- Corpus(DataframeSource(data)) #生成语料库(Corpus,词汇数据的集合)
mycorpus <- tm_map(mycorpus, removePunctuation)
mycorpus <- tm_map(mycorpus, function(x) removeWords(x, stopwords("english")))
tdm <- TermDocumentMatrix(mycorpus) #生成Term-document矩阵
m <- as.matrix(tdm)

#归并所有行
v <- sort(rowSums(m),decreasing=TRUE) #求得各词的频数
d <- data.frame(word = names(v),freq=v) 
pal <- brewer.pal(6,"Dark2")
pal <- pal[-(1:2)] #生成调色板(palette)
wordcloud(d$word,d$freq,
          scale=c(6,.3), #词大小范围
          min.freq=4,   #最小频率
          max.words=100,  #最多词数
          random.order=F, rot.per=.15, colors=pal, vfont=c("sans serif","plain"))

在这里插入图片描述

短语网(Phrase Nets)

短语网是通过连接词找到其他高频词,例如英文中的am,is, are, was, were,a,the,of 等等。借助一个java小程序 phrase-nets (如果外网上不了,就在这里下载),下图是Five.txt以 am,is,are,was,were 为连接词的短语网(前20高频词)
在这里插入图片描述

词汇树(Word Tree)

最后一个是词汇树,借助网站,来绘制Five.txt的词汇树。直接将文档中的内容复制到下图的输入框中,点击生成
在这里插入图片描述
在这里插入图片描述

其他

总之,不管是WordCloud,PhraseNets,还是WordTree中出现的词仅表示该词为文中的高频词,具体意义还需要使用者自己推测与分析。

### 数据可视化界面开发与配置 在 PyCharm 中进行数据可视化界面的开发,可以通过集成 Python 的主流可视化库来完成。以下是一些关键步骤和注意事项: #### 使用 Matplotlib 进行基本绘图 Matplotlib 是最常用的 Python 可视化库之一,可以轻松创建各种类型的图表。为了在 PyCharm 中使用 Matplotlib,需先确保已安装该库。 ```bash pip install matplotlib ``` 随后可以在脚本中引入并绘制简单图表: ```python import matplotlib.pyplot as plt x = range(1, 15, 1) # X轴范围从1到14,步长为1 y = range(1, 42, 3) # Y轴范围从1到41,步长为3 plt.plot(x, y) # 创建折线图 plt.xlabel('X Axis') # 设置X轴标签 plt.ylabel('Y Axis') # 设置Y轴标签 plt.title('Simple Line Chart') # 添加标题 plt.show() # 显示图像 ``` 此代码片段展示了如何利用 `matplotlib` 库生成一条简单的折线图[^2]。 #### 配置 PyCharm 支持交互式绘图 为了让 PyCharm 更加适合数据可视化的开发工作流,建议启用 SciView 或者 Jupyter Notebook 插件。具体方法如下: - **SciView**: 安装 DataSpell 插件后可获得增强版的数据探索体验。 - **Jupyter Integration**: 将本地运行的 Jupyter 笔记本连接至 PyCharm 并直接编辑单元格中的代码即可实时预览结果[^4]。 #### 导入外部数据源用于复杂分析场景 当项目涉及大量实际业务逻辑时,则可能需要加载 CSV 文件或其他结构化文件作为输入素材来进行深入研究。下面给出一段示范程序说明怎样借助 Pandas 处理 Excel 表单里的数值型字段再呈现出来: ```python import pandas as pd import seaborn as sns sns.set_theme(style="whitegrid") # 加载Excel文档 df = pd.read_excel("data.xlsx", sheet_name='Sheet1') # 提取特定列构建新的DataFrame对象 subset_df = df[['ColumnA', 'ColumnB']] # 利用Seaborn画散点分布图 ax = sns.scatterplot(data=subset_df, x="ColumnA", y="ColumnB") plt.show() ``` 这里运用到了另一个强大的统计作图工具 Seaborn 来提升视觉效果[^3]。 --- ### 注意事项 对于初学者来说,在刚开始接触这些技术之前最好熟悉一下 Python 基础语法以及常用的标准库函数定义;另外也要记得定期更新所依赖的各种第三方模块版本号以便享受最新特性修复带来的便利之处。
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值