文本挖掘与图像处理技术详解
1. 文本挖掘
1.1 数据读取
在文本挖掘中,首先要读取数据。以JSON文件为例,使用 pandas 库的 read_json 函数来读取数据。以下是具体代码:
import pandas as pd
# 假设JSON文件每行一个JSON项
df = pd.read_json("TFIDF_news.json", lines=True)
读取数据后,可以查看数据的基本信息,如数据类型、行数等:
print(df.dtypes)
# 查看数据行数(数据点数量)
print(len(df))
# 随机抽取3条数据查看
print(df.sample(3))
1.2 日期范围
数据中的文章日期范围在2014年7月至2018年7月之间。可以使用 hist 函数绘制日期的直方图:
df.date.hist(figsize=(12, 6), color='#86bf91')
1.3 类别分布
数据中共有31个类别,大部分文章与政治相关,教育相关的文章数量最少。可以使用以下代码查看类别数量和绘制类别分布柱状图:
超级会员免费看
订阅专栏 解锁全文
1274

被折叠的 条评论
为什么被折叠?



