14、文本挖掘与图像处理技术详解

文本挖掘与图像处理技术详解

1. 文本挖掘

1.1 数据读取

在文本挖掘中,首先要读取数据。以JSON文件为例,使用 pandas 库的 read_json 函数来读取数据。以下是具体代码:

import pandas as pd
# 假设JSON文件每行一个JSON项
df = pd.read_json("TFIDF_news.json", lines=True)

读取数据后,可以查看数据的基本信息,如数据类型、行数等:

print(df.dtypes)
# 查看数据行数(数据点数量)
print(len(df))
# 随机抽取3条数据查看
print(df.sample(3))

1.2 日期范围

数据中的文章日期范围在2014年7月至2018年7月之间。可以使用 hist 函数绘制日期的直方图:

df.date.hist(figsize=(12, 6), color='#86bf91')

1.3 类别分布

数据中共有31个类别,大部分文章与政治相关,教育相关的文章数量最少。可以使用以下代码查看类别数量和绘制类别分布柱状图:


                
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值