10、社交媒体与PDF文件的数据挖掘与分析

最新推荐文章于 2025-11-25 11:25:43 发布

雪落无声360

最新推荐文章于 2025-11-25 11:25:43 发布

阅读量44

点赞数

CC 4.0 BY-SA版权

分类专栏： Python助力秘密特工数据处理文章标签：数据挖掘 Twitter 自然语言处理

本文链接：https://blog.youkuaiyun.com/agile9scrum/article/details/149589726

Python助力秘密特工数据处理专栏收录该内容

17 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

社交媒体与PDF文件的数据挖掘与分析

1. Twitter数据挖掘与图像处理

在处理Twitter数据时，我们可以使用列表推导式来创建每种实体类型的值列表。例如：

[s['text'] for s in entities['symbols']]

这个表达式会遍历 entities['symbols'] 中的值序列，每个对象都是一个小字典，会被赋值给 for 表达式中的变量 s ，最终 s['text'] 的值会组成一个列表。

以一条推文为例：

What does the #appdev industry look like today? Find out with our 
#SkillUp report! http://t.co/ocxVJQBbiW http://t.co/nKkntoDWbs $ [] @ 
[] # ['appdev', 'SkillUp'] ['http://bit.ly/PacktDailyOffer'] ['http://
twitter.com/PacktPub/status/626678626734333956/photo/1']

从这条推文中，我们可以看到推文本体，没有 $ 符号和特定的 @ 用户提及，有两个 # 标