社交媒体与PDF文件的数据挖掘与分析
1. Twitter数据挖掘与图像处理
在处理Twitter数据时,我们可以使用列表推导式来创建每种实体类型的值列表。例如:
[s['text'] for s in entities['symbols']]
这个表达式会遍历 entities['symbols']
中的值序列,每个对象都是一个小字典,会被赋值给 for
表达式中的变量 s
,最终 s['text']
的值会组成一个列表。
以一条推文为例:
What does the #appdev industry look like today? Find out with our
#SkillUp report! http://t.co/ocxVJQBbiW http://t.co/nKkntoDWbs $ [] @
[] # ['appdev', 'SkillUp'] ['http://bit.ly/PacktDailyOffer'] ['http://
twitter.com/PacktPub/status/626678626734333956/photo/1']
从这条推文中,我们可以看到推文本体,没有 $
符号和特定的 @
用户提及,有两个 #
标