地理标记社交媒体中时空事件的可视化
在地理标记社交媒体数据处理中,我们可以通过一系列技术手段对推文进行分类、可视化展示,并对其效果进行评估,下面来详细介绍。
1. 数据预处理
- 网页地理编码 :利用 Google Places API v3 可以将每个网页地理编码为经纬度信息。同时,参考网页中多功能建筑的指南信息,提取小规模设施(如楼层、景点区域)的类别名称。
-
推文分类
- 分类算法选择 :经过与朴素贝叶斯分类器以及带有线性和 RBF 核的支持向量机(SVM)比较,k - 近邻(k - NN)算法在推文分类上取得了较好的效果。因此,我们采用 k - NN 算法,将一天按每 3 小时划分为 8 个时间段(黎明前、黎明、上午、中午前、午后、午后、傍晚、深夜早期、深夜晚期),基于网页中多功能建筑的类别名称对推文进行分类。
-
k - NN 算法原理
:k - NN 是一种基于目标数据和训练数据相似度的简单分类算法,使用欧几里得距离计算相似度。具体操作如下:
- 计算推文中每个单词(名词或形容词)的 DF 值,将其组成向量放入目标集。
- 为每条推文分配一个类别(类别名称)放入训练集。
- 若所有推文中不重复的单词数量为 q,则每条推文的向量用 q 维空间表示。
- 使用推文向量计算目标集 F 和训练集 L 的相似度 sim(F, L),公式为 $\sqrt{\sum_{i = 1}^{q}(F_{i}-L_{i})^{2}}$。
- 提取相似度最高的训练数据的类别,通过多数投票将每个目标数据分配到其最近训练数据中最常见的类别。
- 若有多个最常见类别,则选择与目标数据相似度最高的类别作为目标数据的类别。
2. 推文可视化
-
社交标签云生成
:为了生成社交标签云,我们应用 TF - IDF 方法提取 8 个时间段内分类推文的特征词。计算每个出现在推文中的单词 i 的 TF - IDF 值,公式如下:
- $TF=\frac{#i\ in\ each\ time\ period}{total\ #words\ in\ each\ time\ period}$
- $IDF=\frac{total\ #categories\ in\ all\ time\ periods}{#categories\ with\ i}$
- 根据 TF - IDF 值调整特征词的字体大小,生成推文的社交标签云。在本文中,仅通过改变不同时间段的字体大小提供直观的界面。
- 可视化界面 :系统的用户界面在 Web 浏览器中有三个部分,顶部是网页浏览部分,左下角是带有时间段选择栏的社交标签云,右下角是推文列表。用户在浏览网页时,可以轻松从推文中获取与空间和时间相关的事件概述或详细信息。用户还可以自由指定时间段并点击标签查看相关推文。例如,当用户浏览沃尔特·迪士尼世界度假村的官方网站时,系统会显示所有时间段的推文社交标签云(默认选中“所有时间”)和按时间排序(最新到最早)的相关推文列表,用户可以从社交标签云中快速了解圣诞节期间的活动,如星球大战相关内容。
3. 实验评估
-
数据集 :数据集从 2015 年 7 月 13 日至 12 月 17 日的日本所有地理标记推文中收集了 3160 万条推文。为了评估推文分类的准确性和验证社交标签云的生成,我们缩小了测试数据集范围:
- 一个大型购物中心“大阪 LUCUA”(纬度 34.703289,经度 135.496242),半径 r = 200 米,在 2015 年 10 月 1 日至 31 日期间共有 7366 条推文。
-
一个大型主题公园“东京迪士尼度假区(TDR)”(纬度 35.6290692,经度 139.8829573),半径 r = 800 米,在 2015 年 8 月 1 日至 31 日期间共有 8399 条推文。相关数据如下表所示:
| 时间周期 | #推文(LUCUA) | #推文(TDR) |
| — | — | — |
| 06:00–09:00(上午) | 847 | 965 |
| 09:00–12:00(中午前) | 1007 | 1745 |
| 12:00–15:00(午后) | 1209 | 1538 |
| 15:00–18:00(傍晚) | 1496 | 1518 |
| 18:00–21:00(深夜早期) | 1734 | 1498 |
| 21:00–24:00(深夜晚期) | 1073 | 1144 |
| 所有时间 | 7366 | 8399 |
-
实验 1:特征词随时间变化的验证
- 实验目的 :验证提取的特征词是否随不同时间段变化。
-
实验过程
:13 名受试者使用大阪 LUCUA 和东京迪士尼乐园(TDL)的测试数据集参与实验。我们使用 k - NN 算法计算每个时间段内每个类别的特征词的 TF - IDF 排名。通过 Spearman 等级相关系数比较以下时间段排名前 30 的特征词:
- 上午和中午前(06:00–09:00 和 09:00–12:00)
- 中午前和午后(09:00–12:00 和 12:00–15:00)
- 午后和傍晚(12:00–15:00 和 15:00–18:00)
- 傍晚和深夜早期(15:00–18:00 和 18:00–21:00)
- 深夜早期和深夜晚期(18:00–21:00 和 21:00–24:00)
-
实验结果
- 在大阪 LUCUA 的“书籍、生活日用品”和“餐厅”类别中,午后开始相邻时间段之间的相关性变高。例如,早上没有与餐厅相关的推文,所以没有关于食物的特征词。
- 在大阪 LUCUA 的“男女时尚”类别中,所有相邻时间段之间的相关性低于 0.4。
- 在大阪 LUCUA 的“甜品、食品和化妆品”类别中,上午和中午前、深夜早期和深夜晚期的相关性约为 0.4,其他相关性低于 0.4。
- 在东京迪士尼乐园的“CRITTER COUNTRY”类别中,所有相邻时间段之间的相关性约为 0.4。
- 在东京迪士尼乐园除“CRITTER COUNTRY”外的所有类别中,所有相邻时间段之间的相关性低于 0.2。
此外,我们还比较了以下时间段排名前 30 的特征词:
- 上午和午后
- 上午和深夜早期
- 上午和深夜晚期
- 午后和深夜早期
- 午后和深夜晚期
结果表明,各类别中白天和晚上的特征词相关性较低,不同时间段不同类别中的特征词发生了变化。
下面是实验 1 中时间段比较的流程图:
graph LR
A[开始] --> B[计算各时间段特征词 TF - IDF 排名]
B --> C[比较相邻时间段前 30 特征词]
C --> D[比较非相邻时间段前 30 特征词]
D --> E[分析相关性得出结论]
E --> F[结束]
-
实验 2:特征词提取准确性评估
- 实验目的 :评估基于 TF - IDF 的特征词提取用于生成社交标签云的准确性。
- 实验过程 :比较不同时间段每个类别中前 15 个高 TF - IDF 值的单词,并计算其精度。精度计算公式为 $Precision=\frac{#correct\ answers}{total\ #feature\ words\ of\ each\ category}$。10 名受试者判断每个时间段内的特征词是“与类别相关”、“不确定”还是“与类别无关”。若“与类别相关”和“与类别无关”的评估比率 $EvaluationRatio=\frac{#answers\ of\ “related\ to\ its\ category”}{#answers\ of\ “not\ related\ to\ its\ category}$ 大于 1.0,则定义为特征词的正确答案。
-
实验结果
- 大阪 LUCUA 所有类别的精度约为 0.7,其中“男女时尚”类别的精度达到 0.72。由于每层都有咖啡店,还能提取到一些关于饮料的高 TF - IDF 值单词(如草莓、冰沙)。
- 大阪 LUCUA 除午后外所有时间段的精度约为 0.7。早上有很多关于咖啡的特征词,从中午到晚上有很多关于食物的特征词。午后的精度低于 0.6,因为 Twitter 用户常在去餐厅前发布关于午餐的推文,导致一些推文分类错误。
- 东京迪士尼乐园“CRITTER COUNTRY”类别的精度为 0.655,其他类别的精度超过 0.7。“WORLD BAZAAR”类别由于推文较少,且几乎都与类别相关,精度达到 0.935。
- 东京迪士尼乐园所有时间段的精度都超过 0.7,上午(06:00–09:00)的精度达到 0.9。
通过比较大阪 LUCUA 和东京迪士尼乐园的结果,我们发现东京迪士尼乐园相关的高 TF - IDF 值单词数量更多,不同时间段同一类别中相同特征词的数量也更多。这可能是因为所有受试者都去过东京迪士尼乐园,而去过大阪 LUCUA 的受试者较少,导致大阪 LUCUA 的一些商店和产品未被识别。
大阪 LUCUA 各时间段各分类的前 15 高 TF - IDF 单词及精度如下表:
| 类别 | 06:00 - 09:00(上午) | 09:00 - 12:00(中午前) | 12:00 - 15:00(午后) | 15:00 - 18:00(傍晚) | 18:00 - 21:00(深夜早期) | 21:00 - 24:00(深夜晚期) | 精度 |
| — | — | — | — | — | — | — | — |
| 餐厅(10F) | kitchen, LUCUA, north, Osaka | engagement ring, piece, exhibition… | have a mfullal, sundubu… | Volga, pone, refresh… | rotation, sushi, Capricciosa… | chair, village, jump… | 0.709 |
| 书籍、生活日用品(9F) | outside, time, multimedia… | fried chicken, sky, classical… | Kinokuniya, floppy disk… | hammer, pliers, clumsy… | light bulb, noisy, pity… | top, food, ume… | 0.683 |
| 男女时尚(1F - 8F) | — | dessert, Halloween, sweet… | light, week, pork buns… | strawberry, sally, juice… | gym, loose, dark… | Mi - chan, next, call… | 0.720 |
| 甜品、食品和化妆品(B1F) | the bulls, rock, matter… | Minas, Luminarie, roux… | morning, house, orchid… | like, everyone, under… | Maru, cafe, Tajima… | tourism, fortune, stressful… | 0.678 |
| 精度 | 0.707 | 0.677 | 0.595 | 0.723 | 0.742 | 0.692 |
东京迪士尼乐园各分类各时间段的前 15 高 TF - IDF 单词及精度如下表:
| 类别 | 06:00 - 09:00(上午) | 09:00 - 12:00(中午前) | 12:00 - 15:00(午后) | 15:00 - 18:00(傍晚) | 18:00 - 21:00(深夜早期) | 21:00 - 24:00(深夜晚期) | 精度 |
| — | — | — | — | — | — | — | — |
| CRITTER COUNTRY | fuss, counter, a large amount… | closed, believer, last week… | recent, along, calypso… | umbrella, hindrance, Keisei… | nephew, cost, length… | shrimp, snack, stand - by… | 0.655 |
| WESTERNLAND | big, thunder, mountain… | big, terrible, thunder… | big, thunder, mountain | big, last, thunder… | bride, dangerous, you… | grass, big, thunder… | 0.816 |
| ADVENTURELAND | aloha, presents, fascination… | 15, caribbean, pirate… | fool, parent, late… | cup, souvenir, excursion… | adventure, crystal, Jones… | wrapping, consultation, line… | 0.770 |
| WORLD BAZAAR | parade, root, castle… | partner, figure, waiting… | drainage, root, parade… | root, parade, castle… | — | — | 0.935 |
| TOMORROWLAND | inc, monster, land… | hall, Astro, year… | about, crash, Darth Vader… | mom, tomorrow, year… | tomorrow, food, Astro… | space, Astro, year… | 0.795 |
| TOONTOWN | — | today, year, country… | want, stomach, gadgets… | gadgets, daughter… | request, gadgets, ride… | prompt decision, gadgets… | 0.784 |
| FANTASYLAND | honey, hunt, pooh… | short, interesting, fool… | adventure, small, Pinocchio… | honey, hunt, forehead… | posture, bazaar, Joe… | bee, thanks, queen… | 0.734 |
| 精度 | 0.900 | 0.718 | 0.753 | 0.819 | 0.753 | 0.691 |
-
实验 3:社交标签云可视化验证
- 实验目的 :验证所提出的社交标签云可视化是否有助于用户从推文中掌握事件信息。
- 实验过程 :我们开发的原型系统用户界面如图 3 所示,有演示视频展示。系统能在 1.6 秒内展示与网页相关的 Twitter 用户推文。用户可以自由与系统交互,指定时间段或点击标签查看相关推文。
- 实验结果 :当用户选择 7 - 11 时间段时,系统返回该时间段位于沃尔特·迪士尼世界度假村的推文标签云,例如,与所有时间段的标签云相比,“米奇”和“米妮”的字体大小减小,“好”和“通过”的字体大小在上午(7:00 - 11:00)左右增大。当用户点击“入口”标签时,系统会显示按时间排序(最新到最早)的与“入口”最相关的推文列表,用户可以从该列表中轻松获取所有主题公园入口信息的详细情况。
综上所述,我们的社交标签云生成方法能够提取不同类别和不同时间段推文的特征词,且每个类别的推文主题会随不同时间段发生变化。通过这些实验,我们验证了系统在推文分类、特征词提取和可视化方面的有效性和准确性。
地理标记社交媒体中时空事件的可视化
4. 关键技术深入分析
4.1 k - NN 算法在推文分类中的优势与挑战
-
优势
- 简单直观 :k - NN 算法基于数据间的相似度进行分类,原理简单易懂。它不需要对数据的分布做出假设,对于复杂的数据分布也能有较好的适应性。例如在推文分类中,能够根据推文的特征词向量与训练数据的相似度,快速地将推文划分到合适的类别中。
- 灵活性高 :可以根据实际需求调整 k 值,以平衡分类的准确性和泛化能力。不同的 k 值可能会导致不同的分类结果,通过实验可以找到最适合当前数据集的 k 值。
-
挑战
- 计算复杂度高 :在计算目标数据与训练数据的相似度时,需要遍历所有的训练数据,当训练数据量较大时,计算时间会显著增加。为了提高效率,可以采用一些优化算法,如 KD 树、球树等,减少不必要的计算。
- 对数据规模敏感 :k - NN 算法的性能很大程度上依赖于训练数据的规模和质量。如果训练数据不足或分布不均匀,可能会导致分类结果不准确。因此,在实际应用中,需要保证有足够的训练数据,并对数据进行合理的预处理。
4.2 TF - IDF 方法在特征词提取中的作用
- TF - IDF 原理 :TF(词频)衡量了一个词在文档中出现的频率,IDF(逆文档频率)则反映了该词在整个文档集合中的普遍程度。TF - IDF 值综合考虑了词的频率和稀有性,能够有效地提取出文档中的重要特征词。
- 在社交标签云生成中的应用 :通过计算推文中每个词的 TF - IDF 值,可以确定哪些词是该时间段内的重要特征词。根据 TF - IDF 值调整特征词的字体大小,生成的社交标签云能够直观地展示不同时间段推文的主题和热点。例如,在某个时间段内,某个词的 TF - IDF 值较高,说明它在该时间段的推文中比较重要,在标签云中字体就会较大。
5. 系统应用场景与拓展
5.1 商业应用场景
- 商场运营 :对于大型购物中心,如大阪 LUCUA,可以通过分析不同时间段的推文特征词,了解顾客的消费需求和兴趣点。例如,在早上可能会有很多关于咖啡的推文,商场可以在这个时间段加强咖啡店的促销活动;在午后可能会有更多关于食物的推文,商场可以优化餐厅的布局和服务。
- 主题公园营销 :像东京迪士尼度假区,可以根据不同时间段的推文主题,制定针对性的营销策略。例如,在圣诞节期间,推文提到了星球大战相关内容,主题公园可以增加与星球大战相关的活动和商品,吸引更多游客。
5.2 系统拓展方向
- 多平台数据融合 :目前系统主要基于 Twitter 推文数据,未来可以考虑融合其他社交媒体平台的数据,如 Facebook、Instagram 等,扩大数据来源,提高分析的准确性和全面性。
- 实时数据分析 :现有的实验是基于历史数据进行的,在实际应用中,可以实现实时数据分析,及时捕捉用户的动态和热点事件。例如,当某个突发事件发生时,系统能够快速生成相关的标签云,为用户提供及时的信息。
6. 总结与展望
通过对地理标记社交媒体数据的处理和分析,我们实现了推文的分类、可视化展示,并对系统的效果进行了评估。实验结果表明,我们的方法能够有效地提取不同类别和不同时间段推文的特征词,帮助用户从推文中掌握事件信息。
在未来的研究中,我们可以进一步优化算法,提高系统的性能和准确性。例如,探索更高效的分类算法和特征提取方法,减少计算复杂度,提高系统的实时性。同时,加强系统的应用拓展,将其应用到更多的领域,为用户提供更有价值的服务。此外,还可以考虑结合其他技术,如机器学习、深度学习等,挖掘社交媒体数据中更多的潜在信息,为地理标记社交媒体的研究和应用带来新的突破。
以下是系统处理流程的 mermaid 流程图:
graph LR
A[数据收集] --> B[数据预处理]
B --> C[推文分类]
C --> D[社交标签云生成]
D --> E[可视化展示]
E --> F[实验评估]
F --> G[结果优化与应用]
总之,地理标记社交媒体中时空事件的可视化研究具有重要的理论和实际意义,通过不断的探索和创新,我们有望为用户提供更加智能、便捷的社交媒体数据分析服务。
超级会员免费看
1229

被折叠的 条评论
为什么被折叠?



