社交网络分析与挖掘及DGP在交通信息系统中的应用
社交网络文本分析方法
分析参数与操作
在社交网络数据的分析中,我们可以估算各种分析参数,例如IS指数。该指数用于衡量一个片段相对于其组成的单个元素的吸收程度。此外,还有两项重要操作:
- 标签操作(Tagging) :为每个单词关联其语法或语义特征的描述。
- 词法化操作(Lexation) :将预处理阶段定义的单词序列识别为一个唯一实体。
最后,通过研究重复率来确定语料库的关键词,那些具有显著标准差(仅考虑整数)的单词可被认为是有意义的。
文本分析步骤
- 共现分析(Concordances) :研究每个选定单词或片段所在的上下文。
- TF - IDF比率计算 :根据搜索关键词在提供的文档中的频率和分布对搜索结果进行排序。计算公式为:$tf - idf = tf \cdot \log \frac{N}{n}$,其中$tf$是元素的出现次数,$N$是构成语料库的文档数量,$n$是包含该元素的文档数量。
- 共现识别(Co - occurrences) :识别文本中重复出现的相邻元素对,这有助于定义语料库中包含的主要概念。
实验活动
数据集
实验使用来自社交网络Yelp的数据集,该数据集由50个元组组成,结构如下:
| 数据项 | 说明
超级会员免费看
订阅专栏 解锁全文
2430

被折叠的 条评论
为什么被折叠?



