“泰迪杯”挑战赛 - 基于Java的面向网络舆情的关联度分析(附算法代码)

该博客介绍了基于Java的数据挖掘技术,用于网络舆情的关联度分析。通过网络信息提取和关键词赋权,构建关键词加权评分系统,利用二值法优化评分过程,最后进行评分排序和归档。分析了不同权重的关键词与网络舆情信息的关系,揭示用户与网络舆情的关联规则。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

目 录

  1. 研究目标
  2. 分析方法与过程
    2.1. 总体流程
    2.2. 具体步骤
    2.3. 结果分析
  3. 结论
  4. 参考文献

1. 挖掘目标

本次建模目标是利用网络爬虫工具采集的大量网络舆情信息,采用数据挖掘技术,给予用户信息中的关键词赋权,分析用户信息中不同权重大小的关键词与网络舆情信息间的关系,挖掘用户与网络舆情信息的关联规则,使用关键词加权评分系统构建反映与用户最相关的网络舆情信息。从而可以发挥网络对社会监督的巨大作用,以及及时有效的处理网络舆情突发事件。

2. 分析方法与过程

2.1. 总体流程

本用例主要包括如下步骤:

在这里插入图片描述
步骤一: 编写 java 语言,在网络舆情信息资料库中进行 web 信息提取与关键词提取,对十项关键词(去除二个样本无差别变量:国别,照片),进行“or”逻辑规则搜索,得到相应关键词的网页地址。

步骤二: 在关键词词频统计的基础上,设置用户信息中十项关键词的权重。

步骤三: 基于二值法优化构建关键词加权评分系统(详细流程见图 2),将净化出关键词的网页进行评分。

步骤四:对网页的评分高低排序并归档,完成关联度分析。

2.2. 具体步骤

步骤一:web 信息提取与关键词提取

样本预处理

在用户信息的十二项关键词中,“国别”关键词在样本中均为“中国”,无法区别不同样本之间的差别,所以予以剔除。“照片”关键词只在三个样本中出现,相对全部样本而言样缺失值过多,所以予以剔除。

编写 java 语句,使其可以输入关键词并遍历“网路舆情信息”文件夹。对关键词使用“or”逻辑规则完成对“网络舆情信息”的搜索。“or”逻辑规则即搜索时只要含有任意一个关键词即符合搜索条件,可输出。

搜索结果如下:
在这里插入图片描述
由上表可知,在性别与住址频数中存在大量干扰信息,所以进一步修正搜索规则,对性别,住址单独出现的网址,予以剔除。

修正搜索结果如下:
在这里插入图片描述
在这里插入图片描述

步骤二: 关键词的权重设置

根据表二中的关键词频数,计算关键词权重。

关键词出现的频数越多,提供的信息的干扰性越强,有效性越低,因此笔者将出现频数越大的关键词设置较小的权重。

计算方法如下:
1. 单 个 关 键 词 权 重 系 数 = 所 有 关 键 词 频 数 之 和 − 单 个 关 键 词 频 数 所 有 关 键 词 频 数 之 和 1. 单个关键词权重系数=\frac{所有关键词频数之和-单个关键词频数}{所有关键词频数之和} 1.=

2. 关 键 词 权 重 = 单 个 关 键 词 权 重 系 数 ∑ 单 个 关 键 词 权 重 系 数 2. 关键词权重=\frac {单个关键词权重系数}{\sum 单个关键词权重系数} 2.=

例 : 姓 名 权 重 系 数 = 所 有 关 键 词 频 数 之 和 − 姓 名 频 数 所 有 关 键 词 频 数 之 和 = 113894 1138 = 0.9174 例:姓名权重系数=\frac{所有关键词频数之和-姓名频数}{所有关键词频数之和}=\frac{1138 94}{1138}=0.9174 ==1138113894=0.9174
姓 名 权 重 = 姓 名 权 重 系 数 ∑ 单 个 关 键 词 权 重 系 数 = 0.9174 9 = 0.1091 姓名权重=\frac{姓名权重系数}{\sum 单个关键词权重系数} = \frac{0.9174}{9}=0.1091 ==90.9174=0.1091

将其余关键词代入上式公式,得关键词权重表如下:
在这里插入图片描述

步骤三:二值法优化构建关键词加权评分系统

  1. 将十项关键词权重转换为十维向量:
    σ \sigma σ=(姓名,性别,住址,身份证号,电话号码, 出生日期,QQ号码,E-mail,MSN,附加关键字) =(0.1091,0.0812,0.1005,0.1101,0.0956, 0.111,0.0956,0.1109,0.1109,0.0822)

  2. 将单个网页中的关键词频数转换为十维向量:
    β i j \beta_{ij} βij=(姓名,性别,住址,身份证号,电话号码, 出生日期,QQ号码,E-mail,MSN,附加关键字)i =1,…,27,即用户信息.xls中的样本个数。 j =“网络舆情信息”文件夹中网页个数

  3. 运用二值法将向量 β i j \beta_{ij} βij各分量中频数大于 0 的值记为 1,等于 0 仍记为 0。得出向量 β i j 1 \beta_{ij}^1 βij1

  4. 将向量 β i j 1 \beta_{ij}^1 βij1中的各分量分别乘于相应的权重值,得向量 β i j ∗ \beta_{ij}^* βij

例:某网页含有关键词频数结果:
在这里插入图片描述
则转换为向量 β 1 \beta^1 β1=(1,1,0,0,0,0,0,0,0,0),与关键词权重表(表三)相应分量相乘得出向量 β ∗ \beta^* β=(0.1091,0.0812,0,0,0,0,0,0,0,0)。

  1. 对向量 δ \delta δ与向量 β ∗ \beta^* β求余弦值,即 c o s θ i j = δ ⃗ ⋅ β i j ∗ ⃗ ∣ δ ∣ ∣ β i j ∗ ∣ cos \theta_{ij}= \frac{\vec{\delta} \cdot \vec{\beta_{ij}^*}}{|\delta| |\beta_{ij}^*|} cosθij=δβijδ βij
评论 7
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

爱学习的数据喵

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值