目 录
- 研究目标
- 分析方法与过程
2.1. 总体流程
2.2. 具体步骤
2.3. 结果分析 - 结论
- 参考文献
1. 挖掘目标
本次建模目标是利用网络爬虫工具采集的大量网络舆情信息,采用数据挖掘技术,给予用户信息中的关键词赋权,分析用户信息中不同权重大小的关键词与网络舆情信息间的关系,挖掘用户与网络舆情信息的关联规则,使用关键词加权评分系统构建反映与用户最相关的网络舆情信息。从而可以发挥网络对社会监督的巨大作用,以及及时有效的处理网络舆情突发事件。
2. 分析方法与过程
2.1. 总体流程
本用例主要包括如下步骤:
步骤一: 编写 java 语言,在网络舆情信息资料库中进行 web 信息提取与关键词提取,对十项关键词(去除二个样本无差别变量:国别,照片),进行“or”逻辑规则搜索,得到相应关键词的网页地址。
步骤二: 在关键词词频统计的基础上,设置用户信息中十项关键词的权重。
步骤三: 基于二值法优化构建关键词加权评分系统(详细流程见图 2),将净化出关键词的网页进行评分。
步骤四:对网页的评分高低排序并归档,完成关联度分析。
2.2. 具体步骤
步骤一:web 信息提取与关键词提取
样本预处理
在用户信息的十二项关键词中,“国别”关键词在样本中均为“中国”,无法区别不同样本之间的差别,所以予以剔除。“照片”关键词只在三个样本中出现,相对全部样本而言样缺失值过多,所以予以剔除。
编写 java 语句,使其可以输入关键词并遍历“网路舆情信息”文件夹。对关键词使用“or”逻辑规则完成对“网络舆情信息”的搜索。“or”逻辑规则即搜索时只要含有任意一个关键词即符合搜索条件,可输出。
搜索结果如下:
由上表可知,在性别与住址频数中存在大量干扰信息,所以进一步修正搜索规则,对性别,住址单独出现的网址,予以剔除。
修正搜索结果如下:
步骤二: 关键词的权重设置
根据表二中的关键词频数,计算关键词权重。
关键词出现的频数越多,提供的信息的干扰性越强,有效性越低,因此笔者将出现频数越大的关键词设置较小的权重。
计算方法如下:
1. 单 个 关 键 词 权 重 系 数 = 所 有 关 键 词 频 数 之 和 − 单 个 关 键 词 频 数 所 有 关 键 词 频 数 之 和 1. 单个关键词权重系数=\frac{所有关键词频数之和-单个关键词频数}{所有关键词频数之和} 1.单个关键词权重系数=所有关键词频数之和所有关键词频数之和−单个关键词频数
2. 关 键 词 权 重 = 单 个 关 键 词 权 重 系 数 ∑ 单 个 关 键 词 权 重 系 数 2. 关键词权重=\frac {单个关键词权重系数}{\sum 单个关键词权重系数} 2.关键词权重=∑单个关键词权重系数单个关键词权重系数
例 : 姓 名 权 重 系 数 = 所 有 关 键 词 频 数 之 和 − 姓 名 频 数 所 有 关 键 词 频 数 之 和 = 113894 1138 = 0.9174 例:姓名权重系数=\frac{所有关键词频数之和-姓名频数}{所有关键词频数之和}=\frac{1138 94}{1138}=0.9174 例:姓名权重系数=所有关键词频数之和所有关键词频数之和−姓名频数=1138113894=0.9174
姓 名 权 重 = 姓 名 权 重 系 数 ∑ 单 个 关 键 词 权 重 系 数 = 0.9174 9 = 0.1091 姓名权重=\frac{姓名权重系数}{\sum 单个关键词权重系数} = \frac{0.9174}{9}=0.1091 姓名权重=∑单个关键词权重系数姓名权重系数=90.9174=0.1091
将其余关键词代入上式公式,得关键词权重表如下:
步骤三:二值法优化构建关键词加权评分系统
-
将十项关键词权重转换为十维向量:
σ \sigma σ=(姓名,性别,住址,身份证号,电话号码, 出生日期,QQ号码,E-mail,MSN,附加关键字) =(0.1091,0.0812,0.1005,0.1101,0.0956, 0.111,0.0956,0.1109,0.1109,0.0822) -
将单个网页中的关键词频数转换为十维向量:
β i j \beta_{ij} βij=(姓名,性别,住址,身份证号,电话号码, 出生日期,QQ号码,E-mail,MSN,附加关键字)i =1,…,27,即用户信息.xls中的样本个数。 j =“网络舆情信息”文件夹中网页个数 -
运用二值法将向量 β i j \beta_{ij} βij各分量中频数大于 0 的值记为 1,等于 0 仍记为 0。得出向量 β i j 1 \beta_{ij}^1 βij1 。
-
将向量 β i j 1 \beta_{ij}^1 βij1中的各分量分别乘于相应的权重值,得向量 β i j ∗ \beta_{ij}^* βij∗ 。
例:某网页含有关键词频数结果:
则转换为向量 β 1 \beta^1 β1=(1,1,0,0,0,0,0,0,0,0),与关键词权重表(表三)相应分量相乘得出向量 β ∗ \beta^* β∗=(0.1091,0.0812,0,0,0,0,0,0,0,0)。
- 对向量 δ \delta δ与向量 β ∗ \beta^* β∗求余弦值,即 c o s θ i j = δ ⃗ ⋅ β i j ∗ ⃗ ∣ δ ∣ ∣ β i j ∗ ∣ cos \theta_{ij}= \frac{\vec{\delta} \cdot \vec{\beta_{ij}^*}}{|\delta| |\beta_{ij}^*|} cosθij=∣δ∣∣βij∗∣δ⋅βij∗