文章主要的内容:
提出了基于关联规则的非结构化网路中有价值信息数据挖掘的方法
总体的思想:
(1)利用特征提取的方法进行初步的分类与识别,提取出不同文本类型的特征,
(2)利用关联规则方法计算各个类型特征之间的关联度,将不同文本类型中较明显的词作为聚类的对象(较明显的词,这个表达好牵强,什么样子的算明显的????应该有一种算法把,评价的而依据)搜搜索出在给定样本数据上具有最大后验概率的文档划分方案,将每个文档信息作为其类别形成的随机符号序列
后验概率??
后验概率_百度百科
https://baike.baidu.com/item/%E5%90%8E%E9%AA%8C%E6%A6%82%E7%8E%87/6106704?fr=aladdin
可以通过贝叶斯公式利用先验概率,求得(先验概率,就是之前就知道的经验)
(3)采用极大似然估计计算出各个符号的频率分布,利用计算的结果完成信息数据挖掘
文章题目——————非结构化网络????
为什么是非结构化网络?、网络??
(1)网络---动态性以及变化的复杂性
非结构化信息/数据 难道是静态的吗??
非结构化网络中价值信息挖掘的研究-------作者提到的一些研究(少而没有力量。这个写法可以参照另一篇论文中的写法《极限学习机类不平衡数据学习算法研究》)
(1)基于K-L变换的非结构化网络有价值信息挖掘(建议:需要写生具体年份以及具体的作者,使得看的有依据,这样的一个算法的说,感觉却的东西多了,没有一点点的根据)该方法先将信息数据空间分解为两个空间向量,利用不同的空间向量的正交特性进行信息数据特征提取和降噪-------------------缺点:稳定性差
正交特性?、:这个说的是建立坐标的意思吗??
(2)基于引入特征倾向性的非结构化网络中有价值信息数据挖掘方法。
该方法先设定词汇的倾向性度量值(也就是评测的单位,标准,参照的依据?,但是为什么引入倾向性,倾向性的意义在哪里?)融合与布尔加权对词汇进行加权处理(很多的论文都会说到加权,加权的目的就是分出个等级优劣,就是谁的话语权比较大,谁说的分量就比较大,权重就大,但是更多的不应该是根据各个的准确的程度分配权值?在结果未知的情况下,怎样确定结果时候正确?那个更倾向于是解??)并且对词汇的倾向性权重进行自适应修改
什么是自适应修改??目的??
自适应_百度百科
https://baike.baidu.com/item/%E8%87%AA%E9%80%82%E5%BA%94/4862182?fr=aladdin
说白了就是:根据不同的情况做自行调整使的结果最佳。比如根据梯度的正负自动的选择X是取大一点还是小一些
常用的自适应的算法:
先将文本的特征选择定义为一个多目标优化问题,一特征位数最少作为分类正确率的最该选取,采用遗传方法搜索出最优特征自己,完成价值信息的数据挖掘
不懂
遗传算法: 模拟生物进化理论,就是将自己的优良的DNA遗传给下一代,当然在遗传的过程中也坑内个会发生基因的突变
资源:
遗传算法(python版) - 优快云博客
http://blog.youkuaiyun.com/bible_reader/article/details/72782675