2018-3-12论文(非结构化网络中有价值信息数据挖掘研究)笔记一总体思路以及三种目前进行价值信息挖掘的研究思想

文章主要的内容:

提出了基于关联规则的非结构化网路中有价值信息数据挖掘的方法

总体的思想:

(1)利用特征提取的方法进行初步的分类与识别,提取出不同文本类型的特征,

(2)利用关联规则方法计算各个类型特征之间的关联度,将不同文本类型中较明显的词作为聚类的对象(较明显的词,这个表达好牵强,什么样子的算明显的????应该有一种算法把,评价的而依据)搜搜索出在给定样本数据上具有最大后验概率的文档划分方案,将每个文档信息作为其类别形成的随机符号序列

后验概率??

后验概率_百度百科
https://baike.baidu.com/item/%E5%90%8E%E9%AA%8C%E6%A6%82%E7%8E%87/6106704?fr=aladdin

可以通过贝叶斯公式利用先验概率,求得(先验概率,就是之前就知道的经验)

(3)采用极大似然估计计算出各个符号的频率分布,利用计算的结果完成信息数据挖掘

文章题目——————非结构化网络????

为什么是非结构化网络?、网络??

(1)网络---动态性以及变化的复杂性

非结构化信息/数据     难道是静态的吗??

非结构化网络中价值信息挖掘的研究-------作者提到的一些研究(少而没有力量。这个写法可以参照另一篇论文中的写法《极限学习机类不平衡数据学习算法研究》)

(1)基于K-L变换的非结构化网络有价值信息挖掘(建议:需要写生具体年份以及具体的作者,使得看的有依据,这样的一个算法的说,感觉却的东西多了,没有一点点的根据)该方法先将信息数据空间分解为两个空间向量,利用不同的空间向量的正交特性进行信息数据特征提取和降噪-------------------缺点:稳定性差

正交特性?、:这个说的是建立坐标的意思吗??

(2)基于引入特征倾向性的非结构化网络中有价值信息数据挖掘方法。

该方法先设定词汇的倾向性度量值(也就是评测的单位,标准,参照的依据?,但是为什么引入倾向性,倾向性的意义在哪里?)融合与布尔加权对词汇进行加权处理(很多的论文都会说到加权,加权的目的就是分出个等级优劣,就是谁的话语权比较大,谁说的分量就比较大,权重就大,但是更多的不应该是根据各个的准确的程度分配权值?在结果未知的情况下,怎样确定结果时候正确?那个更倾向于是解??)并且对词汇的倾向性权重进行自适应修改

什么是自适应修改??目的??

自适应_百度百科
https://baike.baidu.com/item/%E8%87%AA%E9%80%82%E5%BA%94/4862182?fr=aladdin

说白了就是:根据不同的情况做自行调整使的结果最佳。比如根据梯度的正负自动的选择X是取大一点还是小一些

常用的自适应的算法:

常用的自适应算法有迫零算法,最陡下降算法,LMS算法,RLS算法以及各种盲均衡算法等。

缺点:无法适应信息数据的快速增长???
计算机的计算速度不是和处理器有关吗?为什么说算法赶不上数据增长啊?
(3)基于中心聚类和语义特征融合的非结构化网络中有价值信息数据挖掘方法

先将文本的特征选择定义为一个多目标优化问题,一特征位数最少作为分类正确率的最该选取,采用遗传方法搜索出最优特征自己,完成价值信息的数据挖掘

不懂

遗传算法: 模拟生物进化理论,就是将自己的优良的DNA遗传给下一代,当然在遗传的过程中也坑内个会发生基因的突变

资源:

遗传算法(python版) - 优快云博客
http://blog.youkuaiyun.com/bible_reader/article/details/72782675

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值