
数据挖掘
文章平均质量分 70
owengbs
这个作者很懒,什么都没留下…
展开
-
数据挖掘--挖掘频繁模式、关联和相关(1)
学习是一件很苦的事情,但是有时却是一件很神奇的事情,神奇到原本很抽象枯燥的知识点你却可以取其精华的理解,这时效率最高此时务必将心得写下以下读书笔记来自我在阅读《数据挖掘-概念与技术》的一点感受所谓挖掘频繁模式,关联和相关,即指在出现的数据集中找到一个经常出现的序列模式或者是一个经常出现的数据结构。就像搞CPU设计的人知道,Cache的预取机制有流预取和指针预取,前者就是发现流模式,原创 2012-04-19 21:33:53 · 2036 阅读 · 0 评论 -
数据挖掘--挖掘频繁模式、关联和相关(2)
上一篇文章简述了挖掘频繁模式的基本概念:频繁模式即频繁出现在数据集中的模式,模式的类型有很多种,比如项集,序列和结构。频繁模式的挖掘就是关联规则的挖掘,就是通过找出所有的频繁模式然后推导出规律性的结论。本文继续讨论频繁项集的挖掘方法,我们分析的模型仍然是最简单的“单维、单层、布尔频繁项集”。我们介绍的方法称为Apriori算法。Apriori算法:利用频繁项集性质的先验知识,使用层序搜索迭原创 2012-04-21 21:00:09 · 2931 阅读 · 0 评论 -
Apriori中的hash tree
总算把hash tree算法弄懂了,不敢独乐,特来分享hash tree(哈希树),是由tree和hash table结合,旨在优化hash table冲突解决方案的一种数据结构。在链式hash table中,若关键字发生冲突,则创建单个新节点链到冲突节点之后,并把关键字插入到新节点。而在hash tree结构中,若关键字发生冲突,则创建一组新节点链到冲突节点之后,并把关键字hash后原创 2012-06-02 15:32:20 · 19881 阅读 · 12 评论 -
理解朴素贝叶斯分类器的三层境界
1.背景首先,在文章的开头,先提出几个问题,如果这些问题你都答得上来,那么本文你就无需阅读了,或者你阅读的动机纯粹是给本文挑毛病,当然我也无比欢迎,请发送邮件“毛病の朴素贝叶斯”发送至297314262@qq.com,我会认真阅读你的来信。By the way,如果阅读完本文,你还是无法回答以下问题,那么也请你邮件通知我,我会尽量解答你的疑惑。朴素贝叶斯分类器中的“朴素”特指此原创 2014-11-23 23:21:38 · 13526 阅读 · 1 评论 -
情感分析系列之《利用BRAT进行中文情感分析语料标注》
情感分析是NLP中的一大分支,无论在学术界还是工业界都有广泛的研究,在SemEval语义分析会议中有单独的情感分析任务分支,其中最难的一个任务叫做ABSA:Aspect-Based Sentiment Analysis,面向方面的情感分析.本文主要介绍如何利用BRAT进行针对ABSA问题的语料标注,后续如何利用这些标注构建模型来解决ABSA问题将在随后的文章中介绍。本系列的所有的工作都来自WeTest舆情团队的努力成果(http://wetest.qq.com/bee/)。原创 2015-11-11 12:59:52 · 23195 阅读 · 10 评论