
数据挖掘
文章平均质量分 54
ljiabin
在IT的世界里不断成长!
展开
-
数据挖掘中的趣味哲学
1 文本数据挖掘的老祖宗,实事求是的践行者 汉代的班固在描述汉武帝之二哥刘德时写到:“修学好古,实事求是。…留其真”,还称赞这位皇二兄(兼河间献王)“求真是”,“留其正本”。(《汉书•河间献王传)。用今天数据挖掘课堂上的语言来描述:汉初学者在研究汉以前的文化时,遇到了困难,包括文献不完整,数据冲突,数据有偏颇(与始皇焚书、战乱等诸多原因有关),等等。刘德在研究中,收集了尽可能多的先秦诸子文献做转载 2012-12-11 14:30:27 · 1357 阅读 · 0 评论 -
向量空间模型VSM
检索效率 测量一个系统的查询响应结果的质量的常规方法是使用查准率(precision)和查全率(recall)。查准率是检索到的相关文档的数量与检索到的所有文档的数量的比值。查全率是检索到的相关文档的数量与所有相关文档的数量的比值。 理想情况下,查全率和查准率都应该是1,这意味着系统返回了所有的相关文档,并且结果中不包含不相关的文档。不幸的是,这实际上是不可能的。如果我们尝试提高查原创 2013-05-03 21:21:03 · 6148 阅读 · 0 评论 -
Web搜索中的数学知识
The Mathematics of Web Search在过去的二十年里,科技飞速发展,从最初的因特网只有3个网站(微软,网景和亚马逊),到1999年的8亿网页,再到今天的500亿网页, 因特网经历了一个指数级的增长。即便是在因特网上休闲冲浪,也足以让你相信网上有无数的信息和链接。然而,这些信息都是无用的,除非我们对其搜索和排名。从1990年的第一个搜索引擎Archie到我们今天使用的现翻译 2013-04-25 16:00:17 · 1917 阅读 · 0 评论 -
【网络挖掘:成就与未来方向】之网络挖掘应用程序与相关概念
六、网络挖掘应用程序1、B2C电子商务个性化体验——Amazon.com网络挖掘的使用:1)使用cookies识别用户;2)对用户过去行为分析并同类型用户分组,以提供个性化消息、类别推荐、金盒子(gold box);3)使用聚类、关联分析、时间序列分析等。 2、Web搜索——Google网络挖掘的使用:1)内容分析确定相关页面;2)超链接分析根据质量对相关页翻译 2013-04-02 21:15:11 · 1573 阅读 · 0 评论 -
【网络挖掘:成就与未来方向】之网络结构挖掘
四、网络结构挖掘(Web Structure Mining)1、定义一个典型的网络图形结构是把网页作为节点,把链接两个相关网页的超链接作为边。网络结构挖掘是从网络中发现结构信息的过程。这种挖掘可以在文档级别(页内)也可以在超链接级别(页间)。超链接级别的研究也叫做超链接分析(HyperlinkAnalysis)。 研究超链接结构的动机(Motivation):超链接翻译 2013-04-02 10:21:26 · 3023 阅读 · 0 评论 -
【网络挖掘:成就与未来方向】之数据挖掘导论
一、数据挖掘导论为什么要数据挖局?计算机化和自动化数据采集导致了极其庞大的数据存储。如沃尔玛2000家商店每天产生20M的事务。原始数据 --> 模式 --> 知识可伸缩性、渴望更多的自动化使得更多的传统技术不那么有效,如统计方法、关系查询系统、OLAP在线事务处理。 1、数据挖掘过程 2、数据挖掘技术基本技术:分类、聚类和关联规则;其他:序列模式、回翻译 2013-04-01 16:03:42 · 2430 阅读 · 0 评论 -
【larbin执行./configure时出错】解决办法(Fedora下安装makedepend工具)
错误信息:$ ./configurechecking whether you requested dynamic linking... yes, by defaultchecking for gcc... gccchecking whether the C compiler (gcc ) works... yeschecking whether the C compiler原创 2013-03-17 15:59:16 · 4937 阅读 · 0 评论 -
烤鸭、面饼和甜面酱之朴素关联
此文从原讲课PPT中,取一些素材,来解释关联规则的挖掘思路和应用方法。 1 通俗性与深入性的纠结 下笔(击键)之前,为通俗性和理论性的冲突,颇纠结了一番,通俗科普博文,是否需要完全避开公式和推导?查趣味数学小册子,其技巧是:趣例为载体,简喻作引导,推导明道理,前瞻性概述--“学,然后知不足”。 所以,此文仍有一些简单的推导,只需中学数学知识,但仍须静心思量。转载 2012-12-11 15:12:23 · 1208 阅读 · 0 评论 -
【腾讯鲜为人知的重武器4】秘密武器“数据挖掘”
在深圳跟一些业内人士聊天,他们甚至认为,腾讯一个最具门槛性的核心竞争力是“数据挖掘”。数据挖掘不是一个新词,比如微软、戴尔,他们都是真正的高手,甚至有一条数字管理神经。数据挖掘的真正含义是,他们就像水质检测仪,面对一个数亿记的消费群,谁能把握消费之水的流动,谁就掌握了规则。 像马化腾一样关注产品的互联网CEO还有不少,比如丁磊和史玉柱,他们也是著名的用户体验派。但是,马化腾用户转载 2012-12-11 13:15:23 · 1850 阅读 · 1 评论 -
【腾讯鲜为人知的重武器3】首席体验官的刀锋
马化腾作为“首席体验官”的背后,是一个话题点:用户体验能否具有终极杀伤力?能否成为战略?在中国,大多互联网公司的创新刀锋就是用户体验。但是,单单用户体验并不能形成差异化的竞争力,能形成差异化门槛的是一个用户体验系统,有文化,有基因。浓缩到腾讯经验上,则是一个打败无数人的八字真经:用户体验,快速迭代。 深夜两点,一个被女同事称为小马哥、男同事叫做Pony的人打来电话提醒,他在腾讯网站的转载 2012-12-11 13:57:56 · 1421 阅读 · 1 评论 -
Autocorrelation
前两天分享了一个PPT——“时间序列的自相关”。不习惯去Share栏目看,感觉弄到博客看起来方便些,所以就搬过来了,原链接:http://share.youkuaiyun.com/slides/9035。原创 2014-10-28 17:32:34 · 2557 阅读 · 0 评论