
数据挖掘
文章平均质量分 77
wbj0110
这个作者很懒,什么都没留下…
展开
-
K-MEANS算法
1. [代码][C/C++/Objective-C]代码 001#include <stdio.h>002#include <stdlib.h>003#include <math.h>004 005#define NA 4 /* 数据维数 *...原创 2013-11-11 10:10:18 · 110 阅读 · 0 评论 -
imdb.com排名算法
IMDB.COM是目前互联网上最为权威、系统、全面的电影资料网站,里面包括了几乎所有的电影,以及1982 年以后的电视剧集。 它所特有的电影评分系统深受影迷的欢迎,注册的用户可以给任何一部影片打分并加以评述,而网站又会根据影片所得平均分、选票的数目等计算得出影片的加权平均分并以此进行TOP250(最佳250部影片)和Bottom100(最差100部影片)的排行。评选最佳250部电影...原创 2013-09-19 11:54:35 · 704 阅读 · 0 评论 -
Reddit 排名算法工作原理
Reddit是个社交新闻站点,其口号是“提前于新闻发生,来自互联网的声音”。用户(也叫redditors)能够浏览并且可以提交互联网上内容的链接或发布自己的原创帖子。其他的用户可对发布的链接进行高分或低分的投票,得分突出的链接会被放到首页。另外,用户可对发布的链接进行评论以及回复其他评论者。 本文将跟大家探讨一下Reddit的文章排名算法和评论排名算法的工作原理。Reddit使用的算法也是很简...原创 2013-09-19 11:53:26 · 709 阅读 · 0 评论 -
数据挖掘在电子商务中的应用
如何对大量信息进行有效组织利用,使用户能够从大量繁杂的信息中找出真正有价值的信息和知识,帮助企业制定更好的营销策略。信息处理技术有了新的应用研究课题——数据挖掘。 1.数据挖掘在电子商务中的作用 数据挖掘技术之所以可以服务电子商务,是因为它能够挖掘出活动过程中的潜在信息以指导电子商务营销活动。在电子商务中其作用有4个方面: (1)挖掘客户活动规律,针对性的在电子商务平台下以提供...原创 2014-03-07 09:58:31 · 4827 阅读 · 0 评论 -
规则引擎--决策表应用
在企业的业务和管理中,Excel总免不了被大量使用,比如说用来记录批量的字典数据,保存特定的对应关系的数据,尤其是业务和财务部门,对Excel的使用就更频繁了,一般情况是,40-50个人分配一个专门的服务器来保存这些Excel数据文件,但是这其中有一些问题 1:日积月累,Excel数目繁多 2:Excel数据量大,可能有200-300M ...原创 2013-09-15 09:57:29 · 329 阅读 · 0 评论 -
数据仓库的源数据类型
数据仓库中集成了企业几乎所有的可以获取到的数据以用于数据分析和决策支持。这些进入到数据仓库中的数据无外乎三种类型:结构化数据、半结构化数据和非结构化数据,它们经过转化后以某种形式统一地储存在数据仓库中,即通常说的ETL(Extract, Transform, Load,抽取、转换、装载)的过程。下面主要说一下这三种数据类型的区别,它们分别包括哪些源数据以及这些数据在网站数据分析中的作用。...原创 2013-09-08 10:43:31 · 363 阅读 · 0 评论 -
如何构建数据仓库
数据仓库的目的是构建面向分析的集成化数据环境,为企业提供决策支持(Decision Support)。其实数据仓库本身并不“生产”任何数据,同时自身也不需要“消费”任何的数据,数据来源于外部,并且开放给外部应用,这也是为什么叫“仓库”,而不叫“工厂”的原因。因此数据仓库的基本架构主要包含的是数据流入流出的过程,可以分为三层——源数据、数据仓库、数据应用: 从图中可以看出数据仓库的数据来...原创 2013-09-04 12:30:40 · 252 阅读 · 0 评论 -
图解Hadoop分布式文件系统工作原理
微博上看到的一张关于HDFS的图片,形象生动的解释的HDFS的工作原理,再确切一点是 写操作的的基本过程: 1 一个集群中只有一个NameNode,可以有多个DataNodes 2 namenode 承担数据的位置存储信息,并将存储位置信息告诉client端! 3 得到位置信息后,client端开始写数据 4 写数据的时候是将数据分块,并存储为多份(一般为3份),放在不...原创 2013-09-04 11:31:23 · 117 阅读 · 0 评论 -
Hacker News的热门排名算法
Hacker News 是一家关于计算机黑客和创业公司的社会化新闻网站,由 Paul Graham 的创业孵化器 Y Combinator 创建。与其它社会化新闻网站不同的是 Hacker News 没有踩或反对一条提交新闻的选项(不过评论还是可以被有足够 Karma 的用户投反对票,或是投支持票);只可以赞或是完全不投票。简而言之,Hacker News 允许提交任何可以被理解为“任何满...原创 2013-09-03 09:28:30 · 893 阅读 · 0 评论 -
Reddit评论排名算法
与文章新闻类排名不同的事,评论类的算法可能发表时间没有什么关系。目前很多网站采用的评论排名主要有两种,即绝对好评数(好评减去差评)和好评率(好评/总评)。这两种评价方式 都存在很明显的缺陷,以下为事例:A:好评550; 差评450B:好评60;差评40C:好评1;差评0D:好评9,差评1首先是A与B比较,A的绝对好评数是550-450=100,B的绝对好评数是60-...原创 2013-09-03 09:27:23 · 401 阅读 · 0 评论 -
搜索引擎核心技术原理
1.概述搜索引擎(search engine)是指根据一定的策略、运用特定的计算机程序搜集互联网上的信息,在对信息进行组织和处理后,为用户提供检索服务的系统。2.搜索引擎分类按照信息搜集方法和服务提供方式的不同,搜索引擎系统可以分为三大类:全文搜索引擎(Full Text Search Engine)、目录索引类搜索引擎(Search Index/Directory)和元搜索引...原创 2013-08-28 10:39:30 · 1521 阅读 · 0 评论 -
java指纹识别+谷歌图片识别技术
Google "相似图片搜索":你可以用一张图片,搜索互联网上所有与它相似的图片。打开Google图片搜索页面:点击使用上传一张angelababy原图:点击搜索后,Google将会找出与之相似的图片,图片相似度越高就越排在前面。如:这种技术的原理是什么?计算机怎么知道两张图片相似呢?根据Neal Krawetz博士的解释,实现相似图片搜素的关键技术叫做...原创 2013-08-27 11:02:17 · 103 阅读 · 0 评论 -
用户行为分析节点-Path Analysis--路径分析
随着EM版本的更新,在界面上优化了很多,经常使用的路径分析节点提供了更多的功能,对用行为的呈现更加清晰:原创 2013-08-09 17:39:01 · 911 阅读 · 0 评论 -
SAS JMP展现多维动态 气泡图
SAS JMP展现多维动态气泡图 (详见SAS官方网站) :原创 2013-08-09 17:32:18 · 1025 阅读 · 0 评论 -
使用Weka进行数据挖掘
1.简介数据挖掘、机器学习这些字眼,在一些人看来,是门槛很高的东西。诚然,如果做算法实现甚至算法优化,确实需要很多背景知识。但事实是,绝大多数数据挖掘工程师,不需要去做算法层面的东西。他们的精力,集中在特征提取,算法选择和参数调优上。那么,一个可以方便地提供这些功能的工具,便是十分必要的了。而weka,便是数据挖掘工具中的佼佼者。Weka的全名是怀卡托智能分析环境(Waikato En...原创 2013-11-30 11:35:11 · 143 阅读 · 0 评论 -
算法杂货铺——k均值聚类(K-means)(转 )
4.1、摘要 在前面的文章中,介绍了三种常见的分类算法。分类作为一种监督学习方法,要求必须事先明确知道各个类别的信息,并且断言所有待分类项都有一个类别与之对应。但是很多时候上述条件得不到满足,尤其是在处理海量数据的时候,如果通过预处理使得数据满足分类算法的要求,则代价非常大,这时候可以考虑使用聚类算法。聚类属于无监督学习,相比于分类,聚类不依赖预定义的类和类标号的训练实例。本文首...原创 2014-04-03 11:20:22 · 258 阅读 · 0 评论