
数据挖掘
文章平均质量分 94
豹先生_MR-BAO
做中国云计算导航人~~~~~
展开
-
Apache Mahout 简介
简介: 当研究院和企业能获取足够的专项研究预算之后,能从数据和用户输入中学习的智能应用程序将变得更加常见。人们对机器学习技巧(比如说集群、协作筛选和分类)的需求前所未有地增长,无论是查找一大群人的共性还是自动标记海量 Web 内容。Apache Mahout 项目旨在帮助开发人员更加方便快捷地创建智能应用程序。Mahout 的创始者 Grant Ingersoll 介绍了机器学习的基本概念,并演示转载 2013-02-23 14:13:54 · 908 阅读 · 0 评论 -
淘宝从空间预测到个性化推荐
2013-09-07 阿里技术嘉年华文/徐萧萧【导读】本文分享了从空间预测到推荐领域的一些前沿思路,这些思路一定程度上可以缓解推荐领域中的一大难题:多样性问题。 个性化推荐相信大家都不会陌生,当前已经深入到了我们很多的业务场景,基本上谈到电子商务和网上购物,第一个想到的挖掘场景就是个性化推荐。 常用的推荐算法大致分为3类:转载 2013-10-17 13:33:33 · 1256 阅读 · 0 评论 -
漫谈大数据仓库与挖掘系统--层次、维度与主题
2013-10-09阿里技术嘉年华 上集回顾:什么是大数据?【回复071查看】 在上一章节的末尾,我们谈到,这个系列的文章,最终会以我国公安机关拥有的公民信息、加上民航部门拥有的出行信息、银行拥有的交易信息等数据为例,逐渐讲述如何构建一个大数据的国民信息挖掘系统。不过以上一章节所叙述的基础知识,还不足以让我们进入实例环节。在这一章,我们还是必须补充一些相关的基转载 2013-10-17 13:37:39 · 1492 阅读 · 0 评论 -
漫谈大数据仓库与挖掘系统:数据的传输和同步
2013-10-10卡特 阿里技术嘉年华上集回顾:什么是大数据?【回复071查看】层次、维度与主题【回复072查看】 在前面的章节中,我们提到,本文最终的目的,是带领大家构造设计一个“全民信息数据挖掘系统”。而在上一节中,我们得知,数据仓库的特性之一便是其的“集成性”:不同的数据来源、不同的形式的数据集中在一处,在数据仓库系统中进行分析。这便是一个数转载 2013-10-17 13:38:33 · 1645 阅读 · 0 评论 -
漫谈大数据仓库与挖掘系统:MapReduce与大规模离线计算系统
013-10-11 阿里技术嘉年华上集回顾:什么是大数据?【回复071查看】层次、维度与主题【回复072查看】一切的开始—数据的传输和同步【回复073查看】 读过本文的前三个章节的读者,对大数据系统应该已经有了一个初步的认识,并且已经清楚的知道,大数据之庞大,已经远远超出任何一个单机系统的处理能力的极限,我们需要成千上万台计算机来协同工作,转载 2013-10-17 13:39:11 · 1494 阅读 · 0 评论 -
淘宝商品图片的图像比较实现和研究
2013-09-15 阿里技术嘉年华一. 背景介绍 淘宝有着数量巨大商品,如何分析这些商品之间的关系是淘宝中面临的一个挑战。特别是淘宝区别于京东和亚马逊在于淘宝很多是非标类,而且商品又来自数量巨大的各个不同卖家所以导致了商品种类的丰富性并且随之带来的一定重合。所以分析同类商品是分析商品关系所遇到的问题之一。 商品中除了大量的结构化信息以外还转载 2013-10-17 13:34:39 · 2594 阅读 · 0 评论 -
一淘点评情感分析方法及应用场景
2013-10-23水德 阿里技术嘉年华 点评是非常重要的一类UGC数据,里面含有大量的用户反馈信息。点评情感分析(sentiment analysis)负责对点评进行情感信息的抽取、聚合和应用。基于情感分析结果,可以更加有效的过滤、筛选、排序、概括和展现点评的内容,方便用户对点评信息的使用;基于情感分析结果,还可以在语义维度实现产品的聚合、相关性计算,协助用户购物决策。转载 2013-10-25 13:33:42 · 1986 阅读 · 0 评论 -
淘宝用户行为分析
2013-10-24贾元乔 阿里技术嘉年华 你的营销虽林林种种,但却有一个永恒的轴心:用户。 用户行为指挥着营销活动的走向:从新品开发到价格制定;从渠道管理到品牌管理……,营销围绕用户展开,用户行为分析是营销工作的首要环节。用户行为分析需要回答三个问题:² 什么是用户行为(What)?² 为什么分析用户行为(Why)?² 如何分析转载 2013-10-25 13:34:55 · 3688 阅读 · 0 评论 -
淘宝用户行为分析(三)(淘宝用户个性化标签)
2013-10-25阿里技术嘉年华 分析需要回答三个问题,用户行为分析也不例外。 前面我们聊了用户行为分析的内容、目的、差异性和流动性。这里再聊聊传播性。 当你想买一个东西的时候,若你是个理性的消费者,你就会考虑7要素:该不该买?给谁买?什么时候买?买什么?在哪买?买多少?怎么选?而在考虑这些要素时,你总是会听到一些声音。这转载 2013-10-28 09:05:50 · 2962 阅读 · 0 评论 -
淘宝用户行为分析(二)(用户个性化标签)
2013-10-25阿里技术嘉年华 上篇博文我们聊了两个问题:用户行为的研究内容和用户的差异性。这里我们再聊聊用户的流动性。 如果把用户比作流动的水,那么企业就是蓄水池,新用户从进水管流入,老用户从出水管流出。企业要灌溉庄稼获取收成,就要有一定的蓄水量,就必须开源节流,开拓新用户的同时,留住老用户。不论是开拓新用户还是留住老用户,都是基于用户的流动性。由此产生转载 2013-10-28 09:04:50 · 4254 阅读 · 0 评论 -
weka分类器-C4.5决策树
1. 算法概述 C4.5,是机器学习算法中的另一个分类决策树算法,它是决策树(决策树也就是做决策的节点间的组织方式像一棵树,其实是一个倒树)核心算法,是相对于ID3算法的改进,主要改进点有:1. 用信息增益率来选择属性。C4.5克服了ID3用信息增益选择属性时偏向选择取值多的属性的不足。2. 在树构造过程中进行剪枝。3. 对非离散数据也能处理。转载 2013-10-28 13:35:24 · 2559 阅读 · 0 评论 -
一淘商品类目预测
2013-08-20 阿里技术嘉年华文/元宗【导读】本文从商品类目预测的难点分析出发,衍生出一淘商品类目预测的架构以及实现,同时还对商品类目预测的进阶提出了畅想。适合想对商品类目预测有一些了解的同学阅读。 什么是一淘商品类目预测 一淘商品类目预测是指计算机利用算法将外网商品分到淘宝后台类目结构中相应类目的过程。商品类目预测业务转载 2013-10-16 13:22:17 · 1892 阅读 · 0 评论 -
淘宝关键词推荐技术介绍
2013-08-19 阿里技术嘉年华文/太紫【导读】本文通过行业对比等角度分析了关键词推荐技术及工具,关键词推荐系统帮助广告主扩展选词思路,挖掘有价值的关键词,从而更好地提升产品的曝光,帮助广告主找到客户;同时,一个好的关键词推荐系统也能更好地服务用户,帮助用户快速找到合适的供应商。 关键词推荐是什么 赞助商搜索(sponsored se转载 2013-10-16 13:20:53 · 1583 阅读 · 0 评论 -
mahout in action 1 初识Mahout
本章内容:.什么是mahout.初识推荐引擎,聚类,分类在现实生活.建立mahout你们可能已经从标题中猜出,这本书是关于一个特定的工具Mahout,在现实生活中使用。那么什么是mahout?Mahout是一个Apache的开源机器学习项目。该算法属于广阔的 “机器学习”,或“集体智慧的伞形结构。这就可以代表很多东西,但此时此刻,我们关心Mahout的主要部分是转载 2013-02-23 14:22:42 · 507 阅读 · 0 评论 -
mahout in action 2.2 运行首个推荐引擎
Mahout包含一个推荐引擎的几种类型,事实上包含传统的基于用户(user-based),基于项目(item-based)推荐算法,也包括基于“slope-one”技术的实现(这一个新的有效的方法)。你将根据实验,基于单机版的(SVD)初步实现。在下面的章节里,我们将会在Mahout的背景下和一些现实生活中的例子,来回顾上面的观察结果。我们将会考虑如何代表数据,如何进行有效的推荐算法,如何评估转载 2013-02-23 14:26:50 · 660 阅读 · 0 评论 -
mahout in action 2.3 推荐器考核
这是一个推荐引擎的工作,用来解释下面的问题:“对用户来说,怎么的推荐数据才是最好的”。在搞清楚这个的答案之前,我们首先应该解决这个问题。一个好的推荐数据精度指的是什么?我们需要知道产出一个怎么样的推荐器来产生他们?本节的下面部分将会探讨对一个推荐器的考核。因为它是一个工具,当我们开始思考特殊的推荐系统时,它将会是很有用的。最优秀的推荐器,能够感知你的心灵。它以某种方式知道你可能很喜欢某个的转载 2013-02-23 14:27:51 · 654 阅读 · 0 评论 -
基于myhout探索推荐引擎内部的秘密,第 1 部分: 推荐引擎初探
“探索推荐引擎内部的秘密”系列将带领读者从浅入深的学习探索推荐引擎的机制,实现方法,其中还涉及一些基本的优化方法,例如聚类和分类的应用。同时在理论讲解的基础上,还会结合 Apache Mahout 介绍如何在大规模数据上实现各种推荐策略,进行策略优化,构建高效的推荐引擎的方法。本文作为这个系列的第一篇文章,将深入介绍推荐引擎的工作原理,和其中涉及的各种推荐机制,以及它们各自的优缺点和适用场景,帮助转载 2013-02-27 18:00:50 · 802 阅读 · 0 评论 -
基于myhout探索推荐引擎内部的秘密,第 3 部分: 深入推荐引擎相关算法 - 聚类
聚类分析什么是聚类分析?聚类 (Clustering) 就是将数据对象分组成为多个类或者簇 (Cluster),它的目标是:在同一个簇中的对象之间具有较高的相似度,而不同簇中的对象差别较大。所以,在很多应用中,一个簇中的数据对象可以被作为一个整体来对待,从而减少计算量或者提高计算质量。其实聚类是一个人们日常生活的常见行为,即所谓“物以类聚,人以群分”,核心的思想也就是聚类。人们总是不断转载 2013-02-27 18:04:41 · 940 阅读 · 0 评论 -
分类算法之朴素贝叶斯分类(Naive Bayesian classification)
0、写在前面的话 我个人一直很喜欢算法一类的东西,在我看来算法是人类智慧的精华,其中蕴含着无与伦比的美感。而每次将学过的算法应用到实际中,并解决了实际问题后,那种快感更是我在其它地方体会不到的。 一直想写关于算法的博文,也曾写过零散的两篇,但也许是相比于工程性文章来说太小众,并没有引起大家的兴趣。最近面临毕业找工作,为了能给自己增加筹码,决定再次复习算法方面的知识,我决转载 2013-09-17 10:16:18 · 1025 阅读 · 0 评论 -
分类算法之贝叶斯网络(Bayesian networks)
2.1、摘要 在上一篇文章中我们讨论了朴素贝叶斯分类。朴素贝叶斯分类有一个限制条件,就是特征属性必须有条件独立或基本独立(实际上在现实应用中几乎不可能做到完全独立)。当这个条件成立时,朴素贝叶斯分类法的准确率是最高的,但不幸的是,现实中各个特征属性间往往并不条件独立,而是具有较强的相关性,这样就限制了朴素贝叶斯分类的能力。这一篇文章中,我们接着上一篇文章的例子,讨论贝叶斯分类中更高级转载 2013-09-17 10:18:35 · 1345 阅读 · 0 评论 -
分类算法之决策树(Decision tree)
3.1、摘要 在前面两篇文章中,分别介绍和讨论了朴素贝叶斯分类与贝叶斯网络两种分类算法。这两种算法都以贝叶斯定理为基础,可以对分类及决策问题进行概率推断。在这一篇文章中,将讨论另一种被广泛使用的分类算法——决策树(decision tree)。相比贝叶斯算法,决策树的优势在于构造过程不需要任何领域知识或参数设置,因此在实际应用中,对于探测式的知识发现,决策树更加适用。3.2、转载 2013-09-17 10:21:21 · 1171 阅读 · 0 评论 -
k均值聚类(K-means)
4.1、摘要 在前面的文章中,介绍了三种常见的分类算法。分类作为一种监督学习方法,要求必须事先明确知道各个类别的信息,并且断言所有待分类项都有一个类别与之对应。但是很多时候上述条件得不到满足,尤其是在处理海量数据的时候,如果通过预处理使得数据满足分类算法的要求,则代价非常大,这时候可以考虑使用聚类算法。聚类属于无监督学习,相比于分类,聚类不依赖预定义的类和类标号的训练实例。本文首先介转载 2013-09-17 16:19:54 · 1764 阅读 · 0 评论 -
揭秘淘宝286亿海量图片存储与处理架构
8月27日下午,在IT168系统架构师大会存储与系统架构分论坛上,淘宝网技术委员会主席,淘宝网核心工程师章文嵩向我们详细介绍了淘宝网图片处理与存储系统的架构。章文嵩博士的演讲日程包括了淘宝的整个系统架构、淘宝图片存储系统架构,淘宝网独立开发的TFS集群文件系统,前端CDN系统以及淘宝网在节能服务器方面的应用和探索。LVS创始人,淘宝网技术委员会主席,淘宝网核心工程师章文嵩先生 本文侧转载 2013-10-09 19:15:37 · 1576 阅读 · 0 评论 -
漫谈大数据仓库与挖掘系统:BSP模型(应用于数据挖掘、机器学习的云计算模型)
2013-10-22卡特 阿里技术嘉年华本文其它章节: 漫谈大数据仓库与挖掘系统:前言:大数据的价值 【回复071查看】 漫谈大数据仓库与挖掘系统:层次、维度与主题【回复072查看】 漫谈大数据仓库与挖掘系统:ETL的开始—数据的传输和同步【回复073查看】 漫谈大数据仓库与挖掘系统:MapReduce与大规模离线计算系统【回复074查看】转载 2013-10-23 09:15:14 · 2828 阅读 · 5 评论