
机器学习
文章平均质量分 53
数据文字工作者
ToB行业大数据老兵一枚,专注数据中台与行业数据应用建设,熟悉数据开发、数据治理、数据资产管理、数据仓库相关技术体系和方法论,对国内大数据市场划分、产品需求及项目售前与交付流程有一定认知,希望通过文字总结、记录下自己的所见、所想,为大数据行业优秀的理念、方法论与技术体系传播与分享贡献自己的力量
展开
-
在R或Rstudio中调用SparkR
libpath libpath .libPaths(libpath)rm(libpath)library(rJava)library(devtools)library(SparkR)sc 或sc sqlContext linux下加载R包:install.packages('Cairo', dependencies=TRUE, repos原创 2016-04-11 09:26:43 · 5134 阅读 · 0 评论 -
SparkR去数据子集错误:object of type 'S4' is not subsettable
sparkR在加载完数据之后取数据子集的时候出现如下错误:> coincidence.indicator Error in coincidence.indicator.original[1:coincidence.indicator.date, : object of type 'S4' is not subsettable造成的原因是:R在S3语法中与S4语法中访问原创 2016-04-08 10:20:46 · 7725 阅读 · 0 评论 -
在R中运行Spark
Linux下安装R1. 安装依赖yum install gccyum installgcc-c++yum installgcc-gfortranyum installpcre-develyum installtcl-develyum installzlib-develyum installbzip2-develyum installread原创 2016-04-06 14:17:40 · 2427 阅读 · 0 评论 -
linux下加载R包:
install.packages('mpMap', dependencies=TRUE, repos='http://cran.rstudio.com/')其中mpMap为要加载的包名称原创 2016-04-06 13:15:45 · 1687 阅读 · 0 评论 -
Rattle :基于R的数据挖掘工具:功能概览
Rattle的界面,依次排列的是菜单,工具栏和标签栏。 1.Rattle的标签栏一个完整的数据挖掘过程包括以下几个步骤(CRISP-DM,1996)(1) 理解问题(2) 理解数据(3) 准备数据(4) 建立模型(5) 模型评估(6) 运用基于这个流程,Rattle开发了一个方便的标签栏,可以便捷的原创 2015-08-14 13:47:52 · 2011 阅读 · 0 评论 -
Rattle :基于R的数据挖掘工具:简介和安装
1.Rattle是什么 数据挖掘是当今时代的一门核心技术,提供了对大数据的描述,探索,模式的识别和预测。数据挖掘者们从统计,机器学习和计算科学中寻找各种适用的方法和工具。很多专门或通用的数据软件包被先后开发出来。 作为优秀的统计软件包,R语言也提供了强大的数据挖掘工具,但是这些工具分散在数以百计的R 包之中,而且写脚本和编程往往也会成为快速解决问题的障碍。rattle包原创 2015-08-14 13:46:48 · 4384 阅读 · 0 评论 -
通过SparkR在R上运行Spark
R依然是数据学家手中最强大的语言之一,其实早在2014年一月底,加州大学伯克利分校的AMPLab就宣布发布了其SparkR项目的开发者预览版,该版本使用了基于原生R语言的Apache Saprk,但是其使用难度还是在不断增加。作为一个大规模处理内存中数据的大数据框架,Apache Saprk最近积攒了大量人气,像Cloudera这样的大公司已经表示大力支持该项目了。Cloudera最近宣布在其原创 2015-04-02 16:17:35 · 1797 阅读 · 0 评论 -
改善机器学习预测模型的技巧
概述本备忘单的目的是为你提供一些提升机器学习性能的想法。要获得突破,你所需要的可能就是其中的一个。找到你要的那个,然后回来,再找下一个再提升。我把这份清单分为4个子主题:基于数据改善性能借助算法改善性能用算法调参改善性能借助模型融合改善性能清单越往下,你获得的增益可能越小。比如,对问题场景重新设立框架或者更多的数据通常比对最好的算法进行调参得到收转载 2016-12-07 14:30:18 · 1846 阅读 · 0 评论 -
为 Mahout 增加聚类评估功能
聚类算法及聚类评估 Silhouette 简介聚类算法简介聚类(clustering)是属于无监督学习(Unsupervised learning)的一种,用来把一组数据划分为几类,每类中的数据尽可能的相似,而不同类之间尽可能的差异最大化。通过聚类,可以为样本选取提供参考,或进行根源分析,或作为其它算法的预处理步骤。聚类算法中,最经典的要属于 Kmeans 算法,它的基本思转载 2016-05-23 14:44:54 · 1063 阅读 · 0 评论 -
July 博客中的机器学习系列
http://blog.youkuaiyun.com/v_july_v/article/category/1061301原创 2016-05-04 18:56:10 · 3963 阅读 · 0 评论 -
Python爬虫和情感分析简介
摘要这篇短文的目的是分享我这几天里从头开始学习Python爬虫技术的经验,并展示对爬取的文本进行情感分析(文本分类)的一些挖掘结果。 不同于其他专注爬虫技术的介绍,这里首先阐述爬取网络数据动机,接着以豆瓣影评为例介绍文本数据的爬取,最后使用文本分类的技术以一种机器学习的方式进行情感分析。由于内容覆盖面巨大,无法详细道尽,这篇文章旨在给那些对相关领域只有少量或者没有接触的人一个认知的窗口,希转载 2016-05-24 09:29:46 · 4413 阅读 · 0 评论 -
机器学习——海量数据挖掘解决方案
大数据时代里,互联网用户每天都会直接或间接使用到大数据技术的成果,直接面向用户的比如搜索引擎的排序结果,间接影响用户的比如网络游戏的流失用户预测、支付平台的欺诈交易监测等等。达观数据技术团队开发过智能文本内容审核系统、作弊监测系统、用户建模系统等多个基于大数据技术的应用系统。机器学习是大数据挖掘的一大基础,本文以机器学习为切入点,将达观在大数据技术实践时的一些经验与大家分享。互联网的海转载 2016-04-11 13:27:42 · 2047 阅读 · 0 评论 -
【数据挖掘导论】读书笔记 - (1)
解决方案:数据预处理:小知识复习:正太分布(1)聚集(2)抽样(3)维归约(4)特征子集选择(5)特征创建(6)离散化和二元化转自:http://book.51cto.com/art/201011/235430.htm有些数据挖掘算法,特别是某些分类算法,要求数据是分类属性形式。发现关联模式的算法要求数据是二元属性形式转载 2016-04-09 14:06:03 · 2784 阅读 · 0 评论 -
数据挖掘150道试题 测测你的专业能力过关吗?
单选题1. 某超市研究销售纪录数据后发现,买啤酒的人很大概率也会购买尿布,这种属于数据挖掘的哪类问题?(A)A. 关联规则发现B. 聚类C. 分类D. 自然语言处理2. 以下两种描述分别对应哪两种对分类算法的评价标准? (A)(a)警察抓小偷,描述警察抓的人中有多少个是小偷的标准。(b)描述有多少比例的小偷给警察抓了的标准。A. Prec转载 2015-03-09 12:46:39 · 7005 阅读 · 1 评论 -
推荐30款最佳的数据可视化工具
各个互联网公司通过大量的用户数据、信息进行统计分析,而这些大量繁杂的数据在经过可视化工具处理后,就能以图形化的形式展现在用户面前,清晰直观。随着各种数据的增加,这种可视化工具越来越得到开发者们的欢迎。下面推荐30款可视化工具供大家选择和使用。1.iChartsiCharts 提供了一个用于创建并呈现引人注目图表的托管解决方案。有许多不同种类的图表可供选择,每种类型都完全可定转载 2015-03-17 16:57:55 · 2588 阅读 · 0 评论 -
人工智能、机器学习、统计学、数据挖掘之间有什么区别?
机器学习是一门涉及自学习算法发展的科学。这类算法本质上是通用的,可以应用到众多相关问题的领域。数据挖掘是一类实用的应用算法(大多是机器学习算法),利用各个领域产出的数据来解决各个领域相关的问题。统计学是一门研究怎样收集,组织,分析和解释数据中的数字化信息的科学。统计学可以分为两大类:描述统计学和推断统计学。描述统计学涉及组织,累加和描绘数据中的信息。推断统计学涉及使用抽样数据来推断原创 2015-04-01 17:58:05 · 934 阅读 · 0 评论 -
据挖掘中的十大经典算法
以下就是从参加评选的18种候选算法中,最终决选出来的十大经典算法:一、C4.5C4.5,是机器学习算法中的一个分类决策树算法,它是决策树(决策树也就是做决策的节点间的组织方式像一棵树,其实是一个倒树)核心算法ID3的改进算法,所以基本上了解了一半决策树构造方法就能构造它。决策树构造方法其实就是每次选择一个好的特征以及分裂点作为当前节点的分类条件。C4.5相比于ID3改进的地转载 2015-07-21 16:11:18 · 702 阅读 · 0 评论 -
8个提高机器学习模型的准确率的方法
模型的开发周期有多个不同的阶段,从数据收集开始直到模型建立。不过,在通过探索数据来理解(变量的)关系之前,建议进行假设生成(hypothesis generation)步骤(如果想了解更多有关假设生成的内容,推荐阅读(why-and-when-is-hypothesis-generation-important)。我认为,这是预测建模过程中最被低估的一个步骤。花时间思考要回答的问题转载 2016-02-15 08:32:05 · 5341 阅读 · 0 评论 -
协同过滤介绍和简单推荐系统的实现
本文介绍推荐系统、协同过滤思想,两种基本的相似度衡量,并用python实现。最后就MovieLens数据集上作出简单的推荐。一、相关知识(1)推荐系统如今,推荐系统已经在多方面得到应用,例如淘宝、当当、亚马逊等网站的商品推荐。而个性化推荐系统则是通过发掘用户的兴趣爱好,作出针对性的推荐。个性化推荐的方法较多,最常用的是协同过滤方法,而本文主要讲的也是基于协同过滤的个性化推荐。转载 2016-03-17 11:30:41 · 538 阅读 · 0 评论 -
决策树分类和预测算法的原理及实现
作者:蓝鲸算法决策树是一种通过对历史数据进行测算实现对新数据进行分类和预测的算法。简单来说决策树算法就是通过对已有明确结果的历史数据进行分析,寻找数据中的特征。并以此为依据对新产生的数据结果进行预测。决策树由3个主要部分组成,分别为决策节点,分支,和叶子节点。其中决策树最顶部的决策节点是根决策节点。每一个分支都有一个新的决策节点。决策节点下面是叶子节点。每个决策节点表示一个待分类的转载 2016-03-25 09:13:39 · 6452 阅读 · 0 评论 -
数据挖掘150道解析(二)40-50题
41. 频繁项集、频繁闭项集、最大频繁项集之间的关系是: (C)A、频繁项集 频繁闭项集 =最大频繁项集B、频繁项集 = 频繁闭项集 最大频繁项集C、频繁项集 频繁闭项集 最大频繁项集D、频繁项集 = 频繁闭项集 = 最大频繁项集解析:频繁项集,就是事例里频繁出现的项的集合,比如事例为每个人的购物清单,项就是买的东西,项集就是指频繁地同时出现的集合。比如人们总是喜欢同时买酒转载 2016-04-09 12:10:52 · 5002 阅读 · 3 评论 -
机器学习在金融大数据风险建模中的应用
【摘要】在互联网金融、消费金融的蓬勃发展的当下,央行征信在数据时效性、全面性和层次性上的短板日益凸显。深度挖掘互联网大数据信息,开发大数据风控模型,更加精准的评估风险,已经逐渐成为了新一代信用风险模型体系建设的核心课题。本文在传统风险模型体系的基础上,嫁接逻辑回归和决策树模型建立T-L模型,并结合Random Forest模型完善模型结构。采用T-L核模型替代RF模型中的传统决策树转载 2016-04-09 12:31:12 · 10755 阅读 · 1 评论 -
近200篇机器学习&深度学习资料分享(含各种文档,视频,源码等)
留着慢慢看:转自:http://developer.51cto.com/art/201501/464174_all.htm编者按:本文收集了百来篇关于机器学习和深度学习的资料,含各种文档,视频,源码等。而且原文也会不定期的更新,望看到文章的朋友能够学到更多。《Brief History of Machine Learning》介绍:这是一篇介绍机转载 2015-02-27 17:05:56 · 1633 阅读 · 0 评论