- 博客(39)
- 收藏
- 关注
转载 Flink教程-快速开始
Flink教程-快速开始Apache Flink 是一个开源的分布式批数据以及流数据处理平台。目前已经升级为 Apache 顶级开源项目。无论是 Spark 还是 Flink,他们的主要优势都是基于内存运行机器学习算法,运行速度非常快,而且 Flink 支持迭代计算。作为大数据挖掘工程师两个...
2016-01-16 10:36:00
185
转载 国内:如何解决Maven和SBT下载Jar包太慢
国内:如何解决Maven和SBT下载Jar包太慢前言最近由于忙着写毕业论文,博客撰写暂时停止一段时间。经过了九个月的实习,尝试了不同的机会,在公司从来没有碰到网络问题,国外网站访问毫无压力。临近毕业,返校写毕业论文,论文必须要有实验的支持,这个时候就免不了下载各种Jar包尝试不同的方法,...
2015-12-17 17:21:00
348
转载 Spark数据挖掘-深入GraphX(1)
Spark数据挖掘-深入GraphX(1)1 网络数据集当图被用来描述系统中的组件之间的交互关系的时候,图可以被用来表示任何系统。图原理提供了通用的语言和一系列工具来表示和分析复杂的系统。简单的说:图由一系列顶点和边组成,每条边连接两个顶点表示这两个顶点之间的某种关系。下面介绍一下本文将会...
2015-11-26 09:57:00
552
转载 Spark数据挖掘-基于 LSA 隐层语义分析理解APP描述信息(2)
Spark数据挖掘-基于 LSA 隐层语义分析理解APP描述信息(2)前一篇:Spark数据挖掘-基于 LSA 隐层语义分析理解APP描述信息(1)1 前言Spark 通过调用 RowMatrix 的 computeSVD 方法会得到三个重要的矩阵 U、S、V , 而且:原始矩阵 近似等...
2015-11-22 15:48:00
197
转载 Spark数据挖掘-TF-IDF文档矩阵
Spark数据挖掘-TF-IDF文档矩阵前言得到词文档矩阵往往都是文本挖掘算法的第一步,词文档矩阵中行表示语料库中出现过的词(实际代码都是对词进行整数编码),列表示所有的文档,矩阵中的每个值就代表词在文档中的重要程度。目前已经有很多计算词在文档中权重的模型,不过最通用的模型应该就是 词频-...
2015-11-19 20:47:00
258
转载 Spark数据挖掘-基于 LSA 隐层语义分析理解APP描述信息(1)
Spark数据挖掘-基于 LSA 隐层语义分析理解APP描述信息(1)1 前言结构化数据处理比较直接,然而非结构化数据(比如:文本、语音)处理就比较具有挑战。对于文本现在比较成熟的技术是搜索引擎,它可以帮助人们从给定的词语中快速找到包含关键词的文本。但是,一些情况下人们希望找到某一个概念的...
2015-11-19 09:47:00
583
转载 Spark数据挖掘-基于 K 均值聚类的网络流量异常检测(2): 模型优化
Spark数据挖掘-基于 K 均值聚类的网络流量异常检测(2): 模型优化上一节:Spark数据挖掘-基于 K 均值聚类的网络流量异常检测(1): 数据探索模型初步实验前言通过上一节的介绍,已经对数据集长什么样子,模型如何工作的有了一个基本的了解,本节重点就是探讨如何优化 K-means...
2015-11-13 15:18:00
524
转载 Spark数据挖掘-数据标准化
Spark数据挖掘-数据标准化1 前言特征数据标准化指的是对训练样本通过利用每一列的统计量将特征列转换为0均值单位方差的数据。这是非常通用的数据预处理步骤。例如:RBF核的支持向量机或者基于L1和L2正则化的线性模型在数据标准化之后效果会更好。数据标准化能够改进优化过程中数据收敛的速...
2015-11-10 19:52:00
262
转载 Spark数据挖掘-基于 K 均值聚类的网络流量异常检测(1): 数据探索、模型初探
Spark数据挖掘-基于 K 均值聚类的网络流量异常检测(1): 数据探索、模型初探1 前言分类和回归是强大易学的机器学习技术。需要注意的是:为了对新的样本预测未知的值,必须从大量已知目标值的样本中去学习,这类技术统称为监督学习技术。下面将会重点介绍非监督学习的算法:K均值聚类。这样的...
2015-11-09 21:09:00
1644
转载 SparkInAction 图计算 用户关系染色分析
SparkInAction 图计算 用户关系染色分析前言需求:如果一个用户使用了某个手机,这个手机上登录过其他的用户,那么这些用户是有关系的,同样用户关联到的用户又可以通过手机关联到其他用户这样就构成了一个强大的关系网。现在给出用户与手机登录关系表,请找出所有的用户是有关系的。问题分析...
2015-11-05 19:10:00
167
转载 R语言数据挖掘 — 决策树直观绘图
R语言数据挖掘 — 决策树直观绘图 1 前言 今天发现一个特别漂亮的决策树绘图方法,特此记录下来,作图工具是R语言,方法特别简单,图形直观美丽大方让我眼界大开。 2 安装包准备 绘制这些漂亮的图需要安装下面的包: library(rpart)library(rattle)l...
2015-11-05 11:11:00
1209
转载 Spark数据挖掘-FPGrowth算法
Spark数据挖掘-FPGrowth算法主要内容什么是关联规则挖掘?关联规则有哪些术语?什么是FP-Growth算法?1.1 FPGrowth算法1.1.1 基本概念关联规则挖掘的一个典型例子是购物篮分析。关联规则研究有助于发现交易数据库中不同商品(项)之间的联系,找出顾客购...
2015-11-03 15:15:00
323
转载 Spark 数据挖掘 - 利用决策树预测森林覆盖类型
Spark 数据挖掘—利用决策树预测森林覆盖类型1 前言预测问题记住一点:最垃圾的预测就是使用平均值,如果你的预测连比直接给出平均值效果都要差,那就省省吧!统计学诞生一个多世纪之后,随着现在机器学习和数据科学的产生,我们依旧使用回归的思想来进行预测,尽管回归就是用平均值向后不断回滚来预...
2015-11-03 10:15:00
160
转载 spark数据挖掘 - 基于 Audioscrobbler 数据集音乐推荐实战
基于 Audioscrobbler 数据集音乐推荐实战1. 数据集这个例子将使用 Audioscrobbler 公开的数据集。Audioscrobbler是http://www.last.fm/zh/第一个音乐推荐系统.http://www.last.fm/zh/ 是第一个网络流媒体音频...
2015-10-30 10:10:00
1462
转载 机器学习算法汇总
机器学习算法汇总 1. 前言 通过将工作中用到的机器学习算法归纳汇总,方便以后查找,快速应用。 2. 推荐算法 交叉最小方差 算法名字 交叉最小方差, Alte...
2015-10-28 15:23:00
107
转载 ScalaInAction 数据预处理
ScalaInAction 数据预处理前言使用 Spark+Scala 进行数据预处理,最大的优势就是可以处理大数据量而且速度还会很快。Scala 不仅拥有类似与R语言一样的语法特点,还比R语言更加灵活,可以开发自己想要的工具。Spark 基于 Scala 开发,虽然在大数据处理的时候...
2015-10-27 17:14:00
413
转载 SBT+IDEA Scala开发环境搭建
SBT+IDEA Scala开发环境搭建前言利用 IDEA 开发 Scala程序有一段时间了,老是有一个问题困扰着我,那就是Idea里面的 SBT 使用的配置根本没有使用我自己下载的 SBT 里面的配置,导致 Idea 里面新建 sbt 项目总是无法使用代理下载依赖,从而使得下载失败。我只...
2015-10-27 10:09:00
227
转载 ScalaInAction测试——静态测试
ScalaInAction测试——静态测试前言首先,我们需要了解如何测试发送和接受消息,包括发送然后不管的模式以及发送之后等待回复的交互式模式。使用的是 Scala 的测试框架 [ScalaTest]http://www.scalatest.org/。这个框架被设计成可读性性很高。使用...
2015-10-26 20:38:00
148
转载 shell 如何实现两个表的join操作
shell 如何实现两个表的join操作今天研究的一个问题是:在Shell 脚本中如何实现两个表的 join 操作,这里说的两个表示的其实是两个文件,但是文件是列表的形式,有固定的分割符号,即就相当于hive中一个非分区表的文件。表的操作当然是在数据库中操作是最好的: 比如有: tabl...
2015-10-23 09:41:00
475
转载 细说 scala 开发环境
细说 scala 开发环境前言每个人有每个人的悲剧,我的悲剧就是选择 ScalaIDE + Maven 作为 Scala 开发环境,导致折腾到吐血。回想一下选择IDE的理由:方便编写代码(这是最基本的,各种快捷键、自能提示补全、快速代码定位等等)方便Debug(这个也是非常重要的,...
2015-10-16 17:13:00
118
转载 Shell编程——变量、判断、重复动作
Shell编程——变量、判断、重复动作变量除了维护有用的值还用于管理程序的状态,还可进行算术计算。流程控制的功能造就了程序语言:条件判断、循环、函数。 *变量复制与环境变量阈值之后相当与scala的 var 赋值,但是你想达到 val 的效果。使用 readonlyhours...
2015-10-13 09:35:00
161
转载 Spark Eclipse 开发环境搭建
Spark Eclipse 开发环境搭建1 安装Spark环境首先下载与集群 Hadoop 版本对应的 Spark 编译好的版本,解压缩到指定位置,注意用户权限进入解压缩之后的 SPARK_HOME 目录配置 /etc/profile 或者 ~/.bashrc 中配置 SPARK_H...
2015-10-10 10:03:00
188
转载 windows qq能上网但是浏览器无法打开网页解决办法
1、针对自己的电脑,DNS由原始的默认自动获取,修改为8.8.8.8 转载于:https://my.oschina.net/u/1244232/blog/420780...
2015-05-27 22:41:00
708
转载 Docker 学习资料汇总
<p>1、docker教程</p> <p><a title="http://special.csdncms.youkuaiyun.com/BeDocker/" href="http://special.csdncms.youkuaiyun.com/BeDocker/">...
2015-04-29 09:58:00
54
转载 Python 如何调用 Java
<h3>Section1:利用JPype实现Python调用Java</h3> <p>参考网址:</p> <p><a href="http://blog.youkuaiyun.com/niuyisheng/article/details...
2015-04-28 17:02:00
54
转载 linux硬盘扩充技术查考指南
<p> </p> <p><b></b></p> <p><b>一、查看硬盘状态命令,</b><b> fdisk -l</b></p>...
2015-04-24 16:55:00
81
转载 Solr 服务器搭建
<p><b>一、安装solr</b><b>(未集成Tomcat</b><b>,服务器上Tomcat</b><b>不能安装成功)</b></p> <p>参考网址:...
2015-04-24 16:51:00
67
转载 基于具体需求的URL辅助法实际应用深入研究
<p> </p> <h3>一、研究背景及思路</h3> <p><b>研究目的:</b>通过提取URL的特征信息对网页作出准确的分类。</p> <p><b&g...
2015-04-24 16:43:00
101
转载 数据挖掘与R语言——第二章(预测海藻数量)
<p>一、首先介绍两个非常给力的讲 ggplot2 绘图的博客:</p> <p><a title="http://www.cellyse.com/how_to_use_gggplot2_part2/#comments" href="http://ww...
2015-04-22 11:34:00
680
转载 如何安装 DL4J
<p>因为DL4J依赖线性代数库所有,不同的系统首先需要安装的文件是不同的?</p> <p>OSX 苹果已经自带了</p> <p><strong><font style="background-color: #f...
2015-04-20 11:11:00
175
转载 Windows 和 Linux 下面执行 java -cp 命令时候的不同
今天在执行这个命令的时候,纠结了半天:记下来给自己惊醒。java -cp com.anylogic.engine.jar;com.anylogic.engine.nl.jar;model.jar;lib/ProcessModelingLibrary.jar;com.anylogic.engi...
2015-04-16 21:28:00
741
转载 Windows 上也能玩转 Spark
<p>写这篇博客之前有一个问题一定要明确,那就是 Windows 上其实是不可能玩转 Spark 的,之所以这么说,只是为了让想体验 Spark 的我们也能玩玩这个东西,没有分布式环境真是悲催啊。但是在Windows上面我们还是可以体验一下 Spark 的,不用搭虚拟机, 只需要三...
2015-04-03 10:29:00
94
转载 linux 中安装 web 服务器常用命令汇总
<p><strong>#1、安装之前查看端口是否被占用</strong></p> <li><a href="http://my.oschina.net/u/193184/blog/146885#OSC_h3_1">查看端...
2015-04-02 10:38:00
369
转载 Gitolite 常见错误汇总
#1、错误1:在执行 git clone YourGitName@YourIP:gitolite-admin 提示仓库不存在,或者没有权限。于是以为别人的文档写的不对,因为真是的 git 仓库是在你当时执行,gitolite setup -pk $HOME/scott.pub命名时候的用户...
2015-04-01 16:39:00
488
转载 Solr 查询语法
由于 Solr 内部实现查询语句的语法语义分析使用比较成熟的工具 Javacc,所以 Solr 支持的查询语法还是很丰富的,Solr 查询语法可以总结如下:Solr 查询无论是 Solrj 操作还是直接发送请求给 Solr 服务器,原理都是一样的,本质上都是发送 http 请求给 Solr ...
2013-09-20 14:26:00
136
转载 SolrCloud和MultiCore的区别
一、SolrCloud 与 MultiCore 的本质区别*SolrCloud 用多台机搭建一个SolrCore(即整个系统只有一套schema,solrconfig)*MultiCore 是多个独立的服务,不同的core可以用几套schema,solrconfig。二、下面开始安装 S...
2013-09-19 20:13:00
143
转载 Jsoup 过人之处 —— select 选择器
jsoup 的过人之处——选择器前面我们已经简单的介绍了 jsoup 是如何使用选择器来对元素进行检索的。本节我们把重点放在选择器本身强大的语法上。下表是 jsoup 选择器的所有语法详细列表。表 2. 基本用法:<!-- lang: html -->tagname 使用...
2013-09-18 18:50:00
181
转载 Jsoup 源码分析
一、Jsoup 在类的设计上许多名字采用和 java 本身自带的 xml 解析器的类的名字一样,这样很容易让人误会,Jsoup 在设计过程中沿用了 xml 解析器,其实这种观念是错误的,jsoup 之所以这么出色,是因为,Jsoup使用了一套自己的DOM对象体系,和Java XML API互不...
2013-09-17 17:36:00
308
转载 Jsoup 之入门
1、jsoup 简介部分摘自 http://www.ibm.com/developerworks/cn/java/j-lo-jsouphtml/Java 程序在解析 HTML 文档时,相信大家都接触过 htmlparser 这个开源项目,Jsoup 功能比 htmlparser 更加强大,...
2013-09-17 10:24:00
122
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人