amber_amber-优快云博客

原创 Spark 处理中文乱码问题（UTF-8编码）

问题场景要用spark处理一大堆微信日志数据，日志存放在HDFS上，是xml格式，里面有大量的中文。用scala + java实现了xml的处理逻辑，其中有一步是要获取xml中的一个title字段，中文。不管怎么抓取，最终得到的中文都会变成一堆“？？？？？”，乱码了。从xml中获取非中文字段，没有任何问题。也就是说，代码的逻辑是没什么问题的。

2015-12-03 16:14:24 39234 1

转载 Eclipse下Java+Scala混合编程的Maven项目

用spark + java混合实现spark项目，我想肯定有我一样坚持要用eclipse + maven来配置开发环境，而不愿意换Intelij + sbt的同学吧。照着文章中的步骤配置，完全ok。好文共享，原文挺好懂的，就不翻译了~============================== 我是正文分隔线 ==============================

2015-10-26 18:15:48 5604

原创 spark1.4.1中sparkR的编译使用全过程

**本文针对那些和我一样，对spark还挺熟悉但对R知之甚少甚至之前没听过的同学，在spark引入了sparkR后才开始零基础地开始学习使用。如果你本身对R和sparkR已经很熟悉了，就不用看了。本文主要包含的内容： spark1.4.1编译 sparkR使用环境配置 sparkR的第一个例子spark1.4.1编译首先从spark官网下载spark1.

2015-09-06 17:33:33 1810

原创【MapReduce开发】计算PI

MapReduce无法进行递归和迭代式的计算，所以目前基于MapReduce计算PI的算法只有一种，就是Stanford在一篇论文里提到过的一种掷飞镖计算方法。原文我在网上没有找到，所以就把网友的文章截图附一下吧：

2015-08-13 15:49:07 3081

原创 Halton Sequence 原理和代码实现

Halton Sequence是一种随机序列，被用来生成均匀分布的随机数。最常被应用的地方就是Monte Carlo算法。因为最近在学习MapReduce算法，在看对PI的计算实现时了解到Halton Sequence，但惊讶地发现Google竟然搜不到多少介绍，不知道是已经没什么人用了，还是比较冷门呢。Anyway，hadoop计算PI用到了，所以我也就了解下啦。Halton Sequenc

2015-08-11 16:24:13 10203

原创 Hadoop2.x eclipse下编程环境配置

这个过程，是针对如何在eclipse中编写hadoop2.x对应的MapReduce程序，然后打包并上传到hadoop集群执行的过程。1. 下载hadoop2.x的tar包，解压到某个目录下（注：不是源码包，是安装包）2. 将hadoop2x-eclipse插件导入eclipse：（1）编译插件。插件源码地址 https://github.com/win

2015-08-10 11:54:33 1175

原创 C4.5算法（一）代码实现

入门学习机器学习的十大算法，第一站就是C4.5算法。C4.5是一种决策树算法，属于监督学习。先给一个样本集，从而建立一棵决策树，然后根据这个决策树来对后续的数据做决策。

2015-08-06 15:37:31 8813 3

翻译 hadoop2.x HDFS快照介绍

翻译自Apache官方文档，Hadoop2.x版本的snapshot快照功能介绍。

2015-07-23 14:44:50 4527

原创 Hadoop2.0 HA的checkpoint过程

hdfs将文件系统的元数据信息存放在fsimage和一系列的edits文件中。在启动HDFS集群时，系统会先加载fsimage，然后逐个执行所有Edits文件中的每一条操作，来获取完整的文件系统元数据。Edits & fsimage文件HDFS的存储元数据是由fsimage和edits文件组成。fsimage存放上次checkpoint生成的文件系统元数据，Edits存放文件系统操

2015-07-22 15:00:38 7408

原创 hadoop2.0报错“There appears to be a gap in the edit log”

今天升级集群的时候遇到了这个问题。解决问题的过程中，借机也巩固了下对namenode启动过程的理解。这个问题网上几乎没查到好的解决办法，Google出来的办法说让Recovery，对已经有很大数据量的线上集群来说，风险太大，不可取。所以只能自己读着源码一步一步分析，最终还是完美地解决了，哈哈。

2015-07-15 17:56:29 8165 2

原创 Spark Streaming+kafka+eclipse编程

eclipse本身对Scala的支持不是很友好，但还是有一部分同学（比如我）习惯用eclipse来做开发。所以这里提供结合spark streaming+kafka编程在eclipse上实现的过程。###安装配置单机版kafka **如果已经有kafka，这一步跳过。参考官网介绍步骤进行。**（1）下载kafka包并解压 > tar -xzf kafka_2.10-0.8.2.0.t

2015-05-27 17:15:20 2586

原创 Hadoop2.0：Jvisualvm监控MapReduce和spark作业

注意：这个监控适用于执行时间长的作业，比如数据量较大的mapreduce和spark，以及spark streaming等。对几秒到几分钟的作业，恐怕你还没配置好jvisualvm监控，作业就结束了。昨天看了一篇介绍如何用jvisualvm监控spark作业的方法，因为我的MapReduce作业和spark作业都是跑在hadoop2.0的yarn上的，所以自己探索者把mapreduce和sp

2015-05-15 11:43:12 2281

转载 highcharts图表史上最全的参数配置(属性+事件)

【转自： http://www.cnblogs.com/LiviaLiu742X/p/3205450.html 】今天这里将给大家全全展现相关的参数配置：chart.events.addSeries：添加数列到图表中。chart.events.click：整个图表的绘图区上所发生的点击事件。chart.events.load：图表加载事件。chart.

2015-05-08 16:09:00 7145

原创 hadoop ganglia安装配置详解

下面是包括ganglia的安装，和ganglia监控hadoop的配置的完整过程。以及在安装过程中遇到的各种问题和解决方法的记录。ganglia版本为3.6，hadoop版本为cdh5.准备工作准备工作中的各项安装，在每个节点，包括gmetad和gmond上都需要。1. 安装依赖yum -y install apr-devel apr-util check-de

2015-03-16 18:31:12 1533

虽然1.2.1版本也已经出来了，估计还是有很多人在用1.1.0或者1.0.0 版本。所以把编译和使用1.1.0版本时遇到的一些问题和解决思路写在这里，供参考。因为我们对cdh版本的hadoop做了一些生产环境相关的修改，所以每次升级spark都需要基于源码自己进行编译。编译方法很简单，而且我在这篇文章 http://blog.youkuaiyun.com/amber_amber/article/detai

2015-03-02 16:14:31 6204

转载安装OpenCV：OpenCV 3.0、OpenCV 2.4.8、OpenCV 2.4.9 +VS 开发环境配置

Amber有话说：如何安装配置 VIsual Studio2010 + openCV2.4.10。上次偶然看到了Julia集和Mandelbrot集，就想自己实现下。所以开始学习使用openCV。第一步就是搭建环境。按照这篇文章一步一步安装成功，博主讲的很细致也很准确，适合零基础的童鞋，转载留作记录~原文地址： http://blog.youkuaiyun.com/poem_qianmo/articl

2014-12-23 14:15:35 989

原创 spark on yarn作业运行的jar包缓存优化

这几天一直在追查spark on yarn的作业运行中的jar包分发，以及执行后的jar包删除的问题。从一开始的毫无头绪，到后来逐渐清晰，到后来通过hadoop的两个很简单的参数配置解决了问题。不得不说，虽然问题不大，对某些大牛们来说也真是小case，但是追查问题，定位问题到最终解决问题的过程，对我来说真是很不错的体验和学习过程。下面详细描述一下遇到的问题，以及解决的过程，给后面的同学一点参考。

2014-12-22 15:56:45 10325

原创修改hadoop源码后，hadoop和spark的编译过程

近期对hadoop2.0源码做了一些修改，根据业务需要，添加了一点小小的功能。而且我们的hadoop2.0环境上同时运行着MapReduce和spark计算框架，所以hadoop源码的修改同时涉及到了hadoop的重新编译，以及spark的重新编译。下面是对编译过程的一点记录。编译的主要难点和关键在对spark的编译。下面会详细介绍。版本：hadoop： cdh5.1.0-hadoop2.

2014-11-12 12:24:11 2471

原创 hadoop1.0到2.0的升级（非跨版本）

注：升级步骤不涉及HA和federation。如何在Hadoop2.0上部署HA和federation，可以查看另外两篇文章。这是1.0升级2.0的简单升级配置步骤。实践了一下，挺顺利的，HDFS1.0平稳升级2.0，不存在任何不兼容的问题，而且数据没有任何丢失。MR升级中的兼容性问题，下面有简单的概括，具体还要使用了才能更明确。HDFS升级1) 首先，停止正在运行的hado

2014-09-29 10:30:00 1207

原创 RDD，弹性分布式数据集

本文参考了RDD的概述 RDD是spark计算系统的核心和精华，所以下面针对RDD进行简单的探讨。先用一个小例子来具象描述一下RDD的主要工作过程：首先你从HDFS中以K-V格式读入一个文件file1，得到r1；r1是我们的第一个RDD，它被载入到内存中。然后对r1操作，找出所有包含“error”的记录，得到r2；r2是我们的第二个RDD

2014-08-25 14:43:46 1796

原创 Hadoop 2.0源码阅读环境配置--win7+Eclipse+Hadoop2.2.0

hadoop 2.0发布时间不长，目前也还没有puji

2014-08-18 14:00:27 2328

原创 HDFS 2.0 federation配置全过程

HDFS2.0 federation配置全过程我是在已经搭建好的Hadoop 2.0和HA的基础上，增加federation的功能。所以相关的步骤只涉及到federation的部分。网上提供的好几个所谓的federation配置攻略，在实际操作中发现，都有多多少少的错误，有些错误在federation的配置时系统提示还相当的明确，所以都不可取啊。还是要自己一步一步跟着官方文档，脚踏

2014-08-08 11:23:10 1645

原创 HDFS2.0 HA完整配置过程

HDFS HA配置的完整步骤大部分内容转载自： http://blog.youkuaiyun.com/dmcpxy/article/details/18256607 这里是QJM方式的HA配置，众所周知，HDFS HA一般是基于NFS公共存储的，这里不采用NFS。主要步骤：1. zookeeper集群配置2. HDFS HA参数配置3. HDFS HA启动4. 验证

2014-08-05 15:38:22 1310

原创 HDFS集群启动过程详解

HDFS的启动过程和关闭过程都经过脚本进行了封装，只需要执行start-all.sh和stop-all.sh就可以。操作较简单。下面针对启动阶段的原理和详细过程进行说明，对关闭过程目前还没有调研，所以暂缺。HDFS的启动分三步骤：l 第一步，启动namenode；l 第二步，启动datanode；l 第三步，启动Secondary namenode。下面一一描述。

2014-07-29 14:07:52 5761

原创 HDFS基本介绍

基本结构l HDFS是服务于Hadoop的分布式文件系统，由namenode，datanode和client三部分组成。l HDFS适合一次写入，多次读取的数据操作格式[hx1] 。l HDFS运行在一般的普通硬件基础上，硬件故障频率较高，所以要求较高的容错性和稳定性。l HDFS不适合小文件的读写，因为文件元数据是存放在namenode的内存中，小文件数量过多，容易将na

2014-07-29 13:59:59 1424

原创【MapReduce开发】文件去重--第一个MapReduce小程序学习

import java.io.IOException;import net.sf.json.JSONArray;import net.sf.json.JSONObject;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.Path;import org.apache.hadoo

2014-07-25 18:17:27 966

JAVA实现的八皇后问题

用JAVA实现的八皇后问题。学习JAVA时练手写的程序，分享下。我真是各种喜欢写八皇后算法

2013-07-24

SublimeText

SublimeText，很强大的编辑器。可以用来写各种类型的文档和代码，我用这个编写html和css，非常好用。分享下

2013-04-10

python实现的八皇后问题

用python实现的八皇后问题求解。刚刚学习python时，用来练手写的代码。分享下~

2013-03-20

opencv图像的基本处理【平移，旋转，缩放】

实现了C语言和opencv架构下对图像的基本操作技术，平移，旋转，缩放。

2013-01-01

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

Amber_amber的专栏