yekanghui-优快云博客

原创 mysql的数据导入到hive表timestamp值异常问题解决

mysql的数据导入到hive表中报错:Error: java.io.IOException: SQLException in nextKeyValue at org.apache.sqoop.mapreduce.db.DBRecordReader.nextKeyValue(DBRecordReader.java:277) at org.apache.hadoop.mapred...

2018-08-13 17:41:25 2766

原创 CDH5.12.X添加Kafka服务

最近有同学问我CDH怎么安装Kafka服务，正好我之前也有安装过，在这里将安装过程记录一下，方便各位同学过坑！既然已经安装了CDH,那么我们在安装kafka服务的时候,很自然的直接添加服务：但是有提示:Before adding this service, ensure that either the Kafka parcel is activated or the...

2018-07-05 10:45:33 1976

原创 Azkaban安装并设置定时任务Schedule以及邮件发送接收

缘起之前的任务一直使用的是crontab定时任务，要通过监听任务运行日志才可以知道任务执行失败，并且还要设置邮件发送比较麻烦。最重要的是crontab无法维护任务之间的依赖关系。而使用Azkaban可以很方便的管理任务之间的依赖关系，可以设置任务失败执行重试操作和邮件发送，NICE！安装首先第一步肯定是要上官网瞄一下啦！https://azkaban.github.io/azkab...

2018-06-27 15:28:42 14624

原创 powerdesigner导出mysql数据库表结构到Excel

前提要做数据源的整理,需要将Mysql数据库表的结构导出到Excel表里面做文档记录;第一个Sheet是所有表格的列表,其他的Sheet是每一个表格的详细字段以及注释说明.打开PowerDesigner的数据库结构导出Excel脚本页面选择好连接的数据库以后,ctrl+shift+x 弹出执行脚本界面，输入如下代码就会生成 ExcelOption Explicit Dim rowsNu...

2018-05-14 20:03:31 1394

原创检查程序运行错误日志并发送钉钉机器人播报

检查程序运行错误日志并发送钉钉机器人播报

2018-03-08 16:31:18 2204

需求有一些特殊的场景,需要将Hive中的结构化数据表的数据导入到MySQL中.如果是使用HiveContext去导的话,需要编写代码,然后提交jar包,比较麻烦.可以直接使用Sqoop组件将Hive的数据导入到MySQL中.Sqoop的安装和使用在这里不再赘述了.1.Hive表创建的Hive表及其定义的字段如下:create external table behavior1(city string

2017-10-09 13:55:26 11382 3

原创 MongoDB的数据导入到HDFS上的Hive中记录

需求公司以前的旧数据存放在服务器上面的MongoDB上,现在要使用这些数据进行大数据分析处理,那么就出现了MongoDB的数据导入到HDFS上的Hive数据表中的需求.现在写下该博客Mark一下!实现步骤1.下载jar文件:版本要求摘自https://github.com/mongodb/mongo-hadoop/wiki/Hive-Usage mongo-hadoop-core-2.0.2.ja

2017-09-26 18:36:25 3843 2

原创 CDH5.12.1版本搭建记录

CDH5.12.1搭建文档

2017-09-24 17:14:56 1674

原创 MLlib中逻辑回归计算features的score代码

val intercept = model.intercept val margin = dot(model.weights, features) + intercept val score = 1.0 / (1.0 + math.exp(-margin))在源码里面默认的是如果score>0.5,则返回的label是1,否则是0

2017-08-31 23:27:20 368

原创 Hadoop中Mapper过程的源码分析

简单WordCount的案例代码通过三个简单的类WordCount,MyMapper和MyReducer实现一个简单的单词统计的功能.WordCount类代码:import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.Path;import org.apache.hadoop.io.IntWritable;i

2017-06-05 14:59:27 965

原创 Hadoop中split源码分析

目的:通过一个简单的单词统计案例进行split信息获取的源码分析实现WordCount的demo代码单词统计的demo代码主要通过三个类来实现,现将代码贴出来主类WordCount:import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.Path;import org.apache.hadoop.io.Int

2017-06-04 23:17:47 894

原创 Hadoop运行jar包jdk版本冲突问题解决

前言:今天在eclipse上编译jar包放到hadoop上运行的时候出现了版本冲突的问题.报错内容:在linux机器上执行如下命令:hadoop jar XXXXX.jar com.XXX.XXXXXX出现了如下报错内容:Exception in thread "main" java.lang.UnsupportedClassVersionError: com/XXX/XXXXXX : Unsupp

2017-06-04 14:10:30 4067

原创 Mac电脑修改用户名丢失管理员权限问题修复

今天在使用eclipse码代码的时候，为了方便插件使用用户名root进行登录，对mac账号用户名进行了修改。修改后发现悲剧了。在此记录一下，对被这个坑埋过的同学提供方便。出现的问题主要有两点1.数据恢复问题1）修改用户名后，mac系统认为是创建了一个新的用户，这时候，之前管理员账号的数据在当前用户的finder里是看不到的。这时候可以去到桌面，点击又上角的“前往” 点击“电脑” 点击“Mac

2017-06-03 20:15:30 170284 6

原创 hadoop2.6.5 HDFS Mapreduce的高可用集群搭建

前提：上一篇博客已经介绍了如何搭建高可用的HDFS集群系统。在上一篇博客的基础上，继续搭建高可用的Maoreduce集群。上一篇博客的链接：http://blog.youkuaiyun.com/aizhenshi/article/details/728386701.先来看一下Mapreduce的集群搭建图2.文件配置1）配置mapped-site.xml<configuration> <property

2017-06-02 12:50:17 859

原创 hadoop2.6.5 HDFS的高可用集群搭建

1.先来看一下要搭建hadoop集群的HDFS HA结构图2.要配置的HDFS节点分布图从分布图上可以看到，节点1和节点2作为namenode，节点2、3、4作为datanode，节点2、3、4作为Zookeeper，节点1和2作为ZKFC，节点1、2、3作为JournalNode。3.准备4台Server4.配置Zookeeper1）下载Zookerper的jar包，下载链接如下：http://d

2017-06-02 00:23:59 972

原创 hadoop2.6.5配置HDFS并运行

1.先来看一下定义的节点功能2.设置namenode登录datanode的免密登录在namenode执行:$ ssh-keygen -t dsa -P ” -f ~/.ssh/id_dsa$ cat ~/.ssh/id_dsa.pub >> ~/.ssh/authorized_keys3.在所有的datanode节点都执行：$ ssh-keygen -t dsa -P ” -f ~/.ssh/id_

2017-05-31 18:25:27 3087

原创 Mac下eclipse添加hadoop-eclipse-plugin插件

Mac下eclipse添加hadoop_eclipse_plugin插件1.先下载hadoop_eclipse_plugin插件2.进入到eclipse的dropins目录进入方式可从网上查找3.把hadoop_eclipse_plugin.jar放进dropins目录4.重启eclipse，打开window-> show view-> other-> MapReduce Tools,选择Map/R

2017-05-29 16:12:20 834

aizhenshi的博客