- 博客(30)
- 资源 (2)
- 收藏
- 关注

原创 Hbase在hadoop高可以切换时死掉的情况
hadoop高可用有nn1和nn2,两个之间是active和Standby两种状态。但是当状态从active切换为standby时。会造成hbase中regionserver死掉的情况目前没有好办法-----------------------------------------------------------------------------------------------...
2018-08-14 15:28:38
220
原创 如何复盘和选股
股票复盘:一、今天操作:早上-10低吸预制菜前龙头国联水产,盈利4个点。思路:早盘医药股龙二 龙三都水下下跌。九安低于预期,医药今天走衰退。昨天预判指数在这里有反弹需求。那么就有两个思路,低吸大盘股银行证券白酒,另外一个博弈资金选择新题材预制菜。目前看市场今天没有否定也没有承认。而是走出一个次新股的行情。衰退周期猫一天狗一天。不能去追,埋伏前期题材,等待轮动衰退。今天操作70分,可以吸的更低点。二、今天复盘指数上涨,个股下跌,跌停63家,市场情绪衰退。昨日涨停-0.4 昨日连板-2.4
2022-01-19 00:39:53
1138
原创 第三方jar包引入项目工程方法
方法一:再idea中直接用maven引入命令如下:mvn install:install-file -Dfile=G:\code\bd\branches\bigdata-project-zuoke\app-logs-spark\src\lib\phoenix-4.7.0-clabs-phoenix1.3.0-client.jar -DgroupId=org.apache.phoen...
2020-03-11 14:59:58
723
原创 数据预处理与特征工程
数据预处理与特征工程缺失值处理缺失值处理通常有如下的方法: 对于unknown值数量较少的变量,包括job和marital,删除这些变量是缺失值(unknown)的行; 如果预计该变量对于学习模型效果影响不大,可以对unknown值赋众数,这里认为变量都对学习模型有较大影响,不采取此法; 可以使用数据完整的行作为训练集,以此来预测缺失值,变量housing,loa...
2019-10-25 17:59:41
719
原创 log4j发送日志给flume,并通过过滤器,将日志存入hdfs中,通过日期分区存放
一、log4j配置文件修改需要在发送端引入依赖包<dependency> <groupId>org.apache.flume.flume-ng-clients</groupId> <artifactId>flume-ng-log4jappender</artifactId> <version>1....
2019-06-05 18:54:14
416
转载 在linux安装nodejs,配置好环境变量后,node -v出错: bash: /usr/local/node/bin/node: /lib/ld-linux.so.2: bad ELF inte
在linux安装nodejs,配置好环境变量后,node -v出错:bash: /usr/local/node/bin/node: /lib/ld-linux.so.2: bad ELF interpreter: 没有那个文件或目录按照提示的意思是解释器出了问题,度娘了一下,应该这样能解决:##切忌不要输入此命令,我自己给自己挖的坑,后面就能看到sudo yum install g...
2019-02-28 15:49:46
3619
1
原创 开发bug问题
1、hue 和 oozie 的权限控制hive和sqoop在服务器本地运行没有问题,hive在hue里面执行也么有问题。但是sqoop执行会有问题,sqoop可以连接的上mysql。但是在写入hdfs的时候就会出现一种Launcher ERROR, reason: Main class [org.apache.oozie.action.hadoop.SqoopMain], exit cod...
2018-12-07 17:35:23
252
原创 hive sql 优化
hive的查询注意事项以及优化总结 .Hive是将符合SQL语法的字符串解析生成可以在Hadoop上执行的MapReduce的工具。使用Hive尽量按照分布式计算的一些特点来设计sql,和传统关系型数据库有区别,所以需要去掉原有关系型数据库下开发的一些固有思维。基本原则:1:尽量尽早地过滤数据,减少每个阶段的数据量,对于分区表要加分区,同时只选择需要使用到的字段select...
2018-11-15 10:45:05
3007
转载 sprintboot2注解
SpringBoot(2)配置文件1 yml文件 和 properties文件的配置:SpringBoot使用一个全局的配置文件,配置文件名是固定的;•application.properties•application.yml同样配置tomcat服务器的端口号,看一下配置方式的比较:yml文件:server: port: 8081Spring中的XML文件:&...
2018-11-14 11:49:27
330
原创 sprintboot 构架详解
一、系统要求1、Spring Boot 2.1.1.BUILD-SNAPSHOT需要Java 8,并且与Java 11兼容(包括在内)。 还需要Spring Framework 5.1.2.RELEASE或更高版本。需要maven3.3以上版本做构架支持2、Servlet容器tomcat 9.0 servlet 版本4。还可以将Spring Boot应用程序部署到任何Servle...
2018-11-07 10:07:01
582
转载 CentOS 7 安装 CDH 5.12.1
准备4台机器,内存,磁盘尽量给足node1(master) 192.168.231.128 内存16G,磁盘50Gnode2 192.168.231.129 内存3G,磁盘50Gnode3 192.168....
2018-10-18 15:05:27
1001
翻译 CHD 5.15 包版本详细
CDH 5.15.1 Packaging and TarballsComponent Package Version Tarball Release Notes Changes File Apache Avro avro-1.7.6+cdh5.15.1+140 Tarball Release notes Changes Apache Cr...
2018-10-12 15:06:59
937
原创 spark遇到的坑
一。提示内存不足在代码里面添加set("spark.testing.memory","512000000")内存容量val conf :SparkConf = new SparkConf().setAppName("SparkWordCount").setMaster("local[1]").set("spark.testing.memory","512000000")二
2018-08-16 15:30:28
764
原创 Spark踩坑:JsonMappingException: Incompatible Jackson version: 2.9.6
在Spark2中,如果使用了kafka库,则很容易产生如下错误:Exception in thread "main" java.lang.ExceptionInInitializerError at org.apache.spark.streaming.dstream.InputDStream.<init>(InputDStream.scala:80) at or...
2018-08-16 14:28:36
1418
原创 Hbase api
一、几个主要 Hbase API 类和数据模型之间的对应关系:1、 HBaseAdmin关系: org.apache.hadoop.hbase.client.HBaseAdmin作用:提供了一个接口来管理 HBase 数据库的表信息。它提供的方法包括:创建表,删 除表,列出表项,使表有效或无效,以及添加或删除表列族成员等。2、 HBaseConfiguration关系: ...
2018-08-14 14:56:23
627
原创 mysql错误集合
myqsl初始化时候,出现的错误[root@hadoop mysql]# ./bin/mysqld --user=mysql --basedir=/home/mysql/ --datadir=/home/mysql/data/解决办法 :./bin/mysqld --initialize --user=mysql --basedir=/home/mysql/ --datadir=/home...
2018-07-20 15:29:38
410
原创 mysql修改my.cnf文件后,编码格式改变后无法启动
inux下老版本的Mysql修改数据库编码的方法是修改my.cnfvi /etc/my.cnf在[client]下添加default-character-set=utf8在[mysqld]下添加default-character-set=utf8在新的版本中如果这样修改的话,会造成无法启动的错误,结果方法是在[mysqld]下把default-character-set=ut...
2018-07-19 19:17:07
4478
4
转载 centos 7 linux系统安装 mysql5.7.17(glibc版)
centos 7 linux系统安装 mysql5.7.17(glibc版)前言:经过一天半的折腾,终于把 mysql 5.7.17 版本安装上了 centos 7 系统上,把能参考的博客几乎都看了一遍,终于发现这些细节问题,然而翻了无数的文章,基本上都没有提到这些,所以小生尽量把这些细节写下来,一方面是供初学者们参考,另一方面也是对自己花这么长时间的摸索的一个总结,如有不足之处欢迎各路...
2018-07-18 20:16:46
278
原创 linux虚拟机centos7 搭建
1、搭建centos 7系统分区:选择手动分区,点击done挂载好如图同理添加交换分区swap分区给他 8096M 的空间,和跟分区开通网卡 centos7 的系统在用mini模式安装的时候,一定要打开网络结案eth33,否则不能联网查看ip地址命令是:ip addr 我感觉没有ifconfi和vim特别不舒服,就安装了下,需...
2018-07-18 18:07:12
206
原创 hadoop集群免密登陆
1、免密登陆的目的。在hadoop集群中,master需要ssh方式登陆slave进行操作2、免密登陆其实就是我自己的linux服务器产生一对密码。把一个密码发给其他人。比如我产生一对暗号:亲爱的 小洁儿 我把亲爱的发给其他服务器,他拿着这个钥匙来找我,我自己一对,和自己留着的小洁儿正好匹配。放行他登陆。3、开始操作命令:ssh-keygen中间直接回车就好,看到他生成...
2018-07-17 19:34:07
854
原创 hadoop集群搭建
一、基本配置 ip hadoop01 192.168.32.131 hadoop02 192.168.32.132 hadoop03 192.168.32.133 二、环境配置1、安装jdk三、hadoop安装配置1、修改hadoop-env.sh2、修改core.site.xml...
2018-07-16 14:34:38
150
原创 linux虚拟机centos7 搭建
1、搭建centos 7系统 centos7 的系统在用mini模式安装的时候,一定要打开网络结案eth33,否则不能联网 我感觉没有ifconfi和vim特别不舒服,就安装了下,需要的也可以自己安装; yum search ifconfig 找到版本号 yum install net-tools.x86_64 同样yum search vim 找到版本号 ...
2018-07-16 10:39:44
145
原创 HBase安装使用以及bug点提醒
1、hbase提醒java not set2、hbase必须和hadoop版本对应的原因3、hosts文件配置犯错误4、块丢失的另外一种原因
2018-07-04 17:52:34
161
原创 hadoop namenode format失败 或者无法执行的情况
在第一次启动hadoop集群的时候,如果不按照顺序来启动的时候,会出现datanode连接失败的情况。而且hdfs zkfc -formatZK这个命令在复制粘贴的时候,经常会发生变形,造成执行的语句出现意外。很奇怪他不会失败但是会出现执行异常的情况。所以一定要手动输入...
2018-06-28 18:56:53
3307
原创 kafka来读取flume的数据
一、查看kafka topic ./kafka-topics.sh --list --zookeeper bigdata-test-3:2181, bigdata-test-2:2181, bigdata-test-1:2181, bigdata-test-4:2181, bigdata-test-5:2181./kafka-topics.sh --delete --zookeeper bi...
2018-05-24 20:38:08
2420
原创 kafka 集群搭建
一. 配置zookeeper环境kafka实现分布式需要zookeeper的分布式管理默认现在zookeeper的集群已经安装完毕了。通过启动zookeeper的客户端,查看下现在有点多少个节点如果没有安装过kafka的话。应该只有下面两个。也不排除你安装的其他的哈。其他的乱七八糟的东西就是kafka在zookeeper下面建的节点,你看人家hadoo都是规规矩矩的,就这个家伙,不单独建个文件夹。...
2018-05-24 18:23:56
244
原创 大数据处理工具优劣分析
1、hadoop使用mapreduce的分布式处理工具2、没有使用mapreduce的分布式处理工具3、当不需要使用分布式集群时,而且处理的数据集比较小的时候,或者对计算的时间并不苛刻的时候还可以选择一些小型工具...
2018-05-11 10:52:24
593
原创 MapReduce概述
一、MapReduce是一种分布式计算模型,由Google提出,主要用于搜索领域,解决海量数据的计算问题。Apache对其做了开源实现,整合在hadoop中实现通用分布式数据计算。MR由两个阶段组成:Map和Reduce,用户只需要实现map()和reduce()两个函数,即可实现分布式计算,非常简单。大大简化了分布式并发处理程序的开发。二、...
2018-04-10 14:41:12
264
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人