- 博客(45)
- 收藏
- 关注

原创 精髓 spark kafka producer和Consumer
Spark 消费kafka消息,并且写入Producer中作用域懒加载(foreachPartition)级别(部分转载-部分原创:QQ438509676)===============================version===========================================<scala.version>2.11.8</scal...
2018-09-11 17:57:35
1527
原创 No Watermark (Watermarks are only available if EventTime is used)
flink 常见问题处理
2023-12-25 19:39:16
369
原创 hadoop cdh s3
一.背景 对于目前用户产生的数据量激增,尤其是最近几年,这些数据产生后一般都是存储在hdfs分布式文件系统中,随着数据量越来越大,使用hdfs的磁盘空间也也会越来越多,机器规模一旦上去了之后,就会面临这机器使用费用问题,由于hdfs配置3三副本才能保证数据高可靠性,所有冗余数据量还是蛮大的是原来的三倍,花费不必要的机器磁盘计费开销,面对花费这么高的存储也只是在内网才能访问hdfs的数据,假设我们只要链接互联网就是能分析或者得到视频 、音频和其他类型的数据那岂不是更友好?,如果hadoop 为数...
2021-09-07 17:38:21
495
原创 Mac 安装Vue(二)
1.使用VCCode 编辑器打开修改下面main.js接入下面的代码import 'iview/dist/styles/iview.css' //使用iview cssVue.use(iView); //使用iview组件Vue.config.productionTip = false
2020-07-15 20:06:58
242
转载 Mac 安装Vue
一.安装Node 1.下载https://nodejs.org/en/ 2.node验证环境: node -v 3. npm 环境验证: npv -v 4.npm更新最新环境:npm -g install npm 5.修改npm使用国内的镜像: npm set registry https://registry.npm.taobao.org npm set disturl https://npm.taobao.org/di...
2020-07-15 19:57:20
196
原创 [Fatal Error] total number of created files now is 100043, which exceeds 100000. Killing the job
由于我这个是分区表,表也比较大,在做表的备份,把数据拷贝到另外一张表。拷贝的过程是: insert overwrite table as select * from table1ERROR:[Fatal Error] total number of created files now is 100043, which exceeds 100000. Killing the job解决:sql 后面加distributeby dt ,原理是让insert sql产生reduce过程,从...
2020-07-07 17:27:05
730
原创 Mac 安装oh-my-zsh主题
sh -c "$(curl -fsSL https://raw.github.com/robbyrussell/oh-my-zsh/master/tools/install.sh)"
2020-06-10 17:56:30
442
原创 Python 标准库之 fcntl
def pro(p1,p2): t_name = threading.currentThread().getName() with open('/User/zqh/tmp/test.txt', 'a') as f: fcntl.flock(f.fileno(), fcntl.LOCK_EX) #读写排它锁 print "threan_name%s,...
2019-12-27 17:14:09
695
原创 python exec内置函数解析python代码
code_str = """#coding: utf-8binlog_source = {'db' : 'binlog','table': 'canal_canal_st',}use_global_id = Truelogical_table_list = ['applybinlog'] """ glo = {} loc = {} exec(cod...
2019-12-26 14:36:43
317
原创 git pull之后恢复到原来的版本
1、命令查看你的历史变更记录git reflog2、n代表你要回退到的位置,最新提交的)git reset --hard HEAD@{n}
2019-07-01 11:19:58
6422
原创 UnicodeEncodeError: 'ascii' codec can't encode characters in position 0-1: ordinal not in range(128)
原因:python默认的编码是ascii,当程序中出了Ascii编码时就会报错解决:reload(sys)sys.getdefaultencoding()sys.setdefaultencoding('utf8')
2019-06-20 21:12:07
283
转载 python安装gevent
Running setup.py install for greenlet ... error解决:sudo easy_install gevent==1.1rc1sudo pip install gevent==1.2.0转载:https://blog.youkuaiyun.com/mhfh611/article/details/54981055
2019-06-18 12:02:49
3252
原创 Python项目生成所有依赖包的清单
1、安装所需工具pip installpipreqs2、进入到python项目主目录pipreqs ./3、完成上面命令会生成requirements.txt4、sudo pip install -r requirements.txt即可
2019-06-17 20:28:25
3068
原创 python导入自定义模块和包
1、终端输入python;import site; site.getsitepackages() 查看package所在位置/Library/Python/2.7/site-packages2、进入到/Library/Python/2.7/site-packages 创建新的文件,加入你要引入的 包,这个包下必须要有_init_.py文件,加入要自定义包名/Users/zqh/mt/Pytho...
2019-06-05 11:34:11
760
原创 ERROR: Cannot uninstall 'six'. It is a distutils installed project and thus we cannot accurately det
sudo pip install thrift --ignore-installed six
2019-06-04 16:54:47
6427
2
原创 Mac安装MySQLdb
mac安装MySQLdb1、官网下载mysql-connectorhttps://dev.mysql.com/downloads/connector/odbc/2、配置环境变量sudo find / -name mysql_config/usr/local/mysql-5.7.26-macos10.14-x86_64sudo vim /etc/profile加入...
2019-06-04 15:42:03
254
原创 hadoopNameNode主从切换命令
主从切换:sudo -iu hdfs /homebin/hdfs haadmin -ns wa-failover r1 r2(意思是将active从r1切换为r2)
2019-05-23 14:41:07
3071
原创 scala 字节流读取hdfs文件递归子目录,同时解决NN standby 切换问题
package processorimport java.io._import java.util.concurrent.{Executors, ExecutorService}import Utils.{HDFSUtil, OperaFunc, MysqlUtil}import org.apache.hadoop.fs.{Path, FSDataInputStream}impo...
2019-03-14 18:27:28
702
原创 使用URLConnection请求服务
public static String processorStream(String url, String param) { System.out.println("========"); PrintWriter out = null; BufferedReader in = null; String result = "";...
2018-12-05 13:54:14
188
原创 hive sql beyond physical memory limits
mapreduce.map.memory.mb=3072; mapreduce.reduce.memory.mb=3072
2018-11-30 18:33:38
405
转载 spring boot com.netflix.hystrix.exception.HystrixRuntimeException: failed and no fallback available
Hystrix属性的4中优先级1. 内置全局默认值(Global default from code)如果下面3种都没有设置,默认是使用此种,后面用“默认值”代指这种。2. 动态全局默认属性(Dynamic global default property)可以通过属性配置来更改全局默认值,后面用“默认属性”代指这种。3. 内置实例默认值(Instance default fro...
2018-11-29 17:04:12
20030
原创 hive 新增字段查询是 null值
不需要每个分区都需加上,只需要如下:1、alter table user_monthly_detail_i_m add columns (test string) cascadecascade关键字即可2、insert owerwrite table user_monthly_detail_i_m add partition (dt='20181127') select * ...
2018-11-27 21:12:12
1532
1
转载 sqoop从mysql抓数据tinyint类型会变成boolean类型
mysql数据库里面的字段是 tinyint 类型通过sqoop 抓取出来的数据在HDFS 上面显示的true、false解决办法:jdbc会把tinyint 认为是java.sql.Types.BIT,然后sqoop就会转为Boolean了,悲剧吧在连接上加上一句话tinyInt1isBit=falsejdbc:mysql://localhost/test?tinyInt1isB...
2018-11-22 22:17:27
472
原创 hive表新增字段和字段注释修改
1、增加字段alter table bi.mei_ike_trans_monthly_detail_i_m ADD COLUMNS (currency STRING COMMENT 'BIZHONG');
2018-11-02 14:46:42
8876
原创 yarn分布式缓存策略
张某 提交的第三方jar /home/zhang/r_igraph.zip ,config[["spark.yarn.dist.archives"]] <- "/home/zhang/miniconda3/envs/r_igraph.zip"config[["spark.r.command"]] <- "./r_igraph.zip/bin/Rscript"confi...
2018-10-31 10:55:21
791
原创 python加密 AES加密解密等同于java AES加密 解密
#!/usr/bin/python# coding:utf-8from Crypto.Cipher import AESfrom decimal import Decimalimport timeimport md5import base64import requestsimport BiDataCalcimport jsonimport datetimeimport ar...
2018-10-29 20:59:21
2287
2
原创 foreachrdd和foreachpartition的区别
DStream是抽象类,它把连续的数据流拆成很多的小RDD数据块, 这叫做“微批次”, spark的流式处理, 都是“微批次处理”。 DStream内部实现上有批次处理时间间隔,滑动窗口等机制来保证每个微批次的时间间隔里, 数据流以RDD的形式发送给spark做进一步处理。因此, 在一个为批次的处理时间间隔里, DStream只产生一个RDD。 可以利用dstream.foreachRDD把数...
2018-10-25 10:50:06
1457
原创 spark on-yarn启动方式,linux脚本判断yarn任务是否存在
#!bin/bashbb="RUNNING"aa=`yarn application -list |grep WA_Zhuqinghua_Order | awk '{print $6}'`if [ "$aa" != "$bb" ]thenecho "开始启动 job Mq_Es_Zhuqinghua_Order"EXTRA_JVM_OPTS="-Dsun.jnu.encod...
2018-10-19 16:58:31
1121
原创 Java请求Http协议接口,流式请求,流式接收
package com.test.gov.supervision.processor.gd.gz;import com.alibaba.fastjson.JSON;import com.alibaba.fastjson.JSONArray;import com.alibaba.fastjson.JSONObject;import com.test.gov.supervision.pro...
2018-10-19 16:53:15
8603
1
原创 Java 使用JDBC连接 Hive(HiveClient On JDBC)
可能会有以下问题: 1. 报错 : user: ** is not allowed to impersonate **可在hive-site.xml中添加<property><name>hive.server2.enable.doAs</name><value>true</value&g...
2018-09-13 20:55:29
837
原创 查询hive sql 结果保存hdfs 或者本地操作如下
查询hive sql 结果保存hdfs 或者本地操作如下一、保存到本地insert overwrite local directory "/tmp/zhuqinghua"select user, login_time from user_login;select userid ,count(*), num from bi.test where date_time = '2018-...
2018-09-13 20:51:37
5057
原创 Hadoop常用命令
1、集群数据迁移 QQ438509676hadoop distcp -D ipc.client.fallback-to-simple-auth-allowed=true -skipcrccheck -update /user/hive/warehouse/tmp.db/test webhdfs://localhost:50070/tmp/cvm_hive_backup/tmp.db/...
2018-09-13 20:41:04
650
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人