- 博客(119)
- 资源 (7)
- 收藏
- 关注
原创 kali 安装无线网卡路程
输入上述命令之后,在执行 sudo apt-get update 和 sudo apt-get upgrade 就不会有问题了。apt upgrade && apt-get dist-upgrade 升级系统相关依赖。解决安装头文件问题,更新完内核,reboot重启,选择以及安装头文件的内核即可。apt upgrade 命令将尝试下载在apt服务器上具有更新的所有软件包。2、添加gpg,不然添加签名会报找不到有效的OpenPGP数据。安装aptitude来管理包,强烈推荐,不然很痛苦。
2023-07-06 15:58:35
823
原创 Better Explained 以通俗易懂的语言阐释数学
Finally understand math, don't memorize it.
2023-06-08 18:05:58
245
原创 flink1.13.2 代码编译
执行命令:使用spotless来格式化代码。在编译或提交之前,请运行。执行:mvn clean install -DskipTests。
2023-05-20 22:32:41
168
原创 由于hadoop高可用状态切换,导致hive在指定数据库下建立以及读取表失败
问题描述:因为cdh集群,hadoop启用了HA高可用,之前node1节点为active,现在变成了node2节点为standby。而且之前hive建库的时候,LOCATION=hdfs://node1:8020/user/warehouse/dir.....定位:由于配置文件hive-site.xml、core-site.xml、hdfs-site.xml等有关配置文件都替换了最新,都是配置了hdfs://高可用地址/导致库里面的表默认都是获取DB的location来拼接的表的hdfs路径。
2023-03-14 18:30:40
639
原创 Flink中allowedLateness介绍与测试
默认情况下,当watermark通过end-of-window之后,再有之前的数据到达时,这些数据会被删除。为了避免有些迟到的数据被删除,因此产生了allowedLateness的概念。简单来讲,allowedLateness就是针对event time而言,对于watermark超过end-of-window之后,还允许有一段时间(也是以event time来衡量)来等待之前的数据到达,以便再次处理这些数据默认情况下,如果不指定allowedLateness,其值是0,即对于watermark
2022-02-24 19:20:33
1433
原创 Flink watermark 测试
代码如下:package com.cuichunchi.watermark;import org.apache.flink.api.common.eventtime.SerializableTimestampAssigner;import org.apache.flink.api.common.eventtime.WatermarkStrategy;import org.apache.flink.api.common.functions.MapFunction;import org.apac
2022-02-23 23:30:59
779
原创 Flink Sort-shuffle简介
Flink Sort-Shuffle 实现简介sort-shuffle 使得 Flink 在应对大规模批数据处理任务时更加游刃有余。https://mp.weixin.qq.com/s?__biz=MzU3Mzg4OTMyNQ==&mid=2247494455&idx=1&sn=7de90d250794ea095847d82d02b8dc30&chksm=fd386575ca4fec634aae8b3d8567c60e3b9ab95d7c1d492c07a63bed0fc9e
2022-02-23 15:40:53
514
原创 Tez调优参数总结
hive.tez.auto.reducer.parallelism=falsehive.tez.bucket.pruning=falsehive.tez.bucket.pruning.compat=truehive.tez.container.max.java.heap.fraction=0.8hive.tez.container.size=768hive.tez.cpu.vcores=-1hive.tez.dynamic.partition.pruning=truehive.tez.dyn.
2022-02-17 12:54:07
3698
原创 Hive调优参数总结
MR程序 优化参数1、客户端显示以及job任务名和优先级##打印表头set hive.cli.print.header=true;set hive.cli.print.row.to.vertical=true;set hive.cli.print.row.to.vertical.num=1;##显示当前数据库set hive.cli.print.current.db=true;##job任务名set mapreduce.job.name=p_${v_date};##job优先级se.
2022-02-17 12:53:29
1673
原创 Flink CDC 问题以及测试记录(持续更新...)
问题及测试集锦1、flink cdc 的 api兼容的ddl的结构变更吗?2、cdc 比如增量消费 然后 kill任务 再恢复?3、mysql cdc 设置了检查点,sink到kafka,重启作业,为啥全量的数据还是会重新发送到kafka
2022-01-13 18:52:09
1747
原创 Kafka 问题以及调优参数集锦
producer类参数:1、request.timeout.ms:配置控制客户端等待请求响应的最长时间。如果在超时时间过去之前未收到响应,则客户端将在必要时重新发送请求,或者在重试次数用尽时使请求失败。默认值:30000ms。注:该参数适合集群资源不高,带宽较低、且生产者频繁发送消息到topic。超时可能报以下错误信息,我在压测过程中发现的错误信息,并改为了60s,集群3台带宽4M(理想吞吐512KB/s).Expiring 7 record(s) for test_producer-0: 60
2022-01-05 22:03:46
698
原创 kafka压测多维度分析实战
设置虚拟机不同的带宽来进行模拟压测---------kafka数据压测-------------------1、公司生产kafka集群硬盘:单台500G、共3台、日志保留7天。 1.1 版本:1.1.0-----2、压测kafka。 2.1 使用kafka自带压测工具:bin/kafka-producer-perf-test.sh 命令参数解释: --num-records :总共发送多少条消息。...
2021-12-31 00:27:04
1173
原创 基于Flink 1.13.2问题集锦
问题:1、使用flink mysql cdc 发现bigint unsigned类型的字段,capture以后转成了字符串类型,用的这个解析吧JsonDebeziumDeserializationSchema。解决:在设置debeziumProperties方法里传入以下参数:properties.setProperty("bigint.unsigned.handling.mode","long");properties.setProperty("decimal.handling.mode"
2021-12-14 14:12:03
2681
原创 Flink 1.13 一些配置参数记录
持续更新...网络通信: akka.ask.timeout:用于异步futures和阻塞调用Akka的超时,如果flink因为超时而失败,则可以尝试增加此值,超时可能是由于机器速度慢或网络拥挤造成的。超时值需要时间单位说明符(ms/s/min/h/d)。源码默认值:10s。所属源码类:AkkaOptions。 akka.tcp.timeout:用于和taskManager之间的通信,如果由于网络速度较慢而在连接TaskManager时遇到问题,则应增加此值。默认值:20s。源码类:A
2021-12-12 17:35:20
4663
原创 hive 添加字段,字段值错位问题
hive中在表结构中添加字段,并将字段指定到于业务库相对的位置:alter table ods_test.ods_ppy_op_op_supplier_goods_quote_apply add columns (storage_id bigint comment '仓库id') cascade; alter table ods_test.ods_ppy_op_op_supplier_goods_quote_apply change storage_id storage_id bigi...
2021-11-02 18:03:09
2586
1
原创 apache griffin安装编译及使用
1、编译报如下错:表示是没有这个kafka-schema-registry-client的jar包,从仓库中找不到。解决:从https://mvnrepository.com/artifact/io.confluent/kafka-schema-registry-client/3.2.0这个地址获取对应的版本或者直接从https://packages.confluent.io/maven/io/confluent/kafka-schema-registry-client/3.2.0/下载
2021-05-14 16:35:18
347
原创 centos7 安装node、npm[亲测有效]
centos7 安装node、npm进入官网https://nodejs.org/en/download/或者直接在liunx执行命令:wget https://nodejs.org/dist/v14.17.0/node-v14.17.0-linux-x64.tar.gztar -zxvf node-v14.17.0-linux-x64.tar.gz然后创建软件链接:ln -s /home/node-v14/bin/node /usr/local/binln -s /home/node-v1
2021-05-14 15:43:42
1059
原创 spark sql 多个where条件导致任务失败
spark sql单条查询select * from aa where`逾期总金额` is not null or `累计逾期次数` is not null or `卡系统放款日期` is not null or `机构名` is not null or `账户状态` is not null or `透支息` is not null or `R系统流水号` is not null or `分期余额` is not null or `R系统产品码` is not null or `所属地区` is..
2021-03-09 20:47:00
907
2
原创 2021-03-09
爬百度文库内容:var str ="";var size = document.getElementsByClassName("reader-word-layer").length;for(var i =0 ; i< size ; i++){ str += document.getElementsByClassName("reader-word-layer")[i].innerHTML}console.info(str)
2021-03-09 15:10:49
75
原创 spark sql的dataframe的动态传列名
第一:针对sparksql 的dataframe的动态自定义列名的解决方案正常写法:因为def toDF(colNames : _root_.scala.Predef.String*) : org.apache.spark.sql.DataFrame = { /* compiled code */ }所以如果作为入参传入,则解决方式以下:第二:调用select函数动态传入:正常写法:解决方案:...
2021-02-22 15:06:37
900
1
原创 Hadoop大数据Reduce阶段源码个人分析以及配置讲解
再次看hadoop源码收集每一步使用到的参数用于后期调优官网地址:https://hadoop.apache.org/docs/stable/hadoop-project-dist/hadoop-common/core-default.xmlhttps://hadoop.apache.org/docs/stable/hadoop-project-dist/hadoop-hdfs/hdfs-default.xmlhttps://hadoop.apache.org/docs/stable/had
2020-12-07 14:29:48
310
原创 hadoop中mapreduce源码个人记录
以下主要分析记录map阶段:org.apache.hadoop.mapred.MapTask$MapOutputBufferpublic static class MapOutputBuffer<K extends Object, V extends Object> implements MapOutputCollector<K, V>, IndexedSortable{//省略...public void init(MapOutputCollector.Co
2020-11-24 20:55:52
170
原创 hadoop中mapreduce的内存环形缓冲区个人讲解
map阶段的内存环形缓冲区相关参数配置:mapreduce.task.io.sort.mb:排序文件时需要使用的缓冲内存总量,默认100mapreduce.map.sort.spill.percent:阈值,当内存达到80%的io.sort.mb,则写入到文件。以下是个人图解,后期概念在补齐:...
2020-11-23 20:17:21
1404
原创 Hive中支持正则表达式根据需求输出指定的列
本人采用hive-1.1版本表中的数据以及列名如下:日常工作中我们需要用到两种方式:第一种:过滤调不需要的列名如下:SELECT `(id|100name)?+.+` from st;不需要id和100name的列名第二种:需要某些有相似性的列名如下:SELECT `.+name` from st;需要以name为后缀的所有列名...
2020-11-23 16:20:42
2144
2
原创 YARN 各个阶段配置参数总结,方便查找优化
YARN配置参数介绍通信地址类参数: 参数名称 默认值 说明 Yarn.resourcemanager.address 0.0.0.0:8032 RM对外的IPC地址 Yarn.resourcemanager.scheduler.address 0.0.0.0:8030 调度器对外的IPC地址 Yarn.r
2020-11-18 20:30:07
1329
原创 sqoop支持Hcatalog使用hcatalog参数后问题集锦
官网:http://sqoop.apache.org/docs/1.4.6/SqoopUserGuide.html#_purpose_4问题描述:sqoop1.4.6hadoop2.7.3hive-2.1.1本人编写的sqoop脚本如下:参数解释:--hcatalog-database指定HCatalog表的数据库名称。如果未指定,default则使用默认数据库名称。提供--hcatalog-database不带选项--hcatalog-table是错误的。这不是必需的.
2020-11-18 14:15:31
8710
6
原创 分享企业级HIVE数仓规范文档----对管理数仓很有帮助
数据仓库实施方案 文件编号:V0.1 生效日期: 编制人: 审核人: 批准人: 日期:2019.08.29 日期: 日期: 关键词 数据仓库数据模型 一、前言1.1.编写目的为了保证大数据平台整体可控性,实现脉络清晰的管理,提高开发效率和程序的可读性,降低程序编写...
2020-11-08 14:34:57
393
原创 Lua脚本介绍以及编辑器的介绍
编辑器软件LuaStudio一:Lua脚本 说来也巧,redis的大老板给了你解决这种问题的方法,那就是Lua脚本,而且redis的最新版本也支持Lua Script debug,这应该也是未来Redis的一个发展趋势,要想学好Redis,必会Lua Script。。。作为一门过程型动态语言,Lua有着如下的特性1、变量名m没有类型,值才有类型,变量名在运行时可与...
2020-11-08 14:17:04
5670
原创 CDH5.12.1集成TEZ-0.9.1
经过较长时间的痛苦编译过程中以及找了很多博客尝试,以下博客,本人尝试可用CDH集成Tez本人CDH5.12.1版本 hadoop版本是2.6.0以下是本人编译过后的tez包,高版本的CDH可用上面的链接完成编译,过程较为痛苦漫长。https://download.youkuaiyun.com/download/cuichunchi/13061602同版本的小伙伴可以拿来直接使用,安装上面的文章配置即可...
2020-10-27 17:54:23
189
原创 Hive on tez 运行报错集锦
执行 hive:直接报java.lang.ClassNotFoundException: org.apache.hadoop.mapred.MRVersionCDH集群安装组件都ok,在Hue界面中使用Hive的HQL是都是ok的但是直接在liunx中,打开客户端命令:执行 hive:直接报java.lang.ClassNotFoundException: org.apache.hadoop.mapred.MRVersion解决方案:因为CDH的hive-site.xml配置文件中没
2020-10-26 15:32:24
2138
原创 Hive 动态分区插入数据总结
Hive 动态分区插入数据总结1、问题描述执行以下sql导致reduce端OOM,分区数有485个按天分区,数据主要是存量数据一次性导入数仓中遇到的问题。服务器 :8核12G内存Map内存参数值:mapreduce.map.memory.mb=1024mapreduce.map.java.opts=-Xmx768m-XX:+UseConcMarkSweepGC;Reduce内存参数值:mapreduce.reduce.memory.mb=2048mapreduce.re.
2020-09-23 15:16:49
1028
原创 Hive、Tez、Yarn资源问题总结以及优化参数
Hive、Tez、Yarn资源问题总结以及优化参数问题解决Hadoop版本:2.7.3Hive版本: 2.1.1Tez版本: 0.9.1问题描述:Hive集成Tez后,配置默认选择的执行引擎为tez,如下hive-site.xml配置截图。在服务器上直接执行hive命令,可以正常进入hive客户端,执行 set hive.execution.engine;当set hive.execution.engine=mr;以mr作为执行引擎时,执行一些聚合,统计类的..
2020-09-17 20:22:39
1543
原创 Hive的执行引擎Tez、spark出现的问题
Hive on Tez中,切换成mr引擎出现以下问题:hadoop版本为2.7.3tez版本为0.9.1因为tez安装目录中应该有hadoop-mapreduce-client-core、hadoop-mapreduce-client-common等jar,hadoop中也有hadoop-mapreduce-client-core、hadoop-mapreduce-client-common等jar,确认他们的版本是否相同,如果不同,会有这个问题;解决:将tez低版本的jar替换成2.7
2020-09-15 22:56:02
1822
原创 Sqoop导入hive中null字符串处理为NULL
如图所示图中的null为字符串null,当使用查询工具,转为json时候全是字符串null。图为我的导出脚本,已经添加了 导出设置null参数:--null-string,--null-non-string,但是测验中,还是不行,后来查询了官网对hive的null的描述:发现需要在表级设置’serialization.null.format’参数。alter table ${table_name} SET SERDEPROPERTIES('serialization.null.fo
2020-08-26 20:47:30
1817
原创 Hive集成Tez引擎跑任务出现的问题
问题1:Hive集成Tez引擎跑任务出现异常:TaskAttempt 3 failed, info=[Error: Error while running task ( failure ) : attempt_1597977573448_0002_1_16_000000_3:java.lang.RuntimeException: java.lang.OutOfMemoryError: Java heap space看yarn 的job平台是success的,所以想到Tez的内存设置问题,因为Tez引擎是
2020-08-21 11:23:39
4494
apache-tez-0.9.1.zip编译后的CDH5.12.1
2020-10-27
黑暗之魂游戏攻略
2017-01-13
毕业论文管理系统
2017-01-13
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人