
bigdata-大数据专栏
文章平均质量分 58
大数据专栏
我要用代码向我喜欢的女孩表白
已经换工作了,现在在某家安全公司打工。
又换工作了,现在在某金融公司打工
马上失业了,还要还房贷,要饿死了,大家可以私聊联系我,进行投喂,谢谢
展开
-
火山dts迁移工具使用
登录后选择生态工具。(数据库传输服务DTS)选择专有网络(一般上云到火山都是专有网络)(他们产研有bug,先选对象会导致失败)【先选】结构迁移,全量,这些。然后确认订单迁移就行。注意数据库权限,要求。预检查,没问题就忽视。原创 2025-03-28 16:31:17 · 131 阅读 · 0 评论 -
迁移过程中,hive元数据字段校对
有时候在迁移过程中,源端字段可能被修改了,这些都存储在元数据库里,通常我们一般配置的hive元数据库都是mysql。所以我们最快的速度查出结果,就是在mysql里查。然后对比2端表的md5就可以找到哪个表有问题了,再针对这下表结构有问题的,进行修改字段。首先连接hive3.0版本的mysql。原创 2025-02-28 18:18:12 · 281 阅读 · 0 评论 -
hivePB级迁移方案
2、distcp -i -skipcrccheck 源端到目标端,迁移。8、任务校验,客户跑完任务后,校验指定分区的count数和内容的md5。3、元数据迁移,建表,替换location地址,或者导出db。1、评估磁盘空间大小、调整副本数、设置heapsize大小。9、任务改造,如果md5不一样,说明此表需要做任务改造。7、根据ditcp不对的,进行补数脚本,删分区,重拉。6、校验历史分区脚本,表结构,大小,文件数。11、校验成功后,切任务,跑当天的数据。5、配置增量T-1迁移或者T-2。原创 2025-02-27 09:45:55 · 331 阅读 · 0 评论 -
hive全量迁移脚本
input_table.txt要保证,里面是一个个表名,并且他们都在同一个hdfs库的目录下。原创 2025-02-17 16:02:54 · 356 阅读 · 0 评论 -
HDFS核对迁移的历史数据是否正确
分区数量、最近分区、最老分区、表文件数量、表文件大小、表字段是否一样、统计日期。原创 2025-02-12 15:13:51 · 441 阅读 · 0 评论 -
增量hdfs数据追平
1、假设客户只改了最近的分区。他不会去修改历史的分区表,如果大量改历史的分区表,那纯纯把hive当mysql用了。这样我们就只能找出变动的表,然后删除,重新迁移。2、此处是确保他们不会大量改历史分区,只有少部分改(删除,重新迁移),但是他们会改最近分区,我们不能确保他的任务迁移过程中,修改了数据。所以这里我们删除的是最新分区的数据,然后在进行对表update(这样也可以把新增的表迁移过来)。原创 2025-02-10 15:00:42 · 209 阅读 · 0 评论 -
设置keytab票据的过期时间
设置过期时间,注意不能设置过去的时间。然后找到你要修改的票据。首先进入kdc的服务。原创 2025-02-10 10:39:18 · 108 阅读 · 0 评论 -
Hive执行命令报错Permission denied: user [xxx] does not have [USE] privilege on [Unknown resource!!
存在ranger策略的条件下,通过beeline连接后,执行showdatabase报错。勾选这个Policy Name旁边的normal。在ranger中加入相关策略。(这个在本文无参考价值)原创 2024-12-18 11:50:30 · 425 阅读 · 0 评论 -
starRocks搭建
公司要使用新的大数据架构,打算用国产代替国外的大数据平台。所以这里我就纠结用doris还是starrocks,如果用doris,因为是开源的,以后就可以直接用云厂商的。如果用starrocks就得自己搭建,但是以后肯定会商业化,也是要收钱的。经过权衡,我选择了starrocks。用他来做数仓,代替我们以前cdh里的hive-presto或者kudu-impala。原创 2024-07-11 08:27:15 · 1167 阅读 · 0 评论 -
Unable to start failover controller. Parent znode does not exist.Run with -formatZK flag to initial
CDH出现了这个问题,hdfs报错因为我之前重新安装了zookeeper,导致zookeeper中的namenode信息丢失。然后之前的name node 挂了,看角色日志是这个问题。原创 2024-06-12 10:27:23 · 199 阅读 · 0 评论 -
cdh中的zookeeper怎么配置zoo.cfg
你手动改了zoo.cfg目录是不会生效的,因为是cdh在管控,所以只能通过cdh修改。原创 2024-06-12 09:11:02 · 475 阅读 · 0 评论 -
elasticsearch自定义企业词典
我们中文分词用的是ik,但是ik只是对基本的中文词进行了分词,而对于企业或者人名没有进行分词。比如,我搜索中国平安,那么ik只能分成中国、平安如果这样,这肯定是不行滴!接下来,俺就教你,如何创建词典。原创 2023-03-08 18:24:12 · 1703 阅读 · 0 评论 -
es集群搭建
docker容器化部署es集群。原创 2023-01-28 18:17:33 · 895 阅读 · 2 评论 -
ubantu18.04搭建cdh6.3 (按照我的版本,百分之百搭建出来)
我以前用centos7搭建过十几遍cdh(生产,测试,客户,云上,poc,教学,虚拟机)今天试试ubantu搭建。cdh配置繁琐,但是组件安装超级方便,只需要配置一次,可使用绝大部分大数据组件,并且自带监控功能,组件配置都是一键自动依赖启动,在管理界面,配置所有组件,这就是他的方便。原创 2022-09-30 09:19:42 · 1839 阅读 · 4 评论 -
Clickhouse分享
Clickhouse是一款由俄罗斯百度yandex公司开源的一款,消耗cpu,不适合实时插入(毫米级),但是可以快速使用sql查询的引擎。查询最适合的是做实时分析(秒级),实时写入可以通过kafka缓存做批量写入,统计查询,列出的。原创 2022-09-28 13:59:08 · 1669 阅读 · 0 评论 -
spark集群搭建
spark有4种模式,单节点(没人用)这里主要搭建yarn和standalone原创 2022-09-27 10:26:47 · 1120 阅读 · 2 评论 -
大数据组件之Hbase(整体分享)
我记得我刚工作那年19年的春天,对hbase还是比较恐惧的,因为里面存储的是字节,后来我专门去当讲师,去学习,克服了恐惧,了解了原理,再后来在安全公司专门用hbase对他企业级的有了更多的理解。所以作为我最喜欢的库之一,写了很多文档,但是没有一个汇总,这篇就是我对hbase的汇总吧。作为一个组内分享使用,目的是,让同事们,看完之后能知道Hbase的前因后果,以及使用场景,选型时的瓶颈,以及能够使用。根据实际业务场景来,来了问题,先调研(选型组件),瓶颈,熟悉组件原理,安装与使用组件。原创 2022-09-09 17:28:39 · 1224 阅读 · 0 评论 -
大数据处理规范(选型测试),自用
用完时序数据库的时候,我悟了,车企每天2T的数据。让我感觉到,我以前的大数据就是随便处理着玩。有必要建立一套属于自己的数据处理规范的方法了。原创 2022-09-02 13:40:07 · 1190 阅读 · 0 评论 -
时序数据库太爽了TDengine3.0(tdengine和druid等性能对比)
另外建表语句,第一个必须为timestamp类型,他是以这个进行排序的,默认全部都帮你排序好了,用起来很舒服。满足外卖或者行车的相关地图。在地图上,我们需要获取电动车的路径,所以要知道他行走的时间。因为目前在做gps相关的,电动车里面有个终端,会不停的上报数据到后端,包括经纬度。于是选择了TDengine(和sql差距不大,唯一差距大的就是字段不一样)注意的坑就是,varchar(20)类型对应他的nchar(20)nchar(20)会直接占用20个空间。每天1w辆车,每5秒上报一次,数据量都过亿。....原创 2022-08-31 16:45:00 · 1967 阅读 · 0 评论 -
flink学习(未完成,待补充)
flink国内由巨头阿里推动,他是可以一条一条处理,而sparkStreaming必须集齐了一个batch他才会处理。要求非常高的处理速度,一条一条的要求,flink是首选。只用记住关键区别,spark是个很牛逼的项目,3.0后的spark支持了df格式,更牛逼。1.flink和sparkStreaming的区别。今天为了提高自己,整体学习一下flink。4.flink消费kafka。3.flink的安装集成。...原创 2022-08-29 10:37:40 · 270 阅读 · 0 评论 -
python连接presto
presto-python-client(官方版本,值得信赖)spark查询30G数据要6分钟(3台机器)内存差点搞爆。presto查询只用了30秒,只用了6G内存。原创 2022-08-24 21:57:33 · 779 阅读 · 0 评论 -
pyspark操作hive,操作kafka
2.安装pyspark(要与大数据平台spark版本保持一致,大数据平台我搭建的是cdh6,他的spark是2.4)原创 2022-08-24 09:41:05 · 692 阅读 · 0 评论 -
hive建表,与插入数据
固建立临时表(不分区),导入数据到临时表,创建分区表,通过【insert 分区表 select 临时表】 导入分区表。,需要通过insert parquet格式的表 select * textfile格式的表)存储格式用parquet,压缩数据,比orc差,查询一致,但是插入快(一致,他会把hdfs的文件copy到hdfs的hive表下。思路,hive导入分区表,只能通过临时表导入。准备数据,这种数据是textfile格式。数据是以,切分的 row format。这是解压后的,实际上的数据是.gz的。原创 2022-08-23 15:38:31 · 3483 阅读 · 0 评论 -
cube-studio配置镜像仓库并执行jar
名称【你harbor中建立的项目仓库名,当然,你也可以自己写一个名字,他不会使用此名称去连接harbor,仅仅是作为cube-studio中的仓库名称】在command中执行,docker中的命令,点击旁边的保存,将右边导航栏,拉在最上面,点击run。,从仓库到版本都要写上,我之前就在这里踩了坑,不写版本默认,拉取latest版本】我的镜像是提前已经全部构建好了,所有的配置,是独立进行配置的,所以不用写其他。"describe": "启动命令",在导航栏目录上选择,训练-》仓库,点击右边的+号,新增。...原创 2022-08-10 13:57:18 · 1122 阅读 · 2 评论 -
独立机器连接cdh的spark集群,远程提交任务(绝对可以成功,亲测了n遍)
local就是用本地spark执行,除了测试以外基本不会用,而且如果使用yarn模式或者其他模式,在代码中使用了local,还会导致spark-submit提交时,spark不知道以yarn模式运行还是以local模式执行,导致报错。spark-submit yarn提交任务,他会去读取HADOOP_HOME目录下yarn-site.xml以及其他配置,然后,通过driver去连接配置所对应的工作节点(集群上的节点),然后执行任务,将日志同步给本节点。yarn模式 cdh的模式 ,也是国内最多的模式。..原创 2022-08-08 11:25:36 · 2150 阅读 · 2 评论 -
cdh6,使用oozie进行spark的jar任务调度
首先准备1个jar然后保证他丢到服务器,能用spark-submit /跑。首先你得有oozie和hue,安装好了,才行。原创 2022-08-06 15:04:12 · 912 阅读 · 0 评论 -
presto搭建,并配置hive
hive中的表字段不能为中文,如果为中文,presto会连接超时,但是hive本身以及hue或者spark都不会有影响。只有presto会连接超时英文开始正题:搭建什么的很简单。就是上面那个玩意,把我整傻了。因为他的报错原因就1个,超时。根本搜不到解决方案。谁能想到超时和中文字段有关?:)...原创 2022-08-04 23:57:39 · 1367 阅读 · 4 评论 -
spark往hive里读写数据
里面加1个这个,记得要先创建hadoop fs -mkdir /test。insert into 表 select * xxx。首先除了spark的依赖外要加上。然后将文件copy到项目的。原创 2022-08-04 14:10:59 · 633 阅读 · 0 评论 -
idea去掉spark的日志
尤其是这2个,要删除,否则会导致你设置的log4j.proerpties失效。1.直接在代码里设置日志级别,包含直接类中添加,和使用继承类(不推荐)spark默认会答应info,信息,他内置有log4j。3.添加log4j.prperties。创建一个这样的文件,名称也要一样。2.修改他的全局配置(不推荐)故,我们有3种方式解决。...原创 2022-08-04 09:44:00 · 1887 阅读 · 0 评论 -
CDH6的Hue打开出现‘ascii‘ codec can‘t encode characters
他说ascii(美国的编码),不能编译某个,他不认识的编码。所以说,我们改成utf-8编码就行。原创 2022-08-01 10:12:11 · 720 阅读 · 0 评论 -
cdh6打开oozieWeb页面,Oozie web console is disabled.
从页面上看,提示,enableinstalltheExtJSlibrary。上传他到linux的某个目录下,我放到是根目录/翻译要启用web,需要安装extjs的包。解压到cdh的oozie可识别目录。可以了,重启oozie都不需要。包地址,我是用csdn下载的。...原创 2022-08-01 09:57:13 · 212 阅读 · 0 评论 -
Oozie工作调度
最常用的调度是crontab,然后spring是schedule.而cdh平台里面的是oozie,可以在hue上操作,非常方便。原创 2022-07-28 14:55:10 · 130 阅读 · 0 评论 -
CDH集群集成外部Flink(改进版-与时俱进)
参考文章中,给出的cdh编译后的flink,已经下架,所以我们得想办法,编译。参考别人的文章不可怕,怕的是,不思进取,我们可以参考别人的文章,并且对不足之处,进行改进,将优秀的地方,进行学习,这样我们国家和民族的技术文章和社区,才能不断进步。可能有一天我不干程序员了,但是技术更新了,那时,我也希望,我的文章能被别人拿走,进行改进,造福开源社区。于是,此文章是基于参考文章为基础,进行的改进版。...............原创 2022-07-26 18:07:38 · 2228 阅读 · 4 评论 -
CDH集群使用spark作为hive查询引擎(实时查询)
Hive我们用来搭建数仓,对于大量数据以及离线数仓,可以满足,但是他不能满足实时查询的情况,如果这次客户来了个需求,不在我们统计分析的指标内。那你单独写SQL,然后通过mr底层,就不能立刻出结果,运行sql和统计将消耗大量时间。当然有多种方案(impala+kudu)(presto)都可以。我在CDH上使用,自己的虚拟机测试,避免搭建与启动内存过大,所以采用了spark。...原创 2022-07-26 10:21:23 · 1746 阅读 · 0 评论 -
cdh集群搭建(6.3)
6.3是社区的免费版,再往后是收费版,目前官方已经取消了地址,大家可以从我下面给出的地址中获取,云服务器12月到期,我不打算继续续费(一年2000,2MB下载速度,大家觉得下的慢,可以联系我,提供赞助,只要钱够,想要多快的服务器,阿里都提供)我打算全部删除,重新来一次,文档要修改的非常细,这样我以后就可以3小时内搭完。硬件要求官方建议,主节点内存32GB,2核心以上,从节点16GB,2核以上。文档老了,花了2天,解决完所有bug,先来一张图。虚拟机化测试,官方建议,社区版,,企业版最低要求,10G。....原创 2022-07-19 18:54:36 · 4090 阅读 · 23 评论 -
部署存稿(测试自用)
今天研发总监让我去挂硬盘,我确认了一下,客户如何使用,果然要去客户本地部署。为了部署方便,我在这里记下,需要修改的东西。2个配置文件:hbase.propertieshbase.master = 192.168.31.42:60000hbase.zk_port = 2181hbase.zk_quorum = 192.168.31.42system.properties(/data/docker_share服务器要创建这个目录)prefix.checked =/data/d原创 2021-10-02 09:07:23 · 157 阅读 · 0 评论 -
zookeeper搭建
1年前搭建的,但是是自己做的文档,没有发到网上,现在补发一下其中txt的内容解压zookeeper根目录为 /hadoop/zookeepercd /hadoop/zookeepermkdir zkDatacd confmv zoo_sample.cfg zoo.cfgvi zoo.cfg----dataDir=/hadoop/zookeeper/zkData----/hadoop/zookeeper-3.4.10启动cd /hadoop/zookeeperbin/zkSe原创 2021-09-24 11:24:58 · 140 阅读 · 0 评论 -
Hive安装详解
本文是我写的word文档-格式有点变化,请见谅跟着文档一定能装好,有什么问题 可以在下方留言。看到后,会进行解答1.Hive官网地址http://hive.apache.org/2.文档查看地址https://cwiki.apache.org/confluence/display/Hive/GettingStarted3.下载地址http://archive.apache.org/dist/hive/安装地址: https://archive.apache.org/dist/原创 2021-03-18 10:46:31 · 283 阅读 · 0 评论 -
SparkStreaming Restarting receiver with delay 2000 ms: Error connecting to 192.168.43.101:9999 java.
使用官方实例连接sparkStreaming出错,一直连接不上。一会儿能行,一会儿不行。1.防火墙我关闭了,service iptables stop查看service iptables status ,已经关闭了dead了还是报错2.我用的是centos7centos7,有2个防火墙。systemctl status firewalld 他运行的呢service firewalld stop 关闭了,成功他有毛病,为啥有2个防火墙...原创 2020-06-30 17:33:12 · 5850 阅读 · 0 评论 -
spark Mllib 决策树模型训练与效果检测
1.导包:<?xml version="1.0" encoding="UTF-8"?><project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 https://maven.apache.org/xsd/maven-4..原创 2021-02-01 17:22:49 · 527 阅读 · 0 评论